• Nie Znaleziono Wyników

Podejście regresyjne w budowie drzew klasyfikacyjnych CART

N/A
N/A
Protected

Academic year: 2021

Share "Podejście regresyjne w budowie drzew klasyfikacyjnych CART"

Copied!
17
0
0

Pełen tekst

(1)Zeszyty Naukowe nr. 680. 2005. Akademii Ekonomicznej w Krakowie. Mariusz ¸apczyƒski Katedra Analizy Rynku i Badaƒ Marketingowych. PodejÊcie regresyjne w budowie drzew klasyfikacyjnych CART 1. Wprowadzenie Drzewa klasyfikacyjne i regresyjne to narzędzia data mining służące do budowy modeli deskryptywnych i predykcyjnych. O drzewach klasyfikacyjnych można mówić wtedy, gdy zmienna zależna znajduje się na nominalnym lub porządkowym poziomie pomiaru, natomiast o drzewach regresyjnych wtedy, gdy poziom pomiaru tej zmiennej jest co najmniej przedziałowy. Czasem metody te nazywa się ogólnie drzewami klasyfikacyjnymi, które, w zależności od poziomu pomiaru zmiennej objaśnianej, pozwalają budować modele dyskryminacyjne bądź regresyjne. Za najbardziej zaawansowany algorytm budowy drzew klasyfikacyjnych i regresyjnych uznaje się CART (Classification and Regression Trees). Mimo że narzędzie to powstało na początku lat 80. ubiegłego stulecia, to do dziś doczekało się nieznacznych modyfikacji i stanowi odrębną „rodzinę” algorytmów drzewkowych. 2. Zasady budowy drzew regresyjnych Analiza z zastosowaniem drzew regresyjnych jest zbliżona do analizy z zastosowaniem drzew dyskryminacyjnych. Także i tutaj dokonuje się rekurencyjnego podziału zbioru obserwacji na rozłączne podzbiory, przy czym poziom pomiaru zmiennej zależnej jest co najmniej przedziałowy, a jej przewidywana wartość w węzłach końcowych jest stała. Drzewkowe podejście do regresji ma kilka zalet:.

(2) Mariusz Łapczyński. 136. – nie trzeba przekodowywać wielokategorialnych jakościowych zmiennych niezależnych na zmienne zerojedynkowe (dummy variables)1, – nie ma potrzeby standaryzowania różnoimiennych predyktorów, – związki między zmiennymi nie muszą być liniowe, – rozkłady zmiennych nie muszą być normalne (nie ma także obowiązku przekształcania zmiennych, które utrudnia interpretację). Trzeba tu jednak podkreślić, że jeśli spełnione są wymogi regresji wielorakiej, to należy wybrać ten właśnie sposób analizy danych. Drzewa regresyjne w wypadku liniowych związków dają gorsze wyniki2. Podczas budowy drzew regresyjnych, niską wartość kosztu resubstytucji zapewniają wartości zmiennej zależnej, których wartość jest bliska lub równa średniej w danym liściu. Najlepszy podział danego węzła to taki, w którym występuje największy spadek kosztu resubstytucji. Podsumowując: drzewo regresyjne jest tworzone przez iteracyjne podziały zbioru obserwacji minimalizujące koszt resubstytucji. W przeciwieństwie do drzew klasyfikacyjnych, nie chodzi wyłącznie o minimalizację błędu klasyfikacji, ale także o to, aby na danym etapie podziału rozdzielić wysokie i niskie wartości zmiennej zależnej. Należy tu dodać, że w poprawnie zbudowanym modelu zawsze do jednego wydzielonego węzła trafiają wartości wyższe, a do drugiego niższe od wartości w węźle macierzystym (rys. 1).. 20. 20. 19. 22. 5. 40. Rys. 1. Przykład wartości w węźle macierzystym i węzłach potomkach Źródło: opracowanie własne.. Etapy analizy z użyciem drzew regresyjnych są następujące: 1) wybór reguły podziału, 2) wybór kryterium stopu (określenie, kiedy węzeł drzewa staje się liściem), 3) oszacowanie jakości modelu, 4) określenie reguły przydzielającej obserwacje do liści drzewa. 1 Zaleca się przekodowanie dopiero wówczas, gdy liczba wariantów zmiennej jakościowej przekracza 15. 2 L. Breiman i in., Classification and Regression Trees, Chapman & Hill/CRC, New York 1998, s. 264..

(3) Podejście regresyjne w budowie drzew klasyfikacyjnych CART. 137. Najczęściej stosowanymi w praktyce regułami podziału3 są wariancja i odchylenie przeciętne. W pierwszym wypadku liczy się średnią wartość zmiennej zależnej w liściu i podaje wariancję znajdujących się w nim przypadków (czasem także odchylenie standardowe). W drugim wypadku szacowana jest mediana zmiennej zależnej oraz średnie odchylenie bezwzględne obserwacji znajdujących się w liściu. Węzeł staje się maksymalnie homogeniczny w sytuacji, gdy wszystkie znajdujące się w nim przypadki są równe odpowiednio: średniej lub medianie. Wybór reguły podziału ma wpływ na ostateczną postać modelu. Odchylenie przeciętne jest odporne na przypadki odstające i asymetryczne rozkłady zmiennych, jednak wariancja zapewnia wyższą trafność predykcji. W wypadku drzew regresyjnych nie ma potrzeby ustalania prawdopodobieństw a priori pojawienia się klas. Podobnie jak w odniesieniu do drzew klasyfikacyjnych, podział drzewa zaczyna się od całego zbioru obserwacji i kończy teoretycznie wtedy, gdy każdy przypadek trafi do odrębnego liścia. Gdyby takie rozwiązanie uznać za ostateczne, to błąd predykcji wynosiłby 0, ale liczba reguł typu „jeżeli…, to…” byłaby równa liczbie obserwacji, co powodowałoby, że praktyczne wykorzystanie modelu byłoby niemożliwe. Przyjmuje się zazwyczaj4, że minimalna liczebność węzła końcowego jest równa 5. Ogólnie rzecz biorąc, koszt resubstytucji maleje wraz ze wzrostem liczby węzłów końcowych modelu, co najłatwiej przedstawić na rysunku (rys. 2).. Błąd predykcji. 1,00 0,75 0,50 0,25. 20. 40. 60. 80. 100. 120. Liczba węzłów końcowych. Rys. 2. Schemat zależności między wielkością drzewa a błędem predykcji Źródło: opracowanie własne.. 3. E. Gatnar, Nieparametryczna metoda dyskryminacji i regresji, PWN, Warszawa 2001, s. 139. 4 L. Breiman i in., op. cit., s. 233..

(4) Mariusz Łapczyński. 138. W wypadku drzew klasyfikacyjnych podział zbioru kończył się wtedy, gdy węzeł był czysty, tzn. zawierał przypadki należące tylko do jednej kategorii zmiennej zależnej lub gdy jego liczebność zrównała się z minimalną przyjętą liczebnością (ew. frakcją obiektów). Jeśli chodzi o drzewa regresyjne, również obowiązuje minimalna liczebność liścia, a ponadto zasada „czystości” węzła końcowego (purity condition for regression tree), która mówi, że węzeł jest jednorodny, jeśli wszystkie przypadki mają jednakową wartość. Miary służące do oceny jakości modelu regresyjnego są podobne do tych z modeli dyskryminacyjnych. W najprostszym ujęciu jest to koszt resubstytucji, choć uważa się, że szacowanie błędu jedynie na podstawie próby uczącej prowadzi do nazbyt optymistycznych wyników. W celu bardziej dokładnego oszacowania trafności predykcji stosuje się prostą walidację lub wielokrotną walidację krzyżową. Wybierając ostateczny wynik można wykorzystać wykres, na którym zestawia się koszt resubstytucji (RE) i współczynnik błędu po wielokrotnej walidacji krzyżowej (RECV)5 jednocześnie (rys. 3).. Błąd predykcji. 1,00 0,75 współczynnik błędu po wielokrotnej walidacji krzyżowej. 0,50 0,25. koszt resubstytucji 20. 40. 60. 80. 100. 120. Liczba węzłów końcowych. Rys. 3. Jednoczesne zestawienie kosztu resubstytucji i współczynnika błędu po wielokrotnej walidacji krzyżowej Źródło: opracowanie własne.. Proces przycinania w drzewach regresyjnych jest nieco inny niż w wypadku drzew klasyfikacyjnych – w jednym kroku usuwane są tylko dwa węzły końcowe (w drzewach klasyfikacyjnych przycinanie dotyczyło nawet całych – kilkuwęzłowych gałęzi). Powoduje to, że sekwencja przyciętych drzew regresyjnych, z których wybiera się drzewo właściwych rozmiarów, jest znacznie dłuższa. Inna 5 skróty RE i RECV związane są z angielską terminologią, RE oznacza resubstitution estimate, a RECV – cross-validated resubstitution estimate..

(5) Podejście regresyjne w budowie drzew klasyfikacyjnych CART. 139. różnica dotyczy kształtu krzywej obrazującej RECV – jest dłuższa i bardziej płaska niż w modelach dyskryminacyjnych. Oznacza to, że wybór drzewa właściwych rozmiarów staje się arbitralny, gdyż zbyt wiele drzew posiada zbliżoną wartość RECV. Różnicę tę przedstawiono na rys. 4, gdzie odcieniem szarości zaznaczono obszar obejmujący potencjalne drzewa właściwych rozmiarów. model regresyjny. model dyskryminacyjny. RE CV. RE CV RE. RE. Rys. 4. Wykres współczynników błędu w modelach regresyjnych i dyskryminacyjnych Źródło: opracowanie własne.. Przycinając drzewo ma się na celu redukcję jego wielkości (zmniejszenie liczby liści), przy jak najmniejszym przyroście błędu predykcji. Znalezienie takiego kompromisu w drzewach regresyjnych jest możliwe dzięki zasadzie jednego odchylenia standardowego (1 SE rule). Za optymalne uznaje się to drzewo, dla którego błąd predykcji (RETS) 6 jest mniejszy (lub równy) od najmniejszego błędu predykcji (RE CV) powiększonego o jedno odchylenie standardowe w sekwencji drzew. Zasadę tę zilustrowano przykładem (tabela 1). Widać, że drzewem o najmniejszym błędzie predykcji jest drzewo nr 167 (RE CV ± SE = 0,17 ± 0,02). Błąd predykcji RE TS sąsiadujących z nim drzew wynosi 0,18 dla drzewa nr 166 i 0,17 dla drzewa nr 168. Oznacza to, że drzewem właściwych rozmiarów staje się rozwiązanie nr 168, ponieważ 0,17 < 0,17 ± 0,02. Wprawdzie RETS dla drugiego rozwiązania również spełnia ten warunek (0,18 < < 0,17 ± 0,02), ale w takiej sytuacji wybiera się wartość najniższą. W regresji wielorakiej miarą oceniającą jakość rozwiązania jest współczynnik determinacji R2, który informuje o tym, jaka część wariancji zmiennej zależnej jest wyjaśniana przez zestaw predyktorów. W przypadku drzew regresyjnych zaleca się wykorzystanie współczynnika błędu po wielokrotnej walidacji krzyżowej (RECV) zamiast trafności predykcji po wielokrotnej walidacji krzyżowej RCV. 6 Oszacowany w czasie prostej walidacji i oznaczony symbolem RETS (od angielskiego terminu: Test Sample)..

(6) Mariusz Łapczyński. 140. Tabela 1. Przykład wyboru drzewa optymalnego na podstawie zasady jednego odchylenia standardowego Numer drzewa. Liczba liści. RE. RECV ± SE. RETS. 1. 200. 0,00. 0,25 ± 0,03. 0,25. 49. 150. 0,00. 0,25 ± 0,03. 0,25. 96. 100. 0,01. 0,25 ± 0,03. 0,25. 166. 15. 0,12. 0,18 ± 0,02. 0,18. a. 167. 14. 0,13. 0,17 ± 0,02. 0,17. 168b. 13. 0,13. 0,17 ± 0,02. 0,17. 175. 6. 0,27. 0,32 ± 0,03. 0,26. 180. 1. 1,00. 1,00. 1,00. a. b. drzewo o najmniejszym błędzie predykcji; drzewo optymalne Źródło: L. Breiman, op. cit., s. 239.. Zdaniem autorów algorytmu CART7, mimo że RECV i RCV sumują się do jedności, to nie można mówić, że 1 – RECV to współczynnik R2 informujący o proporcji wariancji zmiennej zależnej wyjaśnianej przez model. Proponują szacowanie błędu po wielokrotnej walidacji krzyżowej i przyjęcie, że to właśnie jest miara dokładności modelu. Ważną zaletą drzew regresyjnych CART jest sposób postępowania z brakującymi wartościami zmiennych oraz z przypadkami odstającymi. W klasycznych metodach statystycznych często usuwa się przypadki z brakami danych, co ma wpływ na pogorszenie wyników analizy. Propozycja Breimana i in. polega na wykorzystaniu tzw. zmiennej zastępczej (surrogate) lub zmiennej konkurencyjnej (competitors). Zmienną zastępczą jest ten predyktor, który zapewnia podział węzła zbliżony do pierwotnego podziału dokonanego na podstawie najlepszego w danym etapie predyktora. W każdym kroku analizy budowany jest ranking zmiennych zastępczych, gdzie o kolejności decyduje wielkość wskaźnika asocjacji. Zmienne zastępcze i zmienne konkurencyjne omówione będą w dalszej części pracy. Na rys. 5 pokazano, w jaki sposób algorytm CART znajduje zastosowanie w przypadkach odstających. W węźle macierzystym znajduje się 30 przypadków, dla których wartość średnia zmiennej zależnej wynosi 45,1; a odchylenie standardowe 6,1. Dokonano podziału węzła tak, że do lewego węzła potomnego trafiło 29 przypadków, dla których średnia wynosi 45,9 przy odchyleniu standardowym równym 4,3; natomiast w prawym węźle potomnym znalazł się tylko jeden przypadek o wartości zmiennej zależnej równej 21,9. Ogólnie rzecz biorąc, przypadki 7. L. Breiman, op. cit., s. 225..

(7) Podejście regresyjne w budowie drzew klasyfikacyjnych CART. 141. odstające są izolowane do osobnych liści, o ile pozwala na to kryterium stopu mówiące o minimalnej liczebności węzła końcowego.. 45,1 6,1 29. 1. 45,9 4,3. 21,9 0,0. Rys. 5. Przykład odizolowania przypadku odstającego w metodzie CART Źródło: L. Breiman, op cit., s. 219.. Interpretacja liści w modelu regresyjnym różni się w zależności od liczby zmiennych niezależnych wykorzystanych w podziale węzłów drzewa. Jeśli w drzewie pojawiłby się tylko jeden predyktor (rys. 6), to reguły można rozpisać w tabeli (tabela 2) lub sporządzić wykres funkcji schodkowej (rys. 7).. 15 dochód < 1500 zł 13. 20. dochód < 1000 zł. dochód < 2500 zł. 15. 10. 1. 2. 10 dochód < 2000 zł 5. 12. 4. 5. Rys. 6. Drzewo regresyjne z jedną zmienną niezależną Źródło: opracowanie własne.. 25 3.

(8) Mariusz Łapczyński. 142. Tabela 2. Wartości parametrów modelu regresyjnego z jedną zmienną niezależną Węzeł końcowy. Dochód (zł). Wydatki na dobro x (zł). 1. <0; 1000). 15. 2. <1000; 1500). 10. 3. <2500; 3000). 25. 4. <1500; 2000). 5. 5. <2000; 2500). 12. Źródło: opracowanie własne.. Jeśli jednak w podziale drzewa bierze udział kilka predyktorów (rys. 8), to interpretacja jest analogiczna do opisu reguł w drzewach klasyfikacyjnych (tabela 3). Jedyna różnica sprowadza się do tego, że tam był to procent danej klasy w węźle, a tutaj jest to średnia wartość zmiennej zależnej z wyliczoną wariancją (ew. odchyleniem standardowym) bądź mediana ze średnim odchyleniem bezwzględnym.. Wydatki na dobro x. 20. 15. 10. 5. 0. 1000. 1500. 2000. 2500. Dochód. Rys. 7. Prezentacja modelu regresyjnego z jedną zmienną niezależną w postaci funkcji schodkowej Źródło: opracowanie własne..

(9) Podejście regresyjne w budowie drzew klasyfikacyjnych CART. 143. 15 dochód < 1500 zł 13. 20. kobieta. wykształcenie wyższe. 15. 10. 1. 2. 10. 25 3. wiek do 20 lat 5. 12. 4. 5. Rys. 8. Drzewo regresyjne z kilkoma zmiennymi niezależnymi Źródło: opracowanie własne.. Tabela 3. Wartości parametrów modelu regresyjnego z kilkoma zmiennymi niezależnymi Węzeł końcowy. Wydatki na dobro x (zł). 1. 15. jeżeli wynagrodzenie < 1500 zł i płeć = kobieta. 2. 10. jeżeli wynagrodzenie < 1500 zł i płeć = mężczyzna. 3. 25. jeżeli wynagrodzenie ≥ 1500 zł i wykształcenie ≠ wyższe. 4. 5. jeżeli wynagrodzenie ≥ 1500 zł i wykształcenie = wyższe, i wiek < 20 lat. 5. 12. jeżeli wynagrodzenie ≥ 1500 zł i wykształcenie = wyższe, i wiek ≥ 20 lat. Reguła typu „jeżeli…, to…”. Źródło: opracowanie własne.. Stabilność modelu regresyjnego można szacować przez zbudowanie kilku drzew dla tej samej liczby fałd w wielokrotnej walidacji krzyżowej, ale z różnymi ustawieniami generatora liczb losowych. Następnie porównuje się struktury drzewa i rankingi ważności predyktorów. Ich zbieżność świadczy o tym, że model jest stabilny. W innym razie oznacza to skorelowanie zmiennych niezależnych lub istnienie alternatywnych reguł predykcyjnych opisujących liście drzewa..

(10) 144. Mariusz Łapczyński. 3. Porównanie drzew zbudowanych na podstawie wariancji i odchylenia przeci´tnego Przykład opisany w niniejszym artykule będzie dotyczył predykcji cen samochodów osobowych dostępnych na rynku polskim. W analizie wykorzystano zbiór 803 nowych pojazdów8 dostępnych w sprzedaży w 1999 r. Zmiennymi niezależnymi są: moc silnika (KM), pojemność silnika (cm3), segment według SAMAR (np. small, upper medium, lower medium itp.), kraj pochodzenia marki, wersja nadwozia (np. sedan, hatchback, kombi), liczba drzwi, typ silnika (benzynowy, diesel) i zestaw zmiennych binarnych typu: „posiada–nie posiada” (ABS, klimatyzacja, elektrycznie sterowane szyby, poduszki powietrzne, wspomaganie kierownicy, centralny zamek. Modele regresyjne zbudowano w programie CART firmy Salford Systems przy użyciu dwóch reguł podziału: średniej z wariancją i mediany ze średnim odchyleniem bezwzględnym. Celem badania nie jest poznanie struktury cenowej rynku motoryzacyjnego w Polsce, ale analiza porównawcza tych dwóch sposobów konstruowania drzew regresyjnych. Pierwszy model („ze średnią”) powstał w ciągu niespełna 7 sekund, podczas gdy konstrukcja drugiego („z medianą”) trwała 18 minut i 36 sekund (!). Względny błąd predykcji dla obu modeli różni się znacznie (rys. 9). Dla drzewa zbudowanego na podstawie średniej wynosi on 0,147, zaś dla drzewa zbudowanego na podstawie mediany – aż 0,351. Liczba węzłów końcowych w obu przypadkach jest równa 22, jednak struktura modelu i związany z nią opis liści różnią się istotnie (rys. 10). Program CART umożliwia szczegółową analizę każdego podziału w modelu. Przykład dla podziału w węźle nr 7 z drzewa regresyjnego „ze średnią”9 znajduje się na rys. 11. Jego liczebność wynosi 159 przypadków, zaś liczebność węzłów potomnych: 97 dla węzła nr 8 i 62 dla węzła końcowego nr 6 (oznaczonego 6).. 8. Jest to zbiór wykorzystany w analizie za pomocą drzew klasyfikacyjnych CART i opisany w: M. Łapczyński, Badania segmentów rynku motoryzacyjnego z zastosowaniem drzew klasyfikacyjnych (CART), Zeszyty Naukowe AE w Krakowie, nr 586, Kraków 2002, s. 87–102; tam również dokonano analizy za pomocą metody CART, jednak zmienna zależna została zdyskretyzowana (powstał model dyskryminacyjny), a w obliczeniach użyto jednego z modułów pakietu STATISTICA. 9 W języku angielskim mówi się o LS Regression Trees i LAD Regression Trees, gdzie LS (Least Squares) oznacza model zbudowany na podstawie średniej, zaś LAD (Least Absolute Deviation) – model zbudowany na podstawie mediany..

(11) Podejście regresyjne w budowie drzew klasyfikacyjnych CART. 0,147. Relative Error. 0,6 średnia. 145. 0,5 0,4 0,3 0,2 0,1. 0. 5. 10. 15. 20. 25. 30. Number of Nodes 0,351. Relative Error. mediana. 0,8 0,7 0,6 0,5 0,4 0,3. 0. 5. 10. 15. 20. 25. Number of Nodes. Rys. 9. Liczba węzłów końcowych a względny błąd predykcji w drzewach regresyjnych zbudowanych dwoma metodami Źródło: opracowanie własne w programie CART.. średnia. mediana. Rys. 10. Schemat drzewa regresyjnego zbudowanego na podstawie średniej i mediany Źródło: opracowanie własne w programie CART..

(12) Mariusz Łapczyński. 146. ************************************* * Node 7: MOC__KM_ * * * N: 159 ************************************* ********** ******************** * Node 8 * * N: 97 * *******************************. =============================== = = Terminal Node 6 = N: 62 = ======== ====================. Node 7 was split on MOC__KM_ A case goes left if MOC__KM_ <= 88.500 Improvement = 2093694.125 Complexity Threshold = Node 7 8 –6 1 2 3 4. Cases 159 97 62. Surrogate EL_SZYBY CCM PRODUCEN NADWOZIE. 5 AIR_BAG. Mean 44838.992 42239.277 48906.289. StdDev 5908.033 4368.423 5704.515. Split s 0 s 1450.000 s Francja,Hiszpania,Japonia s hatchback,mini MPV,sedan, convertible,coupe,roadster,MPV, SUV s 1. Competitor 1 CCM 2 SEGMENT 3 NADWOZIE 4 EL_ SZYBY 5 BENZYNA. Wgt Count 159.00 97.00 62.00. .168124E+10. Assoc. 0.290 0.274 0.194 0.048. Improve. 613961.000 1677804.125 153452.719 573485.438. 0.016. 19179.436. Split 1700.000 mini,mini plus,small,SUV hatchback,convertible,coupe,roadster,MPV, SUV 0 1. Improve. 1997765.125 1367905.125 632645.313 613960.750 524490.000. Rys. 11. Szczegóły obliczeniowe dotyczące wybranego podziału węzła Źródło: opracowanie własne w programie CART.. Predyktorem wykorzystanym w tym miejscu drzewa jest moc silnika. Auta o mocy mniejszej lub równej 88,5 KM trafiają do węzła lewego (nr 8), zaś pozostałe do prawego (nr 6). Wskaźnik poprawy (improvement) to wielkość wariancji wewnątrz węzła zredukowana przez podział drzewa w tym węźle. W tym wypadku obliczenia będą następujące: (159/803) x (5908,033)2 – [(97/803) x (4368,423)2 + (62/803) x (5704,515)2] = = 2093694,541. Na każdym etapie podziału drzewa oblicza się wskaźnik poprawy oraz wskaźnik asocjacji (association) dla zestawu zmiennych niezależnych. Najwyższa wartość wskaźnika skojarzenia może przyjąć wartość 1, co oznacza, że zmienna zastępcza (surrogate) daje identyczny podział węzła jak predyktor użyty do podziału na danym.

(13) Podejście regresyjne w budowie drzew klasyfikacyjnych CART. 147. etapie10. Wskaźnik skojarzenia służy jedynie do zestawienia rankingu zmiennych zastępczych i nie może być interpretowany jako współczynnik korelacji między podziałem pierwotnym a podziałem zastępczym danego węzła. W tym przypadku za najlepsze zmienne zastępcze uznano: posiadanie elektrycznie sterowanych szyb (0,290), pojemność silnika (0,274), kraj producenta (0,194), wersję nadwozia (0,048) i posiadanie poduszek powietrznych (0,016). Innym zaproponowanym rozwiązaniem jest zastosowanie zmiennych konkurencyjnych (competitors), których ranking wyznaczany jest za pomocą posortowanego malejąco wskaźnika poprawy. Ich porządek jest tu następujący: pojemność silnika, segment, wersja nadwozia, posiadanie elektrycznie sterowanych szyb i typ silnika (benzynowy, diesel). Mimo że oba modele mają różne współczynniki błędu i strukturę drzewa (reguły predykcyjne), to ranking ważności predyktorów jest podobny, zwłaszcza jeśli weźmie się pod uwagę jego kilka pierwszych pozycji (rys. 12). Cztery zmienne niezależne mające największy wpływ na ceną samochodu to: moc silnika (KM), pojemność silnika (cm3), przynależność do segmentu według SAMAR i kraj pochodzenia marki. Mediana. Średnia. Zmienna niezależna. Liczba punktów. Moc silnika (KM) 100,00 Pojemność silnika (cm3) 98,03 Segment 82,25 Kraj pochodzenia marki 17,73 Wersja nadwozia 11,97 ABS 9,64 Liczba drzwi 8,14 Klimatyzacja 5,87 Elektrycznie sterowane szyby 0,76 Poduszki powietrzne 0,67 Wspomaganie kierownicy 0,35 Centralny zamek 0,32 Silnik benzynowy/diesel 0,31. Zmienna niezależna ||||||||||||||||||||||||||||| |||||||||||||||||||||||||||| ||||||||||||||||||||||| ||||||| |||| ||| || ||. Liczba punktów. 100,00 Moc silnika (KM) 94,73 Pojemność silnika (cm3) 87,94 Segment 25,81 Kraj pochodzenia marki 19,85 ABS 19,08 Wersja nadwozia 11,12 Centralny zamek Elektrycznie sterowane 10,97 szyby 6,74 Liczba drzwi 3,90 Klimatyzacja 3,06 Wspomaganie kierownicy Poduszki powietrzne 3,01 Silnik benzynowy/diesel 0,74. ||||||||||||||||||||||||||||| |||||||||||||||||||||||||||| ||||||||||||||||||||||| |||||||||| ||||||| |||||| |||| |||| || |. Rys. 12. Porównanie rankingów ważności predyktorów w obu modelach Źródło: opracowanie własne w programie CART.. Poza automatycznym generowaniem reguł, CART zestawia charakterystyki wszystkich liści, co przedstawiono na rys. 13. Oprócz liczebności węzła (count), 10 Najniższe wartości mogą być ujemne, jednak nie są one zamieszczane w oknie wyników programu CART..

(14) 148. Mariusz Łapczyński. podano średnią wartość zmiennej zależnej – ceny samochodu (mean) oraz odchylenie standardowe. ========================= TERMINAL NODE INFORMATION ========================= Parent Node Wgt Count Count Mean StdDev Complexity -----------------------------------------------------------------------------1 34.00 34 25815.883 5690.369 .205274E+10 2 77.00 77 35145.066 4315.715 .205274E+10 3 29.00 29 33208.965 5007.526 .331741E+10 4 76.00 76 41066.973 3414.376 .482444E+09 5 21.00 21 46481.906 4793.913 .482444E+09 6 62.00 62 48906.289 5704.515 .168124E+10 7 22.00 22 41457.273 5234.289 .107891E+10 8 50.00 50 49860.801 4976.249 .107891E+10 9 39.00 39 56399.742 7291.598 .209795E+10 10 49.00 49 68941.023 13324.652 .115694E+11 11 48.00 48 56175.418 11139.215 .229347E+11 12 28.00 28 63148.570 5511.616 .634494E+09 13 22.00 22 70325.000 11857.819 .634494E+09 14 24.00 24 80005.414 8315.115 .304327E+10 15 32.00 32 80704.375 14405.883 .105888E+10 16 28.00 28 89125.000 11189.955 .105888E+10 17 28.00 28 100667.141 31235.031 .130100E+11 18 32.00 32 125474.375 28644.176 .697000E+11 19 21.00 21 112979.523 25490.746 .464270E+11 20 35.00 35 151698.578 23523.715 .221156E+11 21 24.00 24 191111.250 30213.529 .221156E+11 22 22.00 22 329602.281 90777.602 .535969E+12. Rys. 13. Charakterystyki węzłów końcowych w drzewie regresyjnym „ze średnią” Źródło: opracowanie własne w programie CART.. Odchylenie standardowe informuje o stopniu homogeniczności węzła. Jak łatwo zauważyć, najlepszymi klasyfikatorami są węzły: 4, 2 i 5, zaś najgorszymi – węzły: 22, 17 i 21. Oznacza to, że trafność predykcji dla samochodów tańszych jest wyższa od trafności predykcji dla samochodów droższych11. Podobne zestawienie jest tworzone dla drzewa regresyjnego „z medianą” (rys. 14), z tą różnicą, że zamiast średniej i odchylenia standardowego podaje się tam wartość mediany i średniego odchylenia bezwzględnego. Węzłami o największej, z punktu widzenia wartości zmiennej zależnej, homogeniczności są węzły: 5, 6 i 9, natomiast węzłami najbardziej heterogenicznymi są węzły: 4, 22 i 1. Podobnie jak w modelu regresyjnym „ze średnią”, najmniejsza trafność predykcji dotyczy samochodów najdroższych. 11 Gdyby badania takie przeprowadzić na potrzeby praktyki, to należałoby badać ceny wewnątrz SAMAR-owskich segmentów lub w grupie marek i modeli konkurencyjnych; w tej analizie chodzi o poznanie metody, więc w jednym zbiorze obserwacji znalazł się Fiat 126p i Mercedes klasy „S”, których ceny są de facto potraktowane jako przypadki odstające..

(15) Podejście regresyjne w budowie drzew klasyfikacyjnych CART. 149. ========================= TERMINAL NODE INFORMATION ========================= Parent Node Wgt Count Count Median MeanAbsDev Complexity ----------- ------------------------------------------------------------------1 28.00 28 111600.000 26073.215 608350.000 2 47.00 47 148150.000 18696.809 276490.000 3 24.00 24 180350.000 23417.916 276490.000 4 22.00 22 341450.000 77147.727 2171450.000 5 41.00 41 34100.000 2375.610 20270.000 6 27.00 27 37250.000 2699.630 20270.000 7 43.00 43 27300.000 4727.674 129330.000 8 21.00 21 46800.000 3702.857 47090.000 9 78.00 78 41300.000 2742.436 47090.000 10 39.00 39 50900.000 3778.205 25280.000 11 24.00 24 45900.000 5179.167 25280.000 12 40.00 40 36000.000 5375.000 144540.000 13 52.00 52 49900.000 4182.308 56910.000 14 25.00 25 41990.000 4162.800 56910.000 15 33.00 33 54350.000 4706.667 78470.000 78470.000 16 42.00 42 62150.000 7382.381 17 42.00 42 62900.000 7322.857 104580.000 18 41.00 41 72200.000 7531.708 104580.000 72900.000 11264.889 102410.000 19 45.00 45 20 31.00 31 78150.000 16748.387 48950.000 21 31.00 31 86900.000 9831.290 48950.000 22 27.00 27 119400.000 27493.334 499760.000. Rys. 14. Charakterystyki węzłów końcowych w drzewie regresyjnym „z medianą” Źródło: opracowanie własne w programie CART.. CENA W Shapiro-Wilka, 66887, p < 0,000. 400. Liczba obserwacji. 350 300 250 200 150 100. Górna granica (x <= granicy) oczekiwane normalne. Rys. 15. Rozkład zmiennej zależnej – ceny samochodu Źródło: opracowanie własne w programie STATISTICA.. 500 000,000. 450 000,000. 400 000,000. 350 000,000. 300 000,000. 250 000,000. 200 000,000. 150 000,000. 100 000,000. 50 000,000. 0,000. 0. –50 000,000. 50.

(16) 150. Mariusz Łapczyński. Należy tu jednak dodać, że rozkład zmiennej zależnej nie jest zgodny z rozkładem normalnym (test W Shapiro-Wilka jest istotny), ale wykazuje silną asymetrię prawostronną (miara skośności wynosi 3,19). Przedstawiono to na rys. 15. 4. Podsumowanie Drzewa regresyjne są alternatywnym dla klasycznej regresji wielorakiej sposobem badania zależności między zestawem zmiennych niezależnych a metryczną zmienną zależną. Choć nie sprawdzają się w wypadku związków liniowych, to ich niewątpliwymi zaletami jest brak konieczności tworzenia zmiennych zerojedynkowych ze zmiennych kategorialnych i brak konieczności standaryzowania zmiennych. Powoduje to, że ich interpretacja jest klarowna i ograniczona do zestawu zdań warunkowych typu: „jeżeli…, to…”. Autorzy algorytmu podkreślają, że drzewa mogą być również wykorzystane do wstępnego rozpoznania struktury danych. Może się bowiem okazać, że węzły wydzielone w początkowych krokach analizy stanowią podzbiory danych, w których można użyć regresji wielorakiej. Istnieją dwa sposoby budowania modeli regresyjnych CART: średnia z wariancją i mediana ze średnim odchyleniem bezwzględnym. Pierwszy daje wyższą trafność predykcji i charakteryzuje się krótszym czasem analizy, natomiast drugi jest odporny na przypadki odstające i asymetrię rozkładów. Budując modele regresyjne warto wykorzystać obie metody i wybrać tę, która najlepiej rozwiązuje problem badawczy. Literatura Breiman L. i in., Classification and Regression Trees, Chapman & Hill/CRC, New York 1998. Gatnar E., Nieparametryczna metoda dyskryminacji i regresji, PWN, Warszawa 2001. Łapczyński M., Badania segmentów rynku motoryzacyjnego z zastosowaniem drzew klasyfikacyjnych (CART), Zeszyty Naukowe AE w Krakowie, nr 586, Kraków 2002. A Regression Approach in Constructing CART Classification Trees The purpose of the article is to provide an introduction to constructing CART regression trees. The author describes in detail each step in an analysis using two splitting rules: Least Squares (LS) and Least Absolute Deviation (LAD). The author characterises the basic measures such as the improvement coefficient and association coefficient and discusses procedures to deal with outliers. The author reviews a supplementary description, introduced by Breiman et al., of surrogate and competitor variables that participate in tree splitting when missing values arise in independent variables..

(17) Podejście regresyjne w budowie drzew klasyfikacyjnych CART. 151. In a comparative analysis of both methods (LS and LAD), the author uses a set of observations from over 800 cases – motorcars available on the Polish market. The dependent variable was the price of the vehicle, while the independent quantitative and qualitative variables were the vehicle characteristics. In the calculations, the best implementation of the algorithm was used – the CART program developed by Salford Systems..

(18)

Cytaty

Powiązane dokumenty

Mianowicie spośród 40 transakcji zbioru uczącego jeden zbiór transakcji z grupy B został błędnie przypisany do grupy A, dwa zbiory z grupy C zostały sklasyfi- kowane do grupy B

Gałąź zamkniętą oznaczamy x i podajemy przy nim numery formuł, które są sprzeczne np.. JEDNA GAŁĄŹ

Pomimo sformułowanych wątpliwości można przynajmniej hipotetycznie przyjąć, że dobrym przykładem ty- powego Rosjanina, który spełnia postawione przez Karsawina kryteria,

Opisuje też niezwykły pomnik wydawcy, jakim jest znajdujący się na Lesbos kompleks muzeal- no-biblioteczny, składający się z Muzeum Teofilosa i Tériade Museum Library..

Companies in the scope of their duties usually applies methods like time series analysis (seasonal models like: Winters Holt methods, harmonic analysis, trend analysis

Zaokrąglij dane do jednej cyfry znaczącej oraz oszacuj czas trwania podróży...

Opluštila odcisk strobila morfologicz- nie jest najbardziej zbli¿ony do Flemingites gallowayi (Arnold) Brack-Hanes et Thomas, który wczeœniej (Arnold, 1933) by³ opisywany

Organizacja turystyki dzieci i młodzieży, turystyki szkolnej na obszarze województwa wielkopolskiego w ujęciu ilościowym i jakościowym - desk research - studia literatury