• Nie Znaleziono Wyników

Badania segmentów rynku motoryzacyjnego z zastosowaniem drzew klasyfikacyjnych (CART)

N/A
N/A
Protected

Academic year: 2021

Share "Badania segmentów rynku motoryzacyjnego z zastosowaniem drzew klasyfikacyjnych (CART)"

Copied!
16
0
0

Pełen tekst

(1)2002. Mariusz. Łapczyński. Kat.d,o Analizy Rynku I a.d... Marketllłgowych. Badania z. drzew 1. Wprowadzenie do metodologII drzew klasyflkacylnych Celem niniejszego artykułu jest rozpoznanie struktury rynku nowych samochodów osobowych w Polsce. W badaniach wykorzystano bazę danych zawierającą ponad 800 dostępn yc h w sprzedaży marek i modeli samochodów wraz z ceną i wyposażeniem. Do klasy fikacji zbioru wykorzystano jed"" z metod zglębiania danych - CART (C!a .uificlI1ion alld Reg"'.I.1iofl Tree.l) . Jest to nieparametryczna metoda dyskryminacji zyskująca sobie coraz większą popularność w badaniach marketingowych. Gwałtowny przyrost informacji i objętości baz danych spowodowal równie gwałtowny wzrost potrzeb ich analizowania. Rozwój informatyki i powszechny dostęp do komputerów przyczynił się do powstania takich metod, jak zgłębianie danych (data millillg) . Celem tych metod jest grupowanie i podział obiektów pod względem wyróżnionych cech. Umożliwiają one automatyczne wyszukiwanie wzorów i zależności w obszernych zbiorach danych, organizując je w zwięzłe modele . Stąd też techniki zgłębiania danych szybko znalazły zastosowanie w analizie danych marketingowych, m.in. w badaniach segmentacyjnych i badaniach sełektywności rynku . Drzewa klasyfikacyjne to, obok sztucznych sieci neuronowych' (Artificia! Neura! Network - ANN), najpopularniejsza metoda zgłębiania danych. Nazwa "klasyfikacyjne" wzięła się z angielskiego terminu c1assiJicatio/J trees, choć bardziej właściwą bylaby nazwa "dyskryminacyjne". Metody klasyfikacji i dyskryminacji wykorzystywane są w analizie struktury zbioru obserwacji, !. często. spoty kany jest termin "sieci neuronowe", który nic jest dn koriea poprawny. ponicwa7.. zapożyczony 'l.os rał 'l.C światu. organizmów. IO IU neuronów, a nic sposób przyjąć .. żywyth, przykładow o sieć. r.c s ie ć sztucZna może poxiildać. neuronowa. cz łowieka. ma. 10 miliardów clcl11cOIów..

(2) Marli/s,: l.apc':)'1jski. jednak służą do rozwiązywania dwóch odrębnych problemów. Klasyfikacja polega na podziale analizowanego zbioru na K klas, które nie są znane. Dyskryminacja polega natomiast na przydzieleniu zbioru obserwacji do K klas mających własność jednorodności, przy czym charakterystyki tych klas są przynajmniej częściowo znane [Jajuga 1993, s. 1341. Tak jest właśnie w tym przypadku, kiedy analizowana jest struktura rynku samochodów osobowych pod względem cen pojazdu (zmienna ta jest zmienną zależną). Istnieje wiele technik klasyfikacji (dyskryminacji) wykorzystujących procedurę drzew decyzyjnych. Są to m.in.: - CART (Classificatioll and Regressioll Trces) , - S- Plus tree (metoda oparta na algorytmie CART) opisana przez L.A. Clark iD. Pregibona w 1993 L, - C4.5 - algorytm opisany przez J.R. Quinlana w 1993 L, - CHAID (Chi-Square Automatic IlIteraction Deteetion), - IND - opisany przez W. Buntine w 1992 L, - LMDT - algorytm opisany przez C.E. Brodley i P.E. Utgoff w 1995 L, - QUEST (Quick, Unhiased, EJficiellt Starisrical Trees), - OCI (Ohlique Decision Tree ClassiJier) opisany przez SX. Murthy'ego, S. Kasifa i S. Salzberga w 1994 L [Lim, Loh, Shih 19991. W niniejszej pracy opisano nie parametryczną metodę CART (Classificarion and Regression Trees). Algorytm CART został po raz pierwszy zaprezentowany w 1984 L przez jego twórców: Leo Breimana i współpracowników z Uniwersytetu Berkeley. Metoda ta zdobyla dużą popularność m.in. dzięki następującym cechom: - wykorzystuje każdą kombinację zmiennych ciągłych i kategorialnych (w przeciwieństwie do techniki CHAlO, zmienne ciągłe nie muszą być przekodowane na kategorialne), - obsługuje zbiory obserwacji o złożonej strukturze - w przeciwieństwie do modeli parametrycznych, które są przeznaczone do odkrywania pojedynczych dominujących struktur w zbiorze danych, CART jest zaprojektowany do pracy z danymi, których struktura jest wielowymiarowa, - jest niewrażliwa na występowanie obserwacji nietypowych, co do których istnieje przypuszczenie, że pochodzą z innej populacji, klasyczne statystyczne metody analizy nie są odporne na występowanie takich przypadków (które czę­ sto występują w badaniach empirycznych), ta zaleta metody jest szczególnie ważna, jeśli wykorzystuje się regresyjne właściwości CART, - może być skutecznie wykorzystywana w zbiorach danych cechujących się licznymi brakami danych w zmiennych niezależnych (predyktorach), - wykorzystuje te same zmienne w różnych częściach drzewa, odkrywając kontekst zależności i interakcji między zmiennymi, - może wykorzystać liniową kombinację zmiennych niekategorialnych w celu określenia dalszego podziału drzewa. Metodologia CART opiera się na binarnym podziale rekursywnym zbioru obserwacji. Proces podziału jest binarny, ponieważ macierzyste punkty węzłowe.

(3) Badania. drzewa zawsze dzielą się na dwa punkty węzlowe tzw. węzły-potomkowie (child nodes) i rekursywny, ponieważ węzeł-potomek traktowany jest w dalszym podziale jako macierzysty punkt węzłowy. Analiza danych z zastosowaniem CART dzieli się na 3 etapy: - podział każdego węzla w drzewie wedlug z góry ustalonych reguł, - wyznaczenie optymalnych rozmiarów drzewa, czyli zastosowanie odpowiedniego kryterium stopu, - przypisanie węzlów końcowych do klas wyników (lub wartości przewidywanej w przypadku regresji). Dychotomiczny podział każdego punktu węzłowego ma na celu przewidywanie lub wyjaśnienie kształtowania się kategorialnej zmiennej zależnej (dopuszczalna jest większa niż 2 liczba poziomów tej zmiennej) przez zestaw zmiennych niezależnych (zarówno ciąglych,jak i kategorialnych). Algorytm CART wyszukuje wszystkie możliwe podziały w analizowanym zbiorze danych. Rozważ.ając zbiór 803 przypadków (modeli samochodów osobowych) i 15 zmiennych (m.in.: moc silnika, pojemność silnika, wyposażenie w wersji standardowej i in.) można uzyskać 12045 (S03 x 15) możliwych podzialów. Do najczęściej stosowanych reguł binarnego podziału rekursywnego zalicza się regulę Giniego i entropię. O ile w analizie niewielkich zbiorów obserwacji, wybór reguły podziału jest malo istotny (uzyskuje się zbieżne wyniki), o tyle przy dużej liczbie przypadków nie jest on bez znaczenia. Regułę podziału Giniego przedstawiono na rys. I. Poszukuje się tutaj najliczniejszej klasy w zbiorze obserwacji (klasa A) i izoluje się j4 od pozostałych klas (B, C i D). Z uzyskanego w wyniku tego podziału węzła (z klasami B, C i D) wydziela się dwa kolejne, przy tym liczebność jednego z nich (klasa B) stanowiJa większość w węźle macierzystym. Ten sam algorytm jest stosowany aż do uzyskania drzewa, gdzie każdy z punktów węzłowych stanowi odrębną klasę. Drzewo klasyfikacyjne zilustrowane powyżej (rys. I) jest tylko klasycznym przykladem reguły Giniego - tak "czyste" węzły końcowe są w badaniach empirycznych rzadko spotykane. Druga reguła podzialu w metodzie CART wykorzystuje miarę nieokreślo­ ności - entropię. Entropia, majqca swe korzenie w termodynamice, znalazła również zastosowanie w cybernetyce, a dokładnie w teorii informacji. Wyraża sięją wprowadzonym przez Hartleya wzorem [Mynarski 1979, s. 156]:. h(p,l = log. l;; =-logp;. Przez P; należy rozumieć prawdopodobieństwo wystqpienia zdarzenia i, a przez h(p,l niepewność co do rezultatu zdarzenia i. Oznacza to, że im zdarzenie jest mniej prawdopodobne, tym większa niepewność co do jego wystą­ pienia. Jako przykład można tu podać IDO-krotny rzut symetryczną monetą. Prawdopodobieństwo wyrzucenia orla lub reszki jest takie samo, a zatem wartość entropii jest maksymalna. Prawdopodobieństwo wypadnięcia samych.

(4) Mariu ,~':. tylko orłów (lub reszek) jest najmniejsze i jemu przyporządkowana jest najmniejsza, zbliżona do zera, entropia. Gdyby za sukces w jednokrotnym rzucie symetryczną monetą uznać wypadnięcie orła lub reszki (byloby to zdarzenie pewne, p = I) to ni eoznaczoność równa bylaby w tym przypadku zero (zgodnie z wymaganiami miary nieokreśl o no ści h( I) = O).. kla sa A 40% klasa B 30% klasa C 209,) klasa D 100k I. TAK. I. czy wiek klienta> 40 lat. klasa A 40%. I. NIE. klasa B 30% klasa C 20% klasa D 10% czy. TAK. ,. d(x:hóJ netto klienta > 1500 z ł. miesięczny. NIE". .. klasa C 2()% klasa D lock,. kla sll B )0% •. ay khcnl ma. ,. wykształcenie. wyższe'!. TAK. NtE kł"sa. D 10(,70. Rys. J. ReguJa podziału Giniego Żródło: opracowanie własne .. Regula binarnego podzialu rekursywnego wykorzystująca miernik chaosu. jakim jest entropia. opiera się na wzorze na przeciętną ilość informacji przypadającej na jednostkę [Mynarski 1979, s. 1561 : m. H= - L.Pilogpi i .- I. W przypadku CART obiekt w danym punkcie węzlowym ma jednakow<) szansę (p rawdopodobieństwo) znalezienia się w jednym Z dwóch węzlów­ -potomków, a zatem PI = /12 = 0,5. Celem tej reguly jest minimalizacja entropii (H""" = O) poprzez wybór optymalnego podzialu. W każdym węźle, a zatem na każdym etapie podzialu drzewa, wybierana jest pojedyncza zmienna, która.

(5) Badania wyodrębnienie jednego zującego s ię minimalną entropią.. pozwala na. ••. "czystego". wę z la końcowego. charaktery-. W pakiecie STATISTlCA znajduje s ię tylko jedna z wyżej wymienionych reguł podzialu - reguła Giniego. Zaoferowano natomiast podział oparty na statystyce chi-kwadrat (podobnej do chi-kwadrat Bartlella) oraz podział oparty na statystyce G-kwadrat (podobnej do chi-kwadrat najwyższej wiarygodności stosowanej w modelowaniu równali strukturalnych). Kolejnym etapem analizy z wykorzystaniem drzew klasyfikacyjnych jest określenie wielkości drzewa . W niniejszej pracy wykorzystuje się kryteria stopu dostępne w pakiecie STATISTlCA. Kryterium stopu to termin pochodzący m.in. z analizy skupisk [Grabiński 1992]. Pojawiał się on przy okazji problemu podziału dendrogramu . Kryterium stopu opierało s ię na mierniku CJi' którego maksymalna wartość wyznaczała miej sce o najmniej szej gęstości połączeń gałęzi drzew. Jeśli chodzi o drzewa klasyfikacyjne , to kryterium zakOJiczenia dalszego podziału, mo że być uzależni one od minimalnej liczebnośc i w węzłach końcowych bądź też od minimalnych frakcji w tych punktach. W niniejszej pracy zastosowano wszystkie możliwe reguły podziału (Giniego, chi-kwadrat i G-kwadrat) oraz wszystkie kryteria stopu, jakie dostępne są w modułe "drzewa klasyfikacyjne" pakietu STATłSTlCA . Warto też zaznaczyć , że algorytm CART znajduje się w innych programach statystycznych m.in.: CART, SCAN, RECON.. 2. Rozpoznani •• truktury rynku samochodów osobowych w Polsce Struktura rynku samochodów osobowych w Polsce jest uporządkowana już od dawna - istnieje podział na tzw. segmenty (tabela I) . Nazwa "segment" jest niewłaściwa, gdyż podział ten, zaproponowany przez producentów, nie uwzgłędnia wszystkich kryteriów. Pominięte zostały takie zmienne, jak np. cena, wyposażenie, producent itp. Wystarczy spojrzeć na segment samochodów małych, gdzie obok Yugo (17 tys . zł, pojemność silnika 1100 cm 3 , moc silnika 60 KM, bez dodatkowego wyposażenia w wersji standardowej) znajduje się Mercedes klasy A (65 tys. zł - czyli znacznie więcej niż wynoszą ceny samochodów z wyższych kłas, pojemność silnika 1600 cm"'. moc siłnika 102 KM , w wersji standardowej brakuje jedynie klimatyzacj i). Segmentacja polega na podziale rynku, "na w zg lędnie jednorodne podukłady. charaktery z ujące się zbliżonymi pod względem formy i tre śc i aktami wyboru" [Mynarski 1982, s. 68] . Jeśli chodzi o nabywców samochodów z poszczególnych .. segmentów", to jest wysoce prawdopodobne, że określenie ich względnie jednorodnego profilu jest niemożliwe . Nie sposób bowiem przyjąć, że nabywcy ww. modeli samochodów, tj. Mercedesa klasy A i Yugo są do siebie podobni (chodzi tu oczywiście o cechy psychosocjologiczne, a nie fizjonomię). Stąd też nazwa "segment" pojawiać się będzie w dalszej części pracy w cudzysłowie..

(6) Mariu,\'7.. Tabela I . Segmenty rynku samoc hodów osobowyc h w Polsce Segment (Segmefl1 Mini Cors). Segment samochodów mini plus (Segm('nt Milli Plu s). Daewoo Tico , Fiat t26 EL, Fial Cinquece nto , Fiat Scicento Cit roen AX, Dae\voo Matiz, Tav rija, Ford Ka, Hyundai A10S, Renau lt Tw ingo, Sca t Arosa, Suzuki Wagon R+. ma ł yc h. Citroen SaKO, Yugo. Fial Punto. Fial Uno. Fort! Fiesla, Kia Prid~ , Lancia Y. Mazda 121, Mercedcs A-Class , Nissan Mina. Opel Corsa. P~ugcOl 106, Peugeot 206 , Rcnaull Clio. Re nault Clio 11 , Rover 200. Seat Ibil.a, Skoda Fel ic ia. Suzu ki Swift, Toyota Starlct, Toyota Yari s, Volkswagen Polo. niższej średn i ej. Alfa Romeo 145 , Alfa ROIlll..'(l 146, Audi A3, Citroen Xsara, Citroen ZX, Daewoo Lanos, Daewoo Nexia, Polonez, Fiat Brava, Fiat Bravo , Fiat Pa lio Weekend, Fial Siena. Fo rd Escort, Ford Foc us. Honda Ci vic, I-Iy undai Acce nt, Kia Se phia, Ł ada 21 10, Ł ada Samara, Mazda 32.1. Mit subishi Colt. Mit subis hi Lancer, Nissan Almera . Opel Astra , Ope t Astra H, Peugeot 306, Renault Mcganc , Rover 400, Seat Cordoba, Suzuki Balcno, Toyota Corolla, Volkswagen Golf. Vol kswagen Pol o, VW Bora, Volkswagen New Beutlc Alfa Romeo 156, Audi A4. BM W 3 sedes, Chrys le r St ratus. Ci trncn Xantia, Daewoo E s p~ro , Daewoo Nubira , Fiat Marca . Ford Mondeo . Honda Accord, Hyundai LlIllra. Ki a Claru s, Mazda 626, Me-rccdes C-Class, Mitsubishi Carisma, Nissan Primera , Opel Vectra, Peuge ol 406, Renault Lagun a, Rove r 6fX) , Saab 'XIII, Saab 9-3, Scat Toledo , Skoda Oc tavia , Toyota Avcll sis. Toyot:1 Carina, Volkswagen Passat,. (Segm ent Smali). Segment klas)'. SA MAR. Dos1cpnc moLiele. Segment saJlhx'hodów mi ni. Sc-gmcnl samoc hodów. według. (Segmelll l,m w.'r Medium). Segment sanHKhndów kla sy w y ż szej sn:dn icj (Segm('" , Uppa Medium). Votvo S401V41l. Segment samoc hodów klasy . wyzSZCj (Segment E recuri ve ). Segment samochodów luksusowych (Sl'gme,,' Lllxllry). Alfa Romeo 166, Audi A6 , BMW S senes, Chrysler 3tX1M, Daewoo Leganz3. Ford Scorpio. Hyundai Sonata, Ił yu ndai Sonata Er, Lanci a K, Mc rcc dcs E·Class, Mits ubi shi Ga lant, Ni ssan Maxima, Opel Omega, Peugeot 605, Ren ault Safrane . Saab 9000, Sailb 9-5, Toyola Camry. Volvo S70n O Audi AX , A udi 58 , BMW 1 senes . Honda Legend, Jaguar Daimlcr. Jaguar XJ, Jaguar XK8, Jaguar S Ty pc , Jagua r XK R, Mcrcedsc S-C lass , Toyota Lcxus, Volvo S80, Vol vo 590/90. SegnlCnl samochodów sportowych (Segme"t Sport). Segment wh;ksl.ych samoch()(lów sportowych (Segmt'111 Slll'l'r Sport). Al fa Romeo Coupe . BMW Z 3, Ford Pum:l, Mercedes SLK ·C lass, Nissan 200 SX . Ope l Tigra , Porsc he Box.lcr. Rcnau h Mcganc Coupe Audi n Coupe, BMW 8 se n• es, Honda Preludc, Hyundai Coupe. Mercedes CL~C lass, Mercedes CLKClass , Porsc he 9 11 , Volvo C70.

(7) Badania segmentów rynku mOlory-;.aqUllego .... cd . tabeli I Segment Segment. małych. vanów. (Scgmt'1If Mini MPV). Segment vanów (Sl'gl111'III I'rIPV,. Segment małych silmochodów ICrcnowych. Dost~pne. modele. Citroen Berlingo, Fiat Multipla, Mit subishi Srace Star, Peugeot Partner. Renault Kangoo. Renault Megane Scenie Chrysler Grand Voyagcr. Ci troen EVil sinn . Fi.al Ulyssc. Ford Galax y, !-Ionda Shulllc. Kia Cam ival. Mercedes V-Class, Mitsuhishi Sanlamo. Renau lt Espace. Scal Alh'llllbra. Toyota Pienie. Volkswagen Sharan Honda eR-Y. Jeep Wrangler, bida Niva, Suzu ki Samurai. Suzuki ViIara, Suzuki Jimmy, Toyota RAV4. (Segme nt Smal! SUV). Segment dui.ych samochodów terenowych (Sl~gmenl. Źródło:. Lllrgt' SUV). Daewoo Korando , Daewoo Musso . Damis Aro, Ford Explorer. Honda HR -V. Bundai Gall oper. kep Grand Chcrokcc . Kia Sponagc. Land Rover Discoveryl IFreelander/Dcfcndcr , Mercelles G-Class. Mercedes M-CJass , Mit subi shi PajeTO. Ni ss an Pal roi GR . Nissan Tarrano II. O pel Frontera , Ro ver Ran gc Rover, Ssangyong Korando. Ssangyong Musso, Suzuki Grand Vitara, Toyota l. . and Cm iser. opracowanie własne .. Do rozpoznania slruktury rynku sa mochodów osobowych w Polsce wykorzystano, jak już wcze śni ej wspomniano, me todę drzew klasyfikacyjnych CART. Zmienną za l eżną jest cena samochodu (z 30 września 1999 r.), a zmiennymi niezależnymi, Izw. prcdyktorami : moc si lnika (KM), pojemność silnika (cmJ ).liczba drzwi, rodzaj nadwozia (sedun. hatchback, wagon i in .), typ paliwa (benzyna, diesel) , kraj producenta' (pol ska, Włochy, Niemcy, Korca Płd. i in.), wyposażenie w wersji standardowej (ABS, wspomaganie kierownicy, elektryczne szyby, centralny zamek, klimatyzacja. poduszki powietrznej) Kolejno omówione zostaną wyniki analizy z u życie m kilku reguł podzialu (G iniego , chi-kwadrat i G-kwadrat) oraz różnych kryteriów slopu.. 2 Pnez kraj pnxJuccnl3 należy TOwmieć ojczyznc; danej marki, trudno bowiem brać pud uwagę fubryki kai.dcgo koncernu motoryzacyj nego, które zlokalizowane są na calym niemal świecie, dla przykładu: Opel produkowany jest w Niemczec h. w Portugalii i w Polsce, a nic można przecież. po wiedzieć. że marka ta pochodz i z Gliwic . .\ W przypadku poduszek powietrznych (Air Bag) zwróc.:ono uwagę na fakt wy slc;powania pomijaj'jc ich liczbę..

(8) Mariusz. Lapcz,}',hki Reguła. 3.. GInlego I kryterium FACT. S t os ując regułę. Giniego i kryterium stopu FACT otrzymano drzewo przed-. stawione na rys . 2.. I. 40-60 tys.. moc silnika (KM) < 121. 562. ,. r,. - 40- 60 tys .. 241. :> IOOtys .. .~. =. SEG MENT miniMPV, uppcrmc.lowcrmc. smali. 125 4. 6. 60-80 tys.. moc silnika. 115. 5. ( KM)~191. 11 6. > 100 tys .. 10. 7 60-80 tys.. 100 tys.. =. 84. 8. PRODUCENT Czec hy, Hiszpania, Francja . Niemcy , Korea Płd. , Wiochy 60-80 tys .. 9. 31. 80-100 tys.. Rys. 2. Drlewo klasyfikacyjne CENA,liczba podziałów = 4, Iiczba węzłów 2 roolo: opracowanie wlasoc .. końcowych. =5. Drzewo lO sk łada się z 9 węzłów, z czego 4 to macierzyste punkty węz łowe, a 5 to węzły końcowe. Interpretacja węzłów końcowych wygląda następująco: - węzeł nr 2 - to klasa samochodów w cenie 40- 60 tys. zł (40; 60 >, są to pojazdy, których moc si łnika nie przekracza 12 1 KM ($ ł21 l, - węzeł nr 5 - to klasa samochodów, których cena przekracza 100 tys. zł, są to pojazdy o mocy silnika przekraczającej 121 KM , nie należące do "segmentów" Mini MPY, Upper Medium, Lower Medium i Smalt,.

(9) Badania .. rynku nlOIor)'zacyjnego .... - węzeł nr 7 - to klasa samochodów, których cena przekracza 100 tys. zł. s~l to samochody o mocy silnika przekraczającej 191 KM, nie nalei.q one do ww . •. ~ egmcnLow.. - węzeł 8 - to klasa samochodów w cenie 60- 80 tys . zl (60: 80 >, są to samochody z "segmentów" Mini MPY, UPrer Medium, Lowcr Medium i Smali, o mocy silnika nie przekrac zającej (~) 19 1 KM, produkcji czeskiej, hiszpańskiej, francuskiej, niemieckiej, koreańskiej i włoskiej, - węzel nr 9 - to klasa samochodów w cenie 80- łOO tys. zł (80; 100 >, Sll to samochody z "segmentów" Mini MPY, Upper Medium. Lower Medium i Smali, o mocy silnika nie przekraczającej (~) 191 KM, wyprodukowane w Japonii lub w Stanach Zjednoczonych . 100. HO. 40 20. o. - ", o. 'J. '8 ". Q.. ••. c. E '"~-•. '"o. "'" c. N. c .lś. -~ ."". .-". .-"c·_"u '"el c. .. -"t:: .. " "" " &"8. " ~. o. C. ~. '" ~. ~. ~. c. ~. E " o_. 8.~. ~'". «. '"~. u. ,,'" c.o c . . '" ." '"' -~ E" '"c c c .~. N. -. ~ &' c " -"E" "u '"."" -'" N. N. ~. 0-. E~ u ~. . ~. 8.. ~. .-. ~. g E. Prcdyktor. Rys. 3. Ranking ważności predyktorów CART-G INI-FACT. Zmienna ranking w skali od O(niska ważność) do 100 (wysoka wai. nośó). zależna:. CENA. Źródło: opracowanie własne .. Na rys . 3 przedstawiono ranking ważności zmiennych niezależnych . Ponieważ CART jest nieparametryczną metodą klasyfikacji (dyskryminacji) zbiorów obserwacji, wi,c ważność prcdyktorów wyrażona jest inaczej ni7. w klasycznej analizie regresji wielokrotnej, a mianowicie na skali porządkowej . 100 oznacza wysoką, a O niską ważność predyktora. Wynik a s tąd, 7.e najistotniejs7.'1.

(10) Mariusz zmienną objaśniającą cenę. samochodu jest moc silnika (100 pkt.). Dalej znajdują się: ex aequo pojemność silnika i przynależność do "segmentu" (95 pkt.), posiadanie ABS-u (82 pkt.), posiadanie klimatyzacji (57 pkt.), posiadanie wspomagania kierownicy (53 pkt.), kraj producenta (45 pkt.), wersja nadwozia (37 pkt.), posiadanie centralnego zamka i elektrycznie sterowanych szyb (po 35 pkt.) i posiadanie poduszki powietrznej (31 pkt.). Ranking zamyka rodzaj paliwa: benzyna i diesel (po 3 pkt.) - są to zatem najmniej istotne predyktory. W tabeli 2 zamieszczone zostały przypadki błędnie sklasyfikowane. Jest to tzw. macierz błędnych klasyfikacji, którą zestawia się zawsze przy okazji analizy z zastosowaniem drzew klasyfikacyjnych. W wierszach znajdują się klasy oczekiwane, a w kolumnach klasy obserwowane. Widać, że samochody z przedziału cenowego do 20 tys. zł zostały błędnie przypisane do klasy samochodów z przedziału cenowego 40-60 tys. zł (7 przypadków). 169 samochodów z klasy (20; 40 > zostało błędnie zaliczone do klasy (40; 60 >; 9 samochodów z klasy (40; 60 > zaklasyfikowanych zostało do klasy (60; 80> itd. Tabela 2. Macierz blędnych klasyfikacji CART-GINI-FACT Klasa do 20 tys, do 20 tys. 20 -40 tys. 40--1lO tys. 60-80 tys. 80- 100 tys. >IOOI)'s.. Klasa 20-40 tys. O. O. 7. 169. O. O O O. O O. Klasa 40-1lO tys. O O. Klasa 1lO-80 tys. O O. 84 9 O O. 4 8. Klasa 80- JOO tys.. Klasa > HXl tys.. O O. O O. 17 16. 13 J3 8. 3. Źródło: opracowanie własne.. Wynika to z dwóch przyczyn: l. Jako regułę podziału wybrano regułę Giniego, a ta, jak już wcześniej wspomniano, polega na wyodrębnieniu klasy najliczniejszej i oddzieleniu jej od pozostałych klas, w tym przypadku zmienną wykorzystaną w pierwszym punkcie węzłowym była moc silnika, a zatem w węźle końcowym nr 2 znalazły się wszystkie samochody o mocy silnika nie przekraczającej ($) 121 KM, w klasie tej najliczniej reprezentowaną grupą była ta z przedziału cenowego (40; 60> -- stąd więe wzięła się nazwa tej klasy: (40; 60> tys. zł. 2. Jako kryterium stopu wybrano FACT, w tym przypadku drzewo kompletne jest traktowane jako drzewo właściwej wielkości, kryterium to jest oparte na minimalnej frakcji obiektów, oznacza to, że węzłem końcowym (w przypadku nierównych prawdopodobieństw a priori') może zostać węzeł zawierający W badaniach empirycznych, gdzie zmienna zaJd.na ma kilka poziomów, występowanie rów~ nego prawdopodobieństwa li priori jest mało prawdopodobne, oznaczałoby to bowiem, że praw4.

(11) .... Badania '. więcej niż. jedn'l klasę i posiadający nic wi~cej przypadków niż. określona frak cja dla jednej lub więcej klas, do zalet tego kryterium zaliczyć Illoi.na niewielkie rozmiary drzewa, co ulatwia graficzną prezentację wyników.. 4.. Reguła podziału. chi-kwadrat I kryterium FACT. W drugim przypadku zastosow'1Il0 regulę podzialu ;(1 i kryterium stopu FACT. Drzewo uzyskane na tej drodze postępowania zilustrowano na rys. 4. Widać, i.e kształt drzewa uzyskanego tą regulą podziału różni się znacznie od tego na rys. 2. Do 15 wzrosła liczba węzlów drzewa, z czego 7 węzłów to węzły macierzyste, a 8 to kOl1cowe punkty węzłowe. Interpretując węzły kOIlcowe (od najbardziej do najmniej licznego) można zaobserwować następujące cechy wyodrębnionych klas: - klasa samochodów z przedziału cenowego (40; 60 > tys. zł - 459 przypadków należących do "segmentów": Mini , Mini Plus, Smali, Lower Medium, Mini MPY lub Mini SUY, - klasa samochodów w cenie przekraczającej 100 tys. zł - 136 przypadków Z "segmentów": MPY, Sport, Super Spon, Luxury, Executive lub Upper Medium z poduszką powietrzml w wersji podstawowej modelu oraz z mocą silnika większ'l niż 139,5 KM , - klasa samochodów z przedziału cenowego (60; 80 > tys . zł - 72 przypadki z "segmentów": Spon lub Upper Medium o pojemności silnika przekraczającej ł650 cm 3 , wyprodukowanych w Hiszpanii, Francji lub w Niemczech, - klasa samochodów z przedziału cenowego (40; 60 > tys. zł - 42 przypadki z "segmentów": MPY, Super Sport, Sport, Luxury, Executive lub Upper Medium, posiadających poduszki powietrzne i silniki o mocy nie przekraczają­ cej (::;) \39,5 KM, wyprodukowane w Czechach (Skody), Korei Płd. (Daewoo, Kia, Hyundai) lub we Włoszech (Fiat), - klasa samochodów z przedziału cenowego (80; 100 > tys . zł - 34 przypadki z "segmentów": Spon lub Upper Medium z silnikiem, którego pojemność przekracza 1650 cm J wyprodukowanych poza Hiszpani'l, Francją bądź Niemcami, - klasa samochodów z przedziału cenowego (60; 80 > tys . zł - 32 przypadki z "segmentów": Sport lub Upper Medium z silnikiem, którego pojemność nie przekracza 1650 cm3, - klasa samochodów, których cena jest wyższa niż 100 tys. zł - 22 przypadki z "segmentów": MPY, Super Spon, Luxury lub Executive z silnikiem o mocy nic przekraczającej (::;) 139,5 KM , nie wyprodukowane w Czechach, Korci Płd. czy we Włoszech, dopodobicńslWO. powstania klasy samochodów z przedziału cenowego do 20 tys. zł (7 przypadków. w całym, liczqcym 803 przypadki zbiorze obserwacji) jeSl równe nia klasy samochodów z zbioru obserwacji ).. przedziału. cenowego 40- 60 ty s.. zł. prawdopodobień s twu. wydziele(281 przypadk ów, el.yh 35(Yv calego.

(12) 40-60 tys.. SEGMENT = MPY, supersp, sport, lumry, execuiiv, uppenne. 344. 4Q-.6O tys_. > 100 tys.. 5. 459. 339. brak poduszek powietrznych. > 100 tvs. •. 20-40 tys.. 203. moc silnika (KM) < 1395. 60-80 tys.. 42. > 100 tys.. P~~UCENT = Czechy,. -, orea. 136. 161. Płd., Włochy. .. 60--80 tys . •. 40-60 tys.. 139. SEGMENT = sport, upperme. > lOOlyS_. 60-80 tys.. CCM < 1650. 33. -77. 106 60-80 tys.. 60--80 tys.. -. .. ~. -. :: ~. -. PRODUCENT = Hiszpania, Francja, Niemcy 72. 60-80 tys.. 80-100 tys.. 34. Rys. 4. Drzewo klasyfikacyjne CART·X' - FACT. Drzewo klasyfikacyjne CENA liczba podziałów; 7; liczba węzłów końcowych; 8 Źródło: opracowanie własne.. "".

(13) Badall;a - klasa samochodów z przedzialu cenowego (20; 40 > tys . zl - S przypadków z .,segmentów": MPV, Super Sport, Sport, Luxury, Executive lub Upper Medium nie posiadajllcych poduszek powietrznych. Kolejność predyktorów w rankingu wa7.ności jest nieco inna nil. przy regule podzialu Giniego . Za najważniejszy predyklOr uznany zostal "segment" (100 pkt.). Dalej kolejność prezentuje się następująco : moc silnika (KM) - 97 pkt. , pojemność silnika (cm) - 92 pkt., kraj producenta - 79 pkt., posiadanie ABS-u 70 pkt" posiadanie klimatyzacji - 55 pkt" posiadanie poduszki powietrznej - 45 pkt., posiadanie elektrycznie sterowanych szyb - 44 pkt., wersja nadwozia - 41 pkt., posiadanie wspomagania kierownicy - 36 pkt., posiadanie centralnego zamka - 34 pkt., ex aequo rodzaj paliwa: benzynowy i diesel - po 8 pkt.. s. Roguła podziału G·kwadrat I kryterlulII. 'ACT. Ostatni przedstawiony w niniejszej pracy wariant analizy 1. użyciem drzew klasyfikacyjnych opiera się na regule podzialu G2 i kryterium stopu FACT. Drzewo uzyskane na tej drodze ilustruje rys. 5. Drzewo to posiada II punktów węzlowych, z czego 5to węzły macierzyste, a 6 węzły końcowe. Interpretacja tych ostatnich (zaczynaj"c od węzła z największllliczebnością) jest następująca: - klasa samochodów z przedziału cenowego (20; 40 > tys . zł - 315 przypad ków nie posiadając ych ABS-u w wersji podstawowej modelu, - klasa samochodów z przedziału cenowego (40; 60 > tys. zł - 252 prLYpadki posiadające ABS w wersji standardowej, z silnikiem o mocy nie przekraczającej (!» 117 KM, - klasa samochodów, których cena jest wyższa niż 100 tys. zł - 116 przypadków posiadających ABS w wersji standardowej, z silnikiem o mocy wyż­ szej niż 117 KM, nie należące do "segmentów": Mini MPY, Upper Medium, Lower Medium i Smali, - klasa samochodów z przedziału cenowego (60 ; 80 > tys. zł - 78 przypadków z "segmentów": Mini MPV, Upper Medium, Lower Medium lub Smali , posiadających ABS w wersji standardowej , z silnikiem o mocy mieszczącej się w prawostronnie domkniętym przedziale (117; 191 > KM, wyprodukowanych w Czechach, Hiszpanii, Francji, Niemczech, Korei Płd. lub we Włoszech, - klasa samochodów z przedziału cenowego (80; 100> tys . zł - 32 przypadki z "segmentów"; Mini MPV, Upper Medium, Lower Medium lub Smali, posiadających ABS w wersji standardowej, z silnikiem o mocy mieszczącej się w prawostronnie domkniętym przedziale (117; 19ł > KM, wyprodukowane w Japonii bądź USA, - klasa samochodów, których cena jest wyższa niż 100 tys. zł - \O przypadków z "segmentów": Mini MPV, Upper Medium, Lower Medium lub Smali, posiadających ABS w wersji standardowej, Z silnikiem o mocy przekraczającej 191 KM..

(14) 40-60 Iys.. ~łS =brak. 315. 4S8 > IO(lIys.. 20- 40Iys .. 2-' )-. 236. moc siln ika (KM) ::; 117. 40-60 tys.. > 100 tys.. SEGM I~ = miniMPV .. 120. uppcrmc, Jowcnnc, smali. > I no tys .. 60- 80 tys.. 110. _ moc silnika (KM). l 16. $. 191 _. lO. > ICKl tys.. 6n- 80 tys . PRODUCENT =Czc<h y. Hiszpania .. 78. Francja, Niemcy, Korca Pld., Wiochy. 6O- HO tys.. :\2. HO- liX) tys.. Rys. 5. Drzewo klasyfikacyjne CART-G ' -FACf. liczba końcowych = 6. podział ów =. 5. liczba. węzłów. Zródło: opracowanie własne .. Waga poszczególn ych zmiennych obja ś ni ających jest zbliżona do tej z regu ly podzialu Giniego. Kolejność predyklorów przedslawia się na s lępująco : moc silnika (KM) - 100 pk!.. ex aequo pojemność silnika (cm 3 ) i "segment" 97 pk!., posiadanie klimatyzacji - 52 pk!., posiadanie ABS-u - 49 pk!., kraj producenta - 39 pk!., wersja nadwozia - 37 pk!., posiadanie wspomagania kierownicy - 33 pk!., posiadanie elektrycznie Slcrowanych szyb - 3 1 pk!.. posiadanie centralnego zamka - 31 pk!., posiadanie poduszek powietrznych - 19 pkl ., ex aequo rodzaj paliwa: benzyna i diesel - 3 pkt.. 6. 'odsumowanlo Wykorzystanie drzew klasyfikacyjnyc h w rozpoznaniu struktury rynku wymaga wicie pracy. Wszystkie dost ępne w pakiecie STATISTICA reguly podzialu i kryteria stopu um oż liwiają utworzenie. z samy m tylko CARl', 9 ró ż-.

(15) Badania . .. . rynku mOlory::.aC)jnego",. nych drzew, o różnej liczbie węzłów kOlicowych i różnej ważności predyktorów, Nic przesądza to wcale o małej skuteczności tej nieparametrycznej metody dyskryminacji, Wystarczy porównać uzyskane wyniki (tabela 3) i wybrać najlepsze rozwiązanie, Tabela 3, Koszty resubstytucji i liczba i różnych kryteriów stopu. liczność. Giniego. 0,199253. (5). 16 bląd. dla. róż.nych. regul. podziału. Reguła podziału. Krytcrium stopu minimalna. węzłów końcowych. standardowy (I .<li. węzlów. 0,190536 19. FACT ...1. węzłów. chi-kwadrat. G-kwadrat. O,12R269 42 węzły. O,I2R269 38 węzłów. 0,1 t:l325. 0,1 32(X14. 58. węzłów. 48. węzłów. 0,437111. 0,.l8854.1. 0,407221. węzłów. 8 węzłów. 6. 5. węzłów. Źródło: opracowanie własnc.. Jak widać, spadek kosztu resubstytucji wiąże się ze wzrostcmliczby węzłów kOlicowych. Prezentowanc w niniejszej pracy kryterium stopu FACT charakteryzuje się najmniejszą liczbą kOlicowych punktów węzłowych, ale za to najwyż­ szym kosztem resubstytucji, Jego niewątpliwą zalctą jest możliwość czytelnej graficznej prezentacji wyników, Z drugiej jednak strony duża liczba błędnych klasyfikacji skłania do wybrania innego kryterium stopu, Jeśli chodzi o ranking ważności predyktorów, to wyniki uzyskane wszystkimi metodami można porównać używając jednego z testów dla skal porządkowych (np, Spearmana lub T Kendalla), Drzewa klasyfikacyjne mają w branży motoryzacyjnej szerokie praktyczne zastosowanie, Z ich użyciem można ocenić wiarygodność kredytobiorcy (wła­ sne banki posiadają m.in, Opel, Renault), ocenić skuteczność reklamy pocztowej (mailing) czy przeprowadzić badania segmentacyjne rynku (zmienmj zależną byłby wtedy model samochodu np, Fiesta, Escort, Focus, Mondeo, Explorer, Puma) natomiast deskryptorami cechy demograficzno-ekonomiczne klientów, które, przynajmniej w części, posiada każdy punkt dealerski, Jeśli chodzi o ogólne wnioski z niniejszego opracowania, to trudno je wyci')gnąć, Przyczyn') są przedziały cenowe przyjęte przez autora tej pracy, Nie są satysfakcjonuj')ce dla sprzedawców wszystkich marek, co wynika z grupy docelowej poszczególnych producentów, Inną grup'), a tym samym innym przedziałem cenowym zainteresowany będzie producent Saab-a, a innym producent Daewoo, Powinno się w takich przypadkach ograniczyć analizowany zbiór obserwacji do wyhranego "segmentu" (np, Upper Medium) oraz przekodować zmienną objaśnianą, czyli cenę,.

(16) M ariltJZ. Literatura D escr iplioll of C/a .u ijicarioll Methods, Rllle In duCl ion (CART and FuR ES).. www.gepasi.dbs.abcr .... c,uk G r a biń s k i T. [199 21. Metody raksoflometrii . AE Kra ków. Jaju ga K , (1 993]. Statystyczna allaliza wielowymiarowa , Wyda wni ctwo Na uk owe PW N. Warszawa . Mark W., t",ro(/uf.: rioll To Daw Mil/ing" , www.ól ic.lod heed .com Mynarski S. [19791. Eleme"t)' teorii syJtemów i cybernetyk i, Wydaw nictwo Na ukowe PWN, Warszawa. Mynarski S. [J 9821, Moc/elowan ie rynku IV Uj('ci ll systemowym, PWN , Warsza wa . Mynarski S. {1999], Struktury segmentac)jne powiqzmi importowo-eksportowych na rynkach europejskich [w :] Euromarkeling. Koncepcje . Strategie. Metody , pod red. J .W. Wiktora , AE w Krak owie , Kraków. Sagan A. {19981. Badania 11wrkt't illgowc, poc/stawowe kierun ki, AE Kraków. Sagan A . (1999 J, Drzewa klasyfikacyjne . referat z se minarium STATSO Ff "Marketin g i statystyka", Warszawa . T.-S. Lim . W.- y. Loh, v.-S. Shih [1 9991, A Compari.wn oj Predict;oll ACI.:lI rtlcy. Comple.tity, a nd Trai ning Time oj Thirty-three O/d a nd N(!w Classiji'catio n A/gorith ms, KJu wc r Acadcrnic PhI.. Boston.. A Study ol Segments ol the Automobile Market Uslng Classlflcatlon and Regres.lon Trees (CART) The aim of Ihis work is 10 iden(ify Ihe Slructure of the market for new passcnger cars in Poland. For the purposes of classifyi ng his observations. (he author employed a Ilon-pararneter based method ot' data analy sis - CART (C lassificati on and Regress ion Trees). Alongside artificial neuraJ netw ork s. c1assification trees are the most popular method of finding models and reJationships in Jarge data bases. The possibility of introducing inl o the analysis inde pendent variabies localed at alllevels of Ihe measu rement rnake s this mC lhod very useful when a market is diffe renti ated , as is Ihe case wit h Ihe automobile market. Pas senger cars posscss bolh quanlilali ve fealures (e ngine power, cngine capacil y. maximum (um ing moment , e tc .) and qualilali ve oncs (lype of bodywork. furni shings and fiuings , functi onalit y of Ihe interior) . This is why the CART meth od was used instead of Iradili onal discri minat ion analys is..

(17)

Cytaty

Powiązane dokumenty

Mianowicie spośród 40 transakcji zbioru uczącego jeden zbiór transakcji z grupy B został błędnie przypisany do grupy A, dwa zbiory z grupy C zostały sklasyfi- kowane do grupy B

• Pogląd, według którego człowiek i świat składają się z dwóch przeciwstawnych sfer: materii i ducha; świętości (sacrum) i tego, co przyziemne (profanum). • Osoby

Homologicz- ne własności bloku izolującego pozwalają często uzyskać rezultaty do- tyczące struktury zbioru niezmienniczego izolowanego przez blok B.. W szczególności, z

Въздухът, изсмукван от аспиратора, не трябва да се отвежда през тръба, която се използва за отвеждане на дим или за уреди, захранвани с газ или

zastosowania opatrunków specja- listycznych firmy Paul Hartmann w leczeniu trudno gojącej

Zauważono wzrost wartości dynamiki obrotów w handlu detalicznym dla produktów tekstylnych, odzieży i obuwia według cen bieżących dla lat 2013–2016.. Linia trendu jak

Celem pracy było takie wykonanie konstrukcji ostoi i nadwozia lokomotywy, które możliwie wier- nie prezentuje kształty i wymiary modelu w skali, uwzględniając technologię

11 pokazano zależność momentu elektromagnetycz- nego T e w funkcji kąta obrotu wirnika dla konstrukcji bazowej oraz kątów przesunięcia segmentów magnesów zapewniających