• Nie Znaleziono Wyników

Analiza porównawcza tabel kontyngencji i metody CHAID

N/A
N/A
Protected

Academic year: 2021

Share "Analiza porównawcza tabel kontyngencji i metody CHAID"

Copied!
15
0
0

Pełen tekst

(1)Zesz yty Naukowe nr. 659. 2005. Akademii Ekonomicznej w Krakowie. Mariusz ¸apczyƒski Katedra Analizy Rynku i Badaƒ Marketingowych. Analiza porównawcza tabel kontyngencji i metody CHAID 1. Wprowadzenie Celem pracy jest porównanie tabel kontyngencji z metodà drzewkowà CHAID. Obie techniki znajdujà zastosowanie w analizie danych jakoÊciowych i od dawna sà z powodzeniem wykorzystywane w badaniach marketingowych. Pierwsza pozwala zestawiaç i interpretowaç kilka zmiennych jednoczeÊnie. Pozwala równie˝ sprawdziç, czy mi´dzy zmiennymi istnieje zale˝noÊç oraz zmierzyç si∏´ tej zale˝noÊci. Ma niestety t´ wad´, ˝e im wi´cej zmiennych, tym mniejsza przejrzystoÊç tabeli oraz mniejsza szansa na u˝ycie statystyki chi-kwadrat. Druga metoda – CHAID – umo˝liwia budow´ modeli dyskryminacyjnych i równie˝ wykorzystuje statystyk´ chi-kwadrat. Pozwala szybko analizowaç du˝à liczb´ zmiennych kategorialnych (zestawiajàc je w tabele kontyngencji), ale jej ograniczeniem jest wymagana du˝a liczebnoÊç próby.. 2. Analiza danych z wykorzystaniem tabel kontyngencji Analiza danych za pomocà tabel kontyngencji nale˝y do najcz´Êciej spotykanych sposobów analizy i redukcji danych. W tabelach takich zestawia si´ co najmniej dwie zmienne (mowa wtedy o tabelach dwudzielczych), przy czym warianty jednej zmiennej umieszcza si´ w wierszach, a warianty drugiej zmiennej w kolumnach tabeli (tab. 1). W polach tabeli umieszczono liczebnoÊci odpowiadajàce jednoczeÊnie danym wariantom obu zmiennych. Zestawiajàc zmienne w tabele kontyngencji, powinno si´ mieç na uwadze kilka zasad1: 1 A. Sagan, Badania marketingowe – podstawowe kierunki, Wydawnictwo AE w Krakowie, Kraków 1998, s. 53..

(2) Mariusz ¸apczyƒski. 150. – zmienne zale˝ne umieszcza si´ zazwyczaj w wierszach tabeli, a zmienne niezale˝ne w kolumnach tabeli, – warianty zmiennych zale˝nych (w wierszach) powinno si´ uszeregowaç od najwa˝niejszego do najmniej wa˝nego wzgl´dnie od wartoÊci najwy˝szej do najni˝szej, – warianty zmiennych niezale˝nych (w kolumnach) powinno si´ uszeregowaç od najmniej wa˝nego do najbardziej wa˝nego wzgl´dnie od wartoÊci najni˝szej do najwy˝szej. Tabela 1. Przyk∏ad tabeli kontyngencji Zmienna X. Zmienna Y Y–a. Y–b. Y–c. Y–d. Suma. X-a X-b X-c. 10 20 45. 10 20 15. 10 20 15. 10 20 15. 40 80 90. Suma. 75. 45. 45. 45. 210. èród∏o: opracowanie w∏asne.. Najprostsza analiza danych zawartych w tabeli kontyngencji wià˝e si´ z obliczeniem procentów w trzech kierunkach. Chodzi o wyliczenie proporcji liczebnoÊci w poszczególnych polach tabeli wzgl´dem sumy z wiersza (1. kierunek), wzgl´dem sumy z kolumny (2. kierunek) lub wzgl´dem sumy z ca∏oÊci (3. kierunek). W pierwszym przypadku suma z wiersza stanowi 100%, a interpretacja dotyczy ka˝dego wiersza z osobna – sprawdza si´ rozk∏ad zmiennej niezale˝nej w ka˝dym wariancie zmiennej zale˝nej. W drugim przypadku to suma z ka˝dej kolumny wynosi 100%, a badacz sprawdza rozk∏ad zmiennej zale˝nej w ka˝dym wariancie zmiennej niezale˝nej. W trzecim przypadku suma proporcji z wszystkich pól tabeli stanowi 100%, a badacz wyciàga wnioski dotyczàce ca∏ej populacji w oparciu o zmienne zestawione w danej tabeli. Kolejnym etapem analizy danych z wykorzystaniem tabel kontyngencji jest sprawdzenie, czy mi´dzy badanymi zmiennymi wyst´puje istotna statystycznie zale˝noÊç. Zwykle u˝ywa si´ do tego testu niezale˝noÊci chi-kwadrat. Hipoteza zerowa zak∏ada, ˝e nie ma zale˝noÊci mi´dzy zmiennymi, natomiast hipoteza alternatywna, ˝e zale˝noÊç taka wyst´puje. W pierwszym kroku procedury wylicza si´ wartoÊci oczekiwane, mno˝àc sumy z kolumn i wierszy, a nast´pnie dzielàc wynik przez sum´ wszystkich obserwacji. Pos∏ugujàc si´ przyk∏adem z tabeli 1, mo˝na obliczyç takà wartoÊç. WartoÊç empiryczna na przeci´ciu si´ kolumny Y–b z X–c wynosi 15. Oznacza to, ˝e 15 przypadków (ze wszystkich 210) spe∏nia jednoczeÊnie wariant b zmiennej Y i wariant c zmiennej X. WartoÊç oczekiwana dla tego pola tabeli wynosi:.

(3) Analiza porównawcza tabel kontyngencji i metody CHAID. 151. (suma z kolumny Y-b x suma z wiersza X-c) / suma wszystkich obserwacji = = (45 × 90) / 210 = 4050 / 210 = 19,29. Obliczenie wartoÊci oczekiwanych ma na celu zbadanie, jak rozk∏ada∏yby si´ liczebnoÊci w polach tabeli, gdyby mi´dzy zmiennymi nie by∏o ˝adnej zale˝noÊci. Nast´pnie porównuje si´ wartoÊci oczekiwane z wartoÊciami empirycznymi (zaobserwowanymi) przez podstawienie do wzoru: r. k. χ2 = ∑ ∑ i=1 j=1. ^. (nij – nij )2 ^. nij. gdzie: nij – wartoÊci oczekiwane w i-tym wierszu i j-tej kolumnie, ^. nij – wartoÊci empiryczne w i-tym wierszu i j-tej kolumnie. Ustala si´ poziom istotnoÊci (zazwyczaj α = 0,05) i odczytuje z tablic statystycznych wartoÊç krytycznà χα2 dla przyj´tego α i liczby stopni swobody równej v = (w – 1)(k – 1), gdzie w oznacza liczb´ wierszy, a k liczb´ kolumn. Ostatnim krokiem w tym etapie analizy jest porównanie wyliczonego χ2 z wartoÊcià odczytanà z tablic χα2. JeÊli χ2 > χα2, to odrzucamy hipotez´ zerowà, co oznacza, ˝e istnieje statystycznie istotna zale˝noÊç mi´dzy zmiennymi. W przypadku przeciwnym przyjmujemy hipotez´ zerowà, a tym samym stwierdzamy brak zale˝noÊci mi´dzy zmiennymi. Nast´pnym etapem analizy (po stwierdzeniu zale˝noÊci mi´dzy zmiennymi) jest obliczenie si∏y zwiàzku mi´dzy zmiennymi. Test niezale˝noÊci chi-kwadrat pozwala∏ jedynie stwierdziç, czy taka zale˝noÊç wyst´puje. Istnieje wiele wspó∏czynników s∏u˝àcych do pomiaru si∏y zale˝noÊci, np. wspó∏czynnik ϕ Yule’a, wspó∏czynnik T Czuprowa czy wspó∏czynnik kontyngencji C Pearsona. Pewnà niedogodnoÊcià w ich stosowaniu jest brak sta∏ej górnej granicy. Stwarza to trudnoÊç przy interpretacji, gdy˝ za ka˝dym razem trzeba oszacowaç t´ wartoÊç (zale˝nà od liczby kolumn i wierszy tabeli kontyngencji). Dlatego te˝ bardzo dobrym wyjÊciem jest wykorzystanie wspó∏czynnika V Cramera, który dla dowolnych tabel przyjmuje wartoÊci z przedzia∏u ⟨0, 1⟩, gdzie 1 oznacza bardzo silny zwiàzek mi´dzy zmiennymi.. 3. Charakterystyka metody CHAID (Chi-squared Automatic Interaction Detection) CHAID jest metodà analizy danych opartà na metodzie detekcji interakcji AID. Pozwala dzieliç zbiór przypadków na wyczerpujàce i wzajemnie roz∏àczne podzbiory najlepiej opisujàce zmiennà zale˝nà. Zmienna zale˝na, podobnie jak zmienne niezale˝ne, jest niemetryczna. Kiedy w analizie wyst´puje ma∏a.

(4) Mariusz ¸apczyƒski. 152. liczba predyktorów lub badacz przygotowa∏ map´ koncepcji, autor algorytmu zaleca zastosowanie analizy logliniowej2. W literaturze dotyczàcej AID predyktory porzàdkowe nazywane sà predyktorami monotonicznymi (monotonic predictors), a predyktory nominalne wolnymi (free predictors). W metodzie CHAID wprowadzono dodatkowo tzw. predyktory p∏ynne (floating predictors). Predyktor p∏ynny to taki predyktor, który znajduje si´ na nominalnym lub porzàdkowym poziomie pomiaru, jednak od pozosta∏ych dwóch typów predyktorów odró˝nia go obecnoÊç tzw. p∏ynnej kategorii (floating category). W przypadku zmiennej nominalnej jest to kategoria odstajàca od pozosta∏ych i mo˝e oznaczaç brak danych. W przypadku zmiennej porzàdkowej jest to kategoria oznaczajàca nieznanà pozycj´ na skali i równie˝ kwalifikuje si´ jà jako brak danych. Innymi cechami charakterystycznymi CHAID sà: sposób podzia∏u w´z∏ów (oparty na teÊcie niezale˝noÊci chi-kwadrat) oraz mo˝liwoÊç budowy drzew niebinarnych (o dowolnej liczbie ga∏´zi). Podobnie jak AID, CHAID jest procedurà krokowà. Na ka˝dym etapie podzia∏u drzewa sprawdza si´ istotnoÊç wszystkich predyktorów – porównuje si´ je i wybiera najlepszy z nich. Zbiór obserwacji dzieli si´ na podzbiory w oparciu o ten wybrany predyktor. Ka˝dy z podzbiorów jest nast´pnie analizowany niezale˝nie w taki sam sposób jak wyjÊciowy zbiór obserwacji. Poziom pomiaru predyktora decyduje o dopuszczalnym ∏àczeniu kategorii. W przypadku predyktorów monotonicznych wolno ∏àczyç tylko kategorie sàsiadujàce ze sobà, zaÊ w przypadku predyktorów wolnych dopuszczalna jest ka˝da kombinacja kategorii. Na ka˝dym etapie podzia∏u drzewa tworzy si´ tabel´ kontyngencji, w której zestawia si´ zmiennà zale˝nà i predyktor. JeÊli zmienna zale˝na ma d ≥ 2 kategorii, a predyktor c ≥ 2 kategorii, to dà˝y si´ do redukcji tabeli kontyngencji o wymiarach d × c do bardziej istotnej o wymiarach d × j, przez ∏àczenie w dozwolony sposób kategorii predyktora3. JeÊli do analizy w∏àczono n predyktorów, to otrzymuje si´ n takich zredukowanych tabel. Ka˝dorazowo stosuje si´ test niezale˝noÊci chi-kwadrat i oblicza poziom istotnoÊci p. Nast´pnie szacuje si´ skorygowanà wartoÊç p (adjusted p value), która jest iloczynem poziomu p i mno˝nika Bonferroniego (Bonferroni multiplier). IstotnoÊç predyktora to iloczyn poziomu p i mno˝nika Bonferroniego. Mno˝nik ten oblicza si´ inaczej dla ka˝dego typu predyktora4. I tak, dla predyktora monotonicznego wzór oparty jest na wspó∏czynniku dwumianowym (binomial coefficient): Bmonotoniczny =. ( cr –– 11 ). 2 G.V. Kass, An Explanatory Technique for Investigating Large Quantities of Categorical Data, „Applied Statistics” 1980, nr 29(2), s. 119. 3 IstotnoÊç z punktu widzenia testu niezale˝noÊci chi-kwadrat. 4 G.V. Kass, op. cit., s. 122..

(5) Analiza porównawcza tabel kontyngencji i metody CHAID. 153. gdzie: c – liczba kategorii predyktora, r – liczba po∏àczonych kategorii. W przypadku predyktora wolnego mno˝nik Bonferroniego liczony jest wed∏ug wzoru: r–1. Bwolny = ∑ (–1)i i=1. (r – i)c i!(r – i)!. zaÊ w przypadku predyktora p∏ynnego: Bplynny =. ( cr –– 22 ) + r ( cr –– q2 ) = r – 1 c+–r(c1 – r) B. monotoniczny. Ostatni krok algorytmu polega na podziale w´z∏a macierzystego w oparciu o predyktor z po∏àczonymi kategoriami. Wybiera si´ t´ zmiennà niezale˝nà, dla której skorygowana wartoÊç p jest najni˝sza i mniejsza od przyj´tego 0,05. Przyk∏ad tabeli kontyngencji z „najlepszym” predyktorem przedstawiono na rys. 2, a sposób jej zamiany na drzewo na rys. 3. Tabela 2. Przyk∏ad tabeli kontyngencji zestawiajàcej zmiennà zale˝nà z najlepszym, na danym etapie podzia∏u, predyktorem Y1/Z. 1. 2. 3. 4. Suma z wierszy. 1 2i3i4. 23 12. 5 3. 19 16. 4 18. 51 49. Suma z kolumn. 35. 8. 35. 22. 100. Chi-kwadrat = 13,08861; liczba stopni swobody = 3 (p = 0,004448843) èród∏o: opracowanie w∏asne.. W tabeli 2 widaç, ˝e pierwotna liczba kategorii (4) zosta∏a zredukowana do dwóch przez po∏àczenie kategorii 2, 3 i 4. Binarny podzia∏ na rys. 1 zawiera zatem 2 ga∏´zie – do jednej trafi∏a kategoria „1”, a do drugiej kategoria „2 i 3 i 4”. Metoda CHAID ma kilka wad5, jednak za najwi´kszà uznaje si´ niezb´dnà liczebnoÊç próby. Wed∏ug ró˝nych autorów próba powinna liczyç6: 5 M. ¸apczyƒski, Detekcja interakcji w drzewach klasyfikacyjnych – próba syntezy, Prace Naukowe nr 1010 AE we Wroc∏awiu, „Ekonometria 13”, Wydawnictwo AE we Wroc∏awiu, Wroc∏aw 2004. 6 S. Baron, D. Philips, Attitude Survey Data Reduction Using CHAID: An Example in Shopping Centre Market Research [w:] Quantitative Methods in Marketing, J.G. Hooley, M.K. Hussey (eds), International Thomson Business Press, 1994, s. 197..

(6) Mariusz ¸apczyƒski. 154. – od 200 do 300 obserwacji, – minimum 1000 obserwacji, – 33 razy wi´cej przypadków ni˝ predyktorów, – 200 razy wi´cej przypadków ni˝ predyktorów.. Y 1 = 35 2=8 3 = 35 4 = 22 ∑ = 100. 1. X1. 2i3i4. 1 = 23 2=5 3 = 19 4=4. 1 = 12 2=3 3 = 16 4 = 18. ∑ = 51. ∑ = 49. Rys. 1. Przyk∏ad binarnego podzia∏u wg metody CHAID èród∏o: opracowanie w∏asne.. Najcz´Êciej podawanà minimalnà liczebnoÊcià próby jest jednak 1000, co w niniejszej pracy zostanie spe∏nione.. 4. Opis badaƒ Badania przeprowadzono jesienià 2002 r. Problem badawczy dotyczy∏ wyboru samochodu za 30 tys. z∏. Respondentów poproszono o wybór jednego auta z listy zawierajàcej wybrane marki i modele samochodów nowych i u˝ywanych (tab. 3). Lista zawiera∏a równie˝ informacje nt. wersji nadwozia, mocy silnika i ceny. JeÊli chodzi o ceny nowych samochodów, to uzyskano je z witryn internetowych krakowskich dealerów samochodów osobowych w dniu 14 paêdziernika 2002 r. (nie uwzgl´dniono czasowych promocyjnych upustów cenowych). JeÊli chodzi o ceny i parametry samochodów u˝ywanych, to podano je za raportem firmy Eurotax Sp. z o.o. z koƒca wrzeÊnia 2002 r..

(7) Analiza porównawcza tabel kontyngencji i metody CHAID. 155. Tabela 3. Wybrane marki i modele samochodów przedstawione respondentom Nowe samochody do 30 tys. z∏ Fiat Uno 1.0 Fire 5-drzwiowy, moc 45 KM (25 700 z∏) Fiat Punto 1.2 S 3-drzwiowy, moc 60 KM (29 900 z∏) Fiat Seicento 1.1 SX 3-drzwiowy, moc 54 KM (29 900 z∏) Daewoo Matiz Life 5-drzwiowy, moc 51 KM (28 950 z∏) Polonez Atu Plus 1.6 GSI moc 84 KM (26 550 z∏). U˝ywane samochody do 30 tys. z∏ Audi A3 1.6 Attraction (1998 r.) 3-drzwiowy, moc 110 KM (29 378 z∏) BMW 316i (1997 r.) 4-drzwiowy, moc 102 KM (29 552 z∏) Citroen Xsara Break 1.6i SX Kombi (1999 r.) 5-drzwiowy, moc 88 KM (29 159 z∏) Ford Focus 1.8 16V Ghia (1998 r.) 5-drzwiowy, moc 115 KM (29 780 z∏) Mercedes Benz C 200 Classic (1994 r.) 4-drzwiowy, moc 149 KM (28 240 z∏) Peugeot 406 2.0 ST (1998 r.) 4-drzwiowy, moc 135 KM (28 822 z∏) Toyota Yaris 1.0 Pak 1 (2001 r.) 3-drzwiowy, moc 68 KM (28 281 z∏) Volvo S 40 2.0 (1996 r.) 4-drzwiowy, moc 136 KM (27 462 z∏) Volkswagen Golf IV 1.4 Basis (1999 r.) 3-drzwiowy, moc 75 KM (29 236 z∏). èród∏o: opracowanie w∏asne.. Zmiennymi zale˝nymi by∏y cechy demograficzne respondentów; ich preferencje dotyczàce czytelnictwa czasopism, s∏uchania stacji radiowych czy oglàdania telewizji oraz zestaw predyktorów porzàdkowych – lista stwierdzeƒ charakteryzujàcych zakup samochodu nowego i u˝ywanego. Stwierdzenia dotyczy∏y stereotypów dotyczàcych zakupu auta i brzmia∏y nast´pujàco: 1. Zwykle samochody sà bezawaryjne do 3 lat, póêniej wydatki na naprawy rosnà. 2. Lepiej kupiç samochód u˝ywany, ale niemiecki, ni˝ nowy, ale koreaƒski lub polski. 3. Kupujàc nowy samochód, nie trzeba martwiç si´ o awaryjnoÊç. 4. Nowy samochód traci wiele na wartoÊci ju˝ w chwili wyjazdu z salonu. 5. Auta u˝ywane powypadkowe majà ukryte wady obni˝ajàce ich sprawnoÊç. 6. Przy zakupie u˝ywanego samochodu istnieje mo˝liwoÊç negocjowania ceny. 7. W przypadku samochodów u˝ywanych istnieje ryzyko kupna auta kradzionego. 8. Lepiej wybraç auto u˝ywane, ale bogato wyposa˝one, ni˝ nowe w wersji standardowej. Podobnie jak w skali Likerta, respondenci byli proszeni o ustosunkowanie si´ do tych stwierdzeƒ – mogli si´ z nimi zgodziç lub nie. Instrumentem pomiarowym by∏ kwestionariusz ankiety, zaÊ respondentami studenci Akademii Ekonomicznej w Krakowie, ró˝nych trybów studiów. Próba.

(8) 156. Mariusz ¸apczyƒski. liczàca 325 przypadków dobrana zosta∏a w sposób celowy7. Na potrzeby niniejszego artyku∏u skopiowano 4-krotnie liczb´ przypadków, po to aby spe∏niç wymóg dotyczàcy minimalnej liczebnoÊci próby. Zabieg ten jest tutaj dopuszczalny, poniewa˝ celem artyku∏u jest porównanie dwóch metod analizy danych, a nie wnioskowanie o populacji. Obliczeƒ na próbie liczàcej 1300 przypadków dokonano w programie STATISTICA, w modu∏ach: statystyki podstawowe i drzewa klasyfikacyjne. Szczegó∏y dotyczàce tabelarycznej analizy danych znajdujà si´ w tabeli 4. Zamieszczono w niej informacje o poziomie istotnoÊci p dla testu niezale˝noÊci chi-kwadrat oraz wartoÊci wspó∏czynnika V Cramera. Predyktory w∏àczone do analizy mia∏y pierwotnà – nie zmienionà liczb´ kategorii. W kilku przypadkach nie mo˝na by∏o zastosowaç statystyki chi-kwadrat, ze wzgl´du na niespe∏nienie wymogów dotyczàcych liczebnoÊci wartoÊci oczekiwanych. SpoÊród 32 predyktorów 12 mia∏o wartoÊci oczekiwane wykluczajàce mo˝liwoÊç zastosowania testu niezale˝noÊci chi-kwadrat. Dotyczy∏o to oczywiÊcie predyktorów z oryginalnà liczbà kategorii. W praktyce, jeÊli tabela nie jest czteropolowa, mo˝na po∏àczyç kategorie predyktora, co powoduje wzrost liczebnoÊci empirycznych, a tym samym oczekiwanych. Jest to jednak zaj´cie bardzo czasoch∏onne, zw∏aszcza gdy predyktory sà nominalne (mo˝liwa jest wtedy dowolna kombinacja kategorii). Drugà cz´Êç analizy wykonano w innym module pakietu STATISTICA – drzewa klasyfikacyjne. Wybrano chi-kwadrat jako regu∏´ podzia∏u, minimalnà liczebnoÊç w´z∏a (30) jako kryterium stopu, szacowane prawdopodobieƒstwo a priori i 3-krotnà walidacj´ krzy˝owà. Wynikiem analizy jest drzewo przedstawione na rys. 2. Model z rys. 2 jest na tyle rozbudowany, ˝e powinien zostaç zamieniony na zestaw regu∏. Jednak, jak wczeÊniej wspomniano, celem niniejszej pracy nie jest wnioskowanie o populacji, ale porównanie dwóch alternatywnych sposobów analizy danych. Dlatego w∏aÊnie warto przyjrzeç si´ kolejnemu rysunkowi (rys. 3), na którym znajduje si´ ranking wa˝noÊci predyktorów. Ranking ten informuje o tym, który predyktor najlepiej opisuje zmiennà zale˝nà. Na osi X umieszczono wszystkie 32 predyktory, zaÊ na osi Y zakres liczb od 0 do 100. Im wy˝sza wartoÊç (im wy˝szy s∏upek), tym wi´ksze znaczenie danego predyktora w dyskryminacji zmiennej zale˝nej. Najwa˝niejszym predyktorem zosta∏o stwierdzenie 2. z pytania 5.: „lepiej kupiç samochód u˝ywany, ale niemiecki, ni˝ nowy, ale koreaƒski lub polski”, na drugiej pozycji znalaz∏a si´ s∏uchalnoÊç stacji radiowych, na trzecim – oglàdalnoÊç stacji TV, na czwartym miejsce zamieszkania itd. Ranking dotyczàcy pierwszych 10 predyktorów zamieszczono w tabeli 5. Sà tam dwie listy: pierwszà posortowano malejàco wed∏ug wartoÊci wspó∏czynnika V Cramera (wynik analizy tabelarycznej), 7 M. ¸apczyƒski, Badanie preferencji na rynku motoryzacyjnym z u˝yciem drzew klasyfikacyjnych CHAID [w:] Metody iloÊciowe i jakoÊciowe w badaniach rynkowych i marketingowych, Badania statutowe nr 30/KARiBM/2/2002/S pod kier. S. Mynarskiego, Kraków 2002, s. 82–111..

(9) Analiza porównawcza tabel kontyngencji i metody CHAID. 157. Tabela 4. IstotnoÊç i si∏a zwiàzków mi´dzy zmiennymi (α = 0,05) Poziom p dla testu niezale˝noÊci chi-kwadrat. WartoÊç wspó∏czynnika V Cramera. posiadanie prawa jazdy. p = 0,00000. 0,142149. posiadanie samochodu. p = 0,00000. 0,14267. posiadanie samochodu przez rodziców. p = 0,00360. 0,08072. Predyktor. pytanie 5. – stwierdzenie 1.. jedna z liczebnoÊci oczekiwanych by∏a równa 0. pytanie 5. – stwierdzenie 2.. p = 0,00000. 0,350563. pytanie 5. – stwierdzenie 3.. p = 0,00002. 0,144406. pytanie 5. – stwierdzenie 4.. p = 0,00007. 0,137173. pytanie 5. – stwierdzenie 5.. p = 0,67561. x. pytanie 5. – stwierdzenie 6.. p = 0,01762. 0,088896. pytanie 5. – stwierdzenie 7.. p = 0,00008. 0,129001. pytanie 5. – stwierdzenie 8.. p = 0,00000. 0,270252. czytanie czasopism spo∏eczno-politycznych. p = 0,00003. 0,115092. czytanie czasopism motoryzacyjnych. p = 0,00001. 0,121157. czytanie czasopism popularnonaukowych. p = 0,22503. x. czytanie czasopism komputerowych. p = 0,09252. x. czytanie czasopism muzycznych. p = 0,59052. x. czytanie czasopism kobiecych. p = 0,00001. 0,123895. czytanie czasopism sportowych czytanie czasopism dla m´˝czyzn. wi´cej ni˝ 20% komórek mia∏o wartoÊci oczekiwane mniejsze od 5. czytanie czasopism o biznesie. p = 0,00973. 0,071516. czytanie czasopism podró˝niczych czytanie czasopism filmowych czytanie czasopism o hobby czytanie czasopism dla m∏odzie˝y. wi´cej ni˝ 20% komórek mia∏o wartoÊci oczekiwane mniejsze od 5. czytanie czasopism o zdrowiu czytanie czasopism dla rodziców s∏uchalnoÊç stacji radiowych oglàdalnoÊç stacji telewizyjnych. niektóre wartoÊci oczekiwane by∏y mniejsze od 1. p∏eç. p = 0,00000. 0,173816. miejsce zamieszkania (ze wzgl´du na liczb´ ludnoÊci). p = 0,00000. 0,166138. województwo tryb studiów. èród∏o: opracowanie w∏asne.. niektóre wartoÊci oczekiwane by∏y mniejsze od 1 p = 0,00000. 0,207554.

(10) 2. 56. 5. 24. 25 12. 25 1. 4. 56. L4 = 2PLEC. 4 TV = 3PLEC 22 1. 29 2. 52. G_SPOL = 1PLEC. 60. 72. èród∏o: opracowanie w∏asne.. 4 24. 2. 30. 4 2. TV = 5PLEC. 120. L3 = 3PLEC, 1PLEC. 200. L8 = 2PLEC, 1PLEC. Rys. 2. Model dyskryminacyjny – wynik analizy drzewkowej. RADIO = 1PLEC 33 2 32 1. 24. 106. MIEJSC = 4PLEC, 3PLEC, 2PLEC. TV = 4PLEC, 2PLEC 1PLEC. RADIO = 4PLEC 3PLEC, 1PLEC 32. 50. L1 = 2PLEC, 1 PLEC. WOJEW = 3PLEC, 1PLEC. 24. 10. 44. 152. 352. 572. 220. 9 2. 38. 12. 4 34. 1. 2. 112. 19. 2. 2. 32. TV = 1PLEC. 106. 8. 644 3. 20 12 L5 = 4PLEC, 3PLEC 40 2 41 1. L4 = 3PLEC. 44. G_BIZN = 1PLEC. RADIO = 3PLEC. 116. WOJEW = 4PLEC, 3PLEC, 2PLEC, 1PLEC. 128. 8 1. 4 216 RADIO = 4PLEC. L2 = 3PLEC, 2PLEC, 1PLEC. 32. 1. 64. 158. Mariusz ¸apczyƒski.

(11) èród∏o: opracowanie w∏asne.. 0. 20. 40. 60. 80. 100. Rys. 3. Ranking wa˝noÊci predyktorów. Ranking. Prawo Auto Rodzic L1 L2 L3 L4 L5 L6 L7 L8 G_spol G_motor Zmienne niezale˝ne. G_nauk G_komp G_muzy G_kobie G_sport G_formen G_bizn G_pod G_film G_hobby G_young G_zdrow G_rodzic Radio TV Plec Miejsc Wojew Tryb. Analiza porównawcza tabel kontyngencji i metody CHAID. 159.

(12) Mariusz ¸apczyƒski. 160. a drugà posortowano malejàco wg liczby punktów z rankingu wa˝noÊci predyktorów (wynik analizy drzewkowej). Widaç, ˝e obie listy nie sà zbie˝ne, ale nale˝y tu zaznaczyç, ˝e w analizie z wykorzystaniem tabel kontyngencji nie redukowano liczby kategorii predyktora. Tabela 5. Zestawienie 10 najwa˝niejszych predyktorów po analizie tabelarycznej i drzewkowej Liczba punktów w rankingu wa˝noÊci predyktorów. Predyktor. WartoÊç wspó∏czynnika V Cramera. pytanie 5. – stwierdzenie 2.. 0,350563. pytanie 5. – stwierdzenie 2.. 100. pytanie 5. – stwierdzenie 8.. 0,270252. s∏uchalnoÊç stacji radiowych. 98. tryb studiów. 0,207554. oglàdalnoÊç stacji telewizyjnych. 83. p∏eç. 0,173816. miejsce zamieszkania (ze wzgl´du na liczb´ ludnoÊci). 71. Predyktor. miejsce zamieszkania (ze wzgl´du na liczb´ ludnoÊci). 0,166138. pytanie 5. – stwierdzenie 8.. 69. pytanie 5. – stwierdzenie 3.. 0,144406. tryb studiów. 68. pytanie 5. – stwierdzenie 4.. 60. posiadanie samochodu. 0,14267. posiadanie prawa jazdy. 0,142149. województwo. 55. pytanie 5. – stwierdzenie 4.. 0,137173. pytanie 5. – stwierdzenie 3.. 48. pytanie 5. – stwierdzenie 7.. 0,129001. pytanie 5. – stwierdzenie 1.. 47. èród∏o: opracowanie w∏asne.. Drugim powodem, dla którego rankingi nie sà zbie˝ne, jest sposób obliczenia chi-kwadrat. W przypadku analizy tabelarycznej sprawdza si´ bezpoÊredni wp∏yw zmiennej niezale˝nej na zale˝nà i dokonuje si´ tego na wszystkich obserwacjach. W metodzie CHAID test niezale˝noÊci chi-kwadrat odnosi si´ do danego w´z∏a, a nie do ca∏ego zbioru obserwacji. Oznacza to, ˝e po ka˝dym etapie podzia∏u zbioru zmniejsza si´ liczebnoÊç analizowanych w´z∏ów (zbiór jest rekurencyjnie dzielony na mniejsze podzbiory) i mimo ˝e nadal sprawdza si´ istotnoÊç zwiàzków mi´dzy zmiennà zale˝nà a zmiennymi niezale˝nymi, to dokonuje si´ tego na innych, ni˝ wyjÊciowa, tabelach kontyngencji. W rankingu wa˝noÊci predyktorów uwzgl´dnia si´ ponadto liczb´ podzia∏ów drzewa dokonanych przez dany predyktor. I tak, na 20 podzia∏ów drzewa (rys. 2): – 4 by∏y dokonane w oparciu o predyktor „s∏uchalnoÊç stacji radiowych”, – 4 o predyktor „oglàdalnoÊç stacji telewizyjnych”, – 2 o predyktor „województwo”,.

(13) Analiza porównawcza tabel kontyngencji i metody CHAID. 161. – 2 o predyktor „pytanie 5. – stwierdzenie 2.”, – i po 1 w oparciu o inne zmienne niezale˝ne. Innym elementem wyró˝niajàcym te dwa podejÊcia analityczne jest profilowanie kategorii zmiennej zale˝nej. W analizie z wykorzystaniem tabel kontyngencji nie mo˝na by∏o zestawiç wielu zmiennych jednoczeÊnie. Przyk∏ad zestawienia zmiennej zale˝nej z trzema predyktorami przedstawiono w tabeli 6. Widaç, ˝e tabela ta jest ma∏o przejrzysta i z trudem mieÊci si´ na stronie. Gdyby chcieç wykorzystaç wszystkie 32 predyktory, to okaza∏oby si´, ˝e rozmiary tabeli przekraczajà powszechnie dost´pne formaty papieru, a interpretacyjna wartoÊç takiego zestawienia jest znikoma. Tabela 6. Zmienna zale˝na i 3 predyktory Zestawienie dla wszystkich pozycji Ogó∏ i procenty obliczane wzgl´dem liczby respondentów Identyczne wielokrotne odpowiedzi by∏y ignorowane G1 = posiadanie prawa jazdy (1 = tak, 2 = nie) G2 = p∏eç (1 = kobieta, 2 = m´˝czyzna) G3 = miejsce zamieszkania (1 = powy˝ej 200 tys. mieszkaƒców 2 = 100-200 tys. mieszkaƒców, 3 = 50–100 tys. mieszkaƒców 4 = do 50 tys. mieszkaƒców, 5 = wieÊ) G_1:1 G_1:1 G_1:1 G_1:1 G_1:1 Razem G_1:1 G_1:1 G_1:1 G_1:1 G_1:1 Razem G_2:2 G_2:2 G_2:2 G_2:2 G_2:2 Razem G_2:2 G_2:2 G_2:2 G_2:2 G_2:2 Razem. G_1:1 G_1:1 G_1:1 G_1:1 G_1:1. G_1:1 G_2:2 G_3:3 G_4:4 G_5:5. G_2:2 G_2:2 G_2:2 G_2:2 G_2:2. G_1:1 G_2:2 G_3:3 G_4:4 G_5:5. G_1:1 G_1:1 G_1:1 G_1:1 G_1:1. G_1:1 G_2:2 G_3:3 G_4:4 G_5:5. G_2:2 G_2:2 G_2:2 G_2:2 G_2:2. G_1:1 G_2:2 G_3:3 G_4:4 G_5:5. èród∏o: opracowanie w∏asne.. nowy. u˝ywany. razem. 44 8 8 28 36 124 8 4 0 4 8 24 48 0 4 0 12 64 4 0 0 0 4 8. 164 44 76 160 72 516 176 28 52 48 68 372 60 8 28 44 28 168 8 0 4 0 8 20. 208 52 84 188 108 640 184 32 52 52 76 396 108 8 32 44 40 232 12 0 4 0 12 28.

(14) 162. Mariusz ¸apczyƒski. Inne podejÊcie zastosowano w CHAID. Tam graficzny model mo˝e zostaç zamieniony na zestaw regu∏ o postaci „je˝eli … to …”. W pakiecie STATISTICA trzeba dokonywaç tego r´cznie, nie ma funkcji automatycznej zamiany drzewa na regu∏y. Opcja taka jest natomiast w programie CART, SIPINA czy SPSS Answer Tree. Liczba regu∏ jest równa liczbie w´z∏ów koƒcowych, czyli tutaj 21 (9 opisuje osoby preferujàce samochód nowy, a 12 u˝ywany). Przyk∏adowe regu∏y wyglàdajà nast´pujàco: – regu∏a 1 – je˝eli zgadza si´ ze stwierdzeniem, ˝e lepiej kupiç u˝ywany samochód niemiecki ni˝ nowy polski, to preferuje auto u˝ywane (94% osób, które zgodzi∏y si´ z tym twierdzeniem, wybra∏oby auto u˝ywane); – regu∏a 2 – je˝eli nie zgadza si´ ze stwierdzeniem, ˝e lepszy samochód u˝ywany niemiecki od nowego polskiego, ale twierdzi, ˝e lepiej kupiç auto u˝ywane z bogatym wyposa˝eniem ni˝ nowe w wersji standardowej, to równie˝ preferuje auto u˝ywane (89% osób spe∏niajàcych te 2 warunki preferuje samochód u˝ywany). Metoda CHAID umo˝liwia zatem zastàpienie tabeli kontyngencji o du˝ych rozmiarach zestawem regu∏ – zdaƒ warunkowych.. 5. Zakoƒczenie Podsumowujàc niniejszy artyku∏, nale˝y zwróciç uwag´ na kilka wa˝nych kwestii: 1. CHAID jest szybszy ni˝ tabele kontyngencji, sam ∏àczy kategorie predyktorów i wybiera najlepszy na danym etapie podzia∏u. 2. CHAID nie mierzy dok∏adnie si∏y zwiàzku mi´dzy zmiennymi, nie mo˝na porównywaç rankingu wa˝noÊci predyktorów z wartoÊciami wspó∏czynnika V Cramera, gdy˝ CHAID wykorzystuje test niezale˝noÊci chi-kwadrat ka˝dorazowo na innej tabeli kontyngencji (na innym w´êle) – sukcesywnie na coraz mniej licznej, poza tym, o pozycji w rankingu decyduje równie˝ to, jak cz´sto dana zmienna niezale˝na uczestniczy∏a w podziale drzewa. 3. CHAID jest bardziej przejrzysty, pozwala dokonaç profilu kategorii zmiennej zale˝nej za pomocà zestawu regu∏ o postaci „je˝eli … to …”, a nie jak w przypadku analizy tabelarycznej za pomocà nieczytelnej tabeli o bardzo du˝ych rozmiarach. 4. CHAID wymaga licznych prób – zawierajàcych co najmniej 1000 przypadków. 5. CHAID jako jedno z narz´dzi data mining nie zmusza do tworzenia mapy koncepcji, badacz mo˝e u˝yç tej metody do eksploracji danych, nie zastanawiajàc si´ wczeÊniej nad hipotetycznymi powiàzaniami miedzy zmiennymi..

(15) Analiza porównawcza tabel kontyngencji i metody CHAID. 163. Literatura Baron S., Philips D., Attitude Survey Data Reduction Using CHAID: An Example in Shopping Centre Market Research [w:] Quantitative Methods in Marketing, J.G. Hooley, M.K. Hussey (eds), International Thomson Business Press, 1994. Kass G.V., An Explanatory Technique for Investigating Large Quantities of Categorical Data, „Applied Statistics” 1980, nr 29 (2). ¸apczyƒski M., Badanie preferencji na rynku motoryzacyjnym z u˝yciem drzew klasyfikacyjnych CHAID [w:] Metody iloÊciowe i jakoÊciowe w badaniach rynkowych i marketingowych, Badania statutowe nr 30/KARiBM/2/2002/S pod kier. S. Mynarskiego, Kraków 2002. ¸apczyƒski M., Detekcja interakcji w drzewach klasyfikacyjnych – próba syntezy, Prace Naukowe nr 1010 AE we Wroc∏awiu, „Ekonometria 13”, Wydawnictwo AE we Wroc∏awiu, Wroc∏aw 2004. Mynarski S., Praktyczne metody analizy danych rynkowych i marketingowych, Kantor Wydawniczy Zakamycze, Zakamycze 2000. Perreault W.D., Barksdale H.C., A Model-Free Approach for Analysis of Complex Contingency Data in Survey Research, „Journal of Marketing Research” 1980, vol. XVII (November). Sagan A., Badania marketingowe – podstawowe kierunki, Wydawnictwo AE w Krakowie, Kraków 1998.. Comparative Analysis of Contingency Tables and the CHAID Method The purpose of this article is to compare two methods of data analysis: the contingency tables and the CHAID method. In the case of tabular data analysis, proportions may be calculated from the sum of values from rows, columns and the whole. It is also possible to check whether a relationship among variables exists by using the chi-square test of independence and to measure intensity of that dependence using, e.g., the Cramer V coefficient. The CHAID method, on the other hand, is one of the Data Mining tools that serves to capture relationships between a categorical dependent variable and a set of predictors. Its strength is the speed of analysis and transparency of constructed models. The author tests both methods on a set of 32 predictors and 1300 observations..

(16)

Cytaty

Powiązane dokumenty

Zasada Maksimum: Każdy niepusty i ograniczony z góry podzbiór zbioru liczb naturalnych ma element najwi¸

Dzi¦ki temu, »e w ka»dym kroku algorytmu doª¡czamy nowy wierzchoªek do istniej¡cego poddrzewa, nigdy nie spowoduje to powstania cyklu, a wszystkich iteracji b¦dzie n −

Wykaza¢, »e spo±ród liczb pierwszych jest niesko«czenie wiele:.. (a) elementów nierozkªadalnych Z[i], (b) elementów

[r]

Można znaleźć takie położenie siły P dla którego wskazania obu czujników będzie takie same, to położenie będzie środkiem ścinania.. Można także położenie środka

Uczeniesi ֒ezewzmocnieniem—eksploracja17 Politykaeksploracji Abypo l ֒aczy´cskuteczn֒aeksploracj֒e´swiatazeksploatacj֒aposiadanejwiedzy

Na każde pytanie można udzielić odpowiedzi Tak lub Nie, bądź też nie udzielić odpowiedzi. Za udzielenie poprawnej odpowiedzi dostaje się 1 punkt, za udzielenie niepoprawnej -1

Na ile sposob´ow mo˙zna podzieli´c 5 kanapek na 3 nierozr´o˙znialne talerze przy czy na ka˙zdym talerzu mo˙ze by´c dowolna liczba kanapek (w l¸acznie z zerem) oraz a) kanapki