• Nie Znaleziono Wyników

Podejście entropijne w badaniach struktur rynkowych

N/A
N/A
Protected

Academic year: 2021

Share "Podejście entropijne w badaniach struktur rynkowych"

Copied!
24
0
0

Pełen tekst

(1)Zesz yty Naukowe nr. 739. 2007. Akademii Ekonomicznej w Krakowie. Mariusz ¸apczyƒski Adam Sagan Katedra Analizy Rynku i Badaƒ Marketingowych. PodejÊcie entropijne w badaniach struktur rynkowych 1. Entropia w analizach struktur rynkowych Kategoria entropii jest bardzo cz´sto wykorzystywana w badaniach marketingowych. Jednym z pierwszych zastosowaƒ entropii w badaniach marketingowych by∏o zbudowanie modelu do predykcji zachowaƒ nabywczych konsumentów1. Ten probabilistyczny model przeznaczony by∏ do analizy rynku dóbr charakteryzujàcych si´ niskà cenà i du˝à powtarzalnoÊcià zakupów. Model budowano opierajàc si´ na danych dotyczàcych udzia∏ów poszczególnych marek w rynku, które uto˝samiano z preferencjami tych marek wÊród nabywców. W czasie analizy zak∏adano, ˝e rynek jest stabilny oraz wy∏àczano wp∏yw czynników zewn´trznych: efekt reklamy, polityk´ cenowà, okolicznoÊci zakupu. Przyjmowano, ˝e na rynku, na którym wyst´puje n marek, istniejà grupy nabywców, które preferujà ka˝dà z kombinacji tych marek. Liczba kombinacji by∏a równa 2n – 1, czyli przyk∏adowo dla rynku z dwiema markami, A i B, otrzymywano 3 kategorie: konsumentów kupujàcych tylko mark´ A, konsumentów kupujàcych tylko mark´ B i konsumentów kupujàcych mark´ A i B. Przyk∏ad rynku z trzema markami przedstawiono na rys. 1. W metodzie tej wykorzystano koncepcj´ maksymalnej entropii, która przyjmuje najwy˝szà wartoÊç, gdy prawdopodobieƒstwa (czyli tutaj udzia∏y rynkowe) poszczególnych kategorii sà sobie równe. J.D. Herniter wykaza∏, ˝e wzrost entropii systemu powoduje wzrost wspó∏czynników przesuni´ç preferencji (switch rates) wÊród badanych marek.. 1 J.D. Herniter, An Entropy Model of Brand Purchase Behavior, „Journal of Marketing Research” 1973, vol. X, s. 361–375..

(2) Mariusz ¸apczyƒski, Adam Sagan. 68. marka A marka B. marka A. marka B. marka A marka B marka C marka B marka A marka C marka C. marka C. Rys. 1. Rynek z trzema konkurencyjnymi markami (A, B i C) èród∏o: J.D. Herniter, op. cit., s. 363.. Innym przyk∏adem zastosowania entropii w badaniach marketingowych jest analiza macierzy przesuni´ç preferencji (brand switching matrices)2. Metoda pozwala na podzia∏ rynku na segmenty na podstawie panelowych danych dzienniczkowych dotyczàcych zakupów. Ka˝dy produkt jest traktowany jako wektor atrybutów, których liczba mo˝e byç dowolna i których wa˝noÊci nie trzeba okreÊlaç a priori. Przyk∏adowo, na rynku soków ka˝dy produkt mo˝e byç wektorem nast´pujàcych cech: marki, smaku, pojemnoÊci opakowania, stylu ˝ycia konsumenta3 itp. Analiza opiera si´ na za∏o˝eniu, ˝e jeÊli przesuni´cia preferencji dotyczà wy∏àcznie marek, to entropia zachowaƒ nabywczych b´dzie taka sama dla wszystkich atrybutów produktu. Jakiekolwiek zró˝nicowanie entropii mi´dzy atrybutami wskazuje na wyst´powanie hierarchii cech produktu. JeÊli poziom lojalnoÊci, z punktu widzenia danego atrybutu, jest wysoki, tzn. ˝e atrybut ten znajdzie si´ na szczycie tej hierarchii, czyli b´dzie zmiennà, która nie decyduje o konkurencyjnoÊci danego typu produktu. W modelu zak∏ada si´, ˝e zakup danego produktu jest zale˝ny od wczeÊniejszego zakupu produktu z tej kategorii. Do obliczenia entropii przesuni´ç prefe2 J. Carter, F. Silverman, An Empirical Approach to Market Partitioning: Application to the Cigarette Market, „Journal of Targeting, Measurement and Analysis for Marketing” 2004, vol. 12, s. 366–378. 3 Przez atrybut rozumie si´ nie tylko fizycznà cech´ produktu, ale równie˝ inne zmienne zwiàzane z konsumpcjà danej kategorii dóbr..

(3) PodejÊcie entropijne w badaniach struktur rynkowych. 69. rencji (switching entropy) wykorzystuje si´ prawdopodobieƒstwa warunkowe zakupu marek oraz dane o ich udziale w rynku. Miary entropii przesuni´ç preferencji dla poszczególnych atrybutów sà nast´pnie normalizowane przez podzielenie ich przez wartoÊç entropii maksymalnej, co umo˝liwia ich porównywanie. Najni˝sza wartoÊç entropii oznacza, ˝e dany atrybut znajduje si´ na szczycie hierarchii atrybutów. W kolejnym kroku analizuje si´ macierze przesuni´ç preferencji dla pozosta∏ych atrybutów, jednak tym razem dla poszczególnych marek. Ostatecznie wynikiem analizy jest hierarchia atrybutów decydujàcych o konkurencyjnoÊci produktu (entropy-determined attribute hierarchy). Przyk∏ad takiej hierarchii przedstawiono na rys. 2.. marka. kolor. wielkoÊç opakowania. A. czerwony. pomaraƒczowy. B. C. pomaraƒczowy. czerwony. ma∏e. bardzo du˝e. Êrednie. ma∏e. du˝e. I. V. II. IV. III. Rys. 2. Przyk∏adowa hierarchia atrybutów èród∏o: J. Carter, F. Silverman, op. cit., s. 374.. Takie uporzàdkowanie atrybutów wskazuje, ˝e marka jest atrybutem decydujàcym o zakupie soku w pierwszej kolejnoÊci. Jest to jednak atrybut cechujàcy si´ najwi´kszà lojalnoÊcià, co oznacza, ˝e przesuni´cia preferencji mi´dzy markami sà znikome. Atrybutem, którego modyfikacja mo˝e podnieÊç atrakcyjnoÊç produktu, jest wielkoÊç opakowania. Jest to ta cecha, wzgl´dem której nabywcy sà najmniej lojalni, wi´c mo˝na przypuszczaç, ˝e przesuni´cia preferencji b´dà tu najwi´ksze. Ujmujàc rzecz w du˝ym uproszczeniu: naj∏atwiej konkurowaç wielkoÊcià opakowania. Analiza struktur rynkowych jest wa˝nym nurtem metodologicznym w badaniach marketingowych. Niekiedy uwa˝a si´, ˝e analiza ta umo˝liwia identyfikacj´ struktury preferencji wewnàtrz segmentów4, czasami mówi si´, ˝e po4 L.G. Cooper, A. Inoue, Building Market Structures From Consumer Preferences, „Journal of Marketing Research” 1996, vol. XXXIII..

(4) 70. Mariusz ¸apczyƒski, Adam Sagan. zwala scharakteryzowaç konkurencyjnoÊç mi´dzy markami na rynku5, a innym razem uznaje si´, ˝e niezb´dnym elementem tej analizy jest analiza dynamiki zmian na konkurencyjnych rynkach6. Rozwa˝ania w niniejszym artykule opieraç si´ b´dà na definicji T. Elroda7, która mówi, ˝e analiza struktur rynkowych pozwala wyjaÊniç natur´ i rozmiary konkurencji wÊród firm i produktów. Najcz´Êciej analiza struktur rynkowych dotyczy albo strony poda˝owej, albo strony popytowej rynku. Celem analizy struktur rynkowych jest nie tylko wskazanie produktów komplementarnych i substytucyjnych, ale fundamentalne zrozumienie konkurencyjnoÊci na rynku. Przydatne jest to zw∏aszcza wtedy, gdy pojawiajà si´ na nim nowe produkty albo produkty dotychczasowe poddawane sà modyfikacji bàdê zostajà wycofane z rynku. W klasycznym uj´ciu analiz´ struktur rynkowych mo˝na podzieliç na zewn´trznà i wewn´trznà. W zewn´trznej analizie struktur rynkowych zak∏ada si´, ˝e badacz zna atrybuty produktu decydujàce o jego wyborze. W analizie zewn´trznej wyjaÊnia si´ preferencje (wybory) marek w kategoriach wa˝noÊci dla konsumenta poszczególnych atrybutów produktu. Najpopularniejszym narz´dziem analitycznym jest analiza conjoint. Wa˝nà zaletà tej metody jest mo˝liwoÊç prezentowania konsumentom produktów nieistniejàcych, których wprowadzenie na rynek jest dopiero planowane. Inny rodzaj zewn´trznej analizy struktur rynkowych polega na wykorzystaniu danych o percepcji istniejàcych marek. W tym podejÊciu badacz decyduje o tym, które atrybuty produktu b´dà brane pod uwag´, ale to respondenci przypisujà im wartoÊci, w zale˝noÊci od tego, jakà mark´ oceniajà. Wynikiem analizy sà popularne mapy percepcji, na które naniesione zostajà punkty reprezentujàce marki. Wymiary w tych uk∏adach wspó∏rz´dnych odzwierciedlajà oceniane atrybuty. Wewn´trzna analiza struktur rynkowych cechuje si´ nieco innym podejÊciem. Podobnie jak w przypadku map percepcji przyjmuje si´, ˝e substytucyjnoÊç i komplementarnoÊç produktów mo˝e byç przedstawiona w zredukowanym dwuwymiarowym uk∏adzie wspó∏rz´dnych. Ró˝nica polega na tym, ˝e liczba wymiarów i po∏o˝enie marek sà okreÊlone jedynie na podstawie danych o wyborze lub preferencjach marek. Oznacza to pewnà trudnoÊç zwiàzanà z nazwaniem wymiarów. Ich interpretacja mo˝e byç dokonana subiektywnie przez mened˝erów znajàcych bran˝´ lub w trakcie póêniejszych badaƒ sonda˝owych, w których o interpretacj´ prosi si´ konsumentów. Zewn´trzna analiza struktur rynkowych ma t´ zalet´, ˝e mapy percepcji wynikajà bezpoÊrednio z ocen konsumentów, a ich zmiennoÊç jest nielosowa. Wewn´trzna analiza struktur rynkowych pozwala z kolei zidentyfikowaç wszyst5 G.A. Allenby, A Unified Approach to Identifying, Estimating and Testing Demand Structures with Aggregate Scanner Data, „Marketing Science” 1989, vol. 8, nr 3. 6 W.L. Moore, R.S. Winer, A Panel-Data Based Method for Merging Joint Space and Market Response Function Estimation, „Marketing Science” 1987, vol. 6, nr 1. 7 T. Elrod i inni, Inferring Market Structure Analysis from Customer Response to Competing and Complementary Products, „Marketing Letters” 2000, vol. 13, nr 3..

(5) PodejÊcie entropijne w badaniach struktur rynkowych. 71. kie istotne wymiary le˝àce u podstaw preferencji lub wyborów marek przez konsumentów. Wa˝ny wk∏ad w uporzàdkowanie narz´dzi do analizy struktur rynkowych mia∏ równie˝ T. Reutterer8 (rys. 3).. Sposób redukcji danych. produkty/marki. Sposób prezentacji struktury dyskretny (nieprzestrzenny) – hierarchiczne metody dendrytowe – niehierarchiczne metody klasyfikacji. geometryczny (przestrzenny) – pozycjonowanie kompozycyjne i dekompozycyjne. PodejÊcie hybrydowe obiekty (konsumenci). – segmentacja a posteriori. – modele skalowania preferencji. Rys. 3. Podzia∏ metod analizy struktur rynkowych ze wzgl´du na postaç modelu i sposób redukcji danych èród∏o: T. Reutterer, op. cit., s. 89.. Konfiguracje nieprzestrzenne wywodzà si´ z podzia∏u zbioru produktów na roz∏àczne podzbiory w taki sposób, ˝e marki znajdujàce si´ w jednym podzbiorze sà bli˝szymi substytutami (silniej konkurujà mi´dzy sobà) ni˝ marki znajdujàce si´ w ró˝nych podzbiorach. Wzorce konkurencyjnoÊci marek sà przedstawione najcz´Êciej za pomocà dendrogramów, w których w´z∏y koƒcowe sà poszczególnymi markami. WÊród przestrzennych sposobów prezentacji struktur rynkowych wyró˝nia si´ mapy percepcji i mapy preferencji. W modelach tych punkty reprezentujàce marki sà tak przedstawione w zredukowanej wielowymiarowej przestrzeni, ˝e odleg∏oÊci euklidesowe mi´dzy punktami odzwierciedlajà stopieƒ konkurencyjnoÊci mi´dzy markami. Modele przestrzenne mo˝na podzieliç na kompozycyjne i dekompozycyjne. Kompozycyjne to takie, których celem jest redukcja wielowymiarowych charakterystyk produktów (marek) do mniejszej liczby wymiarów. WielowymiarowoÊç charakterystyk oznacza wieloÊç analizowanych atrybutów marki. Do metod najcz´Êciej tu wykorzystywanych mo˝na zaliczyç:. 8 T. Reutterer, Competitive Market Structure and Segmentation Analysis with Self-Organizing Feature Maps [w:] Proceedings of the 27th EMAC Conference, Stockholm 20–23 May 1998, red. P. Andersson, Track 5: Marketing Research, s. 85–116..

(6) 72. Mariusz ¸apczyƒski, Adam Sagan. – analiz´ g∏ównych sk∏adowych, – analiz´ dyskryminacyjnà, – analiz´ korespondencji, – analiz´ czynnikowà dla danych dychotomicznych, – trójliniowà analiz´ czynnikowà. PodejÊcie dekompozycyjne w modelach przestrzennych jest zwykle oparte na skalowaniu wielowymiarowym. Dane wejÊciowe do analizy dotyczà preferencji lub informujà o podobieƒstwie obiektów. Celem tych analiz jest utworzenie przestrzeni produktów konkurencyjnych w ma∏ej liczbie wymiarów, tak aby metryczne odleg∏oÊci mi´dzy markami odzwierciedla∏y miary podobieƒstwa lub ranking skal preferencji. Klasyczne skalowanie wielowymiarowe doczeka∏o si´ kilku modyfikacji i udoskonaleƒ: PREFMAP, LINMAP, INDSCAL, GENFOLD2 czy probabilistyczny PROSCAL. Zaproponowane podejÊcie hybrydowe pozwala na uj´cie obu p∏aszczyzn: produktów i konsumentów w jednym modelu. Do narz´dzi u˝ywanych w podejÊciu hybrydowym mo˝na zaliczyç wspomniane wczeÊniej modele klas ukrytych dla macierzy przesuni´ç preferencji i metod´ SCULPTRE. Innym narz´dziem jest LCMDS (Latent Class Multidimensional Scaling), które przedstawia struktur´ marek w przestrzeni metrycznej i nak∏ada na nià wektory reprezentujàce konsumentów. Kolejne narz´dzie to MULTICLUS, które ∏àczy skalowanie wielowymiarowe z analizà skupisk. Jego wadà jest wymóg wczeÊniejszego zdefiniowania liczby wymiarów i segmentów. Reasumujàc, narz´dzia do analizy struktur rynkowych mo˝na podzieliç – ze wzgl´du na sposób prezentacji wyników analizy – na przestrzenne i nieprzestrzenne oraz ze wzgl´du na znajomoÊç przez badacza atrybutów produktów ocenianych przez konsumentów – na wewn´trzne i zewn´trzne.. 2. Entropijne modele przestrzenne – analiza niezale˝nych sk∏adowych W obszarze analiz struktur rynkowych zwiàzanych z tzw. modelami przestrzennymi wa˝nà rol´ odgrywajà metody wielowymiarowe, w których wykorzystuje si´ dekompozycj´ wartoÊci korelacji lub kowariancji wed∏ug wartoÊci osobliwej (singular value decomposition). Do najbardziej znanych metod nale˝à: analiza czynnikowa i g∏ównych sk∏adowych, analiza g∏ównych wspó∏rz´dnych oraz analiza korespondencji, b´dàcà uogólnionà podwójnà metodà g∏ównych sk∏adowych dla danych kategorialnych. Ich cz´ste zastosowanie w analizie struktur rynkowych wynika z mo˝liwoÊci jednoczesnej ∏àcznej reprezentacji zarówno porównywanych marek produktów, jak i ich cech we wspólnym zredukowanym uk∏adzie wspó∏rz´dnych. Celem tych metod jest uzyskanie przestrzennej reprezentacji konkurujàcych marek produktów w przestrzeni niezale˝nych wymiarów okreÊlanych przez g∏ówne sk∏adowe lub czynniki wspólne. Stosowanie tych podejÊç zwiàzane jest jednak z przyj´tym za∏o˝eniem, ˝e uzyskane niesko-.

(7) PodejÊcie entropijne w badaniach struktur rynkowych. 73. relowane, ortogonalne sk∏adowe lub czynniki oznaczajà tak˝e niezale˝noÊç uzyskanych wymiarów. Za∏o˝enie to jest prawdziwe jedynie w sytuacji, gdy rozk∏ad uzyskanych sk∏adowych jest normalny. W przypadku danych spo∏ecznych i marketingowych tego rodzaju za∏o˝enie jest bardzo cz´sto niespe∏nione. Stàd za∏o˝enie o normalnoÊci rozk∏adu i charakterze niezale˝noÊci sk∏adowych jest istotnym kryterium klasyfikacji metod analizy wymiarowoÊci. Klasyfikacj´ metod czynnikowych przedstawiono na rys. 4. Analiza niezale˝nych sk∏adowych (Independent Component Analysis – ICA) jest odpowiedzià na problem uzyskania niezale˝nych, w sensie statystycznym, czynników przy za∏o˝eniu ich niegaussowskich rozk∏adów. Podobnie jak analiza g∏ównych sk∏adowych i analiza czynnikowa, jest ona technikà eksploracyjnà. Jej celem jest wyjaÊnienie i redukcja danych na podstawie zmiennych ukrytych, b´dàcych rzeczywistà przyczynà kszta∏towania si´ zale˝noÊci mi´dzy zmiennymi obserwowalnymi. Analiza niezale˝nych sk∏adowych równie˝ nale˝y do tego samego nurtu metod co analiza g∏ównych sk∏adowych, analiza g∏ównych wspó∏rz´dnych czy analiza korespondencji. W odró˝nieniu od nich wykorzystuje si´ tu w ocenie niezale˝noÊci sk∏adowych miary oparte na entropii, a identyfikacja niezale˝nych sk∏adowych jest dokonywana nie na podstawie macierzy korelacji/kowariancji, lecz na podstawie momentów wy˝szych rz´dów (kurtozy). Ma ona zastosowanie w telekomunikacji, detekcji sygna∏ów, biomedycynie, finansowej analizie kursów akcji, analizie szeregów czasowych, statystycznej teorii kszta∏tu i rozpoznawania obrazów. Rozwój ICA jest szczególnie zwiàzany z problemem detekcji sygna∏ów (blind source separation) i klasycznym ju˝ problemem „prywatki koktailowej” (Jutten Herault 1991). Problem ten dotyczy sytuacji, w której dwóch mówców wyg∏asza mow´ w tym samym czasie w sali wype∏nionej s∏uchaczami, którzy ha∏asujà i komentujà wypowiedzi mówców. Dwa mikrofony ustawione w pewnej odleg∏oÊci od mówców rejestrujà zarówno ich wypowiedzi, jak równie˝ ha∏as dobiegajàcy z sali. Zadaniem analizy niezale˝nych sk∏adowych jest wyodr´bnienie g∏osów mówców zbieranych przez te mikrofony z jednoczesnà eliminacjà szumu z sali. Idea ICA jest wi´c podobna do problemu rozwiàzywanego przy zastosowaniu analizy czynnikowej, gdzie zmienne obserwowane (x) sà liniowà funkcjà ukrytych niezale˝nych sk∏adowych i wspó∏czynników przy nich wyst´pujàcych. x = AS, gdzie: x – zmienne obserwowalne, S – ukryte sk∏adowe niezale˝ne, A – wspó∏czynniki „wymieszania” sygna∏u,. (1). Sytuacj´ „prywatki koktailowej” i rol´ analizy niezale˝nych sk∏adowych przedstawia rys. 5. Na rysunku wspó∏czynniki ai reprezentujà si∏´ liniowego zwiàzku mi´dzy zmiennà obserwowanà (wskaênikiem, „mikrofonem” – xi) a niezale˝nà sk∏adowà (zmiennà ukrytà, „êród∏em sygna∏u” – si)..

(8) – macierz dystansów – redukcja danych. – rozk∏ad normalny – niezale˝noÊç = brak skorelowania – redukcja danych. èród∏o: opracowanie w∏asne.. Rys. 4. Klasyfikacja metod czynnikowych. Metody g∏ównych wspó∏rz´dnych. Analiza g∏ównych sk∏adowych. Metody g∏ównych sk∏adowych – rozk∏ad normalny – niezale˝noÊç = brak – zmienne ukryte. Analiza czynnikowa. Metody analizy wymiarowoÊci. FastICA. Detekcja sygna∏ów. – brak normalnoÊci rozk∏adu – brak korelacji ≠ niezale˝noÊç. Infomax. Analiza niezale˝nych sk∏adowych. Rozpoznawanie obrazów. JADE. Analiza szeregów czasowych. 74. Mariusz ¸apczyƒski, Adam Sagan.

(9) PodejÊcie entropijne w badaniach struktur rynkowych. Mówca 1 s1. 75. x1. a11. Mówca 1. s’1. a22. T∏um u. a12. ICA x1 = a11s1 + a12s2. s’2. x2 = a21s1 + a22s2 X = AS + U. Mówca 2. Mówca 2. a21 s2 x2. Rys. 5. Problem prywatki koktailowej èród∏o: opracowanie w∏asne.. Za∏o˝eniem analizy czynnikowej i analizy g∏ównych sk∏adowych jest ortogonalnoÊç sk∏adowych i normalny ich rozk∏ad. W takiej tylko sytuacji sk∏adowe nieskorelowane sà równie˝ sk∏adowymi niezale˝nymi. Zaletà analizy sk∏adowych niezale˝nych jest uzyskanie sk∏adowych niezale˝nych, gdy˝ estymacja sk∏adowych przez ICA minimalizuje statystycznà zale˝noÊç mi´dzy zmiennymi ukrytymi. Identyfikacja statystycznie niezale˝nych sk∏adowych i niezale˝noÊç od rozk∏adu normalnego sk∏adowych jest istotnà zaletà tej analizy w porównaniu z analizà czynnikowà i mo˝e byç ona rozpatrywana jako niegausowska analiza czynnikowa. Poszukuje si´ tu kierunków maksymalnej niezale˝noÊci w niegausowskim zbiorze danych na podstawie statystyk wy˝szego rz´du lub miary entropii, stàd sk∏adowe niezale˝ne tak˝e maksymalnie odbiegajà od rozk∏adu normalnego. W procesie ICA przyjmuje si´ za∏o˝enie, ˝e nieobserwowalne i statystycznie niezale˝ne „prawdziwe” zmienne ukryte formujà liniowe kombinacje, które przejawiajà si´ na poziomie obserwowanym w okreÊlonych wskaênikach (zmiennych obserwowalnych). Proces formowania (mixing) jest nieznany, lecz przyjmuje si´, ˝e ma charakter liniowy (linear mixture). W identyfikacji ukrytych niezale˝nych sk∏adowych na podstawie wskaêników, w pierwszym etapie dane sà „wybielane”, czyli poddawane wst´pnej analizie g∏ównych sk∏adowych. Tak przygotowane dane poddaje si´ nast´pnie analizie sk∏adowych niezale˝nych w celu odtworzenia niezale˝nych sk∏adowych. Proces analizy sk∏adowych niezale˝nych przedstawia rys. 6..

(10) Mariusz ¸apczyƒski, Adam Sagan. 76. Niezale˝ne sk∏adowe. Liniowa kombinacja sk∏adowych. Dane obserwowalne. „Wybielenie” danych. Transformacja ortogonalna. Wyodr´bnione sk∏adowe. Rys. 6. Proces analizy sk∏adowych niezale˝nych èród∏o: opracowanie w∏asne.. Miarà niezale˝noÊci sk∏adowych jest entropia (negentropia). Statystyczna separacja êróde∏ jest dokonywana poprzez maksymalizacj´ niegausowskich rozk∏adów wyodr´bnionych sk∏adowych. Odchylenie od rozk∏adu normalnego jest mierzone za pomocà negentropii, która dla danych ciàg∏ych x o funkcji g´stoÊci p(x) jest dana wzorem:. ∫. H(x) = – p(x)log p(x)dx.. (2). Podstawowà konsekwencjà podejÊcia entropijnego jest fakt, ˝e zmienna o rozk∏adzie normalnym ma najwi´kszà entropi´ spoÊród wszystkich zmiennych o takiej samej wariancji. Entropia jest wi´c miernikiem odchylenia od rozk∏adu normalnego – im wi´ksze odchylenie, tym wi´ksza jest negentropia i tym samym informacja zwiàzana z rozk∏adem danej zmiennej9. Stàd negentropia J wektora danych y dana jest wzorem: J(y) = H(ygauss) – H(y),. (3). gdzie: J(y) – negentropia wektora y, H(ygauss) – entropia wektora danych o rozk∏adzie normalnym, H(y) – entropia wektora danych. W identyfikacji niezale˝nych sk∏adowych poszukuje si´ interesujàcych, tj. maksymalnie odbiegajàcych od rozk∏adu normalnego, ustrukturalizowanych sk∏adowych i dokonuje si´ niegausowskich projekcji danych pierwotnych w przestrzeni tych sk∏adowych. Zaletà tego podejÊcia jest uzyskiwanie interesujàcych struktur skupisk danych w sytuacji, gdzie klasyczna analiza g∏ównych sk∏adowych ukazuje niezró˝nicowany i amorficzny zbiór punktów. Sytuacj´ takà obra9 A. Paszty∏a, Analiza kursów akcji z wykorzystaniem metody ICA [w:] Statystyka i data mining w praktyce, Statsoft, Warszawa–Kraków 2004..

(11) PodejÊcie entropijne w badaniach struktur rynkowych. 77. Czynnik 2. zuje rys. 7, przedstawiajàcy porównanie analizy g∏ównych sk∏adowych (PCA) oraz analizy niezale˝nych sk∏adowych (ICA) na tym samym zbiorze danych.. 0. PCA 40. 0. 0 1 2 3 4 5. ICA. Czynnik 2. %. 0 Czynnik 1. „Wybielenie danych” (prewhitening). 0. 0 Czynnik 1. Rys. 7. Porównanie analizy g∏ównych sk∏adowych i analizy niezale˝nych sk∏adowych èród∏o: opracowanie w∏asne.. Dane wejÊciowe sà danymi skoÊnymi (przyk∏ad rozk∏adu jednej ze zmiennych ukazuje histogram). Rysunki przedstawiajà wykresy rozrzutu obserwacji (przypadków) w przestrzeni zdefiniowanej przez obie g∏ówne i niezale˝ne sk∏adowe. W analizie g∏ównych sk∏adowych przypadki tworzà amorficzny zbiór punktów inwariantny ze wzgl´du na dowolnà ortogonalnà rotacj´ uk∏adu. W analizie niezale˝nych sk∏adowych dane charakteryzujà si´ okreÊlonà strukturà wewn´trznà i dajàcym si´ wyró˝niç kierunkiem zmiennoÊci. Analiza struktur rynkowych jest szczególnym polem zastosowaƒ entropijnego podejÊcia analizy niezale˝nych sk∏adowych, które koncentruje si´ na identyfikacji niezale˝nych statystycznie êróde∏ sygna∏ów rynkowych docierajàcych do nabywcy produktu, wyra˝onych w cenach, przekazach reklamowych i bezpoÊrednich interakcjach ze sprzedajàcym. Ilustracjà zastosowania tego podejÊcia jest próba identyfikacji struktury rynku samochodów osobowych na podstawie zastosowanej skali Likerta, mierzàcej si∏´ relacji nabywców z dystrybutorami samochodów. Na rys. 8 przedstawiono wyodr´bnione na podstawie skali trzy sk∏adowe opierajàc si´ na analizie zarówno g∏ównych, jak i niezale˝nych sk∏adowych10. 10 W analizie wykorzystano program Statistica for Windows 7.0, w którym zaimplementowano algorytm FactICA..

(12) Mariusz ¸apczyƒski, Adam Sagan. Sk∏adowa 1. Sk∏adowa 3. Sk∏adowa 2. 78. 0. ICA 0. 0 Sk∏adowa 1. Sk∏adowa 3. Sk∏adowa 2. 0 Sk∏adowa 1. Sk∏adowa 2. 0. PCA. 0. 0 Sk∏adowa 1. Sk∏adowa 3. Sk∏adowa 3. 0 Sk∏adowa 2 0. 0 Sk∏adowa 3. 0. 0. Sk∏adowa 2. Sk∏adowa 1. Rys. 8. WartoÊci czynnikowe i sk∏adowe niezale˝ne w analizie struktury rynku samochodów osobowych èród∏o: opracowanie w∏asne.. 1,6 1,4 1,2 1,0. Sk∏adowa 2. 0,8 0,6 przep∏yw informacji. 0,4. Mitsubishi. 0,2 0,0 –0,2 –0,4. Honda. Renault. Hyundai Daewoo. reputacja Ford Citroen Nissan indywidualne podejÊcie Opel Suzuki brak stresu zaanga˝owanie Toyota spe∏nienie potrzeb emocjonalnych obni˝ki ceny Smart uczciwoÊç Fiat Peugot Kia Skoda uprzejmoÊç personelu pe∏na obs∏uga specjalistyczny serwis. lokalizacja Dacia. –0,6 –0,8 –0,20. –0,15. –0,10. –0,05. 0,00. 0,05. 0,10. Sk∏adowa 1. Rys. 9. Marki samochodów w przestrzeni sk∏adowych niezale˝nych èród∏o: opracowanie w∏asne.. 0,15.

(13) PodejÊcie entropijne w badaniach struktur rynkowych. 79. W porównaniu z analizà g∏ównych sk∏adowych (poni˝ej przekàtnej) analiza sk∏adowych niezale˝nych ujawnia bardziej jednoznacznie wyodr´bnione uk∏ady przypadków. Dwie pierwsze wyodr´bnione sk∏adowe by∏y podstawà zbudowania przestrzennej mapy marek samochodów. Sk∏adowa pierwsza jest dominujàcym wymiarem porzàdkujàcym kszta∏towanie si´ preferencji marek samochodów. Kszta∏tuje si´ ona na kontinuum od zmiennych zwiàzanych z lokalizacjà i serwisem do czynników okreÊlajàcych wi´ê z klientem (przep∏yw informacji, reputacja, potrzeby emocjonalne).. 3. Entropia w metodach drzew klasyfikacyjnych Pierwsze próby wykorzystania entropii jako miary do podzia∏u drzew klasyfikacyjnych mia∏y miejsce w latach 60. ubieg∏ego stulecia. Powsta∏ wtedy program komputerowy CLS (Concept Learning System), generujàcy regu∏y klasyfikacyjne z doÊwiadczenia11. Proces tworzenia regu∏ nazwano uczeniem si´ poj´ç (concept learning) i stàd wzi´∏a si´ nazwa oprogramowania – system uczenia si´ poj´ç. Pierwotnà przes∏ankà zaprojektowania CLS by∏a ch´ç skonstruowana symulatora zachowaƒ ludzkich i dlatego prace obejmowa∏y dwie dziedziny: sztucznà inteligencj´ oraz psychologi´ poznawczà (psychologi´ uczenia si´). Gwa∏towny rozwój algorytmów do budowy drzew klasyfikacyjnych (tworzenia regu∏ indukcyjnych) wykorzystujàcych entropi´ jako kryterium podzia∏u zbioru obserwacji przypad∏ na lata 80. ubieg∏ego stulecia (rys. 10). Kolejne, ulepszone wersje powstawa∏y na gruncie sztucznej inteligencji, uczenia si´ maszyn i matematyki. Nale˝y zaznaczyç, ˝e zdecydowana wi´kszoÊç autorów modyfikowa∏a algorytm Quinlana ID3 z 1979 r. Grupa algorytmów z rodziny ACLS (Expert-ease, EX-TRAN, Rule Master, SuperExpert) to komercyjne modyfikacje dokonane przez firm´ ITL z Glasgow. ASSISTANT oraz ASSISTANT 86 to dorobek uczonych s∏oweƒskich, do których nawiàza∏ Ross Quinlan w trakcie tworzenia metody C4.5. Autor ID3 nie poprzesta∏ na jednej metodzie budowy drzew klasyfikacyjnych, ale wcià˝ usprawnia∏ swoje narz´dzie. KilkanaÊcie lat pracy zosta∏o zakoƒczone w 1993 r., kiedy powsta∏ algorytm C4.5, b´dàcy klasycznym przedstawicielem ca∏ej rodziny drzew entropijnych. Znajdujàcy si´ na rys. 10 algorytm C5.0 jest komercyjnà wersjà algorytmu Quinlanowskiego i zaimplementowany jest jako program See5, zaÊ algorytm M5 to kolejna nieznaczna innowacja. GAIT to algorytm-hybryda, oparty na modelu C4.5 i algorytmie genetycznym, skàd bierze si´ angielskie rozwini´cie akronimu: Genetic Algorithm approach for generating Intelligent Trees (algorytm genetyczny do generowania inteligentnych drzew).. 11. E.B. Hunt, J. Martin, P.J. Stone, Experiment in Induction, Academic Press, New York 1966..

(14) èród∏o: opracowanie w∏asne.. Rys. 10. Drzewa entropijne z rodziny CLS. SuperExpert (1986). RuleMaster (1984). INESYS (1987). CN2 (1987). GAIT (2003). C4.5 (1993). C4 (1986). M5 (1997). C5.0. ASSISTANT 86 (1986). Expert-ease (1983). EX-TRAN (1984). ASSISTANT (1985). ACLS (1981). ID3 (1979). CLS (1963). ID5R (1989). ID5 (1988). GID3 (1988). ID4 (1986). ICET (1995). EG2 (1991). IDX (1989). CS-ID3 (1989). 80. Mariusz ¸apczyƒski, Adam Sagan.

(15) PodejÊcie entropijne w badaniach struktur rynkowych. 81. Algorytm ID3 by∏ równie˝ inspiracjà dla twórców narz´dzi z dziedziny uczenia si´ maszyn (machine learning), przedstawiajàcych wyniki w postaci zestawu regu∏, np. CN2 czy INESYS. BezpoÊrednimi modyfikacjami metody ID3 by∏y: ID4; GID3, ID5 oraz ID5R. Procedura pierwszej z nich, tj. ID4, by∏a zbli˝ona do wzorca J.R. Quinlana w przypadku, gdy na danym etapie podzia∏u wybrano jednoznacznie tylko jeden predyktor. W sytuacji, gdy kilka predyktorów zapewnia∏o zbli˝ony poziom b∏´du w w´z∏ach potomnych, o wyniku decydowa∏a kolejnoÊç przypadków w zbiorze uczàcym. Algorytm ID4 usuwa∏ drzewa podrz´dne, zast´pujàc je innymi drzewami podrz´dnymi – testujàc w ten sposób jakoÊç predyktorów na danym etapie podzia∏u. W metodzie ID5R testowanie predyktorów odbywa si´ nierekurencyjnie, tj. bezpoÊrednio w danym w´êle drzewa12. Odr´bny podzbiór stanowià algorytmy, które powsta∏y na gruncie sztucznej inteligencji. Zalicza si´ tu: CS-ID3, IDX, EG2 oraz ICET. W metodach CS-ID3 i IDX wykorzystywana by∏a miara utworzona na podstawie ilorazu przyrostu informacji (gain ratio), przy czym w CS-ID3 stosowana by∏a tzw. leniwa strategia oceny (lazy evaluation strategy). Polega∏a ona na cz´Êciowym konstruowaniu drzewa – tworzono tylko te ga∏´zie, które klasyfikowa∏y bie˝àcy przypadek. W metodzie EG2 równie˝ wykorzystano iloraz przyrostu informacji, tworzàc miar´ zwanà funkcjà kosztu informacji (information cost function, w skrócie ICF). W 1995 r. P.D. Turney skonstruowa∏ narz´dzie-hybryd´ o nazwie ICET, ∏àczàc w∏aÊciwoÊci algorytmu EG2 i algorytmu genetycznego GENESIS. Pierwszy algorytm J.R. Quinlana – ID3, wykorzystywa∏ do podzia∏u drzewa miar´ zwanà przyrostem informacji (information gain). Jak wczeÊniej wspomniano, iloÊç informacji to wielkoÊç entropii usuni´tej w danym etapie podzia∏u drzewa. Jest to ró˝nica mi´dzy entropià sprzed podzia∏u w´z∏a a entropià otrzymanà po podziale drzewa. Przyk∏adowe dane (tabela 1) zawierajà informacje o respondentach (wiek, miejsce zamieszkania i wykszta∏cenie) oraz o preferowanych przez nich markach luksusowych samochodów (BMW, Jaguar, Mercedes). JeÊli zadanie polega∏oby na predykcji preferencji na podstawie danego zestawu zmiennych niezale˝nych, to pierwszym krokiem b´dzie oszacowanie entropii wyjÊciowej dla ca∏ego zbioru obserwacji. Znajàc prawdopodobieƒstwa wyst´powania poszczególnych klas (tu: marek samochodów): P(BMW) = 0,25; P(Jaguar) = 0,30 i P(Mercedes) = 0,45; ∏atwo obliczyç, ˝e entropia poczàtkowa wynosi 1,177 bita.. 12 Obie metody opisano szerzej w: E. Gatnar, Symboliczne metody klasyfikacji danych, PWN, Warszawa 1998, s. 183 i nast..

(16) Mariusz ¸apczyƒski, Adam Sagan. 82. Hp = –0,25 . log2 (0,25) – 0,30 . log2 (0,30) – 0,45 . log2 (0,45) = = 1,177 bita.. Tabela 1. Przyk∏adowe dane do obliczeƒ Wiek. Miejsce zamieszkania. Wykszta∏cenie. Marka. 31–50 lat. miasto ≤ 100 tys. mieszkaƒców. Êrednie. BMW. 31–50 lat. miasto ≤ 100 tys. mieszkaƒców. Êrednie. Mercedes. 31–50 lat. miasto > 100 tys. mieszkaƒców. wy˝sze. Jaguar. 31–50 lat. miasto > 100 tys. mieszkaƒców. wy˝sze. Jaguar. 31–50 lat. wieÊ. wy˝sze. BMW. 31–50 lat. wieÊ. wy˝sze. Mercedes. 31–50 lat. wieÊ. wy˝sze. Mercedes. 51 i wi´cej. miasto ≤ 100 tys. mieszkaƒców. Êrednie. Mercedes. 51 i wi´cej. miasto ≤ 100 tys. mieszkaƒców. Êrednie. Mercedes. 51 i wi´cej. miasto ≤ 100 tys. mieszkaƒców. wy˝sze. Mercedes. 51 i wi´cej. miasto > 100 tys. mieszkaƒców. wy˝sze. BMW. 51 i wi´cej. miasto > 100 tys. mieszkaƒców. wy˝sze. BMW. 51 i wi´cej. wieÊ. Êrednie. BMW. 51 i wi´cej. wieÊ. Êrednie. Mercedes. 51 i wi´cej. wieÊ. wy˝sze. Mercedes. do 30 lat. miasto ≤ 100 tys. mieszkaƒców. wy˝sze. Jaguar. do 30 lat. miasto ≤ 100 tys. mieszkaƒców. wy˝sze. Jaguar. do 30 lat. miasto ≤ 100 tys. mieszkaƒców. wy˝sze. Jaguar. do 30 lat. miasto > 100 tys. mieszkaƒców. wy˝sze. Mercedes. do 30 lat. wieÊ. Êrednie. Jaguar. èród∏o: opracowanie w∏asne.. Kolejnym krokiem jest podzia∏ ca∏ego zbioru obserwacji w oparciu o jeden z trzech predyktorów. Aby wybraç najlepszy z nich, trzeba przeanalizowaç trzy potencjalne fragmenty drzewa (rys. 11–13)..

(17) PodejÊcie entropijne w badaniach struktur rynkowych. 83. P(BMW) = 0,25 P(Jaguar) = 0,35 P(Mercedes) = 0,40 WIEK. do 30 lat. 31–50 lat. P(BMW) = 0,00 P(Jaguar) = 0,80 P(Mercedes) = 0,20. P(BMW) = 0,29 P(Jaguar) = 0,29 P(Mercedes) = 0,42. 51 lat i wi´cej P(BMW) = 0,37 P(Jaguar) = 0,00 P(Mercedes) = 0,63. Rys. 11. Podzia∏ zbioru obserwacji na podstawie zmiennej niezale˝nej „wiek” èród∏o: opracowanie w∏asne.. P(BMW) = 0,25 P(Jaguar) = 0,35 P(Mercedes) = 0,40 MIEJSCE ZAMIESZKANIA. wieÊ P(BMW) = 0,29 P(Jaguar) = 0,14 P(Mercedes) = 0,57. miasto ≤ 100 P(BMW) = 0,13 P(Jaguar) = 0,37 P(Mercedes) = 0,50. miasto >100 P(BMW) = 0,40 P(Jaguar) = 0,40 P(Mercedes) = 0,20. Rys. 12. Podzia∏ zbioru obserwacji na podstawie zmiennej niezale˝nej „miejsce zamieszkania” èród∏o: opracowanie w∏asne..

(18) Mariusz ¸apczyƒski, Adam Sagan. 84. P(BMW) = 0,25 P(Jaguar) = 0,35 P(Mercedes) = 0,40 WYKSZTA¸CENIE. Êrednie P(BMW) = 0,29 P(Jaguar) = 0,14 P(Mercedes) = 0,57. wy˝sze P(BMW) = 0,24 P(Jaguar) = 0,38 P(Mercedes) = 0,38. Rys. 13. Podzia∏ zbioru obserwacji na podstawie zmiennej niezale˝nej „wykszta∏cenie” èród∏o: opracowanie w∏asne.. Dla ka˝dej zmiennej niezale˝nej nale˝y obliczyç wartoÊç entropii, przyrost informacji (information gain) i na tej podstawie wybraç najlepszy predyktor. Entropia po podziale w´z∏a (Hk) dla poszczególnych zmiennych jest nast´pujàca: – wiek: Hk1 = 0,25 . (–0,80 . log2 (0,80) – 0,20 . log2 (0,20)) + + 0,35 . (–0,29) . log2 (0,29) – 0,29 . log2 (0,29) – 0,42 . log2 (0,42)) + + 0,40 . (–0,37 . log2 (0,37) – 0,63 . log2 (0,63)) = = 1,107 bita, – miejsce zamieszkania: Hk2 = 0,35 . (–0,29 . log2 (0,29) – 0,14 . log2 (0,14)) – 0,57 . log2 (0,57)) + + 0,40 . (–0,13) . log2 (0,13) – 0,37 . log2 (0,37) – 0,50 . log2 (0,50)) + + 0,25 . (–0,40 . log2 (0,40) – 0,40 . log2 (0,40 – 0,20 . log2 (0,20)) = = 1,425 bita, – wykszta∏cenie: Hk3 = 0,35 . (–0,29 . log2 (0,29) – 0,14 . log2 (0,14) – 0,57 . log2 (0,57)) + + 0,65 . (–0,24) . log2 (0,24) – 0,38 . log2 (0,38) – 0,38 . log2 (0,38)) + = 1,489 bita, skàd w prosty sposób mo˝na oszacowaç przyrost informacji: – wiek: Iwiek = Hp – Hk1 = 1,177 – 1,107 = 0,070 bita,.

(19) PodejÊcie entropijne w badaniach struktur rynkowych. 85. – miejsce zamieszkania: Imiejsce_zamieszkania = Hp – Hk2 = 1,177 – 1,425 = 0,248 bita, – wykszta∏cenie: Iwyksztalcenie = Hp – Hk3 = 1,177 – 1,489 = 0,312 bita. Jak widaç, tylko jeden predyktor – „wiek”, zmniejsza entropi´ systemu i to on zostaje uznany za najlepszy w danym etapie podzia∏u drzewa. Ogólnie rzecz ujmujàc, im przyrost informacji jest wi´kszy, tym dana zmienna doprowadza do „lepszego” uporzàdkowania systemu (zbioru obserwacji). W kolejnych krokach sekwencyjnego podzia∏u zbioru obserwacji sposób post´powania jest analogiczny. Na poczàtku lat 90. ubieg∏ego stulecia J.R. Quinlan opublikowa∏ prac´, w której przedstawi∏ najnowsze informacje dotyczàce drzew entropijnych13. Stworzy∏ algorytm o nazwie C4.5, który obok ID3, jest dziÊ najpopularniejszym przedstawicielem tej rodziny drzew klasyfikacyjnych. Pracujàc nad C4.5, autor stara∏ si´ zniwelowaç s∏aboÊci ID3 i wprowadziç nowe udoskonalenia. W skrócie, dotyczy∏o to modyfikacji miary podzia∏u, analizy zmiennych iloÊciowych, analizy braków danych, ∏àczenia kategorii predyktorów oraz przycinania drzewa. Dotychczas stosowana miara podzia∏u – przyrost informacji (information gain) – zosta∏a zastàpiona ilorazem przyrostu informacji (gain ratio). W liczniku tego ilorazu znajduje si´ przyrost informacji dla danego predyktora, a w mianowniku wielkoÊç entropii dla tego predyktora. Aby przybli˝yç to znormalizowane kryterium podzia∏u, mo˝na pos∏u˝yç si´ danymi oszacowanymi powy˝ej. Przyrost informacji dla poszczególnych predyktorów by∏ nast´pujàcy: – Iwiek = 0,070 bita, – Imiejsce_zamieszkania = –0,248 bita, – Iwykszta∏cenie = –0,312 bita. J.R. Quinlan uzna∏, ˝e takie kryterium faworyzuje predyktory wielokategorialne i zdecydowa∏ podzieliç te wartoÊci przez entropi´, dla poszczególnych zmiennych niezale˝nych. WielkoÊç ta by∏a szacowana na podstawie prawdopodobieƒstwa wyst´powania poszczególnych jej wariantów i wynosi∏a: – wiek: Iwiek = –0,25 . log2 (0,25) – 0,35 . log2 (0,35) – 0,40 . log2 (0,40) = = 1,559 bita,. 13 J.R. Quinlan, C4.5: Programs for Machine Learning, Morgan Kaufmann, San Mateo, California 1993..

(20) Mariusz ¸apczyƒski, Adam Sagan. 86. – miejsce zamieszkania: Imiejsce_zamieszkania = –0,35 . log2 (0,35) – 0,40 . log2 (0,40) – 0,25 . log2 (0,25) = = 1,559 bita, – wykszta∏cenie: Iwykszta∏cenie = –0,35 . log2 (0,35) – 0,65 . log2 (0,65) = = 1,934 bita, skàd ∏atwo oszacowaç iloraz przyrostu informacji: – dla zmiennej „wiek” = 0,045 bita, – dla zmiennej „miejsce zamieszkania” = –0,159 bita, – dla zmiennej „wykszta∏cenie” = –0,334 bita. Im wy˝sza jest wartoÊç ilorazu, tym predyktor „lepiej” dzieli zbiór obserwacji. Drugie udoskonalenie wprowadzone w metodzie C4.5 dotyczy∏o analizy zmiennych ciàg∏ych. J.R. Quinlan zdecydowa∏, ˝e wszystkie wartoÊci predyktora iloÊciowego zostanà posortowane rosnàco, co pozwala oznaczyç je od w1 do wn. W kolejnym kroku dokonuje si´ dychotomizacji tej zmiennej i post´puje podobnie, jak w przypadku binarnej zmiennej jakoÊciowej. Liczba wszystkich mo˝liwych podzia∏ów wynosi n – 1, co jednak nie wyd∏u˝a istotnie czasu obliczeƒ, gdy˝ wartoÊci te sà posortowane. Trzecia zmiana dotyczy∏a analizy braków danych. JeÊli w danym etapie podzia∏u drzewa pojawia si´ przypadek z nieznanà wartoÊcià zmiennej niezale˝nej, to algorytm sprawdza prawdopodobieƒstwo wyst´powania kategorii tej zmiennej dla przypadków z tej samej klasy. Bardzo wa˝nym udoskonaleniem metody C4.5 jest mo˝liwoÊç ∏àczenia kategorii zmiennych jakoÊciowych, przy czym ∏àczenie to nie zawsze oznacza dychotomizacj´ zmiennej, a jedynie redukcj´ jej wartoÊci. W algorytmie ID3 dany w´ze∏ drzewa by∏ dzielony na tyle podzbiorów, ile kategorii liczy∏ najlepszy wybrany predyktor. Nios∏o to ze sobà dwa istotne ograniczenia. Po pierwsze, du˝a liczba podzbiorów wymusza∏a du˝à liczb´ obserwacji, a po drugie, entropia szacowana dla ró˝nej liczby zdarzeƒ jest inna. Kolejna zmiana wprowadzona przez J.R. Quinlana dotyczy∏a sposobu budowy drzewa. U˝ycie mechanizmu przycinania (pruning) zosta∏o zainspirowane pracà na temat algorytmu CART autorstwa L. Breimana i in. Przycinanie polega na redukcji drzewa o maksymalnych rozmiarach, poprzez zastàpienie poszczególnych jego fragmentów liÊçmi (rys. 14). Ogólnie rzecz ujmujàc, drzewo by∏o przycinane wtedy, gdy poprzez usuni´cie którejÊ jego cz´Êci wzrasta∏a trafnoÊç predykcji dla ca∏ego drzewa. W przeciwieƒstwie do CART, algorytm C4.5. szacuje b∏àd klasyfikacji wy∏àcznie na podstawie próby uczàcej. J.R. Quinlan wprowadzi∏ pesymistycznà ocen´ b∏´-.

(21) PodejÊcie entropijne w badaniach struktur rynkowych. 87. du (pessimistic error pruning) i jej póêniejszà modyfikacj´ poszerzonà o odchylenie standardowe14.. drzewo maksymalnych rozmiarów. drzewo po przyci´ciu jednego fragmentu. Rys. 14. Schemat przycinania drzewa èród∏o: opracowanie w∏asne.. 4. Aplikacje i implementacje drzew entropijnych Metoda Quinlana i jej modyfikacje by∏y szeroko stosowane w innych dziedzinach teorii i praktyki. Jedna z aplikacji dotyczy∏a predykcji wyÊcigów chartów15. Analizie poddano oko∏o 200 wyÊcigów, 1600 psów i 9 zmiennych niezale˝nych. Zmienna zale˝na mia∏a 3 poziomy: „wyÊcig wygrany”, „wyÊcig przegrany”, „nie obstawiaç zak∏adu”. Porównujàc trafnoÊç predykcji 3 ekspertów – znawców tej dziedziny oraz trafnoÊç predykcji uzyskanà z modelu (ID3) okaza∏o si´, ˝e w kolejnych 100 wyÊcigach ludzie tracili po ok. 60–70 dolarów, a model „zarobi∏” niespe∏na 70 dolarów. Inne zastosowanie drzew entropijnych dotyczy∏o selekcji zmiennych w predykcji bankructw w∏aÊcicieli kart kredytowych16. Analizie poddano 2,9 mln przypadków, z których tylko 2,2 tys. to osoby, które straci∏y p∏ynnoÊç finansowà. 14 Obie miary sà szczegó∏owo opisane w pracy E. Gatnar, Nieparametryczna metoda dyskryminacji i regresji, PWN, Warszawa 2001, s. 114 i nast. 15 P. Gestwicki, ID3: History, Implementation, and Applications, October 1997, s. 9, http://www.citeseer.nj.nec.com, data dost´pu: 12.07.2004. 16 D.P. Foster, R.A. Stine, Variable Selection in Data Mining: Building a Predictive Model for Bankruptcy, „Journal of the American Statistical Association” 2004, vol. 99, s. 303–313..

(22) 88. Mariusz ¸apczyƒski, Adam Sagan. i którym bank odebra∏ karty kredytowe. Liczba predyktorów przekracza∏a 300, a w budowie modelu wykorzystano regresj´ krokowà i algorytm C4.5 Quinlana. Kolejna aplikacja wiàza∏a si´ z modelem do klasyfikacji klientów banku starajàcych si´ o kredyt hipoteczny, kredyt komercyjny lub kredyt konsumencki17. Zbadano 750 osób ubiegajàcych si´ o kredyt hipoteczny i na podstawie tych danych skonstruowano model do oceny wniosków kredytowych. Autorzy porównali metod´ ID3, analiz´ dyskryminacyjnà oraz modele logitowe i probitowe. Zmienna zale˝na by∏a dychotomiczna: „akceptacja wniosku” i „odrzucenie wniosku”, natomiast spoÊród 17 zmiennych niezale˝nych wymieniç mo˝na np. p∏eç klienta, wiek, stan cywilny, zawód, sta˝ pracy, dochód, dochód ˝yranta, sta˝ pracy ˝yranta. Do oceny trafnoÊci predykcji poszczególnych modeli wykorzystano wielokrotnà walidacj´ krzy˝owà. Inne zastosowanie algorytmu ID3 dotyczy∏o modelu klasyfikujàcego podmioty gospodarcze z punktu widzenia stosowanej przez nie metody ksi´gowania (FIFO/LIFO)18. Analizowano przedsi´biorstwa z 22 ró˝nych bran˝ i na podstawie zestawu 12 zmiennych niezale˝nych zbudowano trzy modele predykcyjne. Do ich konstruowania wykorzystano algorytm ID3, model probitowy i sztuczne sieci neuronowe. Okaza∏o si´, ˝e ka˝dy model „wytypowa∏” nieznacznie inny zestaw predyktorów decydujàcych o preferowanym sposobie ksi´gowania. Zdaniem autorów wynika∏o to z faktu, ˝e ID3 i sieci neuronowe nie mogà s∏u˝yç do analizy konfirmacyjnej. Drugi wniosek dotyczy∏ skutecznoÊci u˝ytych narz´dzi. Model probitowy okaza∏ si´ najlepszy w przypadku, gdy wszystkie zmienne niezale˝ne by∏y iloÊciowe, natomiast sztuczne sieci neuronowe da∏y wy˝szà trafnoÊç predykcji, gdy predyktory by∏y iloÊciowe i jakoÊciowe. Wy˝szoÊç algorytmu ID3 zaobserwowano w sytuacji, gdy próba uczàca liczy∏a niewiele przypadków – algorytm by∏ niewra˝liwy na zmniejszanie liczebnoÊci próby. Algorytm C4.5 zosta∏ równie˝ wykorzystany do predykcji oszustw w firmach ubezpieczajàcych samochody19. Zmienna zale˝na by∏a binarna i przyjmowa∏a dwa warianty: „zg∏oszenie rzeczywistej szkody” oraz „potencjalne oszustwo”. Zestaw zmiennych niezale˝nych obejmowa∏ m.in.: wiek poszkodowanego, czas, jaki up∏ynà∏ od momentu podpisania polisy do momentu wypadku, czas, jaki up∏ynà∏ od momentu wypadku do momentu zg∏oszenia o szkodzie, fakt reprezentowania poszkodowanego przez pe∏nomocnika, fakt wystàpienia uszczerbku na zdrowiu u poszkodowanego. Autorzy pracy porównali metod´ C4.5 z regresjà logistycznà, me17 T.P. Cronan, L.W. Glorfeld, L.G. Perry, Production System Development for Expert Systems Using a Recursive Partitioning Induction Approach: An Application to Mortgage, Commercial, and Consumer Lending, „Decision Sciences” 1991, vol. 2, s. 812–840. 18 T.-P. Liang, J.S. Chandler, I. Han, J. Roan, An Empirical Investigation of Some Data Effects on the Classification Accuracy of Probit, ID3, and Neural Networks, „Contemporary Accounting Research” 1992, vol. 9, nr 1, s. 306–328. 19 S. Viaene, R.A. Derrig, B. Baesens, G. Dedene, A Comparison of State-of-the-Art Classification Techniques for Expert Automobile Insurance Claim Fraud Detection, „Journal of Risk and Insurance” 2002, vol. 69, nr 3, s. 373–421..

(23) PodejÊcie entropijne w badaniach struktur rynkowych. 89. todà k-najbli˝szego sàsiedztwa, sztucznymi sieciami neuronowymi i metodà naiwnej klasyfikacji bayesowskiej (naive Bayes). Okaza∏o si´, ˝e z punktu widzenia trafnoÊci predykcji algorytm C4.5 budowa∏ najgorsze modele. Kolejna aplikacja drzew entropijnych dotyczy∏a predykcji bankructw banków w Stanach Zjednoczonych20. Zbiór danych liczy∏ 118 przypadków (banków), z czego 59 stanowi∏y instytucje, których dzia∏alnoÊç zakoƒczy∏a si´ niepowodzeniem. W pracy porównano algorytm ID3 z metodà k-najbli˝szego sàsiedztwa, sztucznymi sieciami neuronowymi oraz regresjà logistycznà. Zestaw zmiennych niezale˝nych obejmowa∏ przede wszystkim wskaêniki finansowe zwiàzane z dzia∏alnoÊcià banków: wysokoÊç aktywów, wysokoÊç kredytów udzielonych rolnikom, wysokoÊç kredytów komercyjnych i konsumpcyjnych, wysokoÊç depozytów, kwota po˝yczek, których termin sp∏aty przedawni∏ si´ 3 miesiàce i in. Porównanie modeli predykcyjnych wykaza∏o wy˝szoÊç sieci neuronowych nad pozosta∏ymi metodami analizy danych. Literatura Allenby G.A., A Unified Approach to Identifying, Estimating and Testing Demand Structures with Aggregate Scanner Data, „Marketing Science” 1989, vol. 8, nr 3. Carter J., Silverman F., An Empirical Approach to Market Partitioning: Application to the Cigarette Market, „Journal of Targeting, Measurement and Analysis for Marketing” 2004, vol. 12. Cooper L.G., Inoue A., Building Market Structures from Consumer Preferences, „Journal of Marketing Research” 1996, vol. XXXIII. Cronan T.P., Glorfeld L.W., Perry L.G., Production System Development for Expert Systems Using a Recursive Partitioning Induction Approach: An Application to Mortgage, Commercial, and Consumer Lending, „Decision Sciences” 1991, vol. 2. Elrod T. i inni, Inferring Market Structure from Customer Response to Competing and Complementary Products, „Marketing Letters” 2000, vol. 13, nr 3. Foster D.P., Stine R.A., Variable Selection in Data Mining: Building a Predictive Model for Bankruptcy, „Journal of the American Statistical Association” 2004, vol. 99. Gatnar E., Nieparametryczna metoda dyskryminacji i regresji, PWN, Warszawa 2001. Gatnar E., Symboliczne metody klasyfikacji danych, PWN, Warszawa 1998. Gestwicki P., ID3: History, Implementation, and Applications, October 1997, http:\www. citeseer.nj.nec.com, data dost´pu: 12.07.2004. Herniter J.D., An Entropy Model of Brand Purchase Behavior, „Journal of Marketing Research” 1973, vol. X. Hunt E.B., Martin J., Stone P.J., Experiment in Induction, Academic Press, New York 1966. Jutten C., Herrault J., Blind Separation of Sources: An Adaptive Algorithm Based on Neuromimetic Architecture, Signal Processing 1991, vol. 24. Liang T.-P., Chandler J.S., Han I., Roan J., An Empirical Investigation of Some Data Effects on the Classification Accuracy of Probit, ID3, and Neural Networks, „Contemporary Accounting Research” 1992, vol. 9, nr 1.. 20 K.Y. Tam, M.Y. Kiang, Managerial Applications of Neural Networks: The Case of Bank Failure Predictions, „Management Sciences” 1992, vol. 38, nr 7, s. 926–947..

(24) 90. Mariusz ¸apczyƒski, Adam Sagan. Moore W.L., Winer R.S., A Panel-Data Based Method for Merging Joint Space and Market Response Function Estimation, „Marketing Science” 1987, vol. 6, nr 1. Paszty∏a A., Analiza kursów akcji z wykorzystaniem metody ICA [w:] Statystyka i data mining w praktyce, Statsoft, Warszawa–Kraków 2004. Quinlan J.R., C4.5: Programs for Machine Learning, Morgan Kaufmann, San Mateo, California 1993. Reutterer T., Competitive Market Structure and Segmentation Analysis with Self-Organizing Feature Maps [w:] Proceedings of the 27th EMAC Conference, Stockholm 20–23 May 1998, red. P. Andersson, Track 5: Marketing Research. Tam K.Y., Kiang M.Y., Managerial Applications of Neural Networks: The Case of Bank Failure Predictions, „Management Sciences” 1992, vol. 38, nr 7. Viaene S., Derrig R.A., Baesens B., Dedene G., A Comparison of State-of-the-Art Classification Techniques for Expert Automobile Insurance Claim Fraud Detection, „Journal of Risk and Insurance” 2002, vol. 69, nr 3.. The Entropic Approach in Market Structure Research The aim of this article is to identify alternative analytical tools based on entropy measures that could be used in market structure analysis. Entropy measures have long been present in marketing research, as is shown by, for instance, J. D. Herniter’s models of predicting consumer purchasing behaviour or J. Carter and F. Silverman’s analysis of preference shift matrices. Discussion of market structures is based on T. Elrod’s popular definition, which states that the primary aim of this type of research is to identify complementary and substitutive products and to better understand competitiveness on the market. The authors of this article describes two methods – one for spatial analysis (independent component analysis) and the other for hierarchical analysis (classification trees). In the first part of the article, the authors briefly characterise the ICA method and describe the stages of the analytical procedure, indicating the advantages of this method over traditional principal component analysis. In the second part, the authors categorise classification tree algorithms based on the popular ID3 method and explain a method for estimating the measure known as information gain and the measure known as the gain ratio. The authors conclude by identifying the areas of theory and practice in which entropic methods have been applied..

(25)

Cytaty

Powiązane dokumenty

greatest degree of sustainability available. Finally, regionally design recently also touches upon flood management in large scale water systems – river basins and delta and

dolegliwości bólowych a wartościami średnimi wskaźników pracy poszczególnych odcinków kręgosłupa u badanych stomatologów i asystentek

Autorka w opracowaniu koncentruje się na głównym problemie społecz- nym liderów mniejszości niemieckiej w województwie pomorskim, jakim jest trudność podtrzymania

W interpretacji pojęcia zaufa- nia w kontekście działań rynkowych firmy studenci przede wszystkim wskazy- wali na rangę i znaczenie zaufania klientów do firmy oraz potrzebę budowania

Term in „churn” jest stosowany w branży telekomunikacyjnej i oznacza odejście klientów do konkurencyjnych operatorów sieci kom órkow ych. W praktyce może

Przestrze ´n rozwi ˛ aza ´n układu jednorodnych równa ´n liniowych ma baz ˛e zło˙zon ˛ a z tylu elementów, ile parametrów (zmiennych wolnych) wyst ˛epuje w rozwi ˛

Fleming, nie szczędząc pochwał dla nowego leku, powiedział: „Wiesz, Mac, ja mam coś jeszcze lepszego niż prontosil, ale nikt nie chce mnie wysłuchać i nie mogę znaleźć

Przez ca³y XX wiek schematy chronostratygrafii osa- dów jaskiniowych, podobnie jak schematy stratygrafii innych osadów czwartorzêdowych, rozwija³y siê niezale- ¿nie w