• Nie Znaleziono Wyników

Wykorzystanie metody składowych głównych i składowych niezależnych w analizie kształtowania się wydatków gospodarstw domowych

N/A
N/A
Protected

Academic year: 2021

Share "Wykorzystanie metody składowych głównych i składowych niezależnych w analizie kształtowania się wydatków gospodarstw domowych"

Copied!
14
0
0

Pełen tekst

(1)Zeszyty Naukowe nr. 790. Uniwersytetu Ekonomicznego w Krakowie. 2008. Agnieszka Pasztyła Katedra Statystyki. Wykorzystanie metody składowych głównych i składowych niezależnych w analizie kształtowania się wydatków gospodarstw domowych 1. Analiza współzależności zmiennych losowych W badaniach nad wydatkami gospodarstw domowych istotnym zagadnieniem jest analiza korelacji zmiennych opisujących rodzaje wydatków: (por. [Roeske-Słomka 2001]). Gdy zmienne są wzajemnie skorelowane, możemy mówić o współzależności tych zmiennych. Określenie kierunku i siły współzależności między zmiennymi losowymi umożliwia m.in. dobór zmiennych niezależnych do modeli regresyjnych oraz zmiennych objaśniających do modeli ekonometrycznych, których celem może być bądź badanie zależności ilościowych między zmiennymi kształtującymi sytuację społeczno-ekonomiczną gospodarstw domowych, bądź próba sformułowania modelu mającego na celu opisanie tychże zależności. W literaturze przedstawionych jest wiele miar pomocnych w kwantyfikowaniu siły i kierunku współzależności zmiennych. Do najczęściej stosowanych należy m.in. współczynnik korelacji liniowej Pearsona r. Jednym z mankamentów tej miary jest to, że mierzy ona tylko najprostszą, liniową, zależność dwóch zmiennych. W sytuacji, gdy mamy do czynienia z nieliniowymi powiązaniami, mogą one zostać niewykryte..

(2) 44. Agnieszka Pasztyła. 2. Wyodrębnianie wspólnych przyczyn zmienności zmiennych losowych Poza klasycznym zastosowaniem analizy korelacji do badania współzależności zmiennych opisanym powyżej, warto wziąć pod uwagę nieco inne spojrzenie na analizę współzmienności cech. Mianowicie, jeśli dwie lub więcej zmiennych opisujących kategorie wydatków gospodarstw domowych jest ze sobą skorelowanych, to informacja ta może stanowić przesłankę, że ich zmiany mają wspólne przyczyny. Innymi słowy, możemy powiedzieć, że skorelowane wzajemnie zmienne niosą, w stopniu określonym przez wartość r, te same informacje. Warto zatem podjąć próbę wyodrębnienia części wspólnej analizowanych zmiennych. Możemy tego dokonać, korzystając np. z metody składowych głównych (Principal Component Analysis) [Jolliffe 2002]. Metoda składowych głównych ma swój początek w pracach Karla Pearsona, z przełomu XIX i XX w., a następnie była rozwijana w latach trzydziestych XX w. przez H. Hotellinga. Jej znaczenie wzrosło wraz z możliwością wykorzystania komputerów do obliczeń i od tego czasu jest stale udoskonalana. Jest to metoda czysto algebraiczna i nie wymaga żadnych założeń dotyczących rozkładu zmiennych ani tym bardziej składnika losowego (nie buduje się modelu statystycznego, więc nie ma składnika losowego). Koncepcja metody opiera się na określeniu stopnia współzależności zmiennych za pomocą współczynnika korelacji liniowej lub kowariancji, a następnie na wyodrębnieniu nowych, nieskorelowanych zmiennych, określanych jako składowe główne, które odpowiadają za część zmienności grup zmiennych lub nawet za zmienność całych grup. Nowo powstałe zmienne są liniowymi kombinacjami pierwotnych zmiennych i kolejne składowe mają za zadanie ujmować jak najwięcej informacji zawartych w oryginalnych danych. Istotne jest tutaj założenie, że pierwsza ze składowych powinna zawierać jak największą ilość informacji, natomiast kolejne coraz mniej. Miarą informacji w metodzie głównych składowych jest wariancja, czyli miara zmienności cechy, stąd kolejne składowe powinny charakteryzować się coraz mniejszą wariancją. Aby wyznaczyć nowe zmienne, które mają być składowymi głównymi, korzystamy z własności macierzy korelacji lub kowariancji. Można bowiem dowieść, że kolejnymi składowymi głównymi są wektory własne macierzy korelacji (por. np. [Chatfield, Collins 1983, s. 58–62]), które obliczamy metodami algebry liniowej. Załóżmy, że dysponujemy zbiorem danych, w którym mamy p zmiennych, będących szeregami czasowymi stóp zwrotu dla p spółek, oznaczonych za pomocą X1, X2, X3, …, Xp. Przyjmijmy również, że poszczególne zmienne są skorelowane wzajemnie. Na podstawie macierzy korelacji zmiennych znajdujemy za pomocą metody głównych składowych nowy zestaw zmiennych, np. Y1, Y2, …, Yp, które są.

(3) Wykorzystanie metody składowych…. 45. nieskorelowane i których wariancja maleje dla kolejnych Yj. Każda nowa zmienna Yj będzie liniową kombinacją oryginalnych zmiennych Xi:. Yj = a1j X1 + a2j X2 + … + apj Xp . . (1). W ten sposób możemy wyodrębnić czynniki, które leżą u podstaw analizowanych zmiennych, a które często są niemierzalne, a nawet niemożliwe jest ich określenie w sposób jednoznaczny. Poszczególne składowe Yj mogą odpowiadać za wpływ różnych zjawisk, których efektem może być trend wzrostowy, trend spadkowy, wahania określonego typu itp. Metoda ta nie pozwala na interpretację wyizolowanych efektów. Wyjaśnienie poszczególnych tendencji jest możliwe tylko na podstawie wiedzy merytorycznej i znajomości badanej problematyki. W metodzie składowych głównych poszczególne składowe są nieskorelowane ze sobą. Oznacza to, że nie ma liniowego związku miedzy nimi. Możemy mieć jednak do czynienia z zależnością nieliniową. Wówczas kowariancja lub współczynnik korelacji będą równe zero, a pomimo to zmienne będą zależne, czyli dalej będzie istnieć część wariancji, której przyczyna będzie wspólna dla obu zmiennych. Wyjątkiem jest sytuacja, gdy obie zmienne podlegają dwuwymiarowemu rozkładowi normalnemu, wówczas możemy mówić o niezależności zmiennych, jeśli wiemy, że korelacja jest zerowa. Można więc powiedzieć, że metoda składowych głównych najlepiej sprawdza się w przypadku zmiennych podlegających wielowymiarowemu rozkładowi normalnemu lub rozkładom zbliżonych do normalnego. Jednak, jak wiadomo, stopień dopasowania rozkładu normalnego do empirycznych danych ekonomicznych zwykle nie jest wysoki. W odpowiedzi na ten istotny mankament rozpoczęto prace nad metodą, która pozwoliłaby na zmianę założenia o braku korelacji składowych na założenie silniejsze, które dopuszczać będzie składowe niezależne statystycznie. W ciągu ostatnich kilkunastu lat zaproponowano wiele algorytmów, opartych m.in. na minimalizacji momentów centralnych wyższych rzędów [Cardoso, Souloumiac 1993], minimalizacji wzajemnej informacji składowych lub maksymalizacji entropii składowych [Bell, Sejnowski 1995] oraz minimalizacji odległości Kullbacka-Leiblera między łącznym i sumą brzegowych rozkładów poszczególnych składowych [Amari, Cichocki, Yang 1996]. Wszystkie te rozwiązania noszą wspólną nazwę metody składowych niezależnych. Poniżej zostaną przedstawione te, w których wykorzystuje się entropię i informację wzajemną..

(4) Agnieszka Pasztyła. 46. 3. Entropia jako miara informacji zawartej w zmiennej losowej Ponieważ współczynnik korelacji sprawdza się jako miara niezależności składowych tylko w przypadku wielowymiarowego rozkładu normalnego, w latach dziewięćdziesiątych XX w. zaproponowano wykorzystanie w metodzie składowych niezależnych miar opartych na entropii do badania niezależności składowych [Bell, Sejnowski 1995]. W teorii informacji entropia jest miarą informacji zawartej w sygnale (informacja przeciętna źródła, por. np. [Gajek, Kałuszka 2000]), natomiast w statystyce interpretuje się ją jako średnią wartość funkcji określonej na zbiorze prawdopodobieństw wszystkich możliwych realizacji pewnego doświadczenia. Funkcja ta określa ilość informacji, jaką niesie pojedyncze zdarzenie i mierzona jest w bitach. Oznaczmy przez H(Y) entropię zmiennej Y. Wówczas k. H (Y ) = –∑ pi log 2 pi ,  i =1. (2). gdzie pi to prawdopodobieństwo wystąpienia zdarzenia yi. Entropia jest nieujemna i równa zeru tylko w takim przypadku, gdy jedno zdarzenie występuje z prawdopodobieństwem równym jedności, a pozostałe mają prawdopodobieństwa równe zeru. Natomiast osiąga wartość maksymalną w przypadku, gdy prawdopodobieństwa wszystkich zdarzeń są równe. Jeśli wiadomo, że wystąpienie analizowanego zdarzenia jest pewne, to doniesienie o tym, że miało ono miejsce, nie dostarcza nam żadnej informacji. Na przykład jeśli w gorący letni dzień słyszymy, że temperatura wynosi powyżej 25°C, to taki komunikat wnosi znikomą ilość informacji. Jeśli natomiast lato jest deszczowe i zimne, to prawdopodobieństwo, że temperatura wzrośnie następnego dnia do 30°C, jest różne od zera i jedności, i taka wiadomość może mieć istotny wpływ na podejmowane działania. Możemy również powiedzieć, że entropia jest miarą nieokreśloności. W pierwszej sytuacji stopień nieokreśloności jest bliski zeru, w drugiej zaś dosyć duży. Dla pojedynczego zdarzenia, które może przyjąć dwa stany A i B, z prawdopodobieństwem p i q (p + q = 1), można wykreślić entropię jako funkcję prawdopodobieństwa np. p..

(5) Wykorzystanie metody składowych…. 47. 1,2 1,0. H(y). 0,8 0,6 0,4 0,2 0. 0. 0,1. 0,2. 0,3. 0,4. 0,5 p. 0,6. 0,7. 0,8. 0,9. 1. Rys. 1. Funkcja entropii dla zdarzenia jednoelementowego Źródło: opracowanie własne.. Maksimum entropii (a więc nieokreśloności) jest osiągane wówczas, gdy p = q = 0,5, tzn. gdy oba stany są jednakowo prawdopodobne. Z kolei entropia jest minimalna, gdy istnieje pewność (p = 1 lub q = 1), że wystąpi odpowiednio zdarzenie A lub B. 4. Informacja wzajemna jako miara współzależności zmiennych losowych W celu określenia stopnia zależności między zmiennymi można wykorzystać miarę określaną jako informacja wzajemna (mutual information), I(X, Y), która ma również swój początek w teorii informacji i oznacza łączną entropię dwóch źródeł informacji (por. [Gajek, Kałuszka 2000, s. 231], [Hastie, Tibshirani, Friedman 2001], [Kunysz 1990]). Innymi słowy, informację wzajemną można określić jako tę część informacji, która jest powtarzana przez obydwa źródła. Dla specjalistów zajmujących się przesyłaniem, kodowaniem i kompresją danych ważne jest, aby informacja wzajemna dwóch sygnałów – wysyłanego i odbieranego – była jak największa, ponieważ wraz ze zwiększaniem się powtarzającej się części sygnału, maleje odsetek błędów w odbiorze lub odczycie komunikatów. Dla statystyków miara ta może informować o tym, w jakim stopniu dwie zmienne losowe są od siebie zależne, bez konieczności zakładania postaci funk-.

(6) Agnieszka Pasztyła. 48. cyjnej zależności. Oczywiście, sytuacją pożądaną będzie najczęściej mała wartość I(X, Y). Jak definiujemy informację wzajemną? Jeśli przez X oznaczymy zmienną losową, która przyjmuje wartości ze zbioru A = {x1, x2, …, xm}, a przez Y zmienną losową ze zbiorem wartości B = {y1, y2, …, yn}, oraz p(xi ) będzie prawdopodobieństwem otrzymania wartości x ze zbioru A, p(yj ) będzie prawdopodobieństwem otrzymania wartości y ze zbioru B i p(xi, yj ) jest prawdopodobieństwem otrzymania pary wartości (xi, yj ) ∈ A × B, to łączna entropia dwóch zmiennych losowych X i Y będzie równa: m. m. H ( X , Y ) = –∑ ∑ p ( xi , y j ) log 2 p ( xi , y j ) . . (3). H(X, Y) = H(X) + H(Y) – I(X, Y), . (4). i =1 j =1. Wzór ten można przekształcić do postaci:. gdzie informacja wzajemna I(X, Y) jest równa m. m. I ( X , Y ) = ∑ ∑ p ( xi , y j ) log 2 i =1 j =1. p ( xi , y j ) p ( xi ) p ( y j ). .. (5). Wzajemna informacja może być wyprowadzona również z odległości Kullba­ cka-Leiblera dwóch rozkładów prawdopodobieństwa i obliczana jako suma różnic między entropią gęstości rozkładów brzegowych zmiennej (niezależnych statystycznie), H(Yj), i entropią gęstości rozkładu analizowanej zmiennej H(Y): p. I (Y ) = ∑ H (Y j – H (Y )) .  j =1. (. ). (6). Wyprowadzenie informacji wzajemnej z odległości Kullbacka-Leiblera można znaleźć w pracy [Kunysz 1990]. W praktyce do mierzenia zależności zmiennych stosuje się często tzw. negatywną entropię – negentropię, J(Yj ), czyli miarę, która określa, jak bardzo różni się rozproszenie i koncentracja cechy o dowolnym rozkładzie od cechy o takiej samej wariancji, ale podlegającej rozkładowi normalnemu. Podstawą porównania jest rozkład normalny, ponieważ zmienna podlegająca temu rozkładowi charakteryzuje się największą entropią (por. [MacKay 2004]).. J(Yj ) = H(Zj ) – H(Yj ) . . (7). Zj jest losową zmienną podlegającą rozkładowi normalnemu o takiej samej wariancji jak Yj. Negentropia jest nieujemna i mierzy odległość rozkładu składowej Yj od rozkładu normalnego..

(7) Wykorzystanie metody składowych…. 49. 5. Metoda składowych niezależnych Metoda składowych niezależnych pozwala na dekompozycję, czyli rozkład zmiennych wejściowych na statystycznie niezależne składowe na podstawie miar niezależności cech opisanych powyżej.. Czynniki zewnętrzne. Składowe niezależne. Zmienne wejściowe Nieznana transformacja. Dekompozycja. Rys. 2. Metoda składowych niezależnych – ujęcie ogólne Źródło: opracowanie własne.. W odróżnieniu od metody głównych składowych, w której podstawą wyodrębniania składowych głównych jest macierz kowariancji lub korelacji, w metodzie składowych niezależnych opartej na entropii macierzą wejściową jest macierz obserwacji, którą przekształca się w macierz wybieloną (whitening matrix). Kolejne przekształcenia i interpretacja poszczególnych etapów zostaną przedstawione na przykładzie wyodrębniania czynników kształtujących wydatki gospodarstw domowych. W przypadku wydatków gospodarstw domowych czynniki zewnętrzne, takie jak poziom bezrobocia, ożywienie rynku, ogólna kondycja gospodarki, wielkość deficytu budżetowego, stabilność rządu i inne kształtują w dużym stopniu, obok informacji wewnętrznych pochodzących z samego gospodarstwa, wahania wydatków i ich zróżnicowanie. Wykazanie zależności między wybranymi czynnikami zewnętrznymi a wydatkami gospodarstw domowych jest utrudnione ze względu na problemy z przedstawieniem badanych efektów w postaci ilościowej. Pomocne tutaj może być wykorzystanie metody składowych niezależnych w celu wyodrębnienia wspólnych przyczyn wahań i zróżnicowania wydatków. Niektóre niemierzalne czynniki zewnętrzne mogą być estymowane za pomocą wyizolowanych składowych niezależnych. Dużą zaletą analizy jest brak konieczności estymacji rozkładu zmiennych. Jest to efekt zastosowania entropii jako podstawy miar niezależności zmiennych..

(8) Agnieszka Pasztyła. 50. 6. Wyodrębnianie wspólnych przyczyn zmienności wydatków gospodarstw domowych W przykładzie zostaną wykorzystane dane obejmujące miesięczne wydatki 32 488 gospodarstw domowych w 2003 r. zebrane przez GUS. Zbiór1 zawiera wydatki pogrupowane w 13 kategorii. Są to wydatki na żywność, napoje alkoholowe, odzież i obuwie, utrzymanie mieszkania, wyposażenie mieszkania, zdrowie, transport, łączność, kulturę i rekreację, edukację, hotele i restauracje oraz inne. Pytania, jakie możemy postawić na początku analizy, to: które zmienne są ze sobą silnie skorelowane, jaki procent zmienności ogółu zmiennych może być wyjaśniony przez wyodrębnione składowe oraz czy można wyodrębnić wspólne źródła zmienności wydatków gospodarstw domowych na wymienione cele. Korzystając z metody składowych głównych otrzymujemy wyniki, na podstawie których możemy stwierdzić, że w analizowanym zbiorze występują zmienne wzajemnie skorelowane. Wniosek ten potwierdza rys. 3. Jest to tzw. wykres osypiska (scree plot). Zostały na nim naniesione wielkości wariancji ogółu zmiennych wyjaśnionej przez kolejne składowe główne. Na osi rzędnych znajdują się wartości własne macierzy korelacji. 4,0 3,5. 24,54%. Wartość własna. 3,0 2,5 2,0 1,5. 10,82% 8,13% 7,89% 7,66%. 1,0. 7,06% 6,78%. 5,99% 5,94%. 0,5. 5,30% 5,08% 4,81%. 0,0 –0,5. 0. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. Rys. 3. Wartości własne macierzy korelacji i wariancja ogółu zmiennych wyjaśniona przez składowe główne Źródło: opracowanie własne..   Zbiór został opracowany w Zakładzie Statystyki Społecznej Katedry Statystyki Uniwersytetu Ekonomicznego w Krakowie. 1.

(9) Wykorzystanie metody składowych…. 51. Interesujące wyniki daje również rzut standaryzowanych współczynników pierwszej i drugiej składowej stojących odpowiednio w kombinacjach liniowych przy zmiennych odpowiadających za rodzaj wydatków na koło o promieniu jednostkowym i środku w początku układu współrzędnych, który ilustruje grupy wydatków skorelowanych ze sobą (rys. 4). Druga składowa wyraźnie dzieli zmienne na dwie grupy o przeciwnych znakach współczynników. W pierwszej grupie największy wpływ mają wydatki na alkohol i utrzymanie mieszkania, natomiast w drugiej są to wydatki na odzież i obuwie, kulturę i rekreację oraz pozostałe cele (por. tabela 1). Część zmienności obydwu grup zmiennych, która kształtuje zmienność drugiej składowej, ma charakter znoszący. Oznacza to, że wraz ze wzrostem części wydatków gospodarstw domowych, m.in. na alkohol i utrzymanie mieszkania, maleje część wydatków na odzież, obuwie oraz kulturę i rekreację.. 1,0. Składowa 2: 10,82%. 0,5. alkohol. transport utrzymanie mieszkania. wyposażenie mieszkania. zdrowie. 0,0. inne łączność hotele_restauracje kultura_rekreacja edukacja pozostałe żywność odzież i obuwie. –0,5. –1,0 –1,0. –0,5. 0,0. 0,5. 1,0. Składowa 1: 24,54%. Rys. 4. Rzut standaryzowanych współczynników pierwszej i drugiej składowej głównej na koło o jednostkowym promieniu Źródło: opracowanie własne..

(10) Agnieszka Pasztyła. 52. Tabela 1. Wkład zmiennych do składowych głównych (w %) Zmienna Żywność. Składowa Składowa Składowa Składowa Składowa Składowa 1 2 3 4 5 6. Alkohol. 0,078. 0,046. 0,081. 0,109. 0,000. 0,049. 0,097. 0,133. 0,337. 0,099. 0,088. 0,003. 0,012. 0,029. 0,002. 0,000. 0,167. 0,001. 0,219. 0,205. Utrzymanie mieszkania. 0,087. 0,126. Zdrowie. 0,037. 0,000. 0,108. 0,034. Odzież i obuwie. Wyposażenie mieszkania. 0,093 0,075. 0,010. 0,052. 0,110. 0,080. 0,032. 0,000. 0,067. 0,161. 0,119. 0,017. 0,002 0,112. 0,080. Kultura i rekreacja. 0,091. 0,096. Hotele i restauracje. 0,024. 0,047. 0,263. 0,204. 0,028. 0,000. 0,192. Edukacja. Pozostałe. Inne. 0,021. 0,066 0,021. 0,037. 0,090. 0,081. 0,001. Transport Łączność. 0,110. 0,001. 0,001. 0,020. 0,004. 0,000 0,065. 0,002. 0,014. 0,019. 0,000 0,223 0,001. 0,223. 0,001. 0,030 0,017. 0,003 0,555 0,114. 0,178. Źródło: opracowanie własne.. Dodatkowe informacje o powiązaniach między kategoriami wydatków gospodarstw domowych można uzyskać, korzystając z metody składowych niezależnych. W celu ich wyodrębnienia należy przekształcić macierz obserwacji zgodnie opisanymi poniżej etapami. Etap 1. Centrowanie macierzy obserwacji (centering), które polega na przekształceniu zmiennych w nowe zmienne, o średnich równych zero. Nową macierz oznaczamy symbolem X. Etap 2. „Wybielenie” macierzy (whitening), polegające na transformacji � której zmienne są nieskorelowane macierzy wycentrowanej X w nową macierz X, T � � parami i spełniają warunek XX = 1, co oznacza, że przekształcone zmienne charakteryzują się jednostkową wariancją. � , gdzie S oznacza składowe Etap 3. Wyznaczenie macierzy A� , takiej że X� = AS � niezależne, a A to macierz współczynników (mixing matrix). –1 –1 Etap 4. Wyznaczenie macierzy A� spełniającej równanie S = A� –1 X� gdzie A� to macierz współczynników przy zmiennych X� j (unmixing matrix). W literaturze anglojęzycznej pierwsze dwa etapy noszą nazwę pre-processing (wstępne przetwarzanie). Celem etapu pierwszego, polegającego na odjęciu od wszystkich wartości zmiennej wartości przeciętnej, jest uzyskanie zmiennych (kolumn macierzy) o średniej równej zero. Takie przekształcenie pozwala na uproszczenie dalszych teoretycznych rozważań oraz algorytmów i obliczeń. Jak należy rozumieć wybielanie macierzy w etapie drugim? Jeśli przyjmiemy, że.

(11) Wykorzystanie metody składowych…. 53. operujemy na zmiennych o średnich równych zero, wówczas kowariancja pary zmiennych będzie równa korelacji. Celem wybielenia macierzy scentrowanej jest uzyskanie nowej macierzy, o zmiennych nieskorelowanych parami, czyli w tym przypadku o kowariancjach równych zero oraz jednostkowych wariancjach. Można więc powiedzieć, że wybielenie macierzy jest silniejszym przekształceniem niż tylko wyznaczenie składowych nieskorelowanych. W pracy [Hyvärinen, Karhunen, Oja 2001, s. 140–141] opisano do tego celu kilka operatorów, jednym z nich jest V = ED –1/2 ET, gdzie E jest ortogonalną macierzą wektorów własnych macierzy kowariancji i D jest macierzą diagonalną jej wartości własnych. W wyniku prze� kształcenia X = VX otrzymujemy macierz wybieloną. W trzecim etapie wyznaczana jest macierz współczynników kombinacji liniowej, która określa, w jaki sposób składowe niezależne tworzą obserwowane zmienne. Stąd pochodzi angielska nazwa mixing matrix, czyli macierz mieszania oryginalnych źródeł informacji. Macierz tę można oszacować, wykorzystując podejście oparte na wyszukiwaniu zmiennych o rozkładzie maksymalnie oddalonym (różnym) od normalnego ( finding the maxima of nongaussianity), w oparciu o metodę największej wiarygodności lub minimalizując informację wzajemną obserwowanych zmiennych. Rozwiązanie wykorzystane w niniejszym opracowaniu należy do pierwszej grupy metod. W tym podejściu najważniejszy jest wybór miary odległości rozkładu zmiennej od rozkładu normalnego (measure of nongaussianity). Warto przypomnieć, że zgodnie z przyjętymi założeniami, wariancja zmiennych przekształcanych jest stała i równa jeden. W przykładzie do obliczeń wykorzystano opisaną już negentropię J(s). W wyniku obliczeń z etapów trzeciego i czwartego otrzymujemy macierz S składowych niezależnych (independent components) oraz współczynniki przy zmiennych w kombinacjach liniowych, będących składowymi (un-mixing matrix). Tabela 2. Macierz współczynników A −1 składowych niezależnych Zmienna Żywność Alkohol. Odzież i obuwie. Utrzymanie mieszkania. Wyposażenie mieszkania Zdrowie. Transport. Składowa Składowa Składowa Składowa Składowa Składowa 1 2 3 4 5 6 0,883. –0,018. 0,529. –0,002. –0,010. –0,125. –0,037. –0,087. –0,183. –0,010. 0,323. –0,004. 0,361. 0,600 0,487. Łączność. –0,361. Edukacja. 0,573. Kultura i rekreacja. 0,019. 0,037. 0,009 0,041. –0,013. 0,011. 0,016. 0,036. 0,050. –0,132. –0,029. –0,001. 0,047. 0,035. –0,003 0,085. 0,312. –0,078. –0,244. –0,203. 0,040. –0,034. 0,245. 0,028. –0,003. –0,011. 0,019. 0,001. 0,060. –0,148. –0,024 –0,160. –0,121. 0,032. –0,037 0,041. –0,231. –0,138 0,038. 0,122. 0,080 0,482. 0,280.

(12) Agnieszka Pasztyła. 54. cd. tabeli 2. Składowa Składowa Składowa Składowa Składowa Składowa 1 2 3 4 5 6. Zmienna Hotele i restauracje Pozostałe. 0,199. –0,067. 0,059. –0,016. –0,151. Inne. 0,003. –0,001. –0,002 –0,036. 0,126. –0,011. –0,023. –0,138. –0,006. 0,022. –0,062. 0,033. –0,013. Źródło: opracowanie własne. 60 50 Składowa 2: 10,82%. 40 30 20 10 0 –10 –20 –30 –40 –60. –50. –40. –10. 0. –30. –20. –10. 0. 10. 20. 10. 20. 30. 40. 50. 60. Składowa 1: 24,54%. 4 3 Składowa 2: 10,82%. 2 1 0 –1 –2 –3 –4 –5 –20. Składowa 1: 24,54%. Rys. 5. Rozkład obserwacji ze względu na pierwsze dwie składowe główne (u góry) i niezależne Źródło: opracowanie własne..

(13) Wykorzystanie metody składowych…. 55. Warto zwrócić uwagę, że w przypadku badanego zbioru wartości własne macierzy korelacji otrzymane za pomocą obydwu metod są jednakowe, natomiast otrzymane składowe w różny sposób wyjaśniają wariancję ogółu zmiennych. Świadczą o tym wartości współczynników kombinacji liniowych w przypadku składowych niezależnych i składowych głównych, które mogą mieć różne wartości i znaki (por. np. przeciwne znaki niejednakowych grup współczynników dla pierwszych dwóch składowych na rys. 4 i w tabeli 2). Na podstawie przedstawionych powyżej wyników można stwierdzić, że istnieje czynnik, który w znacznym stopniu (24,54%) wyjaśnia zmienność ogółu wydatków gospodarstw domowych. Kształtowanie się tego czynnika można wyjaśnić zgodnie z wynikami otrzymanymi za pomocą metody składowych głównych lub składowych niezależnych. Które wyniki powinny być jednak podstawą interpretacji? Pomocna w wyborze wydaje się ocena stopnia współzależności składowych. Jak już wiadomo, otrzymane składowe główne są nieskorelowane w sensie r. Składowe niezależne natomiast powinny być niezależne zgodnie z definicją wybraną przez badacza (opartą np. na statystykach wyższego rzędu, odległości rozkładu składowych od rozkładu normalnego o takich samych parametrach) oraz miarą odległości. Rysunek 5 ilustruje rozkład obserwacji ze względu na pierwsze dwie składowe główne i niezależne. Oba rozkłady mają podobny kształt (bez uwzględnienia ich symetrii względem osi rzędnych), jednak w przypadku składowych głównych można zaobserwować silniej zarysowaną korelację nieliniową, która została częściowo wyeliminowana przez składowe niezależne. Wynik ten stanowi przesłankę, aby przy próbie interpretacji wyodrębnionych składowych oprzeć się na składowych niezależnych. Literatura Amari S., Cichocki A., Yang H.H. [1996], A New Learning Algorithm for Blind Signal Separation, Advances in Neural Information Processing Systems 8, MIT Press. Bell A.J., Sejnowski T.J. [1995], An Information Maximisation Approach to Blind Separation and Blind Deconvolution, Neural Computation, 7, 6. Cardoso J.F., Souloumiac A. [1993], An Efficient Technique for the Blind Separation of Complex Sources, Proc. IEEE SP Workshop on Higher-Order Statistic, Lake Tahoc, USA. Chatfield Ch., Collins J. [1983], Introduction to Multivariate Analysis, Chapman and Hall, London. Jolliffe I.T. [2002], Principal Component Analysis, Springer, New York. Gajek L., Kałuszka M. [2000], Wnioskowanie statystyczne. Modele i metody, WNT, Warszawa. Hastie T., Tibshirani R., Friedman J. [2001], The Elements of Statistical Learning. Data Mining, Inference and Prediction, Springer, New York..

(14) 56. Agnieszka Pasztyła. Hyvärinen A., Karhunen J., Oja E. [2001], Independent Component Analysis, John Wiley and Sons, New York. Kunysz K. [1990], Elementy teorii informacji, Wydawnictwo Politechniki Rzeszowskiej, Rzeszów. MacKay D.J.C. [2004], Information Theory, Inference and Learning Algorithms, Cambridge University Press, Cambridge. Roeske-Słomka I. [2001], Dochody i wydatki gospodarstw domowych w Polsce w latach 1993–1997, AE w Poznaniu, Poznań. Using the Main Component and Independent Component Method in Analysing Household Expenditure The author presents a new perspective on applying correlation analysis to changes in household expenditure. The main component method, whose basis is correlation analysis, and the independent component method – which is an expansion of the former method – are applied with the aim of identifying factors that simultaneously shape the expenditure of households. This analysis can be used to assess the functional dependencies between variables that determine the socio-economic situation of households, and to select variables in the process of formulating models that aim to describe those dependencies..

(15)

Cytaty

Powiązane dokumenty

Jeśli zaś miałaby zdawać sprawę ze stanu albo przemian całej naszej teorii literatury w wybranym okresie (na to wskazuje podtytuł), należałoby się zastanowić,

narodowej Polaków. Niemal w każdej dziedzinie aktywności społecznej, bez względu na to, czy chodziło o samo- pomoc gospodarczą, działalność edu- kacyjną,

By reducing the pressure on the environment, cau- sed by production processes, consumption and investment, it is possible to reduce impact of anthropological risks and

Figure 6 shows the annual fatigue damage at both considered locations which was calculated using wave data from WaveWatch-III, ERA-interim and buoy measurements.. The an- nual

Projekt Polskiego Towarzystwa Prawniczego we Lwowie silnie akcentował znaczenie zespolenia administracyjnego jako naczelnej zasady organizacji apara- tu administracyjnego. W

The aim of the present study was: 1) the evaluation of accuracy of shal- low EC (ECsh) calibration for assessment of ST using a small number of soil samples 2) the assessment of

Dynamika realnego przeciętnego miesięcznego dochodu rozporządzalnego D oraz realnych przeciętnych miesięcznych wydatków W na 1 osobę w gospodarstwach domowych ogółem oraz

Do opisu kształtowania się wybranej grupy wydatków gospodarstw domowych, opartego na zagregowanych danych liczbowych, potencjalny zbiór zmiennych objaśniających stanowią: