• Nie Znaleziono Wyników

Prezentowany problem badawczy polega na oszacowaniu pełnej tabeli kon-tyngencji dla pięciu cech w populacji: województwo (O) z 16 kategoriami, typ miejscowości (T) z 4 kategoriami (1 = miasto powyżej 200 tys.; 2 = miasto 50-200 tys.; 3 = miasto do 50 tys.; 4 = wieś), wiek (W) z 6 kategoriami (1 = 15-17 lat; 2 = 18-19 lat; 3 = 20-24 lat; 4 = 25-39 lat; 5 = 50-59 lat; 6 = 60+ lat), wy-kształcenie (Y) z 4 kategoriami (1 = podstawowe; 2 = zasadnicze; 3 = średnie;

4 = wyższe) i płeć (P) z 2 kategoriami (1 = kobieta; 2 = mężczyzna). Wyko-rzystane są trzy źródła informacji: (a) oszacowanie pełnego rozkładu łącznego rozważanych pięciu cech (O, T, W, Y i P) na podstawie badania sondażowego8 (N = 28092), (b) dane spisowe GUS9 dla łącznego rozkładu czterech cech (O, T, W i P), oraz (c) dane szacunkowe GUS10 dla łącznego rozkładu dwóch cech (Y i P). Problem statystyczny polega zatem na tym, że jesteśmy w posiada-niu oszacowań pełnej, ale relatywnie obciążonej struktury populacji dla tabeli kontyngencji O×T×W×Y×P oraz dwóch nieobciążonych, ale niepełnych tabel brzegowych O×T×W×P i Y×P.

W celu zachowania ekonomii i przejrzystości prezentacji zmienne tery-torialne O i T są pominięte w dalszej prezentacji analizowanego problemu.

W konsekwencji, zamiast prezentować pełną tabelę O×T×W×Y×P prezentu-ję jedynie brzegową tabelę W×Y×P i w analogiczny sposób w miejsce tabeli O×T×W×P prezentuję tabelę brzegową W×P. Prezentacja tabeli brzegowej Y×P pozostaje bez zmiany. Taki sposób redukuje prezentowane tabele kontyngen-cji i upraszcza prezentowaną algebrę modelu log-liniowego, bez znaczących konsekwencji dla ogólności prezentowanego zagadnienia. Analizowane tabele kontyngencji zawiera tab. 1. W górnej części tabeli pokazana jest oszacowana struktura z badania sondażowego dla wieku, wykształcenia i płci, tj. tabela W×Y×P, w środkowej części struktura populacji z danych spisowych GUS dla wykształcenia i płci, tj. tabela brzegowa W×P, w dolnej części struktura popu-lacji z oszacowań GUS dla wieku i płci, tj. tabela brzegowa Y×P.

7 C. Wiship, R.D. Mare, Latent class models for contingence tables with missing data, w: Applied Latent class Analysis, eds. J.A. Hagenaars, A.L. McCutcheon, Cambridge, UK: Cambridge University Press 2002.

8 Dane skumulowane z 24 fal badania typu OMNIBUS realizowanego w latach 2007 i 2008 przez PBS DGA.

9 Dane pobrane z Banku Danych Regionalnych (www.stat.gov.pl) w grudniu 2008 r.

10 Dane z publikacji GUS (2009, tab. 6(65), s. 118) na 31 grudnia 2007 r.

Roman Konarski 94

Tabela 1 Tabele kontyngencji dla pełnych i brakujących danych

Wiek (W)

Płeć (P)

Ogółem

kobiety (P-1) mężczyźni (P-2)

wykształcenie (Y)

ogółem

wykształcenie (Y)

ogółem

Y-1 Y-2 Y-3 Y-4 Y-1 Y-2 Y-3 Y-4

Dane sondażowe PBS DGA

W-1 1,687 0,004 0,018 0,000 1,709 1,662 0,014 0,000 0,000 1,677 3,385 W-2 0,883 0,100 0,484 0,000 1,467 0,961 0,128 0,320 0,000 1,410 2,876 W-3 0,303 0,545 3,118 0,659 4,624 0,456 0,634 2,535 0,299 3,923 8,547 W-4 0,886 3,161 6,151 4,588 14,787 0,844 3,254 4,047 2,577 10,722 25,509 W-5 3,068 5,842 9,131 2,720 20,760 1,983 6,525 4,375 1,349 14,232 34,992 W-6 8,049 2,147 3,834 1,114 15,143 3,770 2,720 2,097 0,961 9,547 24,690 Ogółem 14,876 11,799 22,736 9,081 58,490 9,676 13,275 13,374 5,186 41,511

Dane spisowe GUS

W-1 2,299 2,406 4,706

W-2 1,665 1,740 3,405

W-3 4,680 4,843 9,524

W-4 13,397 13,733 27,129

W-5 17,040 16,284 33,324

W-6 13,172 8,740 21,912

Ogółem 52,254 47,746

Dane szacunkowe GUS

Ogółem 12,912 9,992 19,426 9,925 52,255 10,101 14,814 15,593 7,238 47,746

Jak możemy zauważyć, dane statystyczne (źródło danych (a)), dla pełnej tabeli W×Y×P, są relatywnie obciążone i nie mogą być podstawą konstrukcji wag próby. Na przykład obciążenie brzegowego rozkładu płci (P) przekracza 6%. Analogiczne obciążenie możemy zaobserwować dla rozkładu wieku (W), które waha się od -0,53% (dla drugiej kategorii) do 2,78% (dla ostatniej kate-gorii). Obciążenie rozkładu brzegowego wykształcenia (Y) waha się od 0,27%

(dla drugiej kategorii) do -2,90% (dla czwartej kategorii). Dlatego ważne jest, aby zmniejszyć obciążenie oszacowanej struktury populacji W×Y×P poprzez wykorzystanie dodatkowej, chociaż niepełnej, informacji dostarczonej w for-mie tabel brzegowych W×P i Y×P.

Zastosowanie modelu latentnych klas... 95

Zgodnie z Winyshipem i Mare, wyróżniamy cztery typy tabel: (1) tabelę zaobserwowaną (observed table), (2) tabelę danych kompletnych (complete data table), (3) tabelę rozszerzoną (extended table) i (4) tabelę rdzenia (core table).

W tabeli zaobserwowanej każda zmienna z brakami danych ma dodatkową kategorię dla brakujących obserwacji. Tabela danych kompletnych zawiera je-dynie obserwacje z pełnymi danymi. Tabela rozszerzona jest tylko częściowo bezpośrednio obserwowalna. W tabeli tej zmienne substantywne (W, Y i P) są skrzyżowane ze wskaźnikiem wzorca brakujących danych (M). Tabela rozsze-rzona wskazuje wzajemną relację pomiędzy zmiennymi substantywnymi oraz relację tych zmiennych ze zmienną M. Tabela rdzenia nie jest bezpośrednio obserwowalna i jest tabelą krzyżową dla wszystkich obserwacji (niebrakują-cych i brakują(niebrakują-cych) i wszystkich zmiennych substantywnych. Tabela ta ma takie same rozmiary, jak tabela danych kompletnych.

Podsumowując, w przypadku danych w tab. 1 mamy trzy zmienne sub-stantywne W (wiek), Y (wykształcenie) P (płeć) oraz zmienną M (wskaźnik wzorca brakujących danych) zakodowaną następująco: 1 = dane statystycz-ne dla pełstatystycz-nej tabeli W×Y×P; 2 = dastatystycz-ne spisowe dla tabeli brzegowej W×P; 3 = oszacowania dla tabeli brzegowej Y×P. W efekcie, tabela M×W×Y×P o rozmia-rach 3×6×4×2 jest tabelę rozwiniętą. Połączenie tabeli danych kompletnych z tabelami brzegowymi danych niekompletnych daje tabelę zaobserwowaną (pokazaną w tab. 1). Jeżeli złożymy tabelą rozwiniętą dookoła M otrzymamy tabelę rdzenia. Tabela ta jest latentna i ma nieznaną liczbę obserwacji w każ-dej celce tabeli.

Podejście zaproponowane przez Winshipa i Mare pozawala na analizę brakujących danych przez ujęcie relacji między zmiennymi w tabeli rozwinię-tej i tabeli rdzenia w postaci modelu log-liniowego. Ponieważ obie tabele nie są bezpośrednio obserwowalne musimy zastosować model LCM. Model log-liniowy dla tabeli rozwiniętej jest następujący:

log ijkl iM Wj kY lP ijMW ikMY ilMP

gdzie πijkl oznacza prawdopodobieństwo, że osoba znajdzie się w celce dla i-tego poziomu zmiennej M (i = 1, 2, 3), j-tej kategorii zmiennej W (j = 1, 2,

 C. Wiship, R.D. Mare, Loglinear models with missing data: A latent class approach „Sociological Methodology” 1989, No. 19.

 Ibid.; C. Wiship, R.D. Mare, Latent class models..., op. cit.

Roman Konarski 96

…, 6), k-tej kategorii zmiennej Y (k = 1, 2, …, 4) oraz l-tej kategorii zmiennej P (l = 1, 2). Stała λ jest zdeterminowana za pomocą restrykcji

ijklπ =ijkl . Pozostałe parametry λ są zdeterminowane tak, aby spełniały restrykcję sumy parametrów jednego rodzaju równej zeru:

MWP MYP MYP MYP WYP WYP

ijl ikl ikl ikl jkl jkl

l i k l j k

L L L L L L

=

=

=

=

=

=

WYP MWYP MWYP MWYP MWYP 0

jkl ijkl ijkl ijkl ijkl

l i j k l

L L L L L

=

=

=

=

=

=

Przyjmijmy, że fijkl to zaobserwowana liczba obserwacji w celce ijkl. Gdy-dana celka tabeli nie jest bezpośrednio obserwowalna, hipotetyczna liczeb-ność jest oznaczona jakofijkl* . Dla i = 1 (pełne dane) obserwujemy fjkl. Jeżeli i

W efekcie funkcja wiarygodności dla tego modelu jest następująca:

( )

4 6

gdzie pierwszy składnik jest dla komórek z pełnymi danymi i ma standardo-wą formę składnika funkcji wiarygodności modelu log-liniowego. Pozostałe składniki są dla komórek z brakującymi danymi i mają formę składnika funk-cji wiarygodności modelu LCM.

 Ibid.

Zastosowanie modelu latentnych klas... 97