Podejście makro - Parowanie statystyczne - Statystyczna integracja danych w badaniach społeczno

4.4. Parowanie statystyczne

4.4.2. Podejście makro

W podejściu makro wnioskuje o łącznym rozkładzie cech i nie konstruując syntetycz-nego zbioru danych jednostkowych. Przy założeniu, że zmienne dołączane mają charakter ciągły (oraz rozkład normalny) szacowanymi parametrami są wektor wartości oczekiwanych oraz macierz wariancji i kowariancji .

Założenie o warunkowej niezależności A. Podejście parametryczne

Założenie o warunkowej niezależności stosuje się w przypadku braku jakiejkolwiek dodat-kowej informacji o szacowanych parametrach łącznego rozkładu zmiennych i . Załóżmy, że zbiory i B są próbami wylosowanymi niezależne i o jednakowym rozkładzie (i.i.d.) liczącymi odpowiednio i obserwacji. Rozkład łączny zmiennych ( , , ) jest roz-kładem normalnym o parametrach:

( ) oraz (

Dla zmiennych ciągłych estymowanym parametrami są: ( ) [( ) (

)] (4.15)

W przypadku zmiennych jakościowych, zbiór zawiera zmienne [ ] oraz [ ]. Zbiór zawiera zmienne [ ] oraz [ ], gdzie , , to warianty zmiennych, odpowiednio, , i . Szacowanym parametrem jest wówczas:

( ), (4.16)

158 Uogólniając powyższe rozważania, łączny rozkład ( , , ) można zapisać wzorem:

( ) ( ) ( ) ( ). (4.17)

Parametry oraz mogą zostać oszacowane na podstawie informacji zarówno ze zbioru , zbioru , jak i zbioru . Parametry oraz mogą zostać oszacowane na podsta-wie informacji ze zbioru , natomiast parametry oraz na podstawie informacji ze zbioru . Na podstawie informacji z integrowanych zbiorów A i B nie można oszacować parametru . Przy założeniu o warunkowej niezależności (CIA) między zmiennymi i przy danym zachodzi równość:

. (4.18)

Oznacza to również, że współczynnik korelacji:

(4.19)

przy czym .

Szacunek wartości powyższych parametrów przeprowadzić można wykorzystując wszystkie informacje pochodzące z próby [Kadane 1978, Moriarity i Scheuren 2001]:

 dla parametrów ̂ ̅ ^̅ ^̅ , (4.20) ̂ ⁽ ⁾ ( ) , (4.21)  dla parametrów ̂ ̅ ^∑ , (4.22) ̂ ^∑ ⁽ ^̅ ⁾ , (4.23)  dla parametrów ̂ ̅ ^∑ , (4.24) ̂ ^∑ ⁽ ^̅ ⁾ , (4.25)

 kowariancja (szacowana na podstawie informacji ze zbioru ) ̂ ^∑ ⁽ ^̅ ⁾⁽ ^̅ ⁾

, (4.26)

 kowariancja (szacowana na podstawie informacji ze zbioru ) ̂ ^∑ ⁽ ^̅ ⁾⁽ ^̅ ⁾

159 Zatem, przy założeniu o warunkowej niezależności, kowariancję można wyzna-czyć z następującej równości:

. (4.28)

W efekcie szacowana macierz wariancji i kowariancji będzie miała postać:

̂ [

]. (4.29)

W świetle CIA powyższy sposób rozumowania jest dobry, jednak może prowadzić do pew-nych problemów przy szacowaniu współczynnika regresji , ponieważ podmacierz ̂ [ ^̂

̂ ^] ^(4.30)

może nie okazać się dodatnio półokreślona.

Anderson [1984] zaproponował procedurę, opartą o estymator największej wiarygodności (maximum likelihood, ML), prowadzącą do prawidłowego, w sensie zachowania dodatniej półokreśloności, oszacowania macierzy ̂. W pierwszym kroku algorytmu szacuje się war-tość oczekiwaną ̂ ̅ oraz wariancję ̂ . Parametry wykorzystujące infor-macje z szacuje się na podstawie równania regresji:

(4.31)

gdzie: ̂

, (4.32)

̅ ̂ ̅ . (4.33)

Wynika z tego, że:

̂ ̂ ̂ ̂ , (4.34)

̂ ̂( ), (4.35)

̂ ̂ . (4.36)

Analogicznie wyznacza się parametry dla : ̂ , ̂ oraz ̂. Następnie wyznaczone wa-riancje i kowawa-riancje podstawia się do wzoru (4.28) otrzymując estymator ̂.

Dla zmiennych jakościowych szukanym parametrem jest częstość (4.16). Przy założeniu CIA można wyznaczyć [D’Orazio et al. 2006]:

( ) ( ) ( ) ( ), (4.37) . (4.38)

160 Wartości brzegowe tabeli uzyskiwane są z:

∑ ∑

. (4.39)

Niech będą liczebnościami w tabeli uzyskanej ze zbioru , – liczebno-ściami w tabeli uzyskanej ze zbioru . Wykorzystując estymator największej wiary-godności102

[Anderson 1957] otrzymuje się:

̂ , (4.40) ̂ , (4.41) ̂ . (4.42)

Wykorzystanie metod parametrycznych w podejściu makro wymaga ustalenia postaci mode-lu integracji. Pewne problemy mogą się pojawić przy dużej liczbie zmiennych mierzonych na różnych skalach. Ułatwieniem może być wówczas transformacja:

 zamiana zmiennych jakościowych na dychotomiczne i traktowanie ich jak zmien-nych ciągłych;

 kategoryzacja zmiennych ciągłych (problem utraty informacji).

B. Podejście nieparametryczne

Podejście nieparametryczne opiera się na szacowaniu estymatorów jądrowych [D’Orazio et al. 2006]. Zostały one szczegółowo opisane w [Wand, Jones 1995], [Silverman 1986] oraz [Eubank 1988]. Ze względu na jego rzadkie wykorzystywanie, podejście to nie będzie przedmiotem rozważań w niniejszej rozprawie.

Wykorzystanie informacji dodatkowych

W podejściu makro najczęściej stosowane są dwie metody wykorzystujące informację do-datkową:

 metoda Kadane’a,

 podejście Renssena.

W metodzie Kadane’a wykorzystuje się znajomość kowariancji i dostępną z innych źródeł, natomiast w podejściu Renssena wykorzystuje się informacje o łącznym rozkładzie

102

161 cech i oszacowaną z dodatkowego źródła danych . Dodatkowo znane są wagi anali-tyczne wynikające ze schematu losowania jednostek do prób.

Metoda zaproponowana przez Kadane’a [1978] wykorzystuje macierz wariancji i kowariancji zmiennych ( ). Przy pewnych założeniach dotyczących kowariancji (znanej z innych źródeł) oraz wykorzystaniu określonych równań regresji, wyznacza się łączny rozkład ( )103.

Metodą, w której oprócz dodatkowych informacji wykorzystuje się informacje pochodzące ze schematu losowania próby jest podejście kalibracyjne Renssena [1998]. Oparte jest ono na algorytmie kalibracji wag analitycznych wynikających ze schematu losowania, oddzielnie dla i . Algorytm składa się z dwóch faz:

 harmonizacja wag analitycznych w obu zbiorach do liczebności ogólnej ,

 wykorzystanie dodatkowego źródła danych , w którym , i są łącznie obser-wowane w celu oszacowania związku między i .

Wynikiem procedury Renssena jest tabela kontyngencji .

Niech oznacza wagi początkowe, a finalne wagi kalibracyjne. Wagi finalne uzyski-wane są jako rozwiązanie zagadnienia optymalizacji [∑ ( )], gdzie ( ) to miara odległości, z zastrzeżeniem, że ∑ ∑ oraz ∑ .

Pierwsza faza polega na harmonizacji wag w integrowanych zbiorach. Wybiera się podzbiór zmiennych , dla których znane są liczebności w populacji generalnej:

 wagi w zbiorze są kalibrowane w taki sposób, by wagi kalibracyjne ^{( )} speł-niały warunek ∑ ^{( )} , gdzie oznacza wektor wartości globalnych w populacji,

 wagi w zbiorze są kalibrowane w taki sposób, by wagi kalibracyjne ^{( )} speł-niały warunek ∑ ^{( )} .

Jeżeli istnieją jakieś zmienne , dla których liczebności w populacji nie są znane, w kolejnym kroku wyznaczany jest łączny estymator (pooled estimate) 104:

̂ ∑ ^{( )} ( )∑ ^{( )} , (4.43) gdzie . Następnie wagi ^{( )} i ^{( )} są rekalibrowane w taki sposób, że:

103 Szerzej o metodzie piszą Moriarty, Scheuren [2001].

104 Wartość może być wyznaczona w sposób ekspercki. Jeżeli nie istnieją przesłanki do wyznaczenia kon-kretnej wartości, zwykle przyjmuje się, że .

162

 w zbiorze powstają wagi ^{( )} spełniające warunek ∑ ^{( )} oraz ∑ ^{( )} ̂ ,

 w zbiorze powstają wagi ^{( )} spełniające warunek ∑ ^{( )} oraz ∑ ^{( )} ̂ .

Wagi kalibracyjne ^{( )} i ^{( )} mogą zostać użyte do wyznaczenia estymatorów łącznych rozkładów w i . Dla zmiennych jakościowych, przy CIA, łączny rozkład i może zostać oszacowany za pomocą (4.38).

Posiadając informacje pomocnicze w postaci dodatkowego zbioru , w którym , i są łącznie obserwowane istnieją dwa alternatywne sposoby oszacowania łącznego rozkładu i :

 niekompletna dwukierunkowa stratyfikacja (incomplete two-way stratification),

 syntetyczna dwukierunkowa stratyfikacja (synthetic two-way stratification).

Niekompletna dwukierunkowa stratyfikacja jest prostszą procedurą. Polega ona na kalibracji wag w zbiorze poprzez ograniczenie ich do liczebności populacji zmiennej ze zbio-ru oraz zmiennej ze zbiozbio-ru .

Druga z procedur wymaga oszacowania łącznego rozkładu i przy założeniu o warunko-wej niezależności, a następnie dokonania korekty przy użyciu wartości resztowych obliczo-nych ze zbioru (pomiędzy liczebnościami empirycznymi i teoretycznymi dla i ). W praktyce zdarzają się sytuacje, w których procedura kalibracji w podejściu Renssena jest nieskuteczna (tzn. algortym nie osiąga zbieżności, pojawiają się ujemne wagi itp.). Ma to miejsce zwłaszcza w przypadku, gdy wektor zawiera zmienne mierzone na różnej skali lub (i) gdy zmienne jakościowe charakteryzują się dużą liczbą wariantów [Szymkowiak 2007]. W takich przypadkach należy grupować warianty cech jakościowych lub (i) katego-ryzować zmiennej ilościowe.

Problem błędu ekologicznego

Wnioskowanie ekologiczne polega na wykorzystywaniu informacji zagregowanych w celu wnioskowania na poziomie jednostkowym [Hudson et al. 2010]. Szacując relację między zmiennymi, w sytuacji braku danych jednostkowych, wnioskujemy na poziomie indywidu-alnym, na podstawie informacji danych w postaci tabeli kontyngencji. Podstawowym pro-blemem jest fakt, że wiele różnych zależności na poziomie indywidualnych osób nie można opisać poprzez wielkości uzyskane w wyniku agregacji np. na poziomie województw (np.

163 podczas uśredniania cech dla danej domeny). Może to prowadzić do błędów we wniosko-waniu. Błąd taki określa się mianem ekologicznego. W parowaniu statystycznym jest on ściśle związany z zagadnieniem niepewności [D’Orazio 2006]. Problem błędu ekologiczne-go wymaga szczególnie skrupulatneekologiczne-go rozważenia ponieważ jest związany z szacowaniem postaci łącznego rozkładu cech i przy znajomości wyłącznie rozkładów brzegowych. Wśród metod wnioskowania ekologicznego w literaturze wymienia się, między innymi, re-gresję ekologiczną [Goodman 1953, Chambers, Steel 2001]. Istotę i znaczenie wnioskowa-nia ekologicznego dobrze ilustruje poniższy przykład zaczerpnięty z pracy Di Zio [2012]. Rozważania dotyczyły szacowania współzależności między płcią a skłonnością do głosowa-nia na podstawie zagregowanych informacji zawartych w tabeli kontyngencji (por. tab.4.4). Celem było określenie relacji dla każdego i-tego okręgu, np. poprzez oszacowanie frakcji głosujących kobiet k oraz frakcji głosujących mężczyznm dla całej populacji.

Tabela 4.4. Skłonność do głosowania w ujęciu płci dla i-tego okręgu wyborczego

Płeć głosującego ^{Skłonność do głosowania}

Głosował(a) Nie głosował(a) Ogółem

Kobieta Mężczyzna Ogółem 1 Uwaga: – odsetek kobiet, – odsetek głosujących,

– odsetek głosujących kobiet,

– odsetek głosujących mężczyzn.

Źródło: na podstawie [Di Zio 2012]

Niech zmienna będzie 41 wariantową cechą zawierającą informacje o okręgach wybor-czych, dychotomiczną zmienną określającą płeć osoby, a dychotomiczną zmienną okre-ślającą, czy wyborca głosował, czy też nie. Zamiast szacowania łącznego rozkładu ( ) przy danym , w tym przypadku ma miejsce oszacowanie warunkowego rozkładu przy danym ( ).

Regresja ekologiczna służy do wnioskowania o współzależności w sytuacji posiadania jedy-nie częściowej informacji. Model regresji ekologicznej Goodmana105

[1953] wykorzystuje wszystkie dostępne informacje w taki sposób, że:

( ) (4.44)

164 Płaszczyznę regresji (4.44) nazywa się linią tomograficzną. W modelu zakłada się, że

oraz , a więc, że skłonność do głosowania jest taka sama we wszystkich okręgach. Jest to więc założenie analogiczne do założenia o warunkowej niezależności. Chambers i Steel [2001] zaproponowali rozwinięcie modelu poprzez utworzenie wszystkich możliwych modeli wykorzystujących dostępne dane, np.:

W dokumencie Statystyczna integracja danych w badaniach społeczno-ekonomicznych (Stron 157-164)