4.4. Parowanie statystyczne
4.4.2. Podejście makro
W podejściu makro wnioskuje o łącznym rozkładzie cech i nie konstruując syntetycz-nego zbioru danych jednostkowych. Przy założeniu, że zmienne dołączane mają charakter ciągły (oraz rozkład normalny) szacowanymi parametrami są wektor wartości oczekiwanych oraz macierz wariancji i kowariancji .
Założenie o warunkowej niezależności A. Podejście parametryczne
Założenie o warunkowej niezależności stosuje się w przypadku braku jakiejkolwiek dodat-kowej informacji o szacowanych parametrach łącznego rozkładu zmiennych i . Załóżmy, że zbiory i B są próbami wylosowanymi niezależne i o jednakowym rozkładzie (i.i.d.) liczącymi odpowiednio i obserwacji. Rozkład łączny zmiennych ( , , ) jest roz-kładem normalnym o parametrach:
( ) oraz (
).
Dla zmiennych ciągłych estymowanym parametrami są: ( ) [( ) (
)] (4.15)
W przypadku zmiennych jakościowych, zbiór zawiera zmienne [ ] oraz [ ]. Zbiór zawiera zmienne [ ] oraz [ ], gdzie , , to warianty zmiennych, odpowiednio, , i . Szacowanym parametrem jest wówczas:
( ), (4.16)
158 Uogólniając powyższe rozważania, łączny rozkład ( , , ) można zapisać wzorem:
( ) ( ) ( ) ( ). (4.17)
Parametry oraz mogą zostać oszacowane na podstawie informacji zarówno ze zbioru , zbioru , jak i zbioru . Parametry oraz mogą zostać oszacowane na podsta-wie informacji ze zbioru , natomiast parametry oraz na podstawie informacji ze zbioru . Na podstawie informacji z integrowanych zbiorów A i B nie można oszacować parametru . Przy założeniu o warunkowej niezależności (CIA) między zmiennymi i przy danym zachodzi równość:
. (4.18)
Oznacza to również, że współczynnik korelacji:
(4.19)
przy czym .
Szacunek wartości powyższych parametrów przeprowadzić można wykorzystując wszystkie informacje pochodzące z próby [Kadane 1978, Moriarity i Scheuren 2001]:
dla parametrów ̂ ̅ ̅ ̅ , (4.20) ̂ ( ) ( ) , (4.21) dla parametrów ̂ ̅ ∑ , (4.22) ̂ ∑ ( ̅ ) , (4.23) dla parametrów ̂ ̅ ∑ , (4.24) ̂ ∑ ( ̅ ) , (4.25)
kowariancja (szacowana na podstawie informacji ze zbioru ) ̂ ∑ ( ̅ )( ̅ )
, (4.26)
kowariancja (szacowana na podstawie informacji ze zbioru ) ̂ ∑ ( ̅ )( ̅ )
159 Zatem, przy założeniu o warunkowej niezależności, kowariancję można wyzna-czyć z następującej równości:
̂
. (4.28)
W efekcie szacowana macierz wariancji i kowariancji będzie miała postać:
̂ [
̂
̂
]. (4.29)
W świetle CIA powyższy sposób rozumowania jest dobry, jednak może prowadzić do pew-nych problemów przy szacowaniu współczynnika regresji , ponieważ podmacierz ̂ [ ̂
̂ ] (4.30)
może nie okazać się dodatnio półokreślona.
Anderson [1984] zaproponował procedurę, opartą o estymator największej wiarygodności (maximum likelihood, ML), prowadzącą do prawidłowego, w sensie zachowania dodatniej półokreśloności, oszacowania macierzy ̂. W pierwszym kroku algorytmu szacuje się war-tość oczekiwaną ̂ ̅ oraz wariancję ̂ . Parametry wykorzystujące infor-macje z szacuje się na podstawie równania regresji:
(4.31)
gdzie: ̂
, (4.32)
̅ ̂ ̅ . (4.33)
Wynika z tego, że:
̂ ̂ ̂ ̂ , (4.34)
̂ ̂ ( ), (4.35)
̂ ̂ . (4.36)
Analogicznie wyznacza się parametry dla : ̂ , ̂ oraz ̂ . Następnie wyznaczone wa-riancje i kowawa-riancje podstawia się do wzoru (4.28) otrzymując estymator ̂ .
Dla zmiennych jakościowych szukanym parametrem jest częstość (4.16). Przy założeniu CIA można wyznaczyć [D’Orazio et al. 2006]:
( ) ( ) ( ) ( ), (4.37) . (4.38)
160 Wartości brzegowe tabeli uzyskiwane są z:
∑ ∑
. (4.39)
Niech będą liczebnościami w tabeli uzyskanej ze zbioru , – liczebno-ściami w tabeli uzyskanej ze zbioru . Wykorzystując estymator największej wiary-godności102
[Anderson 1957] otrzymuje się:
̂ , (4.40) ̂ , (4.41) ̂ . (4.42)
Wykorzystanie metod parametrycznych w podejściu makro wymaga ustalenia postaci mode-lu integracji. Pewne problemy mogą się pojawić przy dużej liczbie zmiennych mierzonych na różnych skalach. Ułatwieniem może być wówczas transformacja:
zamiana zmiennych jakościowych na dychotomiczne i traktowanie ich jak zmien-nych ciągłych;
kategoryzacja zmiennych ciągłych (problem utraty informacji).
B. Podejście nieparametryczne
Podejście nieparametryczne opiera się na szacowaniu estymatorów jądrowych [D’Orazio et al. 2006]. Zostały one szczegółowo opisane w [Wand, Jones 1995], [Silverman 1986] oraz [Eubank 1988]. Ze względu na jego rzadkie wykorzystywanie, podejście to nie będzie przedmiotem rozważań w niniejszej rozprawie.
Wykorzystanie informacji dodatkowych
W podejściu makro najczęściej stosowane są dwie metody wykorzystujące informację do-datkową:
metoda Kadane’a,
podejście Renssena.
W metodzie Kadane’a wykorzystuje się znajomość kowariancji i dostępną z innych źródeł, natomiast w podejściu Renssena wykorzystuje się informacje o łącznym rozkładzie
102
161 cech i oszacowaną z dodatkowego źródła danych . Dodatkowo znane są wagi anali-tyczne wynikające ze schematu losowania jednostek do prób.
Metoda zaproponowana przez Kadane’a [1978] wykorzystuje macierz wariancji i kowariancji zmiennych ( ). Przy pewnych założeniach dotyczących kowariancji (znanej z innych źródeł) oraz wykorzystaniu określonych równań regresji, wyznacza się łączny rozkład ( )103.
Metodą, w której oprócz dodatkowych informacji wykorzystuje się informacje pochodzące ze schematu losowania próby jest podejście kalibracyjne Renssena [1998]. Oparte jest ono na algorytmie kalibracji wag analitycznych wynikających ze schematu losowania, oddzielnie dla i . Algorytm składa się z dwóch faz:
harmonizacja wag analitycznych w obu zbiorach do liczebności ogólnej ,
wykorzystanie dodatkowego źródła danych , w którym , i są łącznie obser-wowane w celu oszacowania związku między i .
Wynikiem procedury Renssena jest tabela kontyngencji .
Niech oznacza wagi początkowe, a finalne wagi kalibracyjne. Wagi finalne uzyski-wane są jako rozwiązanie zagadnienia optymalizacji [∑ ( )], gdzie ( ) to miara odległości, z zastrzeżeniem, że ∑ ∑ oraz ∑ .
Pierwsza faza polega na harmonizacji wag w integrowanych zbiorach. Wybiera się podzbiór zmiennych , dla których znane są liczebności w populacji generalnej:
wagi w zbiorze są kalibrowane w taki sposób, by wagi kalibracyjne ( ) speł-niały warunek ∑ ( ) , gdzie oznacza wektor wartości globalnych w populacji,
wagi w zbiorze są kalibrowane w taki sposób, by wagi kalibracyjne ( ) speł-niały warunek ∑ ( ) .
Jeżeli istnieją jakieś zmienne , dla których liczebności w populacji nie są znane, w kolejnym kroku wyznaczany jest łączny estymator (pooled estimate) 104:
̂ ∑ ( ) ( )∑ ( ) , (4.43) gdzie . Następnie wagi ( ) i ( ) są rekalibrowane w taki sposób, że:
103 Szerzej o metodzie piszą Moriarty, Scheuren [2001].
104 Wartość może być wyznaczona w sposób ekspercki. Jeżeli nie istnieją przesłanki do wyznaczenia kon-kretnej wartości, zwykle przyjmuje się, że .
162
w zbiorze powstają wagi ( ) spełniające warunek ∑ ( ) oraz ∑ ( ) ̂ ,
w zbiorze powstają wagi ( ) spełniające warunek ∑ ( ) oraz ∑ ( ) ̂ .
Wagi kalibracyjne ( ) i ( ) mogą zostać użyte do wyznaczenia estymatorów łącznych rozkładów w i . Dla zmiennych jakościowych, przy CIA, łączny rozkład i może zostać oszacowany za pomocą (4.38).
Posiadając informacje pomocnicze w postaci dodatkowego zbioru , w którym , i są łącznie obserwowane istnieją dwa alternatywne sposoby oszacowania łącznego rozkładu i :
niekompletna dwukierunkowa stratyfikacja (incomplete two-way stratification),
syntetyczna dwukierunkowa stratyfikacja (synthetic two-way stratification).
Niekompletna dwukierunkowa stratyfikacja jest prostszą procedurą. Polega ona na kalibracji wag w zbiorze poprzez ograniczenie ich do liczebności populacji zmiennej ze zbio-ru oraz zmiennej ze zbiozbio-ru .
Druga z procedur wymaga oszacowania łącznego rozkładu i przy założeniu o warunko-wej niezależności, a następnie dokonania korekty przy użyciu wartości resztowych obliczo-nych ze zbioru (pomiędzy liczebnościami empirycznymi i teoretycznymi dla i ). W praktyce zdarzają się sytuacje, w których procedura kalibracji w podejściu Renssena jest nieskuteczna (tzn. algortym nie osiąga zbieżności, pojawiają się ujemne wagi itp.). Ma to miejsce zwłaszcza w przypadku, gdy wektor zawiera zmienne mierzone na różnej skali lub (i) gdy zmienne jakościowe charakteryzują się dużą liczbą wariantów [Szymkowiak 2007]. W takich przypadkach należy grupować warianty cech jakościowych lub (i) katego-ryzować zmiennej ilościowe.
Problem błędu ekologicznego
Wnioskowanie ekologiczne polega na wykorzystywaniu informacji zagregowanych w celu wnioskowania na poziomie jednostkowym [Hudson et al. 2010]. Szacując relację między zmiennymi, w sytuacji braku danych jednostkowych, wnioskujemy na poziomie indywidu-alnym, na podstawie informacji danych w postaci tabeli kontyngencji. Podstawowym pro-blemem jest fakt, że wiele różnych zależności na poziomie indywidualnych osób nie można opisać poprzez wielkości uzyskane w wyniku agregacji np. na poziomie województw (np.
163 podczas uśredniania cech dla danej domeny). Może to prowadzić do błędów we wniosko-waniu. Błąd taki określa się mianem ekologicznego. W parowaniu statystycznym jest on ściśle związany z zagadnieniem niepewności [D’Orazio 2006]. Problem błędu ekologiczne-go wymaga szczególnie skrupulatneekologiczne-go rozważenia ponieważ jest związany z szacowaniem postaci łącznego rozkładu cech i przy znajomości wyłącznie rozkładów brzegowych. Wśród metod wnioskowania ekologicznego w literaturze wymienia się, między innymi, re-gresję ekologiczną [Goodman 1953, Chambers, Steel 2001]. Istotę i znaczenie wnioskowa-nia ekologicznego dobrze ilustruje poniższy przykład zaczerpnięty z pracy Di Zio [2012]. Rozważania dotyczyły szacowania współzależności między płcią a skłonnością do głosowa-nia na podstawie zagregowanych informacji zawartych w tabeli kontyngencji (por. tab.4.4). Celem było określenie relacji dla każdego i-tego okręgu, np. poprzez oszacowanie frakcji głosujących kobiet k oraz frakcji głosujących mężczyznm dla całej populacji.
Tabela 4.4. Skłonność do głosowania w ujęciu płci dla i-tego okręgu wyborczego
Płeć głosującego Skłonność do głosowania
Głosował(a) Nie głosował(a) Ogółem
Kobieta Mężczyzna Ogółem 1 Uwaga: – odsetek kobiet, – odsetek głosujących,
– odsetek głosujących kobiet,
– odsetek głosujących mężczyzn.
Źródło: na podstawie [Di Zio 2012]
Niech zmienna będzie 41 wariantową cechą zawierającą informacje o okręgach wybor-czych, dychotomiczną zmienną określającą płeć osoby, a dychotomiczną zmienną okre-ślającą, czy wyborca głosował, czy też nie. Zamiast szacowania łącznego rozkładu ( ) przy danym , w tym przypadku ma miejsce oszacowanie warunkowego rozkładu przy danym ( ).
Regresja ekologiczna służy do wnioskowania o współzależności w sytuacji posiadania jedy-nie częściowej informacji. Model regresji ekologicznej Goodmana105
[1953] wykorzystuje wszystkie dostępne informacje w taki sposób, że:
( ) (4.44)
164 Płaszczyznę regresji (4.44) nazywa się linią tomograficzną. W modelu zakłada się, że
oraz , a więc, że skłonność do głosowania jest taka sama we wszystkich okręgach. Jest to więc założenie analogiczne do założenia o warunkowej niezależności. Chambers i Steel [2001] zaproponowali rozwinięcie modelu poprzez utworzenie wszystkich możliwych modeli wykorzystujących dostępne dane, np.: