• Nie Znaleziono Wyników

4.4. Parowanie statystyczne

4.4.2. Podejście makro

W podejściu makro wnioskuje o łącznym rozkładzie cech i nie konstruując syntetycz-nego zbioru danych jednostkowych. Przy założeniu, że zmienne dołączane mają charakter ciągły (oraz rozkład normalny) szacowanymi parametrami są wektor wartości oczekiwanych oraz macierz wariancji i kowariancji .

Założenie o warunkowej niezależności A. Podejście parametryczne

Założenie o warunkowej niezależności stosuje się w przypadku braku jakiejkolwiek dodat-kowej informacji o szacowanych parametrach łącznego rozkładu zmiennych i . Załóżmy, że zbiory i B są próbami wylosowanymi niezależne i o jednakowym rozkładzie (i.i.d.) liczącymi odpowiednio i obserwacji. Rozkład łączny zmiennych ( , , ) jest roz-kładem normalnym o parametrach:

( ) oraz (

).

Dla zmiennych ciągłych estymowanym parametrami są: ( ) [( ) (

)] (4.15)

W przypadku zmiennych jakościowych, zbiór zawiera zmienne [ ] oraz [ ]. Zbiór zawiera zmienne [ ] oraz [ ], gdzie , , to warianty zmiennych, odpowiednio, , i . Szacowanym parametrem jest wówczas:

( ), (4.16)

158 Uogólniając powyższe rozważania, łączny rozkład ( , , ) można zapisać wzorem:

( ) ( ) ( ) ( ). (4.17)

Parametry oraz mogą zostać oszacowane na podstawie informacji zarówno ze zbioru , zbioru , jak i zbioru . Parametry oraz mogą zostać oszacowane na podsta-wie informacji ze zbioru , natomiast parametry oraz na podstawie informacji ze zbioru . Na podstawie informacji z integrowanych zbiorów A i B nie można oszacować parametru . Przy założeniu o warunkowej niezależności (CIA) między zmiennymi i przy danym zachodzi równość:

. (4.18)

Oznacza to również, że współczynnik korelacji:

(4.19)

przy czym .

Szacunek wartości powyższych parametrów przeprowadzić można wykorzystując wszystkie informacje pochodzące z próby [Kadane 1978, Moriarity i Scheuren 2001]:

 dla parametrów ̂ ̅ ̅ ̅ , (4.20) ̂ ( ) ( ) , (4.21)  dla parametrów ̂ ̅ , (4.22) ̂ ( ̅ ) , (4.23)  dla parametrów ̂ ̅ , (4.24) ̂ ( ̅ ) , (4.25)

 kowariancja (szacowana na podstawie informacji ze zbioru ) ̂ ( ̅ )( ̅ )

, (4.26)

 kowariancja (szacowana na podstawie informacji ze zbioru ) ̂ ( ̅ )( ̅ )

159 Zatem, przy założeniu o warunkowej niezależności, kowariancję można wyzna-czyć z następującej równości:

̂

. (4.28)

W efekcie szacowana macierz wariancji i kowariancji będzie miała postać:

̂ [

̂

̂

]. (4.29)

W świetle CIA powyższy sposób rozumowania jest dobry, jednak może prowadzić do pew-nych problemów przy szacowaniu współczynnika regresji , ponieważ podmacierz ̂ [ ̂

̂ ] (4.30)

może nie okazać się dodatnio półokreślona.

Anderson [1984] zaproponował procedurę, opartą o estymator największej wiarygodności (maximum likelihood, ML), prowadzącą do prawidłowego, w sensie zachowania dodatniej półokreśloności, oszacowania macierzy ̂. W pierwszym kroku algorytmu szacuje się war-tość oczekiwaną ̂ ̅ oraz wariancję ̂ . Parametry wykorzystujące infor-macje z szacuje się na podstawie równania regresji:

(4.31)

gdzie: ̂

, (4.32)

̅ ̂ ̅ . (4.33)

Wynika z tego, że:

̂ ̂ ̂ ̂ , (4.34)

̂ ̂ ( ), (4.35)

̂ ̂ . (4.36)

Analogicznie wyznacza się parametry dla : ̂ , ̂ oraz ̂ . Następnie wyznaczone wa-riancje i kowawa-riancje podstawia się do wzoru (4.28) otrzymując estymator ̂ .

Dla zmiennych jakościowych szukanym parametrem jest częstość (4.16). Przy założeniu CIA można wyznaczyć [D’Orazio et al. 2006]:

( ) ( ) ( ) ( ), (4.37) . (4.38)

160 Wartości brzegowe tabeli uzyskiwane są z:

. (4.39)

Niech będą liczebnościami w tabeli uzyskanej ze zbioru , – liczebno-ściami w tabeli uzyskanej ze zbioru . Wykorzystując estymator największej wiary-godności102

[Anderson 1957] otrzymuje się:

̂ , (4.40) ̂ , (4.41) ̂ . (4.42)

Wykorzystanie metod parametrycznych w podejściu makro wymaga ustalenia postaci mode-lu integracji. Pewne problemy mogą się pojawić przy dużej liczbie zmiennych mierzonych na różnych skalach. Ułatwieniem może być wówczas transformacja:

 zamiana zmiennych jakościowych na dychotomiczne i traktowanie ich jak zmien-nych ciągłych;

 kategoryzacja zmiennych ciągłych (problem utraty informacji).

B. Podejście nieparametryczne

Podejście nieparametryczne opiera się na szacowaniu estymatorów jądrowych [D’Orazio et al. 2006]. Zostały one szczegółowo opisane w [Wand, Jones 1995], [Silverman 1986] oraz [Eubank 1988]. Ze względu na jego rzadkie wykorzystywanie, podejście to nie będzie przedmiotem rozważań w niniejszej rozprawie.

Wykorzystanie informacji dodatkowych

W podejściu makro najczęściej stosowane są dwie metody wykorzystujące informację do-datkową:

 metoda Kadane’a,

 podejście Renssena.

W metodzie Kadane’a wykorzystuje się znajomość kowariancji i dostępną z innych źródeł, natomiast w podejściu Renssena wykorzystuje się informacje o łącznym rozkładzie

102

161 cech i oszacowaną z dodatkowego źródła danych . Dodatkowo znane są wagi anali-tyczne wynikające ze schematu losowania jednostek do prób.

Metoda zaproponowana przez Kadane’a [1978] wykorzystuje macierz wariancji i kowariancji zmiennych ( ). Przy pewnych założeniach dotyczących kowariancji (znanej z innych źródeł) oraz wykorzystaniu określonych równań regresji, wyznacza się łączny rozkład ( )103.

Metodą, w której oprócz dodatkowych informacji wykorzystuje się informacje pochodzące ze schematu losowania próby jest podejście kalibracyjne Renssena [1998]. Oparte jest ono na algorytmie kalibracji wag analitycznych wynikających ze schematu losowania, oddzielnie dla i . Algorytm składa się z dwóch faz:

 harmonizacja wag analitycznych w obu zbiorach do liczebności ogólnej ,

 wykorzystanie dodatkowego źródła danych , w którym , i są łącznie obser-wowane w celu oszacowania związku między i .

Wynikiem procedury Renssena jest tabela kontyngencji .

Niech oznacza wagi początkowe, a finalne wagi kalibracyjne. Wagi finalne uzyski-wane są jako rozwiązanie zagadnienia optymalizacji [∑ ( )], gdzie ( ) to miara odległości, z zastrzeżeniem, że ∑ oraz ∑ .

Pierwsza faza polega na harmonizacji wag w integrowanych zbiorach. Wybiera się podzbiór zmiennych , dla których znane są liczebności w populacji generalnej:

 wagi w zbiorze są kalibrowane w taki sposób, by wagi kalibracyjne ( ) speł-niały warunek ∑ ( ) , gdzie oznacza wektor wartości globalnych w populacji,

 wagi w zbiorze są kalibrowane w taki sposób, by wagi kalibracyjne ( ) speł-niały warunek ∑ ( ) .

Jeżeli istnieją jakieś zmienne , dla których liczebności w populacji nie są znane, w kolejnym kroku wyznaczany jest łączny estymator (pooled estimate) 104:

̂ ∑ ( ) ( )∑ ( ) , (4.43) gdzie . Następnie wagi ( ) i ( ) są rekalibrowane w taki sposób, że:

103 Szerzej o metodzie piszą Moriarty, Scheuren [2001].

104 Wartość może być wyznaczona w sposób ekspercki. Jeżeli nie istnieją przesłanki do wyznaczenia kon-kretnej wartości, zwykle przyjmuje się, że .

162

 w zbiorze powstają wagi ( ) spełniające warunek ∑ ( ) oraz ∑ ( ) ̂ ,

 w zbiorze powstają wagi ( ) spełniające warunek ∑ ( ) oraz ∑ ( ) ̂ .

Wagi kalibracyjne ( ) i ( ) mogą zostać użyte do wyznaczenia estymatorów łącznych rozkładów w i . Dla zmiennych jakościowych, przy CIA, łączny rozkład i może zostać oszacowany za pomocą (4.38).

Posiadając informacje pomocnicze w postaci dodatkowego zbioru , w którym , i są łącznie obserwowane istnieją dwa alternatywne sposoby oszacowania łącznego rozkładu i :

niekompletna dwukierunkowa stratyfikacja (incomplete two-way stratification),

syntetyczna dwukierunkowa stratyfikacja (synthetic two-way stratification).

Niekompletna dwukierunkowa stratyfikacja jest prostszą procedurą. Polega ona na kalibracji wag w zbiorze poprzez ograniczenie ich do liczebności populacji zmiennej ze zbio-ru oraz zmiennej ze zbiozbio-ru .

Druga z procedur wymaga oszacowania łącznego rozkładu i przy założeniu o warunko-wej niezależności, a następnie dokonania korekty przy użyciu wartości resztowych obliczo-nych ze zbioru (pomiędzy liczebnościami empirycznymi i teoretycznymi dla i ). W praktyce zdarzają się sytuacje, w których procedura kalibracji w podejściu Renssena jest nieskuteczna (tzn. algortym nie osiąga zbieżności, pojawiają się ujemne wagi itp.). Ma to miejsce zwłaszcza w przypadku, gdy wektor zawiera zmienne mierzone na różnej skali lub (i) gdy zmienne jakościowe charakteryzują się dużą liczbą wariantów [Szymkowiak 2007]. W takich przypadkach należy grupować warianty cech jakościowych lub (i) katego-ryzować zmiennej ilościowe.

Problem błędu ekologicznego

Wnioskowanie ekologiczne polega na wykorzystywaniu informacji zagregowanych w celu wnioskowania na poziomie jednostkowym [Hudson et al. 2010]. Szacując relację między zmiennymi, w sytuacji braku danych jednostkowych, wnioskujemy na poziomie indywidu-alnym, na podstawie informacji danych w postaci tabeli kontyngencji. Podstawowym pro-blemem jest fakt, że wiele różnych zależności na poziomie indywidualnych osób nie można opisać poprzez wielkości uzyskane w wyniku agregacji np. na poziomie województw (np.

163 podczas uśredniania cech dla danej domeny). Może to prowadzić do błędów we wniosko-waniu. Błąd taki określa się mianem ekologicznego. W parowaniu statystycznym jest on ściśle związany z zagadnieniem niepewności [D’Orazio 2006]. Problem błędu ekologiczne-go wymaga szczególnie skrupulatneekologiczne-go rozważenia ponieważ jest związany z szacowaniem postaci łącznego rozkładu cech i przy znajomości wyłącznie rozkładów brzegowych. Wśród metod wnioskowania ekologicznego w literaturze wymienia się, między innymi, re-gresję ekologiczną [Goodman 1953, Chambers, Steel 2001]. Istotę i znaczenie wnioskowa-nia ekologicznego dobrze ilustruje poniższy przykład zaczerpnięty z pracy Di Zio [2012]. Rozważania dotyczyły szacowania współzależności między płcią a skłonnością do głosowa-nia na podstawie zagregowanych informacji zawartych w tabeli kontyngencji (por. tab.4.4). Celem było określenie relacji dla każdego i-tego okręgu, np. poprzez oszacowanie frakcji głosujących kobiet k oraz frakcji głosujących mężczyznm dla całej populacji.

Tabela 4.4. Skłonność do głosowania w ujęciu płci dla i-tego okręgu wyborczego

Płeć głosującego Skłonność do głosowania

Głosował(a) Nie głosował(a) Ogółem

Kobieta Mężczyzna Ogółem 1 Uwaga: – odsetek kobiet, – odsetek głosujących,

– odsetek głosujących kobiet,

– odsetek głosujących mężczyzn.

Źródło: na podstawie [Di Zio 2012]

Niech zmienna będzie 41 wariantową cechą zawierającą informacje o okręgach wybor-czych, dychotomiczną zmienną określającą płeć osoby, a dychotomiczną zmienną okre-ślającą, czy wyborca głosował, czy też nie. Zamiast szacowania łącznego rozkładu ( ) przy danym , w tym przypadku ma miejsce oszacowanie warunkowego rozkładu przy danym ( ).

Regresja ekologiczna służy do wnioskowania o współzależności w sytuacji posiadania jedy-nie częściowej informacji. Model regresji ekologicznej Goodmana105

[1953] wykorzystuje wszystkie dostępne informacje w taki sposób, że:

( ) (4.44)

164 Płaszczyznę regresji (4.44) nazywa się linią tomograficzną. W modelu zakłada się, że

oraz , a więc, że skłonność do głosowania jest taka sama we wszystkich okręgach. Jest to więc założenie analogiczne do założenia o warunkowej niezależności. Chambers i Steel [2001] zaproponowali rozwinięcie modelu poprzez utworzenie wszystkich możliwych modeli wykorzystujących dostępne dane, np.: