Ocena jakości integracji przy zastosowaniu parowania statystycznego

4.4. Parowanie statystyczne

4.4.4. Ocena jakości integracji przy zastosowaniu parowania statystycznego

Ocena jakości integracji stanowi najważniejszy punkt analizy i nie jest zadaniem łatwym. Z formalnego punktu widzenia ewaluacja jakości połączenia powinna odbyć się poprzez oszacowanie błędu średniokwadratowego [D’Orazio et al. 2006]:

( ̂) (( ̂ ) ), (4.95)

Równanie (4.95) spełnia tożsamość:

( ̂) ( ̂) ( ( ̂)) , (4.96)

gdzie ( ̂) ( ̂) to obciążenie estymatora.

W przypadku technik parowania statystycznego jakość i precyzja rezultatów zależą od dwóch składowych: jakości zbiorów danych wejściowych i (np. błędów losowych i nie-losowych) oraz dokładności zastosowanej metody integracji. Przy założeniu, że jakość zbio-rów wejściowych jest wysoka (np. dokonana została korekta błędów nielosowych – imputa-cja, kalibracja itp. oraz błąd losowy jest niewielki i kontrolowany), precyzja wyników inte-gracji będzie zależeć głównie od „zdolności” zastosowanej techniki inteinte-gracji do odtwarza-nia prawdziwego, nieznanego łącznego rozkładu cech i ( dla metody makro lub jed-nostkowego zbioru danych mogącego być uznanym za próbę wylosowaną z prawdziwej populacji w przypadku metody mikro). W literaturze zasaniczo wyróżnia się cztery metody oceny jakości integracji określane następująco:

 metoda prosta (simple measures),

 szum integracyjny (matching noise),

 składana baza danych (folded database),

 „ważność” integracji (validity evaluation).

Barr i Turner [1981, 1990] oraz Rodgers [1984] zaproponowali prostą metodę oceny jakości integracji poprzez porównanie różnych charakterystyk rozkładu (np. średnich, odchyleń standardowych itp.) dołączanych cech w zbiorze zintegrowanym i zbiorach wejściowych. Dla nieparametrycznych metod mikro (typu hot deck) zaproponowano również porównanie relacji (np. współzależności) między i , jak również charakterystyk rozkładu w zbiorze zintegrowanym i zbiorze dawcy.

Innym sposobem oceny jakości, użytecznym zwłaszcza dla nieparametrycznych metod mi-kro typu hot deck przy założeniu o warunkowej niezależności jest tzw. szum integracyjny (matching noise, Paas [1985], D’Orazio et al. [2006]). Jest to „odległość” między prawdzi-wym nieznanym łącznym rozkładem przy danym a rozkładem między imputowaną

war-180 tością ̃ przy danym . Jeżeli oba te rozkłady są „podobne”, imputowany zbiór biorcy jest reprezentatywny dla łącznego rozkładu ( ), przy założeniu warunkowej niezależności ( ). Szum integracyjny można zbadać posiadając dodatkowe źródło informacji o prawdziwym łącznym rozkładzie ( ) lub poprzez badania symulacyjne.

W pracy Marella et al. [2008] wykazano, że w metodzie k najbliższych sąsiadów szum inte-gracyjny jest mniejszy niż w innych metodach hot deck i maleje wraz ze wzrostem liczebno-ści próby dawcy.

Paas [1986] zaproponował metodę „składanej bazy danych” (folded database). Należy ona do metod symulacyjnych i polega na losowym podziale jednego z wejściowych zbiorów danych (zwykle bardziej licznego) na trzy podzbiory danych , i w taki sposób, że

każdy z podzbiorów zawiera pewną liczbę zmiennych z wejściowego zbioru. Podzbiory dzielone są na dwie podpróbki i . Następnie z podpróbki usuwany jest blok zmiennych

, a z podpróbki - . Otrzymując w ten sposób sytuację analogiczną do tej w parowa-niu statystycznym, podpróbki integrowane są zgodnie z okreslonym algorytmem. Otrzyma-ne szacunki porównywaOtrzyma-ne są ze zintegrowanym źródłem ( ) lub ( ). Należy jednak założyć, że zmienne , , generowane są w sposób podobny do .

Raessler [2002] zaproponowała metodę oceny „ważności” otrzymanych wyników poprzez weryfikację czterech poziomów poprawności integracji, gdzie poziom pierwszy jest najtrud-niejszy do weryfikacji, a poziom 4 najłatwiejszy:

 Poziom 1: Reprodukcja nieznanych wartości w pliku biorcy – prawdziwe, nie-znane wartości wektora zmiennych Z w pliku biorcy są reprodukowane. Jeżeli w efekcie otrzymujemy prawdziwą wartość, sytuacje taką określa się „trafieniem” (hit - dla każdej jednostki zbioru biorcy). Można obliczyć „współczynnik trafień” (hit ratio).

Poziom ten jest najbardziej wymagający ze wszystkich. Ponieważ reprodukowane wartości są nieznane, współczynnik trafień może zostać obliczony wyłącznie za pomocą badań symu-lacyjnych. W ogólnym rozumieniu, dokładna reprodukcja wartości możliwa jest wtedy i tylko wtedy, gdy zmienne w sposób deterministyczny wyjaśniają zmienność zmiennych . W takim przypadku imputowana wartość jest prawdziwa dla każdego . Zwykle jednak taka sytuacja nie ma miejsca, zwłaszcza, gdy zmienne mają charakter ciągły oraz posiadają wielowymiarową strukturę. W rozkładzie ciągłym prawdopodobieństwo wyloso-wania określonej wartości wynosi zero, więc obliczanie liczby „trafień” jest bezcelowe. W przypadku rozkładu dyskretnego lub gdy zmienne mają charakter jakościowy można

181 obliczyć współczynnik trafień będący stosunkiem liczby prawidłowo imputowanych warto-ści do liczby imputacji ogółem. Należy jednak zwrócić uwagę, że współczynnik ten nie in-formuje, czy łączny rozkład został zachowany.

 Poziom 2: Zachowanie łącznego rozkładu – prawdziwy łączny rozkład zmiennych ( ) jest odzwierciedlony w zintegrowanym zbiorze.

Przy założeniu, że jednostki z obu zbiorów zostały wylosowane niezależnie, sparowany plik może zostać uznany jako próba losowa o łącznym rozkładzie ̃. Najważniejszym celem parowania statystycznego jest wygenerowanie próby, która może zostać uznana jako praw-dziwa próba wylosowana z rozkładu . Umożliwiałoby to przeprowadzanie analiz staty-stycznych na zintegrowanym („sparowanym”) pliku. Jest to możliwe tylko wtedy, gdy zmienne dołączane oraz są warunkowo niezależne przy danym .

 Poziom 3: Struktura korelacji zmiennych jest zachowana w zintegrowanym pliku: ̃ ( ) ( ). Poprawnie odwzorowane również są rozkłady brzego-we: ̃ oraz ̃ .

Czasami analityka interesują bardziej szczegółowe kwestie związane np. z zależnościami analizowanych zmiennych wyrażonymi poprzez macierz korelacji. W takim przypadku zin-tegrowany zbiór musi być rozpatrywany jako zbiór wygenerowany losowo ze sztucznej po-pulacji, która charakteryzuje się, co najmniej, tymi samymi wartościami momentów oraz strukturą korelacji co populacja będąca obiektem badań. Zależność pomiędzy oraz wy-generowana przez proces parowania, może być mierzona jako kowariancja ( ) ( ( )) ( ( ) ( )), a ̃ ( ) ( ( ) ( )), jednak tylko ( ) i ( ) mogą być otrzymane z integrowanych zbiorów. Z tego wy-nika, że łączna kowariancja ̃ ( ) równa jest prawdziwej kowariancji ( ) wtedy i tylko wtedy, gdy oraz są warunkowo nieskorelowane przy danym , np. ( ( )) . Należy również zwrócić uwagę, że zmienne, które są warunkowo nie-zależne są również warunkowo nieskorelowane, jednak nie zawsze występuje zależność odwrotna.

Wszystkie trzy powyższe poziomy mogą być sprawdzone wyłącznie poprzez przeprowadze-nie badań symulacyjnych. Empiryczne przetestowaprzeprowadze-nie ich przeprowadze-nie jest możliwe.

 Poziom 4: Po przeprowadzeniu parowania statystycznego brzegowy i łączny

zbio-182 rze. Wtedy należy się spodziewać, że spełnione zostaną równości ̃ oraz ̃ jeżeli jest imputowane do próby ( ).

Minimalnym wymaganiem dla procedury parowania statystycznego powinno być zachowa-nie rozkładu, który jest już obserwowany w integrowanych plikach. W praktyce rozkłady empiryczne zmiennych wspólnych , jak również zmiennych dołączanych w sparowanym pliku mogą być porównane z ich empirycznymi rozkładami w pliku dawcy w celu spraw-dzenia ich zgodności. Rozkłady empiryczne ̃^̂ oraz ̃̂ nie powinny się różnić od ̂ oraz ̂ dla więcej niż dwóch prób losowych wylosowanych z tej samej populacji. Można rów-nież zastosować do integrowanych plików wagi wynikające ze schematu ich losowania. Zgodność rozkładu zmiennych Z oraz rozkładów łącznych X-Z może zostać w prosty spo-sób obliczona za pomocą np. testu zgodności lub testu Kołmogorowa-Smirnowa. Dla bardzo dużych prób, kiedy nawet niewielkie różnice prowadzą do odrzucenia hipotezy ze-rowej, warto stosować inne miary podobieństwa, np. (4.1), (4.2), (4.3) itp.

Niemieckie Stowarzyszenie Analiz Medialnych¹¹⁹ wystosowało postulaty dotyczące kontroli jakości zintegrowanych repozytoriów [Raessler 2002]:

 najpierw porównywane są empiryczne rozkłady zmiennych wspólnych w pliku dawcy i biorcy w celu ocenyzgodności,

 następnie porównywany jest rozkład empiryczny dołączonych zmiennych w pliku biorcy i dawcy,

 w ostatnim etapie porównuje się łączny rozkład obserwowany w pliku dawcy z rozkładem łącznym ̃ obserwowanym w pliku zintegrowanym.

4.5. Wnioski

Wielość podejść metodologicznych do statystycznej integracji danych wymaga starannej analizy integrowanych zbiorów pod kątem zawartości informacyjnej, pokrycia, definicji populacji i jednostek, a także wykorzystanych skal pomiarowych i rozkładów zmiennych – zarówno jedno-, jak i wielowymiarowych. Na każdym etapie statystycznej integracji danych uwzględnia się jakość danych wejściowych w celu zapewnienia jak najwyższej jakości zbio-ru zintegrowanego.

W następnym rozdziale przedstawione zostanie badanie empiryczne będące koncepcją utwo-rzenia modułu zintegrowanego repozytorium danych społeczno-ekonomicznych.

119

183 stane zostaną wybrane metody integracji. Wyniki posłużą weryfikacji postawionych hipotez badawczych.

Jako literackie podsumowanie metod statystycznej integracji danych, przed przejściem do ich empirycznego zastosowania, można przytoczyć cytat Ivana Fellegi’ego120

(1977): „W sytuacji, gdy badacze społeczni tak chciwie pragną bogatych w informacje zbiorów da-nych, parowanie statystyczne może wydawać się ogromnie atrakcyjną procedurą tworzenia zbiorów zawierających logiczne powiązania zmiennych znajdujących się w oddzielnych źró-dłach […]. Chciałbym najpierw zobaczyć rzetelną ocenę takich łącznych rozkładów zanim zdjąłbym z procedury tabliczkę: „UWAGA! NIEBEZPIECZEŃSTWO!

STOSO-WAĆ Z ZACHOWANIEM OSTROŻNOŚCI!”.

120 Ivan Peter Fellegi (ur. 1935) – kanadyjski statystyk węgierskiego pochodzenia. Razem z Alanem Sunte-rem w 1969 opracował model probabilistycznego łączenia rekordów, który został opublikowany w artykule "A Theory for Record Linkage" [1969].

184

R

OZDZIAŁ

V. K

ONSTRUKCJA ZINTEGROWANEGO REPOZYTORIUM DA-NYCH SPOŁECZDA-NYCH

W dokumencie Statystyczna integracja danych w badaniach społeczno-ekonomicznych (Stron 179-184)