• Nie Znaleziono Wyników

Harmonizacja źródeł danych przed integracją

Harmonizacja jest pierwszym, bardzo ważnym, etapem integracji danych, bez względu na stosowaną metodę. Umożliwia ona m.in. porównanie rozkładów zmiennych z różnych źró-deł oraz późniejszą ocenę rezultatów integracji. Harmonizacja jest procesem i pracochłonnym, jednak niezbędnym. Według van der Laana [2000] wyróżnić można 8 następujących etapów (por. również [Scanu 2008]):

1. harmonizacja definicji jednostek; 2. harmonizacja okresów referencyjnych; 3. badanie kompletności populacji; 4. harmonizacja zmiennych; 5. harmonizacja wariantów cech; 6. korekta błędów pomiaru;

128 7. korekta związana z brakami danych (imputacja);

8. tworzenie zmiennych pochodnych.

W celu dokonania pewnego uproszczenia można podzielić powyższe etapy w trzy grupy: zgodność populacji i jednostek (1, 2, 3), harmonizację zmiennych (4, 5, 8) oraz inne aspekty operacyjne oraz związana z nimi operacja blokowania (6, 7). Powyższe etapy harmonizacji danych można odnieść zarówno do probabilistycznego łączenia rekordów, jak i parowania statystycznego. Przeprowadzając je należy jednak pamiętać o odmienności problemów roz-wiązaniu których służą poszczególne metody. W poprzedniej sekcji wspomnia-no o różnicach w zastosowaniu obu nurtów metodologicznych:

 probabilistyczne łączenie rekordów stosuje się w przypadkach, gdy celem badania jest identyfikacja rekordów (w dwóch zbiorach) należących do tej samej jednostki;

 celem parowania statystycznego jest łączna analiza (przynajmniej) dwóch zmien-nych, które nie są łącznie obserwowane w jednym zbiorze danych; dokonuje się tego poprzez zbadanie dwóch różnych zbiorów danych, gdzie jedna z analizowanych zmiennych znajduje się w pierwszym zbiorze, a druga w drugim.

Harmonizacja zmiennych wspólnych w integrowanych zbiorach, populacji i definicji jedno-stek jest niezwykle ważnym etapem integracji. Źle przeprowadzona harmonizacja lub zupeł-ne pominięcie tego etapu może skutkować nieakceptowalną jakością zintegrowanych zbio-rów [Gill 2001].

Zgodność populacji i jednostek

Integracja dwóch źródeł danych jest uzasadniona gdy:

 okresy referencyjne obu integrowanych zbiorów są takie same;

 zbory odnoszą się do dwóch takich samych lub różnych, lecz częściowo pokrywają-cych się populacji.

W pierwszym przypadku zastosować można zarówno metodę probabilistycznego łączenia rekordów, jak i parowania statystycznego, w zależności od charakteru integrowanych źródeł. Drugi przypadek występuje znacznie częściej i wymaga decyzji dotyczące techniki integra-cji. Za pomocą metody probabilistycznego łączenia rekordów można podjąć próbę wykrycia rekordów należących do tej samej jednostki, a dla pozostałych rekordów dokonać integracji metodą parowania statystycznego. Nie są to jednak procesy automatyczne. W pierwszej ko-lejności w integrowanych zbiorach, oznaczonych jako , należy wyodrębnić zbiory oraz , których zawartość odnosi się do wspólnej części populacji. Należy zweryfikować,

129 czy uzyskane w ten sposób podpróbki są reprezentatywne dla badanej zbiorowości. Jeżeli weryfikacja przebiegnie pomyślnie, zastosowanie metody parowania statystycznego na zbio-rach może być zasadne. Alternatywnym podejściem do zastosowania techniki pa-rowania statystycznego na zbiorach jest przyjęcie założenia, że te dwie badane popula-cje są próbą losową pochodzącą z tego samego procesu generowania danych. Innymi słowy można przyjąć, że dwa zbiory jednostek, które nie mają żadnego „połączenia” nie zmienią rozkładu analizowanych zmiennych. W takim przypadku nie ma potrzeby redukcji zbiorów do podzbiorów [Scanu 2008].

Typowym przypadkiem braku homogeniczności integrowanych zbiorów jest ich prze- su-nięcie w czasie. Jeżeli część rekordów należy do tej samej jednostki (w dwóch różnych okresach czasowych), można rozważyć zastosowanie probabilistycznego łączenia rekor-dów w celu utworzenie, na przykład, badania panelowego.

Gdy dwa zbiory odnoszą się do dwóch różnych (rozłącznych) populacji, żadna z metod in-tegracji nie będzie właściwa [Scanu 2008].

Harmonizacja zmiennych

Zmienne występujące w obu zbiorach (tzw. zmienne wspólne), potencjalne zmienne parują-ce86, muszą charakteryzować się pełną homogenicznością. Oznacza to, że zarówno rozkłady, jak i definicje tych zmiennych muszą cechować się wysoką zgodnością. W zbiorach danych pochodzących z różnych źródeł spełnienie obu tych warunków w pełni może okazać się trudne, dlatego przed przystąpieniem do integracji należy przeprowadzić harmonizację zmiennych wspólnych. Najczęściej spotykanymi problemami występującymi na tym etapie są:

 różne definicje zmiennych i występowanie różnych wariantów cech,

 występowanie braków danych,

 różnice w rozkładach.

W przypadku niezgodności definicji i klasyfikacji można wyróżnić trzy rodzaje zmiennych wspólnych:

1. Zmienne, dla których nie ma możliwości przeprowadzenia harmonizacji.

Zmienne takie nie powinny być uznawane za ‘wspólne’, a więc nie powinno się rozważać możliwości zastosowania ich jako zmiennych parujących. Sytuacja taka zdarza się

86

130 kowo często, zwłaszcza, gdy do integracji przeznaczone są zbiory pochodzące z różnych instytucji [Scanu 2008].

2. Zmienne, które można zharmonizować modyfikując ich warianty.

Cechy jakościowe zawierają często wiele wariantów. Ich harmonizacja zwykle odbywa się poprzez agregację w taki sposób, by utworzone warianty pochodne były zgod-ne w odpowiadających sobie zmiennym wspólnym w obu integrowanych zbiorach (np. ka-tegorie „miasto do 10 tys. mieszkańców” i „miasto od 10 tys. do 20 tys. mieszkań-ców” w zmiennej „Klasa miejscowości zamieszkania” można połączyć w nową kategorię „miasto do 20 tys. mieszkańców”).

3. Nowe zmienne wspólne, będące zmiennymi pochodnymi.

W przypadku braku odpowiednich zmiennych wspólnych lub ich niewystarczającej liczby, istnieje możliwość utworzenia nowych zmiennych poprzez przekształcenie innych cech za-wartych w integrowanych zbiorach. Wówczas takie zmienne pochodne, jeżeli spełniają określone kryteria (jakościowe i definicyjne), mogą zostać użyte jako zmienne parujące.

Zmienne wspólne powinny odznaczać się również odpowiednią jakością. Oznacza to m.in., że nie powinny zawierać braków danych. W przypadku, gdy w zmiennych wspólnych wy-stępują całkowite braki danych87, jednostki takie należy usunąć ze zbioru i kontynuować integrację na uzyskanym w ten sposób zbiorze. W sytuacji występowania częściowych bra-ków odpowiedzi w cechach wspólnych, do problemu można podejść dwojako: użyć tylko tych zmiennych, które braków nie zawierają lub rozważyć również użycie zmiennych do-tkniętych problemem braków odpowiedzi. W drugim przypadku należy zastosować metody imputacji w celu zastąpienia braków danych odpowiednimi wartościami [Scanu 2008]. Trzecia kwestia dotyczy zgodności rozkładów zmiennych wspólnych.. Jest to wynikiem założenia, że integrowane zbiory dotyczą tej samej populacji. W sytuacji, gdy rozkłady zmiennych wspólnych bardzo się różnią, może zachodzić podejrzenie, że próby nie zostały wylosowane z tej samej populacji lub ich momenty referencyjne mocno się różnią. Częstszą sytuacją są różnice w rozkładach zmiennych wspólnych, które wynikają ze zmienności pró-by.

Różnice w rozkładach odpowiadających sobie zmiennych wspólnych można zbadać m.in. powszechnie wykorzystywanymi testami statystycznymi:

87

131

 testem równości frakcji (najczęściej wykorzystywanym dla zmiennych jakościowych mierzonych w skali nominalnej),

 testem zgodności (najczęściej wykorzystywanym dla zmiennych jakościowych mierzonych w skali co najmniej porządkowej),

 testem Kołmogorowa - Smirnowa (najczęściej wykorzystywanym dla zmiennych ciągłych).

Testy te są znane i dobrze opisane w literaturze, jednak dla dużych prób88 wykazują one tendencję do odrzucenia hipotezy o równości rozkładów lub frakcji już przy bardzo niewiel-kich różnicach. Większość „klasycznych” testów statystycznych zostało skonstruowanych do weryfikacji hipotez dla prób losowanych schematem prostym. Podczas gdy integrowane zbiory pochodzą często z badań o złożonym schemacie losowania, przez co wyniki testów mogą okazać się niemiarodajne.

M. Scanu [2008] zaproponował ocenę zgodności rozkładów cech wspólnych za pomocą tzw. „podejścia empirycznego”. Jego istotą jest porównanie rozkładów odpowiednich cech meto-dami wizualnymi oraz zastosowanie pewnych prostych miar:

 dla zmiennych ciągłych – porównanie histogramów,

 dla zmiennych jakościowych – porównanie różnic frakcji poszczególnych warian-tów:

- dla „dużych” frakcji – akceptowalne są różnice mniejsze niż 5%; - dla „małych” frakcji – akceptowalne są różnice mniejsze niż 2%,

 dla zmiennych ilościowych oraz jakościowych – obliczenie tzw. „całkowitego zakre-su zmienności” (total variation distance89

):

( ) ∑ | | (4.1)

gdzie: to frakcje poszczególnych, -tych kategorii zmiennych wspól-nych w poszczególwspól-nych zbiorach. oznacza, że rozkłady są „akceptowalnie” zgodne.

 dla zmiennych ilościowych możliwe jest również porównanie parametrów rozkła-dów zmiennych wspólnych, na przykład: ̅ ̅ , , itp.

Gołata [2009] zaproponowała by w procesie harmonizacji stosować dodatkowe kryterium oceny zgodności rozkładów za pomocą współczynników podobieństwa:

88 Integracja danych statystycznych dotyczy zbiorów liczących zazwyczaj co najmniej kilka tysięcy obserwa-cji.

89 Miara ta wywodzi się z teorii prawdopodobieństwa, gdzie służy do szacowania odległości między dwiema zmiennymi losowymi [Janson et al. 2001].

132

( ), (4.2)

( )

( ). (4.3)

Zwykle w badaniach empirycznych , dlatego też kryterium „akceptowalnej” zgodności rozkładów to oraz .

Jeżeli zmienne wspólne w integrowanych zbiorach spełniają poszczególne kryteria podo-bieństwa, mogą być wykorzystane jako zmienne parujące.

Zbiory danych, zwłaszcza pochodzące ze źródeł administracyjnych, zawierają zmien-ne o charakterze tekstowym. Zastosowanie takich cech w analizach statystycznych niesie za sobą wiele problemów. Wszelkiego rodzaju błędy typograficzne (np. „literówki”), a nawet pisownia wielką lub małą literą sprawiają, że wartości odnoszące się do jednego wariantu mogą zostać zaklasyfikowane (w standardowym oprogramowaniu statystycznym, np. SAS, SPSS, R) jako odmienne warianty (np. „Anna” i „anna”, mimo iż oznaczają to samo imię, zostaną potraktowane jako odmienne warianty). W przypadku porównywania wartości po-szczególnych zmiennych w procesie integracji, należy wszystkie wpisy w zmiennych tek-stowych zharmonizować. Manualna harmonizacja wartości zawartych w zmiennych teksto-wych, zwłaszcza w wielkich zbiorach danych, może być czasochłonna i nie eliminuje wszystkich błędów. Zastosowanie automatycznych metod porównujących wartości tekstowe może ten proces przyspieszyć, jednocześnie zachowując jego wyższą niż manualna skutecz-ność. Wśród metod harmonizacji zmiennych tekstowych wymienia się:

 komparatory łańcuchowe,

 edycję danych.

Komparatory łańcuchowe

Komparator to funkcja porównująca wartości tekstowe (zmienne typu string). Jaro [1989] zaproponował komparator służący do korekty takich błędów typograficznych jak wstawienie dodatkowego znaku, usunięcie znaku czy transpozycję (zamianę miejsc) znaków:

(

), (4.4)

gdzie:

- funkcja zgodności dwóch wartości tekstowych , - liczba wspólnych znaków w ,

133 - liczba transpozycji,

– liczba znaków (długość) i-tej wartości tekstowej.

W kolejnych latach zaproponowano szereg poprawek powyższej funkcji:

 Poprawka McLaughlina [1993] – przyporządkowuje wartość 0,3 do każdego podob-nego znaku. Podobne, ale niezgodne znaki mogą się pojawić w wyniku błędów ko-piowania, np.: 1 (jeden) a l (mała litera L) lub V a B (znajdujące się blisko siebie na klawiaturze). Każda zgadzająca się para znaków otrzymuje wartość 1. Znaki zgodne są znajdowane w pierwszej kolejności, a następnie znaki podobne. Liczba wspólnych znaków rośnie o 0,3 dla każdego podobnego znaku.

 Poprawka Winklera [1990] – wprowadza dodatkowe wartości w sytuacji zgodności znaków z początku wyrazu. Przeprowadzone badania empiryczne Pollocka i Zamory (1984) wykazały, że najmniej błędów zawierają pierwsze człony wyrazów, oraz że liczba błędów narasta monotonicznie wraz z przesuwaniem się znaków w prawo. Ppoprawka ta koryguje wartość komparatora tekstowego o stałą, jeżeli pierwsze cztery znaki tekstu są zgodne oraz o wartości odpowiednio niższe, jeżeli zgadzają się pierwsze trzy, dwa lub jeden znak.

 Poprawka Lyncha i Winklera [1994] – zwiększa wartość komparatora tekstowego, jeżeli wyraz składa się z więcej aniżeli 6 liter i więcej niż połowa znaków za pierw-szymi czterema się zgadza.

Wariacją komparatora tekstowego jest tzw. metoda bigramów. Polega ona na porównywaniu kolejnych dwuliterowych części wyrazu. Np. ze słowa „bigram” porównuje się następujące pary: „bi”, „ig”, „gr”, „ra”, „am”. Bigram przyjmuje dwie wartości: 0 i 1. Wartością funkcji jest iloraz liczby zgodnych bigramów w odniesieniu do wszystkich badanych.

W tabeli 4.1 zilustrowane zostało porównanie wartości poszczególnych komparatorów tek-stowych (oparte o badania Portera i Winklera [2007]). By wartość bigramu uczynić bardziej porównywalną do innych komparatorów, dokonuje się następującej korekty: jeżeli x jest wartością funkcji bigramu, używa się przekształcenia f(x)=x0,2435

jeżeli x jest większe od 0,8 lub 0 w przeciwnym wypadku [Porter, Winkler 2007]. Jeżeli któryś z porównywanych wy-razów zawiera mniej niż 4 znaki, komparatory Jaro i Winklera przyjmują wartość 0. W każdym przypadku ustalany jest arbitralny próg, powyżej którego dane ciągi znaków uznawane są za takie same, zaś poniżej – za różne.

134 Tabela 4.1. Porównanie komparatorów tekstu

Ciągi znaków Jaro Winkler McLaughlin Lynch Bigram

SHACKLEFORD SHACKELFORD 0,970 0,982 0,982 0,989 0,925 DUNNINGHAM CUNNIGHAM 0,896 0,896 0,896 0,931 0,917 NICHLESON NICHULSON 0,926 0,956 0,969 0,977 0,906 JONES JOHNSON 0,790 0,832 0,860 0,874 0 MASSEY MASSIE 0,889 0,933 0,953 0,953 0,845 ABROMS ABRAMS 0,889 0,922 0,946 0,952 0,906 HARDIN MARTINEZ 0 0 0 0 0 ITMAN SMITH 0 0 0 0 0 JERALDINE GERALDINE 0,926 0,926 0,948 0,966 0,972 MARHTA MARTHA 0,944 0,961 0,961 0,971 0,845 MICHELLE MICHAEL 0,869 0,921 0,938 0,944 0,845 JULIES JULIUS 0,889 0,933 0,953 0,953 0,906 TANYA TONYA 0,867 0,880 0,916 0,933 0,883 DWAYNE DUANE 0,822 0,840 0,873 0,896 0 SEAN SUSAN 0,783 0,805 0,845 0,845 0,800 JON JOHN 0,917 0,933 0,933 0,933 0,847 JON JAN 0 0 0,860 0,860 0 BROOKHAVEN BRROKHAVEN 0,933 0,947 0,947 0,964 0,975 BROOK HALLOW BROOK HLLW 0,944 0,967 0,967 0,977 0,906

DECATUR DECATIR 0,905 0,943 0,960 0,965 0,921 FITZRUREITER FITZENREITER 0,856 0,913 0,923 0,945 0,932 HIGBEE HIGHEE 0,889 0,922 0,922 0,932 0,906 HIGBEE HIGVEE 0,889 0,922 0,946 0,952 0,906 LACURA LOCURA 0,889 0,900 0,930 0,947 0,845 IOWA IONA 0,833 0,867 0,867 0,867 0,906 1ST IST 0 0 0,844 0,844 0,947

Źródło: [Porter, Winkler 2007]

Porter i Winkler [2007] wskazują, że najlepsze rezultaty otrzymuje się zwykle za pomocą komparatora łańcuchowego z poprawką Lyncha i metody bigramów.

Edycja danych

Edycja danych jest procesem wykrywania i poprawy błędnych danych lub takich, co do któ-rych istnieje podejrzenie, że zawierają błędy. Do błędów, które można usunąć w procesie edycji należą m.in.: dane typu tekstowego w zmiennych numerycznych, wartości wykracza-jące poza dopuszczalny przedział (np. „155 lat” zamiast „15 lat”, daty urodze-nia z przyszłości). Najczęściej zamieurodze-nia się takie wartości na systemowe braki danych. Standaryzacja nazw i adresów polega na zastępowaniu różnie zapisanych słów o tym samym znaczeniu jednakowymi, np.: „ul.” na „ulica”. Za pomocą odpowiedniego oprogramowania komputerowego można wyszukiwać podobnie brzmiące nazwy w rekordach zmiennych

135 składających się na klucz połączeniowy, oddzielić fragmenty tekstu takie jak całe nazwy lub adresy w oddzielne słowa używając dowolnego znaku (np. spacji) jako separatora (delimite-ra). Każde słowo poddane takiej obróbce jest następnie porównywane ze słownikiem (tabelą zawierającą zestandaryzowane nazwy), by nadać mu odpowiednią pisownię. Po zakończeniu procesu standaryzacji, tekst nazwy jest parsowany (poddany działaniu analizatora składnio-wego) na porównywalne komponenty [Winkler 2005]. Schemat 4.1 przedstawia przykłado-we działanie parsera (analizatora składnioprzykłado-wego) następujących zestandaryzowanych nazw: 1.DR John J Smith MD

2. Smith DRY FRM 3. Smith & Son ENTP

Schemat 4.1. Przykład nazw poddanych procesowi parsowania

PRE FIRST MID LAST POST1 POST2 BUS1 BUS2

1 DR John J Smith MD

2 Smith DRY FRM

3 Smith Son Entp

Źródło: Winkler [2005]

Zastosowanie analizatora składniowego zwiększa efektywność łączenia rekor-dów, a zestandaryzowane nazwy mogą być od siebie odróżnione nawet jeżeli taka sama lub podobna nazwa odnosi się do różnych obiektów. Zwiększa to prawdopodobieństwo prawi-dłowego połączenia rekordów odnoszących się do tej samej jednostki.

Gdy wartości rekordów zostaną zestandaryzowane, można przystąpić do wykrywa-nia i usuwawykrywa-nia duplikatów. Występują one stosunkowo często w administracyjnych repozy-toriach danych. Zwykle tworzone są przez przypadek, w procesie wypełniania formularzy (więcej niż jednego) lub poprzez wielokrotne wprowadzanie danych do rejestru (jeden for-mularz dwa lub więcej razy). Do wykrywania duplikatów używa się procedury zwanej de-duplikacją. Procedura ta może przyjąć postać podobną do integracji dwóch plików, przy czym w tym przypadku łączy się plik z samym sobą szukając rekordów odnoszących się do tej samej jednostki. Wykrywanie zduplikowanych rekordów może również odbywać się metodą „ręczną” (np. filtrowanie zbioru w celu wykrycia tych samych warto-ści w rekordach). Jednak przy dużej ilowarto-ści danych, zwłaszcza w zbiorach bez zmien-nych o unikalzmien-nych wartościach metoda manualna może zająć dużo czasu, a tzw. „czynnik

136 ludzki” może doprowadzić do powstania kolejnych błędów (np. usunięcia niepowtarzającej się obserwacji, przeoczenia zdublowanych rekordów). Bhattacharya i Getoor [2004] zapro-ponowali metodę iteracyjnej deduplikacji zbioru danych będącą metodą probabilistyczną. Polega ona na obliczaniu funkcji odległości między poszczególnymi obserwacja-mi i traktowaniu za zdublowane te jednostki, obserwacja-między któryobserwacja-mi odległość jest „mała”.

Innym podejściem jest zignorowanie duplikatów, jednak pożądane jest wskazanie ich liczby. Umożliwi to oszacowanie wpływu duplikatów na zintegrowany zbiór.

Blokowanie i inne aspekty operacyjne

Integracja danych wymaga, by każdy rekord z jednej bazy został porównany (pod względem wartości zmiennych parujących) z każdym rekordem z drugiej. Jeżeli jeden z tych zbiorów (lub oba) zawierają informację o bardzo dużej liczbie jednostek, liczba koniecznych porów-nań znacznie wzrasta, a co się z tym wiąże – wzrasta czas potrzebnaydo wykonania algo-rytmu. Dodatkowo, tylko niewielka część rekordów zostanie połączona. Przykładowo, łą-czenie dwóch zbiorów, z których każdy zawiera 1000 rekordów oznacza, że należy spraw-dzić aż milion możliwych połączeń ( ), przy czym połączonych ze sobą może zostać maksymalnie 1000, zaś 999000 będzie niepołączonych.

W celu zredukowania liczby sprawdzanych możliwych połączeń, wybierana jest zmienna (lub zmienne) wspólne, której warianty dzielą zbiory wejściowe na podzbiory. Zmienna taka nazywa się zmienną blokującą (warstwującą, grupującą). Przykładowo dla cechy „płeć” i wyboru wariantu „mężczyzna”, sprawdzamy połączenia jedynie tych rekordów, którym odpowiada właśnie ta wartość cechy. Podejście takie zapewnia ograniczenie liczby sprawdzeń o około połowę. Analogicznie sytuacja wygląda dla innych zmiennych, a nawet całych zestawów zmiennych blokujących. Na przykład zastosowanie zmiennych blokują-cych „płeć” i „miesiąc urodzenia” zmniejsza liczbę połączeń już do około 1/24 pierwotnej liczby [por. Data Integration Manual 2006].Niezmiernie ważna jest decyzja, czy do integra-cji użyć danych niezharmonizowanych (surowych), czy zharmonizowanych. W sytuaintegra-cji, gdy użyte zostaną dane zharmonizowane, zmienne nie są cechami faktycznie obserwowanymi, lecz w pewnym stopniu syntetycznie zrekonstruowanymi. Dane surowe z kolei mogą być obciążone błędami logicznymi. Mogą wystąpić również inne błędy, których nie da się w prosty sposób „naprawić”. Takie mogą prowadzić do różnic w rozkładach zmiennych wspólnych.

Nie ma określonych wytycz6nych, których danych należy użyć w integracji. Zdarza się, że zbiory przeznaczone do łączenia zostają przekazane organom statystyki publicznej już po

137 przeprowadzonym procesie harmonizacji. W takiej sytuacji należy dokładnie przeanalizo-wać poszczególne etapy edycji zbiorów i jeżeli na przykład imputowane wartości stanowią znaczny odsetek, nie należy przeprowadzać integracji [Di Zio 2007].