• Nie Znaleziono Wyników

4.3. Probabilistyczne łączenie rekordów

4.3.1. Proces łączenia

Źródło: na podstawie [Data Integration Manual 2006]

4.3.1. Proces łączenia

Głównym zadaniem metody probabilistycznego łączenia rekordów jest ustalenie, czy para rekordów należy do tego samej jednostki czy nie. Decyzję tę podejmuje się najczęściej na podstawie prawdopodobieństwa (lub jego przekształceń), że dana para rekordów należy (lub nie) do tej samej jednostki [Blakely, Salmond 2002; Fellegi, Sunter 1969].

Niech m oznacza empiryczne prawdopodobieństwo zgodności wartości zmiennych parują-cych przy założeniu, że porównywana para jest dokładnym połączeniem (rekordy należą do tej samej jednostki). Natomiast niech u oznacza empiryczne prawdopodobieństwo niezgod-ności wartości zmiennych parujących przy założeniu, że porównywana para jest

niepołącze-Zbiór A Zbiór B Harmoniza-cja i deduplika cja Grupowanie Podzbiór A Podzbiór B Łączenie Ewaluacja połączenia Harmoniza-cja i deduplika cja

140 niem (rekordy nie należą do tej samej jednostki). Wskaźniki zdefiniowane we wzorach (4.5) i (4.6) wykorzystują te wartości w celu ustalenia przynależności porównywanych re-kordów do tej samej jednostki. Prawdopodobieństwa m i u służą do obliczenia wag zgodno-ści i niezgodnozgodno-ści. Wagi zgodnozgodno-ści ( ) i niezgodności ( ) wyrażają się wzorami [Blake-ly, Salmond 2002]:

( )

, (4.5)

( )

. (4.6)

Przykładem może być zmienna „miesiąc urodzenia”. Prawdopodobieństwo, że rekordy po-siadające tę samą jej wartość nie należą do tej samej jednostki (niepołączenie) wynosi około

⁄ . Wartość ta będzie zatem prawdopodobieństwem u (por. tabela 4.2). Ponie-waż prawie we wszystkich zmiennych występują błędy, prawdopodobieństwo m (a więc w przypadku zgodności wartości zmiennych parujących) nigdy nie osiąga jedno-ści. Jego wartość wyznaczana jest podczas ustalania strategii łączenia na podstawie informa-cji z poprzednich badań (w których zastosowano metodologię record linka-ge). W przykładzie z miesiącem urodzenia jako zmienną parującą, przyjmijmy założenie, że prawdopodobieństwo m wynosi 0,95 [Blakely, Salmond 2002].

Porównywanej parze, dla której występuje zgodność pod względem miesiąca urodzenia, przyporządkowana zostanie waga zgodności równa 3,51. Natomiast parze, która nie zgadza-ła się co do wartości dla tej zmiennej przyporządkowana zostanie wartość -4,20 (waga nie-zgodności, por. tabela 4.2). Algorytm ten powtarzany jest dla wszystkich zmiennych parują-cych w obrębie pary rekordów, a suma wag połączeniowych nazywana jest wagą łączną. Waga łączna dla danej porównywanej pary jest sumą wszystkich wag zgodno-ści i niezgodnozgodno-ści dla zmiennych parujących. Będzie ona dużą liczbą dodatnią, jeżeli wszystkie lub większość zmiennych parujących zgadza się co do wartości i dużą liczbą ujemną, jeżeli wszystkie lub większość zmiennych parujących się nie zgadza. Za prawdopo-dobne połączenie uznane zostaną te pary rekordów, dla których wartość wagi połączeniowej jest największa.

141 Tabela 4.2. Przykład obliczania wag zgodności i niezgodności

Wynik po-równania Prawdopodobne połączenie Prawdopodobne niepołączenie Waga Zgodność 0,95 (m) 0,083 (u) ( ) Niezgodność 0,05 (1-m) 0,917 (1-u) ( ) Źródło: na podstawie [Blakely, Salmond 2002]

Celem metody probabilistycznego łączenia rekordów jest znalezienie dokładnych połą-czeń92

. W rzeczywistości jednak nie jest możliwym dokładne wskazanie, które pary rekor-dów są dokładnymi połączeniami, a które z całą pewnością są niepołączeniami93

. Zamiast tego możliwa jest obserwacja par zaklasyfikowanych jako dokładne połącze-nie i połącze-niepołączepołącze-nie za pomocą wag łącznych. Zadapołącze-niem jest wyznaczepołącze-nie progu wagowego (dla wagi łącznej), powyżej którego pary uznawane są jako prawdopodobne połączenie94

, zaś poniżej jako prawdopodobne niepołączenie95

. W najlepszym przypadku, znakomita większość prawdopodobnych połączeń jest dokładnym połączeniem i, analogicznie, więk-szość prawdopodobnych niepołączeń jest niepołączeniami [Bakely, Salmond 2002].

Fellegi i Sunter [1969] zaproponowali metodę weryfikacji prawidłowości połączenia rekor-dów w dwóch zbiorach danych za pomocą funkcji podobieństwa dwóch połączonych jedno-stek statystycznych. Model stosuje się w przypadku, gdy oba zbiory są już połączone. Ideą metody jest zaklasyfikowanie par w przestrzeni utworzonej z połączonych zbiorów w zbiór dokładnych połączeń oraz zbiór niepołączeń. Klasyfikacja odbywa się za pomocą wzoru będącego ilorazem prawdopodobieństw:

( ) ( ), (4.7)

gdzie:

- arbitralny wzór zgodności (np. waga zgodności lub niezgodności) w przestrzeni porów-nawczej .

Wskaźnik lub jego inna monotonicznie rosnąca funkcja (np. logarytm naturalny) jest wagą łączną.

92 Dokładne połączenie - porównywana para rekordów, która w rzeczywistości należy samej jednostki.

93

Niepołączenie – porównywana para rekordów, która w rzeczywistości nie należy samej jednostki.

94 Prawdopodobne połączenie – porównywana para rekordów, co do której istnieje wysokie prawdopodobień-stwo, że należy do tej samej jednostki.

95 Prawdopodobne niepołączenie – porównywana para rekordów, co do której istnieje wysokie prawdopodo-bieństwo, że nie należy do tej samej jednostki.

142 Wartość jest następnie porównywalna z wartościami progowymi , które są określo-ne granicznymi błędami a priori na, odpowiednio, fałszywe połączenie i fałszywe niepołą-czenie. Jeżeli spełniony będzie warunek:

 – to para jest uważana za dokładne połączenie,

 – to połączenie jest możliwe; przedział ten nazywany jest „polem nie-decyzyjnym” lub „polem urzędowym”96,

 – to para uznawana jest za niepołączenie.

Procedura opracowana przez Fellegi i Suntera jest zgodna z intuicją. Jeżeli składa się głównie z połączeń, to stosunek będzie duży. Analogicznie, jeżeli składa się głów-nie z głów-niepołączeń, stosunek będzie mały [Winkler 2005]. Wadą tej metody jest stosunko-wo częste klasyfikowanie połączeń do „pola urzędowego” (por. schemat 4.3).

Schemat 4.3. Liczba par połączeniowych dla dokładnych połą-czeń i niepołąpołą-czeń w odniesieniu do wartości wagi łącznej

Źródło: opracowanie własne na podstawie [Blakely, Salmond 2002]

Par zaklasyfikowanych jako dokładne niepołączenie jest zwykle znacznie więcej niż tych zaklasyfikowanych jako dokładne połączenie. Dodatkowo, wśród par klasyfikowanych jako dokładne połączenie (lub niepołączenie) występują fałszywe niepołączenia (lub fałszywe połączenia), czyli rekordy źle zaklasyfikowane. Na etapie weryfikacji jakości integracji

96

Ponieważ bardzo często zgodność takich par można sprawdzić w źródłach urzędowych. Dokładne połączenia Niepołączenia Fałszywe połączenia Fałszywe niepołączenia „Pole urzędowe” 𝑇𝜆 𝑇𝜇 Łączna waga Lic zba pa r po łąc zeni owy ch

143 ba takich przypadków jest szacowana (ponieważ nie można empirycznie zweryfikować, które pary zostały źle zaklasyfikowane) i obliczany jest ich wpływ na ogólny rozkład dołą-czanych cech. Zaznaczony na wykresie przedział ( , ) przedstawia „pole urzędowe”. Oznacza to, że poprawność zaklasyfikowania rekordów, dla których wartość wagi połącze-niowej znajdzie się w tym przedziale, należy zweryfikować w źródłach urzędowych. Nato-miast przerywaną linią zaznaczono pojedynczą wartość progową [Blakely, Salmond 2002].

Zaletą zastosowania pojedynczej wartości jest brak konieczności manualnej („urzędowej”) weryfikacji połączenia, co pozwala na zaoszczędzenie czasu. Wadą natomiast jest większa liczba par rekordów zaklasyfikowana jako fałszywe połączenie lub fałszywe niepołącze-nie. W praktyce częściej stosuje się podejście Fellegi i Suntera (z „polem urzędowym”) [Bernier 1997].