ESSnet on Data Integration - Projekty Eurostatu

2.4. Projekty Eurostatu

2.4.2. ESSnet on Data Integration

Doceniając rosnącą potrzebę łączenia repozytoriów danych z różnych źródeł, Eurostat przy-znał kolejny grant poświęcony metodologii statystycznej integracji danych. Projekt ESSnet on Data Integration w założeniu miał być rozwinięciem prac w projekcie CENEX-ISAD. Celem projektu Data Integration były:

 opracowanie metod oceny jakości zintegrowanych źródeł,

 opracowanie i udoskonalenie metod integracji (probabilistycznego łączenia rekordów, parowania statystycznego, przetwarzania danych zintegrowanych) w celu ich stoso-wania w codziennej praktyce urzędów statystycznych.

W porównaniu do CENEX-ISAD, Data Integration był projektem bardziej rozbudowanym, trwającym dłużej, angażującym więcej państw-beneficjentów oraz obejmującym więcej dzia-łań.

82 Projekt trwał 24 miesiące – od stycznia 2010 do grudnia 2011 roku. Uczestniczyły w nim urzędy statystyczne z 6 państw: Włochy (koordynator), Holandia, Polska51

, Hiszpania, Szwaj-caria oraz Norwegia. Składał się z sześciu pakietów roboczych:

 WP1 – Obecny stan wiedzy w dziedzinie integracji danych (uaktualnienie informacji zgromadzonych w WP1 CENEX-ISAD),

 WP2 – Rozwój metod statystycznej integracji danych,

 WP3 – Rozwój narzędzi informatycznych służących integracji,

 WP4 – Studia przypadków,

 WP5 – Rozpowszechnienie wiedzy z dziedziny integracji danych w państwach człon-kowskich ESS,

 WP6 – Zarządzanie projektem.

W ramach uaktualniania stanu wiedzy z dziedziny integracji danych dokonano przeglądu lite-ratury z lat 2008⁵² - 2011 w dziedzinach probabilistycznego łączenia rekordów, parowania statystycznego oraz przetwarzania danych zintegrowanych [Report on WP1. State of the art on statistical methodologies for data integration 2011]. Dodatkowo zwrócono uwagę na tzw. błąd ekologiczny53

w parowaniu statystycznym oraz poddano szczególnej analizie problem zachowania tajemnicy statystycznej w zintegrowanych zbiorach.

W ramach realizacji pakietu WP2, opisano praktyczne zastosowanie metod integracji da-nych w pracy urzędów statystyczda-nych [Report on WP2. Methodological developments 2011]. W szczególności zwrócono uwagę na podejście bayesowskie w probabilistycznym łączeniu rekordów, edycję błędów wynikających z niewłaściwych „dopasowań” rekordów w integracji, a także opisano sposoby radzenia sobie z różnymi definicjami jednostek, zmien-nych i okresów referencyjzmien-nych w integrowazmien-nych zbiorach. Jednocześnie przedstawiono po-dejście bootstrapowe w szacunkach oraz modele i techniki w przetwarzaniu danych zintegro-wanych.

W ramach rozwoju narzędzi informatycznych w integracji danych, opisano nowe programy umożliwiające automatyczną integrację danych różnymi technikami. Na potrzeby probabili-stycznego łączenia rekordów zaprezentowano oprogramowanie RELAIS 2.3 (Record Linkage

At IStat). Jest to program opracowany we Włoskim rzędzie Statystycznym w środowisku

51 W pracach brał udział Główny Urząd Statystyczny oraz Urząd Statystyczny w Poznaniu. Koordynatorem projektu z polskiej strony był dr Marcin Szymkowiak, konsultant w Ośrodku Statystyki Małych Obsza-rów w Urzędzie Statystycznym w Poznaniu oraz pracownik naukowo-dydaktyczny Uniwersytetu Ekonomiczne-go w Poznaniu.

52 Przegląd obejmował lata po zakończeniu projektu CENEX-ISAD.

Wnioskowanie o zależnościach na poziomie jednostkowym w oparciu o dane zagregowane. Problem został opisany w rozdziale 4.

83 programistycznym Java oraz R [Scannapieco et al. 2010]. Na potrzeby integracji metodą pa-rowania statystycznego zaprezentowano pakiet programu statystycznego R o nazwie StatMa-tch. Umożliwia on wykorzystanie darmowego środowiska analitycznego R oraz zastosowanie szeregu technik parowania rekordów [D’Orazio 2011].

W części poświęconej studiom przypadku, opisano sześć doświadczeń urzędów statystycz-nych w dziedzinie integracji [Report on WP4 Case studies 2011]. Przedstawiono metody wy-korzystania rejestrów administracyjnych do szacowania charakterystyk rynku pracy. Następ-nie opisano zagadNastęp-nieNastęp-nie jakości danych w zintegrowanych źródłach na przykładzie szacun-ków dotyczących zatrudnienia. Kolejnym doświadczeniem była integracja rejestrów admini-stracyjnych i badań reprezentacyjnych w celu poprawy szacunków dotyczących wykształce-nia ludności. Omówiono problem błędów występujących w zintegrowanych źródłach, jak również przedstawiono polskie doświadczenia w dziedzinie parowania statystycznego. W tej sekcji opisano integrację zbiorów danych Mikrospisu 1995 z Badaniem Aktywności Ekono-micznej Ludności z tego samego roku [Roszka 2011]. Celem analizy było weryfikacja możli-wości zastosowania technik statystycznej integracji danych na polskich źródłach.

Rozpowszechniane wiedzy dotyczącej metod i technik integracji danych zrealizowano po-przez cztery grupy działań: spotkania, szkolenia, kurs oraz warsztaty. W ramach realizacji WP5 odbyło się pięć spotkań. Ich celem była wymiana doświadczeń oraz wiedzy. Przeprowa-dzono również trzy szkolenia. Pod koniec trwania projektu przeprowaPrzeprowa-dzono kurs obejmujący wszystkie poruszane w projekcie zagadnienia. Miał on na celu ukazanie problemów wynika-jących z rosnących potrzeb informacyjnych europejskich społeczeństw oraz sposobów ich rozwiązania metodami integracji. Projekt zwieńczyły warsztaty odbywające się w Madrycie w listopadzie 2011 roku. Zaproszeni prelegenci (Polskę reprezentowała m.in. Gołata [2011]) wygłosili referaty dotyczące doświadczeń i problemów wynikających ze stosowania metod integracji danych.

Zadaniem pakietu WP6 było zapewnienie właściwego zarządzania Projektem i osiągnięcia jego celów zgodnie z jej harmonogramem i budżetem.

2.5. Wnioski

Metody integracji są już dość szeroko wykorzystywane w praktyce, a systemy informacyjne konstruowane w oparciu o tę metodologię są rozbudowane i pełnią coraz ważniejszą rolę spo-łeczną. Instytucje wykorzystujące metody integracji danych podkreślają zalety związa-ne z ograniczeniem kosztów i czasu przeprowadzania badań, zmniejszenie obciążenia respon-dentów, zwiększenie jakości danych oraz korzyści związane z nowymi możliwościami

esty-84 macji (np. na niższym poziomie agregacji przestrzennej, publikowanie danych w wielu miarach jednocześnie bez straty na jakości estymatorów). Uwypuklają również problemy wy-nikające z wdrożenia systemu statystyki opartego na zintegrowanych źródłach, niepełnej zgodności danych z systemów administracyjnych z wymaganiami statystyki publicznej i związaną z tym konieczność harmonizacji. W zdecydowanej większości integracji dokonuje się w sposób deterministyczny. Wykorzystanie tego podejścia gwarantuje prawdziwość połą-czeń rekordów w wielu zbiorach. W przypadku konieczności wnioskowania na podstawie zmiennych ze źródeł o niskim pokryciu wykorzystuje się głównie znane i dobrze opisa-ne w literaturze techniki kalibracji. Integracja stochastyczna nadal jest na etapie testowania własności i możliwości wykorzystania w komunikatach statystycznych. Jednak coraz większa liczba dostępnych źródeł danych, również z badań reprezentacyjnych sprawia, że metodologia statystycznej integracji danych zacznie odgrywać coraz większą rolę w pracach urzędów sta-tystycznych i firm badawczych. Coraz bardziej ujednolicana (zwłaszcza przez organy staty-styki publicznej) metodologia badań częściowych, coraz częstsze wykorzystanie zharmoni-zowanych źródeł administracyjnych, a także konieczność oszczędności czasu i kosztów mogą przyczynić się do popularyzacji i dalszego rozwoju metod statystycznej integracji danych. W Polsce przeprowadzanych jest wiele badań reprezentacyjnych, zarówno przez Główny Urząd Statystyczny, jak i inne instytucje publiczne i prywatne. Opisują one różne dziedziny życia społeczno-gospodarczego, ale niejednokrotnie przedmiot ich badań częściowo się po-krywa. Żadne z tych źródeł oddzielnie nie zapewnia pełnego opisu zjawisk społecz-nych, a ograniczona liczebność próby uniemożliwia szacunek w ujęciu regionalnym czy lo-kalnym. Zasadnym wydaje się więc podjęcie próby ich integracji celem zwiększenia meryto-rycznego i przestrzennego zakresu szacunków oraz ich precyzji . Istnieje również wiele reje-strów administracyjnych, które mogłyby dostarczyć dodatkowych informa-cji w szczegółowym przekroju terytorialnym. Ich zawartość informacyjna i możliwości wyko-rzystania są przedmiotem badań Głównego Urzędu Statystycznego.

W rozdziale III opisane zostaną wybrane rejestry administracyjne udostępnione organom sta-tystyki publicznej w celu rozpoznania ich przydatności. Opisane zostaną również wybrane badania reprezentacyjne, ich zawartość merytoryczna, techniki doboru próby oraz pomiaru. Celem tego opisu będzie identyfikacja zbiorów danych, których integracja byłaby możliwa. Jednocześnie zostanie dokonana próba oceny jakości danych oraz ich dostępności, by w dalszej kolejności podjąć próbę ich integracji za pomocą wybranych metod.

R

OZDZIAŁ

III. P

OTENCJALNE ŹRÓDŁA DANYCH DLA BADAŃ OPARTYCH NA INTEGRACJI

Dane gromadzone na potrzeby administracyjne i sprawozdawczości statystycznej w Polsce są analogiczne do zbieranych w innych krajach. Składają się na nie różnego rodzaju rejestry ad-ministracyjne, badania reprezentacyjne oraz badania przeprowadzane przez inne organy niż statystyka publiczna. Zawartość informacyjna badań reprezentacyjnych jest ogólnie znana. Zobowiązania międzynarodowe, duża liczba publikacji oraz udostępnianie jednostkowych (odpersonalizowanych) zbiorów danych m.in. ośrodkom naukowym przyczyniły się do roz-powszechnienia metodologii pomiaru, analizy i publikacji wyników.

Dostęp do rejestrów administracyjnych, nawet tych udostępnionych organom statystyki pu-blicznej jest utrudniony. Wynika to głównie z konieczności zachowania tajemnicy statystycz-nej (rejestry często zawierają informacje osobowe). Utrudnienia w dostępie sprawiają, że roz-poznanie zawartości informacyjnej rejestrów, weryfikacja definicji i wariantów cech, momen-tów referencyjnych, populacji oraz spójności merytorycznej i statystycznej administracyjnych zbiorów danych nadal są przedmiotem badań.

W niniejszym rozdziale przedstawione zostaną wybrane źródła danych, które potencjalnie można wykorzystać w spisie wirtualnym, czy dyskutowanym w tej pracy systemie danych społeczno-ekonomicznych. Przedstawione zostaną cztery rejestry administracyjne: PESEL, ZUS, NFZ oraz POLTAX. Rejestr PESEL opisany zostanie w kontekście zastosowania jako „kręgosłup” spisu opartego na rejestrach czy badania społecznego (podobnie jak Ewidencja Ludności w holenderskim spisie wirtualnym). Dlatego nacisk położony zostanie głównie na listę zawartych w nim zmiennych, konstrukcję potencjalnej zmiennej kluczowej, jaką jest numer PESEL oraz jego funkcje i obecne wykorzystanie w różnych systemach administracyj-nych. Przedstawiona zostanie również weryfikacja zgodności informacji w spisie z innymi źródłami danych oraz zgodności wybranych struktur ludności. Rejestry ZUS i NFZ zostaną opisane w kontekście możliwości wyznaczenia zmiennych pochodnych opisujących strukturę aktywności ekonomicznej ludności Polski na niskim poziomie agregacji przestrzennej. Do-datkowo zbadana zostanie zawartość merytoryczna rejestrów, jakość (m.in. pod kątem wystę-powania braków danych w zmiennych kluczowych i duplikatów) oraz zgodność opracowa-nych na ich podstawie rezultatów z analogicznymi strukturami z badań reprezentacyjopracowa-nych. Zaprezentowany zostanie również rejestr POLTAX jako potencjalne źródło da-nych w badaniach społeczda-nych i gospodarczych.

86 W dalszej kolejności opisane zostaną wybrane badania reprezentacyjne: Badanie Aktywności Ekonomicznej Ludności, Badanie Budżetów Gospodarstw Domowych oraz Badania Docho-dów i Warunków Życia EU-SILC. Należą one do najważniejszych badań reprezentacyjnych przeprowadzanych w Polsce⁵⁴. Wskazany zostanie cel badań, poddane pomiarowi cechy, schematy doboru próby, definicje populacji, jednostek, stosowane klasyfikacje. Ze względu na dostępność zbiorów danych, a także możliwość ich porównania, zostaną opisane badania przeprowadzone w 2005 roku. Wyjątek stanowi badanie EU-SILC. Okres referencyjny głów-nych cech poddagłów-nych pomiarowi – dotyczących źródeł i wielkości dochodu – określony jest na 1 stycznia do 31 grudnia roku poprzedniego. Z tego względu zdecydowano się przedstawić edycję badania z 2006 roku.

Jako ostatnie zostaną opisane wybrane badania reprezentacyjne przeprowadzane przez insty-tucje spoza sektora statystyki publicznej: Polski Generalny Sondaż Społeczny (PGSS) oraz Diagnoza Społeczna (DS). O ile badania przeprowadzane przez GUS w przeważającej części dotyczą cech obiektywnych, łatwo poddających się pomiarowi (np. dochód, wydatki, aktyw-ność na rynku pracy), o tyle w badaniach PGSS i DS podjęto próbę pomiaru i opisu cech o charakterze subiektywnym – opinii, poglądów, postaw, zachowań, stanu zdrowia, pra-gnień, planów na przyszłość itp. Badania te stanowią cenne uzupełnienie oceny sytuacji spo-łeczno-ekonomicznej w Polsce. Ze względu na pełną dostępność jednostkowych zbiorów da-nych (dane ze wszystkich edycji badań dostępne są w Internecie), nie ograniczono się do opi-su edycji badań tylko z 2005 roku.

We wnioskach zaprezentowana zostanie idea zintegrowanego systemu danych społecznych, wykorzystującego informacje pochodzące z przedstawionych źródeł. Konstrukcja nawiązuje do Bazy Danych Społecznych będącej produktem holenderskiego spisu wirtualnego. Jedno-cześnie zaproponowane zostanie wykorzystanie doświadczeń polskich, związanych z pracami nad Analityczną Bazą Mikrodanych NSP 2011. Wartością dodaną w proponowanym systemie będzie wykorzystanie metod statystycznej integracji danych w celu zapewnienia spójności numerycznej szacunków, możliwości łącznej obserwacji zmiennych ze wszystkich źró-deł, a także umożliwienia szacowania charakterystyk pochodzących z badań reprezentacyj-nych na niskim poziomie agregacji.

3.1. Wybrane rejestry administracyjne jako źródło informacji w statystyce pu-blicznej

3.1.1. Rejestr Powszechnego Elektronicznego Systemu Ewidencji Ludności

W dokumencie Statystyczna integracja danych w badaniach społeczno-ekonomicznych (Stron 81-87)