Spis wirtualny w Holandii - Spisy powszechne

2.1. Spisy powszechne

2.1.1. Spis wirtualny w Holandii

Spis wirtualny jest pełnym badaniem statystycznym wykorzystującym istniejące i dostępne źródła danych, bez potrzeby przeprowadzania pomiaru obciążającego respondentów [van der Laan 2000]. Poza rejestrami administracyjnymi wykorzystuje się w nim również wcześniej przeprowadzone badania reprezentacyjne³⁶. Przeprowadza się go w miejsce tradycyjnego spi-su powszechnego w celu obniżenia kosztów badania, zmniejszenia obciążenia respondentów oraz poprawy jakości danych [Nordholt 2004].

Pierwszy spis wirtualny w Holandii przeprowadzono w 2001 roku (kolejny odbył się w roku 2011 [Nordholt 2005]). Wykorzystano takie administracyjne źródła danych jak ewidencja ludności (źródło podstawowe), rejestry zatrudnienia, skarbowy i pomocy społecznej, a także reprezentacyjne badanie aktywności ekonomicznej ludności (Labour Force Survey, LFS) [Linder 2004].

53 Tabela 2.1. Źródła danych wykorzystane w spisie wirtualnym w Holandii

Lp. Nazwa Rodzaj badania/ populacja objęta badaniem

Rekord/jednostka ^Liczba rekor-dów

Zmienne wykorzysta-ne w spisie

1 Ewidencja ludności pełne

osoba ok. 16 mln osób

płeć wiek kraj urodzenia obywatelstwo kraj zamieszkania region zamieszkania stan cywilny sytuacja rodzinna gospodarstwo domowe ok. 6,9 mln gospodarstw domowych

skład gospodarstwa domowego status gospodarstwa domowego typ gospodarstwa domowego wielkość gospodarstwa domo-wego

liczba dzieci

inne osoby w gospodarstwie domowym

2 Rejestr Ubezpieczeń

Pra-cowniczych pełne pracujący ok. 6,5 mln

rodzaj zatrudnienia

klasyfikacja działalności go-spodarczej miejsca zatrudnienia wynagrodzenie brutto

3 ^Badanie

Zatrudnie-nia i Wynagrodzeń częściowe pracujący ok. 3 mln

rodzaj zatrudnienia wymiar czasu pracy miejsce zatrudnienia 4 ^{Rejestr podatkowy}

samoza-trudnionych pełne ^{osoba samoza-}_trudniona ok. 800 tys.

charakter samozatrudnienia klasyfikacja działalności go-spodarczej

5 Rejestr Ubezpieczeń

Bezro-botnych pełne bezrobotny ok. 440 tys. źródło pomocnicze1

6 Rejestr Ubezpieczeń

Nie-pełnosprawnych ^pełne ^{osoba niepełno-}sprawna ^{ok. 1 mln} źródło pomocnicze1

7 Rejestr Świadczeń

Społecz-nych pełne ^{osoba objęte opie-}_{ką społeczną} ok. 580 tys. źródło pomocnicze1

8 Rejestr Podatkowy pełne świadczeniobiorca

ok. 7,2 mln miejsc zatrud-nienia/ok. 2,7 mln emery-tur i rent zatrudnienie: tak/nie

rodzaj świadczeń emerytalno-rentowych

9 ^{Badanie aktywności eko-}nomicznej ludności ^częściowe ^osoba ^{ok. 120 tys.}

poziom wykształcenia zawód

aktywność ekonomiczna Uwaga: ¹Zmienne ze źródeł pomocniczych nie zostały bezpośrednio wykorzystane w spisie, a służyły jedynie jako zmienne pomocnicze w procesie integracji.

54 W spisie wykorzystano informacje pochodzące z 9 różnych źródeł (por. tabela 2.1). Charakte-ryzowało je różne pokrycie informacyjne, zarówno w odniesieniu do liczby jednostek, jak i zmiennych te jednostki opisujących.

Najważniejszym źródłem w spisie wirtualnym była Ewidencja Ludności (Population Regi-ster), zasilana w Holandii przez rejestry osobowe administracji samorządowej. Jako najbar-dziej rzetelne źródło danych o największym pokryciu populacji, Ewidencja Ludności stała się „kręgosłupem” spisu, do którego dołączano informacje z pozostałych źródeł danych [Nor-dholt 2004]. Również proces harmonizacji danych odbywał się w odniesieniu do katego-rii i definicji stosowanych w tym rejestrze.

Informacje zawarte w Ewidencji Ludności odzwierciedlały stan prawny ludności Holandii. Oszacowanie stanu faktycznego wymagało korekty37

przy pomocy modeli probabilistycznych skonstruowanych na podstawie badań reprezentacyjnych odzwierciedlających stan faktyczny [Linder 2004].

Rejestry pracownicze³⁸ oraz badania reprezentacyjne dotyczące pracowników³⁹ dostarczały informacji dotyczących m.in. wynagrodzeń, miejsc pracy oraz klasyfikacji działalności go-spodarczej miejsca zatrudnienia (lub samozatrudnienia). Ze względu na administracyjny cha-rakter rejestrów pracowniczych, często wykorzystywanych pośrednio w celach podatkowych, rzetelność danych była na wysokim poziomie (za podanie błędnych informacji groziła odpo-wiedzialność karna i skarbowa). Informacje niezawarte w rejestrach uzupełniane były dany-mi z badań reprezentacyjnych (np. wydany-miar czasu pracy). Szczególnie ważną rolę pełniło ba-danie aktywności ekonomicznej ludności. Zawierało ono szereg informacji niedostęp-nych w rejestrach, jak poziom wykształcenia, czy zawód wykonywany. Dodatkowo badanie to służyło jako podstawa identyfikacji statusu na rynku pracy (aktywny zawodowo, pracujący, bezrobotny, formalnie bierny zawodowo, ale pomagający członek rodziny).

Rejestr podatkowy (FiBase-register, fiscal administration) zawierał informacje o dochodach pochodzących z pracy zarobkowej oraz świadczeń społecznych, jak również o świadczeniach emerytalno-rentowych. Służył on jako ważne źródło informacji o aktywności ekonomicznej ludności (m.in. zawierał informację o biernych zawodowo). Wykorzystano go w procesie integracji jako główne źródło do estymacji zatrudnienia i różnych rodzajów dochodu.

Rejestr Ubezpieczeń Bezrobotnych, Rejestr Ubezpieczeń Niepełnosprawnych oraz Rejestr Świadczeń Społecznych pełniły w spisie rolę źródeł informacji pomocniczych w procesie

37 Wynikało to m.in. z opóźnień w rejestracji narodzin i zgonów, a także trudności w ujęciu imigrantów.

Rejestr Ubezpieczeń Pracowniczych, Rejestr podatkowy osób samozatrudnionych

55 integracji. Repozytoria te zawierały dane o zatrudnieniu i świadczeniach społecznych, które wykorzystano w procesie harmonizacji.

Każda jednostka w każdym z rejestrów była identyfikowana przez unikatowy klucz jakim był numer ubezpieczenia społecznego i podatkowego (social security and fiscal numer, SoFi-number). Jednak ze względu na ochronę danych osobowych, na potrzeby łączenia zbiorów klucz ten został przekodowany na tzw. numer identyfikujący rekord (Record Identification Number, RIN-person). Inne zmienne identyfikujące jednostkę jak data urodzenia oraz adres zamieszkania zostały przekształcone w zmienną zawierającą wiek respondenta w momencie referencyjnym spisu oraz RIN-address (zakodowane informacje adresowe). Wysoka jakość holenderskich danych administracyjnych umożliwiła połączenie w sposób deterministyczny niemal 100 procent wszystkich rekordów [Nordholt 2004].

Do zintegrowanych w ten sposób rejestrów dołączono, również w sposób deterministyczny, informacje z Badania Aktywności Ekonomicznej Ludności oraz Badania Zatrudnie-nia i Wynagrodzeń. Ponieważ numer SoFi nie był przedmiotem pomiaru w badaZatrudnie-niach repre-zentacyjnych, na podstawie zmiennych płeć, data urodzenia oraz adres zamieszkania utwo-rzono zmienną pochodną identyfikującą poszczególne osoby. Na podstawie tego klucza udało się dołączyć do rejestrów około 97% jednostek z badania częściowego.

Zintegrowana baza danych (por. schemat 2.1), zawierała informacje jednostkowe oraz łącznie obserwowane cechy ze wszystkich zbiorów. Nosiła nazwę Bazy Operacyjnej (baseline). Za-wierała ona dużą liczbę pustych komórek, co wynika z obserwacji niektórych zmiennych tyl-ko dla ograniczonej liczby jednostek (np. w badaniu reprezentacyjnym). Dodattyl-kowo, ponie-waż zintegrowane repozytorium danych jednostkowych nie spełniała wymagań zachowania tajemnicy statystycznej, dane zostały przeważone i zagregowane w tematy ujęte w planie pu-blikacji. W ten sposób utworzono bazę statystyczną (StatBase), nazwaną Bazą Danych Spo-łecznych (Social Statistical Database, SSD). Repozytorium to zawiera wiele milionów rekor-dów o osobach, gospodarstwach domowych, zatrudnieniu i świadczeniach społecznych opisa-nych za pomocą tysięcy zmienopisa-nych z różopisa-nych źródeł.

56 Schemat 2.1. Integracja danych pochodzących z różnych źródeł w Spisie Powszech-nym w Holandii w 2001 roku

Źródło: opracowanie własne na podstawie [Everaers, van der Laan 2003]

Etap przeważania danych przeprowadzono dzieląc Bazę Operacyjną (por. schemat 2.1) na podzbiory danych („bloki danych”) odnoszących się do różnych zagadnień opisywa-nych w spisie (demografia, edukacja, rynek pracy itp.) [Gouweleeuw, Hartgers 2004]. Dla każdego z bloków danych utworzono zestaw wag początkowych, które następnie poddano kalibracji. Umożliwiło to uzyskanie spójnych wyników („jedna liczba dla jednego zjawiska”) dla wszystkich informacji zawartych w różnych zbiorach danych [Kroese et al. 2000]. W procesie estymacji zastosowano technikę wielokrotnego ważenia oprogramowa-ną w najnowszej wersji pakietu VRD (Filling Reference Databse) opracowanego przez ho-lenderski urząd statystyczny. Główną funkcjonalnością VRD było oszacowanie warto-Rejestry osobowe Rejestry podatkowe i ubezpieczeniowe Badania reprezentacyjne

Integracja – przetwarzanie danych zin-tegrowanych

Baza Operacyjna

Demografia Edukacja Rynek pracy Inne

Baza Statystyczna

(Social Statistical Database)

Baza Wynikowa odpersonalizowanie wstępna agregacja

57 ści w tabelach kontyngencji poprzez wielokrotne ważenie. Oprogramowanie umożliwiało również oszacowanie wariancji estymatorów.

Rzetelność oszacowań zapewniono poprzez uwzględnienie największej liczby rekordów. Ta-bele opisujące cechy pochodzące z rejestrów administracyjnych wyznaczano wyłącznie na podstawie zmiennych rejestrowych o wysokim pokryciu. Tabele zawierające przynajmniej jedną cechę pochodzącą z badania reprezentacyjnego szacowano na podstawie takiej kombi-nacji zbiorów pochodzących z rejestrów i badań, która zawierała największą liczbę obserwa-cji.

Połączenie informacji z rejestrów i badań reprezentacyjnych, po harmonizacji, przeważe-niu i imputacji braków danych pozwoliło na utworzenie Bazy Statystycznej, nazwanej Bazą Danych Społecznych (Social Statistical Database). Zawierała ona jednostkowe informa-cje o populacji docelowej – ludności Holandii.

Ostatnim etapem spisu było utworzenie bazy wynikowej (StatLine). Jest to hurtownia danych zawierająca kostki danych40

(pobieranych ze StatBase) z informacjami o wszystkich zagad-nieniach, których opisanie zaplanowano w spisie. Agregację w Bazę Wynikową przeprowa-dzono ze względu na ochronę informacji wrażliwych, a także w celu zwiększenia wydajności spisowego systemu sprawozdawczości.

W dokumencie Statystyczna integracja danych w badaniach społeczno-ekonomicznych (Stron 52-57)