• Nie Znaleziono Wyników

3.3. Badania spoza systemu statystyki publicznej

3.3.2. Diagnoza Społeczna (DS)

Diagnoza Społeczna jest badaniem ankietowym przeprowadzanym przez Radę Monitoringu Społecznego działającej przy niepublicznej Wyższej Szkole Finansów i Zarządzania w Warszawie. Celem badania jest pomiar warunków i jakości życia Polaków. W zamyśle au-torów badanie jest „próbą uzupełnienia diagnozy opartej na wskaźnikach instytucjonal-nych o kompleksowe dane na temat gospodarstw domowych oraz postaw, stanu du-cha i zachowań osób tworzących te gospodarstwa”.

Badaniu podlegają, za pomocą dwóch odrębnych kwestionariuszy, zarówno gospodarstwa domowe, jak i ich członkowie w wieku 16 lat i więcej. W badaniu uwzględnia się wszystkie ważne, zdaniem autorów, aspekty życia mieszkańców kraju, zarówno ekonomiczne, jak i społeczne. Diagnoza Społeczna ma charakter panelowy, tzn. w kolejnych falach badania część gospodarstw domowych podlega kolejnemu pomiarowi celem uchwycenia zmian oraz ich dynamiki w sytuacji gospodarstw i ich członków. Badanie rozpoczęło się w roku 2000, a kolejne edycje miały miejsce w latach 2003, 2005, 2007, 2009 oraz 2011. Na rok 2013 zaplanowana jest kolejna edycja. Badanie zawsze prowadzone jest w marcu, co służyć ma wytrąceniu efektu sezonowości. W 2009 i 2011 r. ze względu na wielkość próby pomiar przedłużył się do połowy kwietnia.

Projekt obejmuje wiele aspektów związanych z sytuacją gospodarstw domowych i poszczególnych obywateli. Uwzględnione w nim wskaźniki społeczne podzielić można na trzy ogólne klasy:

1. struktura demograficzno-społeczna gospodarstw domowych,

2. warunki życia gospodarstw domowych, związane z ich kondycją materialną, dostępem do świadczeń medycznych, do kultury i wypoczynku, edukacji i nowoczesnych tech-nologii komunikacyjnych,

3. jakość, styl życia i cechy indywidualne obywateli.

Cechy demograficzno-społeczne gospodarstw nie są przedmiotem analizy, a służą jedynie do grupowania wyników oraz określenia różnic pomiędzy poszczególnymi grupami. Właściwym przedmiotem analizy są przede wszystkim warunki życia gospodarstw domowych i jakość życia obywateli. Strukturę cech poddanych pomiarowi można w pewnym uproszczeniu po-dzielić na obiektywne (np. dochody, warunki mieszkaniowe) i subiektywne (np. ocena jakości życia). Pomiar warunków życia gospodarstwa domowego obejmował:

 sytuację dochodową gospodarstwa domowego i sposób gospodarowania dochodami,

117

 wyżywienie,

 zasobność materialną gospodarstwa domowego, w tym wyposażenie w nowoczesne technologie komunikacyjne (telefon komórkowy, komputer, dostęp do Internetu),

 warunki mieszkaniowe,

 pomoc społeczną, z jakiej korzysta gospodarstwo domowe,

 kształcenie dzieci,

 uczestnictwo w kulturze i wypoczynek,

 korzystanie z usług systemu opieki zdrowotnej,

 sytuację gospodarstwa domowego na rynku pracy,

 korzystanie z pomocy społecznej,

 ubezpieczenia i zabezpieczenie emerytalne,

 ubóstwo, bezrobocie, niepełnosprawność i inne aspekty wykluczenia społecznego. Wskaźniki jakości i stylu życia indywidualnych respondentów obejmowały:

 ogólny dobrostan psychiczny (w tym: wolę życia, poczucie szczęścia, zadowole-nie z życia, symptomy depresji psychicznej),

 zadowolenie z poszczególnych dziedzin i aspektów życia,

 subiektywną ocenę materialnego poziomu życia,

 różne rodzaje stresu życiowego (w tym: stres administracyjny, tzw. „kafkoski”, związany z kontaktami z administracją publiczną, stres zdrowotny, stres rodzicielski, stres finansowy, stres pracy, stres ekologiczny, stres małżeński, problemy związane z opieką nad osobami starszymi, stresowe wydarzenia losowe, jak napad, włamanie, aresztowanie),

 objawy somatyczne (miara dystresu),

 strategie radzenia sobie ze stresem,

 ocenę kontaktów z systemem opieki zdrowotnej,

 finanse osobiste (w tym: dochody osobiste, ubezpieczenia i zabezpieczenie emerytal-ne),

 system wartości, skłonność do ryzyka, styl życia oraz indywidualne zachowa-nia i nawyki (m.in. palenie papierosów, nadużywanie alkoholu, używanie narkotyków, praktyki religijne),

 postawy i zachowania społeczne, w tym kapitał społeczny,

 wsparcie społeczne,

118

 korzystanie z nowoczesnych technologii komunikacyjnych – komputera, Internetu, te-lefonu komórkowego.

W badaniu zastosowano dwa rodzaje ankiet: osobną dla gospodarstw domowych (skierowaną do głów gospodarstw domowych) i osobną dla poszczególnych członków gospodarstwa do-mowego. Badanie realizowane jest przez zawodowych ankieterów Głównego Urzędu Staty-stycznego. Nadzór nad badaniem ankietowym sprawuje od strony organizacyjnej Biuro Ba-dań i Analiz Polskiego Towarzystwa Statystycznego.

Badanie przeprowadzane jest metodą reprezentacyjną, umożliwiającą uogólnienie wyników na całą populację gospodarstw domowych w kraju oraz wszystkich Polaków w wieku 16 lat i więcej. Np. w 2005 roku badaniem objęto 3851 gospodarstw domowych w całym kraju oraz 8828 osób w wieku 16 lat i więcej. Dodatkowo zebrano podstawowe informacje (przede wszystkim demograficzne) o wszystkich członkach gospodarstw domowych, niezależnie od wieku, w liczbie ogółem 12887. Ze względu na panelowy charakter badania w próbie znalazła się część gospodarstw i ich członków, którzy podlegali pomiarowi we wcześniejszych falach badania. Schemat doboru jednostek do próby był warstwowy i dwustopniowy. Warstwy sta-nowiły klasy miejscowości zamieszkania82

w ramach każdego z 16 województw. Jednostkami losowania pierwszego stopnia w warstwach miejskich w poszczególnych województwach były rejony statystyczne (obejmujące co najmniej 250 mieszkań), a w warstwach wiejskich obwody statystyczne. Na drugim stopniu losowano systematycznie po dwa mieszka-nia z uporządkowanej losowo listy mieszkań, niezależnie wewnątrz każdej z warstw utworzo-nych na pierwszym stopniu. W przypadku odmów uczestnictwa w badaniu włączano gospo-darstwa z prób rezerwowych, należących do tego samego rejonu statystycznego. Uzyska-ne w badaniu wyniki, w celu zachowania reprezentatywności, tak dla badania w 2005 roku jak dla panelu 2000-2005, w skali kraju oraz dla poszczególnych województw i wyróżnionych klas miejscowości zamieszkania, podlegały odpowiedniemu ważeniu.

Badanie Diagnoza Społeczna, mimo iż finansowane głównie z pieniędzy prywatnych, ma charakter publiczny. Wyniki badania udostępnione są bezpłatnie pod adresem http://diagnoza.com. Forma udostępnienia to m.in. zbiór danych jednostkowych w formacie IBM SPSS wraz z pełnym opisem etykiet zmiennych i ich wariantów. Dodatkowo dostępne są wszystkie kwestionariusze oraz raporty z poszczególnych fal badania. Nie ma żadnych ogra-niczeń co do korzystania z danych.

119

3.4. Wnioski

Rejestry administracyjne stanowią cenne źródło danych społeczno-ekonomicznych. Stopień pokrycia populacji oraz podstawowe cechy demograficzne połączone z możliwością tworze-nia zmiennych pochodnych rozszerzających zawartość merytoryczną czynią z nich warto-ściowe źródło informacji. Pomimo iż liczba cech poddanych pomiarowi nie jest tak duża jak w badaniach reprezentacyjnych, rejestry mogą służyć jako bogate źródło zmiennych po-mocniczych. Zastosowanie zbiorów administracyjnych w integracji może w istotny sposób wzbogacić zasoby wiedzy społeczno-gospodarczej.

Prowadzane przez organy statystyki publicznej badania próbkowe charakteryzują się szero-kim zakresem merytorycznym przy stosunkowo niewielkiej próbie. Zastosowanie metody reprezentacyjnej umożliwia uogólnianie wyników na całą populację generalną, jednak ograni-czenia związane z liczebnością próby powodują, że zadowalającą jakość oszacowań można uzyskać tylko w nielicznych przekrojach (tak terytorialnych, jak i merytorycznych). Pomia-rowi w opisywanych badaniach reprezentacyjnych często poddane są podobne grupy cech. Stosowane są również podobne metody doboru próby. Zobowiązania międzynarodowe często wymuszają także stosowanie ujednoliconych definicji. Spełnienie powyższych warunków stanowi dobrą podstawę do stosowania metod statystycznej integracji danych (w szczególno-ści parowania statystycznego) celem zwiększenia zawartoszczególno-ści merytorycznej badań, a także podjęcia próby zwiększenia liczebności wejściowych repozytoriów.

Instytucje znajdujące się poza systemem statystyki publicznej również prowadzą badania spo-łeczne, często korzystają z bogatego doświadczenia Głównego Urzędu Statystycznego, stosu-ją metodologię zbliżoną do badań statystyki publicznej. Celem tych badań jest prowadzenie analiz porównawczych oraz rozszerzenie zakresu informacji społecznych. Ze względu na bar-dzo szeroką zawartość merytoryczną badań (długi kwestionariusz), pomiar dokonywany jest na stosunkowo niedużej próbie. Jednak duża liczba cech, z których wiele jest wspól-nych z badaniami statystyki publicznej, również stwarza możliwość integracji ze źródłami administracyjnymi i pochodzącymi z badań statystyki publicznej. Dodatkowo, niczym nieo-graniczona dostępność zbiorów jednostkowych badań PGSS i DS daje sposobność szerokiego wykorzystania tych repozytoriów.

Zintegrowanie istniejących zbiorów danych może stać się przyczynkiem do konstrukcji repo-zytorium informacji o społeczno-ekonomicznych aspektach życia ludności. Rejestr PESEL, zawierający dane o podstawowych charakterystykach demograficznych ludności mógłby zo-stać, podobnie jak Ewidencja Ludności w holenderskim spisie wirtualnym, „kręgosłupem” takiego repozytorium. Informacje o aktywności ekonomicznej, wymiarze czasu pracy, czy

120 stopniu niepełnosprawności zawarte w rejestrach ZUS i NFZ mogłyby zostać dołączone de-terministycznie na podstawie numeru PESEL. Następnie dołączenie danych o dochodach lud-ności z rejestru POLTAX wraz z informacją o powiązaniu miejsca pracy i miejsca zamiesz-kania umożliwiłoby łączną, kompleksową informację o wzajemnych powiązaniach między aktywnością ekonomiczną, uzyskiwanych dochodach i charakterystykach demograficznych (por. tabela 3.11). W przypadku braku informacji o numerze PESEL, istnieje możliwość utworzenia klucza złożonego, np. z imienia, nazwiska, adresu i daty urodzenia.

Tabela 3.11. Źródła danych w konstrukcji zintegrowanego repozytorium danych społecznych

Lp. Nazwa Rodzaj bada-nia/ populacja objęta bada-niem Rekord/ jed-nostka Liczba

rekordów Wybrane zmienne/zagadnienia

1 PESEL pełne osoba ok. 38,7

mln

płeć

data urodzenia stan cywilny adres

2 ZUS pełne pieczenia spo-płatnik ubez-łecznego

16 214 456 płeć

data urodzenia adres

status na rynku pracy1 wymiar czasu pracy status emerytalno-rentowy stopień niepełnosprawności 3 NFZ pełne osoba 38 647 138 płeć data urodzenia adres

status na rynku pracy1

4 POLTAX2 pełne

pracujący, emeryci,

renci-ści

ok. 19 mln

adres miejsca zamieszkania adres miejsca pracy przychód

dochód

wysokość podatku wysokość składek ubezp.

5 BAEL częściowe osoba w wieku 15 lat i więcej 111 807 3 płeć wiek wykształcenie stan cywilny

status na rynku pracy wymiar czasu pracy zawód wykonywany gospodarstwo

domowe 59 994

3 źródło utrzymania gosp. dom. typ gospodarstwa dom.

6 BBGD częściowe

osoba 107 1243

płeć wiek stan cywilny

status na rynku pracy wykształcenie gospodarstwo

domowe 34 767

3

wydatki gosp. dom. w przekroju szczegółowych kategorii

121 Lp. Nazwa Rodzaj bada-nia/ populacja objęta bada-niem Rekord/ jed-nostka Liczba

rekordów Wybrane zmienne/zagadnienia szczegółowych kategorii

charakterystyka lokalu zajmowa-nego przez gosp. dom.

wyposażenie gosp. dom.

wielkość spożycia

towa-rów i usług w gosp. dom.

7 EU-SILC częściowe osoba w wieku 16 lat i więcej 36 590 4 płeć wiek stan cywilny wykształcenie

dostęp do różnych usług

dochody osobiste w przekroju szczegółowych kategorii

różne aspekty jakości życia

gospodarstwo

domowe 14 914

4

dochody gosp. dom. w przekroju szczegółowych kategorii

charakterystyka lokalu zajmowa-nego przez gosp. dom

wyposażenie gosp. dom. subiektywna sytuacja materialna warunki mieszkaniowe

wskaźnik ubóstwa materialnego

8 PGSS częściowe osoba w wieku

18 lat i więcej 1293

5

różne charakterystyki społeczno-demograficzne

nastroje społeczne preferencje wyborcze

opinie dotyczące otoczenia spo-łeczno-gospodarczego

sposoby spędzania wolnego czasu

9 DS częściowe

osoba w wieku

16 lat i więcej 26 420

6

różne charakterystyki społeczno-demograficzne

stan zdrowia

systemy wartości i postawy spo-łeczne

opinie dotyczące otoczenia spo-łeczno-gospodarczego gospodarstwo domowe 12 387 6 sytuacja dochodowa warunki mieszkaniowe

uczestnic-two w kulturze i wypoczynek różne aspekty wykluczenia spo-łecznego

Uwaga:

1 Zmienna pochodna zmiennej „kod ubezpieczenia”.

2

W zakresie osób fizycznych.

3 Dotyczy 2005 roku. Dla liczebności BAEL wyeliminowano duplikaty wynikające z rotacyjnego doboru próby.

4 Dotyczy 2006 roku.

5 Dotyczy 2008 roku.

6 Dotyczy 2011 roku.

Liczba rekordów (po deduplikacji) dla ZUS i NFZ została wyznaczona na podstawie analizy zawartości infor-macyjnej opisanej w rozdziale. Dla PESEL i POLTAX podano wartości orientacyjne ze względu na brak dostę-pu do zbiorów jednostkowych.

122 Zbiory danych pochodzące z badań reprezentacyjnych zawierają informację bogatą meryto-rycznie, jednak o niskim pokryciu. Ich integracja, metodami parowania statystycznego, za-pewni łączną obserwację cech o bardzo szerokim spektrum – cech obiektywnych, jak docho-dy i wydatki, jak również subiektywnych, jak opinie dotyczące jakości życia, wyznawanych poglądów i sposobów spędzania wolnego czasu. Wykorzystanie technik umożliwiających konkatenację repozytoriów83

pozwoliłoby na częściowe zniwelowanie problemów wynikają-cych z niedostatecznie dużej liczebności próby dla wnioskowania dla szczegółowych przekro-jów.

Zintegrowane repozytoria rejestrów i badań reprezentacyjnych można połączyć stosując me-tody zarówno deterministyczne, jak i statystyczne (por. schemat 3.1). Łączenie determini-styczne mogłoby odbyć się poprzez utworzenie klucza złożonego danych wych84 i podstawowych charakterystyk demograficznych (np. wiek/data urodzenia, płeć). W przypadku, gdy klucz złożony nie identyfikowałby w sposób jednoznaczny jedno-stek, można zastosować metody statystyczne.

Tak zintegrowane repozytorium danych społeczno-ekonomicznych należy poddać procedurze przetwarzania danych zintegrowanych. Harmonizacja definicji, wariantów cech, jak również populacji zapewni rzetelność danych w zintegrowanym zbiorze (por. pkt. 1.5). Powstała w ten sposób operacyjna baza mikrodanych zawierałaby wiele braków danych, np. dla cech wystę-pujących wyłącznie w badaniach reprezentacyjnych. Spójność oszacowań może zostać za-pewniona poprzez techniki kalibracji lub zmodyfikowane techniki masowej imputacji – przy wykorzystaniu parowania statystycznego (por. pkt. 1.4). Następnie zintegrowane repozytoria po anonimizacji rekordów utworzą analityczną bazę mikrodanych. Zastosowanie parowania statystycznego w celu dołączenia wartości zmiennych z badań reprezentacyjnych do rekor-dów pochodzących z rejestrów umożliwia przedstawienie szacunków na niskich poziomach agregacji. Może stać się to przyczynkiem do utworzenia kompleksowego systemu informacji społecznych, jak ma to miejsce w przypadku Programu Statystyki Sąsiedztwa w Wielkiej Brytanii.

83 Opisanych w rozdziale IV i V.

84

123 Schemat 3.1. Koncepcja utworzenia zintegrowanego repozytorium danych społecznych

Źródło: opracowanie własne

anonimizacja PESEL ZUS NFZ POL-TAX Re je str y BAEL BBGD EU-SILC PGSS DS Łą cz enie de te rmini styc z-ne P arow anie sta tyst yc zn e Dane demograficzne Aktywność ekono-miczna Dochody Dojazdy do pracy Emerytury i renty Stopień niepełno-sprawności Dane demograficzne Aktywność ekonomiczna Dochody Wydatki Jakość życia

Subiektywne opinie i poglądy Wykształcenie Dane demograficzne Aktywność ekono-miczna Dochody Dojazdy do pracy Emerytury i renty Stopień niepełno-sprawności Dane demograficzne Aktywność ekonomiczna Dochody Wydatki Jakość życia

Subiektywne opinie i poglądy Wykształcenie brak danych Dane demograficzne Aktywność ekonom. Dochody Dojazdy do pracy Emerytury i renty Stopień niepełno-sprawności Dane demograficzne Aktywność ekonomiczna Dochody Wydatki Jakość życia

Subiektywne opinie i poglądy Wykształcenie

Łączenie deterministyczne i statystyczne Przetwarzanie danych zintegrowanych

Kalibracja/parowanie statystyczne B ad an ia cz ęśc iowe

Analityczna baza danych Operacyjna baza danych

W kolejnym rozdziale przedstawione zostaną metody statystycznej integracji zbiorów da-nych. Szczególna uwaga poświęcona zostanie metodologii integracji zbiorów, w których występują te same jednostki (np. rejestrów administracyjnych, spisów itp.), jak również in-tegracji zbiorów danych pochodzących z badań próbkowych. Przedstawione zostaną metody harmonizacji definicji zmiennych, ich wariantów, a także zaprezentowane zostaną formalne metody poszukiwania rekordów odnoszących się do tych samych jednostek lub rekordów podobnych. Szczegółowo opisane zostaną metody oceny jakości zintegrowanych w sposób statystyczny zbiorów danych, jak również zilustrowane zostaną problemy wynikające ze stosowanych metod.

125

R

OZDZIAŁ

IV. S

TATYSTYCZNE METODY INTEGRACJI DANYCH