Metodologia Badań Demograficznych 22-24 maja 2006, Zielonka k. Poznania

(1)

Sekcja Analiz Demograficznych Komitet Nauk Demograficznych PAN Al. Niepodległości 164

02-554 Warszawa tel/fax: 646-61-38

e-mail: ewaf@sgh.waw.pl

15/2007

ISSN 1642 - 0101

REFERATY CZĘŚĆ I.

Metodologia Badań Demograficznych

22-24 maja 2006, Zielonka k. Poznania

Zeszyt nr 15. Sekcji Analiz Demograficznych.

(2)

RECENZENCI I. Kuropka I. Roeske-Słomka J. Kurkiewicz

(3)

Przedmowa

Sekcja Analiz Demograficznych KND PAN została powołana na posiedzeniu Prezydium Komitetu Nauk Demograficznych Polskiej Akademii Nauk w dniu 23 września 1999 roku. Jest czwartą obok Sekcji Demografii Medycznej, Sekcji Demografii Historycznej oraz Sekcji Demografii Regionalnej sekcją naukową działającą w ramach Komitetu Nauk Demograficznych Wydziału I. Nauk Społecznych - Polskiej Akademii Nauk.

Sekcję Analiz Demograficznych (SAD) prowadzą: dr hab. Ewa Frątczak, Prof. SGH (przewodnicząca sekcji) i dr hab. Jolanta Kurkiewicz, Prof. AE w Krakowie (z-ca przewodniczącej sekcji). Sekcję Demografii Regionalnej prowadzi dr hab. ElŜbieta Gołata z AE w Poznaniu.

Głównym zadaniem Sekcji Analiz Demograficznych jest organizacja spotkań merytorycznych poświęconych szeroko rozumianym metodom i technikom organizacji badań ludnościowych oraz analiz opisujących zjawiska i procesy demograficzne, ich uwarunkowania i konsekwencje. Zasadniczym celem spotkań SAD jest dokładny i gruntowny opis teoretyczny metodologii oparty na moŜliwie wszechstronnej i najnowszej literaturze wraz z prezentacją konkretnych zastosowań na danych empirycznych umoŜliwiających weryfikację teorii. Prezentacja nowych metod wymaga od referentów zapoznania się z bogatą literaturą przedmiotu i niemałego nakładu pracy. Często upowszechnienie nowej metody wymaga takŜe zapoznania się ze stosownym programem lub pakietem komputerowym umoŜliwiającym sprawną jej aplikację. Zatem działania mające na celu informację o programach komputerowych i organizowanie w przyszłości warsztatów szkoleniowych, to jedno z kolejnych zadań SAD.

Organizatorom Sekcji i osobom prowadzącym SAD zaleŜy na integracji środowiska demograficznego, w tym głównie młodych adeptów nauki, wokół zagadnień szeroko rozumianych badań demograficznych. Zebrania Sekcji Analiz Demograficznych mogą być poświęcone równieŜ prezentacji nowych, twórczych metod analiz lub zastosowań metod (modeli) będących wynikami prac doktorskich lub habilitacyjnych, ukończonych lub znajdujących się w fazie przygotowywania, na odpowiednio zaawansowanym etapie.

Na pierwszym inauguracyjnym zebraniu Sekcji Analiz Demograficznych, które odbyło się 18 stycznia 2000 roku, podjęto dwie inicjatywy:

- Pierwsza z nich stanowiła, Ŝe materiały prezentowane na kolejnych posiedzeniach SAD będą miały formę "Zeszytów Naukowych Sekcji Analiz Demograficznych KND PAN".

KaŜdy zeszyt poświęcony będzie wspólnej tematyce. Podjęto równieŜ starania o uzyskanie formalnej zgody na wydawanie zeszytów, które mają formę tzw. "working paper".

- Druga propozycja dotyczyła cyklicznej organizacji, raz na rok lub co dwa lata,

"Warsztatów z Analizy Demograficznej", jako wspólnego przedsięwzięcia Sekcji Analiz Demograficznych KND PAN i Instytutu Statystyki i Demografii SGH. Stosowna dokumentacja dotycząca "Warsztatów z Analizy Demograficznej", w tym dokumentacja kosztorysowa, została zaakceptowana przez Panią Prof. dr hab. J. Jóźwiak, Dyrektora Instytutu Statystyki i Demografii SGH i jednocześnie Przewodniczącą Komitetu Nauk Demograficznych PAN.

Kolejne dwa numery Zeszytów Sekcji Analiz Demograficznych 15 i 16, zawierają referaty wygłoszone podczas konferencji pt. „Metodologia badań demograficznych”, która odbyła się w Zielonce k. Poznania 22-24 maja 2006 r. Tematyka konferencji idealnie

(4)

wpisała się w główny cel działalności merytorycznej Sekcji Analiz Demograficznych i Demografii Regionalnej Komitetu Nauk Demograficznych. Celem tym jest organizowanie spotkań merytorycznych poświęconych omówieniu najnowszych metod badań i analiz procesów ludnościowych, ich uwarunkowań i konsekwencji. Chodziło nam o przedstawienie nowych trendów w zakresie dostępnych źródeł informacji o ludności, wykorzystania rejestrów administracyjnych (np. PESEL) i integracji baz danych.

Zagadnieniom tym, poświęcona była sesja: Próba nowego spojrzenia na źródła danych ludnościowych. Omówiono tutaj problemy braków odpowiedzi, kalibracji, nowoczesnych metod estymacji pośredniej oraz modelowania wielopoziomowego. Dyskusja dotycząca moŜliwości zastosowań tych metod w demografii podjęta została podczas kolejnych sesji:

Refleksje nad kierunkami badań w zakresie analizy demograficznej, Estymacja pośrednia i modelowanie wielopoziomowe – zastosowania w demografii. Kwestie relacji miedzy procesami demograficznymi a rozwojem gospodarczym analizowano podczas sesji:

Demografia i ekonomia, Ubóstwo i trwanie Ŝycia, Postawy i zachowania. Niniejszy numer zawiera następujące referaty:

1. Paradysz J., Szymkowiak M., Źródła danych ludnościowych

2. Gołata E., Zastosowanie estymacji pośredniej w szacowaniu struktury gospodarstw domowych w Polsce

3. Stanowski M., Kształtowanie się zasobów kapitału ludzkiego w kontekście procesów starzenia się społeczeństw

4. Wróblewska W., Badanie jakości Ŝycia warunkowanej zdrowiem.

5. Przygalińska M., Klasyfikacja województw ze względu na strukturę ludności migrującej w latach 1998-2004

6. Wolańska W., Subiektywna ocena jakości Ŝycia mieszkańców Dolnego Śląska 7. Szwarc K., Metody wyznaczania linii ubóstwa

8. Lange M., Hipotetyczne tablice trwania Ŝycia

9. Kaszkowiak A., Majewska M., Analiza wydłuŜania się przeciętnego trwania Ŝycia na podstawie tablic trwania Ŝycia z lat 1950-2004

10. Mynarska M., Podejście jakościowe w naukach społecznych. Co demografia moŜe zyskać na łączeniu badań ilościowych z jakościowymi?

11. Soja E., Woźniak T., Rzepa B., Wpływ uwarunkowań kulturowych za zachowania matrymonialne (ujęcie kohortowe)

12. Sienkiewicz K., Proces opuszczenia domu rodzinnego w Polsce

Obradom konferencji towarzyszyła oŜywiona dyskusja, będąca przyczynkiem do lepszego zrozumienia i objaśnienia obserwowanych w Polsce gwałtownych przemian wszystkich procesów ludnościowych. Mamy nadzieję, ze zawartość poniŜszych Zeszytów, równieŜ w Państwa ocenie, okaŜe się waŜna w wyjaśnianiu mechanizmów zachowań demograficznych.

Z nadzieją na upowszechnianie informacji o działalności Sekcji Analiz Demograficznych i Sekcji Demografii Regionalnej KND PAN, podejmowanej problematyce badawczej oraz dyskusji podczas spotkań naukowych dokumentowanej w serii Zeszytów Naukowych Sekcji.

Przewodnicząca SDR Przewodnicząca SAD / dr hab. ElŜbieta Gołata, / / dr hab. Ewa Frątczak, Prof. SGH /

(5)

SPIS TREŚCI

Źródła danych ludnościowych...7

1. Ogólny schemat prezentacji populacji ludzkich według rodzajów analiz, obserwacji i metod pozyskiwania danych statystycznych. ... 7

2. Estymacja cząstkowych współczynników demograficznych w czasie i w przestrzeni na podstawie obserwacji retrospektywnej. ...11

3. Imputacja i kalibracja w badaniach reprezentacyjnych. ...17

4. Wnioski ...23

Bibliografia...24

Zastosowanie estymacji pośredniej w szacowaniu struktury gospodarstw domowych w Polsce ...27

Wprowadzenie...27

1. Cel, zakres czasowy i terytorialny, hipotezy badawcze...30

2. Źródła informacji...32

3. ZróŜnicowanie struktury gospodarstw domowych ...34

4. Estymacja bezpośrednia ...37

5. Metody estymacji pośredniej oraz oceny precyzji...39

Podsumowanie...48

Literatura ...50

„Kształtowanie się zasobów kapitału ludzkiego w kontekście procesu starzenia się społeczeństw” ...53

1. Wstęp...53

2. Kształtowanie się współczynnika wsparcia w Polsce w latach 2004-2030 ...54

3. Metody szacowania kapitału ludzkiego...58

4. Analiza kształtowania się zasobów kapitału ludzkiego w Polsce w ujęciu wojewódzkim...63

5. Podsumowanie...75

Literatura ...77

Badanie jakości Ŝycia warunkowanej zdrowiem ...79

Pojęcie jakości Ŝycia...79

Jakość Ŝycia uwarunkowana stanem zdrowia...81

Pomiar jakości Ŝycia uwarunkowanej stanem zdrowia ...81

Studium empiryczne ...82

Wybrane wstępne wyniki badania ...84

Zakończenie...91

Bibliografia...92

Klasyfikacja województw ze względu na strukturę ludności migrującej w Polsce w latach 1998-2004...93

Wprowadzenie...93

Opis metodologii badania struktury ...94

Wyniki badań empirycznych ...96

Zakończenie...106

Subiektywna ocena jakości Ŝycia mieszkańców Dolnego Śląska ...109

1. Wprowadzenie...109

2. Metoda badawcza ...110

3. NajwaŜniejsze warunki udanego, szczęśliwego Ŝycia ...111

4. Jakość Ŝycia mieszkańców woj. dolnośląskiego w 2004 roku...118

5. Zakończenie...124

Literatura ...125

(6)

(7)

Jan Paradysz, Marcin Szymkowiak

Źródła danych ludnościowych

1. Ogólny schemat prezentacji populacji ludzkich według rodzajów analiz, obserwacji i metod pozyskiwania danych statystycznych.

Niniejszy referat dotyczy jakości danych dla badań demograficznych. Co prawda, skoncentrujemy się na statystyce urodzeń, ale zasadnicze punkty naszego wystąpienia łatwo będzie uogólnić na pozostałe elementy ruchu ludności a takŜe na wiele zdarzeń społecznych i ekonomicznych. Zaczniemy od siatki demograficznej w rzadziej przedstawianej formie, gdzie wykorzystuje się tylko zbiorowości zdarzeń drugiego rodzaju¹, patrz rys. 1. Na rysunku 1 widoczne są trzy zasadnicze segmenty odpowiadające trzem rodzajom obserwacji oraz 4 warstwy, które oznaczają poziom ogólnokrajowy i podział na regiony. RozróŜnienie trzech segmentów jest bardzo istotne z punktu widzenia pozyskiwania informacji do analiz demograficznych oraz oceny jakości danych. Przy tym szczególne znaczenie ma obserwacja bieŜąca oraz obserwacja retrospektywna, gdyŜ mogą się zastępować lub uzupełniać. Przy zastępowaniu obserwacji bieŜącej ankietą retrospektywną mamy do czynienia wówczas, gdy statystyka ludności nie dostarcza nam Ŝadnych informacji odnośnie badanego zjawiska w danym okresie. Na przykład w Polsce, dopiero od 1950 r. dysponujemy dostatecznie dobrą statystykę urodzeń dla analizy transwersalnej i dla rekonstrukcji płodności w generacjach rzeczywistych. Dla wcześniejszego okresu albo nie mamy Ŝadnych informacji albo statystyka urodzeń jest niepełna, niepewna i w wyniku znacznych przemieszczeń ludności w okresie powojennym tylko częściowo odpowiada obecnemu obszarowi Polski. Zatem dla okresu przed 1950 r.

zasadniczymi źródłami informacji dla badania małŜeńskości i płodności kobiet są:

1 Statystyka zdarzeń demograficznych według zbiorowości drugiego rodzaju (jedna kohorta, jeden rok kalendarzowy, 2 lata trwania) ma dwie waŜne zalety: a) nie wymaga rejestracji tych faktów według dokładnych dat (dzień, miesiąc, rok), b) w analizach moŜna przechodzić automatycznie od ujęć wzdłuŜnych do poprzecznych i odwrotnie bez dodatkowych przeliczeń. Szczególnie ta druga zaleta jest dla demografów istotna. Zapewne to rozwiązanie posiada pewne niedogodności, ale nie mają one większego znaczenia skoro rodzaju. BliŜej na ten temat J. Paradysz (1999) oraz M. Kędelski, J. Paradysz (2006, rozdział 3).

(8)

a) przedwojenna statystyka ruchu ludności, tylko dla tych obszarów i tych lat, dla których zdołano ją opracować,

b) rekonstrukcja rodzin na podstawie ksiąg parafialnych,

c) badanie dzietności kobiet w ramach Narodowego Spisu Powszechnego (BD NSP70).

(9)

9 Rys. 1 Urodzenia Ŝywe według wieku kobiet oraz źródła pochodzenia danych statystycznych (rodzaju obserwacji) w analizie kohortowej i transwersalnej.

RETROSPEKCJA lub RETROGNOZA O B S E R W A C J A B I E ś Ą C A PROGNOZA

1906 35 A R

1907 34 N R e

1908 33 A

R

e g

1909 32 L

P e

g i

1910 31 I A

o g

i o

1911 30 Z W

l i

^o ⁿ

1912 29 A O

s o

n

1913 28 T

k n

^…

1914 27 T R

a

2

1915 26 R O

1

1916 25 A H

o

1917 24 N O

g

1918 23 S K

ó

1919 22 W

ł

1920 21 E A

e

1921 20 R Z

m

1922 19 S I

1923 18 A A L B C D

1924 17 L A

1925 16 N N

1926 15 A

1942 1943 1944 1945 1946 1947 1948 1949 1950 1951 . . . 1970 . . . 1988 . . . 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009

1927 1928 1929 1930 1931 1932 1933 1934 1935 1936 . . . 1955 . . . 1973 . . . 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994

Objaśnienia: x - wiek kobiet, A, B, C, D - zbiorowości urodzeń naleŜących do wybranych generacji kobiet i w określonych latach kalendarzowych.

Na wykresie zaznaczono pionowymi liniami podwójnymi spisy ludności, w czasie których przeprowadzono badanie dzietności kobiet (1970, 1988, 2002).

Źródło: opracowanie własne

Generacja

kobiet x

Lata kalen- darzowe Generacja kobiet

Obserwacja retrospektywna (okres "prestatystyczny")

Obserwacja prospektywna Obserwacja bieŜąca

(bieŜąca ewidencja ruchu ludności, rejestry

administracyjne, zapisy w księgach metrykalnych)

(10)

Ad a) Przedwojenna statystyka ruchu ludności tylko w ograniczonym zakresie nadaje się do analizy transwersalnej dla zbadania płodności ogólnej według wieku kobiet. Nie była ona opracowana według pojedynczych lat wieku² i nie nadaje się do rekonstrukcji płodności w generacjach rzeczywistych kobiet. Znacznym problemem przy wykorzystaniu przedwojennej Statystyki urodzeń stanowi brak dla poszczególnych lat kalendarzowych struktury kobiet według wieku. Takie struktury zostały opracowane tylko dla lat 1921 i 1931, w których był przeprowadzony Narodowy Spis Ludności.

Ad. b) Propozycja wykorzystania ksiąg metrykalnych w demografii współczesnej jeszcze niedawno spotkała by się w Polsce z krytyką zarówno ze strony demografów jak i demografów – historyków. Ogrom prac związanych z rekonstrukcją rodzin i jej koszt stawiał pod znakiem zapytania celowość tego przedsięwzięcia. JednakŜe wiele krajów europejskich potrafiło wykorzystać to źródło danych juŜ ćwierć wieków temu. Kraje skandynawskie, wykorzystując swoje zasoby metrykalne potrafiły zrekonstruować podstawowe elementy ruchu ludności według okresów i generacji począwszy od XVIII wieku, por. na przykład W.

Lutz (1987). Rozwój informatyki oraz metodologii estymacji dla małych obszarów sprawia, Ŝe takŜe w Polsce zasoby metrykalne mogłyby być wykorzystane z poŜytkiem dla demografii współczesnej. Punktem wyjścia naleŜałoby wybrać losowe próby gniazdowe z poszczególnych regionów Polski trochę na wzór francuskich badań demograficzno – historyczno - przestrzennych prowadzonych w drugiej połowie XX wieku w INED oraz paryskiej WyŜszej Szkole Nauk Społecznych (ESHE).

Ad. c) Badanie zawierania małŜeństw i dzietności w Narodowym Spisie Powszechnym jest z reguły badaniem "płytkim" o niewielkiej liczbie dodatkowych pytań, obok zasadniczego kwestionariusza spisowego, skierowanych do kobiety o określonych cechach demograficznych (wiek, stan, cywilny). W skrajnym przypadku, moŜe to być tylko jedno pytanie: ile badana kobieta urodziła dzieci. Częściej jednak pytań jest znacznie więcej i dotyczą one historii rozrodu i małŜeństwa, przeŜywalności potomstwa, czasami pewnych charakterystyk badanej rodziny. W związku z tym, w Polsce BD NSP było traktowane raczej jako rodzaj „zwykłej” ankiety rodzinnej³ niŜ sposób na uzupełnienie bieŜącej statystyki ruchu ludności, co wyjaśnimy w punkcie 2 niniejszego opracowania.

2 Mała szczegółowość tablic statystycznych w tym okresie ma swoje uzasadnienie w niskiej mechanizacji obliczeń. Dopiero w latach siedemdziesiątych XX zaczęło wykorzystywać w Głównym Urzędzie Statycznym duŜych maszyn cyfrowych typu Odra, Mińsk czy RIAD.

3 O rodzajach ankiety rodzinnej patrz J. Paradysz (1992, s. 13-14).

(11)

2. Estymacja cząstkowych współczynników demograficznych w czasie i w przestrzeni na podstawie obserwacji retrospektywnej.

Pomimo ograniczonego zakresu tematycznego BD NSP ma szereg istotnych zadań do spełnienia⁴. Badanie dzietności kobiet w ramach NSP 1970 było olbrzymim przedsięwzięciem, chociaŜ o 10 lat spóźnionym. Objęło ono 412 tysięcy kobiet, które kiedykolwiek pozostawały w związku małŜeńskim i nie ukończyły 70 lat Ŝycia. Gdyby zostało ono przeprowadzone, tak jak wcześniej planowano, w 1960 r. były szanse rozpoznać dzietność kobiet w okresie międzywojennym. Niestety, wiele do Ŝyczenia pozostawiała tabulacja wyników. Wiele z tablic jest dość dziwna – por. GUS (1971) - nie odpowiada ani potrzebom analizy transwersalnej ani kohortowej. Dwie z tych tablic (16 i 17) w tomie

„ogólnopolskim” stanowią do niczego nieprzydatny „knot”, gdyŜ nie uwzględniono ani podziału kobiet na grupy generacji ani na kohorty małŜeńskie. W jednej grupie zmieszano wszystkie kobiety, zarówno urodzone na początku XX wieku jak i te, które się rodziły 50 lat później. Innymi słowy wymieszano babcie razem z ich córkami i wnuczkami. Stąd wykorzystanie wyników badania opublikowanych w dwóch tomach było nieduŜe⁵. Gdyby nie geniusz i pracowitość Lecha Bolesławskiego z całego kosztownego przedsięwzięcia, jakim było BD NSP1970, społeczeństwo polskie niewiele miałoby poŜytku. Znamienne przy tym, Ŝe L. Bolesławski opracowując swoje tablice zawierania małŜeństw oraz płodności oparł się nie na wspomnianych wyŜej tomach, ale wykonał własne obliczenia na zarejestrowanych na taśmach cyfrowych datach urodzeń trzech pierwszych dzieci w rodzinie, por. L. Bolesławski (1974, 1975, 1976). Z niewielką tylko przesadą moŜna powiedzieć, Ŝe pełnemu wykorzystaniu BD NSP1970 zaszkodziła moda na analizę kohortową, której ukoronowaniem była konferencja w Kiekrzu w 1973r.⁶ Samokrytycznie trzeba przyznać, Ŝe zapatrzone

4 Patrz J. Paradysz (2002). Po pierwsze, zastępuje lub uzupełnia bieŜącą statystykę ruchu ludności w tym okresie, kiedy ona jeszcze nie istniała lub była w złym stanie. Najczęściej dotyczy to zawierania małŜeństw, ich trwałości, owdowień, rozwodów oraz płodności małŜeńskiej. Po drugie, badanie dzietności w ramach NSP przeprowadzone retrospektywnie dostarcza informacji dla analizy kohortowej w takim ujęciu, którego nie przewidziano, organizując wiele lat wcześniej system rejestracji bieŜącej. Po trzecie, BD NSP powinno nam umoŜliwić w tych przekrojach i ujęciach, dla których poza okresami spisu ludności nie dysponujemy strukturami ludności, na przykład analiza płodności kobiet według wykształcenia i aktywności zawodowej. Po czwarte, nowe techniki estymacji stwarzają realne moŜliwości budowy tablic kohortowych dla małych obszarów wielkości lokalnych rynków pracy (powiaty lub podregiony). Po piąte, rozwój samorządności lokalnej spowodował wzrost zainteresowania swoimi Małymi Ojczyznami, w tym takŜe rozwojem demograficznym na poziomie lokalnym.

5 W moich badaniach wykorzystywałem jedynie dwie tablice z tomu ogólnopolskiego: pierwsza i siódmą.

Interesującą jest teŜ tablica 14, ale wymaga ona przekształcenia do potrzeb analizy kohortowej, por. GUS(1971).

6 Pokłosie tej konferencji zawiera publikacja pod red. S. Borowski (1976). Wielu demografów, moŜe nie expressis verbis, wyraŜało przekonanie o wyŜszości analizy kohortowej nad transwersalną. W kaŜdym razie nie

(12)

wówczas w analizę kohortową środowisko polskich demografów nie doceniło moŜliwości rozpoznawania transwersalnych miar reprodukcji ludności dla końca lat trzydziestych, okresu II Wojny Światowej jak i okresu powojennego do 1950 r. Tej wyobraźni zabrakło wówczas tak wybitnym demografom jak Egon Viebrose, Lech Bolesławski i Mieczysław Kędelski.

Kiedy J. Paradysz zdał sobie sprawę z konieczności takiej analizy po powrocie ze stypendium w INED w ParyŜu w czasie pisania swojej pracy habilitacyjnej w 1984 r. było juŜ za późno.

Około 1980 r. zgodnie z pragmatyką w GUS komisyjnie zniszczono owe 412 tysięcy jednostronicowych kwestionariuszy ankietowych a w bliŜej nieznanych okolicznościach zaginęły wspomniane wyŜej taśmy magnetyczne. Opierając się na kohortowych tablicach płodności netto L. Bolesławskiego (1974) moŜna było oszacować transwersalne współ- czynniki płodności w Polsce w latach czterdziestych⁷, por. J. Paradysz (1985, s. 172 - 181).

W badaniu płodności kobiet, obok wielu innych często wykorzystywanym argumentem czasowym jest staŜ małŜeński, por. rys. 2. Analiza zdarzeń według staŜu małŜeńskiego jest, co prawda, mniej uniwersalna⁸ niŜ według wieku, ale lepiej odpowiada płodności kobiet ze względu na krótszy okres obserwacji. Efektywny okres rozrodczy jest znacznie krótszy, gdy się go analizuje w latach staŜu małŜeńskiego niŜ według lat Ŝycia kobiety. I chociaŜ rozwój alternatywnych form poŜycia małŜeńskiego trochę zniwelował te przewagi staŜu nad wiekiem, to i tak kohorty małŜeńskie stanowią niezłą alternatywę dla ujęć według generacji.

Polska statystyka dla analizy płodności małŜeńskiej jest znacznie gorsza od tej według generacji. Systematyczne publikowanie przez GUS tablic dla kohort małŜeńskich zaczęto dopiero od 1974, niestety z błędami. Tak więc dopiero Rocznik Demograficzny 1976 dostarczył nam dane dla płodności małŜeńskiej i to od razu w dwóch tablicach, gdzie jedna ujmuje zbiorowości zdarzeń drugiego a druga trzeciego rodzaju. Obie są znacznie mniej szczegółowe od podobnych tablic publikowanych w Czechach, Niemczech czy we Francji i ograniczają się tylko do 9 lub 10 lat staŜu małŜeńskiego. JednakŜe juŜ na ich podstawie, po wykonaniu pewnych przeliczeń⁹ i przyjęciu upraszczających załoŜeń, moŜna przeprowadzić transwersalną analizę płodności małŜeńskiej oraz zrekonstruować historię rozrodczości w

w pełni zdawano sobie sprawę, Ŝe właściwą ocenę procesów demograficznych zapewni nam wykorzystanie obu rodzajów analizy.

7 Tylko trzy pierwsze kolejności urodzenia

8 Mówiąc o uniwersalności ujęcia według wieku mamy na myśli moŜliwość uwzględnienia w ramach jednej analizy innych elementów ruchu ludności, na przykład w odniesieniu do wędrówek bardzo rzadko mamy informacje o staŜu małŜeńskim migrantów, nawet gdy tylko chodzi o zamęŜnych o Ŝonatych.

9 We wspomnianych wyŜej krajach zupełnie zbędnych. Na przykład, w Niemczech duŜy rocznik statystyczny zamieszcza wśród kilkunastu tablic demograficznych właśnie cząstkowe współczynniki płodności małŜeńskiej dla 20 lat staŜu małŜeńskiego. BliŜej na ten temat pisze J. Paradysz (2002)

(13)

rzeczywistych kohortach małŜeństw, co jest rzadkością w polskiej demografii. W związku z tym na rys. 2 okresem „prestatystycznym”, dla którego moŜna zrekonstruować hipotetyczne

(14)

14 Rys. 2 Urodzenia małŜeńskie według staŜu małŜeńskiego oraz źródła pochodzenia danych statystycznych (rodzaju obserwacji) w analizie kohortowej i transwersalnej.

RETROSPEKCJA lub RETROGNOZA O B S E R W A C J A B I E ś Ą C A PROGNOZA

1941 20 R

1942 19 R e

1943 18

R

e g

1944 17

P e

g i

1945 16

o ^g

ⁱ ^o

1946 15

l i

o n

1947 14

s ^o

ⁿ

1948 13

k n

…

1949 12

a

²

1950 11 C

1

1951 10

o

1952 9

g

1953 8

ó

1954 7

ł

1955 6

e

1956 5

m

1957 4

1958 3 A B D

1959 2 1960 1 1961 0

1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 . . . 1988 . . . 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009

1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 . . . 1988 . . . 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994

Objaśnienia: t - staŜ małŜeński, A, B, C, D - zbiorowości urodzeń małŜeńskich w wybranych kohortach i latach kalendarzowych.

Na wykresie zaznaczono pionowymi liniami podwójnymi spisy ludności, w czasie których przeprowadzono badanie dzietności kobiet (1970, 1988, 2002).

Źródło: opracowanie własne

Kohorty małŜeństw t

Lata kalen- darzowe Rok zawarcia ślubu

Obserwacja retrospektywna (okres "prestatystyczny")

Obserwacja prospektywna Obserwacja bieŜąca

(bieŜąca ewidencja ruchu ludności, rejestry

administracyjne, zapisy w księgach parafialnych)

(15)

kohorty małŜeństw na podstawie badań specjalnych są lata 1974 i wcześniejsze. Wagę problemu zilustrujemy na kilku przykładach dotyczących wybranych zbiorowości urodzeń małŜeńskich – rys. 2., równoległoboki A, B, C, D, które traktujemy tutaj jako parametry populacji generalnej, które wymagają oszacowania. Litera A oznacza liczbę urodzeń małŜeńskich w trzecim roku¹⁰ trwania w kohorcie małŜeństw 1965. Jak łatwo moŜna zauwaŜyć na rys.2, parametr A znajdzie się w obszarze „prestatycznym”, którego nie moŜna oszacować na podstawie bieŜącej Statystyki zdarzeń demograficznych (pierwszy segment kostki danych). Zatem pozostają szacunki na podstawie retrognozy¹¹ oraz badań specjalnych. Pierwszą z nich, czyli retrognozą, nie będziemy się tutaj zajmować. Co się tyczy retrospekcji, to w zasadzie – gdyby w swoim czasie wykonano odpowiednią tabulację wyników – moglibyśmy dysponować informacjami z następujących badań: BD NSP1970, BD NSP1988, mikrospis 1995, BD NSP2002. Jak się w tej sytuacji zachować?

Które z tych badań wybrać? Czy oprzeć się na najstarszym z nich (BD NSP1970), bo jest najbliŜej tego roku, w którym dane zdarzenie miało miejsce? Czy najbardziej aktualne (BD NSP2002), bo mamy najwięcej informacji o tym, jak dane badanie zostało przeprowadzone i mamy najwięcej zmiennych wspomagających? Czy moŜe zgodnie z filozofią badań wyniesioną ze statystyki małych obszarów, wziąć pod uwagę wszystkie z tych badań, aczkolwiek z nierównymi prawdopodobieństwami? Wydaje się, Ŝe w świetle naszych wcześniejszych prac, por. J. Paradysz (2002), powinniśmy dać pierwszeństwo źródłu BD NSP1970. W kaŜdym razie, źródło późniejsze nie musi być lepsze od źródeł wcześniejszych. Prawdopodobnie rola czynników perturbacyjnych (zgony, emigracja, imigracja, błędy pamięci) sprawia, Ŝe większy upływ czasu między zdarzeniem A oraz momentem badania spowoduje obciąŜenie estymatora błędem nielosowym. JednakŜe problem się komplikuje, jeśli uwzględni się zmianę, tutaj poprawę, jakości badań. Jak wynika z naszych wcześniejszych prac, por. J. Paradysz (1989, 1992), BD NSP1988 wydaje się mniej obciąŜone błędami systematycznymi wynikającymi z tytułu odmów.

Zatem moŜna by domniemywać, Ŝe BD NSP1988 było chyba jednak lepiej przeprowadzone, chociaŜ próba była prawie pięciokrotnie mniejsza.

Sprawdzenie jakości poszczególnych źródeł dla estymacji liczby urodzeń A na rys. 2 nie jest moŜliwe z uwagi na tabulację wyników badania dzietności, gdzie zarówno L.

10 Zgodnie z terminologią francuską, zbiorowościom drugiego rodzaju, jakie mamy na obu rysunkach, odpowiada tak zwany wiek osiągnięty w ciągu roku kalendarzowego, por. J. Paradysz (1999).

11 Jest to „odgadywanie” przeszłości na podstawie określonych metod statystycznych, na przykład ekstrapolacji linii trendu wstecz w stosunku do okresu badanego. W sensie czasowym jest to przeciwieństwo prognozy.

(16)

Bolesławski, (1975) jak i J. Paradysz (1992) ograniczyli się do kohort małŜeńskich obejmujących szerszy przedział czasu. Ponadto L. Bolesławski, (1975) wydzielił jeszcze subpopulacje według wieku kobiety w chwili ślubu.

Zbiorowość oznaczona na rys. 2 literą B przedstawia liczbę urodzeń małŜeńskich dla kohorty małŜeństw zawartych w 1985 r., równieŜ w trzecim roku staŜu małŜeńskiego.

W tym przypadku istnieje moŜliwość porównania tej liczby z bieŜącą rejestracją urodzeń.

W tym celu jednak musimy uwzględnić warunki, w jakich zostało przeprowadzone badanie dzietności w ramach NSP 1988. Jak wiadomo, por. J. Paradysz 1992 s. 24 – 28, braki odpowiedzi oraz ich zaleŜność od wielu cech demograficznych sprawiły, Ŝe nie moŜna automatycznie dokonać „uogólnienia” mnoŜąc całą badaną populację przez określony mnoŜnik wynikający ze schematu doboru próby. Koniecznym staje się takiego wywaŜenia wyników badania, Ŝeby próba była moŜliwie najmniej obciąŜona błędami systematycznymi. Problemem tym zajmuje się jedna z najnowszych gałęzi metody reprezentacyjnej pod nazwą kalibracja¹². Temu problemowi, jak teŜ metodom imputacji zostanie poświęcona trzecia część niniejszego opracowania. Sytuacja bardziej się komplikuje, kiedy przechodzimy do mniejszych obszarów niŜ Polska ogółem. Wówczas nawet relatywnie duŜe próby losowe, jak w przypadku BD NSP1970, po podzieleniu na województwa i pięć duŜych miast na prawach województw stają się zbyt małymi liczbami dla estymacji bezpośredniej. Na szczęście w sukurs przychodzi nam pręŜnie rozwijająca się w ostatnich piętnastu latach statystyka małych obszarów¹³. Co prawda, niewielkie są szanse rekonstrukcji współczynników małŜeńskości i płodności w okresie, który nazwaliśmy na rys. 1 i 2 „prestatystycznym”, na podstawie BD NSP1970. JednakŜe juŜ wykorzystanie późniejszego badania dzietności z 1988 w odniesieniu do płodności w kohortach małŜeńskich przed 1975 rokiem stwarza nam takie moŜliwości. Jeszcze większe szanse daje nam w tym zakresie trzystutysięczna próba z NSP2002, gdzie by moŜna było zrekonstruować płodność małŜeńską kobiet w okresie kolejnej wielkiej przemiany demograficznej z lat 1985 – 2015. Zastosowanie metod imputacji i kalibracji danych w przekroju regionalnym będzie tutaj szczególnie interesujące, gdyŜ mamy juŜ dostatecznie duŜo informacji o płodności małŜeńskiej z bieŜącej ewidencji ruchu ludności na poziomie

12 Kalibracją w badaniach sondaŜowych nazywamy takie odwzorowanie próby, Ŝeby ona była moŜliwie bliska tej sytuacji idealnej bez odmów i innych rodzajów nieobecności w badaniu, por. prace J-C.Deville, C- E. Särndal (1992), J-C. Deville (2000), C-E., Särndal i S.Lundström (2005). To pojęcie kalibracji róŜni się od wcześniej spotykanego w statystyce, które się odnosiło do modeli regresji.

13 Poznańskie doświadczenia w tej dziedzinie przedstawiają dwie monografie i kilkadziesiąt innych opracowań, por. m. in. G. Dehnel (2003), E. Gołata (2004), J. Kordos, J. Paradysz (2000), J. Paradysz (2004).

(17)

kraju, które zgodnie z metodologią statystyki małych domen moŜna by wykorzystać jako zmienne wspomagające dla regionów.

Zbiorowość C na rys. 2 ukazuje nam współczesny poziom zaspokojenia informacyjnego w zakresie statystyki urodzeń małŜeńskich. Pomimo pewnej poprawy statystyki ludności, w dalszym ciągu mamy niezadowalającą bieŜącą statystykę zawierania i trwałości małŜeństw. W obecnej formie, zarówno tablice zamieszczane w Roczniku Demograficznym jak i te, które są opracowywane, ale nie są publikowane, nie nadają się bezpośrednio do rekonstrukcji płodności w kohortach małŜeńskich. MoŜna wykorzystać w rekonstrukcji płodności kohortach małŜeńskich dopiero po dość Ŝmudnej interpolacji z szerokich przedziałów wieloletnich na roczne tablicę pt. „Urodzenia Ŝywe małŜeńskie w ...

r. według okresu trwania małŜeństwa i kolejności urodzenia dziecka” (w Roczniku Demograficznym 2001 tabl. 69(115) s.244), która zawiera zbiorowości trzeciego rodzaju.

Druga tablica regularnie zamieszczana w Roczniku Demograficznym (w 2001r. tabl.80 (126)) przedstawia urodzenia małŜeńskie w ... r. według roku zawarcia związku małŜeńskiego. Przedstawia ona zbiorowości drugiego rodzaju w sensie diagramu Lexisa.

Obie te tablice prezentują rozwój rodziny do około 10 roku trwania małŜeństwa. Jest to stanowczo za mało. Dla porównania, Niemcy wśród zaledwie 40 tablic demograficznych w ogólnym Roczniku Statystycznym regularnie zamieszczają co najmniej od 1950r. Ehelich Lebendgeborene nach der Geburtenfolge und der Ehedauer der Mutter¹⁴. Jest to tablica odpowiadająca pierwszej z wyŜej wymienionych w polskim Roczniku Demograficznym, z tym Ŝe urodzenia są szczegółowo rocznikami ujmowane aŜ do 20 roku trwania małŜeństw.

Podobnie szczegółowo klasyfikują urodzenia małŜeńskie Francuzi, Belgowie, Czesi, Słowacy i zapewne wiele innych państw.

PołoŜenie litery C na rys. 2 pokazuje, gdzie kończy się nasza dobra statystyka urodzeń małŜeńskich i gdzie naleŜy ciągle dokonywać Ŝmudnej interpolacji, w szczególności w odniesieniu do urodzeń kolejności trzeciej i dalszych.

3. Imputacja i kalibracja w badaniach reprezentacyjnych.

Jak to zostało wcześniej zasygnalizowane, występowanie braków odpowiedzi w badaniach demograficznych uniemozliwia „uogólnienie” wyników na całą badaną populację poprzez wykorzystanie odpowiedniego mnoŜnika wynikającego ze schematu

14 Por. np. Statistisches Jahrbuch für die Bundesrepublik Deutschland 1998 s. 74.

(18)

doboru próby. Zbyt duŜe braki odpowiedzi w tego typu badaniach wpływają negatywnie nie tylko na końcowe wyniki, powodując duŜe obciąŜenia, ale równieŜ mogą zdyskwalifikować całe badanie ze względu na niewielkie do niego zaufanie wśród jego odbiorców. Braki odpowiedzi mają równieŜ negatywny wpływ na jakość danych statystycznych –zwłaszcza, w przypadku zbyt duŜej ich frakcji.

Braki odpowiedzi występują zarówno w badaniach pełnych jak i częściowych.

MoŜe się wydawać, Ŝe w spisach ludności czy w sprawozdawczości statystycznej przypadki nieudzielania odpowiedzi są rzadsze aniŜeli w badaniach dobrowolnych, takich jak na przykład, Badanie BudŜetów Gospodarstw Domowych. Nie jest to jednak takie oczywiste. W badaniach towarzyszących spisowi, jak na przykład badanie dzietności kobiet NSP 1970 i NSP 1988 braki odpowiedzi sięgały 30%. Z kolei w Badaniach BudŜetów Gospodarstw Domowych wskaźnik braku odpowiedzi wahał się w ostatnich latach od 30% do 50%.

Istnieje wiele powodów, dla których w badaniach występują braki odpowiedzi.

Do najczęstszych naleŜą niemoŜność wzięcia w badaniu ze względu na wiek, chorobę, nieobecność w domu¹⁵, zmiana miejsca zamieszkania. Czynniki te mają charakter obiektywny. Istnieją równieŜ powody mające charakter subiektywny, a więc dana jednostka mogłaby wziąć udział w badaniu ale ze względu na brak czasu czy niechęć do badania odmawia udzielenia odpowiedzi.

Bez względu na przyczyny jakie towarzyszą brakom odpowiedzi, ich występowanie jest źródłem wielu błędów. Jest tak dlatego, Ŝe osoby, które odmawiają wzięcia w badaniu udziału bądź nie udzielają na niektóre pytania odpowiedzi na ogół róŜnią się od tych co biorą w nim udział i dostarczają niezbędnych danych. Wskutek tego, po pierwsze, zmniejsza się efektywny rozmiar badanej próby bądź populacji co ma niekorzystny wpływ na wariancję estymatorów powodując ich zwiększenie. Po drugie, uzyskane wyniki obciąŜone są zbyt duŜymi błędami. Wyznaczone oceny parametrów (średnia, wariancja, współczynnik korelacji etc.) znacznie odbiegają od ich „prawdziwych”

wartości a skonstruowane na podstawie próby przedziały ufności róŜnych parametrów koncentrują się wokół „złych” wartości. Po trzecie, w przypadku braków odpowiedzi rozkłady wielu cech będą zniekształcone i niemoŜliwe będzie zastosowanie wielu

15 Nieobecność w domu moŜe wiązać się z wyjściem, wyjazdem, wykonywaniem pracy itd. MoŜe ona być równieŜ spowodowana niefortunnym doborem terminu badania – co naleŜy wziąć pod uwagę na etapie jego projektowania. Przykładem niedogodnego terminu był spis z 1921 r. Wybór września, który jest miesiącem wykopów ziemniaków spowodował, Ŝe rachmistrzom spisowym trudno było dotrzeć do osób zamieszkujących zwłaszcza tereny wiejskie. Por. J. Paradysz (1997).

(19)

klasycznych metod statystycznych, gdyŜ nie będą spełnione załoŜenia, które im towarzyszą. Po czwarte, zbyt niski wskaźnik udzielonych odpowiedzi nie wpływa korzystnie na pozytywne postrzeganie badania przez jego uŜytkowników i w skrajnych przypadkach moŜe się ono okazać dla nich całkowicie bezuŜyteczne.

NaleŜy zatem w badaniach uwzględniać juŜ na etapie ich projektowania występowanie braków odpowiedzi i podejmować stosowne kroki celem ich redukcji. W praktyce badań statystycznych stosuję się róŜnego rodzaju metody, których celem jest zwiększenie frakcji udzielonych odpowiedzi. Mają one zarówno zastosowanie na etapie zbierania danych (na przykład powtórne badanie jednostek, od których nie uzyskano danych; zastępowanie jednostek nie podejmujących badania innymi; stosowanie róŜnych bodźców – na przykład finansowych¹⁶) oraz na etapie ich opracowywania. Celem tej części pracy jest przedstawienie tych ostatnich, ze szczególnym uwzględnieniem imputacji i kalibracji.

Estymacja w przypadku braków odpowiedzi (estimation in the presence of nonresponse) jest zbiorczym terminem uŜywanym w odniesieniu do grupy metod na podstawie których szacowane są nieznane parametry w oparciu o dane zebrane w wyniku przeprowadzonego badania, w którym występują ich częściowe bądź całkowite braki.

Tylko w niektórych przypadkach moŜna zastosować podejście polegające na pominięciu braków odpowiedzi i ograniczeniu się do jednostek, od których uzyskaliśmy niezbędne dane (na przykład gdy frakcja braków odpowiedzi jest niewielka bądź gdy istniał pewien losowy mechanizm generowania braków odpowiedzi¹⁷)

W literaturze przedmiotu przedstawia się dwie podstawowe metody stosowane w przypadku wystąpienia braków odpowiedzi w badaniach statystycznych: imputacja i kalibracja.

Imputacja to metoda polegajaca na zastąpieniu brakujących danych konkretnymi wartościami celem uzyskania kompletnego zbioru danych.

Wynikiem imputacji jest przypisanie dla kaŜdej jednostki w miejsce brakujących lub niewaŜnych danych jakiejś wartości. Oznacza to, Ŝe brakujące dane zastępowane są ich

16 Więcej informacji na temat metod stosowanych w czasie zbierania danych moŜna znaleźć m.in. w pracy J.

Kordos (1988).

17 W badaniach demograficznych taki „zrandimizowany” mechanizm generowania braków odpowiedzi jednak nie występuje. Wynika to z faktu, Ŝe istnieją zazwyczaj istotne róŜnice między respondentami i nierespondentami. Dlatego przyjęcie załoŜenia, Ŝe braki odpowiedzi maja charakter losowy byłoby źródłem wielu błędów. Bardziej odpowiednie wydaje się uwzględnianie faktu, Ŝe dla niektórych obiektów brak jest całkowicie bądź częściowo danych i dokonywać prób ich wyszacowania bądź skorygowania uzyskanych wyników w oparciu o odpowiednio dobrane wagi.

(20)

„substytutami” i są one z samej definicji „wartościami sztucznymi” NaleŜy jednak podkreślić, Ŝe aby imputacja odegrała swoją rolę w badaniu muszą być spełnione trzy waŜne załoŜenia:

• Imputacja nie powinna prowadzić do obciąŜeń bądź zmian rozkładów cech w zbiorze danych oraz do wzrostu wariancji stosowanych estymatorów,

• Proces imputacji w większym stopniu powinien być uzaleŜniony od danych pochodzących z próby aniŜeli odwoływać się do załoŜe,ń co do natury brakujących danych,

• Oszacowania waŜnych statystyk z próby nie powinny „zbyt mocno” opierać się na imputowanych danych.

W praktyce badań statystycznych bardzo trudno jest dochować powyŜszych załoŜeń. NaleŜy ponadto zachować szczególną uwagę operując na zbiorze danych, wśród których znajdują się równieŜ dane imputowane. NierozwaŜne bowiem uŜycie imputacji moŜe powaŜnie zniekształcić uzyskane wyniki, co z kolei moŜe być źródłem źle wyciągniętych wniosków. W literaturze przedmiotu jak i w badaniach statystycznych w uŜyciu jest wiele róŜnych metod imputacji. Generalnie, imputowane wartości moŜna zaklasyfikować do jednej z trzech głównych kategorii (C-E. Särndal., S. Lundström., 2005, s.153):

• wartości imputowane z wykorzystaniem statystycznych reguł predykcyjnych,

• wartości imputowane uzyskiwane od jednostek badania mających podobne cechy,

• wartości imputowane w oparciu o opinię ekspertów.

Dwie pierwsze kategorie mogą być nazwane wspólnym terminem „imputacyjnych reguł statystycznych” poniewaŜ w procesie wyznaczania substytutów wykorzystywane są róŜnego rodzaju narzędzia i metody statystyczne. W ramach pierwszej kategorii wykorzystuje się relacje zachodzące pomiędzy zmienną imputowaną i innymi zmiennymi, a w drugim przypadku wykorzystywana jest technika „dawca-biorca”, w której obiekt dla którego imputujemy wartości jakiejś zmiennej „poŜycza” wartości od innych, bardzo podobnych obiektów. Trzecia kategoria obejmuje metody bazujące na wiedzy i doświadczeniu specjalistów z zakresu danego badania, którzy wykorzystując równieŜ swoją intuicję dokonują imputacji.

Stosowane w praktyce metody, róŜnią się stopniem złoŜoności, mozliwościami wykorzystania. NaleŜy jednak podkreślić, Ŝe rozwój odpowiedniego oprogramowania w

(21)

zakresie imputacji danych w znacznym stopniu ułatwił moŜliwości imputowania danych, równieŜ w przypadku bardzo skomplikowanych algorytmów.

Dokonując innego rozróŜnienia moŜemy traktować imputowane wartości jako w pełni losowe (gdy procedura imputacyjna przypisuje róŜne na ogół wartości zmiennym imputowanym dla róŜnych obiektów – na przykład imputacja typu hot-deck) oraz mające charakter deterministyczny (kiedy róŜnym obiektom dla imputowanych zmiennych przypisywane są te same wartości – na przykład imputacja z wykorzystaniem średniej).

Losowe przypisanie wartości jakiemuś obiektowi moŜe nastąpić od dowolnej innej jednostki, bądź od jednostki, która została wylosowana z utworzonej wcześniej tzw.

homogenicznej grupy respondentów, utworzonej w oparciu o pewien zestaw cech wspólnych. Podobnie przypisanie średniej dla jakiegoś obiektu, dla którego brak informacji o jakiejś cesze moŜe nastąpić w oparciu o wyliczoną średnią dla wszystkich innych jednostek badania, dla których takie dane posiadamy, bądź moŜna się ograniczyć do jej policzenia w ramach odpowiedniej grupy respondentów.

NaleŜy jednak podkreślić, Ŝe zastosowanie imputacji nie daje gwarancji, Ŝe uzyskiwane wyniki będą mniej obciąŜone w porównaniu z wynikami, które uzyskalibyśmy gdyby nie miało miejsca „fabrykowania” danych. Dlatego naleŜy imputację stosować z duŜą rozwagą, kierując się przy tym doświadczeniem badawczym, intuicją oraz relacjami wykrytymi w zbiorze danych. Imputowane wartości powinny być bowiem „bliskie”

prawdziwym, choć nieznanym na skutek braku odpowiedzi rzeczywistym wartościom.

Drugą z omawianych metod, która znajduje zastosowanie w badaniach statystycznych z brakami odpowiedzi, zwłaszcza w państwach skandynawskich, jest kalibracja. W swych róŜnych formach stała się na przestrzeni ostatnich lat istotnym narzędziem badawczym, które w znacznym stopniu przyczyniło się do poprawy oszacowań róŜnych cech w badaniu, poprzez zmniejszenie obciąŜenia oraz wariancji stosowanych estymatorów. Pojęcie kalibracji, które zostało zasygnalizowane wcześniej, opiera się na odpowiednim doborze wag tak aby zostały zrekompensowane straty informacji związane z występującymi brakami odpowiedzi. Wagi te obliczane są w oparciu o wykorzystanie informacji dodatkowych. Kalibracja jest zatem metodą, w której wykorzystanie pomocniczej informacji, zawartej w wektorze zmiennych pomocniczych, ma przyczynić się do poprawy uzyskiwanych szacunków, w przypadku gdy w badaniu występują braki odpowiedzi. Informacje jaką niesie wektor zmiennych pomocniczych wykorzystuje się do skorygowania wyjściowych wag – wynikających ze schematu losowania próby - celem redukcji obciąŜenia wynikającego z istnienia braków odpowiedzi.

(22)

W rezultacie uzyskuje się równowagę rozumianą w ten sposób, Ŝe po zastosowaniu kalibracji próba jest „wyglądem” zbliŜona do całej populacji. Informacja zawarta w wektorze zmiennych pomocniczych jest wykorzystywana w związku z „ochroną” przed obciąŜeniem związanym z występowaniem braków odpowiedzi oraz celem redukcji wariancji stosowanych estymatorów. Informacje tego typu moŜna pozyskać ze spisów, rejestrów administracyjnych bądź z innych dostępnych badań.

W rezultacie wykorzystania informacji dodatkowej, w postaci wektora zmiennych pomocniczych buduje się tzw. estymatory kalibracyjne, które w wielu przypadkach odznaczają się małym obciąŜeniem, niewielką wariancją i wykorzystują skorygowane (odpowiednio wykalibrowane) wagi w porównaniu z wyjściowymi wagami, wynikajacych ze schematu losowania próby i będącymi odwrotnościami prawdopodobieństw inkluzji jednostki do próby.

Przykładem estymatora kalibracyjnego wartości globalnej

∑

=

= ^N

i

yi

Y

1

jest

∑

=

= ^m

i i i

cal w y

Y

1

ˆ , gdzie wagi kalibracyjne wyraŜają się następującym wzorem¹⁸:

( )

^m ⁱ

i

T i i i T i

i

i d d d x x x

w

1

ˆ

−

=



 



−  +

= ^X ^X

∑

. (1)

W powyŜszym wzorze poszczególne symbole oznaczają : N - liczebność populacji,

yi - wartość zmiennej Y dla i−tej jednostki badania, i=1,K,N.

i

di

π

= 1 - waga odpowiadającą i−tej jednostce badania (π_i oznacza

prawdopodobieństwo inkluzji i−tej jednostki do próby),

N T

i

N

i

N

i ik i

i x x

x 



 



=

∑ ∑ ∑

=1 =1 =1

2

1, ,K,

X - wektor utworzony z wartości globalnych kaŜdej zmiennej

pomocniczej,

−

Xˆ wektor postaci

m T

i

m

i

m

i ik i i

i i

ix d x d x

d 



 



=

∑ ∑ ∑

=1 =1 =1

2

1, , ,

ˆ K

X ,

18 Metoda wyznaczania rozwaŜanego estymatora kalibracyjnego opisana jest szczegółowo w pracy M.

Szymkowiak (2007).

(23)

[

i i ik

]

^T

i = x₁,x₂,K,x

x - wektor złoŜony z wartości wszystkich zmiennych pomocniczych dla i−tego respondenta, i=1,K,m. (m−liczba respondentów, dla których znana jest wartość zmiennej Y ).

Idea konstrukcji estymatorów kalibracyjnych dla pewnej zmiennej Y , dla której nie posiadamy informacji dla wszystkich jednostek badania (braki odpowiedzi)¹⁹ sprowadza się zatem do stworzenia nowych wag w z wykorzystaniem informacji dodatkowej jaką _i niesie wektor zmiennych pomocniczych. Wagi te, co do wartości, powinny być bliskie wyjściowym wagomd i stanowią swego rodzaju „parasol ochronny” przed obciąŜeniem _i związanym z występowaniem braków odpowiedzi.

Jak pokazują doświadczenia państw skandynawskich oraz pionierskie prace z tego zakresu w odniesieniu do badań prowadzonych przez Główny Urząd Statystyczny, wykorzystanie estymatórów kalibracyjnych moŜe stanowić alternatywę w stosunku do estymatorów znanych z klasycznej metody reprezentacyjnej poprzez zmniejszenie w istotny sposób obciąŜenia wynikającego z faktu istnienia braków odpowiedzi - J. Paradysz, M. Szymkowiak (2007).

4. Wnioski

Na zakończenie pozwolimy sobie podlać nasze wywody małym dydaktycznym smrodkiem. W tym celu część naszych wniosków zostanie przedstawiona w formie gambitu szachowego²⁰, gdzie prowokująco rzecz ukazując staramy się pobudzić naszych adwersarzy do śmiałego ataku, mamiąc ich wizją łatwego zwycięstwa. Pozostałe spostrzeŜenia będą poczciwymi truizmami, którym zaprzeczyć nie sposób, chociaŜ bez nich Ŝycie równieŜ miało swój urok.

1. W analizie demograficznej nie ma informacji nieaktualnych.

2. Tylko odpowiednio długie ciągi kohort hipotetycznych i rzeczywistych dają moŜliwość objaśnienia aktualnych procesów demograficznych, patrz teoria translacji demograficznej.

3. Na jakie epitety „ciemnych męŜów” zasłuŜyliby sobie proboszczowie, gdyby zniszczyli księgi metrykalne? Wszak niejednokrotnie zawierały one informacje, z

19 W przypadku wystąpienia braków odpowiedzi estymatory znane z metody reprezentacyjnej (na przykład estymator Horvitza – Thompsona) nie dadzą ze względu na (zazwyczaj) zaniŜone wartości wag d_i właściwych oszacowań.

20 Gambit ParaSzym, gdyŜ obaj autorzy są miłośnikami tej szlachetnej sztuki walki.

(24)

których moŜna byłoby się dowiedzieć o poczęciach przedślubnych i innych mało zaszczytnym faktach, wydawałoby się, zacnych matron.

4. Niszcząc unikatowe dane statystyczne dajemy wyraz swojej pysze z osiągniętego poziomu rozwoju metodologii. Wydaje nam się, Ŝe w przyszłości nie powstaną nowe metody analizy czy nowe podejścia.

5. Podobnie jak nie ma jedynych „słusznych” metod badania tak i nie ma jedynych, pełnych, pewnych i Ŝadnymi błędami nieobciąŜonych, źródeł statystycznych.

6. Uczmy się pracować w warunkach wielości źródeł statystycznych w myśl niemieckiego porzekadła eine Quelle, keine Quelle.

7. Rozwijajmy metody estymacji, które wykorzystują wszystkie dostępne informacje (estymacja pośrednia).

8. Przed wykorzystaniem, źródła zasadnicze i wspomagające naleŜy poddać gruntownej krytyce i ocenie.

9. Uzupełniajmy braki danych w źródłach (imputacja danych).

10. Uwzględniajmy wpływ autoselekcji związanej z nieobecnością w badaniu na jakość wyników (kalibracja).

Bibliografia

Bolesławski L., (1974) Tablice płodności kobiet według generacji. Statystyka Polski.

Warszawa: Główny Urząd Statystyczny.

Bolesławski L., (1975) Prawdopodobieństwo zamąŜpójścia kobiet i urodzeń dzieci (tablice kohortowe). Warszawa: Główny Urząd Statystyczny.

Bolesławski L., (1976) Zastosowanie metod kohortowych w badaniach nad częstością zawierania i trwania związków małŜeńskich oraz nad płodnością. (w:) S. Borowski - red., Analiza kohortowa i jej zastosowanie. Warszawa: Państwowe Wydawnictwa Naukowe s.

139-156.

Borowski S., (1976 – red.) Analiza kohortowa i jej zastosowanie. PWN, Warszawa.

Bracha Cz., (1996),Teoretyczne podstawy metody reprezentacyjnej, PWN, Warszawa.

Dehnel G., (2003) Statystyka małych obszarów jako narzędzie oceny rozwoju ekonomicznego regionów, Wydawnictwo Akademii Ekonomicznej w Poznaniu, Poznań.

Deville J-C., (2000) Generalized calibration and application to weighting for non-response.

[w:] J. G. Bethlehem i P.G. M van der Heijden (eds.} COMPSTAT – Proceedings in Computational Statistics.

Deville J-C., Särndal C-E. (1992) Calibration estimators in survey sampling. Journal of the American Statistical Association. T. 87, s. 376-382.

Estevao V.M., Särndal C-E., (2000) A Functional Form Approach to Calibration, Journal of Official Statistics , Vol. 16, No. 4.

(25)

Estevao V.M., Särndal C-E., (2006) Survey Estimates by Calibration on Complex Auxiliary Information, International Statistical Review, Vol. 74, 127-147.

Gołata E., (2004) Estymacja pośrednia bezrobocia na lokalnym rynku pracy, Wydawnictwo Akademii Ekonomicznej w Poznaniu, Poznań.

GUS (1971) Dzietność kobiet, t. 1, 2. Główny Urząd Statystyczny, Warszawa.

Kędelski M., Paradysz J., (2006) Demografia. Wydawnictwo Akademii Ekonomicznej w Poznaniu, Poznań.

Kordos J., (1988) Jakość danych statystycznych, PWE, Warszawa.

Kordos J., Paradysz J., (2000) Some experiments in small area estimation in Poland.

Statistics in Transition. Vol. 4, Nr 4, s. 679 - 698. Wersja poszerzona.

Longford N. T., (2005) Missing Data and Small Area Estimation, Springer-Verlag.

Lutz W., (1987) Finnish fertility since 1722. Väestöntutkimuslaitos (The Population Research Institute), Helsinki.

Paradysz J., (1985) Wielowymiarowa analiza reprodukcji ludności. Zeszyty Naukowe Akademii Ekonomicznej w Poznaniu, Poznań.

Paradysz J., (1989) O błędach nielosowych w badaniu dzietności kobiet w ramach Narodowego Spisu Powszechnego 1970. [w:] Problemy badań statystycznych metodą reprezentacyjną. Główny Urząd Statystyczny, Warszawa, Biblioteka Wiadomości Statystycznych t. 36, s. 154 - 159

Paradysz J., (1990) Reprodukcja ludności w Polsce. Studium metodologiczno-poznawcze.

Szkoła Główna Planowania i Statystyki, Warszawa.

Paradysz J., (1992) Dzietność kobiet w Polsce. Główny Urząd Statystyczny, Warszawa.

Paradysz J., (1997) Refleksje na temat NSP 2000, Wiadomości statystyczne, nr 10, s. 1-4.

Paradysz J., (1999) Aplikacja metod szkoły francuskiej w nauczaniu demografii w Polsce.

[w:] T. Kowaleski (red.) Nauczanie demografii w szkołach wyŜszych w świetle potrzeb dnia dzisiejszego. Wydawnictwo Uniwersytetu Łódzkiego, Łódź , s. 25-34.

Paradysz J., (1999a) Rekonstrukcja dzietności małŜeńskiej kobiet w późniejszym wieku na podstawie ankiety retrospektywnej. Studia demograficzne, nr 1, s. 13 - 34.

Paradysz J., (2002) Badanie małŜeńskości i dzietności kobiet w narodowych spisach powszechnych. Wiadomości Statystyczne nr 1, s.77 - 87.

Paradysz J., (2004) Zasilanie publicznej statystyki regionalnej za pomocą estymacji dla małych obszarów w perspektywie wykorzystania rejestrów administracyjnych.

Wiadomości Statystyczne nr 3, s.1-9.

Paradysz J., Szymkowiak M., (2007) Imputacja i kalibracja jako remedium na braki odpowiedzi w badaniu budŜetów gospodarstw domowych, Prace Naukowe AE we Wrocławiu. Taksonomia nr 14. Klasyfikacja i analiza danych – teoria i zastosowania, praca w druku.

Platek R., (1990) Metodologiczne problemy braku odpowiedzi w ankietowych badaniach społecznych, Warszawa.

Särndal C-E., Lundström S., (2005) Estimation in surveys with nonresponse. John Wiley and Sons, Chichester.

(26)

Szymkowiak M., (2007) Przyczynek do kalibracji w badaniach statystycznych z brakami odpowiedzi, Zeszyty Naukowe Katedry Statystyki AE w Poznaniu, praca w druku.

(27)

ElŜbieta Gołata Katedra Statystyki

Wydział Informatyki i Gospodarki Elektronicznej Akademia Ekonomiczna w Poznaniu

Zastosowanie estymacji pośredniej w szacowaniu struktury gospodarstw domowych w Polsce

Wprowadzenie

Przemiany społeczne obserwowane w ostatnich latach mają wyjątkowo złoŜony charakter. Dotyczą one nie tylko gospodarki, ale równieŜ procesów demograficznych, norm społecznych, podstaw naszej egzystencji, od typu rodziny począwszy poprzez róŜnorodność form pracy po trwanie Ŝycia ludzkiego. W Polsce przemiany te są odczuwalne ze szczególną ostrością gdyŜ zbiegły się w czasie z transformacją gospodarczą i ustrojową. Przedmiotem niniejszego opracowania jest analiza zróŜnicowania terytorialnego struktury gospodarstw domowych w Polsce jako jednej z podstawowych charakterystyk zachodzących zmian.

Według danych NSP’2002 tradycyjne rodziny tworzone przez małŜeństwo z dziećmi stanowią zaledwie 56% wszystkich rodzin w Polsce. W okresie transformacji, tj.

od poprzedniego spisu powszechnego w 1988 r. odsetek ten zmniejszył się o 6 punktów procentowych. Blisko 23% rodzin to małŜeństwa bezdzietne, a 19,5% rodzin tworzą samotni rodzice z dziećmi. W ostatnim spisie po raz pierwszy poddano badaniu związki nieformalne, stanowią one prawie 2% wszystkich rodzin (0,8% to partnerzy bez dzieci i 1,1% to partnerzy z dziećmi). Osób Ŝyjących w związkach partnerskich w Polsce jest juŜ prawie 183 tys. Blisko 85% to osoby w wieku od 20 do 55 lat (z maksimum przypadającym na grupę wieku od 25-29 lat). Formy związków rodzinnych są coraz bardziej róŜnorodne: kohabitacja, rodzina rekonstruowana tzw. patchwork, rodzina nomatyczna (LAT Living Apart Together)), rodzina bezdzietna DINKS (double – income – no kids), samotni rodzice, związki homoseksualne.

MoŜna mnoŜyć powaŜne wyzwania ekonomiczne i społeczne wynikające z obserwowanych w okresie transformacji zmian zachodzących w strukturze gospodarstw

(28)

domowych w Polsce. Jedno z podstawowych zagroŜeń związane jest z trudnościami na rynku pracy i masową emigracją młodzieŜy w wieku największej mobilności społecznej i zawodowej, oraz aktywności matrymonialnej i prokreacyjnej. Inne wynikają z obserwowanej zmiany modelu rodziny, zmniejszającej się dzietności, zmiany tzw.

kalendarza urodzeń. Szkoły podstawowe i przedszkola doświadczyły juŜ skutków niŜu demograficznego (zamykanie szkół, zmniejszanie liczby nauczycieli). Obecnie problem ten w większym stopniu zaczyna dotyczyć szkół średnich. Na szczeblu akademickim skutki niŜu łagodzi wzrost udziału młodzieŜy kontynuującej naukę w szkołach wyŜszych²¹. Kolejne z wyzwań wobec gospodarki wynika z wydłuŜania się trwania Ŝycia i konieczności zapewnienia opieki osobom samotnym w starszym wieku (por. tab. 1). O starzeniu społeczeństwa mówi się zazwyczaj w kontekście zmian systemu emerytalnego, pomocy ludziom starszym (uboŜenia społeczeństwa, zabezpieczenia pomocy medycznej i socjalnej), rozwoju usług słuŜących tej grupie społecznej.

Tablica 1

Wybrane konsekwencje przemian demograficznych - wyzwania wobec gospodarki Proces demograficzny Konsekwencje ekonomiczne

emigracja siły roboczej (młodej, wykształconej, mobilnej)

niedostatek wykwalifikowanej siły roboczej obecnie i w przyszłości,

brak specjalistów, informatyków, lekarzy, pielęgniarek – spowolnienie rozwoju, niemoŜność zabezpieczenia potrzeb starzejącego się społeczeństwa

bezpośredni i pośredni wpływ migracji na przebieg procesów demograficznych zmiana modelu rodziny,

nowe formy związków, ograniczenie dzietności, zmiana kalendarza płodności,

zamykanie szkół, zmniejszanie liczby nauczycieli,

konieczność dostosowania systemu edukacji do potrzeb rynku pracy,

szkoły wyŜsze – łagodzenie skutków niŜu przez wzrost udziału młodzieŜy kontynuującej naukę (wymogi rynku pracy),

starzenie się społeczeństwa zmian systemu emerytalnego,

pomoc społeczna ludziom starszym (uboŜenie społeczeństwa, zabezpieczenie pomocy medycznej i socjalnej),

rozwój usług słuŜących tej grupie społecznej, rozwój przemysłu na potrzeby ludzi starszych, Źródło: Opracowanie własne

Sprostanie tym wyzwaniom uzaleŜnione jest przede wszystkim od wiedzy jaką dysponujemy w zakresie ich identyfikacji, rozmieszczenia terytorialnego, cech

21 W sposób szczególny ucierpiały szkoły pomaturalne gdyŜ wobec trudności na rynku pracy oraz rozwijającego się szkolnictwa wyŜszego młodzieŜ decyduje się raczej na podjęcie nauki w wyŜszych szkołach zawodowych, aniŜeli kontynuowanie jej w szkołach pomaturalnych.

(29)

specyficznych. Warunkuje ona prowadzenie efektywnej polityki społecznej przez władze samorządowe. Powstają pytania czy występuje istotne zróŜnicowanie omawianych procesów nie tylko w ujęciu przestrzennym, ale takŜe w zaleŜności od charakteru miejscowości zamieszkania, czy władze samorządowe mają wystarczające informacje aby kreować odpowiednią pomoc i rozwój instytucji za nią odpowiedzialnych?

Wagę problematyki przemian demograficznych w kontekście rozwoju gospodarczego kraju i polityki regionalnej UE wskazuje takŜe wybór zmiennych, których szacunek, jako priorytetowych, podjęto w projekcie EURAREA. Zmiennymi tymi były:

dochód gospodarstw domowych, bezrobocie, i odsetek jednoosobowych gospodarstw domowych. Metody szacunku tych charakterystyk analizowane w projekcie EURAREA nie mogą być bezpośrednio stosowane w bieŜącej praktyce statystycznej w Polsce z wielu powodów. Wśród najwaŜniejszych wskazać moŜna:

Analiza przeprowadzona w projekcie EURAREA wykorzystywała podejście symulacyjne bazujące na tzw. superpopulacji – utworzonej specjalnie dla realizacji celów projektu. W rzeczywistości nie dysponujemy „superpopulacją”, na podstawie której moŜna byłoby przeprowadzić odpowiedni szacunek.

Badane w projekcie EURAREA metody estymacji zakładały moŜliwość połączenia na poziomie jednostek indywidualnych rekordów z badania reprezentacyjnego oraz rejestrów. W warunkach polskiej infrastruktury statystycznej dotyczącej ludności, takiej moŜliwości, w chwili obecnej, nie ma.

PowyŜsza sytuacja wskazuje na konieczność stosowania modeli na poziomie jednostek terytorialnych. Nie oznacza to rezygnacji z uznawanych za efektywniejsze, metod estymacji zakładających integrację baz danych. Przykładem takich analiz są prace prowadzone przez G. Dehnel (2007) nad modyfikacją uogólnionego estymatora regresyjnego GREG, D. Bartosińską (2007) w kwestii integracji baz danych i zastosowań SMO w rolnictwie czy podejmowane przez T. Klimanka próby aplikacji modelowania wielopoziomowego łączącego dane jednostkowe i zagregowane w estymacji pośredniej.

Potrzeba podejmowania badań nad właściwościami estymatorów pośrednich wykorzystujących administracyjne źródła informacji wynika równieŜ z konieczności racjonalizacji badań statystycznych, ich integracji i dąŜenia do maksymalnego wykorzystania istniejącej infrastruktury statystycznej. Wyrazem takich działań jest realizacja przez GUS projektu PHARE 2003 pt. „Podniesienie jakości polskiej statystyki”, w którym podprojekt III zajmujący się „Zwiększeniem wykorzystania administracyjnych źródeł danych” rozpatruje je w trzech obszarach: systemu podatkowego, ewidencji