Metody estymacji pośredniej oraz oceny precyzji

W przeprowadzonym badaniu zastosowano estymację syntetyczną regresyjną oraz estymację złoŜoną wzorując się na opracowaniu opublikowanym przez C. Brachę, B.

Lednickiego i R. Wieczorkowskiego (2004, 32-36). W ramach badania skonstruowano

wiele wersji modeli wykorzystując róŜne zaleŜności i kombinacje zmiennych objaśniających na róŜnych poziomach agregacji. Po dogłębnej analizie i ocenie modeli ostatecznie przyjęto podejście, w którym zmiennymi objaśniającymi są wartości średnie dla domen cech z dodatkowego źródła informacji.

Estymacja syntetyczna regresyjna

Estymator syntetyczny regresyjny zapisać moŜna w następującej postaci:

(1) Y^ˆd(SYN,REG) = Xdβ^ˆ gdzie:

gdzie: ˆ^'₍ _, ₎

REG SYN

Yd - syntetyczny estymator regresyjny wartości średniej szacowanej zmiennej w domenie d,

βˆ - wektor współczynników regresji drugiego rodzaju, otrzymany metodą najmniejszych kwadratów,

X - wartość średnia cechy objaśniającej dla domeny d wyznaczona na podstawie d

dodatkowego źródła informacji.

Wartości zmiennych z dodatkowego źródła informacji traktowano jako odpowiadające wielkościom z populacji generalnej. Wartości zmiennych pomocniczych (których jest q) dostępne są w przekroju wszystkich analizowanych domen, zapisać moŜna w postaci wektorów ^x^d ⁼

(

^{x ,....,}^d¹ ^x^dq

)

^T zakładając, Ŝe liczba zmiennych pomocniczych q jest mniejsza od liczby domen: q < D.

Przyjmując, Ŝe

(2) Yˆ_d₍_SYN_,_REG₎ =x^T_db+u_d gdzie

ud - stochastycznie niezaleŜne zmienne losowe o rozkładach ud ^~ N

( )

⁰^,σd²

[ ]

bq qx1

b nieznany wektor współczynników regresji szacowany na podstawie wzoru

(3) ^b^ˆ ⁼

( )

^X^T^X ⁻¹^X^T^Y^ˆ

X - macierz wartości średnich cech dodatkowych dla domen

Yˆ - wektor wartości średnich badanej cechy dla tych samych domen.

Współrzędnymi wektora Yˆ są estymatory wartości średniej badanej cechy otrzymane w wyniku estymacji bezpośredniej na podstawie próby, por. C. Bracha, B. Lednicki, R.

Wieczorkowski (2004).

Wariancję estymatora syntetycznego regresyjnego oszacowano wzorując się na wyŜej wymienionym opracowaniu (s. 34 i nast.). Wartość oczekiwaną predyktora badanego parametru dla domeny d skonstruowanego na podstawie informacji z BDR zapisać moŜna jako:

(4) ^E

(

^Y^ˆ^d⁽^SYN^,^REG⁾

)

⁼^x^T^d^b^,

róŜnica między oceną estymatora a wartością oczekiwaną jest więc równa:

(5) ^Y^ˆ^d⁽^SYN^,^REG⁾ ⁻^E

( )

^Y^ˆ^d ⁼^x^T^d

^{( )}

^X^T^X ⁻¹^X^T^u^,

(6) ^V

(

^Y^ˆ^d⁽^SYN^,^REG

)

⁼^V

(

^x^T^d

^{( )}

^X^T^X ⁻¹^X^T^uu^T^X

^{( )}

^X^T^X ⁻¹^x^d

)

⁼^σ^u²^x^T^d

^{( )}

^X^T^X⁻¹^x^d^.

Estymatorem wariancji σ_u² jest statystyka

(7)

( ) ∑

− =

= ^D

q u D

1 2

2 1 ˆ

ˆ gdzie reszty modelu moŜna zapisać w postaci:

(8) uˆ_d =Yˆ_d₍_EXP₎−Yˆ_d₍_SYN_,_REG₎ d =1,....,D

Estymator wariancji ^D²

( )

^θ^~^d określony jest następującym wzorem:

(9) ^V

(

^Y^ˆ^d⁽^SYN^,^REG⁾

)

⁼^S²

^{( )}

^u^ˆ ^x^d

^{( )}

^X^T^X ⁻¹^x^T^d^.

Estymacja syntetyczna bazuje na modelu określonym dla duŜego obszaru (np.

całego kraju) wykorzystującego zaleŜności pomiędzy szacowaną zmienną a zmiennymi pomocniczymi. W estymacji syntetycznej przyjmuje się załoŜenie, iŜ relacja pomiędzy zmiennymi: szacowaną i pomocniczymi, obserwowana w duŜym obszarze jest prawdziwa równieŜ dla zawierającego się w nim małego obszaru. Zmienne pomocnicze mogą pochodzić z próby, ale bez ograniczenia do badanej domeny (wówczas wyznaczone są na poziomie jednostek indywidualnych) bądź z dodatkowych źródeł (wówczas są zazwyczaj określone na poziomie domen). W badaniu wykorzystano zasoby BDR wyznaczając wartości zmiennych dodatkowych na poziomie domen. Większość zmiennych dostępnych w BDR to wielkości absolutne, które są nieporównywalne dla jednostek o zróŜnicowanej wielkości (liczbie osób). Dlatego konieczne było dokonanie przeliczeń tak, aby uwzględnione w estymacji zmienne pomocnicze miały wymiar względny. Ostatecznie więc zmienne wykorzystane w estymacji przyjęły następującą postać³³:

33 Wszystkie obliczenia wykonano w SAS-ie przy pomocy specjalnie przygotowanego kodu w języku 4GL, który słuŜył do importu danych z BDR, ich transformacji oraz integracji w jedną bazę danych pomocniczych, a następnie badaniu współzaleŜności, konstrukcji modeli, estymacji i ocenie precyzji. Jest on dostępny w Katedrze Statystyki Akademii Ekonomicznej w Poznaniu.

Zmienne pomocnicze wykorzystane w procesie estymacji:

UDZ_LT14 Udział osób w wieku do 14 lat w ogólnej liczbie ludności

UDZ_PREPROD_OG Udział osób w wieku przedprodukcyjnym w ogólnej liczbie osób UDZ_PREPROD_M Udział męŜczyzn w wieku przedprodukcyjnym w ogólnej liczbie

męŜczyzn

UDZ_PREPROD_K Udział kobiet w wieku przedprodukcyjnym ogólnej liczbie kobiet

UDZ_PROD_OG Udział osób w wieku produkcyjnym w ogólnej liczbie ludności UDZ_PROD_M Udział męŜczyzn w wieku produkcyjnym w ogólnej liczbie

męŜczyzn

UDZ_PROD_K Udział kobiet w wieku produkcyjnym w ogólnej liczbie kobiet UDZ_POSTPROD_OG Udział osób w wieku poprodukcyjnym w ogólnej liczbie osób UDZ_POSTPROD_M Udział męŜczyzn w wieku poprodukcyjnym w ogólnej liczbie

męŜczyzn

UDZ_POSTPROD_K Udział kobiet w wieku poprodukcyjnym w ogólnej liczbie kobiet ZAS Wysokość wydatków na zasiłki i pomoc społeczną w

przeliczeniu na osobę w wieku nieprodukcyjnym Źródło: Bank Danych Regionalnych GUS, 2002

W trakcie badania przeprowadza się analizę korelacji i regresji wybierając model najlepiej odzwierciedlający badaną zaleŜność. Model ten wykorzystywany jest w konstrukcji estymatora syntetycznego regresyjnego oraz złoŜonego. W celu konstrukcji modelu opisującego zróŜnicowanie badanych cech w przekroju domen zastosowano analizę korelacji oraz standardowe techniki analizy regresji. W wyniku zastosowanej procedury doboru zmiennych do modelu metodą regresji krokowej otrzymano następujący model:

R²=0,584.

Oceny estymatora syntetycznego regresyjnego charakteryzują się zdecydowanie większą precyzją aniŜeli oceny estymatora bezpośredniego. Precyzja estymacji niestety nie musi iść w parze z minimalizacją obciąŜenia. PoniewaŜ nie badano, czy spełnione są załoŜenia estymacji syntetycznej (o jednakowej relacji między cechą szacowaną i pomocniczymi w małym i duŜym obszarze), oceniono róŜnice między nieobciąŜonymi Y 1,429 1,488 UDZ_PREPROD_OG 1,473UDZ_PROD_M 0,149 UDZ_PRAC1

ocenami bezpośrednimi i ocenami syntetycznymi. Przy duŜej wariancji ocen estymatora bezpośredniego, mają one jedynie orientacyjne znaczenie (por. wzór (8)). Relacja pomiędzy wariancją estymatora bezpośredniego i syntetycznego minimalizującą średni błąd kwadratowy estymatora złoŜonego prowadzi do określenia udziału – wagi estymatora syntetycznego w estymatorze empirycznym bayesowskim. Warto zwrócić uwagę, iŜ udział estymatora regresyjnego wzrasta w tych domenach, dla których estymator bezpośredni charakteryzował się duŜą wariancją. PoniewaŜ w szacunku frakcji, dla której oceny estymatora bezpośredniego były bardzo mało precyzyjne, waga przypisana estymatorowi syntetycznemu jest dość duŜa.

Estymacja złoŜona

Estymator złoŜony jest średnią waŜoną z dwóch estymatorów. Jednym z typów estymatora złoŜonego jest zestawienie estymatora bezpośredniego z estymatorem syntetycznym. Ma to na celu zbilansowanie obciąŜenia estymatora syntetycznego i niestabilności estymatora bezpośredniego. Dysponując ocenami otrzymanymi przy zastosowaniu syntetycznego estymatora regresyjnego skonstruowano estymator złoŜony.

Dla kaŜdej z domen obliczono kombinację liniową wartości uzyskanej jako ocena estymatora klasycznego i wartości teoretycznej uzyskanej z modelu. Sposób wyboru wskaźnika określającego udział kaŜdego z komponentów wzbudza wiele dyskusji. Jednym z często stosowanych rozwiązań jest γ_d =n_d N_d , inne omówione są w pracach Ghosha i Rao [1994] oraz Holmoya i Thomsena [1998]. Jeśli waga jest równa jedności, to estymator złoŜony nie „poŜycza” mocy z innych domen – nawet gdy wartość oczekiwana liczebności próby w domenie E(n_d) nie jest wystarczająco duŜa, by zapewnić wiarygodną wartość estymatora bezpośredniego. Waga zmniejsza się wraz ze spadkiem liczebności próby n . _d W rezultacie większa waga jest przypisana składnikowi syntetycznemu, gdy wielkość próby w d-tej domenie ulega zmniejszeniu. JeŜeli wartość wagi γ_d wyznaczy się w sposób optymalny, tj. tak aby zminimalizować średni błąd kwadratowy estymatora złoŜonego

) (

COM

Yd , otrzymujemy empiryczny estymator bayesowski. Zapis formalny przedstawić moŜna następująco:

(10) ˆ₍ ₎ ˆ ₍ ₎ ˆ ₍ ₎ (1 )ˆ ₍ _, ₎

REG SYN d d EXP

d d COM d EB

d Y Y Y

Y = =γ + −γ

gdzie: γ_d^,⁰≤γd ≤¹, jest wagą z przedziału (0; 1) minimalizującą MSE(Yˆ_d_{( EB}₎). ˆ ₍ ₎

EXP

Yd - estymator bezpośredni szacowanego parametru, ˆ x^T_dbˆ

) , (_SYN_REG =

Yd - predyktor

rozpatrywanego parametru na podstawie informacji ze źródeł alternatywnych. Wagę γ_d wyznaczono według wzoru [por. Rao, 2003, s. 179, Kordos, Paradysz, 2000]:

(11)

V -wariancja estymatora syntetycznego regresyjnego.

Oszacowanie wariancji estymatora złoŜonego przeprowadzono na podstawie wariancji komponentów [Kordos, 1999, s. 92]:

(12)

ocenie jakości estymacji pośredniej wykorzystano względny błąd szacunku (13)

współczynnika deff jako względnej miary efektywności. Jest on zdefiniowany następującym wzorem:

zastosowanej metody estymacji z efektywnością estymatora bezpośredniego. Wartość współczynnika deff mniejsza od jedności oznacza, Ŝe zastosowana estymacja bayesowska jest bardziej efektywna od estymacji bezpośredniej.

Oceny estymatora syntetycznego regresyjnego charakteryzują się zdecydowanie większą precyzją aniŜeli oceny estymatora bezpośredniego. Precyzja estymacji niestety nie musi iść w parze z minimalizacją obciąŜenia. PoniewaŜ nie badano, czy spełnione są załoŜenia estymacji syntetycznej (o jednakowej relacji między cechą szacowaną i pomocniczymi w małym i duŜym obszarze), oceniono róŜnice między nieobciąŜonymi ocenami bezpośrednimi i ocenami syntetycznymi (por. wzór (9)). Przy duŜej wariancji ocen estymatora bezpośredniego, mają one jedynie orientacyjne znaczenie. Relacja pomiędzy wariancją estymatora bezpośredniego i syntetycznego minimalizującą średni

błąd kwadratowy estymatora złoŜonego prowadzi do określenia udziału – wagi estymatora syntetycznego w estymatorze empirycznym bayesowskim. Warto zwrócić uwagę, iŜ udział estymatora regresyjnego wzrasta w tych domenach, dla których estymator bezpośredni charakteryzował się duŜą wariancją. PoniewaŜ w szacunku frakcji, dla której oceny estymatora bezpośredniego były bardzo mało precyzyjne, waga przypisana estymatorowi syntetycznemu jest dość duŜa.

Rysunek 4. Oceny estymatora empirycznego bayesowskiego odsetka jednoosobowych gospodarstw domowych w przekroju domen

0,05 0,07 0,09 0,11 0,13 0,15 0,17 0,19 0,21 0,23 0,25 0,27

Kujawsko-pomorskie Lubelskie

Lubuskie

Mazowieckie Opolskie

Podkarpackie Podlaskie

Pomorskie

Wielkopolskie Zachodniopom

orskie

M. powyŜej 500 M. 200-500 M. 100-200 M. 20-100 M. poniŜej 20 Wsie

Źródło: Obliczenia własne na podstawie danych BBGD 2002 i BDR GUS

W tablicy 6 zawarto krótką syntezę przedstawionych szacunków frakcji jednoosobowych gospodarstw domowych w przekroju województw (WOJ) i klasy miejscowości zamieszkania (KLM). Natomiast na rys. 4 i 5 przedstawiono oceny estymatora empirycznego bayesowskiego dla kaŜdej z domen oraz precyzję oszacowań.

Rysunek 5. Ocena precyzji szacunku (REE) odsetka jednoosobowych gospodarstw domowych w przekroju domen

Źródło: Obliczenia własne na podstawie danych BBGD 2002 i BDR GUS

Rozpatrując wszystkie domeny łącznie największą precyzję odnotowano dla estymatora empirycznego bayesowskiego. Średni względny błąd szacunku frakcji przekraczający 14%, a dla większości klas miejscowości zamieszkania zdecydowanie wyŜszy, jest po prostu trudny do zaakceptowania. Precyzja ocen estymatora empirycznego bayesowskiego dla wszystkich domen łącznie jest wyraźnie wyŜsza, gdyŜ średnia wartość REE wynosi 3,84%. Dla poszczególnych klas miejscowości zamieszkania jest ona róŜna.

miast od 200 – 500 tys. mieszkańców, gdzie średnia wartość REE wynosi 2,75%. Ogólnie zastosowanie estymacji pośredniej zmniejsza średnią wartość względnego błędu szacunku frakcji o blisko 74% w porównaniu z estymacją bezpośrednią. Potwierdzają to równieŜ wartości współczynnika deff wskazującego zysk na precyzji, który największy jest, średnio biorąc w grupie miast od 100 – 200 tys., a więc tej, która najmniej licznie była reprezentowana w próbie.

Tabela 6. Porównanie estymacji bezpośredniej, syntetycznej i empirycznej bayesowskiej frakcji jednoosobowych gospodarstw domowych dla wszystkich domen łącznie

Estymator bezpośredni Estymator syntetyczny regresyjny

Źródło: Obliczenia własne na podstawie danych BBGD 2002 i BDR GUS

Porównanie precyzji estymacji bezpośredniej i empirycznej bayesowskiej umoŜliwiają przedstawione w tablicy 7 wartości współczynników deff (por. wzór (14)).

Wskazują one wielkość zysku na precyzji estymacji, która jest zróŜnicowana w zaleŜności od analizowanej cechy i domeny, a przede wszystkim jej reprezentacji w próbie oraz relacji pomiędzy zmienną szacowaną a pomocniczymi. Jednak w kaŜdym pojedynczym przypadku zastosowanie estymacji pośredniej poprawia precyzję szacunku.

Tablica 7. Współczynnik deff dla estymatora empirycznego bayesowskiego odsetka jednoosobowych gospodarstw domowych w przekroju domen

Klasa miejscowości Źródło: Obliczenia własne na podstawie danych BBGD 2002 i BDR GUS

Podsumowanie

Wyniki przeprowadzonych szacunków potwierdzają hipotezę o silnym zróŜnicowaniu terytorialnym frakcji jednoosobowych gospodarstw domowych pomiędzy województwami, oraz wewnątrz województw według wielkości miejscowości zamieszkania. Relację tę ukazuje zestawienie zawarte w tabeli 8. ZróŜnicowanie regionalne dla miast, w szczególności duŜych miast jest stosunkowo małe w skali kraju – współczynnik zmienności oszacowanych frakcji waha się od 5,3% do 8,8%. WyŜsze wartości osiąga ta miara dla małych miast (11,7%), a najwyŜsze w przekroju wsi (22%).

Jeśli jednak uwzględnić zróŜnicowanie wewnątrz województw według wielkości miejscowości zamieszkania otrzymano w kaŜdym z regionów wartości współczynnika zmienności rzędu co najmniej kilkunastu procent, z maksimum wynoszącym 28,3% w województwie pomorskim. Najbardziej jednorodne są województwa lubelskie (8,8%) i świętokrzyskie (7,3%).

Tablica 8. ZróŜnicowanie odsetka jedno-osobowych gospodarstw domowych w przekroju województw i klasy miejscowości zamieszkania

Klasa miejscowości zamieszkania Charakterystyki rozkładu

Województwo

Źródło: Obliczenia własne na podstawie danych BBGD 2002 i BDR GUS

Reasumując moŜna stwierdzić, iŜ monitorowanie przemian zachodzących w strukturze gospodarstw domowych pozwalające władzom samorządowym prowadzenie efektywnej polityki społecznej oraz uczestniczenie w polityce regionalnej UE jest moŜliwe dzięki zastosowaniu metod estymacji czerpiących informacje z wszelkich dostępnych źródeł. Sugestie dotyczące dalszych prac nad poprawą precyzji ocen frakcji jednoosobowych gospodarstw domowych oraz minimalizacji ich obciąŜeń sformułować moŜna następująco:

Zastosowanie metodologii SMO umoŜliwia estymację charakterystyk gospodarstw domowych w przekroju małych domen z zadawalającą precyzją szacunku

Klasyczne metody estymacji nie wykorzystują w pełni potencjału, jaki w zakresie poprawy precyzji szacunku daje integracja baz danych, co ogranicza zakres prowadzonych analiz (np. uwzględnienie klasy miejscowości zamieszkania czy wieku ludności)

Racjonalizacja badań polegająca na pełniejszym wykorzystaniu istniejących źródeł statystycznych i nowoczesnych metod estymacji pozwala oczekiwać dalszej poprawy precyzji

Przyszłe badania obok integracji baz danych i konstrukcji modeli na poziomie jednostek indywidualnych powinny uwzględniać wykorzystanie modelowania wielopoziomowego.

Literatura

Bartosińska D. 2007, Metody estymacji parametrów dla małych obszarów w reprezentacyjnych badaniach rolniczych, Wydawnictwo Uniwersytetu im. Marii Curie-Skłodowskiej w Lublinie, Lublin

Bracha C., 1996, Teoretyczne podstawy metody reprezentacyjnej. Wydawnictwo Naukowe PWN, Warszawa

Bracha C., Lednicki B., Wieczorkowski R., 2004, Wykorzystanie złoŜonych metod estymacji do dezagregacji danych z badania aktywności ekonomicznej ludności w roku 2003, GUS, Warszawa

Dehnel G., 2003 Statystyka małych obszarów jako narzędzie oceny rozwoju ekonomicznego regionów, Wydawnictwo Akademii Ekonomicznej w Poznaniu, Poznań.

Dehnel G., 2007, MoŜliwości i ograniczenia estymacji pośredniej w badaniach mikroprzedsiębiorstw SP3, [w:] Statystyka małych obszarów w badaniach podmiotów gospodarczych

red. J. Paradysz, Zeszyty Naukowe Akademii Ekonomicznej w Poznaniu, Poznanń

Ghosh M., Rao J.N.K., 1994, Small Area Estimation: An Appraisal, „Statistical Science”, Vol. 9, No.1;

Gołata E., 1995, Płodność i małŜeńskość w Polsce okresu transformacji gospodarczej,

„Studia Demograficzne” nr3 (121), 1995

Gołata E., 1997, Terytorialne zróŜnicowanie rynku pracy i bezrobocia - Polska 1995, Zeszyty Naukowe Katedry Statystyki, Akademia Ekonomiczna w Poznaniu, 1997

Gołata E., 2002, Demograficzne uwarunkowania terytorialnego zróŜnicowania bezrobocia w Wielkopolsce, Ruch Prawniczy, Ekonomiczny i Socjologiczny, zeszyt 1, 2002

Gołata E., 2004, Estymacja pośrednia bezrobocia na lokalnym rynku pracy, Wydawnictwo Akademii Ekonomicznej w Poznaniu.

Holmoy A.M.K., Thomsen I., 1998, Combining Data From Surveys and Administrative Record Systems. The Norvegian Experience, International Statistical Review, No.66, s.201-221

Kordos J., 1999, Empiryczna estymacja bayesowska dla małych obszarów, „Kwartalnik Statystyczny” nr 1.

Kordos J., Paradysz J., 2000, Some experiments in small area estimation in Poland, Statistics in Transition 4.4., pp. 679—697

Myrsylä P., Ruotsalainen K., Use of the Administrative Data from Population Information System for Statistics Finland, 2004, Statistics Finland, Materiały na seminarium organizowane przez GUS pt. Dane administracyjne w statystyce – Polska na tle Danii, Finlandii i Szwecji PHARE 2003 – „Podniesienie jakości polskiej statystyki”, Jachranka 25-27 październik 2004,

Paradysz J., 1998, Small Area Statistics in Poland - First Experiences and Application Possibilities, „Statistics in Transition” vol. 3, no. 5, s. 1003-1015.

Paradysz J., 1999, Statystyka małych obszarów, w: Przestrzenno-czasowe modelowanie i prognozowanie zjawisk gospodarczych, red. A. Zeliaś, Wyd. AE w Krakowie, Kraków.

Rao J.N.K., 1999, Some Recent Advances in Model-Based Small Area Estimation,

„Survey Methodology” vol. 25, Statistics Canada.

Rao J.N.K., 2003, Small Area Estimation, Wiley –Interscience, John Wiley and Sons, INC., Hoboken, New Jersey

Särndal C.E., Swensson B., Wretman J., 1992, Model Assisted Survey Sampling, Springer Verlag, New York i in.

Schaible W.L., 1993, Use of Small Area Estimators in U.S. Federal Programs, w: Small Area Statistics and Survey Designs, red. G. Kalton, J. Kordos, R. Platek, vol. I,

Social Statistics in Denmark, Experiences and achievments, 2004, Statistics Danmark, Materiały na seminarium organizowane przez GUS pt. Dane administracyjne w statystyce – Polska na tle Danii, Finlandii i Szwecji PHARE 2003 – „Podniesienie jakości polskiej statystyki”, Jachranka 25-27 październik 2004,

Sources for the Tax System for Natural Persons in Sweden, 2004, Statistics Sweden, Materiały na seminarium organizowane przez GUS pt. Dane administracyjne w statystyce – Polska na tle Danii, Finlandii i Szwecji PHARE 2003 – „Podniesienie jakości polskiej statystyki”, Jachranka 25-27 październik 2004,

Marcin Stonawski

Akademia Ekonomiczna w Krakowie

„Kształtowanie się zasobów kapitału ludzkiego w kontekście procesu starzenia się społeczeństw”

Praca wykonana w ramach projektu badawczego nr 2 H02E 006 24 pt. „Dobrobyt osób w starszym wieku” finansowanego przez Komitet Badań Naukowych.

W dokumencie Metodologia Badań Demograficznych 22-24 maja 2006, Zielonka k. Poznania (Stron 39-53)