Część I. Analiza stanu bieżącego oraz perspektyw i możliwości uzyskania oszacowań wskaźników za pomocą estymacji bezpośredniej oszacowań wskaźników za pomocą estymacji bezpośredniej
1. Diagnoza precyzji wskaźników dla lat 2005 – 2012 przy dotychczasowej wielkości próby badania badania
1.6. Analiza zależności błędów od zbadanej liczby gospodarstw
Z teorii metody reprezentacyjnej wynika, że najważniejszym czynnikiem od którego zależy błąd standardowy wskaźnika jest liczebność zrealizowanej próby. Wynika to z klasycznego wzoru dla oceny błędu losowego SE (w p.proc.) oszacowania frakcji p przy losowaniu prostym na podstawie n
elementowej próby prostej, który ma postać:
= (1 − )100
W przypadku bardziej złożonych schematów losowania stosowanych w badaniach społecznych m.in. w badaniu EU-SILC powyższy wzór wymaga modyfikacji odpowiednim mnożnikiem, zwanym efektem schematu losowania (w badaniach dwustopniowych najczęściej ten mnożnik jest większy od 1), jednak generalna zależność od wielkości próby nadal jest zachowana).
Poniższe wykresy pokazują graficznie podaną ogólną zależność dla kolejnych lat badania oraz najtrudniejszego pod kątem zapewnienia zadanej precyzji wskaźnika AROPE. Według wytycznych Eurostatu5 powinno się dla danych rocznych dla każdego województwa uzyskiwać oceny błędów standardowych SE wskaźnika AROPE na poziomie mniejszym lub równym 1,25 (czyli przedział ufności na poziomie 95% miałby szerokość mniejszą niż 5%).
Oprócz ilustracji graficznych dla danych z każdego roku zbadano jakość dopasowania modeli
regresji liniowej tzn. postulowano zależność: = √ , gdzie a jest nieznanym współczynnikiem,
n – liczbą gospodarstw zbadanych w danym województwie. Obliczenia wykonano w środowisku
systemu R, używając standardowej funkcji lm oraz rlm (wersja regresji odpornej na dane odstające); w obu wersjach uzyskane modele wykazywały bardzo dobrą jakość dopasowania. W oparciu o model wyliczano następnie jak duża powinna być hipotetyczna próba, aby spełnić kryterium Eurostatu.
5 Dokument roboczy Eurostatu: Study on sampling design and estimation of regional poverty indicators (part 2), Eurostat-Luxembourgh, Doc. LC/107-2/14/EN.
41 Rok 2005
Wykres 4. Zależność błędu wskaźnika AROPE od liczby zbadanych gospodarstw dla 2005 roku
Żródło: opracowanie własne
Minimalna liczba gospodarstw zbadanych konieczna aby SE<=1.25 wynosi: 2792*16=44672. Faktyczna liczba zbadanych gospodarstw: 16263.
42 Rok 2006
Wykres 5. Zależność błędu wskaźnika AROPE od liczby zbadanych gospodarstw dla 2006 roku
Żródło: opracowanie własne
Minimalna liczba gospodarstw zbadanych konieczna aby SE<=1.25 wynosi: 2803*16=44848. Faktyczna liczba zbadanych gospodarstw: 14914.
43 Rok 2007
Wykres 6. Zależność błędu wskaźnika AROPE od liczby zbadanych gospodarstw dla 2007 roku
Żródło: opracowanie własne
Minimalna liczba gospodarstw zbadanych konieczna aby SE<=1.25 wynosi: 2942*16=47072. Faktyczna liczba zbadanych gospodarstw: 14286.
44 Rok 2008
Wykres 7. Zależność błędu wskaźnika AROPE od liczby zbadanych gospodarstw dla 2008 roku
Żródło: opracowanie własne
Minimalna liczba gospodarstw zbadanych konieczna aby SE<=1.25 wynosi: 3007*16=48112. Faktyczna liczba zbadanych gospodarstw: 13984.
45 Rok 2009
Wykres 8. Zależność błędu wskaźnika AROPE od liczby zbadanych gospodarstw dla 2009 roku
Żródło: opracowanie własne
Minimalna liczba gospodarstw zbadanych konieczna aby SE<=1.25 wynosi: 2720*16=43520. Faktyczna liczba zbadanych gospodarstw: 13224.
46 Rok 2010
Wykres 4. Zależność błędu wskaźnika AROPE od liczby zbadanych gospodarstw dla 2010 roku
Żródło: opracowanie własne
Minimalna liczba gospodarstw zbadanych konieczna aby SE<=1.25 wynosi: 2696*16=43136. Faktyczna liczba zbadanych gospodarstw: 12930.
47 Rok 2011
Wykres 10. Zależność błędu wskaźnika AROPE od liczby zbadanych gospodarstw dla 2011 roku
Żródło: opracowanie własne
Minimalna liczba gospodarstw zbadanych konieczna aby SE<=1.25 wynosi: 2853*16=45648. Faktyczna liczba zbadanych gospodarstw: 12871.
48 Rok 2012
Wykres 5. Zależność błędu wskaźnika AROPE od liczby zbadanych gospodarstw dla 2012 roku
Żródło: opracowanie własne
Minimalna liczba gospodarstw zbadanych konieczna aby SE<=1.25 wynosi: 3037*16=48592. Faktyczna liczba zbadanych gospodarstw: 13116.
49
Lata 2005-2012 (dane połączone)
Wykres 6. Zależność błędu wskaźnika AROPE od liczby zbadanych gospodarstw dla lat 2005-2012
Żródło: opracowanie własne
Dla modelu na danych połączonych minimalna liczba gospodarstw zbadanych konieczna aby SE<=1.25 wynosi: 2866*16=45856.
50
W dalszych analizach przyjęto jako wzorcowe modele wyznaczone na danych połączonych, które miały postać (wydruk z programu R):
Model liniowy:
Call:
lm(formula = frm1, data = dd) Residuals:
Min 1Q Median 3Q Max -0.7629 -0.2297 -0.1057 0.1432 0.7967 Coefficients:
Estimate Std. Error t value Pr(>|t|) I(1/sqrt(n_gosp)) 67.1738 0.6524 103 <2e-16 *** ---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.2794 on 127 degrees of freedom Multiple R-squared: 0.9882,Adjusted R-squared: 0.9881 F-statistic: 1.06e+04 on 1 and 127 DF, p-value: < 2.2e-16
Odporny model liniowy:
Call: rlm(formula = frm1, data = dd, maxit = 100) Residuals:
Min 1Q Median 3Q Max -0.74869 -0.21888 -0.09781 0.15175 0.80791 Coefficients:
Value Std. Error t value I(1/sqrt(n_gosp)) 66.9216 0.6591 101.5279
Residual standard error: 0.3081 on 127 degrees of freedom
Na podstawie powyższych obliczeń do dalszych szczegółowych analiz przyjęto model postaci: =√ , który daje liczbę gospodarstw koniecznych do zbadania w każdym województwie, aby nie przekroczyć zadanego progu błędów. W praktyce przyjęto do dalszych rozważań oprócz progu 1,25 dwa mniej restrykcyjne poziomy tzn. 1,50 oraz 1,75, co daje (po zaokrągleniu do pełnych setek) następujące warianty:
Tabela 10. Zestawienie progu błędu standardowego i liczebności próby
SE(%) n
1,25 2900
1,50 2000
1,75 1500
51
W celu ilustracji zamieszczono poniżej wykresy dla danych połączonych i pozostałych wskaźników, które potwierdzają, że osiągnięcie podobnego poziomu błędów jest łatwiejsze niż w przypadku wskaźnika AROPE.
Wyprowadzona powyżej modelowa zależność błędu oceny od liczebności zrealizowanej próby w danym województwie stanowiła podstawę do przygotowania dodatkowego zestawienia zawierającego informacje o przewidywanej precyzji wskaźników po zwiększeniu i zmianie alokacji próby. Przyjęto, że docelowo w każdym z województw będzie zbadane 2900 gospodarstw, co zapewni poziom błędów wskaźnika AROPE (a tym bardziej pozostałych wskaźników) poniżej 1,25 p.proc. Zbadanie założonej liczby gospodarstw w każdym województwie nie gwarantuje uzyskania podobnej precyzji ocen dla szczegółowych przekrojów w ramach województw. O precyzji wyników dla konkretnych kategorii w ramach województwa decyduje przede wszystkich wielkość zrealizowanej próby, która jest proporcjonalna do liczby zbadanych gospodarstw w danym województwie. Zatem można założyć, że po zwiększeniu tej liczby z wartości n do 2900 gospodarstw uzyskamy średnio poprawę rzędu
2900⁄ .
Uwzględniając dane dla szczegółowych przekrojów z lat 2008-2012 przygotowano na podstawie takich założeń zestawienie zapisane w pliku SILC_SE_zmiany.xls. W arkuszu dla danego wskaźnika i poziomu grupowania podano zbiorcze statystyki dla błędów SE (w procentach) tzn. wartość minimalną, średnią, medianę, wartość maksymalną – przed oraz po zmianie wielkości próby. Dane liczbowe pokazują, że w stosunku do sytuacji obecnej można się spodziewać średnio około 2 krotnego zmniejszenia błędów.
Należy zwrócić uwagę, że problemu uzyskania „wiarygodnych szacunków” dla szczegółowych przekrojów nie da się rozwiązać wyłącznie za pomocą narzuconego ograniczenia na błędy wskaźników. Użytkownicy wyników badania powinni rozpatrywać w sposób łączny oceny danego wskaźnika razem z ich błędami, najlepiej za pomocą konstruowania przedziałów ufności. Pozwala to na analizowanie istotności różnic wyników zarówno w kolejnych latach, jak również pomiędzy województwami czy też poszczególnymi kategoriami danego przekroju. W przypadku bliskich wartości ocen wskaźników nawet bardzo mały poziom ich błędów nie daje możliwości stwierdzenia istotnej różnicy.
52 Lata 2005-2012
Wykres 7. Zależność błędu wskaźnika ARPR od liczby zbadanych gospodarstw dla lat 2005-2012
53 Lata 2005-2012
Wykres 8. Zależność błędu wskaźnika SMD od liczby zbadanych gospodarstw dla lat 2005-2012
54 Lata 2005-2012
Wykres 9. Zależność błędu wskaźnika LWI od liczby zbadanych gospodarstw dla lat 2005-2012
55