Analiza zależności błędów od zbadanej liczby gospodarstw

Część I. Analiza stanu bieżącego oraz perspektyw i możliwości uzyskania oszacowań wskaźników za pomocą estymacji bezpośredniej oszacowań wskaźników za pomocą estymacji bezpośredniej

1. Diagnoza precyzji wskaźników dla lat 2005 – 2012 przy dotychczasowej wielkości próby badania badania

1.6. Analiza zależności błędów od zbadanej liczby gospodarstw

Z teorii metody reprezentacyjnej wynika, że najważniejszym czynnikiem od którego zależy błąd standardowy wskaźnika jest liczebność zrealizowanej próby. Wynika to z klasycznego wzoru dla oceny błędu losowego SE (w p.proc.) oszacowania frakcji p przy losowaniu prostym na podstawie n

elementowej próby prostej, który ma postać:

= (1 − )₁₀₀

W przypadku bardziej złożonych schematów losowania stosowanych w badaniach społecznych m.in. w badaniu EU-SILC powyższy wzór wymaga modyfikacji odpowiednim mnożnikiem, zwanym efektem schematu losowania (w badaniach dwustopniowych najczęściej ten mnożnik jest większy od 1), jednak generalna zależność od wielkości próby nadal jest zachowana).

Poniższe wykresy pokazują graficznie podaną ogólną zależność dla kolejnych lat badania oraz najtrudniejszego pod kątem zapewnienia zadanej precyzji wskaźnika AROPE. Według wytycznych Eurostatu5 powinno się dla danych rocznych dla każdego województwa uzyskiwać oceny błędów standardowych SE wskaźnika AROPE na poziomie mniejszym lub równym 1,25 (czyli przedział ufności na poziomie 95% miałby szerokość mniejszą niż 5%).

Oprócz ilustracji graficznych dla danych z każdego roku zbadano jakość dopasowania modeli

regresji liniowej tzn. postulowano zależność: = _√ , gdzie a jest nieznanym współczynnikiem,

n – liczbą gospodarstw zbadanych w danym województwie. Obliczenia wykonano w środowisku

systemu R, używając standardowej funkcji lm oraz rlm (wersja regresji odpornej na dane odstające); w obu wersjach uzyskane modele wykazywały bardzo dobrą jakość dopasowania. W oparciu o model wyliczano następnie jak duża powinna być hipotetyczna próba, aby spełnić kryterium Eurostatu.

5 Dokument roboczy Eurostatu: Study on sampling design and estimation of regional poverty indicators (part 2), Eurostat-Luxembourgh, Doc. LC/107-2/14/EN.

41 Rok 2005

Wykres 4. Zależność błędu wskaźnika AROPE od liczby zbadanych gospodarstw dla 2005 roku

Żródło: opracowanie własne

Minimalna liczba gospodarstw zbadanych konieczna aby SE<=1.25 wynosi: 2792*16=44672. Faktyczna liczba zbadanych gospodarstw: 16263.

42 Rok 2006

Wykres 5. Zależność błędu wskaźnika AROPE od liczby zbadanych gospodarstw dla 2006 roku

Żródło: opracowanie własne

Minimalna liczba gospodarstw zbadanych konieczna aby SE<=1.25 wynosi: 2803*16=44848. Faktyczna liczba zbadanych gospodarstw: 14914.

43 Rok 2007

Wykres 6. Zależność błędu wskaźnika AROPE od liczby zbadanych gospodarstw dla 2007 roku

Żródło: opracowanie własne

Minimalna liczba gospodarstw zbadanych konieczna aby SE<=1.25 wynosi: 2942*16=47072. Faktyczna liczba zbadanych gospodarstw: 14286.

44 Rok 2008

Wykres 7. Zależność błędu wskaźnika AROPE od liczby zbadanych gospodarstw dla 2008 roku

Żródło: opracowanie własne

Minimalna liczba gospodarstw zbadanych konieczna aby SE<=1.25 wynosi: 3007*16=48112. Faktyczna liczba zbadanych gospodarstw: 13984.

45 Rok 2009

Wykres 8. Zależność błędu wskaźnika AROPE od liczby zbadanych gospodarstw dla 2009 roku

Żródło: opracowanie własne

Minimalna liczba gospodarstw zbadanych konieczna aby SE<=1.25 wynosi: 2720*16=43520. Faktyczna liczba zbadanych gospodarstw: 13224.

46 Rok 2010

Wykres 4. Zależność błędu wskaźnika AROPE od liczby zbadanych gospodarstw dla 2010 roku

Żródło: opracowanie własne

Minimalna liczba gospodarstw zbadanych konieczna aby SE<=1.25 wynosi: 2696*16=43136. Faktyczna liczba zbadanych gospodarstw: 12930.

47 Rok 2011

Wykres 10. Zależność błędu wskaźnika AROPE od liczby zbadanych gospodarstw dla 2011 roku

Żródło: opracowanie własne

Minimalna liczba gospodarstw zbadanych konieczna aby SE<=1.25 wynosi: 2853*16=45648. Faktyczna liczba zbadanych gospodarstw: 12871.

48 Rok 2012

Wykres 5. Zależność błędu wskaźnika AROPE od liczby zbadanych gospodarstw dla 2012 roku

Żródło: opracowanie własne

Minimalna liczba gospodarstw zbadanych konieczna aby SE<=1.25 wynosi: 3037*16=48592. Faktyczna liczba zbadanych gospodarstw: 13116.

Lata 2005-2012 (dane połączone)

Wykres 6. Zależność błędu wskaźnika AROPE od liczby zbadanych gospodarstw dla lat 2005-2012

Żródło: opracowanie własne

Dla modelu na danych połączonych minimalna liczba gospodarstw zbadanych konieczna aby SE<=1.25 wynosi: 2866*16=45856.

W dalszych analizach przyjęto jako wzorcowe modele wyznaczone na danych połączonych, które miały postać (wydruk z programu R):

Model liniowy:

Call:

lm(formula = frm1, data = dd) Residuals:

Min 1Q Median 3Q Max -0.7629 -0.2297 -0.1057 0.1432 0.7967 Coefficients:

Estimate Std. Error t value Pr(>|t|) I(1/sqrt(n_gosp)) 67.1738 0.6524 103 <2e-16 *** ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.2794 on 127 degrees of freedom Multiple R-squared: 0.9882,Adjusted R-squared: 0.9881 F-statistic: 1.06e+04 on 1 and 127 DF, p-value: < 2.2e-16

Odporny model liniowy:

Call: rlm(formula = frm1, data = dd, maxit = 100) Residuals:

Min 1Q Median 3Q Max -0.74869 -0.21888 -0.09781 0.15175 0.80791 Coefficients:

Value Std. Error t value I(1/sqrt(n_gosp)) 66.9216 0.6591 101.5279

Residual standard error: 0.3081 on 127 degrees of freedom

Na podstawie powyższych obliczeń do dalszych szczegółowych analiz przyjęto model postaci: =_√ , który daje liczbę gospodarstw koniecznych do zbadania w każdym województwie, aby nie przekroczyć zadanego progu błędów. W praktyce przyjęto do dalszych rozważań oprócz progu 1,25 dwa mniej restrykcyjne poziomy tzn. 1,50 oraz 1,75, co daje (po zaokrągleniu do pełnych setek) następujące warianty:

Tabela 10. Zestawienie progu błędu standardowego i liczebności próby

SE(%) n

1,25 2900

1,50 2000

1,75 1500

W celu ilustracji zamieszczono poniżej wykresy dla danych połączonych i pozostałych wskaźników, które potwierdzają, że osiągnięcie podobnego poziomu błędów jest łatwiejsze niż w przypadku wskaźnika AROPE.

Wyprowadzona powyżej modelowa zależność błędu oceny od liczebności zrealizowanej próby w danym województwie stanowiła podstawę do przygotowania dodatkowego zestawienia zawierającego informacje o przewidywanej precyzji wskaźników po zwiększeniu i zmianie alokacji próby. Przyjęto, że docelowo w każdym z województw będzie zbadane 2900 gospodarstw, co zapewni poziom błędów wskaźnika AROPE (a tym bardziej pozostałych wskaźników) poniżej 1,25 p.proc. Zbadanie założonej liczby gospodarstw w każdym województwie nie gwarantuje uzyskania podobnej precyzji ocen dla szczegółowych przekrojów w ramach województw. O precyzji wyników dla konkretnych kategorii w ramach województwa decyduje przede wszystkich wielkość zrealizowanej próby, która jest proporcjonalna do liczby zbadanych gospodarstw w danym województwie. Zatem można założyć, że po zwiększeniu tej liczby z wartości n do 2900 gospodarstw uzyskamy średnio poprawę rzędu

2900⁄ .

Uwzględniając dane dla szczegółowych przekrojów z lat 2008-2012 przygotowano na podstawie takich założeń zestawienie zapisane w pliku SILC_SE_zmiany.xls. W arkuszu dla danego wskaźnika i poziomu grupowania podano zbiorcze statystyki dla błędów SE (w procentach) tzn. wartość minimalną, średnią, medianę, wartość maksymalną – przed oraz po zmianie wielkości próby. Dane liczbowe pokazują, że w stosunku do sytuacji obecnej można się spodziewać średnio około 2 krotnego zmniejszenia błędów.

Należy zwrócić uwagę, że problemu uzyskania „wiarygodnych szacunków” dla szczegółowych przekrojów nie da się rozwiązać wyłącznie za pomocą narzuconego ograniczenia na błędy wskaźników. Użytkownicy wyników badania powinni rozpatrywać w sposób łączny oceny danego wskaźnika razem z ich błędami, najlepiej za pomocą konstruowania przedziałów ufności. Pozwala to na analizowanie istotności różnic wyników zarówno w kolejnych latach, jak również pomiędzy województwami czy też poszczególnymi kategoriami danego przekroju. W przypadku bliskich wartości ocen wskaźników nawet bardzo mały poziom ich błędów nie daje możliwości stwierdzenia istotnej różnicy.

52 Lata 2005-2012

Wykres 7. Zależność błędu wskaźnika ARPR od liczby zbadanych gospodarstw dla lat 2005-2012

53 Lata 2005-2012

Wykres 8. Zależność błędu wskaźnika SMD od liczby zbadanych gospodarstw dla lat 2005-2012

54 Lata 2005-2012

Wykres 9. Zależność błędu wskaźnika LWI od liczby zbadanych gospodarstw dla lat 2005-2012

W dokumencie Dezagregacja wskaźników strategii Europa 2020 na poziom NTS 2 z zakresu pomiaru ubóstwa i wykluczenia społecznego (Stron 40-55)