• Nie Znaleziono Wyników

II.1. Błędy związane z reprezentatywnością prób badawczych

II.1.3. Błąd pokrycia / błędy operatu losowania (coverage / frame error)

Błąd pokrycia jest konsekwencją rozbieżności występujących pomiędzy zbiorem wszystkich elementów należących do badanej populacji oraz możli-wym do zastosowania operatem losowania, to jest rejestrem jednostek, na przykład osób lub też gospodarstw domowych, które można wykorzystać do wyboru reprezentantów owej populacji (por. Biemer 2010a: 33; Groves i in.

2004: 54). W książce Survey Sampling z 1965 roku L. Kish – rozważając potencjalne problemy, na które napotka badacz, decydując się na losowanie próby – przed-stawia opis operatu „idealnego”, uwypuklając jego główne cechy definicyjne:

Operat jest idealny, jeżeli każdy [bez wyjątku – P.J.] element [populacji – P.J.]

pojawia się w nim oddzielnie, jeden, i tylko jeden raz, oraz jeśli nie zawiera on nic innego [poza elementami należącymi do populacji – P.J.]. (Kish 1965: 53) Każde odstępstwo od opisanej przez L. Kisha sytuacji „idealnej” może być przy tym źródłem poważnych błędów, skutkującym obniżeniem poziomu re-prezentatywności próby badawczej. Dla przykładu, jeżeli badacz nie posiada kompletnej listy jednostek statystycznych wchodzących w skład populacji, to, ze względu na niepełne pokrycie oraz zerowe szanse doboru do próby, pewna część jednostek pozostaje niereprezentowana, co może skutkować

wypacze-niem wyników pomiaru. Chociaż problem ten jest przedmiotem szczegółowych analiz w odniesieniu do badań sondażowych realizowanych technikami wywia-dów telefonicznych (CATI) lub ankiet internetowych (CAWI)20, to jednak pozo-staje też w obrębie zainteresowania badaczy skupiających uwagę na wywia-dach prowadzonych tradycyjnymi metodami gromadzenia danych opartymi na bezpośrednim kontakcie z respondentem (PAPI, CAPI). Innymi słowy, choć rzeczywiście w przypadku wywiadów telefonicznych (por. Vicente i in. 2009:

105–111; Curtin i in. 2005: 90–95) oraz ankiet internetowych (por. Dever i in.

2008: 47–62; Heerwegh i in. 2008: 836–846; Couper i in. 2007: 131–148; Ve-hovar et al. 2002: 230–232; Best i in. 2002: 75–77) słabości operatów doboru prób są najbardziej widoczne, to jednak mogą one stanowić źródło problemów we wszystkich typach surveyów, niezależnie od zastosowanych procedur gro-madzenia danych21.

W odniesieniu do operatu losowania identyfikuje się także – poza niepeł-nym jej pokryciem – trzy inne źródła błędów wpływające na jakość rejestrów wykorzystywanych w doborze próby. Pierwszy z nich jest konsekwencją nad-miarowego pokrycia, to jest zawierania jednostek nienależących do badanej populacji. Na przykład, jeżeli sondaż ma być prowadzony na populacji miesz-kańców jakiegoś miasta zameldowanych tam na pobyt stały, a badacz dysponu-je operatem adresowym zawierającym również mieszkańców zameldowanych czasowo, to te wszystkie „dodatkowe” jednostki, które w istocie do badanej populacji nie należą, stanowią odstępstwo od sytuacji pożądanej. Ponieważ jednostki te nie leżą w kręgu zainteresowania badacza, to powinny być zidenty-fikowane przed etapem doboru próby oraz usunięte z operatu. Najczęściej

uda-______________

20 Głównym problemem z wykorzystaniem w sondażach wywiadów telefonicznych oraz an-kiet internetowych jest odpowiedni poziom telefonizacji oraz komputeryzacji populacji będącej przedmiotem badania, który wyklucza pewne kategorie z możliwości wzięcia udziału w badaniu.

Dla przykładu, analiza przydatności techniki wywiadu telefonicznego do badań reprezentatyw-nych, przeprowadzona przez P.B. Sztabińskiego, jest jednoznacznie negatywna. Autor ten wskazu-je, że „[p]roblem reprezentatywności prób do badań występuje […] nawet przy wyposażeniu w telefony przewodowe przekraczającym 90% gospodarstw domowych. Związany jest on z nie-równomiernym ich wyposażeniem w zależności od regionu zamieszkiwania […]. W krajach, w których dysproporcje te są bardzo silne, jak na przykład w Polsce […] w ogóle nie jest możliwe prowadzenie badań na próbach generalnych ludności” (Sztabiński P. 2001: 67). Podobny wniosek można postawić w odniesieniu do techniki ankiety internetowej, gdyż zgodnie z danymi Diagnozy Społecznej za rok 2011, w dostęp do Internetu wyposażonych jest nieco ponad 51% gospodarstw domowych, przy czym jednocześnie z Internetu korzysta 60% Polaków (por. Batorski 2011: 299).

21 W badaniach Europejskiego Sondażu Społecznego, opartego w większości na wywiadach bezpośrednich, wykorzystuje się kilka odmiennych rodzajów operatów losowania obejmujących rejestry (a) jednostek, (b) gospodarstw domowych, lub też (c) punktów adresowych. W każdym kraju biorącym udział w badaniach ESS wyboru odpowiedniego operatu losowania dokonuje się w oparciu o kryterium kompletności danych populacyjnych, tak aby wykorzystany rejestr możli-wie najpełniej pokrywał badaną populację (por. European Social Survey. ESS5-2010. Documenta-tion Report ed. 2.0).

je się je oznaczyć dopiero podczas kontaktu z respondentem, co nie wpływa mimo wszystko w żaden znaczący sposób na wyniki uzyskanego pomiaru22. Można jednak wyobrazić sobie sytuację, w której badaczowi (lub ankieterowi) nie uda się zidentyfikować jednostek błędnie przypisanych do populacji.

W efekcie proces estymacji może być wypaczony przez tę „nadmiarową” część respondentów (por. na przykład Biemer i in. 2003: 65). Co ciekawe, niektórzy autorzy, na przykład Stoop i in. (2010), za Benthlehemem i in. (1986), lokują błąd niepełnego pokrycia w klasie błędów oddziałujących na reprezentatyw-ność prób badawczych, ale błędy wynikające z nadmiarowego pokrycia popula-cji, zaliczają już do klasy błędów oddziałujących na dokładność prowadzonego pomiaru (por. Stoop i in. 2010: 4).

Drugie źródło problemów jest efektem multiplikowania szans doboru jed-nostek należących do populacji. Dla przykładu, gospodarstwa domowe posiada-jące więcej niż jedną linię telefoniczną będą miały większą szansę znalezienia się w próbie, niż gospodarstwa z dostępem do jednego tylko numeru. Podobnie, stosując operaty losowania zawierające zarówno abonentów telefonii stacjo-narnej, jak i mobilnej, daje się większą szansę wyboru tym osobom, które po-siadają telefon komórkowy, a ich gospodarstwo domowe podłączone jest do sieci telefonii stacjonarnej. Co ciekawe, w takich wypadkach owe nierówne prawdopodobieństwa doboru jednostek daje się wyznaczać oraz kompensować w postrealizacyjnym ważeniu danych (por. Lohr 2011: 197–213; Häder i in.

2010: 14–17; Haines i in. 2000: 121–129).

Wreszcie trzecie źródło problemów związanych z operatem doboru próby wynika z braku ekwiwalentności przedmiotowej pomiędzy pożądanymi jed-nostkami populacji oraz dostępnymi jedjed-nostkami losowania. Sytuacja taka wy-stępuje wtedy, gdy jednostka operatu grupuje kilka jednostek populacji. Typo-wym przykładem takiego zjawiska pozostają operaty numerów telefonicznych, a także adresowe próby gospodarstw domowych wykorzystywane do losowa-nia jednostek indywidualnych23. We wszystkich takich przypadkach jednostki operatu nie przystają do jednostek populacji, a wybór konkretnego responden-ta wymaga sporządzenia (kompletnej) listy jednostek wchodzących w jego skład oraz określenia zasad wewnątrzzespołowego doboru osób do wywiadu.

Innymi słowy, problemy wynikające z niedoskonałości operatów mogą być powiązane ze schematami losowania prób badawczych, a nawet z problemami jednostek niedostępnych, czy też wreszcie z trafnością mierników oraz

rzetel-______________

22 Zmniejsza się jednak wielkość zrealizowanej próby badawczej, a zatem przyrasta poziom błędu statystycznego.

23 Z sytuacją taką będzie się miało do czynienia wtedy, gdy populacją są pojedyncze osoby, a operat pozwala na dobór gospodarstwa domowego, numeru telefonicznego czy też adresu, czyli na wylosowanie grupy jednostek.

nością odpowiedzi udzielanych przez członków wylosowanych gospodarstw domowych (por. Biemer i in. 2003: 66).

W kontekście opisu i analizy źródeł błędów pokrycia należy zauważyć, że, pomimo iż w literaturze metodologicznej badacze identyfikują zazwyczaj (omówione powyżej) cztery typy błędu (systematycznego), to jest niepełne i nad-miarowe pokrycie, multiplikowanie jednostek oraz brak ekwiwalentności przed-miotowej operatu i populacji, to jednak wielkość błędu wyznaczana jest najczę-ściej tylko w odniesieniu do niepełnego pokrycia24. Tym samym pomija się drugie, trzecie oraz czwarte źródło błędów (por. Biemer 2010b: 840; Groves i in. 2004: 55; Biemer i in. 2003: 69). Jest to konsekwencją tego, że znaczna część problemów mających swe źródło w operatach losowania rozwiązywana jest przez wykorzystanie odpowiedniego schematu losowania próby badawczej lub też na etapie postsurveyowego ważenia danych. Niemniej jednak, mówiąc o systematycznym błędzie operatu, ma się najczęściej na myśli te ułomności rejestrów populacji, które wynikają z rozbieżności w jej pokryciu.

Wielkość błędu pokrycia definiowana jest przy tym jako różnica pomiędzy wartością parametru w części populacji objętej operatem losowania oraz war-tością tego parametru w całej populacji. Jego wielkość zapisać można również

Ryc. II.1. Pokrycie populacji operatem losowania Źródło: opracowanie własne na postawie Groves i in. 2004: 54

______________

24 Nie jest to jednak reguła, bowiem w monografii Nonsampling Error in Survey autorstwa Ju-dith T. Lessler oraz Wiliama D. Kalsbeeka (1992: 16) odnajdujemy definicję błędu nadmiarowego pokrycia populacji. Wielkość błędu definiowana jest jako iloczyn proporcji elementów nadmiaro-wych oraz różnicy w wartościach parametrów odpowiadających warstwie jednostek z populacji oraz spoza populacji.

Badana

populacja Operat

losowania jednostki nieprawidłowo

zaklasyfikowane do populacji

niepokryta operatem część populacji

pokryta operatem część populacji

nieco inaczej: jako iloczyn frakcji jednostek populacji niepokrytych przez ope-rat losowania oraz różnicy pomiędzy wartością parametru w pokrytej oraz niepokrytej przez operat części populacji. Jeżeli zatem przyjmie się, że popula-cja składa się z N jednostek oraz NC jednostek jest zawartych w operacie losowa-nia, a NNC elementów jest pominiętych przez ten operat (przy czym N = NC + NNC), to dla parametru wskaźnika struktury wartość błędu pokrycia wynosi:

(II.12.) B𝑁𝐶≝ 𝑝𝐶− 𝑝

lub

(II.12’.) B𝑁𝐶 ≝ 𝑤𝑁𝐶(𝑝𝐶− 𝑝𝑁𝐶), z kolei dla parametru średniej arytmetycznej:

(II.13.) B𝑁𝐶≝ 𝜇𝐶− 𝜇

lub

(II.13’.) B𝑁𝐶 ≝ 𝑤𝑁𝐶(𝜇𝐶− 𝜇𝑁𝐶).

W przedstawionych wzorach 𝑝𝐶 oraz 𝜇𝐶 oznaczają wartości parametrów wskaźnika struktury oraz średniej arytmetycznej w pokrytej operatem losowa-nia części populacji, 𝑝𝑁𝐶 oraz 𝜇𝑁𝐶 odpowiadają wartościom parametrów w nie-pokrytej operatem losowania części populacji, z kolei 𝑝 oraz 𝜇 odnoszą się do wartości obu parametrów w całej populacji (łącznie pokrytej oraz niepokrytej przez operat), natomiast wNC = NNC /N wyznacza frakcję elementów niepokry-tych przez operat losowania, a wC = NC/N określa część populacji pokrytej ope-ratem doboru próby.

Z powyższych definicji można łatwo odczytać, że jeśli badacz dysponuje operatem zawierającym prawie wszystkie jednostki populacji25, to w zasadzie nie musi się zajmować błędem pokrycia, gdyż jego oddziaływanie na całkowity

______________

25 Niezwykle pouczające w tym względzie okazują się dane metodologiczne Europejskiego Sondażu Społecznego, zawierające szczegółowe informacje o krajowych operatach doboru prób badawczych. Wprawdzie dane o pokryciu populacji nie są dostępne w dokumentacji projektowej ESS dla wszystkich państw, jednak nawet z tych niepełnych danych można odczytać, że wykorzy-stane operaty (imienne oraz gospodarstw domowych) pokrywają w większości państw prawie całkowicie badane populacje. Dla przykładu w Chorwacji, gdzie operatem jest spis gospodarstw domowych, pokryte jest, wedle szacunków, od 94,8% do 97,9% populacji. Podobnie jest też na Słowacji, gdzie operat adresowy pozwala na dotarcie do co najmniej 97% mieszkańców kraju.

Z kolei w Danii oraz Słowenii, gdzie losowanie respondentów odbywa się w oparciu o rejestry indywidualne (podobne do polskiego repozytorium PESEL), pokrywają one odpowiednio 99,9%

oraz 99,0% populacji (por. European Social Survey…: ESS5-2010). Co ciekawe, o ile w odniesieniu do stopnia realizacji próby badawczej oraz efektywności schematu doboru próby wymaga się od krajowych koordynatorów tych badań przedstawienia szczegółowych danych zarówno o ilościo-wym udziale jednostek niedostępnych w próbie, jak też o nierównych prawdopodobieństwach selekcji pewnych kategorii jednostek, to dane o stopniu pokrycia populacji przez operat losowania nie muszą być już upubliczniane.

błąd pomiaru będzie niewielkie, i to nawet przy znacznej odmienności jedno-stek zawartych w populacji oraz w operacie losowania. Wszystko zależy więc zarówno od jakości wykorzystanego operatu, jak też od odsetka populacji, jaką on pokrywa. Warto także zwrócić uwagę na fakt, że w definiowaniu błędu po-krycia (inaczej niż w innych typach błędów) wykorzystuje się pojęcie parame-tru, a nie estymatora, co oznacza, że błąd ten pozostaje w zasadzie niezależny od procesu badawczego26. Komplikacje te niezwykle trafnie ujęli autorzy mo-nografii Survey Methodology, którzy we fragmencie poświęconym błędowi po-krycia stwierdzają, iż:

[i]stnieje on [niezależnie od – P.J.] […] doboru próby, a więc nie jest problemem […] [charakterystycznym dla – P.J.] badań reprezentatywnych. Błąd ten istniał-by też, gdyistniał-byśmy chcieli przeprowadzić badania pełne całej populacji, używa- jąc w tym celu tego samego [rejestru jednostek populacji – P.J.]. (Groves i in.

2004: 54)

Stwierdzenie tego faktu prowadzi do oczywistych trudności związanych z moż-liwością ustalenia wartości błędu pokrycia. Wymaga ono wiedzy o wszystkich elementach składających się na populację, nawet o tych jednostkach, które znajdują się poza dostępnym badaczowi operatem. Trudności te doskonale obrazuje konstatacja R. Grovesa (1989), który mówi, iż:

Nawet jeśli ograniczymy naszą uwagę do średniej arytmetycznej oraz [innych estymatorów punktowych – P.J.], to w praktyce surveyowej nadal będzie bar-dzo trudno wyznaczyć błąd pokrycia. Dane z badań sondażowych nie dostar-czają, same w sobie, informacji o [niepokrytej operatem losowania części popu-lacji – P.J.], ani też o różnicy pomiędzy wartością estymowanej wielkości parametru w pokrytej oraz niepokrytej operatem części populacji. (Groves 1989: 119–120)

Proponowane w literaturze procedury wyznaczania błędu pokrycia są za-tem najczęściej metodami działania nie wprost, wymagającymi dostępu do ze-wnętrznych repozytoriów statystycznych (por. na przykład Biemer 2010b:

840). Być może dlatego F. Sztabiński stwierdza, że „[…] błędy pokrycia popula-cji są najrzadziej uwzględnianym rodzajem błędów zawartych w wynikach ba-dania” (Sztabiński F. 2011: 50)27.

______________

26 Zresztą błąd pokrycia populacji stanowi jedno z podstawowych źródeł błędów w ramach spisów powszechnych (por. Mulry 2007: 345–370; Renaud 2007: 199–210; Lachapelle i in. 2000:

43–52).

27 Zresztą do podobnych wniosków prowadzi lektura artykułu Daniela Kasprzyka oraz Lee Giesbrechta (2003: 342–263). Autorzy ci, odwołując się do pracy Atkinsona i in. (1999:

321–349), prześledzili noty metodologiczne raportów z badań surveyowych pod kątem wykazy-wanych w tych raportach źródeł błędów. Studia te wykazały, że w połowie opracowań wspomnia-no o błędach operatów (nie podając ponadto żadnych dokładniejszych informacji), a w jednym na

II.1.4. Błąd wynikający z niepełnej realizacji próby badawczej