Operaty wielokrotne - Procedury ograniczania błędów operatów doboru prób badawczych

III.3. Procedury ograniczania błędów operatów doboru prób badawczych

III.3.3. Operaty wielokrotne

W wielu sytuacjach problem niepełnego pokrycia udaje się ograniczyć (lub nawet wyeliminować) poprzez jednoczesne zastosowanie wielu operatów.

Wydaje się, że procedura ta jest najczęściej wykorzystywaną techniką redukcji błędu niepełnego pokrycia populacji operatem losowania. Całość opiera się na bardzo prostej idei, a mianowicie, że jeśli nawet pojedynczy wykaz jednostek obejmuje wyłącznie część populacji docelowej, to jednak razem zawierają one więcej, niż każdy z nich osobno. Przykładem wykorzystania procedury wielu operatów jest uzupełnianie wykazu numerów telefonicznych (stacjonarnych i/lub mobilnych) o adresową listę gospodarstw domowych. Takie połączenie pozwala na wylosowanie do próby tych osób, które nie mają dostępu do telefo-nii stacjonarnej oraz/lub nie korzystają w ogóle z telefotelefo-nii komórkowej (por.

Link i in. 2011: 613–635; Groves i in. 2004: 87–88). Być może najważniejszym udogodnieniem stojącym za użyciem różnych operatów pozostaje jednak moż-liwość redukcji kosztów związanych z realizacją badań terenowych. Dzieje się tak, gdy główna część badań prowadzona jest w oparciu o mniej kosztochłonną technikę wywiadów telefonicznych, uzupełnianą – wymagającą większych na-kładów – techniką wywiadów osobistych prowadzonych już na próbach adre-sowych (por. Opsomer 2011: 227; Lohr 2009: 72–73).

Jednak najbardziej charakterystycznym przykładem zastosowania procedu-ry operatów wielokrotnych pozostają badania prowadzone techniką wywiadów telefonicznych z losowym generowaniem numerów stacjonarnych oraz

komór-kowych⁷⁷. Nie tyle zasadność, ile konieczność wykorzystania w wywiadach telefonicznych takich podwójnych operatów potwierdzają wyniki Diagnozy Społecznej z 2011 roku. W raporcie sprawozdawczym z tych badań, w części poświęconej korzystaniu przez Polaków z technologii teleinformatycznych, odnaleźć można niezwykle interesującą konstatację odnośnie zmian w dostępie do telefonii stacjonarnej oraz sieci GSM:

Nadal maleje liczba gospodarstw domowych posiadających telefon stacjonarny.

Obecnie jest ich nieco ponad połowa. Oczywiście wynika to przede wszystkim z upowszechnienia telefonii komórkowej – obecnie telefon komórkowy posia-dają osoby z 87,9 proc. gospodarstw domowych, a więc komórki są w znacznie większej liczbie gospodarstw domowych niż telefony stacjonarne. W aż 57,7 proc.

gospodarstw telefon komórkowy ma każda osoba. Własny telefon komórkowy ma 85,1 proc. osób w wieku 16 i więcej lat. Wśród osób, które nie mają telefonu komórkowego, 10,1 proc. ma w domu telefon stacjonarny. Zaledwie 4,8 proc. to osoby, które nie mają ani własnej komórki, ani telefonu stacjonarnego. (Bator-ski 2011: 301)

Innymi słowy, chociaż połączone rejestry nie zawierają wszystkich jedno-stek z populacji, to jednak pokrywają one dużo większą jej część, niż brane po-jedynczo spisy abonentów stacjonarnych oraz wykazy posiadaczy telefonów mobilnych. Oczywiście, choć zwiększenie pokrycia populacji ogranicza ryzyko błędu systematycznego, to jednak może prowadzić do innych błędów losowych oraz nielosowych⁷⁸.

______________

77 Można zauważyć, że ma się tu rzeczywiście do czynienia z dwoma różnymi operatami. Choć w obu sytuacjach losowaniu podlega numer telefoniczny, to jednak wygenerowanie numeru sta-cjonarnego oznacza losowanie gospodarstwa domowego (tj. zespołu osób, z których należy jeszcze dobrać konkretnego respondenta), natomiast wygenerowanie numeru komórkowego oznacza wylosowanie jednostki, tak więc żadnego dodatkowego losowania nie trzeba już przeprowadzać).

78 Ciekawym studium ukazującym ograniczenia możliwości wykorzystywania losowego gene-rowania numerów stacjonarnych oraz komórkowych w badaniach prowadzonych techniką CATI pozostają studia Britty Busse i in. (2012: 1209–1225), jak również analizy M.J. Bricka i in. (2011:

1–12), będące kontynuacją wcześniejszych badań Bricka i in. (1995: 218–235). Autorzy ci ukazują, że potencjalne korzyści wynikające z redukcji błędu pokrycia poprzez zastosowanie wielu opera-tów niwelowane są przez przyrost błędów braku odpowiedzi oraz błędów pomiarowych. Innymi słowy, w przywoływanych studiach ukazano, że włączenie do próby badawczej użytkowników telefonów komórkowych może skutkować znacznym wypaczeniem danych wynikającym z więk-szej liczby odmów udziału w badaniu oraz z komplikacji pomiarowych. Zatem korzyści wynikające z zastosowania podwójnych operatów okazują się w najlepszym przypadku zupełnie marginalne.

W podobnym duchu wypowiadają się też inni badacze, wymieniając choćby P. Vicente i in (2009:

105–111), Tephena Blumberga i in. (2007: 734–749) czy też Eleanor Singer (2006: 637–645). Nie jest to szczególnie zaskakujące, bowiem działania podejmowane w celu ograniczenia jednych typów błędów mogą prowadzić do przyrostu wielkości błędów z innych źródeł. Proces badawczy jest przecież pewną całością i jako taką należy ją ostatecznie rozpatrywać. O tym, czy zastosować procedurę wielokrotnych operatów, decydować będzie zatem nie tylko to, czy działanie takie pozwoli zredukować błędy pokrycia, ale również, czy ogólne korzyści będą przewyższać negatyw-ne konsekwencje.

Ryc. III.5. Redukcja błędu niepełnego pokrycia poprzez wykorzystanie wielu operatów Źródło: opracowanie własne

Mechanizm ograniczenia błędu pokrycia poprzez wielokrotne operaty można przedstawić w formie graficznej zaprezentowanej na rycinie III.5.

Schemat ten ukazuje, że pokrycie populacji wieloma operatami pociąga za sobą nietrywialne komplikacje natury metodologicznej. Bodaj najpoważniejszą konsekwencją jest to, iż losując próbę z wielu operatów, daje się większe szanse selekcji tym wszystkim jednostkom, które znajdują się w wykazie więcej niż jednego rejestru (por. Groves 1989: 126–127). Dla przykładu, gdy operaty abo-nentów telefonii stacjonarnej zostają uzupełnione operatami adresowymi go-spodarstw domowych, to te gogo-spodarstwa domowe, które posiadają dostęp do linii telefonicznej, mają większe prawdopodobieństwo wylosowania od tych, z którymi można nawiązać wyłącznie bezpośredni kontakt. W konsekwencji te pierwsze będą nadreprezentowane, a drugie niedoreprezentowane w próbie badawczej. Podobnie dzieje się, gdy losowanie opiera się na operatach abonen-tów telefonii stacjonarnej oraz mobilnej. Po pierwsze, większe szanse selekcji mają wtedy użytkownicy telefonów komórkowych posiadający również w swo-ich gospodarstwach domowych telefon stacjonarny. Po drugie, abonenci wielu numerów komórkowych lub stacjonarnych mają zwiększone szanse wyboru w porównaniu do osób korzystających wyłącznie z jednego numeru.

W literaturze metodologicznej odnaleźć można opis wielu metod umożli-wiających rozwiązanie tego problemu. Do najważniejszych z nich należy zali-czyć: (a) działania zmierzające do wyeliminowania wielokrotnego pokrycia jednostek (por. Groves i in. 2004: 88), (b) szacowanie wartości parametrów

populacyjnych w oparciu o estymatory Horvitza–Thomsona przypisujące każ-dej jednostce wagi odpowiadające odwrotnościom szans ich selekcji do próby badawczej (por. Kalton 2009: 134; Groves i in. 2004: 88) wraz z różnymi mody-fikacjami procedur przypisywania wag (por. Chu i in. 1999: 103–104; Lavallée 1995: 25–32) oraz (c) szacowanie wartości parametrów populacyjnych w opar-ciu o estymatory Hartleya, minimalizujące wariancję w zbiorze jednostek wylo-sowanych ze wspólnej części obu operatów doboru próby (por. Kalton 2009:

135; Groves i in. 2004: 88–89; Groves 1989: 125–126) wraz z różnymi mody-fikacjami tych estymatorów (por. Lohr 2011: 197–213; Lohr 2009: 76–84;

Buskirk 2008: 212–215).

Pierwsza ze wspomnianych metod opiera się na tym, że w trakcie nawiązy-wania kontaktu z osobą wylosowaną do próby z operatu uzupełniającego nie-pełne pokrycie operatu głównego ustala się również, czy osoba taka ma szanse doboru z operatu zasadniczego. Jeżeli tak, to nie jest ona włączana do próby badawczej. Dla przykładu, gdyby główna część badań realizowana była w opar-ciu o próbę dobieraną z rejestru abonentów telefonii stacjonarnej, uzupełnianą adresową próbą gospodarstw domowych, to na etapie aranżacji wywiadu z przedstawicielem gospodarstwa domowego wylosowanego z próby adreso-wej ankieter ustalałby, czy gospodarstwo to ma również dostęp do telefonii stacjonarnej. Jeżeli tak, to wywiad nie byłby kontynuowany. Pozwala to na uzu-pełnienie niepełnego pokrycia populacji przez operat główny oraz ogranicza wielokrotne pokrycie tych samych jednostek losowania (por. Brick i in. 2011:

1–12; Groves i in. 2004: 88). Gdyby jednak pomiar przeprowadzony został na wszystkich jednostkach (niezależnie od operatu, z którego zostały one dobra-ne), to w konsekwencji nadreprezentowane byłyby te jednostki, które obecne są w wykazach wielu operatów jednocześnie.

Jeśli ograniczy się rozważania wyłącznie do dwóch rejestrów, można zau-ważyć, iż w takiej sytuacji jednostki wchodzące w skład populacji objętej opera-tem losowania mogłyby zostać przydzielone do trzech różnych warstw⁷⁹: (a) zbioru jednostek należących do operatu A, ale już nie do operatu B, tj. 𝐴 ∩ 𝐵̅, (b) zbioru jednostek należących do operatu B, ale nie do operatu A, tj. 𝐴̅ ∩ 𝐵, a także (c) zbioru jednostek należących do części wspólnej obu operatów, tj. 𝐴 ∩ 𝐵.

Z kolei próbę badawczą dobraną z takich rejestrów można by podzielić na cztery zbiory: (a) jednostki wylosowane z operatu A, ale nienależące do ope-ratu B, (b) jednostki wylosowane z opeope-ratu B i tylko w tym operacie wykazane,

______________

79 Jeżeli oba operaty nie będą pokrywać w pełni populacji docelowej, to poza trzema opisa-nymi zbiorami jednostek będzie jeszcze zbiór czwarty, obejmujący te wszystkie elementy popula-cji docelowej, które znajdują się poza operatem A oraz B. Stosując zapis formalny, zbiór jednostek niepokrytych przez te operaty oznaczyć można jako 𝐴̅ ∩ 𝐵̅.

Ryc. III.6. Procedura wielokrotnych operatów – podział populacji na podzbiory Źródło: opracowanie własne

(c) jednostki wylosowane z operatu A, lecz znajdujące się również w operacie B oraz (d) jednostki wylosowane z operatu B i znajdujące się też w wykazie A (por. Kalton 2009: 135). Problematyczne byłyby zatem dwie ostatnie warstwy, ponieważ ich występowanie oznacza, iż szansa wylosowania konkretnej jed-nostki zależy od liczby operatów, w których jednostka taka się znajduje. Jednym z częściej stosowanych sposobów rekompensacji nierównych szans losowania jest oczywiście ważenie danych⁸⁰. Szczegółowy opis procedur ustalania

wielko-______________

80 Wagi przypisane poszczególnym jednostkom definiowane są przy tym jako odwrotności prawdopodobieństw wylosowania jednostek do próby badawczej. Warto wskazać jednak, że prawdopodobieństwo wylosowania obiektu pokrytego przez dwa operaty równe jest prawdopo-dobieństwu sumy zdarzeń polegających na jego doborze z pierwszego lub drugiego operatu. Po-nieważ losowania te odbywają się niezależnie od siebie, to prawdopodobieństwo sumy tych zda-rzeń wynosi 𝑃(A ∪ B) = 𝑃(A) + 𝑃(B) − 𝑃(A) ∙ 𝑃(B). R. Groves i in. (2004: 88) podają przykładowy sposób wyznaczania wag dla takiego schematu losowania, który wykorzystuje operaty abonentów telefonii stacjonarnej – jako operat główny, a także rejestr adresowy – jako operat uzupełniający.

Autorzy ci wychodzą od wyrażonej explicite obserwacji, że ponieważ gospodarstwa domowe bez dostępu do telefonu stacjonarnego mają szanse wylosowania wyłącznie z operatu adresowego, natomiast te posiadające telefon stacjonarny zarówno z rejestru abonentów, jak i operatu adreso-wego, to w próbie badawczej nadreprezentowane byłyby gospodarstwa z dostępem do linii tele-fonicznej oraz niedoreprezentowane gospodarstwa bez takiego dostępu. Można tam również odnaleźć wzory pozwalające na wyznaczenie wielkości odpowiednich wag (por. Groves i in. 2004:

88). Warto jednak wskazać na pewne specyficzne założenia poczynione w ramach opisywanego przez nich przykładu. Groves i in. (2004: 87) założyli bowiem, iż operat abonentów telefonicznych jest węższy od operatu adresowego, to znaczy że zbiór wszystkich gospodarstw domowych z dostępem do telefonii stacjonarnej zawiera się w operatach adresowych. W szczególnym przy-padku może się jednak zdarzyć, że gospodarstwo domowe będzie obecne w wykazie abonentów, ale nie w rejestrze adresowym. Sytuacja taka może mieć miejsce w odniesieniu do nowo zamiesz-kanych budynków, których operaty adresowe jeszcze nie obejmują. W praktyce nie udałoby się jednak ustalić, czy dane gospodarstwo domowe wylosowane z rejestru abonentów stacjonarnych jest też obecne w wykazie adresowym, czyli niemożliwe byłoby ustalenie prawdopodobieństwa doboru takich gospodarstw domowych. Zapewne z tych właśnie względów bierze się – poczynione przez Grovesa i in. (2004: 87) – założenie o inkluzji operatu telefonicznego przez rejestr adresowy.

𝐴 ∩ 𝐵

𝐴 ∩ 𝐵̅ 𝐴̅ ∩ 𝐵

Operat A Operat B

ści wag odnaleźć można w licznych pozycjach literaturowych, w tym między innymi w: Kalton (2009: 134), Groves i in. (2004: 88), Bankier (1986: 1074–

1075) oraz Kalton i in. (1986: 76–77). Istotne jest to, że estymatory punktowe parametrów populacyjnych przyjmują w takich sytuacjach postać szacunków Horwitza–Thomsona (1952), co skutkuje często przyrostem wariancji wyników w porównaniu do wariancji w zbiorze danych nieważonych⁸¹.

Z koniecznością ustalania wielkości wag będących odwrotnością szans wy-losowania jednostek do prób badawczych związane są jednak pewne ograni-czenia praktyczne. Na najpoważniejsze z nich zwrócił uwagę G. Kalton (2009:

135) w artykule Methods for Oversampling Rare Subpopulations in Social Surveys, podkreślając, że procedura ta wymaga wiedzy o prawdopodobień-stwach selekcji każdej jednostki, w ramach każdego operatu, tj. niezależnie od tego, z którego rejestru jednostka taka została pobrana. Mówiąc precyzyjniej, problematyczne okazuje się wyznaczenie prawdopodobieństwa wylosowania jednostek z części wspólnej obu operatów, bowiem informacje o szansach se-lekcji znane są często wyłącznie w odniesieniu do tych operatów, z których daną jednostkę wylosowano, nieznane pozostają natomiast w obrębie tych re-jestrów, w których jednostka figuruje, ale nie została z nich wybrana. Naprze-ciw tym ograniczeniom wychodzi metoda opracowana przez Pierre’a Lavallée (1995: 25–32), w której uwzględnia się prawdopodobieństwa selekcji jednostek tylko z tych operatów, z których zostały one pobrane⁸². Propozycję P. Lavallée można zapisać w postaci formuły:

(III.1.) 𝑤_𝑖≈ ∑^𝑓_𝑗=1𝜆_𝑖𝑗𝑤′_𝑖𝑗, gdzie:

 𝑗 = {1,2, … , 𝑓} jest symbolem oznaczającym j-ty operat;

 𝜆𝑖𝑗 jest parametrem zmiennym⁸³, takim jednak, że dla dowolnej i–tej jed-nostki ∑^𝑓_𝑗=1𝜆𝑖𝑗= 1;

 dla ustalonego j–tego operatu: (a) 𝑤′𝑖𝑗= (𝜋𝑖𝑗)⁻¹, jeżeli i–ta jednostka zo-stała z niego wylosowana z prawdopodobieństwem równym 𝜋_𝑖𝑗, nato-miast w przeciwnym przypadku: (b) 𝑤′𝑖𝑗= 0.

Modyfikację tej procedury odpowiednią dla operatów wykorzystujących re-jestry numerów telefonicznych odnaleźć można w artykule Mobile Phone

______________

81 Skalę tego przyrostu można łatwo wyznaczyć w oparciu o zdefiniowany w II rozdziale mo-nografii miernik VIF.

82 Waga nadana i–tej jednostce przeszacowywałaby rzeczywiste szanse selekcji do próby.

83 W artykule Adama Chu, M. Bricka oraz G. Kaltona (1999: 103–104) pt. Weights for Combi-ning Surveys Across Time or Space odnaleźć można sugestię, że parametr 𝜆_𝑖𝑗 należy wyznaczyć jako proporcję efektywnej wielkości próby dobranej z j-tego operatu do wielkości łącznej próby ba-dawczej.

Surveys: Empirical Findings from a Research Project (Häder i in. 2010). Autorzy tego artykuły odwołują się z kolei do pracy S. Gablera oraz Östasa Ayhana (2007: 39–46), w której podano formułę umożliwiającą oszacowanie prawdo-podobieństw selekcji jednostek dobieranych z rejestrów abonentów stacjonar-nych oraz użytkowników telefonów komórkowych. Estymatory prawdopodo-bieństw doboru wyrażone są w postaci wzoru:

(III.2.) 𝜋𝑖≈ 𝑘_𝑖^{𝑠 𝑛}_𝑁^𝑠_𝑠∙_𝑧¹

𝑖+ 𝑘_𝑖^{𝑚 𝑛}_𝑁^𝑚_𝑚 (por. Häder i in. 2010: 15), gdzie:

 𝑘_𝑖^𝑠 oraz 𝑘_𝑖^𝑚 jest liczbą numerów telefonicznych, które umożliwiają do-tarcie do i–tej osoby odpowiednio poprzez telefonię stacjonarną oraz mo-bilną;

 𝑛^𝑠 oraz 𝑛^𝑚odpowiada liczebności wylosowanych numerów stacjonarnych praz komórkowych;

 𝑁^𝑠 oraz 𝑁^𝑚 jest liczbą wszystkich numerów stacjonarnych oraz mobil-nych w populacji objętej badaniem;

 𝑧_𝑖 jest wielkością gospodarstwa domowego, do którego należy i–ta wylo-sowana osoba.

Opisane dotąd procedury estymacji wielkości parametrów populacyjnych w oparciu o pomiar prób badawczych losowanych z wielu różnych operatów łączył wspólny mianownik, jakim był estymator Horwitza–Thomsona. W litera-turze metodologicznej odnaleźć można jednak również liczne odniesienia do innego typu estymatora zdefiniowanego przez Hermana O. Hartleya (1962, 1974). Podstawową jego właściwością jest zminimalizowanie wariancji w ob-rębie podzbioru jednostek statystycznych wylosowanych z części wspólnej dwóch (lub więcej) operatów, czyli z tego fragmentu rejestru jednostek popula-cyjnych, który różnicuje szanse doboru do próby. Szacunki Hartleya wymagają jednak wyznaczenia statystyk punktowych dla każdej części operatu, tj. θ̂_{𝐴∩𝐵̅}^𝐴 , θ̂_{𝐴̅∩𝐵}^𝐵 , θ̂_𝐴∩𝐵^𝐴 oraz θ̂_𝐴∩𝐵^𝐵 . Zgodnie z propozycją H.O. Hartleya wartość estymatora można wyznaczać z formuły o ogólnej postaci:

(III.3.) θ̂ = θ̂_{𝐴∩𝐵̅}^𝐴 + 𝜆θ̂_𝐴∩𝐵^𝐴 + (1 − 𝜆)θ̂_𝐴∩𝐵^𝐵 + θ̂_{𝐴̅∩𝐵}^𝐵 ,

gdzie statystyki częściowe θ̂_{𝐴∩𝐵̅}^𝐴 , θ̂_{𝐴̅∩𝐵}^𝐵 , θ̂𝐴∩𝐵𝐴 oraz θ̂𝐴∩𝐵𝐵 uwzględniają proporcje poszczególnych warstw jednostek losowanych z podzbiorów operatu A oraz B, natomiast parametr 𝜆 ∈ 〈0; 1〉 jest ustalany w taki sposób, aby wariancja esty-matorów z części wspólnej operatów była jak najmniejsza. Opis różnych metod służących optymalnemu doborowi parametru 𝜆 odnaleźć można w artykule Sharon L. Lohr (2009: 78–84), wspomina o nich także Graham Kalton (2009:

135) oraz Trent D. Buskirk (2008: 212–215). Z kolei w monografii Survey

Methodology (por. Groves i in. 2004: 88) podany został przykład zastosowania estymatora Hartleya w sytuacji pokrycia populacji operatami abonentów tele-fonii stacjonarnej uzupełnionymi o adresowy spis gospodarstw domowych⁸⁴.

III.3.4. Procedury ograniczania błędów operatów

W dokumencie Reprezentatywność badań reprezentatywnych. Analiza wybranych problemów metodologicznych oraz praktycznych w paradygmacie całkowitego błędu pomiaru (Stron 125-132)