• Nie Znaleziono Wyników

III.3. Procedury ograniczania błędów operatów doboru prób badawczych

III.3.1. Sieciowanie jednostek

Sieciowanie jednostek wchodzących w skład populacji docelowej jest me-todą łączenia elementów populacji poprzez określenie relacji wiążących jed-nostki (por. Christman 2009: 115; Lee 2008: 506–507; Potter 2008: 491–492;

Groves i in. 2004: 86–87; Groves 1989: 122–124). Procedura ta – będąca pewną modyfikacją losowania określanego mianem multiplicity sampling – przedsta-wiona została po raz pierwszy przez Monroe’a G. Sirkena (1970: 257–266) w artykule Household Surveys with Multiplicity. W zamyśle autora metoda ta

______________

69 Operat adresowy, o ile tylko jest dobrej jakości, umożliwia dotarcie (w sposób pośredni) do wszystkich jednostek z populacji.

miała być alternatywą dla wielostopniowego schematu doboru próby osób opar-tego na rejestrach gospodarstw domowych. Innowacyjność pomysłu Sirkena przejawiała się w tym, że o ile w typowym sondażu prowadzonym na adreso-wych próbach gospodarstw domoadreso-wych każda jednostka przyporządkowana zostaje tylko i wyłącznie do tego gospodarstwa, którego jest mieszkańcem (stąd, gdy w rejestrze brakuje wykazu jakichś gospodarstw domowych, to też osoby tworzące owo gospodarstwo są wyłączone poza operat), o tyle usieciowienie łączy jednostki z różnych gospodarstw domowych, co pozwala na odnalezienie nawet tych osób, których gospodarstwa są niewykazane w operacie. M.B. Sirken ukazuje również, że sieciowanie pozwala osiągnąć większą precyzję estymacji i to nawet pomimo niebezpieczeństw związanych z pojawieniem się specyficz-nych kategorii błędów pomiarowych (por. Sirken 1970: 266). W procedurze sieciowania jednostek każda osoba przyporządkowywana zostaje zarówno do tego gospodarstwa domowego, którego jest mieszkańcem, jak i do innych go-spodarstw domowych zamieszkiwanych przez osoby tworzące sieć z tą jed-nostką. Reguły łączenia jednostek oparte są najczęściej na pytaniach o relacje bliskiego pokrewieństwa (z rodzicami, rodzeństwem oraz potomstwem) lub na powiązaniach przestrzennych pomiędzy jednostkami (por. Sirken 1970: 257)70. W tekście opublikowanym dwa lata później Sirken przedstawił również in-ny wariant procedury sieciowania odpowiedni dla stratyfikacyjin-nych schema-tów doboru prób badawczych (por. Sirken 1972: 224–227). Metoda ta wymaga, aby wylosowane osoby wskazywały wszystkich swoich domowników oraz tych bliskich członków rodziny, którzy zamieszkują w innych oddzielnych gospodar-stwach domowych. Lista takich osób tworzy sieć jednostek podlegającą pomia-rowi (por. Groves i in. 2004: 86). Procedura ta umożliwia, przynajmniej teore-tycznie, zidentyfikowanie wszystkich osób z populacji, nawet tych, które w operatach się nie znalazły. Jest to możliwe pod jednym wszakże warunkiem, a mianowicie: że każda jednostka pominięta w rejestrze będzie miała szanse utworzenia sieci z przynajmniej jedną osobą wykazaną w operacie. Oznacza to, że sieciowanie jednostek nie spełni swojej funkcji w odniesieniu do tych osób pominiętych w dostępnych rejestrach populacji, które nie mają bliskiej rodziny (osoby takie przez nikogo nie będą miały szansy być wskazane). Całe przedsię-wzięcie sieciowania można scharakteryzować w formie graficznej za pomocą ryciny III.3.

______________

70 Pewną alternatywą wobec zadawania dodatkowych pytań sieciujących jednostki w obrębie rodziny jest poszukiwanie osób niepokrytych operatem metodą „kuli śniegowej” (por. Groves i in.

2004: 86). Chociaż jest to nieprobabilistyczny sposób doboru respondentów (por. Sawiński 2005:

83), to jednak bywa wykorzystywany w badaniach realizowanych na (sub)populacjach osób po-siadających pewne specyficzne i rzadkie cechy (por. Groves i in. 2004: 86).

Ryc. III.3. Redukcja błędu niepełnego pokrycia poprzez sieciowanie jednostek Źródło: opracowanie własne

W zaprezentowanym układzie operat doboru próby nie pokrywa w pełnym zakresie populacji docelowej. Jednostki z populacji, które okazały się niedo-stępne w operacie losowania, oznaczono symbolami 𝜔21 – druga jednostka z pierwszej sieci, 𝜔31 – trzecia jednostka z pierwszej sieci, 𝜔12 – pierwsza jed-nostka z sieci drugiej (jednoosobowej) oraz 𝜔2𝑙 – druga jednostka z sieci l–tej.

Sieciowanie umożliwi identyfikację jednostek: 𝜔21, 𝜔31 oraz 𝜔1𝑙, jednakże pomi-mo jej zastosowania poza operatem pozostanie nadal jednostka 𝜔12, która nie ma szansy być przez nikogo wskazana.

Jedną z ciekawszych implementacji procedury sieciowania są analizy empi-ryczne przeprowadzone przez Roberta D. Tortorę i in. (2008: 133–148). Wery-fikacja skuteczności sieciowania prowadzona była w tych badaniach na próbie dobieranej z operatu abonentów telefonii stacjonarnej, a jej podstawowym celem było wyszukanie osób niepokrytych tym rejestrem. Respondenci prosze-ni byli o podaprosze-nie informacji o wszystkich członkach swojej najbliższej rodziny (rodzicach, rodzeństwie oraz pełnoletnich dzieciach), którzy mieszkają w go-spodarstwach domowych bez dostępu do telefonu stacjonarnego, ale jest z nimi możliwy kontakt poprzez telefon komórkowy. Badania terenowe dały niejed-noznaczne rezultaty. Z jednej strony procedura sieciowania umożliwiła odszu-kanie pewnej części jednostek niedostępnych w operatach abonentów telefonii stacjonarnej, z drugiej jednak ujawniła niepokojące prawidłowości. Po pierwsze, wiedza o członkach rodziny zamieszkujących w oddzielnych gospodarstwach

domowych uwarunkowana była stopniem zintegrowania jednostek w obrębie sieci (rodziny). Po drugie, zaobserwowano powszechną niechęć do ujawniania numerów telefonów komórkowych. Po trzecie, wiele z tych osób, które wska-zywano jako posiadaczy wyłącznie numerów komórkowych, miało jednak w swoich gospodarstwach domowych dostęp do telefonu stacjonarnego.

Być może z uwagi na wskazane ograniczenia praktyczne sieciowanie jedno-stek nie stało się procedurą wykorzystywaną na wyjątkowo szeroką skalę. Pod-stawowym wyzwaniem okazały się bowiem błędy pomiarowe (niewłaściwe lub niepełne raportowanie o sieciach), braki danych wynikające ze znacznej niedo-stępności wykazanych jednostek oraz przyrost wariancji, będący konsekwencją ważenia danych rekompensującego nierówne szanse selekcji jednostek do pró-by badawczej71 (por. Lee 2008: 507; Potter 2008: 491; Groves i in. 2004: 87).

Na niektóre z tych komplikacji wskazał Graham Kalton (2009: 135–136) w ar-tykule Methods for Oversampling Rare Subpopulations in Social Surveys. W ramach podsumowania części poświęconej próbom sieciowym autor ten zamieszcza następującą konkluzję:

Korzyści wynikające z próbkowania sieciowego są częściowo niwelowane przez przyrost błędu losowego będącego konsekwencją ważenia zmiennych, którego procedura ta wymaga, oraz poprzez koszty zlokalizowania jednostek wskaza-nych w sieci. (Kalton 2009: 136)

Otwarte pozostaje zatem pytanie o to, czy i ewentualnie w jaki sposób, a także w odniesieniu do jakich przypadków procedura ta mogłaby przyczynić się do ograniczenia błędu niepełnego pokrycia populacji operatami doboru prób ba-dawczych. Kilka przykładów pozwoli zobrazować możliwości jej empirycznej implementacji.

W pierwszej kolejności warto rozpatrzyć schemat realizacji badań Europej-skiego Sondażu Społecznego w dwóch krajach: w Irlandii (wszystkie rundy ESS) oraz we Włoszech (rundy 1 oraz 2). Przypadki tych dwóch krajów są o tyle interesujące, że w każdym z nich dysponuje się operatami (rejestrami wybor-ców) umożliwiającymi losowanie proste w obrębie populacji mieszkańców w wieku 18 lat i więcej posiadających prawa wyborcze (por. Lynn i in. 2007: 110).

Pomimo to, na podstawie tych rejestrów dobiera się jedynie adresowe próby osób. Problem polega na tym, że w badaniach ESS populację docelową stanowią

______________

71 Osoby wchodzące w skład sieci mają zwielokrotnione szanse znalezienia się w próbie, gdyż liczebność sieci wyznacza prawdopodobieństwo selekcji. Aby zrekompensować niejednakowe prawdopodobieństwa wyboru, konieczne jest zatem ważenie danych oraz zwiększanie liczebności próby badawczej. Odpowiednie procedury ważenia danych odnaleźć można w artykule Sirkena (1970: 258). Opierają się one na prostej zasadzie, podobnej do tej, którą wykorzystuje się w waże-niu danych prób zespołowych (por. Weisberg 2005: 221), to znaczy każda jednostka otrzymuje wagę równą odwrotności liczby wystąpień w operacie (por. Groves i in. 2004: 86).

wszyscy mieszkańcy w wieku powyżej 15 lat. Operaty dostępne w Irlandii i we Włoszech nie zawierają osób 15-, 16- oraz 17-letnich, co w konsekwencji ozna-cza, że charakteryzuje je błąd niepełnego pokrycia. Ponieważ kohorta wiekowa z przedziału 15–17 lat stanowi we Włoszech mniej więcej 3% całej populacji osób w wieku 15 lat i więcej, a w Irlandii niecałe 5%, to pokrycie populacji reje-strami wyborców wynosi odpowiednio 97% oraz 95%72. Operaty pokrywają zatem populacje w stopniu na tyle znacznym, że w wielu sytuacjach pokrycie to uznano by za wystarczające. Problem wynika jednak z tego, że jednostki niepo-kryte wykazami wyborców stanowią zbiór homogeniczny względem niepo-kryterium wieku, to znaczy ich niewystępowanie w operacie nie jest losowe. W konse-kwencji, w obu krajach konieczne jest przyjęcie takich schematów doboru prób, które polegają na wykorzystaniu rejestrów indywidualnych do losowania punk-tów adresowych (budynków lub gospodarstw domowych); dopiero w ich obrę-bie losuje się konkretnego respondenta73. Taki sposób realizacji badań skutkuje nierównymi szansami doboru jednostek w obrębie gospodarstw domowych o różnej liczbie członków, czyli obniża poziom precyzji wnioskowania (por.

Lynn i in. 2007: 112–113).

Wydaje się, że sieciowanie jednostek mogłoby być alternatywą dla ustalo-nego w obu krajach schematu doboru respondentów. Otóż, ponieważ operaty jednostkowe pokrywają w tych państwach mniej więcej 95% oraz 97% całej populacji osób w wieku 15 lat i więcej, a populację 18+ pokrywają całkowicie, to dla tej w pełni pokrytej części populacji można by zastosować losowanie proste (ewentualnie warstwowanie lub wiązkowanie części próby), natomiast błąd pokrycia osób w wieku 15–17 lat ograniczany byłby w trakcie terenowej fazy badań. Warto bowiem zauważyć, że ankieterzy prowadzący wywiady kwe-stionariuszowe w ramach ESS zadają bardzo szczegółowe pytania dotyczące składu oraz charakterystyk osób w obrębie gospodarstw domowych; nic nie stałoby na przeszkodzie, aby takie informacje wykorzystać do sieciowania osób z kohorty wiekowej 15–17 lat. Wywiady kwestionariuszowe realizowane mo-głyby być wtedy ze wszystkimi wyszukanymi w ten sposób osobami lub też losowano by jakąś ich próbę. Co oczywiste, szansa udziału w badaniu osób z kohorty wiekowej 15–17 lat uzależniona byłaby od prawdopodobieństw se-lekcji jednostek powiązanych z nimi relacją sieci (wymagałoby to zastosowania jakiejś procedury ważenia), jednak ów schemat realizacji próby mógłby być interesującą alternatywą dla stosowanych wieloetapowych schematów loso-wania budynków lub gospodarstw domowych.

______________

72 Obliczenia własne na podstawie repozytorium Eurostatu. http://epp.eurostat.ec.europa.

eu/portal/page/portal/statistics/search_database [data pobrania: 3.12.2012].

73 W Irlandii do wywiadu dobierano osoby, których data urodzin przypadała w terminie naj-bliższym wizyty ankieterskiej, natomiast we Włoszech losowano respondentów, wykorzystując siatkę Kisha.

Kolejnym obszarem zastosowania procedury sieciowania jednostek mogły-by mogły-być sondaże prowadzone techniką wywiadów telefonicznych (z generowa-niem numerów stacjonarnych oraz komórkowych) uzupełniane wywiadami bezpośrednimi z osobami bez dostępu do telefonu. Wprawdzie operaty RDD dają możliwość dotarcia do 95% całej populacji dorosłych obywateli Polski, lecz jednocześnie poza operatem znajdują się najczęściej osoby starsze, za-mieszkujące obszary wiejskie, gorzej sytuowane finansowo oraz te o niższym poziomie wykształcenia (por. Batorski 2011: 309)74. Zresztą jest to prawidło-wość zaobserwowana nie tylko w Polsce, ale też w innych krajach, na przykład w Stanach Zjednoczonych (por. Duncan i in. 2001: 121). Wyłączając w tym momencie poza nawias rozważań inne konsekwencje wynikające z losowego generowania numerów telefonicznych, można zauważyć, że nieobecność w operacie znacznej części osób z takich właśnie specyficznych kategorii jedno-stek populacji mogłaby stanowić poważny problem w badaniach ukierunkowa-nych na kwestie związane z poziomem życia czy też sytuacją materialną. Każdą wylosowaną do próby osobę można by wpierw zapytać, czy ma ona jakichś bliskich członków rodziny (rodziców, rodzeństwo, dzieci) zamieszkujących wspólnie lub w osobnych gospodarstwach domowych, a następnie, czy te go-spodarstwa domowe mają dostęp do telefonu stacjonarnego. Jeżeli nie, to nale-żałoby dodatkowo poprosić o wskazanie, która z takich osób posiada telefon komórkowy, a która z takiego urządzenia nie korzysta. Być może na podstawie serii pytań filtrujących udałoby się zidentyfikować osoby, z którymi realizacja wywiadów możliwa byłaby jedynie poprzez wywiad osobisty. Rodzi to wpraw-dzie wiele komplikacji wynikających z zastosowania technik mieszanych oraz

______________

74 Dane uzyskane w ramach projektu badawczego Diagnozy Społecznej 2011 ukazują, że w miastach pow. 500 tys. mieszkańców odsetek gospodarstw domowych mających dostęp do telefonu stacjonarnego wynosi 61 pp., podczas gdy na wsiach kształtuje się na poziomie niecałych 53 pp. Podobnie wyglądają zróżnicowania w odsetku osób korzystających z przynajmniej jednego telefonu komórkowego. W największych miastach poziom ten wynosi prawie 94 pp., z kolei na wsiach jest o 15 pp. niższy. Jeszcze większe zróżnicowanie daje się zauważyć, gdy weźmie się pod uwagę strukturę wiekową osób korzystających z telefonii komórkowej. Dla przykładu, w kohor-tach wiekowych 16–24, 25–34 oraz 35–44 lat posiadanie telefonu komórkowego deklaruje mniej więcej 97 procent badanych, natomiast wśród osób w wieku 65 lat i więcej użytkownicy telefonów mobilnych stanowią już niecałe 49 procent. Równie znaczne dysproporcje widoczne są po uwzględnieniu wykształcenia jako kategorii różnicującej korzystanie z telefonu komórkowego.

Wśród osób z wykształceniem wyższym do korzystania z telefonii komórkowej przyznaje się prawie 96 procent badanych, podczas gdy wśród osób z wykształceniem podstawowym odsetek ten wynosi już nieco powyżej 51 pp. Warto wreszcie zwrócić uwagę na zróżnicowanie w obrębie dochodów przypadających na jedną osobę w badanych gospodarstwach. Kontrastując ze sobą respondentów o dochodach najniższych (do pierwszego kwartyla) oraz najwyższych (powyżej trzeciego kwartyla) widać, że wśród tej pierwszej kategorii osoby korzystające z telefonu komór-kowego stanowią nieco ponad 76 procent, w drugiej natomiast już ponad 94 procent (por. Diagno-za społeczna: zintegrowana baDiagno-za danych, www.diagnoDiagno-za.com [data pobrania: 10.11.2012] oraz tabela 7.2.1. w: Batorski 2011: 309).

skutkować może pojawieniem się błędów pomiarowych, jednak sieciowanie byłoby alternatywą dla procedury losowania wykorzystującej wiele różnych operatów jednocześnie.