Typologia populacji – rozróżnienia pojęciowe

Zanim przeanalizowane zostaną zagadnienia związane z operatami lo-sowania, warto odnieść się jeszcze raz do ustaleń poczynionych w drugim roz-dziale monografii. Zdefiniowano już tam pojęcie operatu oraz scharakteryzo-wano błędy, jakie w związku z niedoskonałościami operatów mogą pojawić się w badaniach sondażowych. Przypomnieć można zatem, że operat losowania określony został jako dostępny rejestr jednostek (na przykład imienny wykaz osób) lub zespół jednostek (na przykład wykaz gospodarstw domowych, baza punktów adresowych, listy numerów telefonicznych abonentów telefonii sta-cjonarnej lub mobilnej, itp.) należących do badanej populacji, natomiast błąd operatu zdefiniowano jako efekt rozbieżności (niepełne pokrycie, nadmiarowe pokrycie, multiplikowanie jednostek, informacje zespołowe) występujący po-między zbiorem wszystkich elementów rzeczywiście należących do populacji będącej przedmiotem zainteresowania badacza, a wykorzystywanym do loso-wania próby dostępnym wykazem tych jednostek. Chociaż wyprowadzone wówczas rozróżnienia terminologiczne były wystarczające dla zdefiniowania błędu pokrycia populacji operatem losowania, to jednak wymagają doprecyzo-wania w toku prowadzonych obecnie rozważań. Istotnie bowiem, jeżeli spojrzy się na dostępny rejestr jednostek jako na operacyjną definicję populacji (por.

Henry 1990: 50), a na stopień, w którym ten operat przystaje do populacji, jako na wskaźnik jakości owej operacjonalizacji, to w pierwszej kolejności należy odpowiedzieć na pytanie, do czego odnosi się pojęcie operatu losowania lub, inaczej, co ma się na myśli, mówiąc o populacji w kontekście błędów operatu.

Niezwykle pomocne okazują się dystynkcje wyprowadzone przez L. Kisha w artykule Populations for Survey Sampling, zamieszczonym w 1979 roku

w periodyku wydawanym przez International Association of Survey Statisti-cians (por. Kish 1979: 14–15). Zostały one później wykorzystane przez Grovesa (1989: 82–83) do wyróżnienia czterech typów populacji: (a) będącą przedmio-tem badania (inferential population), oznaczaną jako Ω, (b) docelową (target population), oznaczaną symbolem ΩT, (c) pokrytą operatem losowania (frame population), oznaczaną dalej jako ΩF oraz (d) surveyową (survey population), oznaczaną symbolem ΩS. Rozróżnienie to nie jest wprawdzie szczególnie sys-tematycznie i konsekwentnie wykorzystywane przez metodologów badań son-dażowych⁶², pozwala jednak oddzielić problemy pojawiające się w trakcie lo-sowania próby (zależności pomiędzy populacjami ΩT oraz ΩF) od tych, które napotykane są w trakcie jej realizacji (wzajemne odniesienie populacji ΩF i ΩS).

Krótką charakterystykę każdego z tych pojęć warto poprzedzić uwagą, że w przypadku badań sondażowych ma się w większości wypadków do czynienia z populacjami o skończonej liczbie elementów. Ponadto, w rozumieniu teorii zbiorów będzie tak, że Ω𝑇⊆ Ω oraz Ω𝑆⊆ Ω𝐹, ale już nie zawsze Ω𝐹⊆ Ω𝑇. Jest to oczywistą konsekwencja tego, iż operaty losowania zawierają niejednokrotnie nadmiarowe jednostki, co oznacza, że zbiór elementów należących do Ω𝐹 nie musi być podzbiorem Ω𝑇. Parafrazując rozważania Stefana Nowaka (2007:

177–179) dotyczące zakresów wskaźników i indicatów, można o operatach

______________

62 W drugim tomie Encyclopedia of Survey Research Methods James M. Lepkowski (2008) przeprowadza analizę sposobów użycia w badaniach sondażowych terminu populacja, dochodząc do konkluzji, iż: „definicje populacji nie są wystandaryzowane w obszarze [badań surveyowych – P.J.]. Niektórzy autorzy używają różnej terminologii na zdefiniowanie [tych samych typów cji – P.J.]” (Lepkowski 2008: 591). Szczególne kontrowersje budzić może przy tym pojęcie popula-cji surveyowej, która w ujęciu zaprezentowanym na schemacie III.1. oznacza „zbiór osób, które, jeśli byłyby wylosowane do próby badawczej, byłyby jednocześnie respondentami [wzięłyby udział w badaniu – P.J.]” (Groves 1989: 83). Taki sposób definiowania populacji surveyowej zakła-da, że każda jednostka jest przypisana do warstwy respondentów lub jednostek niedostępnych.

Oczywiście przynależność jednostek populacji do tych rozłącznych kategorii nie jest znana na etapie losowania próby, badacz doświadcza jedynie skutków doboru jednostek z populacji lub spoza populacji surveyowej, co przejawia się występowaniem osób dostępnych oraz niedostęp-nych. Innymi słowy, jak wskazuje Groves (1989: 83), rozbieżności pomiędzy populacją surveyową oraz populacją pokrytą operatem losowania są niczym innym jak warstwą jednostek niedostęp-nych (non–respondents). Jest to o tyle problematyczne, że skłonność do udziału w badaniu nie jest zmienną dychotomiczną, a raczej pozostaje zależna nie tylko od cech osobowościowych jednostek, ale także od specyfiki techniki badawczej wykorzystanej do zbierania danych. Nie powinno zatem dziwić, że w wielu opracowaniach pojęcie populacji surveyowej używane jest w zupełnie innym znaczeniu. Wystarczy przywołać artykuł autorstwa Geerta Loosveldta oraz Nathalie Sonck z 2008 roku pt. An Evaluation of the Weighting Procedures for an Online Access Panel Survey, w którym pojęcie populacji surveyowej używane jest szerzej od pojęcia populacji pokrytej operatem loso-wania. We fragmencie dotyczącym rozważań nad błędem pokrycia populacji generalnej operatami użytkowników Internetu odnaleźć można następujące stwierdzenie „błąd pokrycia występuje wtedy, gdy nie wszystkie elementy z populacji surveyowej posiadają znaną i niezerową szansę wylosowania do próby” (Loosveldt i in. 2008: 94). W tym kontekście populacja surveyowa jest tym samym, czym u L. Kisha była populacja docelowa. Podobnie pojęcie populacji surveyowej definiują S. Dorofeev oraz P. Grant (2006: 10), stosując je zamiennie z określeniem „populacja docelowa”.

Ryc. III.1. Typy populacji – rozróżnienia pojęciowe Źródło: opracowanie własne

doboru próby powiedzieć, że mają doskonałą moc zawierania jednostek należą-cych do badanej populacji, jeżeli w ich zakres wchodzi zbiór wszystkich ele-mentów przynależnych do populacji, niezależnie jednak od tego, ile jednocze-śnie zawartych jest elementów do populacji nienależących. Podobnie można powiedzieć, iż operaty mają doskonałą moc odrzucania elementów nienależą-cych do populacji docelowej, jeżeli w ich zakres nie wejdą żadne elementy spo-za populacji, niespo-zależnie od tego, ile jednocześnie elementów populacji będzie w operacie pominiętych. Kontynuując analogię zapożyczoną z teorii pomiaru, można wykorzystać również pojęcie idealnej mocy rozdzielczej do określenia sytuacji, w której w zakres operatu wejdą wszystkie elementy z populacji oraz nic poza tym. Analogia ta jest o tyle uzasadniona, że zdefiniowana przez No-waka (2007: 178) miara mocy zawierania odpowiada znanemu z metodologii badań sondażowych wskaźnikowi pokrycia populacji operatem losowania, na-tomiast dopełnienie miary mocy odrzucania (por. Nowak 2007: 178) jest rów-noważne wskaźnikowi nadmiarowego pokrycia. Z kolei operat charakteryzu-jący się idealną mocą rozdzielczą (por. Nowak 2007: 178) można uznać (z założeniem równoważności poziomu zagregowania jednostek w próbie i w operacie) za operat „idealny”.

Pierwszy z wyróżnionych typów populacji związany jest z przedmiotem badania. Ponieważ celem każdego badania o charakterze reprezentatywnym jest wyciąganie wniosków nie tyle o przebadanej próbie, ile o całej zbiorowości, to w sposób zupełnie oczywisty wymaga się określenia tego, kto (lub co) na tę badaną zbiorowość się składa. G. Lissowski i in. (2008: 23), charakteryzując przedmiot badania statystycznego, zwracają uwagę na fakt, że populację można określić na dwa sposoby. Po pierwsze – w sposób jawny (konstruktywny), tj. poprzez podanie wykazu wszystkich jednostek statystycznych, które na

Populacja będąca przedmiotem badania Ω Populacja docelowa ΩT

Populacja pokryta operatem losowania ΩF

Populacja surveyowa ΩS – warstwa jednostek dostępnych

populację się składają⁶³. Po drugie natomiast – w sposób niejawny (deskryp-tywny), tj. poprzez wskazanie zestawu pewnych wspólnych cech jednostek należących do badanej populacji⁶⁴. W notach metodologicznych większości badań sondażowych populacja określana jest w sposób deskryptywny. Dla przykładu, w badaniach Europejskiego Sondażu Społecznego „populację stano-wią osoby w wieku 15 lat lub starsze, niezależnie od ich narodowości oraz obywatelstwa, języka lub statusu prawnego” (ESS2 Sampling Report 2004: 3).

Z kolei w studiach Diagnozy Społecznej przedmiotem badania jest populacja wszystkich – bez wyjątku – gospodarstw domowych w Polsce⁶⁵. Podobnie moż-na powiedzieć, że przedmiotem badań preferencji politycznych jest populacja dorosłych mieszańców Polski posiadających czynne prawo wyborcze. Przy określaniu populacji będącej przedmiotem badania konieczne jest zatem wska-zanie cech pozwalających jednoznacznie określić, które elementy należą, a któ-re nie należą do badanej populacji. Poza opisem cech jednostek wymagane jest również ustalenie ram przestrzennych oraz czasowych, do jakich odnoszona będzie populacja będąca przedmiotem badania.

Populacja docelowa pozostaje z kolei zbiorem osób, które w rzeczywistości mają być przedmiotem wnioskowania prowadzonego w oparciu o pomiar pró-by (por. Cox 2008: 875–876; Groves i in. 2004: 67). W wielu sytuacjach nie ist-nieje żadna różnica (lub inaczej mówiąc, nie powinna istnieć różnica) pomiędzy populacją docelową a populacją będącą przedmiotem badania. Wnioskowanie powinno bowiem obejmować te kategorie jednostek należących do populacji, których uwzględnienie jest wymagane z uwagi na cel badania oraz związane z tym celem problemy badawcze. Jeśli zatem istnieje jakaś różnica pomiędzy oboma typami populacji, to raczej ze względu na uzasadnione merytorycznie względy praktyczne. Typowym przykładem takiego podejścia jest wyłączenie z zakresu populacji takich osób, z którymi realizacja badań byłaby niezwykle utrudniona lub po prostu niemożliwa. Dla przykładu, w badaniach Europejskie-go Sondażu SpołeczneEuropejskie-go w większości krajów wyklucza się z populacji osoby bezdomne oraz przebywające w miejscach zbiorowego zakwaterowania (na przykład w szpitalach, więzieniach, wojsku, klasztorach itp.). W innych nato-miast wyłącza się te kategorie populacji, z którymi realizacja badań byłaby

pro-______________

63 Jeżeli populacja składa się ze skończonej liczby elementów, to w sposób jawny określić można ją jako zbiór Ω = {𝜛₁, 𝜛₂, … , 𝜛_N}.

64 Jeżeli populację określamy poprzez wskazanie zestawu k cech (oznaczanych jako 𝛼), wśród których będą charakterystyki przestrzenne oraz czasowe, to populację można zapisać jako zbiór tych wszystkich elementów, które posiadają jednocześnie wszystkie określone przez badacza cechy, to znaczy Ω = {𝜛: 𝛼₁(𝜛) ∧ 𝛼₂(𝜛) ∧ … ∧ 𝛼_𝑘(𝜛)}.

65 Wprawdzie populacji badawczej nie zdefiniowano wprost, jednak w nocie metodologicznej raportu Diagnoza Społeczna 2011 Warunki i Jakość Życia Polaków można odnaleźć informację, że:

„badaniu podlegały gospodarstwa jednoosobowe oraz wieloosobowe” (Panek i in. 2011: 35–44).

blematyczna z uwagi na sytuację polityczną danego kraju. Wystarczy przywołać badania ESS realizowane w Izraelu, w których poza zakresem wnioskowania znajduje się mniejszość palestyńska we Wschodniej Jerozolimie oraz na Za-chodnim Brzegu Jordanu (por. na przykład ESS4 – 2008 Documentation Report:

163). Decyzja o wyłączeniu z badanej populacji pewnej kategorii osób może być też podyktowana względami finansowymi. Typowym tego przykładem jest grecka część projektu ESS, w której poza populacją badawczą znaleźli się mieszkańcy słabo zaludnionych wysp archipelagu Cyklad oraz Dodekanez (por.

ESS1 Sampling Report 2002: 18), czy też hiszpańska odsłona pierwszej edycji ESS, w której z populacji badawczej wyłączono mieszkańców dwóch afrykań-skich miast-enklaw: Ceuty oraz Melilli (por. ESS1 Sampling report 2002: 34).

Taka w gruncie rzeczy arbitralna decyzja badaczy o nieuwzględnianiu pewnych kategorii osób należących do populacji zawęża w sposób zupełnie oczywisty zakres indukcji statystycznej, ograniczając możliwość uogólniania wniosków z próby badawczej wyłącznie do zakresu populacji docelowej. Warto jednak zauważyć, że w wielu sytuacjach liczebności wykluczonych kategorii są na tyle niewielkie, w porównaniu z liczebnością całej populacji, że skutki takich decyzji nie będą – mimo wszystko – przekładać się w żaden istotny sposób na możli-wość wnioskowania o całej populacji, której prowadzone badanie powinno dotyczyć.

Trzeci ze wskazanych typów populacji związany jest z operatami doboru próby. O ile populację będącą przedmiotem badania oraz populację docelową można zdefiniować w sposób deskryptywny, tj. poprzez podanie cech, jakie jednostki zakwalifikowane do populacji mają posiadać, to w przypadku popula-cji pokrytej operatem losowania wymaga się już jej określenia w sposób kon-struktywny, to znaczy poprzez wskazanie konkretnych elementów, które do populacji tej należą. Innymi słowy, populacja pokryta operatem losowania jest wykazem jednostek (na przykład osób) lub rejestrem zespołów jednostek gru-pujących jednostki indywidualne wchodzące w skład populacji docelowej (na przykład adresów budynków, danych gospodarstw domowych), które wyko-rzystuje się do losowania prób badawczych. W tym ujęciu populacja objęta ope-ratem losowania utożsamiana jest po prostu z opeope-ratem doboru próby badaw-czej. Warto wskazać, że informacje zawarte w takich rejestrach pozwalają nie tylko na identyfikację jednostek (lub ich zespołów), ale zawierają też dodatko-we dane przydatne przy projektowaniu oraz wyborze określonych schematów doboru prób badawczych. Dla przykładu, rejestr PESEL zawiera informacje umożliwiające warstwowanie próby według miejsca zamieszkania, płci, wieku, a nawet stanu cywilnego. Z kolei baza TERYT, której depozytariuszem jest GUS, zawiera informacje o adresach jednostek mieszkalnych, pozwalające na podział próby względem struktury terytorialnej kraju. Relacja pomiędzy populacją

do-celową a tą pokrytą przez operat losowania jest zatem taka, że ta pierwsza określa, kto do populacji należy oraz jakie cechy wyróżniają włączone do niej jednostki, druga natomiast jest rejestrem jednostek wykorzystywanym w loso-waniu konkretnej próby badawczej.

III.2. Błędy operatów doboru prób badawczych

W dokumencie Reprezentatywność badań reprezentatywnych. Analiza wybranych problemów metodologicznych oraz praktycznych w paradygmacie całkowitego błędu pomiaru (Stron 107-112)