• Nie Znaleziono Wyników

Błąd, jakim mogą być obciążone samooceny Pytanie żądające od respondenta dokonania samooceny posiadanej cechy przy

obiektywizacji samoocen respondentów w badaniach sondażowych

2.1. Błąd, jakim mogą być obciążone samooceny Pytanie żądające od respondenta dokonania samooceny posiadanej cechy przy

użyciu skali porządkowej (np. skali Likerta) to bardzo często spotykany typ pyta-nia kwestionariuszowego. Mimo że samoocena jest z gruntu subiektywna, w prak-tyce badawczej bywa wykorzystywana jako wskaźnik obiektywnej rzeczywistości.

2.1. Błąd, jakim mogą być obciążone samooceny 41

Uzasadnieniem dla takiej praktyki jest, po pierwsze, trudność w zdobyciu ze-wnętrznych pomiarów informujących o prawdziwych wartościach cechy. Przykła-dowo, chcąc uzyskać informacje na temat stanu zdrowia członków jakiejś popu-lacji, badacze społeczni będą skłonni odwoływać się do najbardziej dostępnych im źródeł informacji, tj. poproszą samych respondentów o dokonanie samooceny w tym zakresie (np. za pomocą pytania: Jak ocenia P. swój stan zdrowia? Czy jest on bardzo dobry, raczej dobry, raczej zły, czy bardzo zły?). Alternatywą dla takiego po-stępowania byłoby zdobycie medycznych pomiarów, co znacznie podwyższyłoby koszty badania, o ile w ogóle byłoby możliwe (np. z powodu obostrzeń prawnych). Po drugie, są przypadki, w których nie ma alternatywy dla pytań o samoocenę. Kiedy badana jest cecha, z definicji związana tylko ze sferą świadomościową, to nie istnieje dla niej ani fizycznie, ani nawet potencjalnie żadne zewnętrzne źródło informacji. Przykładem może być poczucie wpływu na rządzących (ang. external political efficacy1) – w odniesieniu do tej cechy trudno nawet wyobrazić sobie ewentualne zabiegi badawcze, które miałyby polegać na wywołaniu określonych zachowań i pozwolić na uzewnętrznienie badanej własności tak, aby stała się mie-rzalna w bezpośrednim, fizycznym teście2.

Wskaźnikowanie o obiektywnej, prawdziwej wartości cechy na podstawie sa-mooceny ma swoje oczywiste ograniczenia, jakimi są chociażby zgrubność po-miaru i deklaratywny charakter danych. Przystając na te niedogodności, badacze oczekują korzyści, jaką będzie możliwość dokonywania porównań między jed-nostkami. Historia badań sondażowych pokazuje, że oczekiwanie to nie zawsze znajduje uzasadnienie, bowiem w wielu przypadkach samooceny respondentów są obarczone dodatkowym, specyficznym błędem.

Ilustracją błędu, jaki mogą zawierać samooceny, niech będzie następujący przy-kład: dwie osoby, którym w takim samym stopniu sprawia trudność wchodzenie po schodach, różnie oceniają swoje problemy z poruszaniem się – 90-latek oce-nia je jako „łagodne”, a 40-latek jako „umiarkowane” (por. Salomon i in. 2004). Taka rozbieżność w ocenie rzeczywistości, na pozór niewyglądająca ani groźnie, ani zaskakująco, może być jednak powodem otrzymywania co najmniej zastana-wiających rezultatów badań. Oto zgodnie z  wynikami jednego sondażu, Chiń-czycy okazują się mieć większe poczucie wpływu na  rządzących niż obywatele

1 W badaniach prowadzonych przez Kinga i Wanda (2006) poczucie wpływu na rządzących było mierzone za pomocą pytania żądającego dokonania samooceny: How much say do you have in getting the government to address issues that interest you? (1) no say, (2) little say, (3) some say, (4) a lot of say, (5) unlimited say. W innych badaniach sondażowych cechę tę często się mierzy stosunkiem respondentów do takich stwierdzeń jak: Przedstawiciele władz nie przejmują się tym co myślą ludzie tacy jak ja; Ludzie tacy jak ja nie mają nic do powiedze-nia w kwestii tego co robi rząd (por. Skarżyńska, Chmielewski 1994; Abramson, Aldrich 1982; Przybysz 2004; Korzeniowski 1997; Miszalska 1996).

2 Takie zachowania jak uczestnictwo w wyborach, pisanie listów i petycji do władz, angażo-wanie się w kampanie polityczne czy prowadzenie we własnych kręgach dyskusji na tematy polityczne są korelatami tej cechy, a nie składnikami definiensu.

bardziej demokratycznego Meksyku. Paradoks ten zainspirował Gary’ego Kinga i jego współpracowników do opracowania prezentowanej w tej pracy techniki wi-niet zakotwiczających (King i in. 2004). Inne przykłady – istnieje sporo doniesień mówiących, że zależność między stanem zdrowia i jego samooceną bywa odwrot-nie proporcjonalna – np. porównania między mężczyznami z Wielkiej Brytanii i Stanów Zjednoczonych (Banks i in. 2006) czy porównania między mieszkańcami różnych regionów Indii (Sen 2002, za: King i in. 2004) pokazują, że zdrowsi re-spondenci oceniają swój stan zdrowia gorzej niż rere-spondenci mający więcej pro-blemów zdrowotnych. Z punktu widzenia trafności pomiaru możemy więc mówić o wystąpieniu błędu.

W literaturze błąd ten bywa różnie nazywany i ujmowany, niemniej jego de-finicje są równoważne. Differential item functioning (w skrócie DIF) powstaje wtedy, gdy dwie osoby posiadające tę samą wartość cechy mają różne prawdopo-dobieństwa dostarczenia takiej samej odpowiedzi (Hopkins, King 2010). Wyni-ka on z systematycznych różnic w sposobie posługiwania się odpowiedziami do wyboru, tworzącymi skalę porządkową (np. bardzo dobrze, raczej dobrze, raczej źle, bardzo źle). Z tego powodu błąd jest dookreślany jako response category DIF, co znaczy, że jest związany tylko z rozwijającą, a nie podstawową częścią pytania, innymi słowy nie wynika on z różnego rozumienia treści pytania (czyli nie jest to tzw. stem DIF) (King i in. 2004; King, Wand 2006). Inne spotykane w piśmien-nictwie nazwy tego błędu to reporting heterogeneity (Bago d’Uva i in. 2009) czy rating style (Grol-Prokopczyk i in. 2011). Używając języka socjologicznego, moż-na powiedzieć, że istotą tego błędu jest to, że ludzie różnią się posiadanymi stan-dardami oceny – mają zróżnicowane normy i oczekiwania odnośnie do tego, co to jest dobry stan (w jakiejś dziedzinie), a od jakiego poziomu zaczyna się stan zły czy niesatysfakcjonujący. Zjawisko przykładania własnych miar przy dokonywa-niu oceny ma swoje źródło w uwarunkowaniach kulturowych i zróżnicowaniach społeczno-demograficznych. Jego konsekwencją jest natomiast nieporównywal-ność wyników (jeśli traktować je jako wskaźniki prawdziwej wartości cechy). Ten sposób ujęcia błędu oddają inne jego nazwy, takie jak interpersonal/inter-group/ cross-cultural incomparability (King i in. 2004; King, Wand 2006).

Zaproponowanym przez G. Kinga i J. Wanda remedium na response category DIF jest technika winiet zakotwiczających (King, Wand 2006; King i in. 2004). Technika ta robi maksymalny użytek z danych opartych na interrogacji – wykorzystuje dane wewnętrzne (sondażowe), które dzięki winietom pełnią funkcję zewnętrznej „ko-twicy”, czyli obiektywnego pomiaru. Metoda proponuje więc alternatywę dla ze-wnętrznego źródła informacji w sytuacji, gdy nie można z niego skorzystać. Dzięki możliwości odwołania się do tak rozumianego „standardu” technika pozwala nie tylko sprawdzić, czy samooceny są obarczone błędem, lecz także skorygować go. Mówiąc krócej, technika umożliwia obiektywizację samoocen.

Korekta dokonywana jest na etapie opracowania materiałów. Celem nie jest skon-struowanie idealnego pytania, które pozwalałoby wyeliminować błąd w fazie formu-łowania odpowiedzi – uważa się, że taki cel jest niemożliwy do osiągnięcia. Mówiąc