Psychologia „fałszywie pozytywna” – próba empirycznego zbadania rozpowszechnienia zjawiska rozpowszechnienia zjawiska

Fakt, że teoretycznie możliwe jest naginanie danych, oraz fakt, że konkretne badania wydają się cokolwiek arbitralne, nie mówi nam nic na temat tego, jak bardzo jest to rozpowszechnione. Najbardziej kompleksową i chyba jedyną próbę empirycznego oszacowania częstości wątpliwych praktyk badawczych przeprowadzili John, Loewenstein i Prelec (2012). Zaproszenie do udziału wysłano prawie 6 tys. psychologów akademickich w USA. Ostatecznie w badaniu wzięło udział nieco ponad 2 tys. Badanym zapewniono anonimowość i motywowano do mówienia prawdy (ankietowani wskazywali organizację pożytku publicznego, której autorzy badania wysyłali datki, co rzeczywiście miało miejsce).

Pytano przede wszystkim o to, czy osoby kiedykolwiek realizowała jedną z wymienionych wątpliwych praktyk badawczych oraz jakie jest – zdaniem

ankietowanego – rozpowszechnienie tychże praktyk wśród badaczy. Dodatkowo badani szacowali, jaka część badaczy przyznałaby się do wątpliwych praktyk, i m.in. na tej podstawie starano się oszacować rzeczywiste rozpowszechnienie wątpliwych praktyk badawczych (omówienie logiczno-matematyczne tej metodologii: Prelec, 2004). Pytano również o dopuszczalność poszczególnych praktyk w 3 stopniowej skali. Tabela 1.1. zawiera rozpowszechnienie wątpliwych praktyk na podstawie samopisów, szacunków dotyczących innych badaczy, oraz oszacowanie

rzeczywistego rozpowszechnienia przez autorów artykułu. Ostatnia kolumna zawiera ocenę dopuszczalności danej praktyki.

TABELA 1.1. Rozpowszechnienie wątpliwych praktyk badawczych

Wątpliwa praktyka badawcza

Procent badanych, którzy przyznali się do stosowania danej praktyki13 Szacowane przez ankietowanych badaczy rozpowszechni enie danej praktyki w społeczności naukowej14 Oszacowanie rozpowszechni enia praktyki na podstawie bayesowskieg o serum prawdy Średnia ocena dopuszczalności danej praktyki15 (w nawiasie odchylenia standardowe).

1. Nie raportowanie wszystkich

wykorzystanych zmiennych zależnych ^{66,5 %} ^{60 %} ^{78 %} ^{1,84 (0,39)}

2. Zbieranie dodatkowych danych po sprawdzeniu czy już posiadane dane są istotne

58,0 % 62 % 72 % 1,79 (0,44)

3. Wybiórcze raportowanie tylko tych warunków eksperymentalnych, pomiędzy którymi zanotowano istotne różnice

27,4 % 38 % 42 % 1,77 (0,49)

4. Rezygnacja ze zbierania danych wcześniej niż zaplanowano, ze względu na znalezienie oczekiwanych wyników

22,5 % 41 % 36 % 1,76 (0,48)

5. Nieuprawnione zaokrąglanie wartości p (np. raportowanie wartości p=0,054 jako p<0,05)

23,3 % 41 % 39 % 1,68 (0,57)

6. Selektywne raportowanie tylko tych

badań, które „wyszły” ^{50,0 %} ^{61 %} ^{67 %} ^{1,66 (0,53)}

7. Decydowanie o tym, czy wykluczyć określone dane po sprawdzeniu wpływu takiej operacji na rezultaty

43,4 % 45 % 62 % 1,61 (0,59)

8. Opisywanie nieoczekiwanego wcześniej odkrycia jako

przewidzianego od samego początku

27,0 % 50 % 54 % 1,50 (0,60)

9. Twierdzenie, że na wyniki nie mają wpływu zmienne demograficzne, podczas gdy w rzeczywistości nie wiadomo lub mają wpływ

4,5 % 22 % 13 % 1,32 (0,60)

10. Fałszowanie (fabrykowanie)

danych ^{1,7 %} ^{10 %} ^{9 %} ^{0,16 (0,38)}

Źródło: dane zawarte w John i in. (2012)

Ściślej: zaraportowano tutaj wyniki grupy, która była dodatkowo motywowana do mówienia prawdy. Wyniki grupy kontrolnej były zwykle kilka procent niższe (tj. niższe o 0-7 %).

Ta wielkość jest oszacowana przeze mnie na podstawie wysokości słupka wykresu, gdyż autorzy nie przedstawili w artykule tabeli z dokładnymi danymi.

Z badania wynikają w większości niewesołe wnioski. Zanim je omówię, wspomnę jednak najpierw o kilku wątpliwościach, co do samej metodologii i prezentowanych wyników. Główna wątpliwość nasuwa się taka: zadawano pytanie o to, czy komuś zdarzyło się przynajmniej raz popełnić określoną wątpliwą praktykę. Odpowiedź pozytywna jest sama w sobie bardzo pojemna i może obejmować zarówno osoby, które systematycznie „podkręcają” dane wypaczając zupełnie wynik, jak również osoby, którym zdarza się to niezwykle rzadko lub w taki sposób, że dotyczy to kwestii marginalnych i nie ma praktycznie żadnego znaczenia dla rzetelności danych. Samo zestawienie nie uwzględnia też sytuacji, gdy nieuprawnione działania zostały niejako wymuszone, bo redaktorzy i recenzenci wymagali „wygładzenia” danych (a afera Stapela pokazała, że i tak się zdarza np. Levelt, 2012 s. 53). W artykule

zaraportowano co prawda dodatkowe badanie, w którym przebadano grupę ponad 130 badaczy – uczestników „konferencji poświęconej badaniom behawioralnym”. Wśród osób, które twierdziły, że zdarzały się im wątpliwe praktyki 64 % twierdziło, że zrobiło to „raz lub dwa razy”, 26 % twierdziło, że robi to sporadycznie, a 10 %, że często. Wydawać by się mogło więc, że nawet jeśli są stosowane, to wątpliwe praktyki są raczej rzadkie. Niemniej trzeba odnotować, że była to grupa dużo mniejsza, mniej reprezentatywna i prawdopodobnie anonimowość była gorzej zapewniona (niestety, to badanie to jest bardzo pobieżnie opisane).

John i in. mogli też zaznaczyć, jaki procent badaczy angażował się w przynajmniej jedną praktykę (lub więcej), a jaki odsetek był całkowicie „czysty”. Warto to wiedzieć, gdyż robi pewną jakościową różnicę, jeśli – przykładowo – badacze, którzy stosują praktykę 6 i 7 są to te same osoby, albo te dwa zbiory pokrywają się w niewielkim stopniu.

Tak czy owak, niektóre pesymistyczne wnioski są niezaprzeczalne. W badaniu wzięło udział nieco ponad 30 % wszystkich osób, do których wysłano zaproszenie (kilkakrotnie je ponawiano, jeśli ktoś nie odpowiedział od razu). Można założyć, że duża część osób systematycznie fałszujących dane nie podejdzie w ogóle do takiej ankiety. Odsetek przyznających się jest tak czy owak niemały, a trudno

przypuszczać, żeby ktoś się przyznawał do nieuczciwych praktyk nie stosując ich, wydaje się, że odwrotna sytuacja jest dużo bardziej prawdopodobna (na co wskazuje też Fanelli, 2009). W przypadku niektórych kategorii ponad 50 % badanych przyznaje się do praktyk, które, jak wiadomo, prowadzą do zawyżonej liczby wyników

fałszywych pozytywnych. Jeśli założyć, że metodologia „bayesowskiego serum prawdy” jest trafna¹⁶ odsetek badaczy stosujących analizowane przez Simmonsa i in. (2011) praktyki takie jak nie raportowanie zmiennych zależnych, dokładanie osób do kratek aż do skutku i wybieranie „działających” porównań między grupami wynosi odpowiednio 78 %, 72 %, i 42 %. Jednym z najbardziej pesymistycznych wniosków jest, że wszystkie wątpliwe praktyki badawcze (poza fałszowaniem danych) nie są postrzegane jako coś złego, ale są oceniane jako „raczej dopuszczalne” lub wręcz „dopuszczalne”. W przyszłych badaniach byłoby interesującym rozstrzygnąć czy wynika to z niskiej świadomości metodologicznej, czy też raczej z cynicznego pragmatyzmu. John i in. (2012) podają też rezultaty z rozbiciem na poszczególne subdyscypliny. Psychologia społeczna, która jest w szczególny sposób analizowana w tej dysertacji, miała badaczy najczęściej przyznających się do QRP.

Chciałbym poświęcić tu uwagę praktyce polegającej na opisywaniu

nieprzewidzianego odkrycia jako hipotetycznie założonego od początku¹⁷ (nr 8 na liście w Tabeli 1.1.). Jest to inny zabieg niż pozostałe, gdyż sam w sobie nie ma na celu zwiększenia szans na wynik istotny statystycznie. Na pierwszy rzut oka może wydawać się przede wszystkim zabiegiem stylistyczno-retorycznym, nie do końca uczciwym, ale na pozór nieszkodliwym. Tak jednak nie jest, na co zwraca uwagę Kerr (1998) w artykule szeroko omawiającym tą niestety częstą praktykę. Jeśli badacz odkryje jakieś zjawisko, a następnie dorobi do niego odpowiednią „ideologię” teoretyczną (co w nauce takiej jak psychologia nie jest trudne, jak starałem się pokazać wcześniej), i przedstawia swoje odkrycie jako przewidziane od początku, wówczas tworzy w innych badaczach nieuprawnione poczucie siły przewidywania teorii. A skoro teoria jest w stanie „wygenerować” takie odkrycia, to coś w niej musi być na rzeczy. Jednak, jak dobrze wiemy, teoria niczego nie wygenerowała.

Problem jest niemały, gdyż lektura czasopism takich jak JPSP czy PSPB pokazuje, że praktycznie wszystkie odkrycia były „przewidziane”. Bones (2012) ironizowała, że Bem (2011) w swoim badaniu o prekognicji nie pokazał niczego nowego, gdyż każdy numer JPSP dostarcza mnóstwo dowodów na prekognicję. Do problemu roli teorii w generowaniu hipotez powrócę w rozdziale 3.

Artykuł teoretyczno-matematyczny, który ją opisuje został opublikowany przez Prelec-a (2004) w Science, niestety ze względu na skomplikowany aparat matematyczny, brakuje mi kompetencji, żeby ocenić tą metodę.

Fałszerstwo – najgorszy rodzaj występku przeciwko rzetelności badań naukowych – szczęśliwie nie jest oceniane jako dopuszczalne, tym niemniej prawie 2 % badaczy przyznało się do jego stosowania, a odsetek ten może być dużo wyższy (wg autorów nawet 10 %). Przyjmując optymistyczne założenie, że odsetek 2 % jest

reprezentatywny dla całej populacji badaczy, oznacza to, że tylko na uczelniach amerykańskich funkcjonują setki osób, które aktywnie przekłamują dane. Trudno jednak zaprzeczyć, że pozostałe praktyki też są rodzajem fałszerstwa¹⁸, nie polegają co prawda na tworzeniu nieistniejących danych, ale fałszują innym badaczom obraz rzeczywistości, nie dają bowiem możliwości oceny rzeczywistej siły efektu,

prawdopodobieństwa replikacji oraz nie dają wglądu w opis całego procesu badawczego. Osobną kwestią jest to, o czym już wcześniej wspominałem, że redaktorzy i recenzenci najprawdopodobniej aktywnie promują niektóre rodzaje zafałszowań, gdyż nie jest możliwe – ze względu choćby na czysty rachunek prawdopodobieństwa – żeby kilka kolejnych badań o niskiej mocy i umiarkowanie silnych efektach dawało zawsze tak gładkie rezultaty, jak to na ogół spotykamy choćby w JPSP.

Wyniki badania zespołu Johna są dosyć zbliżone do wyników uzyskanych w meta-analizie badań nad częstością deklarowanych fałszerstw przeprowadzonej przez Fanelliego (2009), obejmującej wszystkie nauki (większość badań w niej

uwzględnionych pochodziła z medycyny). Ważony odsetek badaczy przyznających się do fałszerstw wynosił 1,97 %, a 33 % przyznawało się do popełniania innych wątpliwych praktyk badawczych (niestety, Fanelli nie precyzuje dokładnie jakich). Ankietowani badacze szacując rozpowszechnienie fałszerstwa i wątpliwych praktyk wśród innych badaczy wskazywali średnio wartości 14 % i 72 %.

Wyniki Johna i in. potwierdzają więc, że psychologia fałszywa pozytywna przed którą ostrzegają Simmons i in. (2011) może mieć miejsce, a nie jest tylko matematyczną ciekawostką.

Idąc krok dalej Bakker, van Dijk i Wicherts (2012) postanowili sprawdzić jakie strategie badawcze są optymalne z punktu widzenia znajdowania potencjalnie publikowalnych (czyli istotnych) wyników. Użyli metafory gry: naukowcy mogą przyjmować różne „strategie” badawcze, a celem gry jest wynik istotny statycznie.

Baker i in. wygenerowali symulacje wielu badań i zestawiali je w „meta-analizy”. Założono, że „gracze” mogą stosować jedną z 4 strategii:

a) jedno duże badanie o próbie N

b) jedno duże badanie o próbie N z zastosowaniem trzech QRP (tj. dwie zmienne zależne, raportowanie tylko istotnej; dodawanie badanych do czasu znalezienia istotności; usuwanie skrajnych wyników, jeśli przynosi to istotne wyniki)

c) 5 małych badań o próbie N/5 z zaprzestaniem dalszych badań, gdy tylko istotny efekt zostanie znaleziony

d) 5 małych badań o próbie N/5 z zaprzestaniem dalszych badań, gdy tylko istotny efekt zostanie znaleziony z zastosowanie trzech QRP opisanych w punkcie b Zauważmy, że wszystkie strategie wymagają zbliżonego wysiłku organizacyjnego, gdyż za każdym razem badamy tak samo dużą grupę. W przypadku strategii c i d wysiłek teoretycznie powinien być większy, gdyż w zamyśle przeprowadzamy 5 niezależnych badań. Jednak zmiany te mogą być symboliczne.

Wyniki nie były zaskakujące: największe szanse na znalezienie „jakichś” istotnych zależności miały strategię b. i d.. Były one tym większe, im słabszy był efekt i

mniejsza próba N. Analogicznie, największe odchylenia siły znalezionego efektu od rzeczywistego występowały przy słabych efektach i małych próbach. Na rycinie 1.1 zaprezentowano wynik dwóch „meta-analiz” przeprowadzonych na wynikach

symulowanych badań zgodnie ze strategią pierwszą i ostatnią, przy założeniu braku rzeczywistego efektu (d = 0). Ta ostatnia strategia bardzo wyraźnie wypacza jego wielkość, wskazuje bowiem, że wynosi ona około d = 0,5.

RYCINA 1.1. Wyniki symulacji wielu badań zestawionych w „meta-analizy”

Źródło: przedruk z Bakker, van Dijk, Wicherts (2012)

W przypadku bardzo silnych efektów, wątpliwe strategie aż tak bardzo nie wypaczały rzeczywistego wyniku, bo istotne wyniki były znajdowane tak czy owak, a więc

wybiórcze publikowanie nie było konieczne.

O ile przeprowadzenie jednego dużego badania wydaje się być strategią najlepszą w dążeniu do prawdy, o tyle niekoniecznie musi to być strategia najlepsza pod kątem potencjalnej publikacji.

Polski badacz o znaczącym dorobku podzielił się ze mną obserwacją ze swojego pobytu w zagranicznym ośrodku w połowie pierwszej dekady XXI wieku. Stwierdził, że standardową praktyką tam, było przeprowadzanie jednego nowego badania w ciągu tygodnia, z których potem zwykle ostatecznie jedno na dziesięć było wysyłane do czasopisma. Niestety, istnieją bardziej „twarde” dane wskazujące na to, że

strategia badawcza polegająca na przeprowadzaniu wielu badań o względnie niskiej mocy, po to, żeby z ogromu danych dało się wyłowić istotne wyniki, jest wcale

nierzadka. Szczególnie istotne są tu systematyczne analizy nad mocą statystyczną badań.

W dokumencie Wartość poznawcza badań empirycznych w psychologii społecznej (Stron 29-35)