Moc statystyczna badań i wybiórcze publikowanie

Czasopisma publikujące oryginalne artykuły empiryczne w psychologii składają się w olbrzymiej większości z „udanych” badań. Cudzysłów bierze się z tego, że kryterium

sukcesu jest przede wszystkim istotność statystyczna wyniku, niekoniecznie jego rzetelność (prawdziwość) i/lub znaczenie (teoretyczne czy praktyczne). W jakiejś mierze trudno się dziwić redaktorom. Gdyby miano publikować każde badanie o rozsądnej metodologii, niezależnie od wyniku, wówczas czasopisma byłyby zalane raportami o nieistotnych wynikach, co prawdopodobnie jeszcze bardziej utrudniałoby poruszanie się w monstrualnej liczbie artykułów, jakie już się ukazują. Z

nieskończonej liczby możliwych kombinacji zmiennych najbardziej przyciągają umysł te, które rzeczywiście „działają”, a z „niedziałających” na ogół mniej wynika dla naszego rozumienia świata (wyjątki od tej reguły omówię na końcu tego

podrozdziału). We wszystkich więc naukach wyniki pozytywne stanowią większość. Jednak w różnym stopniu. W dużej analizie bibliometrycznej Fanelli (2010a) pokazał, że psychologia wespół z psychiatrią znajduje się na czele listy wszystkich nauk z wynikami pozytywnymi. Najmniej artykułów potwierdzających wyjściową hipotezę publikuje się w astrofizyce (ok. 70 %). W psychologii odsetek ten wynosi 91.5 %. Biorąc jednak poprawkę na to, że w artykułach psychologicznych testuje się dużą więcej hipotez, Fanelli wyliczył, że w psychologii jest ponad 5 razy więcej wyników „pozytywnych” w przeliczeniu na artykuł niż w naukach o kosmosie. Różnice te są szczególnie wyraźne w badaniach podstawowych (w badaniach aplikacyjnych nie było dużych różnic między tj. w „twardych” naukach negatywne wyniki w

czasopismach aplikacyjnych też nie były mile widziane).

Postanowiłem dodatkowo przetestować odkryte przez Fanelliego prawidłowości. Przejrzałem abstrakty wszystkich artykułów opublikowanych w JPSP w roku 2013. W 98 tekstach przedstawiono wyniki więcej niż jednego oryginalnego badania

empiryczne, łącznie 435 badań (68 tekstów zawierało 4 lub więcej badań, maksymalnie 10). Wszystkie badania w obrębie jednego artykułu potwierdzały wyjściową hipotezę. Autorzy w żadnym z abstraktów nie wspominają o znalezieniu jakichś danych, które nie potwierdzałyby ich hipotezy. (W olbrzymiej większości były to wyniki na rzecz jakiejś oryginalnej hipotezy, choć zdarzyły się dwa teksty, których celem była krytyka innych teorii i przedstawiono tutaj dane im zaprzeczające). Jeśli abstrakt wspomina o tym, skąd autorzy wzięli określone hipotezy empiryczne, to były zwykle przedstawione jako „przewidziane” od samego początku przez założenia teoretyczne (por. też Kerr, 1998), sporadycznie badanie było przedstawiane jako eksploracyjne w swej naturze. Jak już wspominałem Bones (2012) ironizowała, że

Bem (2011) w swoim kontrowersyjnym badaniu o prekognicji nie pokazał niczego nowego, gdyż każdy numer JPSP dostarcza mnóstwo dowodów na prekognicję. Niestety, trudno się nie zgodzić.

Psycholodzy byliby więc nieformalnymi „mistrzami świata” w wyciąganiu trafnych wniosków o rzeczywistości (na podstawie precyzyjnych teorii?). Rzeczywistość najprawdopodobniej nie rysuje się tak różowo. Choć w normalnych empirycznych czasopismach nie spotyka się prawie nigdy wzmianek o „porażkach”, to czasami niektórzy badacze przyznają, że większość ich danych nie została nigdy

opublikowana, gdyż zwyczajnie nie przyniosły istotnych wyników (i robią to raczej w esejach niż w artykułach empirycznych). „Nie wiem jak to wygląda u was, ale

większość moich danych nie zostało opublikowanych w dobrych czasopismach, ani nawet słabych czasopismach, większość moich danych leży sobie w szufladzie (ok, większość niedawnych danych jest rozrzuconych po dysku komputera)” to słowa redaktor naczelnej PoPS Barbary Spellman (2012, s. 58). „Jako czynny psycholog społeczny jestem przekonany, że co roku tysiące tak zwanych nieudanych badań w szufladach bez żadnej szansy na publikację (sam oczywiście mam takie w własnym biurku – mnóstwo pracy, żadnych efektów)”, to z kolei cytat z polskiego psychologa społecznego Jarosława Klebaniuka (2012, s. 216).

Mógłbym dodać do tego podobne obserwacje. Prowadząc przedmiot poświęcony badaniom empirycznym nadzorowałem studenckie replikacje m.in. badań nad wpływem prymowania nietypowych ról płciowych na poczucie własnej wartości w domenie zawodowej (Rudman, Phelan, 2010), nad wpływem aktywacji konceptu śmiertelności na poziom religijności (Norenzayan, Hansen, 2006), czy zagrożenia patogenami na postrzeganie atrakcyjności fizycznej (Little, DeBruine, Jones, 2006). Praktycznie nigdy replikacje te nie dawały wyników takich jak oryginalne. Dodam, że były to na ogół tzw. replikacje konceptualne, a nie dokładne, uczestnikami byli

ochotnicy, którzy nie otrzymywali gratyfikacji w postaci wynagrodzenia lub punktów do zaliczenia, przeprowadzającymi badanie byli studenci, a nie zawodowi badacze, zwykle też badani byli testowani w masowych sesjach, a nie w indywidualnych kabinach. Mimo tego, trudność w replikacji względnie nowych, mało zbadanych efektów jest niepokojąca, tym bardziej, że w przypadku względnie prostych, „klasycznych” efektów nigdy nie miałem problemów z ich replikacją np. efektu Stroopa; efektu rotacji mentalnych; efektu pamiętania w zależności od poziomów

przetwarzania itd. W pracy dyplomowej próbowałem replikować sensacyjny (i silny) efekt nieświadomego myślenia (Dijksterhuis, Bos, Nordgren, van Baaren, 2006). Jedno z badań ukazało się m.in. w Science. Również nie udało mi się powtórzyć wyników (Budzicz, 2008).

Gdy zacząłem czytać artykuły w JPSP, odczuwałem rodzaj podziwu i respektu dla badaczy, którzy w kolejnych sześciu czy ośmiu badaniach wykazywali prawdziwość wyjściowej hipotezy. Wszystko przebiegało bez jakichkolwiek „zgrzytów”, choćby w postaci nieudanych eksperymentów. Wraz ze zdobyciem szerszych doświadczeń eksperymentalnych, uznałem za podejrzane, że badacze od razu „utrafili” z

procedurą, manipulacją eksperymentalną, sposobem operacjonalizacji zmiennych, a gdy już utrafili, to potem każde z kolejnych badanie potwierdzało wyjściową hipotezę. Czasopisma psychologiczne zdają się wskazywać, że coś takiego jest „normą”. W często cytowanej systematycznej analizie Sterlinga, Rosenbauma i Weinkama (1995) sprawdzono, że średnio 95 % artykułów w psychologii odrzuca hipotezę

zerową, a różnice między poszczególnymi subdyscyplinami są minimalne (od 93 % w psychologii eksperymentalnej do 97 % w psychologii klinicznej).

Osiem wychodzących pod rząd badań w psychologii kłóci się nie tylko z codziennym laboratoryjnym doświadczeniem, ale również z twardymi prawami rachunku

prawdopodobieństwa. Zrozumieniu, dlaczego tak się dzieje, pomocne będzie przypomnienie pojęcie mocy badania.

Moc badania to prawdopodobieństwo, że – przy założonej sile efektu oraz

liczebności grupy badanej – określone badanie da wynik istotny statycznie (Cohen, 1992). Badacze dążą do maksymalizacji mocy, gdyż, co oczywiste, nie chcą

marnować czasu i środków na badania, które nie dadzą wyników potencjalnie

publikowalnych w dobrych periodykach. Hipotetyczne efekty niekoniecznie występują w naturze, ale nawet, gdy występują nie zawsze pokażą się w badaniu w postaci istotnych statystycznie zależności, szczególnie z powodu tzw. błędu próby (ang.

sampling error), czyli różnych przypadkowych czynników, które wpływają na to, że

próba jest odległa od reprezentatywności. Im większa próba, tym przypadek gra mniejszą rolę, podobnie silniejsze efekty są łatwiej powtarzalne. W próbie liczącej 6 kobiet i 6 mężczyzn może się zdarzyć, że kobiety będą średnio wyższe, ale w próbie 40 kobiet i 40 mężczyzn jest to bardzo nieprawdopodobne (tym bardziej, że efekt różnicy wzrostu w zależności od płci jest bardzo silny, por. Lippa, 2009). Gdybyśmy

porównywali wzrost 13- i 14-latków, porównanie średnich wyników dwóch grup może nie wykazać występowania istotnego efektu, o ile próba nie będzie naprawdę bardzo duża.

W badaniach o niewielkiej próbie nie tylko trudniej uzyskać istotny wynik, ale też uzyskuje się zróżnicowane siły efektu często mocno odbiegające od prawdziwej wartości (Ioannidis, 2008). Przy czym odchylenie to może być w dowolnym kierunku, a więc jeśli efekt wynosi rzeczywiście d = 0,5, w badaniu o małej próbie jest spore prawdopodobieństwo, że efekt będzie miał wartość zarówno d = 1,0 jak i d = 0,0 (im większa próba tym częściej wielkość efektu będzie się oscylować wokół

rzeczywistego d = 0,5). Przykładowo, Lippa (2009) opisał dane z dużego badania internetowego dotyczącego różnic międzypłciowych, w którym wzięło udział ponad 200 tysięcy osób z 53 krajów. Możemy umownie potraktować badanych z każdego kraju jako osobną próbę. Rycina 1.2 prezentuje wielkości efektu różnic

międzypłciowych dla jednej z badanych zmiennych (konkretnie: siły popędu seksualnego) w zależności od logarytmu z wielkości próby. Punkty tworzą charakterystyczny „lejek” (ang. funnel), który zwęża się wraz ze zwiększaniem wielkości próby. Im większa próba, tym przypadek traci na znaczeniu, a siła efektu coraz bardziej zbliża się do rzeczywistej¹⁹. Im próby mniejsze, tym siły efektów są coraz bardziej rozrzucone, a więc odnajdujemy zarówno efekty dużo słabsze i silniejsze niż rzeczywisty.

W badaniu nie można modyfikować siły efektu (o ile nie stosuje się wątpliwych

praktyk badawczych), dlatego zasadniczo jedynym sposobem zwiększenia mocy jest zwiększenie liczebności grupy badanej²⁰. Idealne byłyby grupy bardzo liczne, ale ze względu na ograniczone środki, badacze muszą znajdować kompromisy pomiędzy dużą mocą, a rozsądną liczbą osób badanych²¹. Choć wielkość efektu jest nieznana, można kierować się siłami efektów w podobnych badaniach. Znając hipotetyczną wielkość efektu i przyjmując określony poziom pożądanej mocy, można precyzyjnie wyliczyć liczbę badanych. Szczególnie popularny program do takich obliczań to

Oczywiście, rzeczywista siła efektu to nie tylko kwestia dużej próby, ale też trafności narzędzia pomiarowego. W opisanym wypadku można się też zastanawiać czy przypadkiem różnice międzykulturowe nie grają jakiejś roli, choć kształt rozkładu wskazywałby na to, że nie jest to duża rola.

Ale też bardziej rzetelne narzędzia zwiększają moc, por. LeBel, Paunonen (2011)

Na moc wpływa też założony poziom alpha. Przy bardziej wyśrubowanych poziomach (np. p=0,001) moc jest niższa niż przy „standardowym” p=0,05. Jako, że w psychologii prawie zawsze przyjmujemy poziom alpha równy 0,05 lub mniej, nie ma to zasadniczo znaczenia dla wyliczania mocy badania.

Power, wiele symulacji oczekiwanej mocy przedstawił też Cohen (1992). Zdaniem niektórych w psychologii istnieje niska statystyczna świadomość znaczenia mocy i wielkość grup badanych ustala się przede wszystkim na podstawie intuicji, a nie formalnej analiz mocy (Maxwell, 2004, Sedlmeier, Gigerenzer, 1989; Vankov, Bowers, Munafo, 2014).

Tak więc raport prezentujący 8 udanych badań o umiarkowanej sile efektów i niezbyt licznych próbach raczej nie zawiera całej prawdy. Muszą istnieć jakieś badania, których badacz nie opisał, lub, w najgorszym przypadku, opisane badania są sfałszowane lub zniekształcone. Wybiórcze publikowanie można analizować na poziomie zarówno serii badań opublikowanych w jednym artykule, meta-analiz, jak i całej nauki.

RYCINA 1.2. Rozkład wielkości efektu siły popędu seksualnego w zależności od płci w zestawieniu z logarytmem wielkości próby (w badaniu Lippa, 2009)

W pokazywaniu możliwego wybiórczego publikowania na poziomie pojedynczych artykułów empirycznych poprzez obliczanie skumulowanej mocy²² wyspecjalizował się w ostatnich latach szczególnie Gregory Francis z Purdue University. W tabeli 1.2 przedstawiłem zakwestionowane przez niego teksty.

Przykładowo w jednym z artykułów (Francis, 2012e) przyjrzał się on dokładniej badaniu Galaka i Meyvis (2011) opisującym efekt polegający na tym, że osoby wspominały nieprzyjemne doświadczenie jako bardziej awersyjne, jeśli spodziewały się go powtórnie doświadczyć. Spośród ośmiu badań w siedmiu miały miejsce istotne efekty (ale i to nieistotne było bardzo blisko granicy 0,05). Analiza siły efektów oraz wielkości prób wskazywała jednak na to, że prawdopodobieństwo uzyskania takich wyników było skrajnie niskie, gdyż efekty były zawsze dosyć silne, a grupy mało liczne. Tak więc powinny były istnieć dodatkowe badania, nie opisane w tekście, bez istotnych efektów (ewentualnie dane w cytowanych badaniach zostały jakoś

„podkręcone”, lub w najgorszym wypadku sfałszowane).

Pośrednią wskazówką wybiórczej publikacji jest też negatywna korelacja pomiędzy wielkością próby, a siłą efektu. W dużej próbie trudno przypadkowo uzyskać duży efekt, gdyż błąd próby jest mały. W małej próbie łatwiej uzyskać silny efekt, choć można też uzyskać efekt słabszy niż rzeczywisty. Statystycznie patrząc, nie ma żadnego związku między średnią siłą efektu, a wielkością próby. Choć średnie nie będą się na długą metę różnić, to mniejsze próby będą miały większą wariancję sił efektów (por. ryc. 1.2). Publikując tylko badania pozytywne, badania z mniejszymi próbami muszą siłą rzeczy zawierać silniejsze efekty, a badania z licznymi próbami słabsze efekty (co nie występowałoby, gdyby badacz publikował wszystkie raporty). Francis (2012e) zademonstrował, że w omawianych danych występuje silny ujemny związek pomiędzy wielkością próby a siłą efektu (r = -0,86), a prawdopodobieństwo uzyskania takiego rozkładu jest bardzo małe (w tym przykładzie wynosi mniej niż 1 %: Francis, 2012e, str. 588). Wybiórcze publikowanie samo w sobie nie jest

oczywiście dowodem tego, że efekt nie występuje (jest zerowy), tym niemniej może zniekształcać obraz rzeczywistej siły efektu, bowiem niepublikowane badania z nieistotnymi efektami są to rzecz jasna, dane o słabszych efektach.

Obliczając skumulowaną moc badań, należy podjąć decyzję, czy wyliczymy ją na podstawie średniej wielkości efektu, czy na podstawie wielkości efektów obserwowanych w pojedynczych badaniach. Decyzje te mają swoje matematyczne wady i zalety. Po szczegóły odsyłam do Schimmack (2012, s. 555). Niezależnie od decyzji skumulowana moc jest jednak porównywalna.

TABELA 1.2. Teksty wskazujące na zbyt niską skumulowaną moc badań i prawdopodobne wybiórcze publikowanie lub QRP

Źródło Zakwestionowany efekt

Korelacja pomiędzy wielkością próby a wielkością efektu Francis (2012a)

Przyszłe, nieznane jeszcze wydarzenia, wywierają niewielki, ale laboratoryjnie mierzalny wpływ na teraźniejsze decyzje

(Bem, 2011) r = -0,89

Francis (2012b) ^{Obiekty "pożądane" są widziane jako bliższe (ang. wishful}

seeing; Balcetis, Dunning, 2010) r = -0,75

Francis (2012c)

Osoby z niższych klas społecznych mają większą tendencję do pomagania (Piff, Stancato, Côté, Mendoza-Denton,

Keltner, 2012) r = -0,38

Francis (2012d) ^{Niemoralne zachowanie wzbudza potrzebę fizycznego}

oczyszczenia (Zhong, Liljenquist, 2006) r = -0,92

Francis (2012e)

Antycypacja nieprzyjemnej sytuacji powoduję bardziej negatywną ocenę podobnych sytuacji z przeszłości (Galak,

Meyvis, 2011) r = -0,88

Francis (2013)

Mężczyzna fotografowany na czerwonym tle jest postrzegany przez kobiety jako atrakcyjniejszy i mający wyższą pozycję

społeczną (Elliot i in., 2010) r = -0,80

Schimmack (2012) Podanie glukozy zwiększa siłę woli (Gailot i in., 2007) _{r = -0,80} Źródło: opracowanie własne na podstawie danych zawartych w cytowanych artykułach.

Francis został skrytykowany przez Simonsohna (2012), który zwrócił uwagę, że taka metoda też jest swego rodzaju techniką wybierania „wisienek z tortu” – w

uproszczeniu jego krytyka opiera się na założeniu, że niektóre mało prawdopodobne wyniki są takie z racji czystego przypadku. Dostatecznie długo przeglądając zupełnie rzetelne teksty, prędzej czy później znajdzie się na takie dane (analogicznie ktoś, kto długo gra w kasynie i w końcu wygrywa, niekoniecznie jest oszustem, może po prostu mieć wielkie szczęście). Zdaniem Simonsohna wybierając badania wg niesprecyzowanych kryteriów Francis nie jest w stanie wskazać, czy w nietypowym

wyniku zadziałał przypadek czy też celowe zniekształcenia. Odpowiedzią Francisa (2014) na ten zarzut jest systematyczna analiza, w której uwzględnił wszystkie artykuły zawierające przynajmniej 4 badania opublikowane w PS w latach 2009-2012. Ogółem takich artykułów było 44, spośród których w 36 (82 %) wzór danych wskazywał na małe prawdopodobieństwo sukcesu, jaki miał rzekomo miejsce, relatywnie do niskiej skumulowanej mocy badań²³. Francisa nazwał swój wskaźnik „testem zbyt dużego sukcesu” (ang. test for excessive success), konceptualnie bardzo podobny wskaźnik zaproponował Schimmack (2012) i nazwał go indeksem nieprawdopodobieństwa (ang. incredibility index). Schmick ograniczył się tylko do wskazania wysokiego nieprawdopodobieństwa dwóch serii badań: kontrowersyjnego efektu prekognicji Bema (2011) oraz niekontrowersyjnego, ale bardzo często

cytowanego efektu zwiększania „siły woli” pod wpływem spożycia glukozy (Gaillot i in., 2007).

Opisywane prawidłowości mogą być też widoczne przy analizie efektów z dużo więcej niż jednego artykułu. Najprostszym sposobem sprawdzenia możliwości wybiórczej publikacji jest zmierzenie zależności pomiędzy wielkością efektów, a wielkością grupy badanej. Jedną z takich analiz w obszarze badań nad

skutecznością programów nauczania matematyki przeprowadzili Slavin i Smith

(2009). Wielkość efektu systematycznie malała wraz ze wzrostem grupy badanej. Dla badań z najmniej licznymi grupami (N < 50) średnia wielkość efektu wynosiła 0,44 (d Glassa), w przypadku badań tylko nieco większych (51 < N < 100) wielkość ta

spadała do 0,29. W badaniach z najliczniejszymi grupami (N > 2000) średnia wielkość efektu wynosiła już tylko 0,09. Najwięcej badań obejmowało niewielkie grupy (46 badań z próbami N < 100; 49 z próbami 100 < N < 250; ale tylko 23 z próbami N > 2000). Pamiętając o tym, że małe próby nie będą się średnio wiązać z wyższymi efektami (a tylko większą wariancją siły efektów), interpretacja tych danych może być taka, że badacze decydują się często na relatywnie małe badania, które nie wiążą się z dużym ryzykiem (mniejsze koszty finansowe i czasowe), a następnie „wychodzące” badania są publikowane, natomiast „niewychodzące” są chowane do szuflady, lub odrzucane przez redaktorów (w przypadku małych prób zapewne redaktorów może dodatkowo „przekonać” efekt o dużej sile). Badania na bardzo

Jako “nadmierny sukces” przyjęto mniej niż 0,1 (10 %). Przykładowo, jeśli przyjmiemy, że w hipotetycznej serii 11 badań moc pojedynczego badania wynosi 80 %, to prawdopodobieństwo sukcesu wszystkich będzie wynosiło około 8,5 %. W przypadku badań o bardziej realistycznej mocy, dajmy na to 40 %,

dużych próbach są zwykle finansowane grantami i wykonawcy częściej są zobowiązani do wykonania przynajmniej technicznego raportu.

Levine, Asada i Carpenter (2009) zbadali 51 meta-analiz ze wszystkich subdyscyplin psychologii obejmujących łącznie 75 efektów. W 59 z nich (79 %) stwierdzono

negatywną korelację pomiędzy wielkością próby, a siłą efektu, z czego w przypadku 21 efektów była to dosyć wyraźna zależność (r < -0,3). Warto też zauważyć, że w koncepcyjnie zbliżonym badaniu pokazano, że meta-analiza badań nad trafnością „kultowego” narzędzia w psychologii społecznej czyli testu utajonych skojarzeń (ang.

implicit association test) zawiera nadmiar efektów pozytywnych relatywnie do niskiej

mocy badań (Bakker i in., 2012).

Systematyczną analizę zależności pomiędzy siłą efektu, a wielkością próby w

psychologii ogólnej przeprowadzili Kuhberger, Fritz i Scherndl (2014). Wylosowali oni początkowo 1000 tekstów z bazy PsycINFO z roku 2007. Odrzucono teksty

przeglądowe, teoretyczne, meta-analizy, badania empiryczne opisowe i

eksploracyjne, oraz teksty nie zawierające wszystkich danych (szczególnie wielkości efektów). Ostatecznie uwzględniono 395 badań. Gdy zestawiono wielkość próby i siłę efektu, okazało się, że występowała wyraźna negatywna zależność r = -0,54 między tymi dwiema zmiennym (korelacja ta była nieco mniejsza r = -0,45, gdy odrzucono dane ze skrajnymi wielkościami prób tj. mniej niż 10 i więcej niż 1000). Gdybym miał wskazać tylko jeden artykuł najdobitniej pokazujący, że badania w czasopismach zawierają zniekształcony obraz rzeczywistości, wskazałbym właśnie tą analizę ze wszystkich cytowanych w tym rozdziale.

Istnieje teoretycznie możliwość, że negatywna korelacja pomiędzy wielkością próby, a siłą efektu wynika z wcześniejszej analizy mocy i doboru próby na tej podstawie (przykładowo, w przypadku spodziewanych słabych efektów, badacze dobierają większą próbę, żeby zmaksymalizować moc). Jest to jednak wątpliwe – w tylko 3 % artykułów empirycznych znajdują się formalne analizy mocy (Fritz i in., 2013),

niewielki odsetek badaczy przyznaje się do ich stosowania (Vankov i in., 2014); dodatkowo, w obrębie jednego artykułu badania często różnią się bardzo subtelnie, trudno więc przypuszczać, żeby badacze byli w stanie z góry przewidzieć, które procedury, bodźce, sposoby operacjonalizacji zmiennych (itd.) przyniosą silniejsze efekty. Również we wspomnianej analizie Kuhbergera i in. (2014) występowanie formalnej analizy mocy nie miało wpływu na siłę korelacji pomiędzy wielkością próby,

a siłą efektu. Osobiście byłem świadkiem około 10 procedur wszczęcia przewodu doktorskiego i na żadnej nie analizowano mocy badania.

Na ogół jednak siłę efektów nie zestawia się z wielkością próby, ale ze skalkulowaną mocą badania. Zrobili tak między innymi Bakker, van Dijk, Wicherts (2012).

Wylosowali 11 meta-analiz opublikowanych w 2011 roku, oraz dodatkowo przeanalizowali popularną metaanalizę Greenwalda, Poehlmana, Uhlmana, Banaji’ego (2009) (ponad 1100 cytowań) dotyczącą trafności testu utajonych

skojarzeń, a więc „kultowego” w ostatnich latach narzędzia w psychologii społecznej (por. rdz. 2.5). Zawarte w nich dane o wielkościach efektów zestawiono z mocą i sprawdzano, czy rozkład wielkości efektów jest dostatecznie symetryczny (po

obydwu stronach średniej siły efektu) oraz czy dane nie zawierają nadmiaru efektów wyraźnie silniejszych od średniej wielkości efektu. W przypadku 4 meta-analiz znaleziono istotne odchylenie od spodziewanej symetryczności (polegające na nadmiarze silnych efektów w badaniach o relatywnie słabej mocy) oraz w przypadku 3 meta-analiz nadmiar efektów pozytywnych relatywnie do mocy i wielkości efektu. Dotyczy to też, meta-analizy Greenwalda i in. (2009), którą dodatkowo szerzej omówię w rdz. 2.5.

Tressoldi (2012) zebrał meta-analizy dotyczące efektów: mało kontrowersyjnych (prymowanie semantyczne), umiarkowanie kontrowersyjnych (efekt nieświadomego myślenia oraz efekt inkubacji), oraz skrajnie kontrowersyjnych (pozazmysłowa percepcja). Wielkość grup w tych badaniach kształtowała się standardowo na średnim poziomie 25-35 osób, natomiast same efekty (poza prymowaniem semantycznym) były słabe (d < 0,3). Oznacza to, że typowe opublikowane w

czasopiśmie badania dotyczące tych zjawisk mają moc na poziomie 0,2-0,3 i grupy wielokrotnie mniejsze niż oczekiwane, żeby uzyskać przyzwoitą moc na poziomie 0,9. Tressoldi wyliczył, że badania nad efektem nieświadomego myślenia

wymagałaby standardowo prób na poziomie 400 osób, żeby osiągnąć zadowalającą moc 90 %.

Analiz można też dokonywać na poziomie całej nauki. Najprostszy sposób polega na

W dokumencie Wartość poznawcza badań empirycznych w psychologii społecznej (Stron 35-51)