Dzielenie się danymi - Wartość poznawcza badań empirycznych w psychologii społecznej

Wicherts i in. (2011) zauważyli, że autorzy, którzy nie chcą dzielić się danymi

surowymi, mogą mieć na sumieniu mniejsze i większe zafałszowania, znajdowano w ich artykułach więcej błędów związanych z wartością p i ogólnie mieli słabsze dane w swoich badaniach. Dlatego warto przyjrzeć się bliżej praktyce dzielenia się danymi surowymi. John i in. (2012) nie uwzględniają kategorii „Nie podzieliłem się danymi surowymi na żądanie, pomimo tego, że wcześniej się do tego zobowiązałem”, a szkoda, bo nie tylko Wicherts i in. (2011) zwracali uwagę na niechęć autorów do wysyłania swoich danych surowych.

Dzielenie się danymi jest obowiązkiem badaczy, który biorą na siebie w momencie wysyłania artykułu do publikacji (APA, 2010). Badacze mylą się lub brakuje im odpowiednich kompetencji, więc reanaliza danych przez innych badaczy pozwala nieraz zakwestionować oryginalne wnioski (lub sposób pokazać coś nowego w sposób pozytywny).

Żeby to zilustrować omówię szerzej artykuł Blanton i in. (2009), gdzie poddano ponownej analizie wnioski z dwóch badań z wykorzystaniem testu utajonych

skojarzeń (IAT – patrz rdz. 2.5) (w przypadku kilku innych badań, autorzy nie mogli zrobić analiz ze względu na nieudostępnienie danych przez autorów). Pierwsze badanie wskazywało na związek pomiędzy postawą względem osób czarnoskórych mierzoną testem IAT, a zachowaniem względem czarnoskórego eksperymentatora ocenianą przez sędziów kompetentnych (McConnell, Leibold, 2001). Autorzy analizy przedstawili szereg wątpliwości po ponownej analizie danych. Przykładowo zmienne zależne były arbitralnie wyznaczane bez jakiegokolwiek uzasadnienia, czemu takie a nie inne (np. zmienna jako oceny zachowania względem białego minus ocena

zachowania względem czarnoskórego), gdy inne rodzaje zmiennych nie przynosiły analogicznych efektów (np. ocena zachowania względem osoby czarnoskórej). Istotne efekty wynikały z oceny jednego z sędziów, ale u drugiego sędziego takich efektów nie zanotowano. Poza tym, jak się okazało, usunięcie tylko jednej skrajnej obserwacji likwidowało też niektóre istotne efekty (np. zamiast p < 0,05 osiągano p < 0,13).

W drugim badaniu poddanym reanalizie (Ziegert i Hanges, 2005) osoby wcielały się w rolę menedżera oceniającego CV potencjalnych pracowników. Dodatkowo,

poprzez instrukcje, manipulowano też „klimatem”, podkreślając znaczenie równości i braku dyskryminacji lub znaczenie tego, żeby nowy pracownik był tej samej rasy, jak osoba oceniająca. Oceny były bardziej negatywne względem osób czarnych im bardziej negatywna była postawa względem osób czarnych w teście IAT, ale tylko w „klimacie” dyskryminacji. Autorzy przeanalizowali ponownie te dane, i nie byli w stanie odtworzyć istotności wyników niektórych złożonych interakcji (np. uzyskiwali p < 0,07, zamiast p < 0,05). Wizualna analiza rozrzutu danych ujawniła, że kluczowa istotna korelacja opiera się na 3 obserwacjach mocno odstających od reszty. Usunięcie tych obserwacji z analizy likwidowało istotność efektu.

Dodatkowo Blanton i Mitchell (2011) analizując inny artykuł dotyczący trafności IAT (Heider, Skowronski, 2007) odkryli m.in. selektywne raportowanie zmiennych zależnych, które zasadniczo wypaczało wnioski z badania.

Warto dodać, że dwa analizowane artykuły nie pochodziły z jakichś marginalnych czasopism, ale z JESP i Journal of Applied Psychology, a więc czasopism

ewidentnie elitarnych w działce psychologii społecznej.

Powyższe analizy byłyby niemożliwe, gdyby autorzy nie podzielili się danymi. Nic więc dziwnego, że punkt 8.14 kodeksu etycznego APA (2010) głosi: „Po publikacji wyników badań psycholodzy nie odmawiają dostępu do danych, na których oparli swoje wnioski, innym kompetentnym ekspertom, którzy chcieliby zweryfikować zasadnicze twierdzenia poprzez reanalizę i którzy chcieliby użyć danych tylko do tego celu [Y]”.Oprócz pożytków z reanalizy wskazuje się też, że posiadanie indywidualnych danych umożliwia przeprowadzania bardziej szczegółowych meta-analiz niż posiadanie tylko danych zbiorczych (Cooper, Patall, 2009).

Przypomnę, że 58 % badaczy nie podzieliło się danymi w badaniu Wichertsa i in. (2011). Kilku innych autorów również podjęło systematyczne próby analizy

skłonności badaczy do dzielenia się danymi. Wolins (1962) próbował uzyskać dane od 37 badaczy z artykułów³² z czołowych czasopism APA. Choć większość

odpowiedziała, ostatecznie dane otrzymał od 9 badaczy (25 %), z czego kilku wysłało je wiele miesięcy po pierwotnym zapytaniu (przeanalizował 7 zbiorów danych, a w 3 znalazł poważne błędy w procedurach statystycznych). Nieco lepsze

rezultaty uzyskali Craig i Reese (1973), którzy na 53 zapytania otrzymali 20 zestawów danych (37%).

Powyższe zapytania o dane pochodzą jednak z zupełnie innej epoki, w której dane były w większości zgromadzone w formie papierowej, i ich sama wysyłka mogła czasami być sporym logistycznym problemem (w badaniu Craiga i Reese’a jeden z zapytanych prosił o czek na pokrycie kosztów obsługi biurowej). Zupełnie inaczej sprawa powinna przedstawiać się dzisiaj, gdy praktycznie wszystkie dane surowe mają postać cyfrową (wcześniej czy później). Dobrze zorganizowanemu badaczowi powinno zająć kilkanaście sekund dotarcie do odpowiedniego folderu, dodanie załącznika i odesłanie maila (przy optymistycznym założeniu, że dane są sensownie opisane). Przyjrzyjmy się zatem jak sprawy mają się w XXI wieku. Wicherts i in. (2006) wysłali prośby o dane do autorów 141 artykułów empirycznych, które ukazały się około pół roku wcześniej w 4 czołowych czasopismach APA³³. Cytując autorów:

Jako, że w skład 141 artykułów wchodziło łącznie 249 badań, spodziewaliśmy się realistycznie otrzymać 90 do 100 zestawów danych [Y]. Niestety, pół roku później, po wymianie ponad 400 maili – i wysłaniu niektórym autorom szczegółowych opisów naszych celów badawczych, zgody komisji etycznych, podpisanych zobowiązań do niedzielenia się danymi, a nawet naszych CV – doszliśmy do marnych 38 pozytywnych reakcji i mieliśmy dane z 64 badań. Oznacza to, że 73 % autorów nie podzieliło się swoimi danymi (Wicherts i in., 2006, s. 727) Spośród badanych czasopism najlepiej wypadli autorzy Journal of Experimental

Psychology (41 % zgód), a najgorzej piszący w Developmental Psychology (15 %).

JPSP uzyskał wynik zbliżony do średniej (22 %).

Mitchell (2012) usiłował uzyskać dane z badań z użyciem wspomnianego już IAT z 42 artykułów. Ostatecznie pozyskał 17 zestawów. W 9 przypadkach autorzy

zasłaniali się utratą danych (np. wskutek przeniesienia na inną uczelnię lub awarii komputera), w 4 obiecali wysyłkę, ale tego nie zrobili, w kilku wypadkach maile nie spotkały się z żadną odpowiedzią. Tylko w 5 przypadków autorzy jawnie odmówili, co świadczy o tym, że autorzy zdają sobie sprawę ze swojego obowiązku, ale tak czy owak go nie wypełniają. Mitchell opisuje wymowny przypadek:

Wdałem się w długie negocjacje z jednym z autorów. [Y] Ostatecznie nie udostępniono mi danych, pomimo moich powtarzanych oświadczeń dotyczących tego, jakie dokładnie analizy przeprowadzę, pomimo mojej deklaracji, że wyniki analiz wyślę najpierw autorowi, zanim

Te czasopisma to: JPSP, Developmental Psychology, Journal of Consulting and Clinical Psychology, Journal of

zostaną przekazane do czasopisma, i pomimo propozycji, że w przypadku braku zgody, co do wyników analizy, dane zostaną przekazane jakimś neutralnym ekspertom, aby rozstrzygnęli spór (Mitchell, 2012, s. 13).

Dane więc nie tylko są rzadko udostępniane, ale i badacz musi się bardzo

napracować, żeby w ogóle je zdobyć. W związku z powyższym nie dziwi, że pojawiły się postulaty radykalnej zmiany modelu udostępniania danych (Simonsohn, 2013; Wicherts i Bakker, 2012; Klebaniuk, 2012). Zdaniem niektórych obecna praktyka „podziel się danymi surowymi na żądanie” jest niewystarczająca. Dane są, jeśli wierzyć samym deklaracjom, gubione, tracone wskutek awarii sprzętu lub kradzieży tegoż, albo po prostu autorzy deklarują gotowość odesłania danych, która nigdy nie następuje. Postulowanym rozwiązaniem byłaby równoległa i obligatoryjna publikacja danych surowych jako materiałów uzupełniających do artykułu w Internecie. Trudno oprzeć się wrażeniu, że obecny model udostępniania danych zupełnie nie przystoi do współczesnych czasów, ale bliżej mu do okresu, gdy jedyną formą komunikacji

naukowej były papierowe czasopisma. Technicznie nic nie stoi obecnie na

przeszkodzie, żeby autorzy dobrowolnie udostępniali dane w Internecie, lub żeby czasopisma same je udostępniały jako dane uzupełniające. Istnieje już do tego stosowna infrastruktura informatyczna (zob. rdz. 1.10). Oczywiście w szczególnych przypadkach, gdy dane są wrażliwej natury, lub są tego rodzaju, że możliwa jest imienna identyfikacja badanych, należałoby zastosować dodatkowe obostrzenia. Być może wartym rozważenia byłby model, jaki stosuje wydawnictwo Oxford University Press, które udostępnia na platformie internetowej ryciny i wykresy ze swoich podręczników akademickich, ale tylko dla osób, które przejdą weryfikację jako nauczyciele akademiccy³⁴. Dane skrajnie wrażliwe mogłyby być udostępniane po dodatkowej „ręcznej” weryfikacji i zgodzie badacza. Sądzę jednak, że problem ten dotyczy naprawdę niewielkiego ułamka danych w psychologii społecznej (por. też Mitchell, 2012).

Obowiązek składowania i udostępniania danych z pewnością nie jest absolutną gwarancją braku oszustw, bowiem nawet upublicznione dane mogą być zwyczajnie sfabrykowane. Przypadek Stapela pokazuje jednak, że sfabrykowanie danych nie budzących wątpliwości nie jest, wbrew pozorom, łatwe. Redaktorów nic by nie

kosztowała zmiana polegająca na wymaganiu wysłania danych surowych równolegle

z wysyłką manuskryptu, a tylko nieduży dodatkowy wysiłek byłby wymagany do szerokiego udostępniania danych na platformach internetowych. Póki co jednak nie słychać o wielu planach takich zmian. Przysłowiową „jaskółką” w tym względzie wydaje się być nowe czasopismo APA w formule Open Access – Archives of

Scientific Psychology. W pierwszym redakcyjnym artykule zaznaczono, że jednym z

warunków publikacji jest udostępnienie danych surowych na portalu APA lub w innym publicznym repozytorium (Cooper, VandenBos, 2013). W tym kontekście zapewne warto by się zastanowić nad jeszcze dalej idącym rozwiązaniem, czyli publikowaniem w formie materiałów uzupełniających wszelkich użytych materiałów, które można opublikować (np. nie podlegają prawom autorskim ze strony osób trzecich). Przykładowo, skrypty komputerowe użyte do badań z wykorzystaniem komputerów, z pewnością same w sobie nie podlegają prawom autorskim

(oczywiście, przy założeniu, że badacz dysponuje programem, który używa skryptu). Takie działania mogłyby w dużym stopniu ułatwiać przeprowadzanie replikacji, którym poświęcam następny podrozdział.

W dokumencie Wartość poznawcza badań empirycznych w psychologii społecznej (Stron 57-61)