Mirosław Szreder *
3. Krytycznie o sposobach rozstrzygania w procedurze weryfikacji hipotez
W uproszczeniach związanych z praktyką rozstrzy-gania o odrzuceniu bądź nieodrzuceniu sprawdzanej hipotezy osiągnięto już na tyle krytyczny poziom, że czasopismo naukowe Nature sformułowało swój nie- dawny komentarz na ten temat niemal jak apel, nada-jąc mu tytuł: Porzućcie przestarzałą statystyczną istot‑
ność (oryg. Retire statistical significance) [Amrhein i in., 2019]. W rzeczywistości jednak główne ostrze krytyki skierowane jest nie tyle na samą kategorię sta-tystycznej istotności, co na postępującą trywializację w rozstrzyganiu i komunikowaniu o niej. Dotyczy to przede wszystkim łatwo i szybko obliczanego przez programy komputerowe wskaźnika p‑value.
W roku 2016 Amerykańskie Towarzystwo Staty- styczne (The American Statistical Association) wy-dało, niemające precedensu oświadczenie na temat statystycznej istotności i posługiwania się wskaź-nikiem p‑value (ASA Statement on p‑values and statistical significance) [Wasserstein, Lazar, 2016].
Oświadczenie to zawiera sześć następujących zaleceń i stwierdzeń18:
1. Wartości prawdopodobieństwa krytycznego (p‑va‑
lue) mogą wskazywać na to, jak nieprzystające do określonego modelu statystycznego są zaobserwo-wane dane.
2. P‑value nie jest miarą prawdopodobieństwa tego, że analizowana hipoteza jest prawdziwa, ani tego, że dane zostały uzyskane wyłącznie w drodze lo- sowania (zostały wygenerowane przez proces lo-sowy).
3. Konkluzje badawcze i decyzje ekonomiczne lub inne nie powinny być oparte wyłącznie na tym, czy wskaźnik p‑value przekroczył określony próg.
4. Poprawne wnioskowanie wymaga od badacza ujawnienia pełnej informacji i przejrzystości po-stępowania.
5. Ani p‑value, ani statystyczna istotność nie mierzą wielkości efektu i nie są miarą tego, jak ważny jest uzyskany wynik.
18 Tłumaczenie komentarzy do wszystkich tych stwier-dzeń można znaleźć m. in. w Szreder [2019].
6. Sam w sobie wskaźnik p‑value nie stanowi dobrej miary przesłanek dotyczących adekwatności mo-delu lub nieprawdziwości hipotezy.
Te sześć zasad – jak je określono we wspomnianym oświadczeniu – należy traktować z jednej strony jako przypomnienie ograniczeń związanych z posługiwa-niem się wskaźnikiem p‑value w testowaniu hipotez, a z drugiej jako próbę powstrzymania tendencji do zbyt daleko posuniętych uproszczeń w interpretowa- niu i komunikowaniu wyników statystycznej wery- fikacji hipotez. Wydaje się, że kluczowe dla zrozu-mienia narastającego w środowiskach naukowych niepokoju związanego z poprawnością postępowania w procedurze weryfikacji hipotez są dwie kwestie.
Pierwsza, dotyczy założeń modelu wnioskowania i roli jaką może i powinien w nim odgrywać najpo-pularniejszy w testowaniu hipotez wskaźnik p‑value.
Druga, związana jest z dychotomizacją tego wskaź- nika i interpretacją jego wartości w kontekście odrzu-cenia lub nieodrzucenia testowanej hipotezy.
Jeśli chodzi o pierwszą z tych kwestii, to wymaga ona uświadomienia sobie, że model wnioskowania statystycznego jest ścisłym modelem matematycz-nym, zawierającym szereg różnych założeń, z których zwykle jedynie część jest w konkretnym badaniu spełniona. Dodatkowo, spełnienie niektórych waż-nych założeń może być trudne do zweryfikowania.
Jednym z podstawowych założeń jest dysponowanie przez badacza losową próbą obserwacji reprezentu-jących daną populację. W badaniach społecznych i ekonomicznych szereg okoliczności sprawia, że coraz trudniej jest o ostatecznej próbie respondentów powiedzieć, że spełnia to założenie. W stosunku do zaprojektowanej przez badacza, ostateczna próba jest coraz częściej zniekształcona zarówno wyso- kimi wskaźnikami odmów respondentów, jak i in- nymi czynnikami o charakterze nielosowym (błę-dami w operacie losowania, błędami treści, błędami przetwarzania danych)19. O tym i innych założeniach rzadko się wspomina w dość zwięzłej na ogół cha-rakterystyce modelu wnioskowania, gdy dotyczy ona weryfikacji hipotez. Prawie cała uwaga badaczy i odbiorców ich wyników jest skoncentrowana na brzmieniu testowanej hipotezy (zerowej) i ewen-tualnie hipotezy alternatywnej. Wyniki testowania hipotezy interpretuje się często w taki sposób, jakby dotyczyły one badanej rzeczywistości, a nie modelu.
I tak, wskaźnik p‑value jest określany jako prawdo-podobieństwo uzyskania przez statystykę testową takiej wartości, jaką zaobserwowano w próbie lub bar-dziej skrajnej, pod warunkiem prawdziwości hipotezy
19 O znaczeniu tej grupy błędów, zaliczanych do błędów nielosowych, piszą m. in. Szreder [2015] oraz Stefanowicz i Cierpiał ‑Wolan [2015].
zerowej. W rzeczywistości natomiast, w warunku o którym mowa, nie chodzi jedynie o prawdziwość hipotezy zerowej, ale także o prawdziwość wszystkich założeń modelu. Mała wartość p‑value (np. mniejsza od 0,05) oznacza, że mało prawdopodobne jest uzy-skanie zaobserwowanego ciągu obserwacji w próbie (wartości statystyki testowej) pod warunkiem, że prawdziwa jest hipoteza zerowa oraz spełnione są wszystkie założenia modelu20. Na przykład p‑value może przyjąć małą wartość, gdyż nieprawdziwa jest hipoteza zerowa. Ale może się również zdarzyć, że mała wartość p‑value jest konsekwencją niespełnienia któregoś z ważnych założeń modelu, a nie fałszywej hipotezy zerowej. Analogicznie, duże wartości wskaź-nika p‑value wskazują jedynie, że uzyskana próba nie jest mało prawdopodobna, jeżeli prawdziwe są założenia modelu, w tym hipoteza zerowa. Sugerują one dużą zgodność modelu z danymi, ale nie wska-zują, że któreś konkretne założenie modelu, w tym testowana hipoteza, są prawdziwe. Świadomość tego, że wnioski z badań statystycznych są formułowane w ograniczeniu do pewnego modelu jest ważne, bo każe w ich interpretacji uwzględnić cały kontekst relacji model ‑rzeczywistość, zwłaszcza poczynione na wstępie przez badacza założenia.
Drugą ze wspomnianych kwestii wywołujących nasilający się opór części badaczy przed posługi-waniem się wskaźnikiem p‑value jest zredukowanie jego interpretacji do dychotomii: powyżej lub po-niżej ustalonego progu21. Wiadomo tymczasem, że istotność w statystyce zmienia się w sposób ciągły, podobnie jak ciągłą zmienną losową jest p‑value. Po-wstaje więc pytanie, czy takie uproszczenie, nie rodzi niebezpieczeństwa nieprawdziwych rozstrzygnięć w testowaniu hipotez. W badaniach statystycznych przyjęło się uważać, że wartości p‑value mniejsze od 0,05 świadczą o statystycznej istotności różnicy pomiędzy tym, co zaobserwowano w próbie, a tym co powinno było wystąpić w próbie, gdyby hipoteza zerowa była prawdziwa. Wynik taki staje się więc podstawą do odrzucenia hipotezy zerowej. Innymi słowy, przyjmuje się, że próg 0,05 jest dla p‑value rozstrzygający. I mimo że nie wziął się on znikąd, bo zaproponował go sam twórca tego rodzaju wnio-skowania, wspomniany wcześniej Ronald A. Fisher22,
20 Szczegółowo tę kwestę omawiają i wyczerpująco uza-sadniają Greenland i in. [2016].
21 Popularny staje się w jęz. angielskim postulat: „p‑va‑
lues should not be thresholded” (wartości p‑value nie po-winny mieć żadnego progu).
22 „Wartość dla której p=0,05 równa jest 1,96 lub pra-wie 2, stąd wygodne może być przyjęcie tego punktu jako granicznego w ocenie, czy zaobserwowane odchylenie w próbie zostanie uznane za istotne czy nie”. (W orygi-nale: „The value for which p=0.05 is 1.96 or nearly 2; it is
ZĘŚĆ I – X KONGRES EKONOMISTÓW POLSKICHKONOMIŚCI DLA ROZWOJU to obecnie coraz większa liczba badaczy proponuje
odejście od tego progu, a redakcja The American Sta‑
tistician tytułuje cykl ponad 40 artykułów poświęco-nych współczesnemu testowaniu hipotez następująco:
„Moving to a World Beyond p < 0.05” („Wkraczając do świata poza p < 0,05”). Trzeba raz jeszcze zdać sobie sprawę z tego, że obliczona wartość p‑value odnosi się jedynie do wyniku pojedynczej próby, oraz że test statystyczny nie jest narzędziem, które potrafi ogół niepewności towarzyszącej wnioskowa-niu statystycznemu przekształcić w pewność decyzji, co do prawdziwości lub nieprawdziwości hipotezy.
Posługiwanie się wspomnianymi wyżej progami po- woduje z jednej strony, że część wartościowych i nie-kiedy dobrze rokujących badań, w których uzyskana wielkość efektu okazała się za mała, aby p‑value osiągnęło wartość mniejszą od progowej, zostaje porzucona. Wyniki takie opatruje się zbyt często nieprawdziwymi konkluzjami: „nie występuje róż-nica”, „nie występuje współzależność” tylko dlatego, że p‑value okazało się wyższe niż określony próg23. Z drugiej zaś strony, w obiegu naukowym sztuczną nadreprezentację uzyskują te prace, w których otrzy-mano pożądaną wielkość p < 0,05 i do wyników tych prac – jako że innych (statystycznie nieistotnych wyników testów) redakcje czasopism najczęściej nie publikują – przywiązują badacze zbyt dużą wagę24. Dlatego warto rozważyć, czy wskaźnik p‑value nie powinien być traktowany jedynie jako jedno ze źródeł dowodzenia nieprawdziwości hipotezy zerowej, ale źródło niewystarczające.
Uznanie wyników badania naukowego za war- tościowe tylko dlatego, że podczas weryfikacji hi-potezy statystycznej osiągnięto wskaźnik p‑value poniżej 0,05, może być ryzykowne. Będzie takie zwłaszcza wówczas, gdy badacz nie poinformuje odbiorców swoich wyników, jakie kolejno hipotezy weryfikował i ile razy sięgał po losową próbę, by ostatecznie dowieść statystycznej istotności efektu25. Jeżeli bowiem prób tych było wiele, to naturalne jest pojawienie się co jakiś czas próby nietypowej, dla której prawdopodobieństwo jest małe, np. równe 0,05.
convenient to take this point as a limit in judging whether a deviation is to be considered significant or not” [Fisher, 1925: 45].
23 Podkreślają to wyraźnie autorzy komentarza w Science [Amrhein i in., 2019: 305].
24 Amrhein, Trafimow i Greenland [2019] stwierdzają dobitnie: „Nadużywa się statystyki jako maszyny do automa-tycznego podejmowania naukowych decyzji (an automated scientific decision machine), zarówno w odniesieniu do weryfikowanych hipotez, jak i w procesie selekcji artykułów kierowanych do publikacji” [Amrhein i in., 2019: 264].
25 O tego typu transparentność i pełną informację apeluje w przytoczonym wcześniej postulacie nr 4 Amerykańskie Towarzystwo Statystyczne.
Taka nietypowa próba, w długich ciągach próbko-wania pojawia się średnio raz na 20 losowań. Jeżeli więc badacz w 19 próbach uzyska nieistotną wielkość efektu, a poinformuje odbiorców jedynie o wyniku dwudziestej próby (uznanym za statystycznie istotny), to rzeczywiste prawdopodobieństwo błędu pierw-szego rodzaju, polegającego na odrzuceniu hipotezy prawdziwej, nie będzie wynosiło 5% lecz aż 64%26. Innymi słowy, uzyskanie takiej nietypowej próby w serii 20 doświadczeń przy założeniu, że praw-dziwa jest hipoteza zerowa, nie jest wcale małe – jak mógłby sugerować badacz – lecz jest sporo większe od 50%.
Obecne dyskusje na temat sposobów rozstrzyga-nia w procedurze weryfikacji hipotez nie zawierają zwykle postulatu rezygnacji ze wskaźnika p‑value, lecz kładą nacisk na potrzebę głębszej analizy źródeł niepewności przed podjęciem decyzji o odrzuceniu lub nieodrzuceniu hipotezy zerowej. Zresztą – jak zauważa Goodman [2019] – trudne byłoby obecnie wycofanie się z używania p‑value, bo wszyscy – w tym naukowcy i redakcje czasopism naukowych – przyzwyczailiśmy się do tego wskaźnika. Umownie przypisujemy mu pewną wartość poznawczą. Zda-niem Goodmana [2019] jest to już pewne zjawisko socjologiczne, nie tylko naukowe. Tak jak wierzymy w wartość pieniądza, za którym w przekonaniu kon-sumentów kryje się prawo do nabycia określonych dóbr lub usług, tak wierzymy, że za określonymi wartościami p‑value kryje się prawo do naukowego uznania określonych hipotez, a często także prawo do opublikowania uzyskanych wyników w renomo-wanych czasopismach.
Podsumowanie
Rozwój technologii komputerowej, programów obliczeniowych, a w dalszej kolejności elementów sztucznej inteligencji i zjawiska big data – kojarzo- nych z wielkimi zbiorami liczb i sprawnymi sposo- bami ich analizy – sprawiły, że do metod statystycz-nych odwołują się badacze chętniej niż w przeszłości.
Coraz częściej jednak w centrum uwagi stawia się ilość, a nie jakość danych, oraz szybkość opubliko-wania wyników, a nie uzasadnienie metodyki dla ich uzyskania i ostatecznej interpretacji. Sądzę, że należy dostrzegać zarówno szanse, jakie wszystkie te nowe zjawiska i trendy tworzą dla upowszechnienia staty- stycznej analizy rzeczywistości, jak i niebezpieczeń-stwa, które im towarzyszą. Jedno z najważniejszych
26 Prawdopodobieństwo to łatwo oblicza się opierając się na rozkładzie dwumianowym, korzystając z dopełnienia do jedności prawdopodobieństwa, iż próba taka nie pojawi się ani razu w 20 losowaniach: 1–0,9520.
zagrożeń dotyczy błędnego wnioskowania statystycz- nego w procedurach weryfikacji hipotez. W nim upa-truje się słusznie źródeł nieprawdziwych wniosków z rożnych dziedzin badawczych, w tym z ekonomii i ekonometrii. Jeżeli dołączy się do tego nauki przy-rodnicze i ścisłe, w których eksperyment i statystyczne wnioskowanie są na porządku dziennym, to skalę zagrożeń dla nauki trzeba uznać za dużą.
Współczesne oprogramowanie komputerowe stwa-rza analizom statystycznym nowe możliwości, ale z drugiej strony odwraca uwagę użytkownika od tego, co leży u podstaw metodyki wnioskowania, a w szcze- gólności od ścisłych matematycznych założeń we-ryfikacji hipotez. Daleko posunięte uproszczenia w ocenach statystycznej istotności oraz rozstrzyganiu o niej, a także w jej komunikowaniu spowodowały, że konieczny staje się obecnie powrót do pierwotnych założeń i modeli statystycznych wnioskowania. Po- trzebna jest większa wrażliwość badacza na matema-tyczne założenia modelu testowania hipotez, a także pełniejsza informacja i przejrzystość wywodów, jakie powinien prezentować wraz z uzyskanymi wynikami.
Nie wystarczy sama wartość prawdopodobieństwa krytycznego p‑value, ani samo stwierdzenie o staty-stycznej istotności efektu w próbie.
Bibliografia
Amrhein V., Greenland S., McShane B. [2019], Retire sta-tistical significance, Nature, 567: 305–307.
Amrhein V., Trafimow D., Greenland S. [2019], Inferential statistics as descriptive statistics: There is no replica-tion crisis if we don’t expect replication, The American Statistician, 73(1): 262–270.
Beręsewicz M., Szymkowiak M. [2011], Kilka uwag na temat metod ważenia w badaniach statystycznych z brakami odpowiedzi, w: Garczarczyk J. (red.), Metody pomiaru i analizy rynku usług: pomiar jakościowy, zastosowania i efektywność, Wydawnictwo Uniwersytetu Ekonomicz-nego w Poznaniu, Poznań.
Camerer C.F., Dreber A., Holzmeister F., Ho T.‑H., Huber J., Johannesson M., Kirchler M. i in. [2018], Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015, Nature Human Behaviour, 2: 637–644.
Domański Cz., Pruska K. [2000], Nieklasyczne metody statystyczne, PWE, Warszawa.
Fisher R.A. [1956], Statistical methods and scientific infer‑
ence, Oliver and Boyd, Edinburgh.
Gelman A., Stern H. [2006], The difference between „sig-nificant” and „not significant” is not itself statistically significant, The American Statistician, 4: 328–331.
Goodman S.N. [2019], Why is getting rid of p‑values so hard? Musings on science and statistics, The American Statistician, 73(1): 352–357.
Greenland S., Senn S.J., Rothman K.J., Carlin J.B., Poole C., Goodman S.N., Altman D.G. [2016], Statistical tests, p‑values, confidence intervals, and power: A guide to misinterpretations, European Journal of Epidemiology, 31: 337–350.
Gryz J. [2019], Krajobraz po powodzi, Tygodnik Powszechny, 34, 25 sierpnia: 58–61.
Grzenda W. [2016], Modelowanie bayesowskie, teoria i przykłady zastosowań, Oficyna Wydawnicza SGH, Warszawa.
GUS [2018], Zeszyt metodologiczny. Badanie aktywności ekonomicznej ludności, Warszawa.
Kozłowski A. [2014], The use of non‑sample information in exit poll surveys in Poland, Statistics in Transition – new series, 15(1).
Mayer ‑Schönberger V., Cukier K. [2014], BIG DATA. Re‑
wolucja, która zmieni nasze myślenie, pracę i życie, Wy-dawnictwo MT Biznes, Warszawa.
Miller P.V. [2017], Is there a future for surveys?, Public Opinion Quarterly, 81, Special Issue: 205–212.
Neyman J., Pearson E.S. [1928], On the use and interpre-tation of certain test criteria for purposes of statistical inference: part I, Biometrika, 20A: 175–240.
Nuzzo R. [2014], Statistical errors, Nature, 506: 150–152.
Popper K.R. [1997], Mit schematu pojęciowego. W obronie nauki i racjonalności, Książka i Wiedza, Warszawa.
Prewitt K. [2010], Science starts not after measurement, but with measurement, Annals of the American Academy for Political and Social Sciences, 631: 7–16.
Rozeboom W.W. [1960], The fallacy of the null ‑hypothesis significance test, Psychological Bulletin, 57: 416–428.
Särndal C.E., Lundström S. [2006], Estimation in surveys with nonresponse, J. Wiley, Chichester.
Stefanowicz B., Cierpiał ‑Wolan M. [2015], Błędy przetwa-rzania danych, Wiadomości Statystyczne, 9: 23–29.
Szreder M. [2019], Istotność statystyczna w czasach big data, Wiadomości Statystyczne, (w druku).
Szreder M. [2013], Twierdzenie Bayesa po 250 latach, Wia‑
domości Statystyczne, 12: 23–26.
Szreder M. [1999], Use of prior probabilities in Bayesian inference, Statistics in Transition, 4(2).
Szreder M. [2015], Zmiany w strukturze całkowitego błędu badania próbkowego, Wiadomości Statystyczne, 1: 4–12.
Szymkowiak M. [2019], Podejście kalibracyjne w badaniach społeczno ‑ekonomicznych, Wydawnictwo Uniwersytetu Ekonomicznego w Poznaniu, Poznań.
Trafimow D., Marks M. [2015], Editorial, Basic and Applied Social Psychology, 37: 1–2.
Wasserstein R.L., Lazar N.A. [2016], The ASA’s statement on p‑values: Context, process, and purpose, The Ameri‑
can Statistician, 70(2): 129–133.