Krytycznie o sposobach rozstrzygania w procedurze weryfikacji hipotez

Mirosław Szreder *

3. Krytycznie o sposobach rozstrzygania w procedurze weryfikacji hipotez

W uproszczeniach związanych z praktyką rozstrzy-gania o odrzuceniu bądź nieodrzuceniu sprawdzanej hipotezy osiągnięto już na tyle krytyczny poziom, że czasopismo naukowe Nature sformułowało swój nie- dawny komentarz na ten temat niemal jak apel, nada-jąc mu tytuł: Porzućcie przestarzałą statystyczną istot‑

ność (oryg. Retire statistical significance) [Amrhein i in., 2019]. W rzeczywistości jednak główne ostrze krytyki skierowane jest nie tyle na samą kategorię sta-tystycznej istotności, co na postępującą trywializację w rozstrzyganiu i komunikowaniu o niej. Dotyczy to przede wszystkim łatwo i szybko obliczanego przez programy komputerowe wskaźnika p‑value.

W roku 2016 Amerykańskie Towarzystwo Staty- styczne (The American Statistical Association) wy-dało, niemające precedensu oświadczenie na temat statystycznej istotności i posługiwania się wskaź-nikiem p‑value (ASA Statement on p‑values and statistical significance) [Wasserstein, Lazar, 2016].

Oświadczenie to zawiera sześć następujących zaleceń i stwierdzeń¹⁸:

1. Wartości prawdopodobieństwa krytycznego (p‑va‑

lue) mogą wskazywać na to, jak nieprzystające do określonego modelu statystycznego są zaobserwo-wane dane.

2. P‑value nie jest miarą prawdopodobieństwa tego, że analizowana hipoteza jest prawdziwa, ani tego, że dane zostały uzyskane wyłącznie w drodze lo- sowania (zostały wygenerowane przez proces lo-sowy).

3. Konkluzje badawcze i decyzje ekonomiczne lub inne nie powinny być oparte wyłącznie na tym, czy wskaźnik p‑value przekroczył określony próg.

4. Poprawne wnioskowanie wymaga od badacza ujawnienia pełnej informacji i przejrzystości po-stępowania.

5. Ani p‑value, ani statystyczna istotność nie mierzą wielkości efektu i nie są miarą tego, jak ważny jest uzyskany wynik.

18 Tłumaczenie komentarzy do wszystkich tych stwier-dzeń można znaleźć m. in. w Szreder [2019].

6. Sam w sobie wskaźnik p‑value nie stanowi dobrej miary przesłanek dotyczących adekwatności mo-delu lub nieprawdziwości hipotezy.

Te sześć zasad – jak je określono we wspomnianym oświadczeniu – należy traktować z jednej strony jako przypomnienie ograniczeń związanych z posługiwa-niem się wskaźnikiem p‑value w testowaniu hipotez, a z drugiej jako próbę powstrzymania tendencji do zbyt daleko posuniętych uproszczeń w interpretowa- niu i komunikowaniu wyników statystycznej wery- fikacji hipotez. Wydaje się, że kluczowe dla zrozu-mienia narastającego w środowiskach naukowych niepokoju związanego z poprawnością postępowania w procedurze weryfikacji hipotez są dwie kwestie.

Pierwsza, dotyczy założeń modelu wnioskowania i roli jaką może i powinien w nim odgrywać najpo-pularniejszy w testowaniu hipotez wskaźnik p‑value.

Druga, związana jest z dychotomizacją tego wskaź- nika i interpretacją jego wartości w kontekście odrzu-cenia lub nieodrzucenia testowanej hipotezy.

Jeśli chodzi o pierwszą z tych kwestii, to wymaga ona uświadomienia sobie, że model wnioskowania statystycznego jest ścisłym modelem matematycz-nym, zawierającym szereg różnych założeń, z których zwykle jedynie część jest w konkretnym badaniu spełniona. Dodatkowo, spełnienie niektórych waż-nych założeń może być trudne do zweryfikowania.

Jednym z podstawowych założeń jest dysponowanie przez badacza losową próbą obserwacji reprezentu-jących daną populację. W badaniach społecznych i ekonomicznych szereg okoliczności sprawia, że coraz trudniej jest o ostatecznej próbie respondentów powiedzieć, że spełnia to założenie. W stosunku do zaprojektowanej przez badacza, ostateczna próba jest coraz częściej zniekształcona zarówno wyso- kimi wskaźnikami odmów respondentów, jak i in- nymi czynnikami o charakterze nielosowym (błę-dami w operacie losowania, błędami treści, błędami przetwarzania danych)¹⁹. O tym i innych założeniach rzadko się wspomina w dość zwięzłej na ogół cha-rakterystyce modelu wnioskowania, gdy dotyczy ona weryfikacji hipotez. Prawie cała uwaga badaczy i odbiorców ich wyników jest skoncentrowana na brzmieniu testowanej hipotezy (zerowej) i ewen-tualnie hipotezy alternatywnej. Wyniki testowania hipotezy interpretuje się często w taki sposób, jakby dotyczyły one badanej rzeczywistości, a nie modelu.

I tak, wskaźnik p‑value jest określany jako prawdo-podobieństwo uzyskania przez statystykę testową takiej wartości, jaką zaobserwowano w próbie lub bar-dziej skrajnej, pod warunkiem prawdziwości hipotezy

19 O znaczeniu tej grupy błędów, zaliczanych do błędów nielosowych, piszą m. in. Szreder [2015] oraz Stefanowicz i Cierpiał ‑Wolan [2015].

zerowej. W rzeczywistości natomiast, w warunku o którym mowa, nie chodzi jedynie o prawdziwość hipotezy zerowej, ale także o prawdziwość wszystkich założeń modelu. Mała wartość p‑value (np. mniejsza od 0,05) oznacza, że mało prawdopodobne jest uzy-skanie zaobserwowanego ciągu obserwacji w próbie (wartości statystyki testowej) pod warunkiem, że prawdziwa jest hipoteza zerowa oraz spełnione są wszystkie założenia modelu²⁰. Na przykład p‑value może przyjąć małą wartość, gdyż nieprawdziwa jest hipoteza zerowa. Ale może się również zdarzyć, że mała wartość p‑value jest konsekwencją niespełnienia któregoś z ważnych założeń modelu, a nie fałszywej hipotezy zerowej. Analogicznie, duże wartości wskaź-nika p‑value wskazują jedynie, że uzyskana próba nie jest mało prawdopodobna, jeżeli prawdziwe są założenia modelu, w tym hipoteza zerowa. Sugerują one dużą zgodność modelu z danymi, ale nie wska-zują, że któreś konkretne założenie modelu, w tym testowana hipoteza, są prawdziwe. Świadomość tego, że wnioski z badań statystycznych są formułowane w ograniczeniu do pewnego modelu jest ważne, bo każe w ich interpretacji uwzględnić cały kontekst relacji model ‑rzeczywistość, zwłaszcza poczynione na wstępie przez badacza założenia.

Drugą ze wspomnianych kwestii wywołujących nasilający się opór części badaczy przed posługi-waniem się wskaźnikiem p‑value jest zredukowanie jego interpretacji do dychotomii: powyżej lub po-niżej ustalonego progu²¹. Wiadomo tymczasem, że istotność w statystyce zmienia się w sposób ciągły, podobnie jak ciągłą zmienną losową jest p‑value. Po-wstaje więc pytanie, czy takie uproszczenie, nie rodzi niebezpieczeństwa nieprawdziwych rozstrzygnięć w testowaniu hipotez. W badaniach statystycznych przyjęło się uważać, że wartości p‑value mniejsze od 0,05 świadczą o statystycznej istotności różnicy pomiędzy tym, co zaobserwowano w próbie, a tym co powinno było wystąpić w próbie, gdyby hipoteza zerowa była prawdziwa. Wynik taki staje się więc podstawą do odrzucenia hipotezy zerowej. Innymi słowy, przyjmuje się, że próg 0,05 jest dla p‑value rozstrzygający. I mimo że nie wziął się on znikąd, bo zaproponował go sam twórca tego rodzaju wnio-skowania, wspomniany wcześniej Ronald A. Fisher²²,

20 Szczegółowo tę kwestę omawiają i wyczerpująco uza-sadniają Greenland i in. [2016].

21 Popularny staje się w jęz. angielskim postulat: „p‑va‑

lues should not be thresholded” (wartości p‑value nie po-winny mieć żadnego progu).

22 „Wartość dla której p=0,05 równa jest 1,96 lub pra-wie 2, stąd wygodne może być przyjęcie tego punktu jako granicznego w ocenie, czy zaobserwowane odchylenie w próbie zostanie uznane za istotne czy nie”. (W orygi-nale: „The value for which p=0.05 is 1.96 or nearly 2; it is

ZĘŚĆ I – X KONGRES EKONOMISTÓW POLSKICHKONOMIŚCI DLA ROZWOJU to obecnie coraz większa liczba badaczy proponuje

odejście od tego progu, a redakcja The American Sta‑

tistician tytułuje cykl ponad 40 artykułów poświęco-nych współczesnemu testowaniu hipotez następująco:

„Moving to a World Beyond p < 0.05” („Wkraczając do świata poza p < 0,05”). Trzeba raz jeszcze zdać sobie sprawę z tego, że obliczona wartość p‑value odnosi się jedynie do wyniku pojedynczej próby, oraz że test statystyczny nie jest narzędziem, które potrafi ogół niepewności towarzyszącej wnioskowa-niu statystycznemu przekształcić w pewność decyzji, co do prawdziwości lub nieprawdziwości hipotezy.

Posługiwanie się wspomnianymi wyżej progami po- woduje z jednej strony, że część wartościowych i nie-kiedy dobrze rokujących badań, w których uzyskana wielkość efektu okazała się za mała, aby p‑value osiągnęło wartość mniejszą od progowej, zostaje porzucona. Wyniki takie opatruje się zbyt często nieprawdziwymi konkluzjami: „nie występuje róż-nica”, „nie występuje współzależność” tylko dlatego, że p‑value okazało się wyższe niż określony próg²³. Z drugiej zaś strony, w obiegu naukowym sztuczną nadreprezentację uzyskują te prace, w których otrzy-mano pożądaną wielkość p < 0,05 i do wyników tych prac – jako że innych (statystycznie nieistotnych wyników testów) redakcje czasopism najczęściej nie publikują – przywiązują badacze zbyt dużą wagę²⁴. Dlatego warto rozważyć, czy wskaźnik p‑value nie powinien być traktowany jedynie jako jedno ze źródeł dowodzenia nieprawdziwości hipotezy zerowej, ale źródło niewystarczające.

Uznanie wyników badania naukowego za war- tościowe tylko dlatego, że podczas weryfikacji hi-potezy statystycznej osiągnięto wskaźnik p‑value poniżej 0,05, może być ryzykowne. Będzie takie zwłaszcza wówczas, gdy badacz nie poinformuje odbiorców swoich wyników, jakie kolejno hipotezy weryfikował i ile razy sięgał po losową próbę, by ostatecznie dowieść statystycznej istotności efektu²⁵. Jeżeli bowiem prób tych było wiele, to naturalne jest pojawienie się co jakiś czas próby nietypowej, dla której prawdopodobieństwo jest małe, np. równe 0,05.

convenient to take this point as a limit in judging whether a deviation is to be considered significant or not” [Fisher, 1925: 45].

23 Podkreślają to wyraźnie autorzy komentarza w Science [Amrhein i in., 2019: 305].

24 Amrhein, Trafimow i Greenland [2019] stwierdzają dobitnie: „Nadużywa się statystyki jako maszyny do automa-tycznego podejmowania naukowych decyzji (an automated scientific decision machine), zarówno w odniesieniu do weryfikowanych hipotez, jak i w procesie selekcji artykułów kierowanych do publikacji” [Amrhein i in., 2019: 264].

25 O tego typu transparentność i pełną informację apeluje w przytoczonym wcześniej postulacie nr 4 Amerykańskie Towarzystwo Statystyczne.

Taka nietypowa próba, w długich ciągach próbko-wania pojawia się średnio raz na 20 losowań. Jeżeli więc badacz w 19 próbach uzyska nieistotną wielkość efektu, a poinformuje odbiorców jedynie o wyniku dwudziestej próby (uznanym za statystycznie istotny), to rzeczywiste prawdopodobieństwo błędu pierw-szego rodzaju, polegającego na odrzuceniu hipotezy prawdziwej, nie będzie wynosiło 5% lecz aż 64%²⁶. Innymi słowy, uzyskanie takiej nietypowej próby w serii 20 doświadczeń przy założeniu, że praw-dziwa jest hipoteza zerowa, nie jest wcale małe – jak mógłby sugerować badacz – lecz jest sporo większe od 50%.

Obecne dyskusje na temat sposobów rozstrzyga-nia w procedurze weryfikacji hipotez nie zawierają zwykle postulatu rezygnacji ze wskaźnika p‑value, lecz kładą nacisk na potrzebę głębszej analizy źródeł niepewności przed podjęciem decyzji o odrzuceniu lub nieodrzuceniu hipotezy zerowej. Zresztą – jak zauważa Goodman [2019] – trudne byłoby obecnie wycofanie się z używania p‑value, bo wszyscy – w tym naukowcy i redakcje czasopism naukowych – przyzwyczailiśmy się do tego wskaźnika. Umownie przypisujemy mu pewną wartość poznawczą. Zda-niem Goodmana [2019] jest to już pewne zjawisko socjologiczne, nie tylko naukowe. Tak jak wierzymy w wartość pieniądza, za którym w przekonaniu kon-sumentów kryje się prawo do nabycia określonych dóbr lub usług, tak wierzymy, że za określonymi wartościami p‑value kryje się prawo do naukowego uznania określonych hipotez, a często także prawo do opublikowania uzyskanych wyników w renomo-wanych czasopismach.

Podsumowanie

Rozwój technologii komputerowej, programów obliczeniowych, a w dalszej kolejności elementów sztucznej inteligencji i zjawiska big data – kojarzo- nych z wielkimi zbiorami liczb i sprawnymi sposo- bami ich analizy – sprawiły, że do metod statystycz-nych odwołują się badacze chętniej niż w przeszłości.

Coraz częściej jednak w centrum uwagi stawia się ilość, a nie jakość danych, oraz szybkość opubliko-wania wyników, a nie uzasadnienie metodyki dla ich uzyskania i ostatecznej interpretacji. Sądzę, że należy dostrzegać zarówno szanse, jakie wszystkie te nowe zjawiska i trendy tworzą dla upowszechnienia staty- stycznej analizy rzeczywistości, jak i niebezpieczeń-stwa, które im towarzyszą. Jedno z najważniejszych

26 Prawdopodobieństwo to łatwo oblicza się opierając się na rozkładzie dwumianowym, korzystając z dopełnienia do jedności prawdopodobieństwa, iż próba taka nie pojawi się ani razu w 20 losowaniach: 1–0,95²⁰.

zagrożeń dotyczy błędnego wnioskowania statystycz- nego w procedurach weryfikacji hipotez. W nim upa-truje się słusznie źródeł nieprawdziwych wniosków z rożnych dziedzin badawczych, w tym z ekonomii i ekonometrii. Jeżeli dołączy się do tego nauki przy-rodnicze i ścisłe, w których eksperyment i statystyczne wnioskowanie są na porządku dziennym, to skalę zagrożeń dla nauki trzeba uznać za dużą.

Współczesne oprogramowanie komputerowe stwa-rza analizom statystycznym nowe możliwości, ale z drugiej strony odwraca uwagę użytkownika od tego, co leży u podstaw metodyki wnioskowania, a w szcze- gólności od ścisłych matematycznych założeń we-ryfikacji hipotez. Daleko posunięte uproszczenia w ocenach statystycznej istotności oraz rozstrzyganiu o niej, a także w jej komunikowaniu spowodowały, że konieczny staje się obecnie powrót do pierwotnych założeń i modeli statystycznych wnioskowania. Po- trzebna jest większa wrażliwość badacza na matema-tyczne założenia modelu testowania hipotez, a także pełniejsza informacja i przejrzystość wywodów, jakie powinien prezentować wraz z uzyskanymi wynikami.

Nie wystarczy sama wartość prawdopodobieństwa krytycznego p‑value, ani samo stwierdzenie o staty-stycznej istotności efektu w próbie.

Bibliografia

Amrhein V., Greenland S., McShane B. [2019], Retire sta-tistical significance, Nature, 567: 305–307.

Amrhein V., Trafimow D., Greenland S. [2019], Inferential statistics as descriptive statistics: There is no replica-tion crisis if we don’t expect replication, The American Statistician, 73(1): 262–270.

Beręsewicz M., Szymkowiak M. [2011], Kilka uwag na temat metod ważenia w badaniach statystycznych z brakami odpowiedzi, w: Garczarczyk J. (red.), Metody pomiaru i analizy rynku usług: pomiar jakościowy, zastosowania i efektywność, Wydawnictwo Uniwersytetu Ekonomicz-nego w Poznaniu, Poznań.

Camerer C.F., Dreber A., Holzmeister F., Ho T.‑H., Huber J., Johannesson M., Kirchler M. i in. [2018], Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015, Nature Human Behaviour, 2: 637–644.

Domański Cz., Pruska K. [2000], Nieklasyczne metody statystyczne, PWE, Warszawa.

Fisher R.A. [1956], Statistical methods and scientific infer‑

ence, Oliver and Boyd, Edinburgh.

Gelman A., Stern H. [2006], The difference between „sig-nificant” and „not significant” is not itself statistically significant, The American Statistician, 4: 328–331.

Goodman S.N. [2019], Why is getting rid of p‑values so hard? Musings on science and statistics, The American Statistician, 73(1): 352–357.

Greenland S., Senn S.J., Rothman K.J., Carlin J.B., Poole C., Goodman S.N., Altman D.G. [2016], Statistical tests, p‑values, confidence intervals, and power: A guide to misinterpretations, European Journal of Epidemiology, 31: 337–350.

Gryz J. [2019], Krajobraz po powodzi, Tygodnik Powszechny, 34, 25 sierpnia: 58–61.

Grzenda W. [2016], Modelowanie bayesowskie, teoria i przykłady zastosowań, Oficyna Wydawnicza SGH, Warszawa.

GUS [2018], Zeszyt metodologiczny. Badanie aktywności ekonomicznej ludności, Warszawa.

Kozłowski A. [2014], The use of non‑sample information in exit poll surveys in Poland, Statistics in Transition – new series, 15(1).

Mayer ‑Schönberger V., Cukier K. [2014], BIG DATA. Re‑

wolucja, która zmieni nasze myślenie, pracę i życie, Wy-dawnictwo MT Biznes, Warszawa.

Miller P.V. [2017], Is there a future for surveys?, Public Opinion Quarterly, 81, Special Issue: 205–212.

Neyman J., Pearson E.S. [1928], On the use and interpre-tation of certain test criteria for purposes of statistical inference: part I, Biometrika, 20A: 175–240.

Nuzzo R. [2014], Statistical errors, Nature, 506: 150–152.

Popper K.R. [1997], Mit schematu pojęciowego. W obronie nauki i racjonalności, Książka i Wiedza, Warszawa.

Prewitt K. [2010], Science starts not after measurement, but with measurement, Annals of the American Academy for Political and Social Sciences, 631: 7–16.

Rozeboom W.W. [1960], The fallacy of the null ‑hypothesis significance test, Psychological Bulletin, 57: 416–428.

Särndal C.E., Lundström S. [2006], Estimation in surveys with nonresponse, J. Wiley, Chichester.

Stefanowicz B., Cierpiał ‑Wolan M. [2015], Błędy przetwa-rzania danych, Wiadomości Statystyczne, 9: 23–29.

Szreder M. [2019], Istotność statystyczna w czasach big data, Wiadomości Statystyczne, (w druku).

Szreder M. [2013], Twierdzenie Bayesa po 250 latach, Wia‑

domości Statystyczne, 12: 23–26.

Szreder M. [1999], Use of prior probabilities in Bayesian inference, Statistics in Transition, 4(2).

Szreder M. [2015], Zmiany w strukturze całkowitego błędu badania próbkowego, Wiadomości Statystyczne, 1: 4–12.

Szymkowiak M. [2019], Podejście kalibracyjne w badaniach społeczno ‑ekonomicznych, Wydawnictwo Uniwersytetu Ekonomicznego w Poznaniu, Poznań.

Trafimow D., Marks M. [2015], Editorial, Basic and Applied Social Psychology, 37: 1–2.

Wasserstein R.L., Lazar N.A. [2016], The ASA’s statement on p‑values: Context, process, and purpose, The Ameri‑

can Statistician, 70(2): 129–133.

Wpływ nowych technologii na rozwój

W dokumencie X KONGRES EKONOMISTÓW POLSKICH Ekonomiści dla rozwoju (Stron 105-108)