• Nie Znaleziono Wyników

Krytycznie o sposobach rozstrzygania  w procedurze weryfikacji hipotez

Mirosław Szreder *

3.    Krytycznie o sposobach rozstrzygania  w procedurze weryfikacji hipotez

W uproszczeniach związanych z praktyką rozstrzy-gania o odrzuceniu bądź nieodrzuceniu sprawdzanej  hipotezy osiągnięto już na tyle krytyczny poziom, że  czasopismo naukowe Nature sformułowało swój nie- dawny komentarz na ten temat niemal jak apel, nada-jąc mu tytuł: Porzućcie przestarzałą statystyczną istot‑

ność (oryg. Retire statistical significance) [Amrhein  i in., 2019]. W rzeczywistości jednak główne ostrze  krytyki skierowane jest nie tyle na samą kategorię sta-tystycznej istotności, co na postępującą trywializację  w rozstrzyganiu i komunikowaniu o niej. Dotyczy to  przede wszystkim łatwo i szybko obliczanego przez  programy komputerowe wskaźnika p‑value.

W roku 2016 Amerykańskie Towarzystwo Staty- styczne (The American Statistical Association) wy-dało, niemające precedensu oświadczenie na temat  statystycznej istotności i posługiwania się wskaź-nikiem  p‑value  (ASA Statement on p‑values and statistical significance) [Wasserstein, Lazar, 2016]. 

Oświadczenie to zawiera sześć następujących zaleceń  i stwierdzeń18:

1.  Wartości prawdopodobieństwa krytycznego (p‑va‑

lue) mogą wskazywać na to, jak nieprzystające do  określonego modelu statystycznego są zaobserwo-wane dane.

2.  P‑value nie jest miarą prawdopodobieństwa tego,  że analizowana hipoteza jest prawdziwa, ani tego,  że dane zostały uzyskane wyłącznie w drodze lo- sowania (zostały wygenerowane przez proces lo-sowy).

3.  Konkluzje badawcze i decyzje ekonomiczne lub  inne nie powinny być oparte wyłącznie na tym, czy  wskaźnik p‑value przekroczył określony próg.

4.  Poprawne wnioskowanie wymaga od badacza  ujawnienia pełnej informacji i przejrzystości po-stępowania.

5.  Ani p‑value, ani statystyczna istotność nie mierzą  wielkości efektu i nie są miarą tego, jak ważny jest  uzyskany wynik.

18  Tłumaczenie komentarzy do wszystkich tych stwier-dzeń można znaleźć  m. in. w Szreder [2019].

6.  Sam w sobie wskaźnik p‑value nie stanowi dobrej  miary przesłanek dotyczących adekwatności mo-delu lub nieprawdziwości hipotezy.

Te sześć zasad – jak je określono we wspomnianym  oświadczeniu – należy traktować z jednej strony jako  przypomnienie ograniczeń związanych z posługiwa-niem się wskaźnikiem p‑value w testowaniu hipotez,  a z drugiej jako próbę powstrzymania tendencji do  zbyt daleko posuniętych uproszczeń w interpretowa- niu i komunikowaniu wyników statystycznej wery- fikacji hipotez. Wydaje się, że kluczowe dla zrozu-mienia narastającego w środowiskach naukowych  niepokoju związanego z poprawnością postępowania  w procedurze weryfikacji hipotez są dwie kwestie. 

Pierwsza, dotyczy założeń modelu wnioskowania  i roli jaką może i powinien w nim odgrywać najpo-pularniejszy w testowaniu hipotez wskaźnik p‑value. 

Druga, związana jest z dychotomizacją tego wskaź- nika i interpretacją jego wartości w kontekście odrzu-cenia lub nieodrzucenia testowanej hipotezy.

Jeśli chodzi o pierwszą z tych kwestii, to wymaga  ona uświadomienia sobie, że model wnioskowania  statystycznego jest ścisłym modelem matematycz-nym, zawierającym szereg różnych założeń, z których  zwykle jedynie część jest w konkretnym badaniu  spełniona. Dodatkowo, spełnienie niektórych waż-nych założeń może być trudne do zweryfikowania. 

Jednym z podstawowych założeń jest dysponowanie  przez badacza losową próbą obserwacji reprezentu-jących daną populację. W badaniach społecznych  i ekonomicznych szereg okoliczności sprawia, że  coraz trudniej jest o ostatecznej próbie respondentów  powiedzieć, że spełnia to założenie. W stosunku do  zaprojektowanej przez badacza, ostateczna próba  jest coraz częściej zniekształcona zarówno wyso- kimi wskaźnikami odmów respondentów, jak i in- nymi czynnikami o charakterze nielosowym (błę-dami w operacie losowania, błędami treści, błędami  przetwarzania danych)19. O tym i innych założeniach  rzadko się wspomina w dość zwięzłej na ogół cha-rakterystyce modelu wnioskowania, gdy dotyczy  ona weryfikacji hipotez. Prawie cała uwaga badaczy  i odbiorców ich wyników jest skoncentrowana na  brzmieniu testowanej hipotezy (zerowej) i ewen-tualnie hipotezy alternatywnej. Wyniki testowania  hipotezy interpretuje się często w taki sposób, jakby  dotyczyły one badanej rzeczywistości, a nie modelu. 

I tak, wskaźnik p‑value jest określany jako prawdo-podobieństwo uzyskania przez statystykę testową  takiej wartości, jaką zaobserwowano w próbie lub bar-dziej skrajnej, pod warunkiem prawdziwości hipotezy 

19 O znaczeniu tej grupy błędów, zaliczanych do błędów  nielosowych, piszą  m. in. Szreder [2015] oraz Stefanowicz  i Cierpiał ‑Wolan [2015].

zerowej. W rzeczywistości natomiast, w warunku  o którym mowa, nie chodzi jedynie o prawdziwość  hipotezy zerowej, ale także o prawdziwość wszystkich  założeń modelu. Mała wartość p‑value (np. mniejsza  od 0,05) oznacza, że mało prawdopodobne jest uzy-skanie zaobserwowanego ciągu obserwacji w próbie  (wartości statystyki testowej) pod warunkiem, że  prawdziwa jest hipoteza zerowa oraz spełnione są  wszystkie założenia modelu20. Na przykład p‑value  może przyjąć małą wartość, gdyż nieprawdziwa jest  hipoteza zerowa. Ale może się również zdarzyć, że  mała wartość p‑value jest konsekwencją niespełnienia  któregoś z ważnych założeń modelu, a nie fałszywej  hipotezy zerowej. Analogicznie, duże wartości wskaź-nika p‑value wskazują jedynie, że uzyskana próba  nie jest mało prawdopodobna, jeżeli prawdziwe są  założenia modelu, w tym hipoteza zerowa. Sugerują  one dużą zgodność modelu z danymi, ale nie wska-zują, że któreś konkretne założenie modelu, w tym  testowana hipoteza, są prawdziwe. Świadomość tego,  że wnioski z badań statystycznych są formułowane  w ograniczeniu do pewnego modelu jest ważne, bo  każe w ich interpretacji uwzględnić cały kontekst  relacji model ‑rzeczywistość, zwłaszcza poczynione  na wstępie przez badacza założenia.

Drugą ze wspomnianych kwestii wywołujących  nasilający się opór części badaczy przed posługi-waniem się wskaźnikiem p‑value jest zredukowanie  jego interpretacji do dychotomii: powyżej lub po-niżej ustalonego progu21. Wiadomo tymczasem, że  istotność w statystyce zmienia się w sposób ciągły,  podobnie jak ciągłą zmienną losową jest p‑value. Po-wstaje więc pytanie, czy takie uproszczenie, nie rodzi  niebezpieczeństwa nieprawdziwych rozstrzygnięć  w testowaniu hipotez. W badaniach statystycznych  przyjęło się uważać, że wartości p‑value mniejsze  od 0,05 świadczą o statystycznej istotności różnicy  pomiędzy tym, co zaobserwowano w próbie, a tym  co powinno było wystąpić w próbie, gdyby hipoteza  zerowa była prawdziwa. Wynik taki staje się więc  podstawą do odrzucenia hipotezy zerowej. Innymi  słowy, przyjmuje się, że próg 0,05 jest dla p‑value  rozstrzygający. I mimo że nie wziął się on znikąd,  bo zaproponował go sam twórca tego rodzaju wnio-skowania, wspomniany wcześniej Ronald A. Fisher22, 

20  Szczegółowo tę kwestę omawiają i wyczerpująco uza-sadniają Greenland i in. [2016].

21 Popularny staje się w jęz. angielskim postulat: „p‑va‑

lues should not be thresholded” (wartości p‑value nie po-winny mieć żadnego progu).

22  „Wartość dla której p=0,05 równa jest 1,96 lub pra-wie 2, stąd wygodne może być przyjęcie tego punktu jako  granicznego w ocenie, czy zaobserwowane odchylenie  w próbie zostanie uznane za istotne czy nie”. (W orygi-nale: „The value for which p=0.05 is 1.96 or nearly 2; it is 

ŚĆ I – X KONGRES EKONOMISW POLSKICHKONOMCI DLA ROZWOJU to obecnie coraz większa liczba badaczy proponuje 

odejście od tego progu, a redakcja The American Sta‑

tistician tytułuje cykl ponad 40 artykułów poświęco-nych współczesnemu testowaniu hipotez następująco: 

„Moving to a World Beyond p < 0.05” („Wkraczając  do świata poza p < 0,05”). Trzeba raz jeszcze zdać  sobie sprawę z tego, że obliczona wartość p‑value  odnosi się jedynie do wyniku pojedynczej próby,  oraz że test statystyczny nie jest narzędziem, które  potrafi ogół niepewności towarzyszącej wnioskowa-niu statystycznemu przekształcić w pewność decyzji,  co do prawdziwości lub nieprawdziwości hipotezy. 

Posługiwanie się wspomnianymi wyżej progami po- woduje z jednej strony, że część wartościowych i nie-kiedy dobrze rokujących badań, w których uzyskana  wielkość efektu okazała się za mała, aby p‑value  osiągnęło wartość mniejszą od progowej, zostaje  porzucona. Wyniki takie opatruje się zbyt często  nieprawdziwymi konkluzjami: „nie występuje róż-nica”, „nie występuje współzależność” tylko dlatego,  że p‑value okazało się wyższe niż określony próg23.  Z drugiej zaś strony, w obiegu naukowym sztuczną  nadreprezentację uzyskują te prace, w których otrzy-mano pożądaną wielkość p < 0,05 i do wyników tych  prac – jako że innych (statystycznie nieistotnych  wyników testów) redakcje czasopism najczęściej nie  publikują – przywiązują badacze zbyt dużą wagę24.  Dlatego warto rozważyć, czy wskaźnik p‑value nie  powinien być traktowany jedynie jako jedno ze źródeł  dowodzenia nieprawdziwości hipotezy zerowej, ale  źródło niewystarczające.

Uznanie wyników badania naukowego za war- tościowe tylko dlatego, że podczas weryfikacji hi-potezy statystycznej osiągnięto wskaźnik p‑value  poniżej 0,05, może być ryzykowne. Będzie takie  zwłaszcza wówczas, gdy badacz nie poinformuje  odbiorców swoich wyników, jakie kolejno hipotezy  weryfikował i ile razy sięgał po losową próbę, by  ostatecznie dowieść statystycznej istotności efektu25.  Jeżeli bowiem prób tych było wiele, to naturalne jest  pojawienie się co jakiś czas próby nietypowej, dla  której prawdopodobieństwo jest małe, np. równe 0,05. 

convenient to take this point as a limit in judging whether  a deviation is to be considered significant or not” [Fisher,  1925: 45].

23 Podkreślają to wyraźnie autorzy komentarza w Science  [Amrhein i in., 2019: 305].

24 Amrhein, Trafimow i Greenland [2019] stwierdzają  dobitnie: „Nadużywa się statystyki jako maszyny do automa-tycznego podejmowania naukowych decyzji (an automated scientific decision machine), zarówno w odniesieniu do  weryfikowanych hipotez, jak i w procesie selekcji artykułów  kierowanych do publikacji” [Amrhein i in., 2019: 264].

25 O tego typu transparentność i pełną informację apeluje  w przytoczonym wcześniej postulacie nr 4 Amerykańskie  Towarzystwo Statystyczne.

Taka nietypowa próba, w długich ciągach próbko-wania pojawia się średnio raz na 20 losowań. Jeżeli  więc badacz w 19 próbach uzyska nieistotną wielkość  efektu, a poinformuje odbiorców jedynie o wyniku  dwudziestej próby (uznanym za statystycznie istotny),  to rzeczywiste prawdopodobieństwo błędu pierw-szego rodzaju, polegającego na odrzuceniu hipotezy  prawdziwej, nie będzie wynosiło 5% lecz aż 64%26.  Innymi słowy, uzyskanie takiej nietypowej próby  w serii 20 doświadczeń przy założeniu, że praw-dziwa jest hipoteza zerowa, nie jest wcale małe – jak  mógłby sugerować badacz – lecz jest sporo większe  od 50%.

Obecne dyskusje na temat sposobów rozstrzyga-nia w procedurze weryfikacji hipotez nie zawierają  zwykle postulatu rezygnacji ze wskaźnika p‑value,  lecz kładą nacisk na potrzebę głębszej analizy źródeł  niepewności przed podjęciem decyzji o odrzuceniu  lub nieodrzuceniu hipotezy zerowej. Zresztą – jak  zauważa Goodman [2019] – trudne byłoby obecnie  wycofanie się z używania p‑value, bo wszyscy –  w tym naukowcy i redakcje czasopism naukowych –  przyzwyczailiśmy się do tego wskaźnika. Umownie  przypisujemy mu pewną wartość poznawczą. Zda-niem Goodmana [2019] jest to już pewne zjawisko  socjologiczne, nie tylko naukowe. Tak jak wierzymy  w wartość pieniądza, za którym w przekonaniu kon-sumentów kryje się prawo do nabycia określonych  dóbr lub usług, tak wierzymy, że za określonymi  wartościami p‑value kryje się prawo do naukowego  uznania określonych hipotez, a często także prawo  do opublikowania uzyskanych wyników w renomo-wanych czasopismach.

Podsumowanie

Rozwój technologii komputerowej, programów  obliczeniowych, a w dalszej kolejności elementów  sztucznej inteligencji i zjawiska big data – kojarzo- nych z wielkimi zbiorami liczb i sprawnymi sposo- bami ich analizy – sprawiły, że do metod statystycz-nych odwołują się badacze chętniej niż w przeszłości. 

Coraz częściej jednak w centrum uwagi stawia się  ilość, a nie jakość danych, oraz szybkość opubliko-wania wyników, a nie uzasadnienie metodyki dla ich  uzyskania i ostatecznej interpretacji. Sądzę, że należy  dostrzegać zarówno szanse, jakie wszystkie te nowe  zjawiska i trendy tworzą dla upowszechnienia staty- stycznej analizy rzeczywistości, jak i niebezpieczeń-stwa, które im towarzyszą. Jedno z najważniejszych 

26 Prawdopodobieństwo to łatwo oblicza się opierając się  na rozkładzie dwumianowym, korzystając z dopełnienia do  jedności prawdopodobieństwa, iż próba taka nie pojawi się  ani razu w 20 losowaniach: 1–0,9520.

zagrożeń dotyczy błędnego wnioskowania statystycz- nego w procedurach weryfikacji hipotez. W nim upa-truje się słusznie źródeł nieprawdziwych wniosków  z rożnych dziedzin badawczych, w tym z ekonomii  i ekonometrii. Jeżeli dołączy się do tego nauki przy-rodnicze i ścisłe, w których eksperyment i statystyczne  wnioskowanie są na porządku dziennym, to skalę  zagrożeń dla nauki trzeba uznać za dużą.

Współczesne oprogramowanie komputerowe stwa-rza analizom statystycznym nowe możliwości, ale  z drugiej strony odwraca uwagę użytkownika od tego,  co leży u podstaw metodyki wnioskowania, a w szcze- gólności od ścisłych matematycznych założeń we-ryfikacji  hipotez.  Daleko  posunięte  uproszczenia  w ocenach statystycznej istotności oraz rozstrzyganiu  o niej, a także w jej komunikowaniu spowodowały, że  konieczny staje się obecnie powrót do pierwotnych  założeń i modeli statystycznych wnioskowania. Po- trzebna jest większa wrażliwość badacza na matema-tyczne założenia modelu testowania hipotez, a także  pełniejsza informacja i przejrzystość wywodów, jakie  powinien prezentować wraz z uzyskanymi wynikami. 

Nie wystarczy sama wartość prawdopodobieństwa  krytycznego p‑value, ani samo stwierdzenie o staty-stycznej istotności efektu w próbie.

Bibliografia

Amrhein V., Greenland S., McShane B. [2019], Retire sta-tistical significance, Nature, 567: 305–307.

Amrhein V., Trafimow D., Greenland S. [2019], Inferential  statistics as descriptive statistics: There is no replica-tion crisis if we don’t expect replication, The American Statistician, 73(1): 262–270.

Beręsewicz M., Szymkowiak M. [2011], Kilka uwag na temat  metod ważenia w badaniach statystycznych z brakami  odpowiedzi, w: Garczarczyk J. (red.), Metody pomiaru i analizy rynku usług: pomiar jakościowy, zastosowania i efektywność, Wydawnictwo Uniwersytetu Ekonomicz-nego w Poznaniu, Poznań.

Camerer C.F., Dreber A., Holzmeister F., Ho T.‑H., Huber J.,  Johannesson M., Kirchler M. i in. [2018], Evaluating  the replicability of social science experiments in Nature  and Science between 2010 and 2015, Nature Human Behaviour, 2: 637–644.

Domański Cz., Pruska K. [2000], Nieklasyczne metody statystyczne, PWE, Warszawa.

Fisher R.A. [1956], Statistical methods and scientific infer‑

ence, Oliver and Boyd, Edinburgh.

Gelman A., Stern H. [2006], The difference between „sig-nificant” and „not significant” is not itself statistically  significant, The American Statistician, 4: 328–331.

Goodman S.N. [2019], Why is getting rid of p‑values so  hard? Musings on science and statistics, The American Statistician, 73(1): 352–357.

Greenland S., Senn S.J., Rothman K.J., Carlin J.B., Poole C.,  Goodman S.N., Altman D.G. [2016], Statistical tests,  p‑values, confidence intervals, and power: A guide to  misinterpretations, European Journal of Epidemiology,  31: 337–350.

Gryz J. [2019], Krajobraz po powodzi, Tygodnik Powszechny,  34, 25 sierpnia: 58–61.

Grzenda W. [2016], Modelowanie bayesowskie, teoria i przykłady zastosowań, Oficyna Wydawnicza SGH,  Warszawa.

GUS [2018], Zeszyt metodologiczny. Badanie aktywności ekonomicznej ludności, Warszawa.

Kozłowski A. [2014], The use of non‑sample information  in exit poll surveys in Poland, Statistics in Transition – new series, 15(1).

Mayer ‑Schönberger V., Cukier K. [2014], BIG DATA. Re‑

wolucja, która zmieni nasze myślenie, pracę i życie, Wy-dawnictwo MT Biznes, Warszawa.

Miller P.V. [2017], Is there a future for surveys?, Public Opinion Quarterly, 81, Special Issue: 205–212.

Neyman J., Pearson E.S. [1928], On the use and interpre-tation of certain test criteria for purposes of statistical  inference: part I, Biometrika, 20A: 175–240.

Nuzzo R. [2014], Statistical errors, Nature, 506: 150–152.

Popper K.R. [1997], Mit schematu pojęciowego. W obronie nauki i racjonalności, Książka i Wiedza, Warszawa.

Prewitt K. [2010], Science starts not after measurement, but  with measurement, Annals of the American Academy for Political and Social Sciences, 631: 7–16.

Rozeboom W.W. [1960], The fallacy of the null ‑hypothesis  significance test, Psychological Bulletin, 57: 416–428.

Särndal C.E., Lundström S. [2006], Estimation in surveys with nonresponse, J. Wiley, Chichester.

Stefanowicz B., Cierpiał ‑Wolan M. [2015], Błędy przetwa-rzania danych, Wiadomości Statystyczne, 9: 23–29.

Szreder M. [2019], Istotność statystyczna w czasach big  data, Wiadomości Statystyczne, (w druku).

Szreder M. [2013], Twierdzenie Bayesa po 250 latach, Wia‑

domości Statystyczne, 12: 23–26.

Szreder M. [1999], Use of prior probabilities in Bayesian  inference, Statistics in Transition, 4(2).

Szreder  M.  [2015],  Zmiany  w  strukturze  całkowitego  błędu badania próbkowego, Wiadomości Statystyczne,  1: 4–12.

Szymkowiak M. [2019], Podejście kalibracyjne w badaniach społeczno ‑ekonomicznych, Wydawnictwo Uniwersytetu  Ekonomicznego w Poznaniu, Poznań.

Trafimow D., Marks M. [2015], Editorial, Basic and Applied Social Psychology, 37: 1–2.

Wasserstein R.L., Lazar N.A. [2016], The ASA’s statement  on p‑values: Context, process, and purpose, The Ameri‑

can Statistician, 70(2): 129–133.

Wpływ nowych technologii na rozwój