Rachunek prawdopodobieństwa i statystyka
Testowanie hipotez statystycznych. Dwupróbkowy test t
Dorota Celińska-Kopczyńska
Uniwersytet Warszawski
Zajęcia 7 29 stycznia 2021
Idea zajęć – co będziemy robić?
I Kontynuujemy temat wnioskowania statystycznego I Będziemy omawiać dwupróbkowy test t – pozwalający na
porównanie średnich w dwóch grupach
I Poznamy różnicę pomiędzy testami parametrycznymi i nieparametrycznymi
I Czemu ważne? Niepoprawnie użyty test statystyczny z wysokim pstwem udzieli nam niepoprawnej odpowiedzi!
Schemat procesu wnioskowania (tradycyjny)
1. Postaw H0 i H1
2. Ustal poziom istotności α – jak bardzo godzisz się na odrzucenie prawdziwego H0 (0,01; 0,05; 0,1)
3. Oblicz wartość statystyki testowej k
4. Znajdź wartość krytyczną kα dla rozkładu statystyki testowej i w oparciu o H1 skonstruuj obszar krytyczny
I k wpada do obszaru krytycznego – H0 odrzucamy
I k nie wpada do obszaru krytycznego – nie ma podstaw do odrzucenia H0
Schemat procesu wnioskowania (p-wartość)
1. Postaw H0 i H1
2. Ustal poziom istotności α – jak bardzo godzisz się na odrzucenie prawdziwego H0 (0,01; 0,05; 0,1)
3. Oblicz wartość statystyki testowej k
4. Znajdź p-wartość p na podstawie k i postaci H1 I p ¬ α – H0odrzucamy
I p > α – nie ma podstaw do odrzucenia H0
Testy parametryczne i nieparametryczne
I Test parametryczny dotyczy wartości parametrów statystycznych populacji, np. średniej.
I Test nieparametryczny dotyczy postaci rozkładu zmiennej lub losowości próby
I Testy parametryczne w stosunku do nieparametrycznych cechuje większa liczba założeń do spełnienia, większa moc i dokładniejszy pomiar
I Przykładowo: test χ2 niezależności to test nieparametryczny.
Test t (dziś omawiany) to przykład testu parametrycznego
Test t
I Najprostszym sposobem porównania średnich jest wykorzystanie testu opartego na statystyce o rozkładzie t-Studenta
I Niech zbiór X ma n obserwacji, a zbiór Y m obserwacji I Wówczas przy prawdziwej H0o równości średnich
t = X − ¯¯ Y
q ˆ
σ2X n +
σˆY2 m
→ t(n + m − 2)
I X – średnia arytmetyczna ze zmiennej X (oszacowanie próbkowe), ˆ¯ σ2X – nieobciążony estymator wariancji dla zmiennej X . Analogicznie dla Y I H1– średnie nie są sobie równe (test dwustronny)
Haczyk #1
I Test t jest testem parametrycznym, wymaga spełnienia pewnych założeń dotyczących rozkładów zmiennych
I Próby X i Y muszą pochodzić z rozkładu normalnego. Jeśli to założenie nie jest spełnione, to rozkład statystyki testowej może się różnić od zakładanego
I Założenie o postaci rozkładu szczególnie ważne dla prób o niskich liczebnościach
I Co z próbami o wysokiej liczebności? Jakie inne problemy (związane z rozkładem) mogą Państwo dojrzeć?
Haczyk #2
I Przyjmuje się, że minimalna liczebność pojedynczej próby to 30 obserwacji
I Zmienne powinny mieć rozkład (quasi)ciągły. Czemu?
I ... od kiedy już mówimy o próbie o wysokiej liczebności?”
Jak sobie poradzić?
I Z wymogiem minimalnej liczebności trudno walczyć.
I Niewłaściwy rozkład zmiennych:
I Próba o niskiej liczebności – sprawdź obecność outlierów (średnia jest nieodporna na obserwacje odstające). Jak to nie pomaga, zmień test na nieparametryczną alternatywę (np. test U-Manna-Whitneya)
I Próba o wysokiej liczebności, rozkład jednomodalny – prawdopodobnie możesz rozważyć interpretację testu (CTG!).
Jeśli masz wątpliwości – rozważ nieparametryczną alternatywę
Problem 5d
I Sprawdzamy, czy dwie wersje randomizowanego algorytmu optymalizacyjnego się różnią.
I Dostajemy w zadaniu dane zawierające wynik działania obu algorytmów w ciągu 20 wywołań
I Chcemy sprawdzić, czy przeciętnie nie ma różnicy pomiędzy wynikami obydwu algorytmów. Planujemy wykorzystać do tego celu średnią. Odrzucenie H0 wskazuje, że różnice w działaniu algorytmów są statystycznie istotne
Problem 5b – Sprawdźmy założenia!
I Quasi(ciągłość) zmiennej?
I Minimalna liczebność próby 30 obserwacji?
I Czy rozkłady zmiennych X i Y są normalne?
I Analiza wzrokowa – rysujemy histogramy (niepewna!) I Formalny test statystyczny – jest wiele testów, pozwalających
sprawdzić zgodność z rozkładem normalnym, np.
Shapiro-Wilka, Jarque-Bera, Kołmogorova-Smirnoffa I Test SW: p-value dla X: 0.1299, p-value dla Y: 0.3438
(scipy.stats.shapiro)
I (Test SW cechuje wyższa moc w stosunku do wymienionych testów. Oryginalnie zaproponowano go dla prób o niskiej liczebności)
Problem 5b – liczenie statystyki testowej
I Upewniliśmy się, że możemy zastosować test t
I Co mamy – tablicę numpy. Kolumny identyfikują algortym, w wierszach zgromadzono wynik i -tego wywołania. W sumie n = 20 obserwacji
I Liczymy średnie – dla każdej z k ∈ 1, 2 kolumn potrzebujemy policzyć średnią arytmetyczną: ¯xk
I Liczymy wariancje – dla każdej z k ∈ 1, 2 kolumn potrzebujemy nieobciążonego estymatora:
σˆk2=
n
X
i =1
1
n − 1(xi− ¯xk)2 I Teraz wystarczy wstawić do wzoru
t = x¯1− ¯x2
qˆ
σ12 n +
σˆ22 n
Problem 5b – Weryfikacja
I Na podstawie obszaru krytycznego – rozkład t jest
symetryczny, potrzebujemy kwantyl rzędu 1 − α/2 rozkładu t o (2n-2) stopniach swobody. Kwantyl rzędu α/2 – to samo, z minusem.
I Na podstawie p-value: użyć scipy.stats.t.cdf, zwrócić uwagę, że test dwustronny!
Zadanie zaliczeniowe – do 5.02.2021 23:59
Poza zadaniami 5b, 5c można wybrać 5d i przeprowadzić test statystyczny. Mają Państwo obliczyć (samodzielnie)
wartość statystyki testowej i na podstawie dowolnej metody (obszar krytyczny lub p-value) zweryfikować hipotezę. Dla zaliczenia zadania konieczne jest podanie konkluzji!
(Mogą Państwo sprawdzić sobie wyniki korzystając z gotowej implementacji, jednak w oddanym zadaniu konieczne jest samodzielne zaimplementowanie statystyki testowej).