Zajęcia729stycznia2021 Testowaniehipotezstatystycznych.DwupróbkowytesttDorotaCelińska-Kopczyńska Rachunekprawdopodobieństwaistatystyka

(1)

Rachunek prawdopodobieństwa i statystyka

Testowanie hipotez statystycznych. Dwupróbkowy test t

Dorota Celińska-Kopczyńska

Uniwersytet Warszawski

Zajęcia 7 29 stycznia 2021

(2)

Idea zajęć – co będziemy robić?

I Kontynuujemy temat wnioskowania statystycznego I Będziemy omawiać dwupróbkowy test t – pozwalający na

porównanie średnich w dwóch grupach

I Poznamy różnicę pomiędzy testami parametrycznymi i nieparametrycznymi

I Czemu ważne? Niepoprawnie użyty test statystyczny z wysokim pstwem udzieli nam niepoprawnej odpowiedzi!

(3)

Schemat procesu wnioskowania (tradycyjny)

1. Postaw H₀ i H₁

2. Ustal poziom istotności α – jak bardzo godzisz się na odrzucenie prawdziwego H₀ (0,01; 0,05; 0,1)

3. Oblicz wartość statystyki testowej k

4. Znajdź wartość krytyczną k_α dla rozkładu statystyki testowej i w oparciu o H₁ skonstruuj obszar krytyczny

I k wpada do obszaru krytycznego – H₀ odrzucamy

I k nie wpada do obszaru krytycznego – nie ma podstaw do odrzucenia H0

(4)

Schemat procesu wnioskowania (p-wartość)

1. Postaw H₀ i H₁

2. Ustal poziom istotności α – jak bardzo godzisz się na odrzucenie prawdziwego H₀ (0,01; 0,05; 0,1)

3. Oblicz wartość statystyki testowej k

4. Znajdź p-wartość p na podstawie k i postaci H₁ I p ¬ α – H₀odrzucamy

I p > α – nie ma podstaw do odrzucenia H₀

(5)

Testy parametryczne i nieparametryczne

I Test parametryczny dotyczy wartości parametrów statystycznych populacji, np. średniej.

I Test nieparametryczny dotyczy postaci rozkładu zmiennej lub losowości próby

I Testy parametryczne w stosunku do nieparametrycznych cechuje większa liczba założeń do spełnienia, większa moc i dokładniejszy pomiar

I Przykładowo: test χ² niezależności to test nieparametryczny.

Test t (dziś omawiany) to przykład testu parametrycznego

(6)

Test t

I Najprostszym sposobem porównania średnich jest wykorzystanie testu opartego na statystyce o rozkładzie t-Studenta

I Niech zbiór X ma n obserwacji, a zbiór Y m obserwacji I Wówczas przy prawdziwej H0o równości średnich

t = X − ¯¯ Y

q _ˆ

σ²_X n +

σˆ_Y² m

→ t(n + m − 2)

I X – średnia arytmetyczna ze zmiennej X (oszacowanie próbkowe), ˆ¯ σ²_X – nieobciążony estymator wariancji dla zmiennej X . Analogicznie dla Y I H1– średnie nie są sobie równe (test dwustronny)

(7)

Haczyk #1

I Test t jest testem parametrycznym, wymaga spełnienia pewnych założeń dotyczących rozkładów zmiennych

I Próby X i Y muszą pochodzić z rozkładu normalnego. Jeśli to założenie nie jest spełnione, to rozkład statystyki testowej może się różnić od zakładanego

I Założenie o postaci rozkładu szczególnie ważne dla prób o niskich liczebnościach

I Co z próbami o wysokiej liczebności? Jakie inne problemy (związane z rozkładem) mogą Państwo dojrzeć?

(8)

Haczyk #2

I Przyjmuje się, że minimalna liczebność pojedynczej próby to 30 obserwacji

I Zmienne powinny mieć rozkład (quasi)ciągły. Czemu?

I ... od kiedy już mówimy o próbie o wysokiej liczebności?”

(9)

Jak sobie poradzić?

I Z wymogiem minimalnej liczebności trudno walczyć.

I Niewłaściwy rozkład zmiennych:

I Próba o niskiej liczebności – sprawdź obecność outlierów (średnia jest nieodporna na obserwacje odstające). Jak to nie pomaga, zmień test na nieparametryczną alternatywę (np. test U-Manna-Whitneya)

I Próba o wysokiej liczebności, rozkład jednomodalny – prawdopodobnie możesz rozważyć interpretację testu (CTG!).

Jeśli masz wątpliwości – rozważ nieparametryczną alternatywę

(10)

Problem 5d

I Sprawdzamy, czy dwie wersje randomizowanego algorytmu optymalizacyjnego się różnią.

I Dostajemy w zadaniu dane zawierające wynik działania obu algorytmów w ciągu 20 wywołań

I Chcemy sprawdzić, czy przeciętnie nie ma różnicy pomiędzy wynikami obydwu algorytmów. Planujemy wykorzystać do tego celu średnią. Odrzucenie H0 wskazuje, że różnice w działaniu algorytmów są statystycznie istotne

(11)

Problem 5b – Sprawdźmy założenia!

I Quasi(ciągłość) zmiennej?

I Minimalna liczebność próby 30 obserwacji?

I Czy rozkłady zmiennych X i Y są normalne?

I Analiza wzrokowa – rysujemy histogramy (niepewna!) I Formalny test statystyczny – jest wiele testów, pozwalających

sprawdzić zgodność z rozkładem normalnym, np.

Shapiro-Wilka, Jarque-Bera, Kołmogorova-Smirnoffa I Test SW: p-value dla X: 0.1299, p-value dla Y: 0.3438

(scipy.stats.shapiro)

I (Test SW cechuje wyższa moc w stosunku do wymienionych testów. Oryginalnie zaproponowano go dla prób o niskiej liczebności)

(12)

Problem 5b – liczenie statystyki testowej

I Upewniliśmy się, że możemy zastosować test t

I Co mamy – tablicę numpy. Kolumny identyfikują algortym, w wierszach zgromadzono wynik i -tego wywołania. W sumie n = 20 obserwacji

I Liczymy średnie – dla każdej z k ∈ 1, 2 kolumn potrzebujemy policzyć średnią arytmetyczną: ¯xk

I Liczymy wariancje – dla każdej z k ∈ 1, 2 kolumn potrzebujemy nieobciążonego estymatora:

σˆ_k²=

n

X

i =1

1

n − 1(xi− ¯xk)² I Teraz wystarczy wstawić do wzoru

t = x¯1− ¯x2

q_ˆ

σ₁² n +

σˆ²₂ n

(13)

Problem 5b – Weryfikacja

I Na podstawie obszaru krytycznego – rozkład t jest

symetryczny, potrzebujemy kwantyl rzędu 1 − α/2 rozkładu t o (2n-2) stopniach swobody. Kwantyl rzędu α/2 – to samo, z minusem.

I Na podstawie p-value: użyć scipy.stats.t.cdf, zwrócić uwagę, że test dwustronny!

(14)

Zadanie zaliczeniowe – do 5.02.2021 23:59

Poza zadaniami 5b, 5c można wybrać 5d i przeprowadzić test statystyczny. Mają Państwo obliczyć (samodzielnie)

wartość statystyki testowej i na podstawie dowolnej metody (obszar krytyczny lub p-value) zweryfikować hipotezę. Dla zaliczenia zadania konieczne jest podanie konkluzji!

(Mogą Państwo sprawdzić sobie wyniki korzystając z gotowej implementacji, jednak w oddanym zadaniu konieczne jest samodzielne zaimplementowanie statystyki testowej).