• Nie Znaleziono Wyników

Testowanie hipotez statystycznych

N/A
N/A
Protected

Academic year: 2021

Share "Testowanie hipotez statystycznych"

Copied!
23
0
0

Pełen tekst

(1)

Eksploracja Danych (c) Marcin Sydow

Eksploracja Danych

Testowanie Hipotez (c) Marcin Sydow

(2)

Eksploracja Danych

(c) Marcin Sydow

Wprowadzenie

Testy statystyczne: pocz. XVII wieku (prace J.Arbuthnotta, liczba urodzeń noworodków obu płci w Londynie)

Testowanie hipotez: Karl Pearson (pocz. XX w., testowanie zgodności, test χ2), potem Egon Pearson (syn) i Jerzy Neyman.

(3)

Eksploracja Danych (c) Marcin Sydow 2 przeciwstawne hipotezy: Hipoteza zerowa Hipoteza alternatywna

(4)

Eksploracja Danych

(c) Marcin Sydow

Poziom istotności

α: maksymalne akceptowalne prawdopodobieństwo odrzucenia prawdziwej hipotezy zerowej (tzw. błąd I rodzaju)

Typowe wartości: 0.05, 0.01 (im niższy, tym pewniejszy wynik) p-wartość: minimalny poziom istotności pdjęcia decyzji o odrzuceniu hipotezy zerowej.

jeśli p < α to mamy podstawy do odrzucenia hipotezy zerowej. Statystyka testowa.

(5)

Eksploracja Danych

(c) Marcin Sydow

Testowanie zgodności

Testowanie zgodności z danym rozkładem. Najpopularniejsze:

testy normalności testy jednostajności

(6)

Eksploracja Danych (c) Marcin Sydow

Testy normalności

H0 : F ∈ {N(µ, σ) : µ ∈ R, σ ∈ R+}

gdzie F to nieznany rozkład, pochodzą z niego obserwacje x ∼ F

Często procedury statystyczne (np. Gaussowska regresja liniowa lub analiza wariancji (ANOVA)) zakładają zgodność pewnych zmiennych z rozkładem normalnym aby zapewnić prawidłowość procesu testowania.

(7)

Eksploracja Danych

(c) Marcin Sydow

Który test wybrać?

Jest wiele testów.

Każdy test wykrywa nieco inne rodzaje niezgodności. (np. Shapiro-Wilka (shapiro.test), Andersona-Darlinga, etc.) Każdy test oparty jest często na dodatkowych założeniach, które należy sprawdzić przed użyciem (np. w pakiecie R, czytając dokumentację odpowiedniego testu)

(8)

Eksploracja Danych

(c) Marcin Sydow

Moc testu

Prawdopodobieństwo odrzucenia hipotezy zerowej, gdy faktycznie jest fałszywa (uniknięcie błędu II rodzaju) (1-prawdopodobieństwo błędu II rodzaju)

Zależy m.in. od:

liczby obserwacji (im więcej tym lepiej) poziomu istotności

(9)

Eksploracja Danych

(c) Marcin Sydow

Wizualna ocena normalności

Za pomocą wykresu kwantylowego (qqnorm)

Porównanie kwantyli z rozkładu empirycznego z teroetycznymi kwantylami rozkładu normalnego.

Normalny: punkty układają się na prostej (qqline). Także: qqplot

(10)

Eksploracja Danych

(c) Marcin Sydow

Testy zgodności z rozkładem jednostajnym

Można wykorzystać: χ2

Kołmogorowa-Smirnowa

Powyższych testów można użyć do testowania zgodności innych rozkładów.

(11)

Eksploracja Danych

(c) Marcin Sydow

Test X

2

Dzieli dziedzinę zmiennej losowej na przedziały i sprawdza zgodność oczekiwanej liczby obserwacji i faktycznie zaobserwowanej.

Wyższa liczba przedziałów:

wyższa dokładność (subtelność) ale niższa moc testu

Prosta “magiczna” reguła: Przynajmniej 10 obserwacji w każdym przedziale.

(chisq.test, argumentem jest tablica liczników obserwacji w poszczególnych przeziałach)

(12)

Eksploracja Danych (c) Marcin Sydow

Przykład

segments = seq(0,1,0.2) x = runif(1000) a = table(cut(x,segments)) chisq.test(a)

(13)

Eksploracja Danych (c) Marcin Sydow

Testy zgodności 2 prób

H0 : F = G

F , G - dwa porównywane rozkłady (np. empiryczne) Hipoteza alternatywna: dwustronna F 6= G jednostronna F > G jednostronna F < G Używane narzędzia: Kołmogorowa-Smirnowa Wilcoxona

(14)

Eksploracja Danych (c) Marcin Sydow

Test Kołmogorowa-Smirnowa

(ks.test) przykład: ks.test(x,”pnorm”)

Można podać inne parametry, np. alternatywa: “two-sided” (domyślna w R), “greater”, “less”

(15)

Eksploracja Danych

(c) Marcin Sydow

Test Wilcoxona

Stosuje się np. do wykrywania różnic w parametrze położenia przykład: wilcox.test(x,y)

Niewrażliwy na różnice skali, ale może wykryć różnice w skośności.

(16)

Eksploracja Danych

(c) Marcin Sydow

Równość parametrów położenia

H0 : µ1= µ2 = ... = µk

HA : ∃i 6=jµj 6= µj

Użwywane narzędzia: test t-Studenta (t.test) analiza wariancji (anova) test Wilcoxona

Test Kruskala-Wallisa (uogólnienie testu Wilcoxona na więcej niż 2 próby)

Testy t-Studenta i ANOVA zakładają normalność rozkładu. Pozostałe nie mają takiego założenia (są rangowe), zakładają tylko ciągłość rozkładu (unikanie powtarzających się wartości)

(17)

Eksploracja Danych

(c) Marcin Sydow

Rodzaje hipotez zerowych

czy wartość średnia równa się danej liczbie: H0 : µx = µ

czy wartości średnie dwóch rozkładów różnią się o stałą: H0: µx − µy = µ (dwa warianty: równe wariancje (R:

t.test: var.equal=T) i różne wariancje (wtedy dodawana jest tzw. korekta (np. Welcha). Hipotezę o równości wariancji można sprawdzić np. testem F (var.test) czy wartości średnie prób sparowanych różnią się o stałą: H0: µx −y = µ (paired = T)

(18)

Eksploracja Danych

(c) Marcin Sydow

Równość parametrów skali

Testowanie np. równości wariancji (odchyleń standardowych) H0 : σ1 = σ2 = ... = σk

dla 2 prób:

var.test (test F, iloraz wariancji) ansari.test

mood.test

Są też testy dla więcej niż 2 prób: bartlett.test

fligner.test levene.test

Uwaga: Wiele testów zakłada np. normalność rozkładu (F, Bartlett)

(19)

Eksploracja Danych (c) Marcin Sydow

Przykład

a = rnorm(100,1,0) b = rnorm(100,1,1) c = rnorm(100,1,2) ansari.test(a,b) ansari.test(a,c) bartlett.test(list(a,b,c))

(20)

Eksploracja Danych

(c) Marcin Sydow

Testowanie proporcji

Czy prawdopodobieństwo sukcesu w rozkładach dwumianowych jest równe:

H0 : p1 = ... = pk

R: prop.test przykład:

prop.test(650,1234,p=0.5) (wynik: p-value: prawdopodobieństwo, że faktycznie było jednak prawdopodobieństwo sukcesu 0.5)

(21)

Eksploracja Danych (c) Marcin Sydow

Test korelacji

H0 : ρx ,y = 0 Pearsona (cor.test) Kendalla Spearmana ’ Przykład: a = rnorm(50) b = a + rnorm(50) cor.test(x,y,method=”spearman”)

(22)

Eksploracja Danych (c) Marcin Sydow

Przykładowe pytania/zadania/problemy

Testowanie hipotez

Poziom istotności, p-wartość, statystyka testowa, moc testu Testy normalności, jednostajności, etc.

Wizualna ocena normalności Testy zgodności

Testy równości parametrów położenia Rodzaje hipotez

(23)

Eksploracja Danych

(c) Marcin Sydow

Cytaty

Powiązane dokumenty

 Obliczamy, jaka jest szansa, że taki wynik uzyskamy przy założeniu, że moneta jest rzetelna, a więc ile wynosi P(6 razy orzeł/moneta rzetelna)..  Ponieważ jest

przyjąć H 1 : na podstawie obserwacji nie możemy stwierdzić, że nowa technologia zmniejsza poziom zanieczyszczeń.. Chcielibyśmy stwierdzić, że nowa

Obliczono, że emisja programu telewizyjnego jest opłacalna, jeżeli jego oglądalność wynosi 25%.. Wśród 1200 ankietowanych osób 200 stwierdziło, że systematycznie ogląda

Pewien importer owoców cytrusowych twierdzi, że owoce zawijane w papierki mniej się psują w trans- porcie od owoców, które importuje się starą metodą bez zawijania..

testowa wartość krytyczna p-value poz... testowa wartość krytyczna

Jeśli H 0 jest prawdziwa, to wartość u # powinna znajdować się blisko wartości średniej EU (albo modalnej MoU), bo zakładamy, że próba jest próbą typową (a

e) każdy z dwóch genów może pojawić się w wyprodukowanej przez osobnika gamecie z prawdopodobieństwem 1/2 (jest to tzw. pierwsze prawo Mendla).. Przyjęte

• Hipoteza zerowa jest jedną wyróżnioną hipotezą, która podlega weryfikacji, pozostałe hipotezy ze zbioru hipotez dopuszczalnych stanowią zbiór hipotez alternatywnych..