Testy statystyczne — teoria
przygotowanie: dr A. Goroncy, dr J. Karłowska-Pik
Niech X1, . . . , Xn będzie próbą losową prostą z rozkładu Pθ, θ ∈ Θ oraz niech α ∈ (0, 1) będzie poziomem istotności (najczęściej 0,1, 0,05, czy 0,01).
Oznaczenia: Φ — dystrybuanta rozkładu N (0, 1), t1−α = Φ−1(1 − α),
Ft(n−1) — dystrybuanta rozkładu t-Studenta z n − 1 stopniami swobody, z1−αn−1= Ft(n−1)−1 (1 − α),
ni, nij — liczebności empiryczne (zaobserwowane), n0i, n0ij — liczebności teoretyczne,
Fχ2(k−1) — dystrybuanta rozkładu χ2 z k − 1 stopniami swobody, uk−11−α = Fχ−12(k−1)(1 − α),
Jeżeli statystyka testowa należy do obszaru krytycznego, to hipotezę zerową odrzucamy i przyj- mujemy hipotezę alternatywną. Jeżeli statystyka testowa nie należy do obszaru krytycznego, to nie ma podstaw do odrzucenia hipotezy zerowej.
W programie IBM SPPS Statistics zadeklarowany poziom istotności należy porównać z istotnością wyliczaną przez program (tzw. p-wartość). Jest to minimalny próg odrzucenia bądź nie hipotezy zerowej. W związku z tym hipotezę zerową odrzucamy, gdy p-wartość jest mniejsza niż deklarowany przez nas poziom istotności, a nie mamy podstaw do odrzucenia, gdy jest większa.
1. Test Studenta dla jednej średniej.
Hipoteza zerowa: Średnia wartość zmiennej jest równa określonej wartości a0 (a = a0).
Hipoteza alternatywna 1.: Średnia wartość zmiennej jest różna od określonej wartości a0 (a 6= a0).
Hipoteza alternatywna 2.: Średnia wartość zmiennej jest mniejsza od określonej wartości a0 (a < a0).
Hipoteza alternatywna 3.: Średnia wartość zmiennej jest większa od określonej wartości a0 (a > a0).
a) X ma rozkład normalny o znanej wariancji σ2. Statystyka testowa: Tn=√
nx − a¯ 0 σ .
Obszar krytyczny 1.: K = (−∞, −t1−α/2) ∪ (t1−α/2, +∞), Obszar krytyczny 2.: K = (−∞, −t1−α),
Obszar krytyczny 3.: K = (t1−α, +∞).
b) X ma rozkład normalny o nieznanej wariancji σ2. Statystyka testowa: Tn=√
nx − a¯ 0 s .
Obszar krytyczny 1.: K = (−∞, −z1−α/2n−1 ) ∪ (z1−α/2n−1 , +∞) dla n ¬ 30, K = (−∞, −t1−α/2) ∪ (t1−α/2, +∞) dla n > 30, Obszar krytyczny 2.: K = (−∞, −z1−αn−1) dla n ¬ 30,
K = (−∞, −t1−α) dla n > 30, Obszar krytyczny 3.: K = (z1−αn−1, +∞) dla n ¬ 30,
K = (t1−α, +∞) dla n > 30.
c) X ma rozkład dowolny, istnieje D2X, n > 30.
Statystyka testowa: Tn=√
nx − a¯ 0
σ0 lub Tn =√
nx − a¯ 0
s , lub Tn=√
nx − a¯ 0 ˆ s ,
gdzie σ0 jest odchyleniem standardowym rozkładu przy założeniu prawdziwości hipotezy zerowej, o ile wariancja rozważanego rozkładu jest funkcją jego wartości oczekiwanej (np. w rozkładzie
”0-1”, dwumianowym, Poissona, geometrycznym itp.).
Obszar krytyczny 1.: K = (−∞, −t1−α/2) ∪ (t1−α/2, +∞), Obszar krytyczny 2.: K = (−∞, −t1−α),
Obszar krytyczny 3.: K = (t1−α, +∞).
2. Test dla dwóch średnich i prób niezależnych
Hipoteza zerowa: Średnie wartości zmiennej są takie same w dwóch różnych populacjach (a1 = a2).
Hipoteza alternatywna 1.: Średnie wartości zmiennej są różne w badanych populacjach (a1 6= a2).
Hipoteza alternatywna 2.: Średnia wartość zmiennej w pierwszej populacji jest mniejsza od średniej wartości zmiennej w drugiej populacji (a1 < a2).
Hipoteza alternatywna 3.: Średnia wartość zmiennej w pierwszej populacji jest większa od średniej wartości zmiennej w drugiej populacji (a1 > a2).
a) X ma w obu populacjach rozkład normalny o znanych wariancjach σ12 i σ22. Statystyka testowa: Tn= x¯1− ¯x2
sσ12 n1 +σ22
n2 .
Obszar krytyczny 1.: K = (−∞, −t1−α/2) ∪ (t1−α/2, +∞), Obszar krytyczny 2.: K = (−∞, −t1−α),
Obszar krytyczny 3.: K = (t1−α, +∞).
b) X ma w obu populacjach rozkład normalny o nieznanych, ale równych wariancjach σ21 i σ22. Statystyka testowa: Tn= x¯1 − ¯x2
s(n1 − 1)s21+ (n2− 1)s22
n1+ n2− 2 · n1 + n2 n1n2
.
Obszar krytyczny 1.: K = (−∞, −z1−α/2n1+n2−2) ∪ (z1−α/2n1+n2−2, +∞), Obszar krytyczny 2.: K = (−∞, −z1−αn1+n2−2),
Obszar krytyczny 3.: K = (z1−αn1+n2−2, +∞).
c) X ma w obu populacjach rozkład normalny o nieznanych wariancjach σ12 i σ22. Statystyka testowa: Cn= x¯1− ¯x2
ss21 n1 + s22
n2
(statystyka Cochrana i Coxa).
Obszar krytyczny 1.: K = (−∞, −cn1−α/21,n2 ) ∪ (cn1−α/21,n2 , +∞), Obszar krytyczny 2.: K = (−∞, −cn1−α1,n2),
Obszar krytyczny 3.: K = (cn1−α1,n2, +∞),
gdzie
cn1−α1,n2 ≈ s21
n1z1−αn1−1+ s22 n2zn1−α2−1
!
: s21 n1 + s22
n2
!
.
d) X ma w obu populacjach rozkład o nieznanych wariancjach σ21 i σ22, próby mają liczebności większe bądź równe 100.
Statystyka testowa: Tn= x¯1− ¯x2
ss21 n1 + s22
n2 .
Obszar krytyczny 1.: K = (−∞, −t1−α/2) ∪ (t1−α/2, +∞), Obszar krytyczny 2.: K = (−∞, −t1−α),
Obszar krytyczny 3.: K = (t1−α, +∞).
3. Test dla dwóch średnich i prób zależnych
Hipoteza zerowa: Dwie zmienne zależne (o rozkładach normalnych) mają jednakowe średnie (inaczej: różnica D = X − Y odpowiadających sobie wartości zmiennych ma średnią równą 0).
Hipoteza alternatywna 1.: Zmienne zależne mają różne średnie (inaczej: różnica D = X − Y odpowiadających sobie wartości zmiennych ma średnią różną od 0).
Hipoteza alternatywna 2.: Pierwsza ze zmiennych ma średnią mniejszą niż druga (inaczej:
różnica D = X − Y odpowiadających sobie wartości zmiennych ma średnią ujemną).
Hipoteza alternatywna 3.: Pierwsza ze zmiennych ma średnią większą niż druga (inaczej:
różnica D = X − Y odpowiadających sobie wartości zmiennych ma średnią dodatnią).
Statystyka testowa: Tn = d¯ sd
√n.
Obszar krytyczny 1.: K = (−∞, −z1−α/2n−1 ) ∪ (z1−α/2n−1 , +∞) dla n ¬ 30, K = (−∞, −t1−α/2) ∪ (t1−α/2, +∞) dla n > 30, Obszar krytyczny 2.: K = (−∞, −z1−αn−1) dla n ¬ 30,
K = (−∞, −t1−α) dla n > 30, Obszar krytyczny 3.: K = (z1−αn−1, +∞) dla n ¬ 30,
K = (t1−α, +∞) dla n > 30.
4. Test chi-kwadrat zgodności
Założenia testu: Zmienna ma rozkład dyskretny, przyjmuje tylko wartości l1, . . . , lk z prawdo- podobieństwami odpowiednio p01, . . . , p0k, które nie są znane.
Hipoteza zerowa: Zmienna ma rozkład dyskretny z określonymi prawdopodobieństwami p01, . . . , p0k. Hipoteza alternatywna: Zmienna ma rozkład z innymi prawdopodobieństwami niż zadane.
Statystyka testowa: χ2 =Pki=1(ni− n0i)2
n0i =Pki=1(ni− np0i)2 np0i . Obszar krytyczny: K = (uk−11−α, +∞).
Uwagi:
• Jeżeli rozkład teoretyczny zależy od d nieznanych parametrów, to parametry te wyznaczamy metodą największej wiarogodności, a liczbę stopni swobody zmniejszamy o d.
• Przybliżenie rozkładem chi-kwadrat uznajemy za dopuszczalne, gdy np0i 5, i = 1, . . . , k, a za dobre, gdy np0i 10, i = 1, . . . , k. Jeśli liczba kategorii jest duża (> 6), to zgadzamy się stosować przybliżenie rozkładem chi-kwadrat także wtedy, gdy dla jednej lub dwóch kategorii
1 ¬ np0i < 5. Mało liczne kategorie można również łączyć z kategoriami sąsiednimi, redukując wówczas odpowiednio liczbę stopni swobody.
• W przypadku zmiennej o rozkładzie z ciągłą dystrybuantą dane grupujemy w k (10k ¬ n) klas. Prawdopodobieństwa teoretyczne wyliczamy z dystrybuanty. Klasy staramy się dobrać tak, aby prawdopodobieństwa znalezienia się w klasie były równe 1/k, a liczebności teore- tyczne były co najmniej równe 5. Testujemy wówczas hipotezę zerową: Zmienna ma rozkład o podanej dystrybuancie.
5. Test Kołmogorowa
Hipoteza zerowa: Zmienna ma rozkład o zadanej dystrybuancie F .
Hipoteza alternatywna: Zmienna ma rozkład o innej niż zadana dystrybuancie.
Wymagania testu: Ciągłość dystrybuanty.
a) n ¬ 100
Statystyka testu: Dn = max{D+n, Dn−}, gdzie Dn+= max1¬i¬n
i
n − F (x(i))
, D−n = max1¬i¬n
F (x(i)) −i − 1 n
.
Obszar krytyczny: (dn(1−α), 1] (odczytujemy z tablic Kołmogorowa -Smirnowa, jest to taka wartość, dla której P (Dn dn(1 − α)) = α).
b) n > 100.
Statystyka testu: √
nDn=√
n max{D+n, Dn−} (czasem (√
n + 0, 12 + 0, 11/√
n)Dn), gdzie Dn+= max1¬i¬n
i
n − F (x(i))
, D−n = max1¬i¬n
F (x(i)) −i − 1 n
.
Obszar krytyczny: (λ1−α, +∞), gdzie λ1−α jest kwantylem rzędu 1 − α granicznego rozkładu Kołmogorowa.
Uwaga: W przypadku danych zgrupowanych w klasy bierzemy pod uwagę prawy koniec każdej z klas i zamiast podanych statystyk wyznaczamy wartość maksymalną statystyki |Fn(xi) − F (xi)|, gdzie Fn jest dystrybuantą empiryczną.
6. Test chi-kwadrat niezależności
Założenia testu: Cechy X, Y są jakościowe (nominalne lub o wartościach uporządkowanych).
Hipoteza zerowa: X, Y są zmiennymi niezależnymi.
Hipoteza alternatywna: X, Y są zależne.
Statystyka testowa: χ2 = Pk
j=1 r
P
i=1
(nij − n0ij)2
n0ij , gdzie
r — liczba kategorii zmiennej X (liczba wierszy w tablicy kontyngencji), k — liczba kategorii zmiennej Y (liczba kolumn w tablicy kontyngencji), nij — liczba wystąpień w próbie par obserwacji (xi, yj),
n0ij =
k
P
j=1
nij · Pr
i=1
nij
n ,
n =
r
X
i=1 k
X
j=1
nij.
Obszar krytyczny: K = (u(r−1)(k−1)1−α , +∞).
Uwagi:
• Podobnie jak w teście chi-kwadrat zgodności, przybliżenie statystyki testowej rozkładem chi- kwadrat stosujemy, gdy liczebności teoretyczne prób w wierszach (kolumnach) są stosunkowo duże (n0ij 5).
• Gdy tablica kontyngencji ma rozmiar 2 × 2 i liczebności próby w wierszach (kolumnach) są zbyt małe, można oprzeć się na tzw. dokładnym teście Fishera (którego tu nie będziemy omawiać).
• W przypadku pary cech o uporządkowanych kategoriach test niezależności może okazać się zwodniczy. Może wówczas zajść potrzeba wprowadzenia odpowiedniej miary zależności mię- dzy cechami (tego nie będziemy tu omawiać).
7. Test znakowanych rang Wilcoxona
Model: Dysponujemy ciągiem par obserwacji: (X1, Y1), . . . , (Xn, Yn). Można sobie wyobrazić, że pary te reprezentują obserwacje „przed kuracją” i „po kuracji”.
Założenia: Pary zmiennych losowych są niezależne, natomiast Xi, Yi mogą być zależne.
Definiujemy niezależne różnice Zi = Yi− Xi, i = 1 . . . , n. Każda zmienna Zi, i = 1, . . . , n pochodzi z tego samego rozkładu ciągłego o dystrybuancie Fi, symetrycznego względem wspólnej mediany θ (może być ona interpretowana jako „efekt kuracji”), tzn.
∀t∈R Fi(θ + t) + Fi(θ − t) = 1, i = 1, . . . , n.
Hipoteza zerowa: θ = 0 (brak „efektu kuracji”, tzn. każdy rozkład Fi, i = 1, . . . , n jest syme- tryczny względem 0, czyli ∀t∈R Fi(t) = 1 − Fi(−t), i = 1, . . . , n).
Hipoteza alternatywna 1: θ 6= 0 (jest jakiś „efekt kuracji”).
Hipoteza alternatywna 2: θ > 0 („efekt kuracji” jest dodatni).
Hipoteza alternatywna 3: θ < 0 („efekt kuracji” jest ujemny).
Statystyka testowa: Jest to statystyka znakowanych rang Wilcoxona, czyli suma rang wartości bezwzględnych różnic odpowiadających różnicom dodatnim:
T+= X
Zi>0
r(|Zi|),
gdzie
r(|Zi|) — ranga |Zi|, i = 1, . . . , n, (r(Xi) = j ∈ {1, . . . , n} ⇐⇒ Xi = Xj:n).
Obszar krytyczny 1: K = −∞,n(n + 1)
2 − w1−α/2
#
∪hw1−α/2, ∞, Obszar krytyczny 2: K = [w1−α, +∞).
Obszar krytyczny 3: K = −∞,n(n + 1)
2 − w1−α
#
.
gdzie wa jest kwantylem rozkładu statystyki znakowanych rang Wilcoxona (przy założeniu praw- dziwości hipotezy zerowej) rzędu a (w tablicach).
Uwagi:
• Test znakowanych rang Wilcoxona jest nieparametryczną alternatywą dla testu t-Studenta w przypadku dwóch próbek dających się połączyć w pary. Różnica między tymi testami jest taka, że test t-Studenta testuje równość średnich arytmetycznych, a test Wilcoxona testuje
mediany. Test Wilcoxona nie wymaga założeń dotyczących rozkładu próby, może być więc używany, gdy założenia testu t-Studenta nie są spełnione.
• W praktyce (w wyniku zaokrąglania) mogą pojawić się tzw. węzły, czyli grupy obserwacji o jednakowej wartości bezwzględnej. Postępowanie w przypadku, gdy
(a) n < 25
- odrzucamy wszystkie Zi takie, że Zi = 0 i odpowiednio zmniejszamy n, - uśredniamy rangi dla pozostałych węzłów (mogą być one niecałkowite), - stosujemy test dokładny ze zmodyfikowanymi rangami;
(b) n 25
- odrzucamy wszystkie Zi takie, że Zi = 0 i odpowiednio zmniejszamy n, - uśredniamy rangi dla pozostałych węzłów (mogą być one niecałkowite), - stosujemy test asymptotyczny ze modyfikowaną statystyką testową T∗:
T˜∗ = T∗ = T+−n(n+1)4
s
n(n + 1)(2n + 1)/24 −12 PN
j=1
(t2j − 1)tj ,
gdzie:
N — liczba grup węzłów (również jednoelementowych), tj — liczba węzłów w j-tej grupie, j = 1, . . . , N .
• Test asymptotyczny. Jeżeli n jest duże (w praktyce dla n 25), używa się statystyki testowej postaci
T∗ = T+− n(n+1)4
qn(n + 1)(2n + 1)/24 ,
i wówczas obszary krytyczne są postaci:
Obszar krytyczny 1: K =−∞, −t1−α/2i∪ht1−α/2, ∞. Obszar krytyczny 2: K = [t1−α, +∞).
Obszar krytyczny 3: K = (−∞, −t1−α].