1 Wykład 8
Test warto´sci wariancji dla znanej ´sredniej
Niech X
T= (x
1, x
2, . . . , x
n) b þedzie próba prost þ a z rozkładu N (µ, σ), ´sred- nia µ jest znana. Testujemy hipotezy:
H
0: σ = σ
0, H
1: σ 6= σ
0Iloraz wariancji w tym przypadku ma posta´c:
L
x(H
0, H
1) = sup {l (x, µ, σ) : σ}
l (x, µ, σ
0) =
³
2π
n1P
ni=1
(x
i− µ)
2´
−n/2exp (−n/2) (2πσ
20)
−n/2exp ³
− P
ni=1
(x
i− µ
0)
2/2σ
20´ =
Oznaczmy u
def= P
ni=1
(x
i− µ
0)
2/nσ
20. Wtedy
2 log L
x(H
0, H
1) = n (u − 1 − log u) jest rosn þ ac þ a funkcja u Zbiór krytyczny b þedzie miał wi þec posta´c:
C = (
X : P
ni=1
(x
i− µ
0)
2nσ
20> k
)
gdzie k jest tak wybrane, aby P ³
Pni=1(xi−µ0)2 nσ20
> k ´
= α. Jak nietrudno za- uwaúzy´c, zmienna losowa T =
Pn
i=1(Xi−µ0)2
nσ20
ma rozkład χ
2n(z n stopniami swo- body), gdy hipoteza H
0jest prawdziwa, wi þec k naleúzy wyznaczy´c z dystrybuanty rozkładu χ
2n.
Test równo´sci dwóch ´srednich w rozkładzie normalnym ze znan þ a wariancj þ a
Tym razem mamy dwie niezaleúzne próby proste: X
T= (x
1, x
2, . . . , x
m) i Y
T= (y
1, y
2, . . . , y
n). Pierwsza pochodzi z rozkładu normalnego N (µ
1, σ), druga z rozkładu N (µ
2, σ). Testujemy hipotezy:
H
0: µ
1= µ
2, H
0: µ
16= µ
2. Wyliczymy iloraz wiarygodno´sci dla tych hipotez
L
x(H
0, H
1) = sup {l (x, µ
1, σ) l (y, µ
2, σ) : µ
1, µ
2} sup {l (x, µ, σ) l (y, µ, σ) : µ} =
=
¡ 2πσ
2¢
−(m+n)/2exp ³
− P
mi=1
(x
i− x)
2/2σ
2´ (2πσ
2)
−(m+n)/2exp
µ
− P
m i=1³
x
i−
mx+nym+n´
2/2σ
2¶ ·
·
exp ³
− P
ni=1
(y
i− y)
2/2σ
2´ exp
µ
− P
n i=1³ y
i−
mx+nym+n´
2/2σ
2¶ = exp µ 1
2σ
2mn
m + n (x − y)
2¶
jest wi þec rosn þ ac þ a funkcj þ a |x − y|. Zbiór krytyczny ma posta´c:
C = {X, Y : |x − y| > k}
Zmienna losowa X − Y , gdy prawdziwa jest hipoteza zerowa, ma rozkład N ³
0, σ q
1m
+
n1´
. W zwi þ azku z tym dla testowania na poziomie α zachodzi´c musi ci þ ag równo´sci:
α = P (|x − y| > k) = P
| x − y|
σ q
1 m
+
n1> k σ q
1 m
+
n1
=
= 2
1 − Φ
k
σ q
1 m
+
n1
Tak wi þec k = z
ασ q
1
m
+
n1gdzie Φ (z
α) = 1−α/2 i Φ jest dystrybuant þa rozkładu N (0, 1) .
Test zgodno´sci
Do´swiadczenie ma k moúzliwych wyników o prawdopodobie´nstwach p
1, p
2, . . . p
k. Niezaleúznie, n-krotnie powtarzamy to do´swiadczenie. Otrzymamy wektor wyników tej obserwacji postaci X
T= (x
1, x
2, . . . , x
n) gdzie x
ioznacza liczb þe powtórze´ n, w których pojawił si þe i-ty wynika do´swiadczenia. Oczywi´scie P
ni=1
x
i= n.Chcemy na podstawie tych obserwacji testowa´c hipotez þe, úze p
iprzyjmuj þ a konkretne warto´sci. Dopuszczamy moúzliwo´s´c, úze p
imog þ a by´c funkcjami nieznanych parametrów θ (p
i= p
i(θ)). Chcemy wi þec testowa´c hipotezy:
H
0: p
i= p
i(θ) dla θ ∈ Θ
0, H
1: s þ a dowolne
Rozkład wektora X jest wielomianowy:
P ¡
X
T= (x
1, x
2, . . . , x
n) ¢
= n!
Y
k i=1p
xiix
i! Aby obliczy´c logarytm ilorazu wiarygodno´sci musimy obliczy´c
log L
x(H
1) = sup (
log Ã
n!
Y
k i=1p
xiix
i!
!
: 0 ≤ p
i, X
k i=1p
i= 1 )
Zgodnie z zasad þ a mnoúzników Lagrange’a wystarczy szuka´c maksimum wyraúze- nia
X
k i=1x
ilog p
i+ λ X
k i=1p
iPodobnie,
log L
x(H
0) = log à n!
Q
k i=1x
i!
! +
X
k i=1x
ilog ³ p
i³ bθ ´´
gdzie b θ jest estymatorem najwi þekszej wiarygodno´sci parametru θ w obszarze Θ
0. w takim razie
2 log L
x(H
0, H
1) = 2 (log L
x(H
1) − log L
x(H
0)) =
= 2
Ã
kX
i=1
x
ilog ³x
in
´
− X
ki=1
x
ilog ³ p
i³ bθ ´´ !
=
= 2
X
k i=1x
ilog
x
inp
i³ bθ ´
Wielko´sci e
idef= np
i³ bθ ´
s þ a oczekiwanymi , za´s x
is þ a obserwowanymi liczbami za- j´s´c i-tego wyniku podczas n powtorze´ n do´swiadczenia. Wyraúzenie D (x, e)
def= 2 ³P
ki=1
x
ilog ³
xi
ei
´´
nazywamy odchyleniem rozkładu teoretycznego i obser- wowanego. Zgodnie z twierdzeniem o ogólnym, asymptotycznym te´scie ilorazu wariancji D (x, e) ma rozkład χ
2z k−1−p stopniami swobody, gdzie p jest liczb þa stopni swobody dla estymacji θ ∈ Θ
0. Taka liczba stopni swobody wynika z faktu, úze w obszarze hipotezy H
1wyst þepuje k nieznanych parametrów z jednym ograniczeniem P
ki=1
p
i= 1. Tak wi þec zbiór krytyczny b þedzie miał posta´c:
C = {X : D (x, e) > k}
gdzie k musi spełnia´c warunek P ¡
χ
2k−1−p> k ¢
= α
W praktyce stosuje si þe przybliúzon þ a posta´c odchylenia rozkładu
1, zwan þ a statystyk þ a χ
2Pearsona.
Z rozwini þecia Taylora funkcji log (1 + x) otrzymamy przybliúzon þ a równo´s´c dla małych x
log (1 + x) ≈ x − x
22 Tak wi þec zauwaúzywszy, úze
x
ie
i= 1 + x
i− e
ie
idef
= 1 + δ
ie
i1
chyba z powodu niedogodno´sci obliczania logarytmów
oraz, úze dla duúzych n wyraúzenie δ
i= x
i− e
ima małe warto´sci
2otrzymamy
D (x, e) = 2 Ã
kX
i=1
x
ilog µ x
ie
i¶!
=≈ 2 Ã
kX
i=1
x
ilog µ
1 + δ
ie
i¶!
≈
≈ 2 Ã
kX
i=1
(δ
i+ e
i) Ã δ
ie
i− 1 2
µ δ
ie
i¶
2!!
= 2 Ã
kX
i=1
1 2
δ
2ie
i− 1
2 δ
3ie
2i+ δ
i!
=
= X
k i=1δ
2ie
i−
X
k i=1δ
3ie
2i+ 2
X
k i=1δ
i≈ X
k i=1δ
2ie
i+ 2 X
k i=1(x
i− e) = X
k i=1δ
2ie
i+ 2 (n − n) =
= X
k i=1(x
i− e
i)
2e
iStatystyka χ
2Pearsona wyraúza si þe wzorem
χ
2= X
k i=1(x
i− e
i)
2e
ii ma on w przybliúzeniu, dla duúzych n rozkład χ
2z k − 1 − p stopniami swobody
3Wzór Pearsona moúze mie´c teúz inn þ a interpretacj þe
χ
2= X
ki=1
(x
i− e
i)
2e
i= X
k i=1e
iµ x
i− e
ie
i¶
2= n X
k i=1p
iµ x
i− e
ie
i¶
2Tak wi þec χ
2/n jest oczekiwanym kwadratowym bł þedem wzgl þednym liczno´sci obserwowanych x
iwzgl þedem oczekiwanych e
i.
Co wi þecej, asymptotycznie, gdy prawdziwa jest hipoteza zerowa, wielko´sci
x√i−eeii
s þ a w przybliúzeniu niezaleúzne i maj þ a rozkład normalny N (0, 1)
4. Jeúzeli wi þec w sumie χ
2wyst þ api þ a składniki wi þeksze od 1.96
2= 3. 85 lub jeszcze bardziej - wi þeksze od 2.58
2= 6.66
5to te wyniki s þ a najbardziej odpowiedzialne za niez- godno´s´c z hipotez þ a zerow þ a. Pozwala to na bardziej szczegółow þ a interpretacj þe otrzymanych wyników.
Przykład 1.1 We´zmy dane Mendla, o których była mowa na pocz þ atku rozdziału o testowaniu hipotez
typ liczba prawdopodobie´ nstwo oczekiwana liczba
groszku obserwacji teoretyczne ziaren
gładki úzółty 315 9/16 312.75
gładki zielony 108 3/16 104.25
pomarszczony úzółty 102 3/16 104.25
pomarszczony zielony 31 1/16 34.75
W tej tablicy mamy liczno´sci obserwowane w drugiej kolumnie i oczekiwane,
zgodne z modelem genetycznym Hardy’ego-Weinberga w czwartej. Zauwaúzmy,
úze liczno´sci oczekiwane s þ a wi þ eksze od 5 co pozwala na posłuúzenie si þ e przybliúze- niem Pearsona. Policzymy jednak dla porównania odchylenie i statystyk þ e χ
2Pearsona:
D (x, e) = 2 µ
315 log µ 315
312.75
¶
+ 108 log µ 108
104.25
¶
+ 102 log µ 102
104.25
¶
+ 31 log µ 31
34.75
¶¶
=
= 0.6184 Podobnie,
χ
2= (315 − 312.75)
2312.75 + (108 − 104.25)
2104.25 + (102 − 104.25)
2104.25 + (31 − 34.75)
234.75 =
= 0.01619 + 0.1349 + 0.0486 + 0.4047 = 0.6043
Czy moúzemy odrzuci´c hipotez þ e o zgodno´sci z modelem Hardy’ego-Weinberga?
Obliczmy poziom krytyczny dla naszych danych:
P ¡
χ
24−1−0> 0.6184 ¢
< P ¡
χ
23> 0.584 ¢
= 0.9, P ¡
χ
23> 0.6184 ¢
> P ¡
χ
23> 6.251 ¢
= 0.1
Jest on zawarty mi þ edzy 0.9 a 0.1
6wi þ ec zbyt ryzykowne byłoby odrzucenie hipotezy zerowej. Jak wida´c, úzaden ze składników w statystyce Pearsona nie jest wi þ ekszy od 3.85 co wskazuje, úze úzaden z wyników nie groziłby zgodno´sci obserwacji z hipotez þ a Hardy’ego-Weinberga. ¥
6