1 Wykład 8

(1)

1 Wykład 8

Test warto´sci wariancji dla znanej ´sredniej

Niech X

^T

= (x

1

, x

2

, . . . , x

n

) b þedzie próba prost þ a z rozkładu N (µ, σ), ´sred- nia µ jest znana. Testujemy hipotezy:

H

0

: σ = σ

0

, H

₁

: σ 6= σ

0

Iloraz wariancji w tym przypadku ma posta´c:

L

_x

(H

₀

, H

₁

) = sup {l (x, µ, σ) : σ}

l (x, µ, σ

0

) =

³

2π

_n¹

P

n

i=1

(x

i

− µ)

²

´

−n/2

exp (−n/2) (2πσ

²₀

)

^−n/2

exp ³

− P

n

i=1

(x

i

− µ

0

)

²

/2σ

²₀

´ =

Oznaczmy u

^def

= P

n

i=1

(x

i

− µ

0

)

²

/nσ

²₀

. Wtedy

2 log L

_x

(H

₀

, H

₁

) = n (u − 1 − log u) jest rosn þ ac þ a funkcja u Zbiór krytyczny b þedzie miał wi þec posta´c:

C = (

X : P

n

i=1

(x

_i

− µ

0

)

²

nσ

²₀

> k

)

gdzie k jest tak wybrane, aby P ³

^Pn

i=1(xi−µ0)² nσ²₀

> k ´

= α. Jak nietrudno za- uwaúzy´c, zmienna losowa T =

Pn

i=1(Xi−µ0)²

nσ²₀

ma rozkład χ

²_n

(z n stopniami swobody), gdy hipoteza H

0

jest prawdziwa, wi þec k naleúzy wyznaczy´c z dystrybuanty rozkładu χ

²_n

.

Test równo´sci dwóch ´srednich w rozkładzie normalnym ze znan þ a wariancj þ a

Tym razem mamy dwie niezaleúzne próby proste: X

^T

= (x

₁

, x

₂

, . . . , x

_m

) i Y

^T

= (y

₁

, y

₂

, . . . , y

_n

). Pierwsza pochodzi z rozkładu normalnego N (µ

1

, σ), druga z rozkładu N (µ

2

, σ). Testujemy hipotezy:

H

₀

: µ

₁

= µ

₂

, H

0

: µ

₁

6= µ

2

. Wyliczymy iloraz wiarygodno´sci dla tych hipotez

L

x

(H

0

, H

1

) = sup {l (x, µ

1

, σ) l (y, µ

₂

, σ) : µ

₁

, µ

₂

} sup {l (x, µ, σ) l (y, µ, σ) : µ} =

=

¡ 2πσ

²

¢

−(m+n)/2

exp ³

− P

m

i=1

(x

i

− x)

²

/2σ

²

´ (2πσ

²

)

^−(m+n)/2

exp

µ

− P

m i=1

³

x

i

−

^mx+nym+n

´

2

/2σ

²

¶ ·

· exp ³

− P

n

i=1

(y

i

− y)

²

/2σ

²

´ exp

µ

− P

n i=1

³ y

_i

−

^mx+ny_m+n

´

2

/2σ

²

¶ = exp µ 1

2σ

²

mn

m + n (x − y)

²

¶

(2)

jest wi þec rosn þ ac þ a funkcj þ a |x − y|. Zbiór krytyczny ma posta´c:

C = {X, Y : |x − y| > k}

Zmienna losowa X − Y , gdy prawdziwa jest hipoteza zerowa, ma rozkład N ³

0, σ q

1

m

+

_n¹

´

. W zwi þ azku z tym dla testowania na poziomie α zachodzi´c musi ci þ ag równo´sci:

α = P (|x − y| > k) = P



 | x − y|

σ q

1 m

+

_n¹

> k σ q

1 m

+

_n¹



 =

= 2



1 − Φ



 k

σ q

1 m

+

_n¹









Tak wi þec k = z

α

σ q

1

m

+

_n¹

gdzie Φ (z

α

) = 1−α/2 i Φ jest dystrybuant þa rozkładu N (0, 1) .

Test zgodno´sci

Do´swiadczenie ma k moúzliwych wyników o prawdopodobie´nstwach p

1

, p

2

, . . . p

k

. Niezaleúznie, n-krotnie powtarzamy to do´swiadczenie. Otrzymamy wektor wyników tej obserwacji postaci X

^T

= (x

₁

, x

₂

, . . . , x

_n

) gdzie x

_i

oznacza liczb þe powtórze´ n, w których pojawił si þe i-ty wynika do´swiadczenia. Oczywi´scie P

n

i=1

x

_i

= n.Chcemy na podstawie tych obserwacji testowa´c hipotez þe, úze p

i

przyjmuj þ a konkretne warto´sci. Dopuszczamy moúzliwo´s´c, úze p

i

mog þ a by´c funkcjami nieznanych parametrów θ (p

_i

= p

_i

(θ)). Chcemy wi þec testowa´c hipotezy:

H

₀

: p

_i

= p

_i

(θ) dla θ ∈ Θ

0

, H

1

: s þ a dowolne

Rozkład wektora X jest wielomianowy:

P ¡

X

^T

= (x

₁

, x

₂

, . . . , x

_n

) ¢

= n!

Y

k i=1

p

^x_iⁱ

x

i

! Aby obliczy´c logarytm ilorazu wiarygodno´sci musimy obliczy´c

log L

x

(H

1

) = sup (

log Ã

n!

Y

k i=1

p

^x_iⁱ

x

_i

!

: 0 ≤ p

ⁱ

, X

k i=1

p

i

= 1 )

Zgodnie z zasad þ a mnoúzników Lagrange’a wystarczy szuka´c maksimum wyraúze- nia

X

k i=1

x

_i

log p

_i

+ λ X

k i=1

p

_i

(3)

Podobnie,

log L

x

(H

0

) = log Ã n!

Q

k i=1

x

i

!

! +

X

k i=1

x

i

log ³ p

i

³ bθ ´´

gdzie b θ jest estymatorem najwi þekszej wiarygodno´sci parametru θ w obszarze Θ

0

. w takim razie

2 log L

x

(H

0

, H

1

) = 2 (log L

x

(H

1

) − log L

^x

(H

0

)) =

= 2

Ã

_k

X

i=1

x

i

log ³x

_i

n

´

− X

k

i=1

x

i

log ³ p

i

³ bθ ´´ !

=

= 2



 X

k i=1

x

i

log



 x

i

np

_i

³ bθ ´









Wielko´sci e

_i^def

= np

_i

³ bθ ´

s þ a oczekiwanymi , za´s x

_i

s þ a obserwowanymi liczbami za- j´s´c i-tego wyniku podczas n powtorze´ n do´swiadczenia. Wyraúzenie D (x, e)

^def

= 2 ³P

k

i=1

x

i

log ³

xi

ei

´´

nazywamy odchyleniem rozkładu teoretycznego i obser- wowanego. Zgodnie z twierdzeniem o ogólnym, asymptotycznym te´scie ilorazu wariancji D (x, e) ma rozkład χ

²

z k−1−p stopniami swobody, gdzie p jest liczb þa stopni swobody dla estymacji θ ∈ Θ

0

. Taka liczba stopni swobody wynika z faktu, úze w obszarze hipotezy H

1

wyst þepuje k nieznanych parametrów z jednym ograniczeniem P

k

i=1

p

_i

= 1. Tak wi þec zbiór krytyczny b þedzie miał posta´c:

C = {X : D (x, e) > k}

gdzie k musi spełnia´c warunek P ¡

χ

²_k_−1−p

> k ¢

= α

W praktyce stosuje si þe przybliúzon þ a posta´c odchylenia rozkładu

¹

, zwan þ a statystyk þ a χ

²

Pearsona.

Z rozwini þecia Taylora funkcji log (1 + x) otrzymamy przybliúzon þ a równo´s´c dla małych x

log (1 + x) ≈ x − x

²

2 Tak wi þec zauwaúzywszy, úze

x

i

e

_i

= 1 + x

i

− e

ⁱ

e

_i

def

= 1 + δ

i

e

_i

1

chyba z powodu niedogodno´sci obliczania logarytmów

(4)

oraz, úze dla duúzych n wyraúzenie δ

i

= x

i

− e

ⁱ

ma małe warto´sci

²

otrzymamy

D (x, e) = 2 Ã

_k

X

i=1

x

i

log µ x

i

e

_i

¶!

=≈ 2 Ã

_k

X

i=1

x

i

log µ

1 + δ

i

e

_i

¶!

≈

≈ 2 Ã

_k

X

i=1

(δ

_i

+ e

_i

) Ã δ

_i

e

i

− 1 2

µ δ

_i

e

i

¶

2

!!

= 2 Ã

_k

X

i=1

1 2

δ

²_i

e

i

− 1

2 δ

³_i

e

²_i

+ δ

_i

!

=

= X

k i=1

δ

²_i

e

i

−

X

k i=1

δ

³_i

e

²_i

+ 2

X

k i=1

δ

i

≈ X

k i=1

δ

²_i

e

i

+ 2 X

k i=1

(x

i

− e) = X

k i=1

δ

²_i

e

i

+ 2 (n − n) =

= X

k i=1

(x

_i

− e

i

)

²

e

i

Statystyka χ

²

Pearsona wyraúza si þe wzorem

χ

²

= X

k i=1

(x

i

− e

ⁱ

)

²

e

_i

i ma on w przybliúzeniu, dla duúzych n rozkład χ

²

z k − 1 − p stopniami swobody

³

Wzór Pearsona moúze mie´c teúz inn þ a interpretacj þe

χ

²

= X

k

i=1

(x

_i

− e

i

)

²

e

i

= X

k i=1

e

_i

µ x

_i

− e

i

e

i

¶

2

= n X

k i=1

p

_i

µ x

_i

− e

i

e

i

¶

2

Tak wi þec χ

²

/n jest oczekiwanym kwadratowym bł þedem wzgl þednym liczno´sci obserwowanych x

i

wzgl þedem oczekiwanych e

i

.

Co wi þecej, asymptotycznie, gdy prawdziwa jest hipoteza zerowa, wielko´sci

x√i−eeii

s þ a w przybliúzeniu niezaleúzne i maj þ a rozkład normalny N (0, 1)

⁴

. Jeúzeli wi þec w sumie χ

²

wyst þ api þ a składniki wi þeksze od 1.96

²

= 3. 85 lub jeszcze bardziej - wi þeksze od 2.58

²

= 6.66

⁵

to te wyniki s þ a najbardziej odpowiedzialne za niez- godno´s´c z hipotez þ a zerow þ a. Pozwala to na bardziej szczegółow þ a interpretacj þe otrzymanych wyników.

Przykład 1.1 We´zmy dane Mendla, o których była mowa na pocz þ atku rozdziału o testowaniu hipotez

typ liczba prawdopodobie´ nstwo oczekiwana liczba

groszku obserwacji teoretyczne ziaren

gładki úzółty 315 9/16 312.75

gładki zielony 108 3/16 104.25

pomarszczony úzółty 102 3/16 104.25

pomarszczony zielony 31 1/16 34.75

W tej tablicy mamy liczno´sci obserwowane w drugiej kolumnie i oczekiwane,

zgodne z modelem genetycznym Hardy’ego-Weinberga w czwartej. Zauwaúzmy,

(5)

úze liczno´sci oczekiwane s þ a wi þ eksze od 5 co pozwala na posłuúzenie si þ e przybliúze- niem Pearsona. Policzymy jednak dla porównania odchylenie i statystyk þ e χ

²

Pearsona:

D (x, e) = 2 µ

315 log µ 315

312.75 ¶

+ 108 log µ 108

104.25 ¶

+ 102 log µ 102

104.25 ¶

+ 31 log µ 31

34.75 ¶¶

=

= 0.6184 Podobnie,

χ

²

= (315 − 312.75)

²

312.75 + (108 − 104.25)

²

104.25 + (102 − 104.25)

²

104.25 + (31 − 34.75)

²

34.75 =

= 0.01619 + 0.1349 + 0.0486 + 0.4047 = 0.6043

Czy moúzemy odrzuci´c hipotez þ e o zgodno´sci z modelem Hardy’ego-Weinberga?

Obliczmy poziom krytyczny dla naszych danych:

P ¡

χ

²₄₋₁₋₀

> 0.6184 ¢

< P ¡

χ

²₃

> 0.584 ¢

= 0.9, P ¡

χ

²₃

> 0.6184 ¢

> P ¡

χ

²₃

> 6.251 ¢

= 0.1

Jest on zawarty mi þ edzy 0.9 a 0.1

⁶

wi þ ec zbyt ryzykowne byłoby odrzucenie hipotezy zerowej. Jak wida´c, úzaden ze składników w statystyce Pearsona nie jest wi þ ekszy od 3.85 co wskazuje, úze úzaden z wyników nie groziłby zgodno´sci obserwacji z hipotez þ a Hardy’ego-Weinberga. ¥

6

dokładnie, 0.892