1 Wykład 5

(1)

1 Wykład 5

Przykład 1.1 W ”Gazecie Wyborczej” z 23.10 1999 pojawiły si þ e wyniki son- daúzu na temat ”Czy urlop macierzy´ nski powinien zosta´c wydłuúzony?”

Zapytano 1000 Polaków w wieku powyúzej 15 lat. 73% respondentów odpowiedzi- ało TAK, 11% NIE i 16% nie miało zdania w tej sprawie. W komentarzu gazety napisano, úze ”...3 /4 Polaków jest za...”

Czy gazeta miała prawo tak napisa´c?

Jaki model statystyczny kryje si þ e za tym stwierdzeniem? Wektor obserwacji X ma 1000 składowych x 1 , x 2 , . . . , x 1000 , z których kaúzda odpowiada wypowiedzi jednego z respondentów. Przyporz þ adkujmy odpowiedzi TAK liczb þ e 1, pozostałym odpowiedziom liczb þ e 0. Odpowiedzi x 1 , x 2 , . . . , x 1000 s þ a prób þ a prost þ a o rozkładzie, P (X = 1) = θ. W ”Gazecie” napisano wi þ ec, úze θ = 0.75. Wyniki sondaúzu oznaczaj þ a, úze

X = 1

1000 (x 1 + x 2 + . . . + x 1000 ) = 0.73

Zbudujmy przedział ufno´sci na poziomie ufno´sci 0.95 dla warto´sci θ.

Skorzystamy tu z Centralnego Twierdzenia Granicznego, które w tym przy- padku oznacza, úze ¹

X − EX Var ¡

X ¢ ' Z

gdzie Z ma standardowy rozkład normalny. Liczba 1000 jest dostatecznie duúza, aby moúzna było przyj þ a´c przybliúzenie rozkładem normalnym. Posłuúzymy si þ e tu

1

symbol ' oznacza asymptotyczn þa równo´s´c wg prawdopodobienstwa

51

(2)

rozwi þ azaniem z poprzedniego wykładu. St þ ad mamy, úze ²

0.95 ≤ P Ã

−1.96 ≤ X − EX Var ¡

X ¢ ≤ 1.96

!

=

P



−1.96 ≤ q X − θ

θ(1 −θ) 1000

≤ 1.96



 ≤ P



−1.96 ≤ q X − θ

1 4000

≤ 1.96



 =

P µ

X − 1.96

√ 4000 ≤ θ ≤ X + 1.96

√ 4000

¶

= P (0.73 − 0.031 ≤ θ ≤ 0.73 + 0.031) Przedział ufno´sci dla prawdopodobie´ nstwa odpowiedzi TAK w populacji ma posta´c

[0.699, 0.761]

zawiera wi þ ec wielko´s´c 0.75 podan þ a przez ”Gazet þ e”. ¥

W powyúzszym przykładzie wyznaczyli´smy dokładno´sć sondaúzu, równ þ a 0.031 = 3.1% nie znaj þ ac parametru θ. Ogólne standardy bada´ n opinii publicznej za- kładaj þ a, úze naleúzy dobrać tak duúz þ a prób þe, aby na poziomie 0.95 dokładno´sć przedziału ufno´sci nie przekraczała 3%.

Aby wyznaczyć na poziomie γ z dokładno´sci þ a d 0 przedział ufno´sci dla θ w próbie prostej z rozkładu dwupunktowego z prawdopodobie´ nstwem wyniku 1 równym θ wystarczy rozwi þ azać nierówno´sć

√ η

4n ≤ d 0 , η = Φ ⁻¹ µ 1 + γ

2 ¶

gdzie Φ jest dystrybuant þ a standardowego rozkładu normalnego.

Daje to rozwi þ azanie

n ≥ µ η

2d ₀

¶ 2

W przypadku d 0 = 0.03, γ = 0.95 n ≥ 1067.1.

Szukaj þ ac przedziału ufno´sci korzystali´smy z pewnego ”chwytu” matematy- cznego: szukali´smy takiej funkcji zmiennej losowej o nieznanym parametrze θ, úze jej rozkład nie zaleúzy od tego parametru. Nie zawsze jest jednak tak prosto, jak w dot þ ad rozwaúzanych przypadkach.

Przykład 1.2 Obserwujemy odst þ ep mi þ edzy kolejnymi przejazdami samochodów przez ustalony punkt. Chcemy dowiedzie´c si þ e jaki jest oczekiwany czas mi þ edzy kolejnymi przyjazdami. Przypu´s´cmy, úze obserwacja 10 kolejnych samochodów dała ´sredni odst þ ep równy 15 sekund.

Wektor obserwacji X ma 10 składowych x 1 , x 2 , . . . , x 10 . Zakładamy, úze jest to próba prosta z rozkładu czasu oczekiwania na zdarzenie (”Przez wybrany punkt przejedzie samochód”). W rachunku prawdopodobienstwa dowodzi si þ e, úze przy bardzo ogólnych załoúzeniach taka zmienna losowa ma rozkład wykładniczy, którego g þ esto´s´c ma posta´c:

f (x) = 1 µ exp

µ

− x µ

¶

, x ∈ (0, ∞)

2

θ (1 − θ) ≤

¹₄

dla 0 ≤ θ ≤ 1

52

(3)

gdzie µ jest ´srednim czasem oczekiwania na zaj´scie zdarzenia. Parametr µ jest nieznanym parametrem. B þ edziemy szuka´c przedziału ufno´sci dla tego parametru na poziomie γ = 0.95

Zainteresujemy si þ e zmienn þ a losow þ a S = ²ⁿ _µ X. Znajdziemy dystrybuant þ e F S (s) tej zmiennej losowej.

F _S (s) = P (S < s) = P Ã _n

X

i=1

X _i < sµ 2

!

= P ³

T _n < sµ 2

´ = F _T

_n

³ sµ 2

´

gdzie

T _n ^df = X n i=1

X _i .

Skorzystamy tu z faktu, úze gdy X i s þ a niezaleúzne o rozkładzie wykładniczym ze

´sredni þ a µ to T _n ma rozkład gamma o g þ estosci µ ⁻ⁿ t ⁿ ⁻¹ exp ³

− _µ ^t ´ (n − 1)! . G þ esto´s´c zmiennej losowej S b þ edzie równa

f _S (s) = f _T

_n

³sµ 2

´ µ

2 = µ ⁻ⁿ ¡ _sµ

2 ¢ n −1

exp ¡

− ^s ₂ ¢ (n − 1)!

µ

2 = 2 ⁻ⁿ s ⁿ ⁻¹ exp ¡

− ^s ₂ ¢ (n − 1)!

i nie zaleúzy od µ . Rozkład ten nazywa si þ e rozkładem χ ² z 2n stopniami swobody.

Z tablic rozkładu χ ² z 2n stopniami swobody wybieramy ³ tak þ a par þ e liczb ξ i η, úze P ¡

ξ ≤ χ ² ≤ η ¢

≥ γ. Wtedy γ ≤ P

µ ξ ≤ 2n

µ X ≤ η

¶

= P µ 2n

η X ≤ µ ≤ 2n ξ X

¶

W naszym przykładzie n = 10, X = 15, γ = 0.95, ξ = 9.591, η = 34.170. Ko´ nce przedziału ufno´sci b þ ed þ a równe

a = 2 ∗ 10 ∗ 15

34.170 ' 8.7, b = 2 ∗ 10 ∗ 15 9.591 ' 31.3

Naleúzy zwróci´c uwag þ e, úze ´srednia nie jest ´srodkiem tego przedziału i na to, úze jest on bardzo szeroki. ¥

Rozkład χ ² wi þ aúze si þe z rozkładem normalnym. Mamy układ współrz þed- nych kartezja´nski i losowo wybieramy punkt na płaszczy´znie. Gdy mówimy losowo to powinni´smy opisa´c mechanizm wyboru współrz þednych (x 1 , x 2 ) tego punktu. Niech X i b þed þ a niezaleúzne i o standardowym rozkładzie normalnym.

Kwadrat długo´sci wektora, zaczepionego w pocz þ atku układu współrz þednych i o ko´ ncu w losowym punkcie (x 1 , x 2 ) jest zmienn þ a losow þ a, której rozkład nazywa si þe rozkładem χ ² z dwoma stopniami swobody ⁴ . Uogólniaj þ ac, we´zmy wek- tor zaczepiony w pocz þ atku układu współrz þednych o ko´ncu w losowym punkcie

3

rozkład χ

²

nie jest symetryczny

4

nazwa pochodzi od liczby współrz þednych tego wektora

53

(4)

(x 1 , x 2 , . . . , x n ), którego współrz þedne s þ a niezaleúzne i maj þ a standardowy rozkład normalny. Rozkład kwadratu długo´sci takiego wektora nazywa si þe rozkładem χ ² z n stopniami swobody. Zgodnie z Centralnym Twierdzeniem Granicznym rozkład χ ² jako suma niezaleúznych zmiennych losowych o tym samym rozkładzie po standaryzacji zbiega do rozkładu normalnego o ´sredniej 0 i odchyleniu 1 gdy liczba stopni swobody zbiega do niesko´ nczono´sci. Zbieúzno´s´c ta jest jednak bardzo wolna.

1.1 Testowanie hipotez

To, o czym dot þ ad mówili´smy opierało si þe na nast þepuj þ acym schemacie:

Bazujemy na zebranych informacjach. Na ich podstawie zmierzamy do osza- cowania nieznanych parametrów, które precyzuj þ a opis rzeczywisto´sci (model).

Oszacowanie to było albo punktowe albo przedziałowe. Moúznaby powiedzie´c, úze odpowiadali´smy na pytanie, które zaczynało si þe od słów: ”Ile ...”.

Nie zawsze jeste´smy zainteresowani odpowiedzi þ a na tak szczegółowe pyta- nia. Czasami chcemy dowiedzie´c si þe ”Czy prawd þ a jest, úze...”. Oto rzeczywiste przykłady:

Przykład 1.3 Podejrzewa si þ e, úze ludzie s þ a zdolni do odwleczenia momentu ich

´smierci na czas po jakim´s waúznym wydarzeniu. Zbadano 1919 osób o nazwiskach úzydowskich. W tygodniu poprzedzaj þ acym ´ Swi þ eto Paschy zmarły 922 osoby, po Swi þ ´ ecie zmarło 997 osób. Czy mimo tego moúzna twierdzi´c, úze ´smier´c nast þ epuje w´sród ú Zydów tak samo przed ´ Swi þ etem Paschy jak i po tym ´swi þ ecie?

Przykład 1.4 (badania Mendla) Mendel skrzyúzował 556 gładkich, úzółtych ziaren grochu z pomarszczonymi, zielonymi ziarnami. Mendel interesował si þ e, w jaki sposób te dwie cechy (kolor i gładko´s´c ziarna) dziedzicz þ a si þ e w nast þ epnym pokole- niu. Wyniki moúzna umie´sci´c w tabeli ⁵ :

typ liczba prawdopodobie´ nstwo oczekiwana liczba

obserwacji teoretyczne ziaren

gładki úzółty 315 9/16 312.75

gładki zielony 108 3/16 104.25

pomarszczony úzółty 102 3/16 104.25

pomarszczony zielony 31 1/16 34.75

Czy te badania potwierdzaja prawa dziedziczenia.?

Gdy oczekujemy odpowiedzi TAK lub NIE to mamy do czynienia z zagad- nieniem, nazywanym w statystyce testowaniem hipotez.

W nauce takie pytania formułowane s þ a w postaci alternatywy dwóch hipotez:

hipotezy zerowej i hipotezy konkurencyjnej. Zasada konserwatyzmu, przyj þeta w nauce mówi, úze star þ a teori þe b þedziemy odrzuca´c wtedy, gdy mamy duúzo fak- tów, ´swiadcz þ acych przeciwko niej. Tradycyjnie umieszczamy hipotez þe konser- watywn þ a jako hipotez þe zerow þ a i hipotez þe now þ a, jako hipotez þe konkurencyjn þ a.

Lekarz, który chce sprawdzi´c nowy lek, jako hipotez þe konkurencyjn þ a umieszcza zdanie: ”Nowy lek jest lepszy od starego” a jako hipotez þe zerow þ a zdanie: ”Stary lek jest lepszy od nowego”

5

prawdopodobie´ nstwo teoretyczne wyliczone na podstawie prawa Hardy’ego-Weinberga (Lista 2)

54

1 Wykład 5

1 Wykład 5

Przykład 1.1 W ”Gazecie Wyborczej” z 23.10 1999 pojawiły si þ e wyniki son- daúzu na temat ”Czy urlop macierzy´ nski powinien zosta´c wydłuúzony?”

Zapytano 1000 Polaków w wieku powyúzej 15 lat. 73% respondentów odpowiedzi- ało TAK, 11% NIE i 16% nie miało zdania w tej sprawie. W komentarzu gazety napisano, úze ”...3 /4 Polaków jest za...”

Czy gazeta miała prawo tak napisa´c?

X = 1

1000 (x 1 + x 2 + . . . + x 1000 ) = 0.73

Zbudujmy przedział ufno´sci na poziomie ufno´sci 0.95 dla warto´sci θ.

Skorzystamy tu z Centralnego Twierdzenia Granicznego, które w tym przy- padku oznacza, úze 1

X − EX Var ¡

X ¢ ' Z

gdzie Z ma standardowy rozkład normalny. Liczba 1000 jest dostatecznie duúza, aby moúzna było przyj þ a´c przybliúzenie rozkładem normalnym. Posłuúzymy si þ e tu

symbol ' oznacza asymptotyczn þa równo´s´c wg prawdopodobienstwa

51

rozwi þ azaniem z poprzedniego wykładu. St þ ad mamy, úze 2

0.95 ≤ P Ã

−1.96 ≤ X − EX Var ¡

X ¢ ≤ 1.96

!

=

P



−1.96 ≤ q X − θ

θ(1 −θ) 1000

≤ 1.96



 ≤ P



−1.96 ≤ q X − θ

1 4000

≤ 1.96



 =

P µ

X − 1.96

√ 4000 ≤ θ ≤ X + 1.96

√ 4000

¶

= P (0.73 − 0.031 ≤ θ ≤ 0.73 + 0.031) Przedział ufno´sci dla prawdopodobie´ nstwa odpowiedzi TAK w populacji ma posta´c

[0.699, 0.761]

zawiera wi þ ec wielko´s´c 0.75 podan þ a przez ”Gazet þ e”. ¥

Aby wyznaczyć na poziomie γ z dokładno´sci þ a d 0 przedział ufno´sci dla θ w próbie prostej z rozkładu dwupunktowego z prawdopodobie´ nstwem wyniku 1 równym θ wystarczy rozwi þ azać nierówno´sć

√ η

4n ≤ d 0 , η = Φ −1 µ 1 + γ

2

¶

gdzie Φ jest dystrybuant þ a standardowego rozkładu normalnego.

Daje to rozwi þ azanie

n ≥ µ η

2d 0

¶ 2

W przypadku d 0 = 0.03, γ = 0.95 n ≥ 1067.1.

Szukaj þ ac przedziału ufno´sci korzystali´smy z pewnego ”chwytu” matematy- cznego: szukali´smy takiej funkcji zmiennej losowej o nieznanym parametrze θ, úze jej rozkład nie zaleúzy od tego parametru. Nie zawsze jest jednak tak prosto, jak w dot þ ad rozwaúzanych przypadkach.

Przykład 1.2 Obserwujemy odst þ ep mi þ edzy kolejnymi przejazdami samochodów przez ustalony punkt. Chcemy dowiedzie´c si þ e jaki jest oczekiwany czas mi þ edzy kolejnymi przyjazdami. Przypu´s´cmy, úze obserwacja 10 kolejnych samochodów dała ´sredni odst þ ep równy 15 sekund.

f (x) = 1 µ exp

µ

− x µ

¶

, x ∈ (0, ∞)

θ (1 − θ) ≤

dla 0 ≤ θ ≤ 1

52

gdzie µ jest ´srednim czasem oczekiwania na zaj´scie zdarzenia. Parametr µ jest nieznanym parametrem. B þ edziemy szuka´c przedziału ufno´sci dla tego parametru na poziomie γ = 0.95

Zainteresujemy si þ e zmienn þ a losow þ a S = 2n µ X. Znajdziemy dystrybuant þ e F S (s) tej zmiennej losowej.

F S (s) = P (S < s) = P Ã n

X

i=1

X i < sµ 2

!

= P ³

T n < sµ 2

´ = F T

³ sµ 2

´

gdzie

T n df = X n i=1

X i .

Skorzystamy tu z faktu, úze gdy X i s þ a niezaleúzne o rozkładzie wykładniczym ze

´sredni þ a µ to T n ma rozkład gamma o g þ estosci µ −n t n −1 exp ³

− µ t ´ (n − 1)! . G þ esto´s´c zmiennej losowej S b þ edzie równa

Skorzystamy tu z Centralnego Twierdzenia Granicznego, które w tym przy- padku oznacza, úze ¹

rozwi þ azaniem z poprzedniego wykładu. St þ ad mamy, úze ²

4n ≤ d 0 , η = Φ ⁻¹ µ 1 + γ

2d ₀

Zainteresujemy si þ e zmienn þ a losow þ a S = ²ⁿ _µ X. Znajdziemy dystrybuant þ e F S (s) tej zmiennej losowej.

F _S (s) = P (S < s) = P Ã _n

X _i < sµ 2

T _n < sµ 2

´ = F _T

T _n ^df = X n i=1

X _i .

´sredni þ a µ to T _n ma rozkład gamma o g þ estosci µ ⁻ⁿ t ⁿ ⁻¹ exp ³

− _µ ^t ´ (n − 1)! . G þ esto´s´c zmiennej losowej S b þ edzie równa

f _S (s) = f _T

2 = µ ⁻ⁿ ¡ _sµ

− ^s ₂ ¢ (n − 1)!

2 = 2 ⁻ⁿ s ⁿ ⁻¹ exp ¡

− ^s ₂ ¢ (n − 1)!

i nie zaleúzy od µ . Rozkład ten nazywa si þ e rozkładem χ ² z 2n stopniami swobody.

Z tablic rozkładu χ ² z 2n stopniami swobody wybieramy ³ tak þ a par þ e liczb ξ i η, úze P ¡

ξ ≤ χ ² ≤ η ¢