1 Wykład 5
Przykład 1.1 W ”Gazecie Wyborczej” z 23.10 1999 pojawiły si þ e wyniki son- daúzu na temat ”Czy urlop macierzy´ nski powinien zosta´c wydłuúzony?”
Zapytano 1000 Polaków w wieku powyúzej 15 lat. 73% respondentów odpowiedzi- ało TAK, 11% NIE i 16% nie miało zdania w tej sprawie. W komentarzu gazety napisano, úze ”...3 /4 Polaków jest za...”
Czy gazeta miała prawo tak napisa´c?
Jaki model statystyczny kryje si þ e za tym stwierdzeniem? Wektor obserwacji X ma 1000 składowych x 1 , x 2 , . . . , x 1000 , z których kaúzda odpowiada wypowiedzi jednego z respondentów. Przyporz þ adkujmy odpowiedzi TAK liczb þ e 1, pozostałym odpowiedziom liczb þ e 0. Odpowiedzi x 1 , x 2 , . . . , x 1000 s þ a prób þ a prost þ a o rozkładzie, P (X = 1) = θ. W ”Gazecie” napisano wi þ ec, úze θ = 0.75. Wyniki sondaúzu oznaczaj þ a, úze
X = 1
1000 (x 1 + x 2 + . . . + x 1000 ) = 0.73
Zbudujmy przedział ufno´sci na poziomie ufno´sci 0.95 dla warto´sci θ.
Skorzystamy tu z Centralnego Twierdzenia Granicznego, które w tym przy- padku oznacza, úze 1
X − EX Var ¡
X ¢ ' Z
gdzie Z ma standardowy rozkład normalny. Liczba 1000 jest dostatecznie duúza, aby moúzna było przyj þ a´c przybliúzenie rozkładem normalnym. Posłuúzymy si þ e tu
1
symbol ' oznacza asymptotyczn þa równo´s´c wg prawdopodobienstwa
51
rozwi þ azaniem z poprzedniego wykładu. St þ ad mamy, úze 2
0.95 ≤ P Ã
−1.96 ≤ X − EX Var ¡
X ¢ ≤ 1.96
!
=
P
−1.96 ≤ q X − θ
θ(1 −θ) 1000
≤ 1.96
≤ P
−1.96 ≤ q X − θ
1 4000
≤ 1.96
=
P µ
X − 1.96
√ 4000 ≤ θ ≤ X + 1.96
√ 4000
¶
= P (0.73 − 0.031 ≤ θ ≤ 0.73 + 0.031) Przedział ufno´sci dla prawdopodobie´ nstwa odpowiedzi TAK w populacji ma posta´c
[0.699, 0.761]
zawiera wi þ ec wielko´s´c 0.75 podan þ a przez ”Gazet þ e”. ¥
W powyúzszym przykładzie wyznaczyli´smy dokładno´s´c sondaúzu, równ þ a 0.031 = 3.1% nie znaj þ ac parametru θ. Ogólne standardy bada´ n opinii publicznej za- kładaj þ a, úze naleúzy dobra´c tak duúz þ a prób þe, aby na poziomie 0.95 dokładno´s´c przedziału ufno´sci nie przekraczała 3%.
Aby wyznaczy´c na poziomie γ z dokładno´sci þ a d 0 przedział ufno´sci dla θ w próbie prostej z rozkładu dwupunktowego z prawdopodobie´ nstwem wyniku 1 równym θ wystarczy rozwi þ aza´c nierówno´s´c
√ η
4n ≤ d 0 , η = Φ −1 µ 1 + γ
2
¶
gdzie Φ jest dystrybuant þ a standardowego rozkładu normalnego.
Daje to rozwi þ azanie
n ≥ µ η
2d 0
¶ 2
W przypadku d 0 = 0.03, γ = 0.95 n ≥ 1067.1.
Szukaj þ ac przedziału ufno´sci korzystali´smy z pewnego ”chwytu” matematy- cznego: szukali´smy takiej funkcji zmiennej losowej o nieznanym parametrze θ, úze jej rozkład nie zaleúzy od tego parametru. Nie zawsze jest jednak tak prosto, jak w dot þ ad rozwaúzanych przypadkach.
Przykład 1.2 Obserwujemy odst þ ep mi þ edzy kolejnymi przejazdami samochodów przez ustalony punkt. Chcemy dowiedzie´c si þ e jaki jest oczekiwany czas mi þ edzy kolejnymi przyjazdami. Przypu´s´cmy, úze obserwacja 10 kolejnych samochodów dała ´sredni odst þ ep równy 15 sekund.
Wektor obserwacji X ma 10 składowych x 1 , x 2 , . . . , x 10 . Zakładamy, úze jest to próba prosta z rozkładu czasu oczekiwania na zdarzenie (”Przez wybrany punkt przejedzie samochód”). W rachunku prawdopodobienstwa dowodzi si þ e, úze przy bardzo ogólnych załoúzeniach taka zmienna losowa ma rozkład wykładniczy, którego g þ esto´s´c ma posta´c:
f (x) = 1 µ exp
µ
− x µ
¶
, x ∈ (0, ∞)
2
θ (1 − θ) ≤
14dla 0 ≤ θ ≤ 1
52
gdzie µ jest ´srednim czasem oczekiwania na zaj´scie zdarzenia. Parametr µ jest nieznanym parametrem. B þ edziemy szuka´c przedziału ufno´sci dla tego parametru na poziomie γ = 0.95
Zainteresujemy si þ e zmienn þ a losow þ a S = 2n µ X. Znajdziemy dystrybuant þ e F S (s) tej zmiennej losowej.
F S (s) = P (S < s) = P Ã n
X
i=1
X i < sµ 2
!
= P ³
T n < sµ 2
´ = F T
n³ sµ 2
´
gdzie
T n df = X n i=1
X i .
Skorzystamy tu z faktu, úze gdy X i s þ a niezaleúzne o rozkładzie wykładniczym ze
´sredni þ a µ to T n ma rozkład gamma o g þ estosci µ −n t n −1 exp ³
− µ t ´ (n − 1)! . G þ esto´s´c zmiennej losowej S b þ edzie równa
f S (s) = f T
n³sµ 2
´ µ
2 = µ −n ¡ sµ
2
¢ n −1
exp ¡
− s 2 ¢ (n − 1)!
µ
2 = 2 −n s n −1 exp ¡
− s 2 ¢ (n − 1)!
i nie zaleúzy od µ . Rozkład ten nazywa si þ e rozkładem χ 2 z 2n stopniami swobody.
Z tablic rozkładu χ 2 z 2n stopniami swobody wybieramy 3 tak þ a par þ e liczb ξ i η, úze P ¡
ξ ≤ χ 2 ≤ η ¢
≥ γ. Wtedy γ ≤ P
µ ξ ≤ 2n
µ X ≤ η
¶
= P µ 2n
η X ≤ µ ≤ 2n ξ X
¶
W naszym przykładzie n = 10, X = 15, γ = 0.95, ξ = 9.591, η = 34.170. Ko´ nce przedziału ufno´sci b þ ed þ a równe
a = 2 ∗ 10 ∗ 15
34.170 ' 8.7, b = 2 ∗ 10 ∗ 15 9.591 ' 31.3
Naleúzy zwróci´c uwag þ e, úze ´srednia nie jest ´srodkiem tego przedziału i na to, úze jest on bardzo szeroki. ¥
Rozkład χ 2 wi þ aúze si þe z rozkładem normalnym. Mamy układ współrz þed- nych kartezja´nski i losowo wybieramy punkt na płaszczy´znie. Gdy mówimy losowo to powinni´smy opisa´c mechanizm wyboru współrz þednych (x 1 , x 2 ) tego punktu. Niech X i b þed þ a niezaleúzne i o standardowym rozkładzie normalnym.
Kwadrat długo´sci wektora, zaczepionego w pocz þ atku układu współrz þednych i o ko´ ncu w losowym punkcie (x 1 , x 2 ) jest zmienn þ a losow þ a, której rozkład nazywa si þe rozkładem χ 2 z dwoma stopniami swobody 4 . Uogólniaj þ ac, we´zmy wek- tor zaczepiony w pocz þ atku układu współrz þednych o ko´ncu w losowym punkcie
3
rozkład χ
2nie jest symetryczny
4
nazwa pochodzi od liczby współrz þednych tego wektora
53
(x 1 , x 2 , . . . , x n ), którego współrz þedne s þ a niezaleúzne i maj þ a standardowy rozkład normalny. Rozkład kwadratu długo´sci takiego wektora nazywa si þe rozkładem χ 2 z n stopniami swobody. Zgodnie z Centralnym Twierdzeniem Granicznym rozkład χ 2 jako suma niezaleúznych zmiennych losowych o tym samym rozkładzie po standaryzacji zbiega do rozkładu normalnego o ´sredniej 0 i odchyleniu 1 gdy liczba stopni swobody zbiega do niesko´ nczono´sci. Zbieúzno´s´c ta jest jednak bardzo wolna.
1.1 Testowanie hipotez
To, o czym dot þ ad mówili´smy opierało si þe na nast þepuj þ acym schemacie:
Bazujemy na zebranych informacjach. Na ich podstawie zmierzamy do osza- cowania nieznanych parametrów, które precyzuj þ a opis rzeczywisto´sci (model).
Oszacowanie to było albo punktowe albo przedziałowe. Moúznaby powiedzie´c, úze odpowiadali´smy na pytanie, które zaczynało si þe od słów: ”Ile ...”.
Nie zawsze jeste´smy zainteresowani odpowiedzi þ a na tak szczegółowe pyta- nia. Czasami chcemy dowiedzie´c si þe ”Czy prawd þ a jest, úze...”. Oto rzeczywiste przykłady:
Przykład 1.3 Podejrzewa si þ e, úze ludzie s þ a zdolni do odwleczenia momentu ich
´smierci na czas po jakim´s waúznym wydarzeniu. Zbadano 1919 osób o nazwiskach úzydowskich. W tygodniu poprzedzaj þ acym ´ Swi þ eto Paschy zmarły 922 osoby, po Swi þ ´ ecie zmarło 997 osób. Czy mimo tego moúzna twierdzi´c, úze ´smier´c nast þ epuje w´sród ú Zydów tak samo przed ´ Swi þ etem Paschy jak i po tym ´swi þ ecie?
Przykład 1.4 (badania Mendla) Mendel skrzyúzował 556 gładkich, úzółtych ziaren grochu z pomarszczonymi, zielonymi ziarnami. Mendel interesował si þ e, w jaki sposób te dwie cechy (kolor i gładko´s´c ziarna) dziedzicz þ a si þ e w nast þ epnym pokole- niu. Wyniki moúzna umie´sci´c w tabeli 5 :
typ liczba prawdopodobie´ nstwo oczekiwana liczba
obserwacji teoretyczne ziaren
gładki úzółty 315 9/16 312.75
gładki zielony 108 3/16 104.25
pomarszczony úzółty 102 3/16 104.25
pomarszczony zielony 31 1/16 34.75
Czy te badania potwierdzaja prawa dziedziczenia.?
Gdy oczekujemy odpowiedzi TAK lub NIE to mamy do czynienia z zagad- nieniem, nazywanym w statystyce testowaniem hipotez.
W nauce takie pytania formułowane s þ a w postaci alternatywy dwóch hipotez:
hipotezy zerowej i hipotezy konkurencyjnej. Zasada konserwatyzmu, przyj þeta w nauce mówi, úze star þ a teori þe b þedziemy odrzuca´c wtedy, gdy mamy duúzo fak- tów, ´swiadcz þ acych przeciwko niej. Tradycyjnie umieszczamy hipotez þe konser- watywn þ a jako hipotez þe zerow þ a i hipotez þe now þ a, jako hipotez þe konkurencyjn þ a.
Lekarz, który chce sprawdzi´c nowy lek, jako hipotez þe konkurencyjn þ a umieszcza zdanie: ”Nowy lek jest lepszy od starego” a jako hipotez þe zerow þ a zdanie: ”Stary lek jest lepszy od nowego”
5