• Nie Znaleziono Wyników

1 n n X i=1 Xi ma rozkªad normalny N(m,√σn)

N/A
N/A
Protected

Academic year: 2021

Share "1 n n X i=1 Xi ma rozkªad normalny N(m,√σn)"

Copied!
15
0
0

Pełen tekst

(1)

Twierdzenie 1. Je»eli X1, X2, ..., Xnjest ci¡giem niezale»nych zmiennych losowych o jednakowym rozkªadzie normalnym N(m, σ), to zmienna losowa:

X := 1 n

n

X

i=1

Xi

ma rozkªad normalny N(m,σn).

Przykªad: 1. Wiadomo, »e wzrost (w cm) m¦»czyzn z rocznika 1989 ma rozkªad normalny N(177; 5). Wylosowano 16 kart zdrowia osób z z tego rocznika. Jakie jest prawdopodobie«stwo, »e ±rednia wzrostu obliczona na podstawie tych kart b¦dzie zawiera¢ si¦ w przedziale (176, 178)? Znamy tylko odchylenie standard- owe σ = 5 i chcemy oszacowa¢ nieznan¡ ±redni¡. Losowa próba 16-tu kart daªa

±redni¡ X = 177. Zbudowa¢ symetryczny wzgl¦dem X przedziaª, w którym, z prawdopodobie«stwem 0, 95, zawiera si¦ nieznana ±rednia ogóªu m¦»czyzn z rocznika 1989.

• Populacja generalna - zbiór dowolnych obiektów nieidentycznych ze wzgl¦du na badan¡ cech¦ X (zmienn¡ losowa X przyporz¡dkowuje losowemu obiek- towi warto±¢ cechy).

• Próba prosta - losowo wybrany podzbiór populacji generalnej dost¦pny bezpo±redniej obserwacji ze wzgl¦du na badan¡ cech¦ (ci¡g niezale»nych X1, X2, ..., Xn zmiennych losowych o tym samym rozkªadzie co populacja generalna).

• Statystyka - dowolna funkcja próby prostej Z = f(X1, X2, ..., Xn).

• Estymator - statystyka bθn sªu»¡ca do oszacowania warto±ci parametru θ rozkªadu populacji generalnej (zmiennej losowej).

• Estymator nazywamy zgodnym (zbie»nym stochastycznie) gdy dla dowol- nego ε > 0 zachodzi:

n→∞lim P (|bθn− θ| < ε) = 1.

• Estymator nazywamy nieobci¡»onym gdy E(bθn) = θ a asymptotycznie nieobci¡»onym gdy

n→∞lim E(bθn) − θ = 0 tzn. obci¡»enie

E(bθn) − θ d¡»y do 0 wraz ze wzrostem liczebno±ci próby.

(2)

Najwa»niejsze estymatory

‘rednia z próby

X := 1 n

n

X

i=1

Xi

jest zgodnym i nieobci¡»onym estymatorem warto±ci oczekiwanej. Wariancja z próby

s2= 1 n

n

X

i=1

(Xi− X)2

jest zgodnym i asymptotycznie nieobci¡»onym estymatorem wariancji.

bs2= 1 n − 1

n

X

i=1

(Xi− X)2 jest zgodnym i nieobci¡»onym estymatorem wariancji.

Rozkªady prawdopodobie«stwa statystyk

Denicja 1. Rozkªad χ2n (chi kwadrat) Pearsona o n stopniach swobody, to rozkªad statystyki:

χ2n= X12+ X22+ ... + Xn2

gdzie X1, X2, ..., Xn s¡ niezale»nymi zmiennymi i jednakowym rozkªadzie nor- malnym N(0, 1).

Denicja 2. Rozkªad t−Studenta o n stopniach swobody, to rozkªad statystyki:

t = tn= X pχ2n/n

gdzie X ma rozkªad normalny N(0, 1) i zmienne X i χ2n s¡ niezale»ne.

Uwaga 1. Rozkªady χ2n i t-Studenta s¡ asymptotycznie normalne. Dokªadniej:

przy n → ∞, p2χ2n → N (√

2n − 1, 1) i tn → N (0, 1).W praktyce dla n ≥ 30 korzystamy z przybli»e« rozkªadem normalnym. Tablice podaj¡ dla danej ilo±ci swobody kwantyle b¡d¹ warto±ci krytyczne.

Przedziaªy ufno±ci dla ±redniej

Na podstawie wyników próby prostej chcemy oszacowa¢ nieznan¡ warto±¢

oczekiwan¡ badanej cechy buduj¡c przedziaª, który pokrywa t¦ warto±¢ z du»ym prawdopodobie«stwem 1 − α nazywanym poziomem ufno±ci.

I model: Populacja generalna ma rozkªad normalny o znanym odchyleniu standardowym σ.

Statystyka

U = X − m σ

√n ma rozkªad N(0, 1).

(3)

P (X − uα· σ

√n < m < X + uα· σ

√n) = 1 − α

gdzie n jest liczebno±ci¡ próby uα jest kwantylem rz¦du 1 −12αrozkªadu N (0, 1)(tzn. P |U| > uα= α).

II model: Populacja generalna ma rozkªad normalny o nieznanym odchyleniu standardowym. Liczebno±¢ próby jest maªa (n ≤ 30).

Statystyka

t = X − m s

n − 1 = X − m sb

√n ma rozkªad t−Studenta o n − 1 stopniach swobody.

P (X − tα· s

√n − 1 < m < X + tα· s

√n − 1) = 1 − α

gdzie tαjest kwantylem rz¦du 1−12αrozkªadu t−Studenta o n−1 stopniach swobody (tzn. P |t| > tα= α).

III model: Populacja generalna ma dowolny rozkªad o sko«czonej ±redniej i wariancji. Próba jest du»a (n > 30)

Statystyka

U = X − m s

√n ma rozkªad N(0, 1).

P (X − uα· s

√n < m < X + uα· s

√n) = 1 − α

gdzie n jest liczebno±ci¡ próby uα jest kwantylem rz¦du 1 −12αrozkªadu N (0, 1)(tzn. P |U| > uα= α).

Szereg rozdzielczy:

Uporz¡dkowanie wyników du»ej próby przez podziaª zakresu zmienno±ci ob- serwowanej cechy na przedziaªy tej samej dªugo±ci, tzw. przedziaªy klasowe, które s¡ lewostronnie domkni¦te. Zamiast dokªadnych pojedynczych wyników podane s¡ ilo±ci wyników, których warto±ci mieszcz¡ si¦ w danym przedziale, tzw. liczebno±ci przedziaªów ni. Estymatory ±redniej i wariancji wyznaczone na podstawie szeregu rozdzielczego:

X := 1 n

k

X

i=1

xini s2= 1 n

k

X

i=1

(xi− X)2ni

(4)

gdzie k jest ilo±ci przedziaªów, xis¡ ±rodkami przedziaªów, n =

k

X

i=1

nijest ª¡czn¡

liczebno±ci¡ próby.

Przykªad: 2. W pewnym do±wiadczeniu farmakologicznym bada si¦ utlenianie tkankowe w¡troby królików. Dokonano 40 pomiarów tego utleniania i otrzymane wyniki przedstawiono w szeregu rozdzielczym (podana jest ilo±¢ tlenu zu»ytego w ci¡gu jednej godziny przez 100 mg wilgotnej tkanki).

ilo±¢ zu»ytego tlenu liczba pomiarów

15 − 25 4

25 − 35 6

35 − 45 12

45 − 55 9

55 − 65 6

65 − 75 3

Przyjmuj¡c wspóªczynnik ufno±ci 0,95 oszacowa¢ metod¡ przedziaªow¡ ±redni¡

ilo±¢ zu»ywanego tlenu.

Przykªad: 3. 10 wylosowanych zgªosze« kandydatek startuj¡cych w konkursie Miss Polonia daªo nast¦puj¡ce wynik wzrostu (w cm):

171, 172, 179, 170, 180, 176, 176, 175, 172, 169.

Przyjmuj¡c wspóªczynnik ufno±ci 0,9 oszacowa¢ ±redni¡ wzrostu wszystkich kandydatek.

Wyznaczanie liczebno±ci próby niezb¦dnej do uzyskania zadanej dokªadno±ci oszacowania ±redniej. Zakªadamy, »e poªowa dªugo±ci przedziaªu, nie mo»e przekroczy¢ warto±ci d.

n > u2ασ2

d2 n > t2αbs2

d2 (n > 1 + t2αs2 d2 )

odpowiednio dla rozkªadu normalnego i t-Studenta. Ile kart zgªosze« nale»y dolosowa¢ w ostatnim przykªadzie by uzyska¢ przedziaª o dªugo±ci 2 cm?

Przedziaªy ufno±ci dla wariancji (i odchylenia standardowego) Dla populacji generalnej o rozkªadzie normalnym N(m, σ) z nieznanymi parametrami szacujemy warto±¢ wariancji na podstawie wyników n-elementowej próby prostej.

I model: Próba maªa (n ≤ 30). Statystyka

χ2= ns2 σ2

(5)

środek liczebność nixi (xi-X)2 (xi-X)2ni

20 4 80 576 2304

30 6 180 196 1176

40 12 480 16 192

50 9 450 36 324

60 6 360 256 1536

70 3 210 676 2028

sumy 40 1760 7560

średnia wariancja kwantyl

44 189 1,96

39,739535 < m < 48,26 11,276627 < s < 17,606

(6)

xi (xi-X)2

171 9

172 4

179 25 średnia wariancja kwantyl

170 16 174 12,8 1,83

180 36

176 4 171,8176 < m < 176,1824

176 4 d = 2,182402

175 1

172 4

169 25

1740 128

(7)

ma rozkªad χ2 Pearsona o n − 1 stopniach swobody. Dla zaªo»onego poziomu ufno±ci 1 − α odczytujemy z tablic rozkªadu χ2 kwantyle c1 i c2 odpowiednio rz¦du 12αi 1 −12α. Wówczas:

Pns2

c2 < σ2< ns2 c1



= 1 − α.

II model: Próba du»a n > 30. Korzystamy ze zbie»no±ci statystyki p2χ√ 2n− 2n − 1 → N (0, 1) i dostajemy

P

 s

1 + uα

√2n

< σ < s 1 − uα

√2n



= 1 − α

gdzie uαjest kwantylem rz¦du 1 −12αrozkªadu N(0, 1).

Przykªad: 4. W przykªadzie z utlenianiem w¡troby królika wyznaczy¢ przedziaª ufno±ci dla odchylenia standardowego. Przyj¡¢ poziom ufno±ci 1 − α = 0, 95.

Przykªad: 5. Pewien automat w fabryce czekolady wytwarza tabliczki czekolady o nominalnej wadze 200 g. Wiadomo, »e rozkªad wagi produkowanych tabliczek jest normalny N(m, 5). Kontrola techniczna pobraªa, prób¦ 16 tabliczek i otrzy- maªa ich ±redni¡ wag¦ 195 g. Czy mo»na twierdzi¢, »e automat rozregulowaª si¦

i produkuje tabliczki o mniejszej ni» powinien wadze? Postawi¢ i zwerykowa¢

odpowiedni¡ hipotez¦ statystyczn¡. Przyj¡¢ poziom istotno±ci α = 0, 05.

Parametryczne testy istotno±ci

• Stawiamy hipotez¦ dotycz¡c¡ warto±ci parametru rozkªadu (±redniej lub wariancji), tzw. hipotez¦ zerow¡ H0 przeciw pewnej hipotezie alternaty- wnej (H1). Przykªadowo:

H0: m = m0.

• Przy zaªo»eniu prawdziwo±ci hipotezy H0znany jest rozkªad odpowiedniej statystyki.

• W oparciu o to zaªo»enia budujemy tzw. obszar krytyczny czyli obszar, w którym warto±¢ statystyki mo»e znale¹¢ si¦ z maªym ustalonym wcze±niej prawdopodobie«stwem α nazywanym poziomem istotno±ci.

• Zwykle przyjmuje si¦ α = 0, 05 lub 0, 01

• Je±li wyznaczona na podstawie wyników próby warto±¢ statystyki wpadnie w obszar krytyczny, to H0 odrzucamy na korzy±¢ H1.

• Je±li warto±¢ statystyki, nie znajdzie si¦ w obszarze krytycznym, to stwierdzamy,

»e nie ma podstaw do odrzucenia H0.

• Bª¡d pierwszego rodzaju polega na odrzuceniu hipotezy prawdziwej.

(8)

• Prawdopodobie«stwo popeªnienia bª¦du pierwszego rodzaju, to poziom istotno±ci α.

• Bª¡d drugiego rodzaju polega na przyj¦ciu hipotezy faªszywej.

• Je±li nie stwierdzimy prawdziwo±ci H0 tylko, »e nie ma podstaw do jej odrzucenia, to unikamy bª¦du drugiego rodzaju.

• Ksztaªt obszaru krytycznego zale»y od przyj¦tej hipotezy alternatywnej H1.

H1 : m 6= m0  obszar dwustronny obejmuje warto±ci mniejsze od kwantyla rz¦du 12αi wi¦ksze od kwantyla rz¦du 1 −12α.

H1 : m > m0  obszar prawostronny obejmuje warto±ci wi¦ksze od kwantyla rz¦du 1 − α.

H1: m < m0 obszar lewostrony obejmuje warto±ci mniejsze od kwantyla rz¦du α.

Testy istotno±ci dla ±redniej (H0: m = m0)

I model: Populacja generalna ma rozkªad normalny o znanym odchyleniu standardowym σ. Statystyka:

U =X − m0

σ

√n

ma rozkªad N(0, 1).

II model: Populacja generalna ma rozkªad normalny o nieznanym odchyleniu standardowym. Liczebno±¢ próby jest maªa (n ≤ 30). Statystyka:

t = X − m0

s

√n − 1 = X − m bs

√n

ma rozkªad t−Studenta o n − 1 stopniach swobody.

III model: Populacja generalna ma dowolny rozkªad o sko«czonej ±redniej i wariancji. Próba jest du»a (n > 30). Statystyka

U =X − m0 s

√n

ma rozkªad N(0, 1).

(9)

Testy istotno±ci dla dwóch ±rednich (H0: m1= m2)

Porównujemy dwie populacja generalne o rozkªadach N(m1, σ1), N(m2, σ2). Losujemy prób¦ liczebno±ci n1 z pierwszej i liczebno±ci n2 z drugiej populacji.

Zakªadamy prawdziwo±¢ hipotezy H0.

I model: Odchylenia standardowe σ1, σ2s¡ znane. Statystyka:

u = X1− X2

s σ21 n1

22 n2

ma rozkªad N(0, 1).

II model: Odchylenia standardowe σ1, σ2 s¡ nieznane ale równe (zakªadamy,

»e σ1= σ2) . Liczebno±ci prób s¡ maªe. Statystyka:

t = X1− X2

s

n1s21+ n2s22 n1+ n2− 2( 1

n1

+ 1 n2

) ma rozkªad t−Studenta o n1+ n2− 2 stopniach swobody.

III model: Próby s¡ du»e. Statystyka

u = X1− X2

s s21 n1

+ s22 n2

ma rozkªad N(0, 1).

Uwaga 2. W niektórych sytuacjach zamiast testu porównania dwóch ±rednich mo»na zastosowa¢ test dla ró»nicy zmiennych losowych i werykowa¢ hipotez¦

H0 : m = 0 dla tak okre±lonej zmiennej. Typowa sytuacja: oba pomiary dotycz¡ tych samych osobników np. przed operacj¡ i po.

Przykªad: 6. Zmierzono czas reakcji na pewien bodzie u 8 kierowców badanych w pracowni psychotechnicznej przed i 15 minut po wypiciu 100 g wódki. Wyniki (w sekundach) byªy nast¦puj¡ce:

przed 0,22 0,18 0,16 0,19 0,20 0,23 0,17 0,25 po 0,28 0,25 0,20 0,30 0,19 0,26 0,28 0,24

Czy mo»na twierdzi¢,»e wódka zwi¦ksza czas reakcji na bodziec? Przyj¡¢ poziom istotno±ci α = 0, 05. Zastosowa¢ test ró»nic.

(10)

xi yi zi=yi-xi (zi-śr.)^2

0,22 0,28 0,06 0,0001

0,18 0,25 0,07 0,0004

0,16 0,2 0,04 1E-04

0,19 0,3 0,11 0,0036

0,2 0,19 -0,01 0,0036

0,23 0,26 0,03 0,0004

0,17 0,28 0,11 0,0036

0,25 0,24 -0,01 0,0036

0,4 0,0154

średnia= 0,05 0,001925 wariancja 0,043874822 odchylenie

t= 3,0151134 kierowcy poziom istotn.= 0,05 kwantyl 1,89

(11)

Testy dla wariancji i odchylenia standardowego

Stawiamy hipotez¦ o warto±ci nieznanej wariancji (odchylenia standardowego) populacji o rozkªadzie normalnym:

H0: σ2= σ02 (σ = σ0).

I model: Próba maªa. Statystyka

χ2= ns2 σ20 ma rozkªad χ2 o n − 1 stopniach swobody.

II model: Próba du»a. Korzystamy z przybli»enia rozkªadem normalnym.

Statystyka

u =p

2−√ 2n − 1 ma rozkªad N(0, 1).

1. Oczywi±cie jak zwykle statystyki maj¡ podane rozkªady przy zaªo»eniu prawdziwo±ci H0.

Zmienne losowe dwuwymiarowe

• Je±li X, Y s¡ zmiennymi okre±lonymi na tej samej przestrzeni probabilisty- cznej, to par¦ (X, Y ) nazywamy zmienn¡ losow¡ dwuwymiarow¡.

• Dystrybuant¡ zmiennej (X, Y ) nazywamy funkcj¦ (dwóch zmiennych!) F : R2→ [0, 1]okre±lon¡ wzorem F (x, y) = P (X < x ∧ Y < y).

• Dla typu skokowego rozkªad zmiennej (X, Y ) okre±lamy podaj¡c zbiory {x1, x2, ..., xm}, {y1, y2, ..., yn} i prawdopodobie«stwa

pik:= P (X = xi, Y = yk).

• Rozkªady brzegowe, to znaczy rozkªady zmiennych X i Y wyznaczamy nast¦puj¡co:

• pi•:= P (X = xi) =

n

X

k=1

pik, p•k := P (Y = yk) =

m

X

i=1

pik

Tabela rozkªadu zmiennej dwuwymiarowej typu skokowego Y X x1 x2 · · · xm

y1 p11 p21 · · · pm1 p•1 y2 p12 p22 · · · pm2 p•2

... ... ... ... ... ...

yn p1n p2n · · · pmn p•n

p1• p2• · · · pm• 1

(12)

Denicja 3. Kowariancj¡ zmiennej losowej dwuwymiarowej nazywamy parametr Cov(X, Y ) := E((X − E(X)(Y − E(Y )) = E(XY ) − E(X)E(Y ).

Wspóªczynnikiem korelacji nazywamy

ρ(X, Y ) = Cov(X, Y ) D(X)D(Y ). Kowariancja dla zmiennych typu skokowego

Cov(X, Y ) =X

i,k

(xi− mX)(yk− mY)pik=X

i,k

xiykpik− mXmY

gdzie

mX = E(X) =

m

X

i=1

xipi• ; mY = E(Y ) =

n

X

k=1

ykp•k

s¡ wyznaczane z rozkªadów brzegowych (podobnie jak odchylenia standardowe, które s¡ potrzebne do wyznaczenia wspóªczynnika korelacji).

• Kowariancja i wspóªczynnik korelacji s¡ miar¡ zale»no±ci liniowej mi¦dzy zmiennymi X, Y .

• |ρ(X, Y )| ≤ 1,

• je»eli X, Y s¡ niezale»ne, to ρ(X, Y ) = 0,

• |ρ| = 1wtedy i tylko wtedy, gdy istniej¡ takie staªe a, b, »e P (Y = aX + b) = 1.

Przykªad: 7. Do±wiadczenie polega na 3-krotnym rzucie monet¡. Zmienna X liczy ilo±¢ orªów w tym do±wiadczeniu, a zmienna Y przyjmuje warto±¢ 1 gdy orªów jest wi¦cej i 0 gdy wi¦cej jest reszek. Okre±li¢ rozkªad zmiennej dwuwymi- arowej (X, Y ). Wyznaczy¢ wspóªczynnik korelacji.

Estymator wspóªczynnika korelacji:

r =

n

X

i=1

(xi− X)(yi− Y )

v u u u u t

n

X

i=1

(xi− X)2

n

X

i=1

(yi− Y )2

=

n

X

i=1

xiyi−1 n

n

X

i=1

xi n

X

i=1

yi v

u u u u t(

n

X

i=1

x2i − 1 n(

n

X

i=1

xi)2)(

n

X

i=1

y2i − 1 n(

n

X

i=1

yi)2)

(13)

Werykacja hipotezy o i istnieniu korelacji

• H0: ρ = 0 (zmienne nie s¡ skorelowane)

• H1: ρ 6= 0 zmienne s¡ skorelowane lub

• H1: ρ > 0 istnieje dodatnia korelacja mi¦dzy X i Y lub

• H1: ρ < 0 istnieje ujemna korelacja mi¦dzy X i Y .

• Przy zaªo»eniu prawdziwo±ci H0 statystyka

t = r

√1 − r2

√n − 2

ma rozkªad t-Studenta o n − 2 stopniach swobody.

• W przypadku odrzucenia hipotezy o braku korelacji wyznacza si¦ zwykle prost¡ regresji drugiego rodzaju.

Regresja

Denicja 4. Prost¡ regresji lub regresj¡ drugiego rodzaju nazywamy funkcj¦

liniow¡ y = ax + b, dla której wyra»enie E(Y − aX − b)2 osi¡ga warto±¢ najm- niejsz¡. Wykres tej funkcji nazywamy prost¡ regresji.

Twierdzenie 2. Wspóªczynniki prostej regresji wyra»aj¡ si¦ wzorami:

a = cov(X, Y ) σ2X = ρσY

σX

b = E(Y ) − aE(X), a ich estymatory odpowiednio

a =cov(X, Y ) s2X = ρsY

sX

b = Y − aX.

Przykªad: 8. Wylosowano 10 par zawieraj¡cych zwi¡zek maª»e«ski i otrzymano dla nich dane o wieku ( w latach) kobiety i m¦»czyzny:

wiek kobiety 23 24 29 27 33 29 19 22 21 23 wiek m¦»czyzny 27 28 30 30 35 41 22 25 26 26 Na poziomie istotno±ci α = 0, 05 zwerykowa¢ hipotez¦, »e istnieje dodatnia korelacja mi¦dzy wiekiem osób zawieraj¡cych maª»e«stwo.Wyznaczy¢ prost¡ re- gresji.

(14)

xi yi axi+b (xi-X)2 (yi-Y)2 (xi-X)(yi-Y)

23 27 26,89 4 4 4

24 28 27,95 1 1 1

29 30 33,21 16 1 4 n = 10

27 30 31,11 4 1 2 X= 25

33 35 37,42 64 36 48 Y= 29

29 41 33,21 16 144 48

19 22 22,68 36 49 42 r = 0,8355

22 25 25,84 9 16 12 t = 4,30063

21 26 24,79 16 9 12 kwantyl 1,86

23 26 26,89 4 9 6 a = 1,052941

250 290 290,00 170 270 179 b = 2,676471

(15)

20 25 30 35 40 45

18 23 28 33

wiekżczyzny

wiek kobiety

Cytaty

Powiązane dokumenty

Gdy odległość pomiędzy pociągami wynosi 1 km, pszczoła zaczyna latać tam i z powrotem pomiędzy pociągami z prędkością 60 km na godzinę.. Wyrazić od- ległość jaką

Zbadać, w jakim kole jest zbieżny szereg MacLaurina funkcji tgh z.. Znaleźć kilka pierwszych

[r]

Rozwiązania zadań należy starannie uzasadniać i wpisać do zeszytu zadań domowych.. Proszę wybrać

[r]

[r]

• Wyobra¹my sobie, »e nasze dane wyj±ciowe to nie pomiary wysoko±ci, ale. ±wiatªa odbijanego przez

Zasada Maksimum: Każdy niepusty i ograniczony z góry podzbiór zbioru liczb naturalnych ma element najwi¸