• Nie Znaleziono Wyników

5.5.1. Rozkład średniej z próby

Rozkład statystyki z próby należy do najbardziej podstawowych pojęć wnioskowa­ nia statystycznego. Rozkład statystyki z próby m ożna ustalić w drodze w ielokrotnego przeprow adzania eksperym entu (tzw. e k s p e ry m e n ta ln y (e m p iry c z n y ) ro z k ła d z próby), bądź też przez teoretyczne przeanalizow anie rozkładu p raw do po do bień­ stwa z wszystkich możliwych do zrealizow ania kom binacji wyników próby (tzw. teo rety czn y ro z k ła d z próby). Z a każdym razem m ożna rozważać dwa przypadki, w których próba losowa pobierana jest ze skończonej lub nieskończenie wielkiej populacji. Pobieranie próby z populacji nieskończenie wielkiej jest w zasadzie tym samym, co pobieranie prób z populacji skończonej, ale ze zw racaniem , podczas którego każdy elem ent na pow rot w ędruje do populacji, zanim zostanie wylosowa­ ny następny. Zauważm y, że gdy operujem y populacją nieskończoną, to wówczas podczas losowania bez zw racania praw dopodobieństw o (podobnie jak przy loso­ waniu ze zwracaniem ze skonczonych populacji) wybrania ko nkretnego elem entu pozostanie niezm ienione, niezależnie od liczności pobieranej próby. D zieje się tak dlatego, że w obydwu analizowanych przypadkach niezm ienną pozostaje liczność badanej populacji i praw dopodobieństw o nie ulega zm ianie w zależności od liczby pobranych już elem entów .

P rzy k ład 5.4

Załóżmy, że w urnie znajduje się pięć kartek ponum erow anych kolejno liczbami 1 do 5. Średnia dla populacji skonczonej - składającej się z 5 kartek - wyniesie:

a- n — (1 + 2 + 3 + 4 + 5)/5 = 3, natom iast wariancja:

s% = [(1 - 3)2 + (2 - 3)2 + (3 - 3)2 + (4 - 3)2 + (5 - 3 )2j/5 = = (4 + 1 + 0 + 1 + 4)/5 = 10/5 = 2.

Doświadczenie polega na wylosowaniu bez zw racania, trzech kartek. Liczba rożnych prob trzyelem entowych, pobieranych bez zw racania do populacji jest liczbą kombinacji 5 kartek po 3 naraz, czyli:

5 5!

Możemy wyciągnąć kartki z liczbami: {(1,2,3); (1,2,4); (1,2; 5); (2; 3; 4); (2,3,5); (2,4,5); (3,4,5); (1,3,4); (1,3,5); (1,4,5)}.

Po obliczeniu z tych realizacji średnich otrzym am y następujący ciąg wartości:

7 8 10 11 8 101

2; —; —; 3; —; —; 4;—; 3 ;— >•

3 3 3 3 3 3 J

K orzystając z założenia, że p o b ra n a p ró b a jest losowa, m ożna stwierdzić, że praw dopodobieństw o otrzym ania każdej z 10 p rób trzyelem entowych jest jed n a­

kowe i wynosi 0,1. Takie sam o praw dopodobieństw o realizacji m a również każda z otrzym anych średnich. W ykorzystując te wnioski, budujem y teoretyczny rozkład średniej z próby: 7 8 10 11 X rn 2 3 4 3 3 3 3 P-, 0,1 0,1 0,2 0,2 0,2 0,1 0,1 W ykres 0,25 -0,2 -C 1 0 ,1 5 -<U x>c c o-0 1 0’1 -D. 0,05 - 0 -0 -0,2 -0,4 -0,6 -0,8 1 1,2 1,4 1,6 1,8 2 2,2 2,4 2,6 2,8 3 3,2 3,4 3,6 3,8 4 4,2 średnia

Rys. 30. Rozkład prawdopodobieństwa średniej z próby Źródło: opracowanie własne.

N a podstaw ie powyższych danych m ożem y wyznaczyć w artość oczekiwaną oraz w ariancję otrzym anego rozkładu praw dopodobieństw a.

tego rozkładu został przedstaw iony na rysunku 30.

♦ ♦ ♦

♦ ♦ ♦ ♦

E (X„) = 2 ■ 0,1 + - ■ 0,1 + - ■ 0,2 4 3 • 0,2 + — • 0,2 + — • 0,1 + 4 ■ 0,2 = 3; 3 3 3 3 D 2(X„) = (2 —3) - 0,1 + 1 — - 3 ■ 0,1 + | ^ - 3 0,2 + + ( 3 - 3 ) 2 0,2 + - - 3 ) 0 ,2 + 1 - ' 3 3 1 I 3 \2 04 + ( 4 - 3 ) 2 ■ 0,2 = — ■ O dchylenie standardow e: D ( X n ) = y l D 2( X n ) = = 0,58.

Zauważmy, że średnia badanego rozkładu z próby jest identyczna, tak jak średnia całej populacji; natom iast odchylenie standardow e jest inne niż odchylenie rozkładu średniej z próby, {kp}

O bserwując wyniki dośw iadczenia przeprow adzonego w przykładzie 5.4, m ożna sformułować kilka zasadniczych wniosków. Po pierwsze, jeżeli doświadczenie polega na pobieraniu «-elem entow ej bezzw rotnej losowej próby, ze skończonej populacji o średniej E ( X ) i odchyleniu standardow ym D(X), to wówczas teoretyczny rozkład średniej z próby m a wartość oczekiw aną E(X„) oraz odchylenie standardow e D(X„) wynoszące:

D ( X „ ) = ^ - j ^ - Ą , (5.41)

yjn V N- 1

gdzie:

N - jest licznością skończonej populacji, n - licznością pobieranej próby.

Po drugie, jeżeli populacja jest nieskończona, to wówczas wzór (5.37) należy zastąpić wzorem:

D ( X , = (5.42)

■Jn

Dzieje się tak dlatego, że w m iarę w zrostu liczebności populacji do nieskoń­

czoności człon . we wzorze (5.41) dążyć będzie do jedności, co pozwala na

redukcję wzoru (5.41) do postaci (5.42). W praktyce czynnik ten pom ija się, jeśli próba stanowi nie więcej niż 5% populacji. N a przykład, jeżeli pobierzem y próbę losową n = 10 z populacji N - 1000, to próba stanowi jedynie \ % populacji, a wyrażenie

l N - n /1000 10 І990 ____ . 0 . . . . t . ;--- = ---= . ! — ~ 0 ,995 = 1. O dchylenie standardow e rozkładu sredniei

\ N - l V 1000-1 V 999

z próby nazywane jest często b łę d e m s ta n d a rd o w y m śre d n ie j. Nazwa ta powsta­ ła, poniew aż zadaniem statystyki (5.41) lub (5.42) jest pom iar stopnia zmienności średnich wywołanych czynnikam i przypadkowymi (losowymi).

P rz y k ła d 5.4 cd.

M ożna obecnie sprawdzić num erycznie prawdziwość wzoru (5.41). Ponieważ w ariancja badanej populacji wynosiła 2, liczebność próby n = 3, liczebność populacji

N = 5, zatem : ____

J 2 /5 - 3 yfl IT

W artość obliczonego odchylenia standardow ego statystyki X „ jest identyczna jak ta, którą obliczyliśmy, korzystając z rozkładu teoretycznego średniej z próby.

Ś red nią z próby i błąd standardow y średniej m ożna również przybliżyć na pod­ stawie rozkładu em pirycznego. Jest to jed n ak dość pracochłonne, gdyż wymaga wie­ lokrotnego przeprow adzenia doświadczenia polegającego na poborze próby losowej, na podstaw ie której wyznacza się średnie arytm etyczne, by później utworzyć z nich em piryczny rozkład średniej. Czytelnikom podręcznika polecam y przeprowadzenie dośw iadczenia podobnego do opisanego w przykładzie 5.4, które będzie polegało na np. 100-krotnym wylosowaniu bez zw racania 3 kartek z pięciu i 100-krotnym obliczeniu średniej arytm etycznej. W ielokrotne wykonanie tej operacji powinno gw arantow ać, że otrzym any em piryczny szereg rozdzielczy częstości średniej będzie zbliżony kształtem do rozkładu z rysunku 30.

O pisane powyżej zależności i wzory są oczywiście prawdziwe dla przypadku, gdy populacja m a rozkład norm alny. Teoretyczny rozkład z prób pobranych z populacji norm alnej jest rozkładem norm alnym . Wynika z tego, że jeżeli wiemy, że rozkład zbiorow ości generalnej jest norm alny, to wówczas i rozkład z próby średnich będzie norm alny o param etrach:

E(X„) = ^ = », (5.43)

D ( X „ ) = a x = (5.44)

yjn

P onadto m ożna stwierdzić, że niezależnie od kształtu rozkładu populacji, jeżeli liczebność próby pobieranej z populacji o średniej n i odchyleniu standardowym o w zrasta do nieskończoności, to wówczas rozkład z próby średnich zbliża się do rozkładu norm alnego ze średnią (i i odchyleniem standardow ym -^L.

Powyższe stw ierdzenie określa się w literaturze jak o centralne tw ierdzenie

graniczne.

Ujm ując rzecz nieco inaczej, m ożna stwierdzić, że jeżeli n jest dostatecznie duże (w praktyce przynajm niej równe 30), to wówczas wartości u wyznaczone w edług równania:

należy uznać za realizacje zm iennej losowej U ~N(Q, l).

Stosowanie charakterystyki (5.45) wymaga jed n ak znajom ości rzeczywistej w ar­ tości odchylenia standardow ego populacji o, co w praktyce jest często utru dnion e. Jeżeli param etr o jest nieznany, to wówczas należy go oszacować z próby wykorzy­ stując estym ator S lub estym ator S'. Jeżeli podczas szacunku stosujem y statystykę S, to oszacowanie param etru s t, uzyskuje się ze wzoru:

natom iast gdy posługujem y się statystyką S \ to do oszacow ania s r należy stosować wzór:

Podstawiając w miejsce wartości odchylenia standardow ego populacji jego osza­ cowanie, wzór (5.45) m ożna przedstaw ić następująco:

Zm ienna losowa is o realizacjach wyznaczonych w edług wzoru (5.48) nie będzie już miała rozkładu norm alnego standaryzow anego, lecz tzw. rozkład Studenta, o r = n - 1 stopniach swobody. Nazwa tego rozkładu wywodzi się od pseudonim u naukowego jego twórcy, którym byl angielski statystyk W illiam G oset żyjący na przełomie XIX i XX wieku. Funkcję praw dopodobieństw a rozkładu S tu denta op i­ suje wzór: (5.45) a aa yfn (5.46) (5.47) u - i - (5.48) V s (5.49)

8 W tym przypadku wyjątkowo odstąpimy od ogolnej zasady i zarówno zmienną, jak i jej realizację oznaczać będziemy matą literą t.

gdzie:

r = n -1 , t e(-oo; + oo),

zaś: + 00

T(jc) = ‘ d t ( x > 0), (5.50)

o jest funkcją gam m a.

W artość oczekiw ana i odchylenie standardow e statystyki t wynoszą

odpowied-Krzywa rozkładu S tudenta kształtem przypom ina krzywą rozkładu norm alnego N(0,1). P odobnie jak krzywa rozkładu norm alnego standaryzowanego jest ona syme­ tryczna z osią sym etrii o rów naniu t = 0, natom iast jest nieco bardziej spłaszczona, gdyż jej odchylenie standardow e D(t) > 1. R ozkład S tud en ta jest stablicowany (zob. tablica II). Najczęściej w tablicach ujm uje się wartości praw dopodobieństw a:

gdzie: a e [0; 1].

R ozkład S tuden ta przy wzroście liczebności próby dąży do rozkładu norm al­ nego N (0,1), przy czym zbieżność ta jest n a tyle szybka, że przy n > 30, krzywe obu rozkładów są praktycznie nierozróżnialne. W praktyce oznacza to, że przy dużej liczebności próby, rozkład średniej arytm etycznej z próby, m oże być aproksymowany przez rozkład norm alny, bez względu na to, czy znane jest odchylenie standardow e populacji ct, czy tylko jego szacunek.

5.5.2. Rozkład wariancji i odchylenia standardowego

z próby

Załóżm y obecnie, że populacja ma rozkład norm alny N(\i, o). M ożna dowieść, że w ariancja z próby m a rów nież ro zkład asym ptotycznie norm alny, przy czym średnie i odchylenia standardow e wynoszą odpow iednio9:

9 Zob. np.: Statystyka ogólna, red. M. Woźniak, AE w Krakowie 1997, s. 162 i 163, lub A. Iwasiewicz, Z Paszek: Statystka ..., op. cit., s. 188.

E(t ) = 0, (5.51)

(5.52)

P ( \ t \ > t a) - a, (5.53)

E(iS2) = —n - 1 a 2, D ( S 2) = — j 2 ( n - \ ) , (5.55) rt

£(S*2) = c t2, D ( S ' 2) = a 2. ^ - . (5.56)

V n - 1

Zastosow anie powyższych wzorów wymaga jednak, aby liczebność próby była odpowiednio liczna (przynajm niej n = 30). W sytuacji gdy operujem y pró bam i m a­ łymi, wykorzystuje się statystykę postaci:

— . = ^ ( r c - l ) (5.57)

n - l

Statystyka (5.57) ma rozkład x2 (c h i-k w a d ra t) o n - 1 stopniach swobody i jest sumą kwadratów n niezależnych zm iennych losowych CA,..., U„ o rozkładach n o r­ malnych /V(0,1). Z atem wartości statystyki (5.57) m ożna wyznaczyć następująco:

~ yu 2 — y 1^ x ~ x n 1 _ y i ( x - x „ ) 2 _ s'2( n - 1) ,- i tTl< a ) o ) f a a 2 a 2 Funkcja gęstości f(%2) m a postać:

(5.58)

/ r ( x 2) = ~ ? ex p ( - ~ X 2 1, (5.59)

2 2 r | -V2 gdzie: r = n -1 stopni swobody.

W artość oczekiwana i w ariancja zm iennej losowej chi-kw adrat o r stopniach swobody wynoszą odpow iednio:

E(%2) = r = n - 1, (5.60)

D 2( x ; ) = 2 r = 2(n - 1). (5.61)

Rozkład chi-kw adrat - podobnie jak rozkład S tudenta - jest stablicowany. N aj­ częściej w tablicach podaje się praw dopodobieństw a relacji (zob. tablica III):

P ( x 2^ l l r ) = o-, (5.62)

P ( x2< l l r ) = l - a , (5.63) gdzie: a e [0; 1].

Rozkład chi-kw adrat jest rozkładem praw ostronnie asymetrycznym (zob. rys. 31), a jego asym etria m aleje wraz ze w zrostem liczby stopni swobody.

Źródło: opracowanie własne.

Dowodzi się, że wraz ze wzrostem liczby stopni swobody do nieskończoności rozkład chi-kw adrat zm ierza do rozkładu norm alnego o p aram etrach |i = 0 i o = 1. Z bieżność ta nie jest jed n ak tak szybka jak w przypadku rozkładu S tudenta, dlatego też w praktyce wykorzystuje się zm ienną losową 7 2 %;. M ożna dowieść, że jeżeli licz­ ba stopni swobody r -> oo, to wówczas zm ienna U =yj2%; - V 2 r - 1 ma asymptotyczny rozkład norm alny N ( 0,1).

5.6. Przedziałowa estymacja podstawowych