Podstawowe statystyki z próby i ich rozkłady

7.1. Podstawowe statystyki z próby i ich rozkłady

W punkcie 1.2 w prow adzono pojęcie zbiorow ości (populacji) generalnej w spo sób intuicyjny. Pojęcie to m ożna rów nież definiow ać form alnie63. W edług M. Fisza: „W statystyce przyjęto nazywać zbiorow ość, której elem enty obserwujem y, populacją generalną lub zbiorow ością generalną. E lem enty populacji m ożem y b ad ać ze wzglę du na różne cechy. Jeżeli mówimy, że populacja gen eraln a m a rozkład F(x), to chce my przez to powiedzieć, że badam y cechę X elem entów tej populacji generalnej i że ta cecha X jest zm ienną losową o dystrybuancie F(x). Z espół pew nej części elem en  tów populacji generalnej przyjęto w statystyce nazywać próbą. My będziem y nazywa li próbą ciąg wartości badanej cechy pew nej ilości elem entów populacji g en eraln ej”64. W dalszych rozw ażaniach będziem y w nioskować o cechach populacji generalnej na podstaw ie próby wybranej w d rodze losowego doboru. „M eto da wyboru jest loso wa, jeżeli cecha stanow iąca kryterium wyboru jest niezależna od cechy b ad a n ej”65.

P rz y k ła d 7.1

Należy określić strukturę zatrudnionych w edług poziom u wykształcenia w K ra kowie. Jako próbę traktujem y ogół pracow ników zatrudnionych w wybranej uczelni wyższej. T aka prób a nie m oże stanow ić podstaw y do w nioskow ania o stru kturze za trudnionych w edług wykształcenia w całym Krakowie. W uczelniach wyższych p rz e ważają bowiem osoby posiadające wykształcenie wyższe. K ryterium wyboru (uczel nia wyższa) jest zależne od badanej cechy (stru k tu ra w edług w ykształcenia). Jeśli natom iast interesow ać nas będzie odległość miejsca zam ieszkania od m iejsca pracy,

63 Por. np.: A. Iwasiewicz., Z. Paszek, Statystyka z elementami statystycznych metod monitoro

wania procesów, Kraków 2004.

w M. Fisz, op. cit., s. 351-352.

to tak ą pró b ę moglibyśmy p otraktow ać jak o w ybraną w sposób losowy. „Stąd wynika, że pew na m eto d a wyboru m oże być losowa w zględem jednej cechy i nie być losowa w zględem in nej”66.

D o zrozum ienia m etod wnioskowania statystycznego konieczne jest uświadom ie nie sobie, że próba jest p u n ktem w n-wym iarowej przestrzeni. Zilustrujem y to nastę pującym przykładem .

P rz y k ła d 7.2

P opulację generalną stanow ią studenci wydziału F pewnej uczelni w roku akade m ickim t. Interesującą nas cechą są oceny otrzym ane przez studentów w roku akade m ickim t. C echę tę oznaczam y jako X . M oże ona przyjąć sześć następujących w arto ści: 2,0; 3,0; 3,5; 4,0; 4,5; 5,0. T akie bow iem oceny m ogą uzyskiwać studenci na egzam inach. W uczelnianej bazie danych każdy stu d en t posiada swój dokum ent, w którym zapisane są wszystkie jego oceny. Zbiorowość generalną stanowi zbiór wszyst kich dokum entów w bazie danych. Ich liczebność jest rów na liczbie wszystkich stu dentó w oznaczonej jako N.

Z tej zbiorow ości pobieram y losowo ze zw racaniem n = 10 dokum entów . Z ao b serw ow ane w artości zm iennej losowej X , czyli zespół liczb (x, x 2, X|(l) są w arto ściam i 10-wymiarowej zm iennej losowej. P rzestrzeń prób składa się ze wszystkich możliwych podzbiorów liczb (xKx 2, . . . , x w). Liczebność przestrzeni prób ustalam y jak o w ariacje z pow tórzeniam i. Jest ich V£= k". R ozw ażana w przykładzie przestrzeń składa się więc z 6 10 punktów . Jest to ilość p rób jak ą m ożem y wylosować z rozważanej populacji.

T eraz określim y ważne w statystyce m atem atycznej pojęcie, jakim jest statystyka z próby. S ta ty sty k a z p ró b y jest to zm ienna losowa będącą funkcją obserwowanej łącznej zm iennej losowej ( X ltX 2,...X„).

P rz y k ła d 7.3

Naw iązujem y do przykładu 7.2. Chcem y ustalić średnią ocen uzyskanych przez stu dentów W ydziału F w roku akadem ickim t. Ś rednia zdefiniow ana wzorem:

Y x l + x 2 + . . . + x „ y - ( 7 1 )

n n

je st statystyką z próby.

Jak o zm ienna losowa statystyka z próby posiada rozkład praw dopodobieństw a. M ożem y zatem rozważać:

1) jaki jest dokładny rozkład statystyki Z„ = Z ( X t X 2, . . .J(n), co oznacza, że szukam y rozkładu tej statystyki dla każdego n atu ralneg o n,

2) jaki jest rozkład graniczny statystyki Z,„ to znaczy, że in teresu je nas rozkład tej statystyki gdy n -> oo.

Rozkłady dokładne m ają szczególne znaczenie w przypadku małych prób, a ro z kłady graniczne rozważamy wówczas, gdy dysponujem y dużą p ró b ą statystyczną. Kry terium zaliczenia próby do dużych lub małych zależy od rozważanych statystyk z p ró by. Nie istnieje natom iast kryterium ogólne w yróżniania p ró b m ałych i dużych67.

Przedstawimy teraz rozkłady wybranych statystyk z próby, a mianowicie tych, które będą później wykorzystane do wnioskowania statystycznego.

Rozkład średniej arytm etycznej n iezależnych zm ien n ych losow ych o rozkładach norm alnych

Zajm iem y się najpierw sytuacją, w której zm ienna X w populacji generalnej m a rozkład norm alny określony wzorem:

/ ( * ) = - ¹ y-v/2rc exp ^{1 ( * - n ) 2} 2 CJ" ^{(7 .2 )} gdzie: (j. - wartość przeciętna,

ct - odchylenie standardow e zm iennej losowej X .

R ozpatrujem y średnią z próby określoną w zorem :

— 1 n

X = - ' E X k,

nic=i ^{(7 .3 )}

gdzie zm ienne X k są niezależne i m ają jednakow y rozkład określony w zorem (7.2). M etodą funkcji charakterystycznych615 znaleziono rozkład tej zm iennej dany wzorem :

M ) =*

-S=t-\/27C V« exp c r n (7 .4 )

Z m ienna A' ma tę sam ą w artość p rzeciętną (n), co zm ienna X . W ariancja zm ien nej X jest n razy m niejsza od wariancji zm iennej X .

Jest ona równa:

(7 .5 )

67 Por.: A. Iwasiewicz, Z. Paszek, op. cit. “ Por. np.: M. Fisz, op. cit., s. 354.

O dchylenie standardow e jest równe zm iennej X i jest równe: a

TT

^{(7 .6 )}

O znacza to, że rozproszenie w artości zm iennej X wokół wartości przeciętnej jest m niejsze niż zm iennej X wokół tej sam ej wartości.

P rz y k ła d 7.4

Z m ien n ą X jest ciężar czekoladek produkow anych przez autom at. Z m ienna ta podleg a rozkładow i norm alnem u z p aram etram i ^ = 10 [g] i a = 2 [g], co zapiszemy k ró tk o N(10; 2).

R ozp atrujem y średni ciężar czekoladek w próbach pobranych w sposób losowy i liczących po n = 16 czekoladek.:

a) obliczymy praw dopodobieństw o, że ciężar losowo wybranej czekoladki róż ni się od ciężaru średniego nic więcej niż o 2 [g]:

/>(8S * < 12] = p f c H * = p \ _ , * £ z ł ° < ,j = 0.6826*

Z tablicy 6.6 odczytujemy w wierszu „ - 1 ,0” i kolum nie „0,00” oraz w wierszu „1,0” i w kolum nie 0,00, odpow iednio praw dopodobieństwa: 0,83891 i 0,15625. P raw dopodobieństw a te odejm ujem y i otrzym ujem y podany wyżej wynik. Praw dopodobieństw o wylosowania czekoladki, której ciężar różni się od śred niego ciężaru czekoladek nie więcej niż o 2 [g] jest równe 0,68266.

b) znajdziem y rozkład zm iennej losowej X:

>/2n -e.\p ^{( .r - 1 0 ) 2} 2 -4 16 0,5V2tt exp ^{( x - 1 0 ) 2} 0,5

W ariancja zm iennej X jest rów na a 2 = 0,25 [g2], a odchylenie standardow e ct = 0,5 [g].

c) dla wylosowanego ciągu 16-elementowych prób niezależnych obliczymy praw dopodobieństw o, że uzyskany na ich podstaw ie średni ciężar różni się od śred niego ciężaru czekoladek w populacji generalnej nie więcej niż o 2 [g]:

P{8 < X < 12} = P\ ° 1 = p \ - 4 < <4i> = 0,99997.

0,5 0,5 0,5 0,5

W tym przypadku praw dopodobieństw o, że średni ciężar czekoladek w wybranej losowo prób ie różni się od średniego ich ciężaru w populacji generalnej nie więcej niż o 2 [g] je st rów ne 0,99997.

Uzyskane rezultaty wskazują, że w dużej serii 16-elem entowych p ró b prostych 99997 razy na 100000 otrzym am y takie w artości zm iennej X , k tó re b ęd ą różnić się od wartości (j. nie więcej niż o 2 [g]. Gdybyśmy do szacow ania średniego ciężaru czekola dek użyli prób jednoelem entow ych, a więc w ielokrotnie losowalibyśmy po jednym elem encie, to tylko 68266 razy na 10000 otrzym am y wartości X różniące się od w arto  ści przeciętnej w populacji generalnej nie więcej niż o 2 [g].

R o zk ład %2 (C h i2)

Interesuje nas rozkład n niezależnych zm iennych losowych X k (k = 1, 2, ..., n) o jednakow ym rozkładzie norm alnym z w artością przeciętną n = 0 i odchyleniem standardowym o, a więc o gęstości praw dopodobieństw a danej wzorem :

R ozpatrujem y statystykę, k tóra jest sum ą kw adratów n niezależnych zm iennych losowych X , z których każda m a rozkład norm alny o gęstości danej w zorem (7.7). Jest to statystyka zdefiniow ana jako:

P aram etr n nosi nazwę liczby stopni swobody.

P rz y k ła d 7.5

Z m ienne l o s o w e j, (/c = 1 , 2 ,. .. , 16) są niezależne i każda z nich m a jednakow y rozkład N(0; 2). R ozpatrujem y statystykę:

(7 .1 0 ) (7 .8 )

(7 .9 )

R o z k ła d S tu d e n ta

R ozważam y zm ienną losową X zdefiniow aną jako:

gdzie:

zm ienne lo s o w e j, są niezależne i m ają jednakowy rozkład norm alny N(n; a). Zm ienna lo s o w a ć m a rozkład norm alny dany w zorem (7.4). R ozkład ten jest określony, jeśli znam y |j. i a.

Jeśli znam y tylko n, a nie znam y a , to rozkład zm iennej lo so w e j^ jest nieznany'’9. D latego musimy rozważyć taką statystykę, która, będąc funkcją |a, nie zależy od a. Statystykę taką w prow adził G osset, który bardziej znany jest p od pseudonim em Stu dent. W ykazał on, że jeśli z m i e n n e j są niezależnym i zm iennym i losowymi mający mi ten sam rozkład norm alny N(|j.; ct), a zm ienna X jest określona jako:

zaś S jest dane jako:

nie zależy od c.

Z m ien n a określoną w zorem (7.13) jest zm ienną losową o rozkładzie t - Studenta o n -1 stopniach swobody.

7.2. Estymacja jako metoda indukcyjnego

W dokumencie Podstawy statystyki (Stron 165-170)

Podstawowe statystyki z próby i ich rozkłady

7.1. Podstawowe statystyki z próby i ich rozkłady

M *) =

TT

7.2. Estymacja jako metoda indukcyjnego

M ) =*