7.1. Podstawowe statystyki z próby i ich rozkłady
W punkcie 1.2 w prow adzono pojęcie zbiorow ości (populacji) generalnej w spo sób intuicyjny. Pojęcie to m ożna rów nież definiow ać form alnie63. W edług M. Fisza: „W statystyce przyjęto nazywać zbiorow ość, której elem enty obserwujem y, populacją generalną lub zbiorow ością generalną. E lem enty populacji m ożem y b ad ać ze wzglę du na różne cechy. Jeżeli mówimy, że populacja gen eraln a m a rozkład F(x), to chce my przez to powiedzieć, że badam y cechę X elem entów tej populacji generalnej i że ta cecha X jest zm ienną losową o dystrybuancie F(x). Z espół pew nej części elem en tów populacji generalnej przyjęto w statystyce nazywać próbą. My będziem y nazywa li próbą ciąg wartości badanej cechy pew nej ilości elem entów populacji g en eraln ej”64. W dalszych rozw ażaniach będziem y w nioskować o cechach populacji generalnej na podstaw ie próby wybranej w d rodze losowego doboru. „M eto da wyboru jest loso wa, jeżeli cecha stanow iąca kryterium wyboru jest niezależna od cechy b ad a n ej”65.
P rz y k ła d 7.1
Należy określić strukturę zatrudnionych w edług poziom u wykształcenia w K ra kowie. Jako próbę traktujem y ogół pracow ników zatrudnionych w wybranej uczelni wyższej. T aka prób a nie m oże stanow ić podstaw y do w nioskow ania o stru kturze za trudnionych w edług wykształcenia w całym Krakowie. W uczelniach wyższych p rz e ważają bowiem osoby posiadające wykształcenie wyższe. K ryterium wyboru (uczel nia wyższa) jest zależne od badanej cechy (stru k tu ra w edług w ykształcenia). Jeśli natom iast interesow ać nas będzie odległość miejsca zam ieszkania od m iejsca pracy,
63 Por. np.: A. Iwasiewicz., Z. Paszek, Statystyka z elementami statystycznych metod monitoro
wania procesów, Kraków 2004.
w M. Fisz, op. cit., s. 351-352.
to tak ą pró b ę moglibyśmy p otraktow ać jak o w ybraną w sposób losowy. „Stąd wynika, że pew na m eto d a wyboru m oże być losowa w zględem jednej cechy i nie być losowa w zględem in nej”66.
D o zrozum ienia m etod wnioskowania statystycznego konieczne jest uświadom ie nie sobie, że próba jest p u n ktem w n-wym iarowej przestrzeni. Zilustrujem y to nastę pującym przykładem .
P rz y k ła d 7.2
P opulację generalną stanow ią studenci wydziału F pewnej uczelni w roku akade m ickim t. Interesującą nas cechą są oceny otrzym ane przez studentów w roku akade m ickim t. C echę tę oznaczam y jako X . M oże ona przyjąć sześć następujących w arto ści: 2,0; 3,0; 3,5; 4,0; 4,5; 5,0. T akie bow iem oceny m ogą uzyskiwać studenci na egzam inach. W uczelnianej bazie danych każdy stu d en t posiada swój dokum ent, w którym zapisane są wszystkie jego oceny. Zbiorowość generalną stanowi zbiór wszyst kich dokum entów w bazie danych. Ich liczebność jest rów na liczbie wszystkich stu dentó w oznaczonej jako N.
Z tej zbiorow ości pobieram y losowo ze zw racaniem n = 10 dokum entów . Z ao b serw ow ane w artości zm iennej losowej X , czyli zespół liczb (x, x 2, X|(l) są w arto ściam i 10-wymiarowej zm iennej losowej. P rzestrzeń prób składa się ze wszystkich możliwych podzbiorów liczb (xKx 2, . . . , x w). Liczebność przestrzeni prób ustalam y jak o w ariacje z pow tórzeniam i. Jest ich V£= k". R ozw ażana w przykładzie przestrzeń składa się więc z 6 10 punktów . Jest to ilość p rób jak ą m ożem y wylosować z rozważanej populacji.
T eraz określim y ważne w statystyce m atem atycznej pojęcie, jakim jest statystyka z próby. S ta ty sty k a z p ró b y jest to zm ienna losowa będącą funkcją obserwowanej łącznej zm iennej losowej ( X ltX 2,...X„).
P rz y k ła d 7.3
Naw iązujem y do przykładu 7.2. Chcem y ustalić średnią ocen uzyskanych przez stu dentów W ydziału F w roku akadem ickim t. Ś rednia zdefiniow ana wzorem:
n
Y x l + x 2 + . . . + x „ y - ( 7 1 )
n n
je st statystyką z próby.
Jak o zm ienna losowa statystyka z próby posiada rozkład praw dopodobieństw a. M ożem y zatem rozważać:
1) jaki jest dokładny rozkład statystyki Z„ = Z ( X t X 2, . . .J(n), co oznacza, że szukam y rozkładu tej statystyki dla każdego n atu ralneg o n,
2) jaki jest rozkład graniczny statystyki Z,„ to znaczy, że in teresu je nas rozkład tej statystyki gdy n -> oo.
Rozkłady dokładne m ają szczególne znaczenie w przypadku małych prób, a ro z kłady graniczne rozważamy wówczas, gdy dysponujem y dużą p ró b ą statystyczną. Kry terium zaliczenia próby do dużych lub małych zależy od rozważanych statystyk z p ró by. Nie istnieje natom iast kryterium ogólne w yróżniania p ró b m ałych i dużych67.
Przedstawimy teraz rozkłady wybranych statystyk z próby, a mianowicie tych, które będą później wykorzystane do wnioskowania statystycznego.
Rozkład średniej arytm etycznej n iezależnych zm ien n ych losow ych o rozkładach norm alnych
Zajm iem y się najpierw sytuacją, w której zm ienna X w populacji generalnej m a rozkład norm alny określony wzorem:
/ ( * ) = - 1 y-v/2rc exp 1 ( * - n ) 2 2 CJ" (7 .2 ) gdzie: (j. - wartość przeciętna,
ct - odchylenie standardow e zm iennej losowej X .
R ozpatrujem y średnią z próby określoną w zorem :
— 1 n
X = - ' E X k,
nic=i (7 .3 )
gdzie zm ienne X k są niezależne i m ają jednakow y rozkład określony w zorem (7.2). M etodą funkcji charakterystycznych615 znaleziono rozkład tej zm iennej dany wzorem :
M *) =
-S=t-\/27C V« exp c r n (7 .4 )Z m ienna A' ma tę sam ą w artość p rzeciętną (n), co zm ienna X . W ariancja zm ien nej X jest n razy m niejsza od wariancji zm iennej X .
Jest ona równa:
(7 .5 )
67 Por.: A. Iwasiewicz, Z. Paszek, op. cit. “ Por. np.: M. Fisz, op. cit., s. 354.
O dchylenie standardow e jest równe zm iennej X i jest równe: a
TT
(7 .6 )O znacza to, że rozproszenie w artości zm iennej X wokół wartości przeciętnej jest m niejsze niż zm iennej X wokół tej sam ej wartości.
P rz y k ła d 7.4
Z m ien n ą X jest ciężar czekoladek produkow anych przez autom at. Z m ienna ta podleg a rozkładow i norm alnem u z p aram etram i ^ = 10 [g] i a = 2 [g], co zapiszemy k ró tk o N(10; 2).
R ozp atrujem y średni ciężar czekoladek w próbach pobranych w sposób losowy i liczących po n = 16 czekoladek.:
a) obliczymy praw dopodobieństw o, że ciężar losowo wybranej czekoladki róż ni się od ciężaru średniego nic więcej niż o 2 [g]:
/>(8S * < 12] = p f c H * = p \ _ , * £ z ł ° < ,j = 0.6826*
Z tablicy 6.6 odczytujemy w wierszu „ - 1 ,0” i kolum nie „0,00” oraz w wierszu „1,0” i w kolum nie 0,00, odpow iednio praw dopodobieństwa: 0,83891 i 0,15625. P raw dopodobieństw a te odejm ujem y i otrzym ujem y podany wyżej wynik. Praw dopodobieństw o wylosowania czekoladki, której ciężar różni się od śred niego ciężaru czekoladek nie więcej niż o 2 [g] jest równe 0,68266.
b) znajdziem y rozkład zm iennej losowej X:
>/2n -e.\p ( .r - 1 0 ) 2 2 -4 16 0,5V2tt exp ( x - 1 0 ) 2 0,5
W ariancja zm iennej X jest rów na a 2 = 0,25 [g2], a odchylenie standardow e ct = 0,5 [g].
c) dla wylosowanego ciągu 16-elementowych prób niezależnych obliczymy praw dopodobieństw o, że uzyskany na ich podstaw ie średni ciężar różni się od śred niego ciężaru czekoladek w populacji generalnej nie więcej niż o 2 [g]:
P{8 < X < 12} = P\ ° 1 = p \ - 4 < <4i> = 0,99997.
0,5 0,5 0,5 0,5
W tym przypadku praw dopodobieństw o, że średni ciężar czekoladek w wybranej losowo prób ie różni się od średniego ich ciężaru w populacji generalnej nie więcej niż o 2 [g] je st rów ne 0,99997.
Uzyskane rezultaty wskazują, że w dużej serii 16-elem entowych p ró b prostych 99997 razy na 100000 otrzym am y takie w artości zm iennej X , k tó re b ęd ą różnić się od wartości (j. nie więcej niż o 2 [g]. Gdybyśmy do szacow ania średniego ciężaru czekola dek użyli prób jednoelem entow ych, a więc w ielokrotnie losowalibyśmy po jednym elem encie, to tylko 68266 razy na 10000 otrzym am y wartości X różniące się od w arto ści przeciętnej w populacji generalnej nie więcej niż o 2 [g].
R o zk ład %2 (C h i2)
Interesuje nas rozkład n niezależnych zm iennych losowych X k (k = 1, 2, ..., n) o jednakow ym rozkładzie norm alnym z w artością przeciętną n = 0 i odchyleniem standardowym o, a więc o gęstości praw dopodobieństw a danej wzorem :
R ozpatrujem y statystykę, k tóra jest sum ą kw adratów n niezależnych zm iennych losowych X , z których każda m a rozkład norm alny o gęstości danej w zorem (7.7). Jest to statystyka zdefiniow ana jako:
P aram etr n nosi nazwę liczby stopni swobody.
P rz y k ła d 7.5
Z m ienne l o s o w e j, (/c = 1 , 2 ,. .. , 16) są niezależne i każda z nich m a jednakow y rozkład N(0; 2). R ozpatrujem y statystykę:
(7 .1 0 ) (7 .8 )
(7 .9 )
R o z k ła d S tu d e n ta
R ozważam y zm ienną losową X zdefiniow aną jako:
gdzie:
zm ienne lo s o w e j, są niezależne i m ają jednakowy rozkład norm alny N(n; a). Zm ienna lo s o w a ć m a rozkład norm alny dany w zorem (7.4). R ozkład ten jest określony, jeśli znam y |j. i a.
Jeśli znam y tylko n, a nie znam y a , to rozkład zm iennej lo so w e j^ jest nieznany'’9. D latego musimy rozważyć taką statystykę, która, będąc funkcją |a, nie zależy od a. Statystykę taką w prow adził G osset, który bardziej znany jest p od pseudonim em Stu dent. W ykazał on, że jeśli z m i e n n e j są niezależnym i zm iennym i losowymi mający mi ten sam rozkład norm alny N(|j.; ct), a zm ienna X jest określona jako:
zaś S jest dane jako:
nie zależy od c.
Z m ien n a określoną w zorem (7.13) jest zm ienną losową o rozkładzie t - Studenta o n -1 stopniach swobody.