ESTYMACJA PUNKTOWA Niech X1,X2,...,Xn będzie prostą próbą losową z rozkładu, którego parametr jest nieznany.
Definicja. Statystykę h(X1,X2,...,Xn), której realizacje dla konkretnych próbek są „rozsądnymi” ocenami , nazywamy estymatorem parametru i oznaczamy
ˆ = h(X1,X2,...,Xn).
Definicja. Estymator ˆ parametru jest nieobciążony, jeśli
ˆ) (
E .
Przykłady.
(a) Średnia z prostej próby losowej jest nieobciążonym estymatorem wartości średniej .
) ( X
E .
(b) Wariancja z prostej próby losowej jest
nieobciążonym estymatorem wariancji rozkładu cechy populacji 2.
2 1
2
2 ( )
1 ) 1
(
n
i Xi X E n
S
E .
I. Przedziały ufności dla wartości średniej rozkładu normalnego.
Niech X1,X2,...,Xn będzie prostą próbą losową z rozkładu normalnego N(,).
Model 1. ( znane odchylenie standardowe )
n i Xi
X n
1
1 ~ N(, n).
n Z X
/
~ N(0,1). Niech (0,1) - ustalona liczba.
P(z/2X/n z1/2) = 1, (1) gdzie z/2 = kwantyl rzędu /2 rozkładu N(0,1),
2 / 1
z = kwantyl rzędu 1 /2 rozkładu N(0,1), tzn.
) 2
( /2
z Z
P oraz P(Z z1/2)12. Z symetrii standardowej gęstości normalnej
2 / 1 2
/
z
z .
Równanie (1) można zapisać jako
/ )
( 1 /2 1 /2
z
n z X
P =
(2) P(z1/2 n X z1/2 n) =
)
( 1 /2 1 /2
z n n X
z X
P
= 1.
] ,
[ 1 /2 1 /2 z n n X z
X
- przedział losowy zawierający z prawdopodobieństwem 1 nieznaną wartość średnią . Realizacją tego losowego przedziału obliczoną dla próbki jest
] ,
[ 1 /2 1 /2 z n n x z
x
=
przedział ufności dla na poziomie ufności 1 Interpretacja częstościowa (sens praktyczny )
przedziału ufności:
Niech x1,x ,...,2 xN oznaczają średnie próbkowe obliczone dla N próbek: (x11,x12,...x1n), (x12,x22,...xn2), (x1N,x2N,...xnN). Próbki są realizacjami niezależnych prostych prób losowych (
1 12
11,X ,...,Xn
X ), (X12,X22,...,Xn2),...., (X1N,X2N,...,XnN). Dokładniej:
wykonujemy N jednakowych niezależnych
doświadczeń. Każde k-te ( k = 1,2,...,N ) doświadczenie polega na zaobserwowaniu realizacji k-tej prostej próby losowej (X1k,X2k,...,Xnk), tzn. k-tej próbki: (x1k,x2k,...xnk).
Przedział ufności dla na poziomie ufności 1 obliczony dla k-tej próbki ma postać
] ,
[ 1 /2 1 /2
z n n x
z
xk k
.
Nieznana nam średnia nie dla każdej próbki należy do wyznaczonego dla niej przedziału ufności. Ale, niech
N oznacza liczbę tych doświadczeń dla których
[ 1 /2 ,x z1 /2 n]z n
xk k
.
Wówczas na mocy interpretacji częstościowej prawdopodobieństwa zdarzenia, dla N ,
N
N ( [ 1 /2 , 1 /2 ])
z n n X z
X
P =1
Zatem spośród wielu próbek w przybliżeniu(1)100% jest takich dla których wyznaczony przedział ufności zawiera nieznaną wartość średnią .
Jak duża powinna być liczność próbki n ? (a) Długość przedziału [xz1/2 n,xz1/2 n]
jest stała ( nie zależy od próbki ) równa
z n
2/
2 1 .
Im większe n tym mniejsza długość przedziału ufności, tzn. tym lepsze oszacowanie przedziałowe na danym poziomie ufności.
(b) Ze wzoru (2) mamy
)
( 1 /2
z n X
P = 1, Niech d 0 będzie takie że
z n
/2
1 d, równoważnie nz1d/22.
Wówczas (wykorzystując P(A) P(B) dla AB)
1 =P(X z1/2 n) P(X d), skąd
)
(X d
P 1. Udowodniliśmy
Stwierdzenie. Jeśli liczność prostej próby losowej z rozkładu normalnego o wartości średniej i
standardowym odchyleniu spełnia warunek
2 2 /
1
d
n z , to
)
(X d
P 1.
( Z prawdopodobieństwem co najmniej 1 błąd
bezwzględny oszacowania nieznanej wartości średniej
poprzez X nie przekroczy d, tzn. wśród wielu próbek o liczności n częstość takich dla których błąd bezwzględny średniej próbkowej nie przekroczy d jest w przybliżeniu nie mniejsza niż 1. )
Zadanie. Stacja paliw sprzedała 8019 litrów gazu w ciągu 9 losowo wybranych dni. Załóżmy, że dzienna ilość sprzedanego gazu ma rozkład normalny o
standardowym odchyleniu 90 (litrów). Skonstruować przedziały ufności dla średniej dziennej sprzedaży gazu na poziomach ufności:
(a) 0,98 (b) 0,80.
Mamy: 9
1
, 8019
i xi n = 9, 90, skąd
. 9 891 9019
x
(a) 0,02, 1/20,99, z0,99 2,33. 98% przedział ufności dla :
[891 – 2,33909, 891 + 2,33909] = [821,1, 960,9]
(b) 0,20, 1/20,90, z0,90 1,28.
80% przedział ufności dla = [852,6, 929,4].
Zadanie. Producent chce ocenić średnią zawartość nikotyny w paczkach papierosów pewnego gatunku.
Wiadomo, że standardowe odchylenie zawartości nikotyny w losowo wybranej paczce papierosów 8 (mg),
Znaleźć liczbę paczek papierosów, w których należy zbadać zawartość nikotyny, aby na poziomie ufności co najmniej 0,95 móc stwierdzić, że obliczona średnia z próbki x nie będzie się różniła od prawdziwej średniej zawartości nikotyny o więcej niż 1,5 (mg).
Zakładając rozkład normalny zawartości nikotyny w paczce papierosów mamy:
Dla 0,05, 8, d 1,5, z1/2 z0,975 1,96.
95 , 0 ) (X d
P , jeśli nz1d/22, tzn.
2
5 , 1
8 96 ,
1
n . Stąd liczność próbki powinna być: n109.
Model 2. ( nieznane odchylenie standardowe )
W poprzednim modelu wykorzystano
n Z X
/
. Podstawiając zamiast estymator , tzn. S S2, gdzie n
i Xi X
S n
1
2
2 ( )
1
1 , otrzymujemy zmienną losową
n S T X
/
.
T ma znany rozkład: t Studenta z n1 stopniami swobody, gdzie
Definicja. Niech Z0,Z1,...,Zk będą niezależnymi zmiennymi losowymi o rozkładach N(0,1).
Rozkład prawdopodobieństwa zmiennej losowej
V = Z Z Z k
k)/ ...
( 12 2
0
nazywamy rozkładem t Studenta z k stopniami swobody.
Notacja. V ~tk.
Własności rozkładu tk :
Gęstość symetryczna o podobnym kształcie jak gęstość normalna, E(V) 0, Dla k30 można przyjąć
) 1 , 0 ( N
tk .
Mając zmienną losową T ~tn1 budujemy przedział ufności dla analogicznie jak w modelu 1:
] ,
[ 1 /2, 1 1 /2, 1 n t s
n x t s
x n n , gdzie
1 , 2 / 1 n
t = kwantyl rzędu 1 /2 rozkładu t Studenta o n1 stopniach swobody.
Uwaga. Jeśli n30, to przyjmujemy
2 / 1 1 , 2 /
1 z
t n .
Zadanie. Zanotowano czasy obsługi przy okienku kasowym ( w minutach ) 64 losowo wybranych
klientów pewnego banku. Obliczono: średnią z próbki
2 ,
3
x (min.) oraz wariancję z próbki s2 1,44 (min.2) Znaleźć 98% przedział ufności dla średniego czasu obsługi , jeśli można założyć, że czas obsługi klienta przy okienku kasowym ma rozkład normalny.
Mamy: x 3,2, s 1,44, n =64, n163 = liczba stopni swobody, 0,02, 1/20,99,
33 ,
99 2
, 0 63 , 99 ,
0 z
t .
98% przedział ufności dla ma postać
] ,
[ 1 /2, 1 1 /2, 1 n t s
n x t s
x n n =
[3,2 - 2,33 164,44, 3,2 + 2,33 164,44] = [2,85, 3,55].
Zadanie. W ciągu pięciu losowo wybranych tygodni zaobserwowano następujące zużycia cukru ( w
gospodarstwie domowym, w kg ):
3,8, 4,5, 5,2, 4,0, 5,5.
Skonstruować 90% przedział ufności dla średniego
tygodniowego zużycia cukru w tym gospodarstwie, jeśli można przyjąć rozkład normalny zużycia cukru.
Obliczamy: x= 4,6 oraz
5 1
2 2
2 2
2
2 ( 0,8) ( 0,1) (0,6) ( 0,6) (0,9) )
(
i xi x = 2,18.
Stąd, s2 52,1810,545, s 0,545= 0,738
1 ,
0
, 1/20,95, 5 – 1 = 4 = liczba stopni swobody,
4
, 95 ,
t0 2,132.
90% przedział ufności dla ma postać:
] ,
[ 1 /2, 1 1 /2, 1 n t s
n x t s
x n n =
[ 4,6 – 2,1320,7385 , 4,6 + 2,1320,7385 ]= [3,896, 5,304].
II. Przedziały ufności dla różnicy wartości średnich dwóch rozkładów normalnych.
Niech X1,X2,...,Xn1 oraz Y1,Y2,...,Yn2 będą dwiema
niezależnymi prostymi próbami losowymi z rozkładów normalnych N(1,1) oraz N(2,2), odpowiednio.
Model 3. ( znane odchylenia standardowe 1,2 ) Średnie z obu prób losowych X ,Y są niezależnymi zmiennymi losowymi o rozkładach normalnych
) , (
1 1 n1
N , N(2, n22) , odpowiednio. Stąd z własności rozkładu normalnego X Y ma rozkład normalny o wartości średniej 1 2 i wariancji
2 22
1 12
n n
, gdyż E(X Y ) = E(X) + E( - Y ) = E(X ) - E( Y ) Var(X Y) = Var(X ) + Var(-Y ) =
Var(X ) + (1)2 Var(Y ) =
2 22
1 12
n n
,
skąd po standaryzacji mamy
2 2 2 2 1
1
2 1
/ /
) (
) (
n n
Y Z X
~ N(0,1).
Postępując dokładnie tak samo jak w przypadku jednej próby ( [xz1/2 n,xz1/2 n] )otrzymamy przedział ufności dla 12 na poziomie ufności 1:
2 22
1 12 2 / 1 2
22
1 12 2 /
1 ,( )
)
( x y z n n
n z n
y
x
Model 4. ( nieznane odchylenia standardowe 1,2 ) Założenie dodatkowe: 12 , - nieznane.
2 2 2 2 1
1
2 1
/ /
) (
) (
n n
Y Z X
=
2 1
2 1
/ 1 / 1
) (
) (
n n Y X
Var(X Y ) =
2 1
2 1 1
n
n ,
Niech
1 1
2 1
12 ( )
1 1 n
i Xi X
S n , 21 2
2
22 ( )
1 1 n
i Yi Y
S n -
nieobciążone estymatory 2.
Estymatorem nieobciążonym 2, opartym na dwu próbach łącznie, jest statystyka
2 ) 1 ( ) 1 (
2 1
22 2 2
1 2 1
n n
S n S
Sp n .
Wówczas we wzorze na Z podstawiając Sp S2p zamiast otrzymujemy statystykę
2 1
2 1
1 1
) (
) (
n S n
Y T X
p
~ tn1n22.
Analogicznie jak w modelu 3 otrzymujemy przedział ufności dla 12 na poziomie ufności 1:
2 1 2 / 1 2
1 2 / 1
1 ) 1
( 1 , ) 1
( x y t s n n
n s n
t y
x p p gdzie:
2 ,
2 / 1 2 /
1 t n1n2
t = kwantyl rzędu n1 n2 2 rozkładu t Studenta z n1 n2 2 stopniami swobody.
Zadanie. 10 żarówek producenta A miało średni czas życia 1850 (godz.) oraz standardowe odchylenie s1 130 (godz.). Natomiast 12 żarówek producenta B miało średni czas życia 1940 (godz.) oraz standardowe
odchylenie s2 140 (godz.). Skonstruować 95% przedział
ufności dla różnicy prawdziwych wartości średnich czasów życia żarówek producentów A i B.
( podać odpowiednie założenia ).
Zadanie. U 8 kierowców zanotowano czasy reakcji ( na pewien bodziec ) w sek. :
3,0, 2,0, 1,0, 2,5, 1,5, 4,0, 1,0, 2,0.
U 6 innych kierowców zbadano czasy reakcji n bodziec po spożyciu określonej dawki alkoholu:
5,0, 4,0, 3,0, 4,5, 2,0, 2,5.
Znaleźć 95% przedział ufności dla różnicy wartości średnich czasów reakcji w obu populacjach.
Zadanie. Dla realizacji 2 niezależnych prób losowych z rozkładów normalnych otrzymano:
50
x , s1 6, n1 10,
56
y , s2 8, n2 14,
Znaleźć 90% przedział ufności dla różnicy wartości średnich tych rozkładów.
2 ) 1 ( ) 1 (
2 1
22 2 2
1 2 1
n n
s n s
sp n = 910621413282 = 52,55.
. 249 ,
7
sp 0,1, 1/20,95, n1 n2222 = liczba stopni swobody, t0,95,22 1,717.
2 1 2
1
1 717 1
, 1 ) ( 1 , 717 1
, 1 )
( x y s n n
n s n
y
x p p
[50 – 56 – 1,717(7,249) 101 141 , 50 – 56 +
1,717(7,249) 101 141 ] = [-11,15, -0,85].
III. Przedziały ufności dla wariancji rozkładu normalnego.
Model 5. Przedział ufności dla wariancji.
Niech X1,X2,...,Xn będzie prostą próbą losową z rozkładu normalnego N(,), , są nieznane.
Definicja. Niech X1,X2,...,Xn będą niezależnymi
zmiennymi losowymi o rozkładach N(0,1). Wówczas zmienna losowa
n i Xi
1 2
2
ma rozkład 2 o n stopniach swobody.
Notacja: 2 ~n2.
Zauważmy, że dla prostej próby losowej z rozkładu
) , (
N , po standaryzacji, zmienne losowe
X Xn
X1 , 2 ,..., są niezależne o rozkładach
) 1 , 0 (
N . Stąd
n i
Xi 1
2
2
~n
Dowodzi się, że zastępując nieznaną wartość średnią przez średnią z próby losowej X otrzymamy zmienną losową:
n i
i X n S
X
1 2
2 2
2 ( 1)
~ n21.
Stąd
( 1) 2 1
1 , 2 / 2 1
2 2 1 , 2
/ n n
S
P n , (3)
gdzie 2/2,n1, 12/2,n1 są kwantylami rzędu /2, 1 /2, odpowiednio, rozkładu n21.
Wzór (3) zapisujemy równoważnie:
) 1 1 ( )
1 (
2/2, 1 2 2
2 /2, 1 1
2
n n
S n S
P n .
Stąd, przedziałami ufności na poziomie ufności 1 są (a) dla wariancji 2rozkładu normalnego
2
1 , 2 /
2 2 /2, 1
1
2 ( 1)
) , 1 (
n n
s n s n
,
(b) dla standardowego odchylenia rozkładu normalnego
2
1 , 2 /
2 2 /2, 1
1
2 ( 1)
) , 1 (
n n
s n s
n
.
Zadanie. Plastyk zużył następujące ilości farby do pomalowania 6 talerzy:
8,1, 8,7, 7,6, 7,8, 8,5, 7,9.
Znaleźć 95% przedział ufności dla wariancji, zakładając rozkład normalny farby potrzebnej do pomalowania 1 talerza.
Rozwiązanie.
Obliczamy 6
1
)2
(
i xi x 0,9. Stąd
1 6
)
6 (
1
2 2
i i x x
s = 05,9 = 0,18.
, 05 ,
0
/2 = 0,025, 1/2 = 0,975, n1615 = liczba stopni swobody.
Z tablic kwantyli rozkładu 52 można odczytać
831 ,
2 0
5 , 025 ,
0
, 02,975,5 12,832
2
1 , 2 /
2 2 /2, 1
1
2 ( 1)
) , 1 (
n n
s n s n
= 120,832,9 ,0,0831,9
Model 6. Przedział ufności dla ilorazu wariancji dwóch rozkładów normalnych.
Niech X1,X2,...,Xn1 oraz Y1,Y2,...,Yn2 będą dwiema
niezależnymi prostymi próbami losowymi z rozkładów normalnych N(1,1) oraz N(2,2), odpowiednio.