ESTYMACJA PUNKTOWANiech

(1)

ESTYMACJA PUNKTOWA Niech ^X¹^,^X²^,...,^Xⁿ będzie prostą próbą losową z rozkładu, którego parametr ^ jest nieznany.

Definicja. Statystykę ^h⁽^X¹^,^X²^,...,^Xⁿ⁾, której realizacje dla konkretnych próbek są „rozsądnymi” ocenami ^ , nazywamy estymatorem parametru ^ i oznaczamy

^ˆ = ^h⁽^X¹^,^X²^,...,^Xⁿ⁾.

Definicja. Estymator ^^ˆ parametru jest nieobciążony, jeśli



 ˆ) (

E .

Przykłady.

(a) Średnia z prostej próby losowej jest nieobciążonym estymatorem wartości średniej ^.



 ) ( X

E .

(b) Wariancja z prostej próby losowej jest

nieobciążonym estymatorem wariancji rozkładu cechy populacji ^².

2 1

2

2 ( )

1 ) 1

( 



 



  

 

 n

i Xi X E n

S

E .

I. Przedziały ufności dla wartości średniej rozkładu normalnego.

(2)

Niech ^X¹^,^X²^,...,^Xⁿ będzie prostą próbą losową z rozkładu normalnego ^N⁽^^,^⁾.

Model 1. ( znane odchylenie standardowe ^ )

 

 n i Xi

X n

1

1 ~ ^N⁽^^, ^_n⁾.

n Z X

 /



  ~ ^N⁽⁰^,¹⁾. Niech ^^⁽⁰^,¹⁾ - ustalona liczba.

^P⁽^z^^/²^_^X_/^^_n^ ^z¹^^^/²⁾ = ¹^^, (1) gdzie ^z^^/² = kwantyl rzędu ^^/² rozkładu ^N⁽⁰^,¹⁾,

2 / 1

z = kwantyl rzędu ¹^^ ^/² rozkładu ^N⁽⁰^,¹⁾, tzn.

) 2

( _/₂ 

 

 z Z

P oraz ^P⁽^Z ^^z¹^^^/²⁾^¹^^₂. Z symetrii standardowej gęstości normalnej

2 / 1 2

/ 

  z 

z .

Równanie (1) można zapisać jako

/ )

( ₁ __/₂ ₁ __/₂







   

 z

n z X

P =

(2) ^P⁽^^z¹^^^/² ^_n ^^X ^^^^z¹^^^/² ^_n⁾ =

(3)

)

( ₁ _/₂ ₁ _/₂

z n n X

z X

P   



 

   

 = ¹^^.

] ,

[ ₁ _/₂ ₁ _/₂ z n n X z

X  



 

 

 - przedział losowy zawierający z prawdopodobieństwem ¹^^ nieznaną wartość średnią ^ . Realizacją tego losowego przedziału obliczoną dla próbki jest

] ,

[ ₁ _/₂ ₁ _/₂ z n n x z

x  



 

 

 =

przedział ufności dla ^ na poziomie ufności ¹^^ Interpretacja częstościowa (sens praktyczny )

przedziału ufności:

Niech ^x¹,^{x ,...,}² ^x^N oznaczają średnie próbkowe obliczone dla N próbek: ⁽^x¹¹^,^x¹²^,...^x¹ⁿ⁾, ⁽^x¹²^,^x²²^,...^xⁿ²⁾, ⁽^x¹^N^,^x²^N^,...^xⁿ^N⁾. Próbki są realizacjami niezależnych prostych prób losowych (

1 12

11,X ,...,X_n

X ), (^X¹²^,^X²²^,...,^Xⁿ²),...., (^X¹^N^,^X²^N^,...,^Xⁿ^N). Dokładniej:

wykonujemy N jednakowych niezależnych

doświadczeń. Każde k-te ( k = 1,2,...,N ) doświadczenie polega na zaobserwowaniu realizacji k-tej prostej próby losowej (^X¹^k^,^X²^k^,...,^Xⁿ^k), tzn. k-tej próbki: ⁽^x¹^k^,^x²^k^,...^xⁿ^k⁾.

Przedział ufności dla ^ na poziomie ufności ¹^^ obliczony dla k-tej próbki ma postać

] ,

[ ₁ _/₂ ₁ _/₂

z n n x

z

x_k  _k 



 

 

 .

Nieznana nam średnia ^ nie dla każdej próbki należy do wyznaczonego dla niej przedziału ufności. Ale, niech

N oznacza liczbę tych doświadczeń dla których

 

^[ 1 /2 ^,x z1 /2 n^]

z n

x_k  _k 



 

 

 .

(4)

Wówczas na mocy interpretacji częstościowej prawdopodobieństwa zdarzenia, dla ^N ^^,

N

N_  ⁽ ^[ 1 /2 ^, 1 /2 ^])

z n n X z

X

P   __   __  =¹^^

Zatem spośród wielu próbek w przybliżeniu⁽¹^^⁾¹⁰⁰^% jest takich dla których wyznaczony przedział ufności zawiera nieznaną wartość średnią ^.

Jak duża powinna być liczność próbki n ? (a) Długość przedziału ^[^x^^z¹^^^/² ^_n^,^x^^z¹^^^/² ^_n^]

jest stała ( nie zależy od próbki ) równa

z n

 2/

2 1_ .

Im większe n tym mniejsza długość przedziału ufności, tzn. tym lepsze oszacowanie przedziałowe ^ na danym poziomie ufności.

(b) Ze wzoru (2) mamy

)

( ₁ _/₂

z n X

P   __  = ¹^^, Niech ^d ^⁰ będzie takie że

z n

/2

1 ^^d, równoważnie ⁿ^^_^^z¹^^_d^/²^^_^².

Wówczas (wykorzystując ^P⁽^A⁾^ ^P⁽^B⁾ dla ^A^^B)





1 =^P⁽^X ^^ ^ ^z¹^^^/² ^_n⁾ ^ ^P⁽^X ^^ ^^d⁾, skąd

)

(X d

P   ^{ 1}^^. Udowodniliśmy

(5)

Stwierdzenie. Jeśli liczność prostej próby losowej z rozkładu normalnego o wartości średniej ^ i

standardowym odchyleniu ^ spełnia warunek

2 2 /

1 



 



 ^ d

n z _  , to

)

(X d

P   ^{ 1}^^.

( Z prawdopodobieństwem co najmniej ¹^^ błąd

bezwzględny oszacowania nieznanej wartości średniej

 poprzez ^X nie przekroczy ^d, tzn. wśród wielu próbek o liczności n częstość takich dla których błąd bezwzględny średniej próbkowej nie przekroczy d jest w przybliżeniu nie mniejsza niż ¹^^. )

Zadanie. Stacja paliw sprzedała 8019 litrów gazu w ciągu 9 losowo wybranych dni. Załóżmy, że dzienna ilość sprzedanego gazu ma rozkład normalny o

standardowym odchyleniu ^ ^⁹⁰ (litrów). Skonstruować przedziały ufności dla średniej dziennej sprzedaży gazu na poziomach ufności:

(a) 0,98 (b) 0,80.

Mamy: ^{ }_⁹

1

, 8019

i xi n = 9, ^ ^⁹⁰, skąd

. 9 891 9019 

 x

(a) ^ ^ ⁰^,⁰²^, ¹^^^/²^⁰^,⁹⁹, ^z⁰^,⁹⁹ ^²^,³³. 98% przedział ufności dla ^:

(6)

[891 – 2,33⁹⁰₉, 891 + 2,33⁹⁰₉] = [821,1, 960,9]

(b) ^ ^⁰^,²⁰, ¹^^^/²^⁰^,⁹⁰, ^z⁰^,⁹⁰ ^¹^,²⁸.

80% przedział ufności dla ^ = [852,6, 929,4].

Zadanie. Producent chce ocenić średnią zawartość nikotyny w paczkach papierosów pewnego gatunku.

Wiadomo, że standardowe odchylenie zawartości nikotyny w losowo wybranej paczce papierosów ^ ^⁸ (mg),

Znaleźć liczbę paczek papierosów, w których należy zbadać zawartość nikotyny, aby na poziomie ufności co najmniej 0,95 móc stwierdzić, że obliczona średnia z próbki ^x nie będzie się różniła od prawdziwej średniej zawartości nikotyny ^ o więcej niż 1,5 (mg).

Zakładając rozkład normalny zawartości nikotyny w paczce papierosów mamy:

Dla ^ ^⁰^,⁰⁵, ^ ^⁸^, ^d ^¹^,⁵, ^z¹^^^/² ^ ^z⁰^,⁹⁷⁵ ^¹^,⁹⁶.

95 , 0 ) (X  d 

P  , jeśli ⁿ^^_^^z¹^^_d^/²^^_^², tzn.

2

5 , 1

8 96 ,

1 



 



 



n . Stąd liczność próbki powinna być: ⁿ^¹⁰⁹.

Model 2. ( nieznane odchylenie standardowe ^ )

(7)

W poprzednim modelu wykorzystano

n Z X

/



  . Podstawiając zamiast ^ estymator ^ , tzn. ^S ^ ^S², gdzie ^ _ ^_ⁿ ^

i Xi X

S n

1

2

2 ( )

1

1 , otrzymujemy zmienną losową

n S T X

/



  .

T ma znany rozkład: t Studenta z ⁿ^¹ stopniami swobody, gdzie

Definicja. Niech ^Z⁰^,^Z¹^,...,^Z^k będą niezależnymi zmiennymi losowymi o rozkładach ^N⁽⁰^,¹⁾.

Rozkład prawdopodobieństwa zmiennej losowej

V = _Z ^Z _Z _k

k)/ ...

( ₁² ²

0



 nazywamy rozkładem t Studenta z k stopniami swobody.

Notacja. ^{V ~}^t^k.

Własności rozkładu ^t^k :

Gęstość symetryczna o podobnym kształcie jak gęstość normalna, ^E⁽^V⁾^ ⁰^, Dla ^k^³⁰ można przyjąć

) 1 , 0 ( N

t_k  .

Mając zmienną losową ^T ^~^tⁿ^¹ budujemy przedział ufności dla ^ analogicznie jak w modelu 1:

] ,

[ ₁ _/₂_, ₁ ₁ _/₂_, ₁ n t s

n x t s

x __ _n_  __ _n_ , gdzie

1 , 2 / 1 n

t _ = kwantyl rzędu ¹^^ ^/² rozkładu t Studenta o ⁿ^¹ stopniach swobody.

(8)

Uwaga. Jeśli ⁿ^³⁰, to przyjmujemy

2 / 1 1 , 2 /

1   z

t _n .

Zadanie. Zanotowano czasy obsługi przy okienku kasowym ( w minutach ) 64 losowo wybranych

klientów pewnego banku. Obliczono: średnią z próbki

2 ,

3

x (min.) oraz wariancję z próbki ^s² ^¹^,⁴⁴ (min.²) Znaleźć 98% przedział ufności dla średniego czasu obsługi ^, jeśli można założyć, że czas obsługi klienta przy okienku kasowym ma rozkład normalny.

Mamy: ^x ^³^,², ^s^ ¹^,⁴⁴, n =64, ⁿ^¹^⁶³ = liczba stopni swobody, ^ ^⁰^,⁰², ¹^^/²^⁰^,⁹⁹,

33 ,

99 2

, 0 63 , 99 ,

0  z 

t .

98% przedział ufności dla ^ ma postać

] ,

[ ₁ _/₂_, ₁ ₁ _/₂_, ₁ n t s

n x t s

x __ _n_  __ _n_ =

[3,2 - 2,33 ¹₆₄^,⁴⁴, 3,2 + 2,33 ¹₆₄^,⁴⁴] = [2,85, 3,55].

Zadanie. W ciągu pięciu losowo wybranych tygodni zaobserwowano następujące zużycia cukru ( w

gospodarstwie domowym, w kg ):

3,8, 4,5, 5,2, 4,0, 5,5.

Skonstruować 90% przedział ufności dla średniego

tygodniowego zużycia cukru w tym gospodarstwie, jeśli można przyjąć rozkład normalny zużycia cukru.

(9)

Obliczamy: ^x= 4,6 oraz

         

 5 1

2 2

2

2 ( 0,8) ( 0,1) (0,6) ( 0,6) (0,9) )

(

i xi x = 2,18.

Stąd, ^s² ^₅²^,_¹⁸₁^⁰^,⁵⁴⁵, ^s^ ⁰^,⁵⁴⁵= 0,738

1 ,

0

 , ¹^^^/²^⁰^,⁹⁵, 5 – 1 = 4 = liczba stopni swobody,

4 

, 95 ,

t0 2,132.

90% przedział ufności dla ^ ma postać:

] ,

[ ₁ _/₂_, ₁ ₁ _/₂_, ₁ n t s

n x t s

x __ _n_  __ _n_ =

[ 4,6 – 2,132⁰^,⁷³⁸₅ ^, 4,6 + 2,132⁰^,⁷³⁸₅ ]= [3,896, 5,304].

II. Przedziały ufności dla różnicy wartości średnich dwóch rozkładów normalnych.

Niech ^X¹^,^X²^,...,^Xⁿ¹ oraz ^Y¹^,^Y²^,...,^Yⁿ² będą dwiema

niezależnymi prostymi próbami losowymi z rozkładów normalnych ^N⁽^¹^,^¹⁾ oraz ^N⁽^²^,^²⁾, odpowiednio.

Model 3. ( znane odchylenia standardowe ^¹^,^² ) Średnie z obu prób losowych ^{X ,}^Y są niezależnymi zmiennymi losowymi o rozkładach normalnych

(10)

) , (

1 1 n1

N   , ^N⁽^²^, ^_n²₂⁾ , odpowiednio. Stąd z własności rozkładu normalnego ^X ^^Y ma rozkład normalny o wartości średniej ^{ }¹ ^² i wariancji

2 22

1 12

n n



  , gdyż E(^X ^^Y ) = E(^X) + E( - ^Y ) = E(^X ) - E( ^Y ) Var(^X ^^Y) = Var(^X ) + Var(-^Y ) =

Var(^X ) + ^(¹⁾² Var(^Y ) =

2 22

1 12

n n



  ,

skąd po standaryzacji mamy

2 2 2 2 1

1

2 1

/ /

) (

n n

Y Z X









  ~ ^N⁽⁰^,¹⁾.

Postępując dokładnie tak samo jak w przypadku jednej próby ( ^[^x^^z¹^^^/² ^_n^,^x^^z¹^^^/² ^_n^] )otrzymamy przedział ufności dla ^¹^^² na poziomie ufności ¹^^:











   _    _ 

2 22

1 12 2 / 1 2

22

1 12 2 /

1 ,( )

)

( x y z n n

n z n

y

x    



Model 4. ( nieznane odchylenia standardowe ^¹^,^² ) Założenie dodatkowe: ^¹^^² ^^, ^ - nieznane.

2 2 2 2 1

1

2 1

/ /

) (

n n

Y Z X









  =

2 1

/ 1 / 1

) (

n n Y X









Var(^X ^^Y ) = ^_^ ^ ^_^

2 1

2 1 1

n

 n ,

(11)

Niech

 

 

 1 1

2 1

12 ( )

1 1 ⁿ

i Xi X

S n , ^ _ ^_²₁ ^ ²

2

22 ( )

1 1 ⁿ

i Yi Y

S n -

nieobciążone estymatory ^².

Estymatorem nieobciążonym ^², opartym na dwu próbach łącznie, jest statystyka

2 ) 1 ( ) 1 (

2 1

22 2 2

1 2 1









 

n n

S n S

S_p n .

Wówczas we wzorze na Z podstawiając ^S^p ^ ^S²^p zamiast ^ otrzymujemy statystykę

2 1

1 1

) (

n S n

Y T X

p 



   

~ ^tⁿ¹^n²^².

Analogicznie jak w modelu 3 otrzymujemy przedział ufności dla ^¹^^² na poziomie ufności ¹^^:



 



   _    _ 

2 1 2 / 1 2

1 2 / 1

1 ) 1

( 1 , ) 1

( x y t s n n

n s n

t y

x _ _p _ _p gdzie:

2 ,

2 / 1 2 /

1 t _n₁_n₂

t _ _ = kwantyl rzędu ⁿ¹^{ n}² ^² rozkładu t Studenta z ⁿ¹^{ n}² ^² stopniami swobody.

Zadanie. 10 żarówek producenta A miało średni czas życia 1850 (godz.) oraz standardowe odchylenie ^s¹ ^¹³⁰ (godz.). Natomiast 12 żarówek producenta B miało średni czas życia 1940 (godz.) oraz standardowe

odchylenie ^s² ^¹⁴⁰ (godz.). Skonstruować 95% przedział

(12)

ufności dla różnicy prawdziwych wartości średnich czasów życia żarówek producentów A i B.

( podać odpowiednie założenia ).

Zadanie. U 8 kierowców zanotowano czasy reakcji ( na pewien bodziec ) w sek. :

3,0, 2,0, 1,0, 2,5, 1,5, 4,0, 1,0, 2,0.

U 6 innych kierowców zbadano czasy reakcji n bodziec po spożyciu określonej dawki alkoholu:

5,0, 4,0, 3,0, 4,5, 2,0, 2,5.

Znaleźć 95% przedział ufności dla różnicy wartości średnich czasów reakcji w obu populacjach.

Zadanie. Dla realizacji 2 niezależnych prób losowych z rozkładów normalnych otrzymano:

50

x , ^s¹ ^⁶, ⁿ¹ ^¹⁰^,

56

y , ^s² ^⁸^, ⁿ² ^¹⁴,

Znaleźć 90% przedział ufności dla różnicy wartości średnich tych rozkładów.

2 ) 1 ( ) 1 (

2 1

22 2 2

1 2 1









 

n n

s n s

s_p n = ⁹^₁₀⁶²_^₁₄¹³_^₂⁸² = 52,55.

. 249 ,

7

sp   0,1, 1/20,95, ⁿ¹^{ n}²^²^²² = liczba stopni swobody, ^t⁰^,⁹⁵^,²² ^¹^,⁷¹⁷^.



 



      

2 1 2

1

1 717 1

, 1 ) ( 1 , 717 1

, 1 )

( x y s n n

n s n

y

x _p _p

(13)

[50 – 56 – 1,717(7,249) ₁₀^{1 }₁₄¹ , 50 – 56 +

1,717(7,249) ₁₀^{1 }₁₄¹ ] = [-11,15, -0,85].

III. Przedziały ufności dla wariancji rozkładu normalnego.

Model 5. Przedział ufności dla wariancji.

Niech ^X¹^,^X²^,...,^Xⁿ będzie prostą próbą losową z rozkładu normalnego ^N⁽^^,^⁾, ^^,^ są nieznane.

Definicja. Niech ^X¹^,^X²^,...,^Xⁿ będą niezależnymi

zmiennymi losowymi o rozkładach ^N⁽⁰^,¹⁾. Wówczas zmienna losowa

 

 n i Xi

1 2

2

ma rozkład ^² o n stopniach swobody.

Notacja: ^² ^~^ⁿ².

Zauważmy, że dla prostej próby losowej z rozkładu

) , ( 

N , po standaryzacji, zmienne losowe











  

 X X_n

X¹ , ² ,..., są niezależne o rozkładach

) 1 , 0 (

N . Stąd

(14)

 



 



 

 n i

Xi 1

2



 ₂

~_n

Dowodzi się, że zastępując nieznaną wartość średnią ^ przez średnią z próby losowej ^X otrzymamy zmienną losową:

 

 



 



 

  n i

i X n S

X

1 2

2 2

2 ( 1)

 

 ^~ ^ⁿ²^¹.

Stąd



 

_ _  

 



 _ ( 1)  2_ _ 1

1 , 2 / 2 1

2 2 1 , 2

/ n n

S

P n , (3)

gdzie ^^²^/²^,ⁿ^¹, ^¹²^^^/²^,ⁿ^¹ są kwantylami rzędu ^^/², ¹^^ ^/², odpowiednio, rozkładu ^ⁿ²^¹.

Wzór (3) zapisujemy równoważnie:

 

 _  _ ^^_^ ^







    



) 1 1 ( )

1 (

2/2, 1 2 2

2 /2, 1 1

2

n n

S n S

P n .

Stąd, przedziałami ufności na poziomie ufności ¹^^ są (a) dla wariancji ^²rozkładu normalnego











  



 2

1 , 2 /

2 2 /2, 1

1

2 ( 1)

) , 1 (

n n

s n s n



 

 ,

(b) dla standardowego odchylenia ^ rozkładu normalnego











  



 2

1 , 2 /

2 2 /2, 1

1

2 ( 1)

) , 1 (

n n

s n s

n



 

 .

(15)

Zadanie. Plastyk zużył następujące ilości farby do pomalowania 6 talerzy:

8,1, 8,7, 7,6, 7,8, 8,5, 7,9.

Znaleźć 95% przedział ufności dla wariancji, zakładając rozkład normalny farby potrzebnej do pomalowania 1 talerza.

Rozwiązanie.

Obliczamy ^_⁶ ^ ^

1

)2

(

i xi x 0,9. Stąd

1 6

)

6 (

1

2 2



 

ⁱ^ ⁱ x x

s = ⁰₅^,⁹ = 0,18.

, 05 ,

 0

 /2 = 0,025, ¹^^^/² = 0,975, ⁿ^¹^⁶^¹^⁵ = liczba stopni swobody.

Z tablic kwantyli rozkładu ^⁵² można odczytać

831 ,

2 0

5 , 025 ,

0 

 , ^⁰²^,⁹⁷⁵^,⁵ ^¹²^,⁸³²











  



 2

1 , 2 /

2 2 /2, 1

1

2 ( 1)

) , 1 (

n n

s n s n



 

 = _^₁₂⁰_,₈₃₂^,⁹ ^,₀_,⁰₈₃₁^,⁹ _^

Model 6. Przedział ufności dla ilorazu wariancji dwóch rozkładów normalnych.

Niech ^X¹^,^X²^,...,^Xⁿ¹ oraz ^Y¹^,^Y²^,...,^Yⁿ² będą dwiema

niezależnymi prostymi próbami losowymi z rozkładów normalnych ^N⁽^¹^,^¹⁾ oraz ^N⁽^²^,^²⁾, odpowiednio.