Statystyka matematyczna w2-2015

(1)

1

STATYSTYKA MATEMATYCZNA

WYKŁAD 2

(2)

2

Niech  - nieznany parametr rozkładu cechy X. Wartość parametru  będziemy estymować

(przybliżać) na podstawie n elementowej próby. - wybieramy statystykę U_n o rozkładzie zależnym od  - obliczamy na podstawie próby jej wartość u_n

- przyjmujemy, że   u_n

(3)

3

Klasyfikacja estymatorów. Estymator Un jest:

- zgodny jeśli Un  n  wg prawdopodobieństwa - nieobciążony jeśli E(U_n) 

- asymptotycznie nieobciążony jeśli 



 ( )

lim _n

n E U

- najefektywniejszy gdy jest nieobciążony i ma najmniejszą wariancję w klasie nieobciążonych estymatorów tego parametru,

- asymptotycznie najefektywniejszy gdy jest nieobciążony lub asymptotycznie nieobciążony i jego wariancja dąży do wariancji estymatora najefektywniejszego.

(4)

4

Przykład

Niech X – N(m;



). Przyjmijmy, że mamy próbę (X1, X2, X3, X4). Zakładamy, że



= 1

jest znane , szukamy estymatora parametru m . Rozpatrzmy kilka prostych estymatorów.

4 1 1 X X U   ) ( 2 1 3 1 2 X X U   4 3 X U  ) ( 3 1 3 1 4 X X U   4 2 2 5 X U X U   



  4 1 6 10 1 i i iX U

(5)

5

Policzmy wartości oczekiwane tych

estymatorów (zbadamy czy są nieobciążone).  U m E ₁  2  U m E ₂   U m E ₃   U m E 3 2 4   U m E ₅   U m E ₆ 

Zatem estymatory U1 i U4 są obciążone, należy

(6)

6

Policzmy wariancje pozostałych estymatorów.  ₂ 0,5 2  U D  ₃ 0,25 2  U D  ₅ 2,5 2  U D  ₆ 0,3 2  U D

Zatem estymator U3 ma najmniejszą

(7)

7

Estymatory parametrów rozkładu N(m, ). Parametr Estymator Własności estymatora

m _X_n Zgodny. Nieobciążony. Najefektywniejszy.

2

2

n

S Zgodny. Asymptot. nieobciążony.

Asymptot. najefektywniejszy. 2 ˆ n S Zgodny. Nieobciążony. Asymptot. najefektywniejszy. 2 0 n S Zgodny. Nieobciążony. Najefektywniejszy.  _S_n _Sˆ_n 0 n S

Zgodne. Asymptot. nieobciążone. Asymptot. najefektywniejsze.

(8)

8

Estymatory innych parametrów.

Parametr Estymator Własności estymatora

Wartość oczekiwana (rozkład dowolny) n

X

Zgodny. Nieobciążony.  (rozkład Poissona) Xn Zgodny. Nieobciążony. Najefektywniejszy. p (rozkład zero-jedynkowy) n sukcesów liczba W  = średnia częstość sukcesu Zgodny. Nieobciążony. Najefektywniejszy. Wariancja (rozkład dowolny) 2 n S Zgodny. Asymptot. nieobciążony. 2 ˆ n S Zgodny. Nieobciążony.

(9)

9

Uwaga

a) w praktyce zgodność estymatora sprawdza

się na podstawie praw wielkich liczb lub korzysta się z faktu, że estymator nieobciążony (asymptotycznie nieobcią-żony), którego wariancja dąży do zera (tzn.

0

lim 



 n

2

n D U ) jest estymatorem zgodnym.

b) w praktyce efektywność estymatora bada się

(10)

10

Dla (praktycznie każdego) estymatora

nieobciążonego U_n prawdziwa jest nierówność

 













i d pi pi d n n U 2 D ) ( 2 ) ( ln 1



dla zmiennej losowej skokowej

             dx ) , x ( f ) , x ( f ln n n U 2 D    2 1 dla zmiennej losowej ciągłej

(11)

11

Przy czym dla estymatora

najefektywniejszego zachodzi równość (jeśli istnieje estymator najefektywniejszy to prawe strony powyższych nierówności są równe jego wariancji).

(12)

12

C. R. Rao (1920 - ), Harald Cramér (1893-1985),

(13)

(14)

14

Przykład

Niech X – N(m;



). Przyjmijmy, że estymatorem parametru m jest Xn.

(15)

15 Rozwiązanie:

 

nm m n m n X E n X n E X E n i n i i n i i n           



   1 1 ) ( 1 1 1 1 1

(16)

16

 

n n n n i n ) n i i X ( 2 D n n i i X n 2 D n X 2 D 2 2 2 1 1 2 2 1 1 2 1 1 1               _      

 

lim 0 lim 2 2       _n X D n n n 

(17)

17   2 2 2

2

1 )

,

(







m x

e

m

x

f

 



Wyznaczmy prawą stronę nierówności Rao-Cramera:

(18)

18 x m f x m dx n n n dx m x f m x f m n 2 2 4 2 4 2 1 ) , ( 1 ) , ( ) , ( ln 1                 



     

(19)

19 Przykład Niech X – N(m;



). Obliczymy E

 

Sn2 ,

 

2 ˆ n S E _, E

 

S_n02 _.

(20)

20 Rozwiązanie:

 

  2 2 1 2 2 2 2 2 2 2 2 ) 1 (                            n n Y E n nS E n nS n E S E n n n n (estymator obciążony) bo statystyka 2 2



n

nS

ma rozkład chi kwadrat z n – 1 stopniami swobody, oraz wartość oczekiwana zmiennej losowej o rozkładzie chi kwadrat jest równa liczbie stopni swobody.

(21)

21

 

2 2

 

2 1 2 2 1 1 1 ˆ  _ __             n n n n S E n n S n n E S E _n _n _n (estymator nieobciążony)

(22)

22

 

2 2 2 2 02 2 2 02 2 02                          n n Y E n nS E n nS n E S E n n n n (estymator nieobciążony)

(23)

23

Wniosek

2

n

S _{jest estymatorem asymptotycznie} nieobciążonym parametru



2 bowiem:

 

2

1

2 2

lim











   

n

S

E

n n n 2 ˆ n

S _{jest estymatorem nieobciążonym} parametru



2.

02

n

S _{jest estymatorem nieobciążonym} parametru



2.

(24)

24 Przykład Niech X – N(m;



). Obliczymy D2

 

Sn2 ,

 

2 2 ˆ n S D _,D2

 

S_n02 _.

(25)

25 Rozwiązanie: ) 1 ( 2 2 4 2 2 2 2 4 2 2 2 2 2 2                 n n nS D n nS n D S D _n n n      bo statystyka 2 2



n

nS

ma rozkład chi kwadrat z n – 1 stopniami swobody, oraz wariancja zmiennej losowej o rozkładzie chi kwadrat jest równa podwojonej liczbie stopni swobody.

(26)

26  

 

  1 2 ) 1 ( 2 1 1 1 ˆ 4 4 2 2 2 2 2 2 2 2 2 2 2                 n n n n n S D n n S n n D S D _n _n _n  

(27)

27 n n n nS D n nS n D S D _n n n 4 2 4 2 02 2 2 4 2 02 2 2 02 2 2 2                      

(28)

28 Wniosek Wariancje estymatorów Sn2, 2 ˆ n S _, S_n02_{dążą do} zera gdy n dąży do nieskończoności. Zatem

2

n

S _{jest estymatorem zgodnym parametru}

_

2

ˆ

n

S _{jest estymatorem zgodnym parametru}

_

2_.

02

n

(29)

29 X-N(m,1) n 2 0,5 2 3 0,444444444 1 4 0,375 0,666666667 5 0,32 0,5 6 0,277777778 0,4 7 0,244897959 0,333333333 8 0,21875 0,285714286 9 0,197530864 0,25 10 0,18 0,222222222 11 0,165289256 0,2 12 0,152777778 0,181818182 13 0,142011834 0,166666667 14 0,132653061 0,153846154 15 0,124444444 0,142857143 16 0,1171875 0,133333333 17 0,110726644 0,125 18 0,104938272 0,117647059 19 0,099722992 0,111111111 20 0,095 0,105263158 2 2 2 2 ( 1) n n S D n   1 2 ˆ2 2   n S D n

(30)

30

Wyznaczanie estymatorów metodą momentów (K.Pearson)

Nieznane momenty teoretyczne cechy X szacujemy przez momenty empiryczne tego samego rzędu.

Estymatory uzyskane tą metodą są zwykle mało efektywne (zwłaszcza dla rozkładów asymetrycznych).

(31)

31

Momenty teoretyczne:

) ( k

k E X

m  _{– moment rzędu k zmiennej}

losowej X (m1 = EX).

) ( k l

kl E X Y

m  _{– moment rzędu k, l zmiennej}

(32)

32 Momenty empiryczne:   _ik k x n

M 1 _{– moment rzędu k cechy X (M}

1 = Xn ).



  _ik _il kl x y n M 1 _{– moment rzędu k, l}

jednocześnie badanych cech (X, Y). Zatem przyjmujemy, że:

mk



Mk oraz mkl



Mkl

Parametry będące funkcjami momentów

teoretycznych szacuje się przez wartości tych funkcji obliczone dla momentów empirycznych.

(33)

33

Przykład

Dla rozkładu wykładniczego z parametrem a mamy wartość oczekiwaną równą

EX = m1 = 1/a.

Ponieważ przyjmujemy m1



M1 to 1/a  Xn ,

zatem estymatorem parametru a jest

n

X

1

(34)

34

Przykład

Dla rozkładu logarytmiczno-normalnego

LN(m;



)           0 0 0 2 1 ) ( 2 2 2 ) (ln x dla x dla e x x f m x   

mamy wartość oczekiwaną równą

EX = m1 = 2 2   m e i wariancję D2X =



1



2 2 2    e e m _. Uwaga.

Jeśli X ma rozkład LN(m;



) to zmienna losowa Y = lnX ma rozkład N(lnm;



).

(35)

35

Ponieważ przyjmujemy

m1



M1 = X i D 2

X



S2 to rozwiązując układ równań

2 2   m e ₌ X



2 1



2 2    e e m _{= S}2 otrzymamy                 2 2 1 ln X S  i

 

2 2 2 1 ln    X m

(36)

36

Przykład

Dla zmiennej losowej dwuwymiarowej

współczynnik korelacji możemy wyrazić za pomocą momentów 2 01 02 2 10 20 01 10 11 ) , ( m m m m m m m DY DX Y X Cov         

(37)

37 Y S X S Y X i y i x n i y n i y n i x n i x n i y n i x n i y i x n M M M M M M M r                                        1 2 1 2 1 2 1 2 1 1 1 1 2 01 02 2 10 20 01 10 11 

(38)

38

Estymatory uzyskane metodą momentów nie zawsze są wyznaczone jednoznacznie.

Przykład

Wyznaczymy metodą momentów estymator parametru



rozkładu Poissona.

Mamy próbę (X1, X2, X3, ...., Xn).

Skoro EX =



, to   Xn

lecz D2X =



, stąd   Sn2

i mamy dwa różne estymatory tego samego parametru.

(39)

39

Wyznaczanie estymatorów metodą największej wiarygodności (MNW) (R.A.Fisher)

Dla uproszczenia rozpatrujemy przypadek gdy nieznany jest tylko jeden parametr rozkładu.

a) wyznaczamy funkcję wiarygodności

)

;

(

)

,...,

,

;

(

1 2 1 i n i n

p

x

L









dla zmiennej losowej skokowej

)

;

(

)

,...,

,

;

(

1 2 1 i n i n

f

x

L









(40)

40

b) wyznaczamy logarytm funkcji wiarygodności,

) ,..., , ; ( ln ) ,..., , ; ( ) ( l x₁ x₂ x_n L x₁ x₂ x_n l     

c) wyznaczamy  dla którego funkcja l() ma

maksimum (w tym celu obliczamy pochodną funkcji l( ) , wyznaczamy miejsce zerowe pochodnej i sprawdzamy czy w tym punkcie pierwsza pochodna odpowiednio zmienia znak lub druga pochodna jest ujemna),

d) przyjmujemy, że wyznaczony w ten sposób

wzór na



jest poszukiwanym estymatorem. Uwaga

1) Postać funkcji wiarygodności wynika z wielowymiarowego rozkładu próby

(gęstość/funkcja prawdopodobieństwa jest iloczynem gęstości/f.p brzegowych).

2) Logarytmowanie funkcji wiarygodności wynika z potrzeb praktycznych.

3) Jeśli rozpatrujemy przypadek gdy

nieznanych jest wiele parametrów rozkładu to postępujemy podobnie stosując rachunek

(41)

41

Uwaga

Estymatory uzyskane tą metodą są zwykle co najmniej zgodne, asymptotycznie nieobcią-żone i asymptotycznie najefektywniejsze.

Warto też wiedzieć, że estymatory uzyskane tą metodą mają asymptotyczny rozkład normalny Uwaga

Niech g będzie funkcją rzeczywistą różnowartościową.

Jeśli un jest estymatorem NW parametru  to

estymatorem NW parametru g( _{) jest g(u}_n_).

Własność ta jest prawdziwa również dla przypadku wielu parametrów.

(42)

42

Przykład

Wyznaczymy MNW estymator parametru 

rozkładu jednostajnego w [0;  _], _{> 0.} Mamy próbę (X1, X2, X3, ...., Xn). Wtedy





_n

dla



x

_i



L

(

)

1

0

 ) ln (   l 0 / ) ( '   n   l

(43)

43 Zauważmy, że

 

i n imax1,2,.. x  

zatem L() ma największą wartość dla

 

_i

n imax1,2,.. x



(44)

44

Estymatory uzyskane MNW nie zawsze są wyznaczone jednoznacznie.

Przykład

Wyznaczymy MNW estymator parametru 

rozkładu jednostajnego w [ _; _{+ 2].} Mamy próbę (X1, X2, X3, ...., Xn). Wtedy

2

1 )

(





_n

dla





x

_i







L

jest funkcją stałą względem parametru. zatem każda wartość

 

    _    n i i n i imax1,2,.. x 2; min1,2,.. x 

(45)

45

Przykład

Wyznaczymy MNW estymator parametru



rozkładu Poissona.

(46)

46 Wtedy   



n n x x n x x

e

x

e

x

e

x

L

n n     



!

!...

!

...

!

)

(

1 .. 1 1 1



..



ln ln



!... !



) ( ln ) ( L x₁ x_n n x₁ x_n l          



x x



n l'()  ₁  .. _n / 

(47)

47

Wyznaczamy punkt krytyczny







_n



_n n x n x x n x x l             / .. 0 / .. 0 ) ( ' 1 1   

sprawdzamy istnienie maksimum



..



/ 0 )

(

''    x₁   x_n 2 

l

Zatem estymatorem parametru  jest średnia z próby.

(48)

48

Przykład

Dla rozkładu logarytmiczno-normalnego

LN(m;



) wyznaczymy estymatory parametrów m;



.           0 0 0 2 1 ) ( 2 2 2 ) (ln x dla x dla e x x f m x   

(49)

49            



n i i n m x n i _i m x n m x e x e x e x m L 1 2 2 2 2 2 2 1 2 ) (ln 1 2 ) (ln 2 ) (ln 1 2 1 2 1 ... 2 1 ) , (   













                



n i i n i i n x m x m L m l 1 2 2 1 ) (ln 2 1 ) 2 ln( 2 1 ln ln ) , ( ln ) , (     

różniczkując względem m i



otrzymamy 2 ln 2 X

S





_i

_m

_

_ln

_X

zatem otrzymane estymatory są inne niż w przypadku metody momentów.

(50)

50

Przykład zastosowania estymacji

Chcemy w dyskretny sposób (obawa karalności) ocenić odsetek k osób dających łapówki.

Można to zrobić następująco.

Pytana osoba rzuca monetą i wynik rzutu zachowuje do swojej wiadomości.

Przygotowujemy dużą liczbę kart na połowie których jest pytanie: "czy wypadł orzeł?" a na drugiej połowie kart jest pytanie "czy dajesz łapówki?". Karty losujemy. Pytany losuje kartę i odpowiada TAK (T) lub NIE na wylosowane pytanie.

Rozpatrywane doświadczenie ma rozkład zerojedynkowy z nieznanym parametrem p. Niech K1 wylosowanie karty z pytaniem nr 1. Niech K2 wylosowanie karty z pytaniem nr 2. Wtedy

p = P(T) = P(K1) P(T|K1) + P(K2) P(T|K2) = = 0,5•0,5 + 0,5k

Estymatorem dla p jest średnia w. Stąd estymatorem k jest k  2w - 0,5.