Metody estymacji

(1)

Metody estymacji

Metoda momentów

Metodę momentów pochodzącą od K. Pearsona można krótko opisać w następujący sposób:

Niech X=(X1,X2,,,Xn) będzie próbą prostą z rozkładu P zależnego od wektorowego parametru

=(1,..,k).

 wyznaczamy k pierwszych momentów zwykłych: m^r=hr(1,..,k) , r=1,...,k.

 estymujemy momenty teoretyczne m^r momentami empirycznymi





 ⁿ

i r n i

r X

m

1

ˆ 1

 rozwiązujemy układ równań









) ,..., ˆ (

1 1 1 1

k k

k

h m



M i otrzymujemy estymatory









ˆ ) ,..., (ˆ ) ˆ (

1 1 1 1

k k

k

m m g X



M będące zwykle ciągłymi funkcjami momentów empirycznych, a więc

mocno zgodne.

Przykład. Niech X=(X1,X2,,,Xn)będzie próba prostą z rozkładu o skończonych momentach do rzędu 2 włącznie. Wiadomo, że E(Xi)=m i E(Xi2

)=m² +². Z układu

















2 2 1

1 2 2

1 1 1

ˆ ˆ

m X

m

m X X m

n

i i n

n

i i n



otrzymujemy



 

















2 0 2 1

2 1 1 2

2

ˆ ˆ ( )

ˆ

S X X m

m

X m

n

i i



n ^.

Estymatory m

ˆ

₁i m

ˆ

₂są mocno zgodne i nieobciążone natomiast estymator wariancji

2 1

0

(

X X

)

S

n

i i

n



 



jest obciążony. Rzeczywiście oznaczając

  (

m

, 

²

)

mamy



 

 



      



 

 



   



 

 



    



2 2

1 2

1

) (

) )(

( 2 ) (

) (

)

(

X X E X m m X E X m X m m X m X

E _i

n

i i n

i

i  



2 2

2 2 1

2 1

) 1 ( ) ( )

( )

( ) ( 2 )

( _ _



_



       



 



  







 



n m X nE n

m X nE m X X m E m

X E

n

i i n

i

i g

dyż









  





 



 





 



) )(

( )

(

1 , 1 2

1 2 1

2 E X m X m

m X E

m X

E _j

n

j i n n

i

n _i  _i



 

¹ ²

1

12 _ ⁿ ( )2 _n



i

n E



E Xi m 



.

Wobec tego E_(S₀²)ⁿ_n^¹



²a zmodyfikowany estymator ²

1 1 2 1 1 0

2 S

(

X X

)

S

n

i n i n

n

 

 





 jest już

zgodnym i nieobciążonym estymatorem wariancji.

(2)

Metoda podstawienia dystrybuanty empirycznej

Przypuśćmy, że interesujący nas parametr  rozkładu jest znaną funkcją dystrybuanty F, czyli )

(F

g

 . Np. r-ty moment zwykły

^  ^ 

 R

r F r

r X dP x dF

m

(  )

jest funkcją (funkcjonałem) dystrybuanty rozkładu. Zwykle wprowadzając odpowiednie pojęcia topologiczne (np. metrykę, normę) w przestrzeni funkcyjnej zawierającej zbiór dystrybuant można pokazać, że interesujący nas funkcjonał jest ciągły. Wobec tego jego wartość „niewiele” się zmieni, gdy dystrybuantę zastąpimy jej

„dobrym przybliżeniem”, czyli dystrybuantą empiryczną. Uzyskujemy w ten sposób naturalny estymator ˆg(Fˆ)będący funkcją (funkcjonałem) dystrybuanty empirycznej np.

n r n

i r i n R

n r

r x dF X M

m _,

1

ˆ

1

ˆ     



. Intuicyjne widać, że ciągłość funkcjonału i twierdzenie Gliwienki Cantellego implikują mocną zgodność estymatorów uzyskiwanych metodą podstawienia dystrybuanty.

Ponadto _r

R r

R

n F r r

F m x E dF x dF m

E

⁽ ^ˆ ⁾ ^  ⁽ ^ˆ ⁾ ^  ^

, więc rozważany estymator momentu zwykłego rzędu r jest nieobciążony. Zaprezentowane powyżej intuicje wymagają oczywiście stosownych uściśleń.

Metoda Markowa

Metoda Markowa pochodząca z przełomu XIX i XX wieku polega na wyznaczaniu estymatorów

 nieobciążonych

 liniowych względem obserwowanych zmiennych losowych

 posiadających najmniejszą wariancje w klasie wszystkich estymatorów liniowych

Metodę Markowa można więc potraktować jako szczególny przypadek estymacji nieobciążonej o minimalnej wariancji, który ze względu na postulowaną liniowość jest szczególnie prosty i wygodny obliczeniowo. Wyjaśnimy to na przykładzie.

Przykład. Niech X1,...,Xn będzie ciągiem niezależnych zmiennych losowych o tych samych wartościach oczekiwanych E(Xi)=m i znanych wariancjach V(Xi)=i2

(Uwaga X=(X1,X2,,,Xn) nie jest próbą prostą). Znaleźć nieobciążony estymator liniowy dla m o najmniejszej wariancji.

Z uwagi na postulowaną liniowość estymator wartości oczekiwanej m ma postać _i

n

i iX a

m





1

ˆ .

Warunek nieobciążoności

 



 ⁿ

i i i

n

i

iE X m a

a m

E m

1 1

) ( ˆ)

( prowadzi do równości 1

1





 n

i

ai . Pisząc dla prostoty Ezamiast E_ i V zamiast V_ wariancja estymatora

²

1 2 2

1 2

1 1

2 1

)) (

( ) (

) (

ˆ)

( _i

n

i i i

n

i i n

i i i n

i i i

n

i

iX m E a X am E a X m a

a E m

V

    















 .

(3)

Aby znaleźć estymator typu Markowa należy więc znaleźć współczynniki a1,...,an minimalizujące

2 1

2 i n

i

ai





przy warunku 1

1





 n

i

ai . Rozwiązując powyższy problem ekstremum warunkowego poprzez rozwikłanie ograniczeń i redukcję problemu do problemu ekstremum bezwarunkowego n-1 zmiennych lub stosując metodę mnożników Lagrange’a otrzymujemy





 n

i i

i

ai

1 2 1 2 1



 .

Metoda najmniejszych kwadratów MNK

Obserwujemy zmienne losowe Y1,...,Yn o których wiemy, że E(Y_i)=g_i() , i=1,...,n,

gdzie gi: R^k  są znanymi funkcjami.

Jeżeli parametr  przebiega zbiór  , to punkt (g1(),...,gn()) przebiega pewien zbiór  Rⁿ. Zaobserwowany punkt Y=(Y₁,...,Y_n) również leży w Rⁿ. Idea MNK polega na tym, żeby w zbiorze  znaleźć punkt (Y1,...,Yn) najbliższy zaobserwowanemu punktowi Y a następnie za oszacowanie parametru przyjąć taki punkt ^ˆ , któremu odpowiada wyznaczony punkt , tzn. taki ˆ , że

(g1(ˆ ),...,gn(ˆ ))=(Y1,...,Yn).

Zwykłe oba etapy łączy się w jeden i za estymator MNK przyjmuje się  minimalizujące wielkość

2 1

)) (

( 







n

i

i g

Y , czyli

 

²

1

1,..., ) argmin ( )

ˆ(



 





 ⁿ

i

i i

n Y g

Y

Y 



MNK znajduje szczególne zastosowanie w tzw. liniowych modelach statystyki matematycznej i zostanie omówiona później.

Metoda największej wiarygodności

Niech (X^,B^,P^={P:}), będzie dominowaną przez -skończoną miarę  przestrzenią statystyczną.

Oznaczmy przez p(x;) p_(x)^dP_d_^ odpowiednie gęstości.

Def. Dla ustalonego wyniku eksperymentu XX wielkość L(,X)=p(X,) nazywamy wiarygodnością parametru  , a funkcję L(,X):   L(,X) określoną na przestrzeni parametrów  nazywamy funkcją wiarygodności.

Z definicji widać, że funkcja L(X,) dla każdego ustalonego  jest funkcją gęstości p(X,) rozkładu prawdopodobieństwa P na przestrzeni prób X . Interpretacja funkcji wiarygodności jest szczególnie prosta, gdy rozważymy dyskretną przestrzeń statystyczną. Funkcja wiarygodności przypisuje

(4)

parametrowi  prawdopodobieństwo (wyznaczone z rozkładu P ) zaobserwowania danego wyniku eksperymentu XX. W przypadku ciągłym interpretacja funkcji wiarygodności jest podobna.

Prawdopodobieństwo zaobserwowania danego wyniku eksperymentu zastępujemy gęstością prawdopodobieństwa uzyskania danego wyniku eksperymentu. Ten sam wynik eksperymentu może mieć przypisane różne prawdopodobieństwa w zależności od wyboru parametru  (czyli rozkładu P_). Zasada największej wiarygodności sugeruje taki wybór parametru , przy którym zaobserwowany wynik eksperymentu xX jest najbardziej prawdopodobny.

W przypadku przestrzeni produktowej (R^,B(R),{p(x,):})ⁿ gdy wynik eksperymentu jest ciągiem X=(X1,...,Xn), funkcja wiarygodności wyraża się wzorem L ( ,X1,...,Xn)=

 n

i p Xi

1

) , (  .

Def. Estymatorem największej wiarygodności parametru  ( ENW( ) ) (o ile istnieje) nazywamy estymator ˆ :X ^X^^ˆ⁽^X⁾ ^arg^max^L⁽^^,^X⁾





Uwaga techniczna. Ze względu na monotoniczność funkcji logarytmicznej maksymalizacja funkcji wiarygodności L(,X) jest równoważna maksymalizacji jej logarytmu l(,X)=ln L(,X).

Kłopoty z metodą największej wiarygodności

 estymator największej wiarygodności może nie istnieć ,

 estymator największej wiarygodności może nie być określony jednoznacznie,

 efektywne wyznaczenie estymatora największej wiarygodności może być bardzo trudne.

Estymatory NW mają wiele cennych własności w próbach skończonych (szczegóły będą podane w wykładzie Statystyki Matematycznej II). Przy pewnych założeniach regularności (tzw. warunki regularności Cramera) (zapewniających różniczkowalność całek niewłaściwych) estymatory największej wiarygodności są:

 mocno zgodne

 asymptotycznie nieobciążone

 asymptotycznie najefektywniejsze ( asymptotycznie osiągają dolne ograniczenie CR)

 niezmiennicze tzn. jeśli ^^ˆ⁽^{X }⁾ ^ENW⁽^⁾i h() to ˆ(X)h(ˆ(X))ENW()

 asymptotycznie normalne tzn. n(



ˆ



)ma asymptotycznie rozkład N(0,



_as²), gdzie asymptotyczna wariancja



_as²i_^¹, a

 ^ln( ⁽ ^, ⁾   ^ln( ⁽

1

^, ⁾ 

2

1 ²

2



_ _



 E p X E p X

i



_^

 

_^ jest

informacją w sensie Fishera pojedynczej (np. pierwszej) obserwacji. Gdy parametr )

,..., (₁ _k



θ jest parametrem wektorowym, to

(5)

) , (

~ ˆ

ˆ1 1

as k k

k

N as

n 0 V

















































 M

M , gdzie V_asi^¹(θ) a

) , ( 1 1 2

) , ( 1 1 1

1,..., )( ln ( , ,..., ) ln ( , ,..., )

, ( ln ( )

(

k i k

k j j k

i

X p E

X p X

p

E 













 

 



























   



 



  ^θ

θ θ

i jest

macierzą informacji w sensie Fishera.

Szkic dowodu asymptotycznej normalności. W regularnych przypadkach ENW otrzymuje się jako rozwiązanie równania wiarygodności _^_ l(X,)0. Korzystając z mocnej zgodności dla dostatecznie dużych n estymator przyjmuje (z prawdopodobieństwem bliskim 1) wartości w pobliżu (nieznanej) wartości  .Wobec tego rozwijając w szereg Taylora (war. regularności) i pomijając wyrazy wyższego rzędu mamy 0 ( ,ˆ) ( , ) 2ln ( , )(ˆ )

2   



 _ _

   

 





 l X l X l X .

Stąd

) , (

) , ˆ (

2

2 

 



X l









 i w konsekwencji

) , (

) , ( ˆ )

(

2

1 2

1



 



X l

X l n

n n









Zauważmy, że ( , ) ln ( , )

1 1

1 _  ⁿ _ _i 

n i

n l X



p X

 

  , przy czym każda ze zmiennych losowych w powyższej sumie ma wartość oczekiwaną 0 i wariancję i()( informacja Fishera w pojedynczej obserwacji). Z CTG otrzymujemy, że ¹ _l(X,) N(0,i())

n _^  .

Z kolei z MPWL ( , ) ln ( , ) ¹ [ ln ( ₁, )] ( )

1 1 1

2 2 2

2 2

2  _  _ _  



 E p X i

X p X

l ^z^P

n

i n i

n     

 _^

 





^{. Z}

twierdzenia Słuckiego otrzymujemy że n(ˆ)N(0,i^¹()).

Przykład Skonstruować estymator największej wiarygodności parametru  i asymptotyczny przedział ufności na poziomie 1- =0,95 oparty na n niezależnych obserwacjach X1,X2,...,Xn z rozkładu o gęstości p(x,) = ²x exp(- x) ,  > 0, x >0.

L( ;X1,X2,...,Xn)= ²ⁿ(

 n i Xi

1 ) exp(- 

 n

i Xi 1

)

l (;X1,X2,...,Xn,)= ln L (;X1,X2,...,Xn)= 2n ln+

 n

i Xi

1

ln - 

 n

i Xi 1

WK: 

 n

2 

 n

i Xi 1

=0 i WW  ^ˆ= X

2 ENW[] , i_=

2

 _as² = 2

2

Korzystając z faktu, że asymptotyczny rozkład statystyki

as

n 



ˆ

jest rozkładem N(0,1) możemy z tablic tego rozkładu odczytać dla danego  wartość u_1-__/2taką , że

(6)

P( |

as

n 



ˆ

|< u1-/2)=1- a stąd otrzymujemy





 ˆ 

^ ^^

  ˆ 

^ ^^

)  1 

(

¹ ^/² ¹ ^/²

n u n

u _as

P as .

Po podstawieniu za



_as² przybliżonej wartości 2 ˆ²

 (wniosek z mocnej zbieżności ENW) otrzymujemy

asymptotyczny przedział ufności na poziomie 1- postaci:





 ˆ ( 1 

^^

)   ˆ ( 1 

^^

)  1 

(

2 2

2 / 1 2

/ 1

n u n

P u .

Przykład. Skonstruować estymator największej wiarygodności parametru  oparty na n niezależnych obserwacjach X1,X2,,,Xn z rozkładu jednostajnego U[0,].

W tym przypadku L( ;X₁,X₂,...,X_n,)=















 

i i

X i

X

n i : , 0

:

1 ,

=







 

max 1 max

, 0

, X

n X skąd natychmiast otrzymujemy,

że Xmax=max(X1,X2,...,Xn) jest ENW parametru . Jest to przypadek gdzie warunki regularności nie są spełnione i nie można wykorzystać własności asymptotycznej normalności ENW do konstrukcji przedziału ufności dla .

Ciekawy przykład estymacji NW dla danych cenzurowanych.

Niech X₁,...,X₁₀₀ będzie próba losową z rozkładu wykładniczego o nieznanej wartości oczekiwanej a (tzn. f(x) ¹e ^a _[₀_, ₎(x)

x

a 

  1 ).Estymujemy a na podstawie częściowej informacji o próbce, a mianowicie na podstawie tego, iż

 80 zmiennych (spośród wszystkich 100 z próbki) przybrało wartości poniżej 3,

 średnia arytmetyczna z tych wartości wynosi 2. Znaleźć ENW[a].

Rozwiązanie. Niech Y będzie zmienną losową zdefiniowaną wzorem Y X1_[₀_,₃₎(X)b1_[₃_,_₎(X)=

 





 3 gdy ,

3 gdy ,

X b

X

X , gdzie liczba b3jest etykietą zdarzenia X3.

Zmienna Y ma dystrybuantę

 

 



 











^



b y

b y e

y e y

F _a

a y

Y

, 1

3 , 1

3 , 1 )

(

³ . Niech =+b gdzie  oznacza miarę Lebesgue’a i  A B ^mamy







y e A e e d

d e

A

P _b

A a b

A a

a a

y a

a y

) (

) ( )

( )

( 



¹ ^ 1_[₀_,₃₎  ^³ 



¹ ^ 1_[₀_,₃₎ ^³1_{_} ^. Stąd f_Y

(

y

)

¹_ae ^a _[₀_,₃₎

(

y

)

e ³^a _{_b_}

(

y

)

y

1

1 ^







jest gęstością rozkłady zmiennej losowej Y względem  .

(7)

)} 20 ( 1 { 1 100

1

} { )

3 , 0 [ 1 100

1

) 3 3 , 0 1 [

80

3

( ) )

) ( (

) ,...,

;

(

ⁱ ^a

i a i

a a

Yi

e e

Y e

Y Y a L

Y Y a

i

i b i

a

 











 

¹ ¹ ⁼a ê âê â

60 160 80

1  

a a

Y Y a L Y

Y a

l

( ;

₁

,...,

₁₀₀

)  ln ( ;

₁

,...,

₁₀₀

)   80 ln 

²²⁰

WK: 2 0

220

80 



 a a

da

dl  aˆ¹¹₄ =ENW[a] (WW oczywisty)

Przykład. Niech X(X₁,...,X_n) będzie próba prostą z rozkładu normalnego N(m,²)o funkcji

gęstości ²

2

2 ) (

2 2 1

) ,

;

( ^



 

m x

e m

x p

 

 . Funkcja wiarygodności jest postaci

 







n

i i

n n

m X

e m

L ¹

2 2

2

) 2 (

1

2 2 1

)

; ,

( ^



 X  a jej logarytm     

 n

i i

n n X m

m l

1

2 2

2

2 ( )

2 ln 1 ) 2 ln(

)

; ,

(  X    .

WK istnienia ekstremum







 



 



0 0

 l m

l









  





  





0 ) 2 (

2

0 ) (

1

2 3

1 n

i i

n n

i i

m X m X

 

, stąd









 



 



 n

i i

n n

i i

n

X X

m

1 1 2 2

1 1

)

 ( . Pokażemy,

że (ˆ,ˆ ) ( , ( ) ) [( , ²)]

1 1 2

2 

 X X X ENW m

m ⁿ

i i

n  



 , wykazując, że l(mˆ,ˆ²;X)l(m,²;X)0 (m,²)i równość zachodzi tylko dla mmˆ i  ² ˆ².

Z własności niezmienniczości ENW widać, że (ˆ,ˆ) ( , ( ) ) [( , )]

1

1 2 

 X X X ENW m

m ⁿ

i i

n  



 .

0 ) ( ) 1 (ln )

( ˆ ln

ln )

; , ( ) ˆ ; ˆ,

( ²

2 ˆ ˆ 2 ) 1 (

1

2 2

2 1 2 2 2 2 2

2

2 2 2 2 2

2       













m X m

X m

l m

l ⁿ ⁿ

n

i i n

n n



 



 X X

Ostatnie wyrażenie jest sumą dwóch nieujemnych składników (bo lnx1x0 i równość ma miejsce tylko dla x1) które jednocześnie sie zerują tylko dla mmˆ i  ² ˆ².

Uwaga: ( ) ( ) ( ) ( )² ˆ² ( )².

1

2 1

) 2 1 (

1

2 X X X m X X n X m n n X m

m X

n

i i n

i

i 



   



     



  



Macierz informacji































 









2 2

2 2 2

2 2

2

2 1 )

, ( ) ,

( 0

0 )

, , ( ln )

, , ( ln

) , , ( ln )

, , ( ln



 

  



m X p m

X p

m X p m

X E p

m m m m

im . Stąd



























 















 



 







 





2 2

0 2

, 0 0

~ 0 ˆ

ˆ



m m asN

n _^





















 



 















 



 







 





4 2 2

2 0 2

, 0 0

~ 0 ˆ

ˆ



m m asN

n .

Przykład. Niech X(X₁,...,X_n) będzie próba prostą z rozkładu PoissonaP() o funkcji gęstości ,...

1 , 0

! , )

;

(  e^ x

x x p

x 

  względem miary liczącej



^









0

) ( )

(

k

k

 . Funkcja wiarygodności jest postaci

 

 ⁿ

n

i i X

e X L

n

i i











! )

; (

1

X a jej logarytm ( ; ) ln ln !

1





   



n

i i n

i Xi n X

l  X   .

(8)

WK : _^_l(;X)0^ⁱⁿ^_¹^Xⁱ n0X . Badając monotoniczność funkcji l(;X)stwierdzamy, że ].

ˆ [

X ENW Widać , że ²₂ln ( , ) ₂



 p X  ^X



 , stąd _

 

E ( ^X₂)¹

i , więc n(X )~asN(0,).

(9)

Zadania

1. Niech X1,...,Xn będzie próbą prostą z rozkładu równomiernego (dyskretnego jednostajnego) na {1,...,k} i kN. Wyznaczyć estymator największej wiarygodności parametru k. Wykazać, ze estymator ten jest zgodny. Odp. ˆ ₍ ₎

X n

k 

2. Niech X1,...,Xn będzie próbą prostą z rozkładu jednostajnego U[1,2] na przedziale na [1,2].

Wyznaczyć estymator największej wiarygodności parametru (1,2). (Odp. (ˆ₁,ˆ₂)(X₍₁₎,X₍_n₎)).

3. Czas pracy elementu jest zmienną losową X o gęstości ⁽ ⁾ ^exp( ⁾ (0, )⁽ ⁾

1 bx x

x ab x

f  ^a^  ^a 1 _ , gdzie a jest znanym dodatnim parametrem zaś b jest nieznaną dodatnią stałą (rozkład Weibulla).

Wyznaczyć estymator największej wiarygodności parametru b oparty na n elementowej próbie prostej. Wyznaczyć asymptotyczny przedział ufności dla parametru b na poziomie 1-.

4. Zmienna losowa N ma rozkład Poissona z parametrem intensywności , który chcemy oszacować.

Niestety możemy obserwować jedynie zmienną losową M , która przyjmuje wartość 0 jeśli N jest równa 0, a wartość 1 jeśli N jest większa od 0. Wyznaczyć estymator największej wiarygodności parametru  i asymptotyczny przedział ufności dla  na poziomie 1-.. (Odp ˆln(1M) 5. Skonstruować estymator największej wiarygodności parametru  i asymptotyczny przedział

ufności na poziomie 1-=0.95 oparty na n elementowej próbie prostej X₁,X₂,...,X_n z rozkładu a) geometrycznego p(x, ) =  (1- )^{x -1} ,  (0,1), x=1,2,... ,

b) geometrycznego p(x, ) = (1- )^{x -1} ,  (0,1), x=1,2,... . c) wykładniczego p(x, ) =  exp(- x) ,  > 0, x >0,

d) wykładniczego p(x, ) = ^{- -1} exp(-x/ ) ,  > 0, x >0.

e) o gęstości p(x,) = ²x exp(- x) ,  > 0, x >0, f) normalnego p(x,) = ²

2

2 ) 1 (

2

1 _





 x

e ,  > 0.

g) normalnego ^



  ²

)2 (

2

) 1

, (

 

 e ^x

x

p ,  > 0.

h) Poissona p(x,)=



_^ x e

x

!

^,^ > 0, x=0,1,2,... .

i) z rozkładu Bernoulliego p(x, )= ^x (1- )^1-x,  (0,1), x=0,1.

j) z rozkładu Pareto (ozn. Pa(1,a)) o funkcji gęstości f⁽x⁾ax^^a^11(1,_)⁽x⁾, gdzie a>1

6. Niech X=(X1,...,Xn) będzie próbą prostą z rozkładu o gęstości zadanej wzorem )

( )

,

( ¹ ¹ ₍₀_,₁₎

1

x x

x

f ^ 1

 

 ^

 . Wyznaczyć estymator największej wiarygodności parametru  i wyznaczyć błąd średniokwadratowy (ryzyko) tego estymatora.(wskazówka - aby wyznaczyć ryzyko warto wyznaczyć rozkład zmiennej Y=-lnX )

7. Skonstruować estymator największej wiarygodności parametru  i asymptotyczny przedział ufności na poziomie 1- =0.95 oparty na n elementowej próbie prostej X₁,X₂,,,Xn z rozkładu Laplace’a o gęstości p(x,)^₂e^^^|^x^|,  > 0.

Metody estymacji