1. Informacja Fishera

(1)

Statystyka Matematyczna

Anna Janicka

wykład VI, 04.04.2016

WŁASNOŚCI ESTYMATORÓW, CZ. II

(2)

Plan na dzisiaj

1. Informacja Fishera

2. Nierówność informacyjna 3. Efektywność estymatora

4. Asymptotyczne własności estymatorów

zgodność

asymptotyczna normalność

asymptotyczna efektywność

(3)

Informacja Fishera

Jeśli model statystyczny z obs. X

₁

, X

₂

, ..., X

_n

i p-stwem f

_θ

spełnia warunki regularności, tzn.:

1. Θ jest przedziałem otwartym 1-wymiarowym.

2. Nośnik rozkładu {x: f

_θ

(x)>0} nie zależy od θ ^.

3. Istnieje pochodna .

to można zdefiniować Informację Fishera zawartą w obserwacjach X

₁

, X

₂

, ..., X

_n

:

nie zakładamy tu niezależności X₁, X₂, ..., X_n θ

θ

d df

( ^ln ⁽

₁

^,

₂

^,..., ⁾ )

²

)

(

_d^d _n

n

E f X X X

I θ =

_θ _θ _θ

(4)

Informacja Fishera – co oznacza

Miara tego, jak wiele może powiedzieć próba wielkości n (uśredniona) o

wartości nieznanego parametru θ .

Np. jeśli funkcja gęstości wokół θ jest

płaska, to informacja zawarta w (jednej) obserwacji nie będzie pozwalała

różnicować naszych przewidywań co do

θ . Jeśli jednak funkcja gęstości wokół θ

nie jest płaska, to info o wynikach wnosi

wiele.

(5)

Informacja Fishera – cd.

Wzory dla różnych przypadków:

jeśli rozkład ciągły

jeśli rozkład dyskretny

jeśli f

_θ

dwukrotnie różniczkowalna

dx x

x f

I f

^d

x df

n

( )

) ) (

(

) 2 (

θ θ

θθ

θ ∫  





 



= 

X

∑

∈

 





 



= 

X x

d x dP

n

P x

x

I P ( )

) ) (

(

) 2 (

θ θ

θθ

θ

( ^ln ⁽ ^, ^,..., ⁾ )

)

(

2 ₁ ₂

2

d n d

n

E f X X X

I θ = −

_θ _θ _θ

(6)

Informacja Fishera – cd. (2)

Jeśli próba składa się z niezależnych zmiennych losowych o identycznych rozkładach, to wówczas z uwagi na

multiplikatywność prawdopodobieństwa oraz własności logarytmu

I₁(

θ

) jest informacją Fishera zawartą w pojedynczej obserwacji

) (

)

( θ nI

₁

θ

I

_n

=

(7)

Informacja Fishera – przykłady

Rozkład wykładniczy exp(λ)

Rozkład Poissona Poiss( θ )

1 2

... 1 )

( λ = = λ

I

θ ⁾ ^... θ ¹

1

( = =

I

(8)

Nierówność Informacyjna (Craméra-Rao)

Niech X=(X

₁

, X

₂

, ..., X

_n

) będą obserwacjami o łącznej gęstości f

_θ

(x), gdzie θ ∈ Θ _{⊆ R, oraz:}

T(X) jest statystyką o skończonej wartości oczekiwanej E_θ T(X)=g(

θ

)

Informacja Fishera jest dobrze określona, I_n(

θ

) ∈(0,∞) Wszystkie gęstości f_θ mają ten sam nośnik

Można zamieniać kolejność różniczkowania (d/d

θ

) oraz całkowania ∫.... dx.

Wówczas, dla dowolnego θ :

( )

) (

) ' (

Var

2

θ θ

θ

I

n

X g

T ≥

(9)

Nierówność informacyjna – implikacje

W szczególności, funkcja ryzyka

nieobciążonego estymatora (=wariancja) nie może być mniejsza od ustalonej

funkcji n i θ .

Jeśli ryzyko estymatora nieobciążonego jest równe dolnemu ograniczeniu

nierówności, to jest to estymator ENMW.

Jeśli jest nieobciążonym estymatorem θ , to

) ˆ X (

θ

) ( ) 1

ˆ (

Var

_θ

θ θ

I

n

X ≥

(10)

Nierówność informacyjna – przykłady zastosowań

W modelu Poissona, jest ENMW( θ ⁾

W modelu wykładniczym, jest ENMW(1/ λ )

Niestety, nierówność Craméra-Rao nie zawsze jest optymalna: w modelu wykładniczym,

jest obciążonym estymatorem λ . Nieobciążonym estymatorem jest , który jest też

ENMW( λ ), chociaż jego wariancja jest większa, niż by to wynikało z ograniczenia Craméra-Rao.

= X

θ ^ˆ

X

X / ˆ = 1

λ

X n

~ n 1 −

λ =

X n

Var_θ ( ) = ^θ

2

) 1

( _λ

λ X _n

Var =

(11)

Efektywność

Efektywność nieobciążonego estymatora wielkości g( θ ) to:

Efektywność względna nieobciążonych estymatorów oraz :

) ˆ X ( g

( )

) ( ˆ )

( Var

) ( ) '

( ˆ ef

2

θ θ

θ

g I

n

g g

= ⋅

) ˆ

₁

( X

g g ˆ

₂

( X )

ˆ ) ( ef

ˆ ) ( ef ˆ )

( Var

ˆ ) ( ) Var

, ˆ ( ˆ

ef

2 1 1

2 2

1

g

g g

g = =

θ θ

(12)

Efektywność a nierówność informacyjna

Jeśli spełniona jest nierówność

informacyjna, to dla każdego estymatora nieobciążonego.

Jeśli =ENMW(g), to możliwe jest, że , ale możliwe też, że . Jeśli , to estymator jest

efektywny.

efektywność w sensie Craméra-Rao

1 ˆ )

(

ef g ≤

gˆ

1 ˆ )

(

ef g = ef ( g ˆ ) < 1

1 ˆ )

(

ef g =

(13)

Efektywność – przykłady

W modelu Poissona, jest efektywny.

W modelu wykładniczym, jest efektywnym estymatorem 1/ λ .

W modelu wykładniczym, nie jest efektywnym estymatorem λ , chociaż jest ENMW( λ ).

Branie części próbki nie jest efektywne.

W modelu jednostajnym U(0, θ ) dla

ENW(θ) „wychodzi” ef >1 (bo nie są spełnione założenia nierówności informacyjnej)

= X

θ ^ˆ

X

n

ˆ n 1 −

λ =

(14)

Własności asymptotyczne estymatorów

Twierdzenia graniczne opisujące

zachowanie/ własności estymatorów gdy n→∞

W praktyce: informacja, jak w przybliżeniu zachowują się estymatory dla dużych

próbek

Problem: zwykle brak odpowiedzi na

pytanie, jaka próbka jest odpowiednio duża

(żeby przybliżenie było odpowiednio dobre)

(15)

Zgodność

Niech X

₁

, X

₂

, ..., X

_n

,... będzie próbą IID, tzn.

niezależnych zmiennych losowych o

identycznych rozkładach. Niech

będzie ciągiem estymatorów wielkości g( θ ).

Estymator jest zgodny, jeśli dla każdego θ ∈Θ, dla każdego ε >0:

(tzn. estymator jest zbieżny do g( θ ) według prawdopodobieństwa)

) ,...,

,

ˆ ( X

₁

X

₂

X

_n

g

gˆ

1 )

| ) ( )

,..., ,

ˆ ( (|

lim

₁ ₂

− ≤ =

∞

→

P

_θ

g X X X

_n

g θ ε

n

gˆ

(16)

Mocna zgodność

Niech X

₁

, X

₂

, ..., X

_n

,... będzie próbą IID, tzn.

niezależnych zmiennych losowych o

identycznych rozkładach. Niech

będzie ciągiem estymatorów wielkości g( θ ).

Estymator jest mocno zgodny, jeśli dla każdego θ ∈Θ:

(tzn. estymator jest zbieżny do g( θ ) prawie na pewno)

) ,...,

,

ˆ ( X

₁

X

₂

X

_n

g

gˆ

( ^lim

_→_∞

^ˆ ⁽

¹

^,

²

^,..., ⁾ ⁼ ⁽ ^θ ⁾ ) ⁼ ¹

θ

g X X X g

P

_n

n

gˆ

(17)

Zgodność – uwaga

Z tw. Gliwienki-Cantelliego mamy, iż

dystrybuanty empiryczne są zbieżne p.n.

do dystrybuanty teoretycznej. A zatem od wszystkich sensownych estymatorów

należy oczekiwać (mocnej) zgodności.

Zgodność = minimalne sensowne żądanie

w stosunku do estymatora.

(18)

Zgodność – jak badać?

Z definicji; można wówczas korzystać np. z nierówności Czebyszewa-Bienaymé i t.p.:

Pamiętając, że ryzyko estymatora to

dostajemy np. warunek wystarczający zgodności:

Z PWL

2

))

2

( ) (

| ) (

(| X E X ε ^E ^X ε ^E ^X

P −

≤

≥

−

))

2

( )

ˆ ( ( ˆ )

,

( θ g E

_θ

g X g θ

R = −

0 ˆ )

, (

lim =

∞

→

R g

n

θ

(19)

Zgodność – przykłady

Dla dowolnej rodziny rozkładów mających wartość oczekiwaną: średnia z próbki jest zgodnym estymatorem wartości

oczekiwanej µ ( θ )=E

_θ

(X

₁

). Zbieżność wynika z MPWL.

Dla dowolnej rodziny rozkładów mających wariancję: i

są zgodnymi estymatorami wariancji

σ

²

( θ )=Var

_θ

(X

₁

). Zbieżność wynika z MPWL

X

n

∑

=

−

=

ⁿ

i i

n n

X X

S

1

2 1

)

( = ∑

ⁿ=

−

i i

n n

X X

S

1

1 2

2

( )

ˆ

(20)

Zgodność – przykłady/własności

Estymator może być nieobciążony i nie być zgodny; np. T

_n

(X

₁

, X

₂

, ..., X

_n

)=X

₁

jako estymator µ ( θ )=E

_θ

(X

₁

).

Estymator może być obciążony i być zgodny; np. obciążony estymator

wariancji j.w., lub np. dowolny zgodny

estymator nieobciążony + 1/n.

(21)

Asymptotyczna normalność

Estymator wielkości g( θ ) jest asymptotycznie normalny, jeśli dla każdego θ ∈Θ istnieje σ

²

( θ ) takie, że gdy n→∞

Zbieżność wg. rozkładu, tzn. dla dowolnego a

lub równoważnie, rozkład jest dla dużych n zbliżony do rozkładu

) ,...,

,

ˆ ( X

₁

X

₂

X

_n

g

( ^g ^ˆ ⁽ ^X

₁

^, ^X

₂

^,..., ^X ⁾ ^g ⁽ ^θ ⁾ ) ^N ⁽ ⁰ ^, ^σ

²

⁽ ^θ ⁾⁾

n

_n

−  →

^D

(

^ˆ⁽ ^, ^,..., ⁾ ⁽ ⁾

)

⁽ ⁾

)

lim (n g X₁ X₂ X g a a

P _n

n  = Φ









 − ≤

∞

→

θ

σ

) ,...,

,

ˆ ( X

₁

X

₂

X

_n

g

) ),

(

( g

_n²

N θ

^σ

(22)

Asymptotyczna normalność – co to znaczy

Estymator asymptotycznie normalny jest zgodny (niekoniecznie mocno zgodny).

Zawiera warunek podobny do

nieobciążoności – wartość oczekiwana

rozkładu asymptotycznego jest równa g( θ ) (ale sam estymator nie musi być

nieobciążony).

Podobnie dla tzw. wariancji

asymptotycznej definiowanej jako

lub – jest to wariancja rozkładu asymptotycznego

n )

2

( θ σ

)

2

( θ

σ

(23)

Asymptotyczna normalność – czym nie jest

Zazwyczaj dla estymatora asymptotycznie normalnego zachodzi:

ale nie musi tak być, bo zbieżność wg

rozkładu nie pociąga za sobą zbieżności wartości oczekiwanych ani wariancji

) ( )

,..., ,

ˆ (

₁ ₂

θ

g X X X g

E

_n

  →

ⁿ^→



^∞

) ( )

,..., ,

ˆ (

var ^g ^X

₁

^X

₂

^X

_n

^ ^{ →}

ⁿ^→

^

^∞

σ

²

θ

n

(24)

Asymptotyczna normalność – przykład

Niech X

₁

, X

₂

, ..., X

_n

,... będzie próbą IID o średniej µ i wariancji σ

²

. Wówczas dla

średniej z próby mamy z CTG

Asymptotyczna wariancja, , jest tu tożsama z wariancją estymatora.

) ,

0 ( )

( X µ N σ

²

n −  →

^D

n )

2

( θ

σ

(25)

Asymptotyczna normalność – jak liczyć

W wielu przypadkach przydatny jest lemat:

Metoda Delta. Jeśli dla ciągu zmiennych losowych T

_n

mamy

gdy n→ ∞ oraz h:R→R jest funkcją

różniczkowalną w punkcie µ t.że h’( µ )≠0, to

µ

,

σ

² są funkcjami parametru

θ

stosujemy zwykle wtedy, kiedy estymatory są funkcjami

statystyk T_n, których zbieżność łatwo wywnioskować z CTG

) ,

0 ( )

( T µ N σ

²

n

_n

−  →

^D

( ^h ⁽ ^T ⁾ ^h ⁽ ^µ ⁾ ) ^N ⁽ ⁰ ^, ^σ

²

⁽ ^h ^' ⁽ ^µ ⁾⁾

²

⁾

n

_n

−  →

^D

(26)

Asymptotyczna normalność – przykłady cd.

W modelu wykładniczym:

Z CTG mamy

więc z Lematu Delta mamy dla h(t)=1/t:

a więc jest asymptotycznie normalnym (co za tym idzie: zgodnym) estymatorem λ .

ENW ( λ ) =

X¹

) ,

0 ( )

(

¹ ¹₂

λ

N

λ

X

n −  →

^D

) ) (

, 0 ( )

(

²

) / 1 (

1 1

1

2

2 λ

λ  →

λ

⋅ −

− N

n

_X ^D

X 1

(27)

Asymptotyczna efektywność

Dla asymptotycznie normalnego estymatora wielkości g( θ ) możemy

określić asymptotyczną efektywność jako

gdzie σ

²

( θ )/n jest wariancją asymptotyczną, tj. mamy gdy n→∞

( ^g ^ˆ ⁽ ^X

₁

^, ^X

₂

^,..., ^X ⁾ ^g ⁽ ^θ ⁾ ) ^N ⁽ ⁰ ^, ^σ

²

⁽ ^θ ⁾⁾

n

_n

−  →

^D

) ,...,

,

ˆ ( X

₁

X

₂

X

_n

g

( )

) , ( )

(

) ( ) '

( ˆ

as.ef

₂

2

θ θ

σ

θ

I

n

n g g

= ⋅

( )

) ( ) (

) ( ) '

( ˆ as.ef

1 2

2

θ θ

σ

θ I g g

= ⋅

modyfikacja „zwykłej” efektywności do przypadku granicznego, z wariancją asymptotyczną zamiast zwykłej

(28)

Asymptotyczna efektywność względna

Asymptotyczna efektywność względna dla

asymptotycznie normalnych estymatorów i

ˆ ) ( as.ef

ˆ ) ( as.ef )

( ) ) (

, ˆ ( ˆ

as.ef

2 1 2

1 2 2 2

1

g

g g

g = =

θ σ

) ˆ

₁

( X

g g ˆ

₂

( X )

Uwaga. Estymator mniej (asymptotycznie) efektywny może mieć inne cechy, które sprawiają, że ma przewagę nad estymatorem bardziej (asymptotycznie) efektywnym.

(29)

Asymptotyczna efektywność względna – Przykład 1

Estymacja prawdopodobieństwa braku szkód w modelu Poissona: Poiss( θ ) (typowy model aktuarialny dla liczby szkód w poszczególnych latach dla polisy, albo dla grupy polis)

– pr-stwo braku szkód

→

) 0 (

)

( = e

⁻

= P X

_i

= g θ

^θ

∑

= =

=

ⁿ

i X

n _i

X

g

1 { 0}

1 1

( )

ˆ 1 g ˆ

₂

( X ) = e

⁻^X

= ENW ( g ( θ )) (

^g^ˆ₁ ⁻ ^g⁽^θ⁾

)

^^→^N⁽⁰^,^e⁻^θ⁽¹⁻ ^e⁻^θ ⁾⁾

n ^D

(

^g^ˆ₂ ⁻ ^g⁽^θ⁾

)

^^→^N⁽⁰^,^θ ^⋅⁽⁻^e⁻^θ ⁾²⁾

n ^D

z CTG dla schematu Bernoulliego

z Lematu Delta

1 1 )

1 ) (

, ˆ ( ˆ

as.ef

2 2

1

<

= −

=

₋

−

₋

−

θ θ

θ

e e

e g e

g

(30)

Asymptotyczna efektywność względna –

Przykłady 2: lepsza średnia czy mediana z próbki?

To zależy od rozkładu!

a) model normalny N( µ , σ

²

):

b) model Laplace’a Lapl( µ , λ )

c) niektóre rozkłady nie mają średniej...

Twierdzenie: Dla próbki z rozkładu ciągłego o gęstości f(x), mediana

próbkowa jest estymatorem asymptotycznie normalnym dla mediany m (o ile gęstość jest ciągła i ≠0 w punkcie m):

(

^X ^µ

)

^N⁽⁰^,^σ ²⁾

n − →^D

(

^m^eˆ^d ^µ

)

^N⁽⁰^,^πσ₂² ⁾

n − →^D

1 )

, d eˆ m (

as.ef X =

_π²

<

(

^X ^µ

)

^N⁽⁰^, _λ²² ⁾

n − →^D

(

^m^eˆ^d

)

⁽⁰^, 2 ⁾

1

µ N λ

n − →^D

as.ef ( m eˆ d , X ) = 2 > 1

(

^m^eˆ^d

)

⁽⁰^, 2 ⁾

)) ( ( 4

1 m f

D N

m

n − →

(31)

1. Informacja Fishera

Statystyka Matematyczna

Anna Janicka

Plan na dzisiaj