Statystyka Matematyczna
Anna Janicka
wykład VI, 04.04.2016
WŁASNOŚCI ESTYMATORÓW, CZ. II
Plan na dzisiaj
1. Informacja Fishera
2. Nierówność informacyjna 3. Efektywność estymatora
4. Asymptotyczne własności estymatorów
zgodność
asymptotyczna normalność
asymptotyczna efektywność
Informacja Fishera
Jeśli model statystyczny z obs. X
1, X
2, ..., X
ni p-stwem f
θspełnia warunki regularności, tzn.:
1. Θ jest przedziałem otwartym 1-wymiarowym.
2. Nośnik rozkładu {x: f
θ(x)>0} nie zależy od θ .
3. Istnieje pochodna .
to można zdefiniować Informację Fishera zawartą w obserwacjach X
1, X
2, ..., X
n:
nie zakładamy tu niezależności X1, X2, ..., Xn θ
θ
d df
( ln (
1,
2,..., ) )
2)
(
dd nn
E f X X X
I θ =
θ θ θInformacja Fishera – co oznacza
Miara tego, jak wiele może powiedzieć próba wielkości n (uśredniona) o
wartości nieznanego parametru θ .
Np. jeśli funkcja gęstości wokół θ jest
płaska, to informacja zawarta w (jednej) obserwacji nie będzie pozwalała
różnicować naszych przewidywań co do
θ . Jeśli jednak funkcja gęstości wokół θ
nie jest płaska, to info o wynikach wnosi
wiele.
Informacja Fishera – cd.
Wzory dla różnych przypadków:
jeśli rozkład ciągły
jeśli rozkład dyskretny
jeśli f
θdwukrotnie różniczkowalna
dx x
x f
I f
dx df
n
( )
) ) (
(
) 2 (
θ θ
θθ
θ ∫
=
X
∑
∈
=
X x
d x dP
n
P x
x
I P ( )
) ) (
(
) 2 (
θ θ
θθ
θ
( ln ( , ,..., ) )
)
(
2 1 22
d n d
n
E f X X X
I θ = −
θ θ θInformacja Fishera – cd. (2)
Jeśli próba składa się z niezależnych zmiennych losowych o identycznych rozkładach, to wówczas z uwagi na
multiplikatywność prawdopodobieństwa oraz własności logarytmu
I1(
θ
) jest informacją Fishera zawartą w pojedynczej obserwacji) (
)
( θ nI
1θ
I
n=
Informacja Fishera – przykłady
Rozkład wykładniczy exp(λ)
Rozkład Poissona Poiss( θ )
1 2
... 1 )
( λ = = λ
I
θ ) ... θ 1
1
( = =
I
Nierówność Informacyjna (Craméra-Rao)
Niech X=(X
1, X
2, ..., X
n) będą obserwacjami o łącznej gęstości f
θ(x), gdzie θ ∈ Θ ⊆ R, oraz:
T(X) jest statystyką o skończonej wartości oczekiwanej Eθ T(X)=g(
θ
)Informacja Fishera jest dobrze określona, In(
θ
) ∈(0,∞) Wszystkie gęstości fθ mają ten sam nośnikMożna zamieniać kolejność różniczkowania (d/d
θ
) oraz całkowania ∫.... dx.Wówczas, dla dowolnego θ :
( )
) (
) (
) ' (
Var
2
θ θ
θ
I
nX g
T ≥
Nierówność informacyjna – implikacje
W szczególności, funkcja ryzyka
nieobciążonego estymatora (=wariancja) nie może być mniejsza od ustalonej
funkcji n i θ .
Jeśli ryzyko estymatora nieobciążonego jest równe dolnemu ograniczeniu
nierówności, to jest to estymator ENMW.
Jeśli jest nieobciążonym estymatorem θ , to
) ˆ X (
θ
) ( ) 1
ˆ (
Var
θθ θ
I
nX ≥
Nierówność informacyjna – przykłady zastosowań
W modelu Poissona, jest ENMW( θ )
W modelu wykładniczym, jest ENMW(1/ λ )
Niestety, nierówność Craméra-Rao nie zawsze jest optymalna: w modelu wykładniczym,
jest obciążonym estymatorem λ . Nieobciążonym estymatorem jest , który jest też
ENMW( λ ), chociaż jego wariancja jest większa, niż by to wynikało z ograniczenia Craméra-Rao.
= X
θ ˆ
X
X / ˆ = 1
λ
X n
~ n 1 −
λ =
X n
Varθ ( ) = θ
2
) 1
( λ
λ X n
Var =
Efektywność
Efektywność nieobciążonego estymatora wielkości g( θ ) to:
Efektywność względna nieobciążonych estymatorów oraz :
) ˆ X ( g
( )
) ( ˆ )
( Var
) ( ) '
( ˆ ef
2
θ θ
θ
g I
ng g
= ⋅
) ˆ
1( X
g g ˆ
2( X )
ˆ ) ( ef
ˆ ) ( ef ˆ )
( Var
ˆ ) ( ) Var
, ˆ ( ˆ
ef
2 1 1
2 2
1
g
g g
g g
g = =
θ θ
Efektywność a nierówność informacyjna
Jeśli spełniona jest nierówność
informacyjna, to dla każdego estymatora nieobciążonego.
Jeśli =ENMW(g), to możliwe jest, że , ale możliwe też, że . Jeśli , to estymator jest
efektywny.
efektywność w sensie Craméra-Rao
1 ˆ )
(
ef g ≤
gˆ
1 ˆ )
(
ef g = ef ( g ˆ ) < 1
1 ˆ )
(
ef g =
Efektywność – przykłady
W modelu Poissona, jest efektywny.
W modelu wykładniczym, jest efektywnym estymatorem 1/ λ .
W modelu wykładniczym, nie jest efektywnym estymatorem λ , chociaż jest ENMW( λ ).
Branie części próbki nie jest efektywne.
W modelu jednostajnym U(0, θ ) dla
ENW(θ) „wychodzi” ef >1 (bo nie są spełnione założenia nierówności informacyjnej)
= X
θ ˆ
X
X
n
ˆ n 1 −
λ =
Własności asymptotyczne estymatorów
Twierdzenia graniczne opisujące
zachowanie/ własności estymatorów gdy n→∞
W praktyce: informacja, jak w przybliżeniu zachowują się estymatory dla dużych
próbek
Problem: zwykle brak odpowiedzi na
pytanie, jaka próbka jest odpowiednio duża
(żeby przybliżenie było odpowiednio dobre)
Zgodność
Niech X
1, X
2, ..., X
n,... będzie próbą IID, tzn.
niezależnych zmiennych losowych o
identycznych rozkładach. Niech
będzie ciągiem estymatorów wielkości g( θ ).
Estymator jest zgodny, jeśli dla każdego θ ∈Θ, dla każdego ε >0:
(tzn. estymator jest zbieżny do g( θ ) według prawdopodobieństwa)
) ,...,
,
ˆ ( X
1X
2X
ng
gˆ
1 )
| ) ( )
,..., ,
ˆ ( (|
lim
1 2− ≤ =
∞
→
P
θg X X X
ng θ ε
n
gˆ
Mocna zgodność
Niech X
1, X
2, ..., X
n,... będzie próbą IID, tzn.
niezależnych zmiennych losowych o
identycznych rozkładach. Niech
będzie ciągiem estymatorów wielkości g( θ ).
Estymator jest mocno zgodny, jeśli dla każdego θ ∈Θ:
(tzn. estymator jest zbieżny do g( θ ) prawie na pewno)
) ,...,
,
ˆ ( X
1X
2X
ng
gˆ
( lim→∞ ˆ (
1,
2,..., ) = ( θ ) ) = 1
θ
g X X X g
P
nn
gˆ
Zgodność – uwaga
Z tw. Gliwienki-Cantelliego mamy, iż
dystrybuanty empiryczne są zbieżne p.n.
do dystrybuanty teoretycznej. A zatem od wszystkich sensownych estymatorów
należy oczekiwać (mocnej) zgodności.
Zgodność = minimalne sensowne żądanie
w stosunku do estymatora.
Zgodność – jak badać?
Z definicji; można wówczas korzystać np. z nierówności Czebyszewa-Bienaymé i t.p.:
Pamiętając, że ryzyko estymatora to
dostajemy np. warunek wystarczający zgodności:
Z PWL
2
))
2( ) (
| ) (
(| X E X ε E X ε E X
P −
≤
≥
−
))
2( )
ˆ ( ( ˆ )
,
( θ g E
θg X g θ
R = −
0 ˆ )
, (
lim =
∞
→
R g
n
θ
Zgodność – przykłady
Dla dowolnej rodziny rozkładów mających wartość oczekiwaną: średnia z próbki jest zgodnym estymatorem wartości
oczekiwanej µ ( θ )=E
θ(X
1). Zbieżność wynika z MPWL.
Dla dowolnej rodziny rozkładów mających wariancję: i
są zgodnymi estymatorami wariancji
σ
2( θ )=Var
θ(X
1). Zbieżność wynika z MPWL
X
n∑
=−
−
=
ni i
n n
X X
S
12 1
2 1
)
( = ∑
n=−
i i
n n
X X
S
11 2
2
( )
ˆ
Zgodność – przykłady/własności
Estymator może być nieobciążony i nie być zgodny; np. T
n(X
1, X
2, ..., X
n)=X
1jako estymator µ ( θ )=E
θ(X
1).
Estymator może być obciążony i być zgodny; np. obciążony estymator
wariancji j.w., lub np. dowolny zgodny
estymator nieobciążony + 1/n.
Asymptotyczna normalność
Estymator wielkości g( θ ) jest asymptotycznie normalny, jeśli dla każdego θ ∈Θ istnieje σ
2( θ ) takie, że gdy n→∞
Zbieżność wg. rozkładu, tzn. dla dowolnego a
lub równoważnie, rozkład jest dla dużych n zbliżony do rozkładu
) ,...,
,
ˆ ( X
1X
2X
ng
( g ˆ ( X
1, X
2,..., X ) g ( θ ) ) N ( 0 , σ
2( θ ))
n
n− →
D(
ˆ( , ,..., ) ( ))
( ))
lim (n g X1 X2 X g a a
P n
n = Φ
− ≤
∞
→
θ
θ
θ
σ
) ,...,
,
ˆ ( X
1X
2X
ng
) ),
(
( g
n2N θ
σAsymptotyczna normalność – co to znaczy
Estymator asymptotycznie normalny jest zgodny (niekoniecznie mocno zgodny).
Zawiera warunek podobny do
nieobciążoności – wartość oczekiwana
rozkładu asymptotycznego jest równa g( θ ) (ale sam estymator nie musi być
nieobciążony).
Podobnie dla tzw. wariancji
asymptotycznej definiowanej jako
lub – jest to wariancja rozkładu asymptotycznego
n )
2
( θ σ
)
2
( θ
σ
Asymptotyczna normalność – czym nie jest
Zazwyczaj dla estymatora asymptotycznie normalnego zachodzi:
ale nie musi tak być, bo zbieżność wg
rozkładu nie pociąga za sobą zbieżności wartości oczekiwanych ani wariancji
) ( )
,..., ,
ˆ (
1 2θ
θ
g X X X g
E
n →
n→
∞) ( )
,..., ,
ˆ (
var g X
1X
2X
n →
n→
∞σ
2θ
n
Asymptotyczna normalność – przykład
Niech X
1, X
2, ..., X
n,... będzie próbą IID o średniej µ i wariancji σ
2. Wówczas dla
średniej z próby mamy z CTG
Asymptotyczna wariancja, , jest tu tożsama z wariancją estymatora.
) ,
0 ( )
( X µ N σ
2n − →
Dn )
2
( θ
σ
Asymptotyczna normalność – jak liczyć
W wielu przypadkach przydatny jest lemat:
Metoda Delta. Jeśli dla ciągu zmiennych losowych T
nmamy
gdy n→ ∞ oraz h:R→R jest funkcją
różniczkowalną w punkcie µ t.że h’( µ )≠0, to
µ
,σ
2 są funkcjami parametruθ
stosujemy zwykle wtedy, kiedy estymatory są funkcjami
statystyk Tn, których zbieżność łatwo wywnioskować z CTG
) ,
0 ( )
( T µ N σ
2n
n− →
D( h ( T ) h ( µ ) ) N ( 0 , σ
2( h ' ( µ ))
2)
n
n− →
DAsymptotyczna normalność – przykłady cd.
W modelu wykładniczym:
Z CTG mamy
więc z Lematu Delta mamy dla h(t)=1/t:
a więc jest asymptotycznie normalnym (co za tym idzie: zgodnym) estymatorem λ .
ENW ( λ ) =
X1) ,
0 ( )
(
1 12λ
N
λX
n − →
D) ) (
, 0 ( )
(
2) / 1 (
1 1
1
2
2 λ
λ →
λ⋅ −
− N
n
X DX 1
Asymptotyczna efektywność
Dla asymptotycznie normalnego estymatora wielkości g( θ ) możemy
określić asymptotyczną efektywność jako
gdzie σ
2( θ )/n jest wariancją asymptotyczną, tj. mamy gdy n→∞
( g ˆ ( X
1, X
2,..., X ) g ( θ ) ) N ( 0 , σ
2( θ ))
n
n− →
D) ,...,
,
ˆ ( X
1X
2X
ng
( )
) , ( )
(
) ( ) '
( ˆ
as.ef
22
θ θ
σ
θ
I
nn g g
= ⋅
( )
) ( ) (
) ( ) '
( ˆ as.ef
1 2
2
θ θ
σ
θ I g g
= ⋅
modyfikacja „zwykłej” efektywności do przypadku granicznego, z wariancją asymptotyczną zamiast zwykłej
Asymptotyczna efektywność względna
Asymptotyczna efektywność względna dla
asymptotycznie normalnych estymatorów i
ˆ ) ( as.ef
ˆ ) ( as.ef )
( ) ) (
, ˆ ( ˆ
as.ef
2 1 2
1 2 2 2
1
g
g g
g = =
θ σ
θ σ
) ˆ
1( X
g g ˆ
2( X )
Uwaga. Estymator mniej (asymptotycznie) efektywny może mieć inne cechy, które sprawiają, że ma przewagę nad estymatorem bardziej (asymptotycznie) efektywnym.
Asymptotyczna efektywność względna – Przykład 1
Estymacja prawdopodobieństwa braku szkód w modelu Poissona: Poiss( θ ) (typowy model aktuarialny dla liczby szkód w poszczególnych latach dla polisy, albo dla grupy polis)
– pr-stwo braku szkód
→
) 0 (
)
( = e
−= P X
i= g θ
θ∑
= ==
ni X
n i
X
g
1 { 0}1 1
( )
ˆ 1 g ˆ
2( X ) = e
−X= ENW ( g ( θ )) (
gˆ1 − g(θ))
→N(0,e−θ(1− e−θ ))n D
(
gˆ2 − g(θ))
→N(0,θ ⋅(−e−θ )2)n D
z CTG dla schematu Bernoulliego
z Lematu Delta
1 1 )
1 ) (
, ˆ ( ˆ
as.ef
2 2
1
<
= −
=
−−
−−
θ θ
θ
θ
θ
θ
e e
e g e
g
Asymptotyczna efektywność względna –
Przykłady 2: lepsza średnia czy mediana z próbki?
To zależy od rozkładu!
a) model normalny N( µ , σ
2):
b) model Laplace’a Lapl( µ , λ )
c) niektóre rozkłady nie mają średniej...
Twierdzenie: Dla próbki z rozkładu ciągłego o gęstości f(x), mediana
próbkowa jest estymatorem asymptotycznie normalnym dla mediany m (o ile gęstość jest ciągła i ≠0 w punkcie m):
(
X µ)
N(0,σ 2)n − →D
(
meˆd µ)
N(0,πσ22 )n − →D
1 )
, d eˆ m (
as.ef X =
π2<
(
X µ)
N(0, λ22 )n − →D
(
meˆd)
(0, 2 )1
µ N λ
n − →D
as.ef ( m eˆ d , X ) = 2 > 1
(
meˆd)
(0, 2 ))) ( ( 4
1 m f
D N
m
n − →