Metody estymacji
Metoda momentów
Metodę momentów pochodzącą od K. Pearsona można krótko opisać w następujący sposób:
Niech X=(X1,X2,,,Xn) będzie próbą prostą z rozkładu P zależnego od wektorowego parametru
=(1,..,k).
wyznaczamy k pierwszych momentów zwykłych: mr =hr(1,..,k) , r=1,...,k.
estymujemy momenty teoretyczne mr momentami empirycznymi
n
i r n i
r X
m
1
ˆ 1
rozwiązujemy układ równań
) ,..., ˆ (
) ,..., ˆ (
1 1 1 1
k k
k
k
h m
h m
M i otrzymujemy estymatory
ˆ ) ,..., (ˆ ) ˆ (
ˆ ) ,..., (ˆ ) ˆ (
1 1 1 1
k k
k
k
m m g X
m m g X
M będące zwykle ciągłymi funkcjami momentów empirycznych, a więc
mocno zgodne.
Przykład. Niech X=(X1,X2,,,Xn)będzie próba prostą z rozkładu o skończonych momentach do rzędu 2 włącznie. Wiadomo, że E(Xi)=m i E(Xi2
)=m2 +2. Z układu
2 2 1
1 2 2
1 1 1
ˆ ˆ
m X
m
m X X m
n
i i n
n
i i n
otrzymujemy
2 0 2 1
2 1 1 2
2
ˆ ˆ ( )
ˆ
ˆ
S X X m
m
X m
n
i i
n .Estymatory m
ˆ
1i mˆ
2są mocno zgodne i nieobciążone natomiast estymator wariancji2 1
2 1
0
(
X X)
S
n
i i
n
jest obciążony. Rzeczywiście oznaczając
(
m,
2)
mamy
2 2
1 2
1 2
1
) (
) )(
( 2 ) (
) (
)
(
X X E X m m X E X m X m m X m XE i
n
i i n
i i n
i
i
2 2
2 2 1
2 1
) 1 ( ) ( )
( )
( ) ( 2 )
(
n m X nE n
m X nE m X X m E m
X E
n
i i n
i
i g
dyż
) )(
( )
( )
(
1 , 1 2
1 2 1
2 E X m X m
m X E
m X
E j
n
j i n n
i
n i i
1 21
12 n ( )2 n
i
n E
E Xi m
.
Wobec tego E(S02)nn1
2a zmodyfikowany estymator 21 1 2 1 1 0
2 S
(
X X)
S
n
i n i n
n
jest już
zgodnym i nieobciążonym estymatorem wariancji.
Metoda podstawienia dystrybuanty empirycznej
Przypuśćmy, że interesujący nas parametr rozkładu jest znaną funkcją dystrybuanty F, czyli )
(F
g
. Np. r-ty moment zwykły
R
r F r
r X dP x dF
m
( )
jest funkcją (funkcjonałem) dystrybuanty rozkładu. Zwykle wprowadzając odpowiednie pojęcia topologiczne (np. metrykę, normę) w przestrzeni funkcyjnej zawierającej zbiór dystrybuant można pokazać, że interesujący nas funkcjonał jest ciągły. Wobec tego jego wartość „niewiele” się zmieni, gdy dystrybuantę zastąpimy jej„dobrym przybliżeniem”, czyli dystrybuantą empiryczną. Uzyskujemy w ten sposób naturalny estymator ˆg(Fˆ)będący funkcją (funkcjonałem) dystrybuanty empirycznej np.
n r n
i r i n R
n r
r x dF X M
m ,
1
ˆ
1ˆ
. Intuicyjne widać, że ciągłość funkcjonału i twierdzenie Gliwienki Cantellego implikują mocną zgodność estymatorów uzyskiwanych metodą podstawienia dystrybuanty.
Ponadto r
R r
R
n F r r
F m x E dF x dF m
E
( ˆ ) ( ˆ )
, więc rozważany estymator momentu zwykłego rzędu r jest nieobciążony. Zaprezentowane powyżej intuicje wymagają oczywiście stosownych uściśleń.Metoda Markowa
Metoda Markowa pochodząca z przełomu XIX i XX wieku polega na wyznaczaniu estymatorów
nieobciążonych
liniowych względem obserwowanych zmiennych losowych
posiadających najmniejszą wariancje w klasie wszystkich estymatorów liniowych
Metodę Markowa można więc potraktować jako szczególny przypadek estymacji nieobciążonej o minimalnej wariancji, który ze względu na postulowaną liniowość jest szczególnie prosty i wygodny obliczeniowo. Wyjaśnimy to na przykładzie.
Przykład. Niech X1,...,Xn będzie ciągiem niezależnych zmiennych losowych o tych samych wartościach oczekiwanych E(Xi)=m i znanych wariancjach V(Xi)=i2
(Uwaga X=(X1,X2,,,Xn) nie jest próbą prostą). Znaleźć nieobciążony estymator liniowy dla m o najmniejszej wariancji.
Z uwagi na postulowaną liniowość estymator wartości oczekiwanej m ma postać i
n
i iX a
m
1
ˆ .
Warunek nieobciążoności
n
i i i
n
i
iE X m a
a m
E m
1 1
) ( ˆ)
( prowadzi do równości 1
1
n
i
ai . Pisząc dla prostoty Ezamiast E i V zamiast V wariancja estymatora
2
1 2 2
1 2
1 1
2 1
)) (
( ) (
) (
ˆ)
( i
n
i i i
n
i i n
i i i n
i i i
n
i
iX m E a X am E a X m a
a E m
V
.
Aby znaleźć estymator typu Markowa należy więc znaleźć współczynniki a1,...,an minimalizujące
2 1
2 i n
i
ai
przy warunku 1
1
n
i
ai . Rozwiązując powyższy problem ekstremum warunkowego poprzez rozwikłanie ograniczeń i redukcję problemu do problemu ekstremum bezwarunkowego n-1 zmiennych lub stosując metodę mnożników Lagrange’a otrzymujemy
n
i i
i
ai
1 2 1 2 1
.
Metoda najmniejszych kwadratów MNK
Obserwujemy zmienne losowe Y1,...,Yn o których wiemy, że E(Yi)=gi() , i=1,...,n,
gdzie gi: Rk są znanymi funkcjami.
Jeżeli parametr przebiega zbiór , to punkt (g1(),...,gn()) przebiega pewien zbiór Rn. Zaobserwowany punkt Y=(Y1,...,Yn) również leży w Rn. Idea MNK polega na tym, żeby w zbiorze znaleźć punkt (Y1,...,Yn) najbliższy zaobserwowanemu punktowi Y a następnie za oszacowanie parametru przyjąć taki punkt ˆ , któremu odpowiada wyznaczony punkt , tzn. taki ˆ , że
(g1(ˆ ),...,gn(ˆ ))=(Y1,...,Yn).
Zwykłe oba etapy łączy się w jeden i za estymator MNK przyjmuje się minimalizujące wielkość
2 1
)) (
(
n
i
i
i g
Y , czyli
21
1,..., ) argmin ( )
ˆ(
n
i
i i
n Y g
Y
Y
MNK znajduje szczególne zastosowanie w tzw. liniowych modelach statystyki matematycznej i zostanie omówiona później.
Metoda największej wiarygodności
Niech (X,B,P={P:}), będzie dominowaną przez -skończoną miarę przestrzenią statystyczną.
Oznaczmy przez p(x;) p(x)dPd odpowiednie gęstości.
Def. Dla ustalonego wyniku eksperymentu XX wielkość L(,X)=p(X,) nazywamy wiarygodnością parametru , a funkcję L(,X): L(,X) określoną na przestrzeni parametrów nazywamy funkcją wiarygodności.
Z definicji widać, że funkcja L(X,) dla każdego ustalonego jest funkcją gęstości p(X,) rozkładu prawdopodobieństwa P na przestrzeni prób X . Interpretacja funkcji wiarygodności jest szczególnie prosta, gdy rozważymy dyskretną przestrzeń statystyczną. Funkcja wiarygodności przypisuje
parametrowi prawdopodobieństwo (wyznaczone z rozkładu P ) zaobserwowania danego wyniku eksperymentu XX. W przypadku ciągłym interpretacja funkcji wiarygodności jest podobna.
Prawdopodobieństwo zaobserwowania danego wyniku eksperymentu zastępujemy gęstością prawdopodobieństwa uzyskania danego wyniku eksperymentu. Ten sam wynik eksperymentu może mieć przypisane różne prawdopodobieństwa w zależności od wyboru parametru (czyli rozkładu P). Zasada największej wiarygodności sugeruje taki wybór parametru , przy którym zaobserwowany wynik eksperymentu xX jest najbardziej prawdopodobny.
W przypadku przestrzeni produktowej (R, B(R),{p(x,):})n gdy wynik eksperymentu jest ciągiem X=(X1,...,Xn), funkcja wiarygodności wyraża się wzorem L ( ,X1,...,Xn)=
n
i p Xi
1
) , ( .
Def. Estymatorem największej wiarygodności parametru ( ENW( ) ) (o ile istnieje) nazywamy estymator ˆ :X Xˆ(X) argmaxL(,X)
Uwaga techniczna. Ze względu na monotoniczność funkcji logarytmicznej maksymalizacja funkcji wiarygodności L(,X) jest równoważna maksymalizacji jej logarytmu l(,X)=ln L(,X).
Kłopoty z metodą największej wiarygodności
estymator największej wiarygodności może nie istnieć ,
estymator największej wiarygodności może nie być określony jednoznacznie,
efektywne wyznaczenie estymatora największej wiarygodności może być bardzo trudne.
Estymatory NW mają wiele cennych własności w próbach skończonych (szczegóły będą podane w wykładzie Statystyki Matematycznej II). Przy pewnych założeniach regularności (tzw. warunki regularności Cramera) (zapewniających różniczkowalność całek niewłaściwych) estymatory największej wiarygodności są:
mocno zgodne
asymptotycznie nieobciążone
asymptotycznie najefektywniejsze ( asymptotycznie osiągają dolne ograniczenie CR)
niezmiennicze tzn. jeśli ˆ(X ) ENW()i h() to ˆ(X)h(ˆ(X))ENW()
asymptotycznie normalne tzn. n(
ˆ
)ma asymptotycznie rozkład N(0,
as2), gdzie asymptotyczna wariancja
as2i1, a ln( ( , ) ln( (
1, )
2
1 2
2
E p X E p X
i
jestinformacją w sensie Fishera pojedynczej (np. pierwszej) obserwacji. Gdy parametr )
,..., (1 k
θ jest parametrem wektorowym, to
) , (
~ ˆ
ˆ1 1
as k k
k
N as
n 0 V
M
M , gdzie Vasi1(θ) a
) , ( 1 1 2
) , ( 1 1 1
1,..., )( ln ( , ,..., ) ln ( , ,..., )
, ( ln ( )
(
k i k
k j j k
i
X p E
X p X
p
E
θ
θ θ
i jest
macierzą informacji w sensie Fishera.
Szkic dowodu asymptotycznej normalności. W regularnych przypadkach ENW otrzymuje się jako rozwiązanie równania wiarygodności l(X,)0. Korzystając z mocnej zgodności dla dostatecznie dużych n estymator przyjmuje (z prawdopodobieństwem bliskim 1) wartości w pobliżu (nieznanej) wartości .Wobec tego rozwijając w szereg Taylora (war. regularności) i pomijając wyrazy wyższego rzędu mamy 0 ( ,ˆ) ( , ) 2ln ( , )(ˆ )
2
l X l X l X .
Stąd
) , (
) , ˆ (
2
2
X l
X l
i w konsekwencji
) , (
) , ( ˆ )
(
2
1 2
1
X l
X l n
n n
Zauważmy, że ( , ) ln ( , )
1 1
1 n i
n i
n l X
p X
, przy czym każda ze zmiennych losowych w powyższej sumie ma wartość oczekiwaną 0 i wariancję i()( informacja Fishera w pojedynczej obserwacji). Z CTG otrzymujemy, że 1 l(X,) N(0,i())
n .
Z kolei z MPWL ( , ) ln ( , ) 1 [ ln ( 1, )] ( )
1 1 1
2 2 2
2 2
2
E p X i
X p X
l zP
n
i n i
n
. Ztwierdzenia Słuckiego otrzymujemy że n(ˆ)N(0,i1()).
Przykład Skonstruować estymator największej wiarygodności parametru i asymptotyczny przedział ufności na poziomie 1- =0,95 oparty na n niezależnych obserwacjach X1,X2,...,Xn z rozkładu o gęstości p(x,) = 2x exp(- x) , > 0, x >0.
L( ;X1,X2,...,Xn)= 2n(
n i Xi
1 ) exp(-
n
i Xi 1
)
l (;X1,X2,...,Xn,)= ln L (;X1,X2,...,Xn)= 2n ln+
n
i Xi
1
ln -
n
i Xi 1
WK:
n
2
n
i Xi 1
=0 i WW ˆ= X
2 ENW[] , i=
2
2
as2 = 2
2
Korzystając z faktu, że asymptotyczny rozkład statystyki
as
n
ˆ
jest rozkładem N(0,1) możemy z tablic tego rozkładu odczytać dla danego wartość u1-/2 taką , że
P( |
as
n
ˆ
|< u1-/2)=1- a stąd otrzymujemy
ˆ
ˆ
) 1
(
1 /2 1 /2n u n
u as
P as .
Po podstawieniu za
as2 przybliżonej wartości 2 ˆ2 (wniosek z mocnej zbieżności ENW) otrzymujemy
asymptotyczny przedział ufności na poziomie 1- postaci:
ˆ ( 1
) ˆ ( 1
) 1
(
2 22 / 1 2
/ 1
n u n
P u .
Przykład. Skonstruować estymator największej wiarygodności parametru oparty na n niezależnych obserwacjach X1,X2,,,Xn z rozkładu jednostajnego U[0,].
W tym przypadku L( ;X1,X2,...,Xn,)=
i i
X i
X
n i : , 0
:
1 ,
=
max 1 max
, 0
, X
n X skąd natychmiast otrzymujemy,
że Xmax=max(X1,X2,...,Xn) jest ENW parametru . Jest to przypadek gdzie warunki regularności nie są spełnione i nie można wykorzystać własności asymptotycznej normalności ENW do konstrukcji przedziału ufności dla .
Ciekawy przykład estymacji NW dla danych cenzurowanych.
Niech X1,...,X100 będzie próba losową z rozkładu wykładniczego o nieznanej wartości oczekiwanej a (tzn. f(x) 1e a [0, )(x)
x
a
1 ).Estymujemy a na podstawie częściowej informacji o próbce, a mianowicie na podstawie tego, iż
80 zmiennych (spośród wszystkich 100 z próbki) przybrało wartości poniżej 3,
średnia arytmetyczna z tych wartości wynosi 2. Znaleźć ENW[a].
Rozwiązanie. Niech Y będzie zmienną losową zdefiniowaną wzorem Y X1[0,3)(X)b1[3,)(X)=
3 gdy ,
3 gdy ,
X b
X
X , gdzie liczba b3jest etykietą zdarzenia X3.
Zmienna Y ma dystrybuantę
b y
b y e
y e y
F a
a y
Y
, 1
3 , 1
3 , 1 )
(
3 . Niech =+b gdzie oznacza miarę Lebesgue’a i A B mamy
y e A e e dd e
A
P b
A a b
A a
a a
y a
a y
) (
) ( )
( )
(
1 1[0,3) 3
1 1[0,3) 31{} . Stąd fY(
y)
1ae a [0,3)(
y)
e 3a {b}(
y)
y
1
1
jest gęstością rozkłady zmiennej losowej Y względem .)} 20 ( 1 { 1 100
1
} { )
3 , 0 [ 1 100
1
) 3 3 , 0 1 [
80
3
( ) )
) ( (
) ,...,
;
(
i ai a i
a a
Yi
e e
Y e
Y e
Y Y a L
Y Y a
i
i b i
a
1 1 =a e ae a60 160 80
1
a a
Y Y a L Y
Y a
l
( ;
1,...,
100) ln ( ;
1,...,
100) 80 ln
220WK: 2 0
220
80
a a
da
dl aˆ114 =ENW[a] (WW oczywisty)
Przykład. Niech X(X1,...,Xn) będzie próba prostą z rozkładu normalnego N(m,2)o funkcji
gęstości 2
2
2 ) (
2 2 1
) ,
;
(
m x
e m
x p
. Funkcja wiarygodności jest postaci
n
i i
n n
m X
e m
L 1
2 2
2
) 2 (
1
2 2 1
)
; ,
(
X a jej logarytm
n
i i
n n X m
m l
1
2 2
2
2 ( )
2 ln 1 ) 2 ln(
)
; ,
( X .
WK istnienia ekstremum
0 0
l m
l
0 ) 2 (
2
0 ) (
1
2 3
1 n
i i
n n
i i
m X m X
, stąd
n
i i
n n
i i
n
X X
X X
m
1 1 2 2
1 1
)
( . Pokażemy,
że (ˆ,ˆ ) ( , ( ) ) [( , 2)]
1 1 2
2
X X X ENW m
m n
i i
n
, wykazując, że l(mˆ,ˆ2;X)l(m,2;X)0 (m,2)i równość zachodzi tylko dla mmˆ i 2 ˆ2.
Z własności niezmienniczości ENW widać, że (ˆ,ˆ) ( , ( ) ) [( , )]
1
1 2
X X X ENW m
m n
i i
n
.
0 ) ( ) 1 (ln )
( ˆ ln
ln )
; , ( ) ˆ ; ˆ,
( 2
2 ˆ ˆ 2 ) 1 (
1
2 2
2 1 2 2 2 2 2
2
2 2 2 2 2
2
m X m
X m
l m
l n n
n
i i n
n n
X X
Ostatnie wyrażenie jest sumą dwóch nieujemnych składników (bo lnx1x0 i równość ma miejsce tylko dla x1) które jednocześnie sie zerują tylko dla mmˆ i 2 ˆ2.
Uwaga: ( ) ( ) ( ) ( )2 ˆ2 ( )2.
1
2 1
) 2 1 (
1
2 X X X m X X n X m n n X m
m X
n
i i n
i i n
i
i
Macierz informacji
2 2
2 2 2
2 2
2
2 1 )
, ( ) ,
( 0
0 )
, , ( ln )
, , ( ln
) , , ( ln )
, , ( ln
m X p m
X p
m X p m
X E p
m m m m
im . Stąd
2 2
0 2
, 0 0
~ 0 ˆ
ˆ
m m asN
n
4 2 2
2 0 2
, 0 0
~ 0 ˆ
ˆ
m m asN
n .
Przykład. Niech X(X1,...,Xn) będzie próba prostą z rozkładu PoissonaP() o funkcji gęstości ,...
1 , 0
! , )
;
( e x
x x p
x
względem miary liczącej
0
) ( )
(
k
k
. Funkcja wiarygodności jest postaci
n
n
i i X
e X L
n
i i
! )
; (
1
1
X a jej logarytm ( ; ) ln ln !
1
1
n
i i n
i Xi n X
l X .
WK : l(;X)0in1Xi n0X . Badając monotoniczność funkcji l(;X)stwierdzamy, że ].
ˆ [
X ENW Widać , że 22ln ( , ) 2
p X X
, stąd
E ( X2)1
i , więc n(X )~asN(0,).
Zadania
1. Niech X1,...,Xn będzie próbą prostą z rozkładu równomiernego (dyskretnego jednostajnego) na {1,...,k} i kN. Wyznaczyć estymator największej wiarygodności parametru k. Wykazać, ze estymator ten jest zgodny. Odp. ˆ ( )
X n
k
2. Niech X1,...,Xn będzie próbą prostą z rozkładu jednostajnego U[1,2] na przedziale na [1,2].
Wyznaczyć estymator największej wiarygodności parametru (1,2). (Odp. (ˆ1,ˆ2)(X(1),X(n))).
3. Czas pracy elementu jest zmienną losową X o gęstości ( ) exp( ) (0, )( )
1 bx x
x ab x
f a a 1 , gdzie a jest znanym dodatnim parametrem zaś b jest nieznaną dodatnią stałą (rozkład Weibulla).
Wyznaczyć estymator największej wiarygodności parametru b oparty na n elementowej próbie prostej. Wyznaczyć asymptotyczny przedział ufności dla parametru b na poziomie 1-.
4. Zmienna losowa N ma rozkład Poissona z parametrem intensywności , który chcemy oszacować.
Niestety możemy obserwować jedynie zmienną losową M , która przyjmuje wartość 0 jeśli N jest równa 0, a wartość 1 jeśli N jest większa od 0. Wyznaczyć estymator największej wiarygodności parametru i asymptotyczny przedział ufności dla na poziomie 1-.. (Odp ˆln(1M) 5. Skonstruować estymator największej wiarygodności parametru i asymptotyczny przedział
ufności na poziomie 1-=0.95 oparty na n elementowej próbie prostej X1,X2,...,Xn z rozkładu a) geometrycznego p(x, ) = (1- )x -1 , (0,1), x=1,2,... ,
b) geometrycznego p(x, ) = (1- )x -1 , (0,1), x=1,2,... . c) wykładniczego p(x, ) = exp(- x) , > 0, x >0,
d) wykładniczego p(x, ) = - -1 exp(-x/ ) , > 0, x >0.
e) o gęstości p(x,) = 2x exp(- x) , > 0, x >0, f) normalnego p(x,) = 2
2
2 ) 1 (
2
1
x
e , > 0.
g) normalnego
2
)2 (
2
) 1
, (
e x
x
p , > 0.
h) Poissona p(x,)=
x ex
!
, > 0, x=0,1,2,... .i) z rozkładu Bernoulliego p(x, )= x (1- )1-x, (0,1), x=0,1.
j) z rozkładu Pareto (ozn. Pa(1,a)) o funkcji gęstości f(x)axa11(1,)(x), gdzie a>1
6. Niech X=(X1,...,Xn) będzie próbą prostą z rozkładu o gęstości zadanej wzorem )
( )
,
( 1 1 (0,1)
1
x x
x
f 1
. Wyznaczyć estymator największej wiarygodności parametru i wyznaczyć błąd średniokwadratowy (ryzyko) tego estymatora.(wskazówka - aby wyznaczyć ryzyko warto wyznaczyć rozkład zmiennej Y=-lnX )
7. Skonstruować estymator największej wiarygodności parametru i asymptotyczny przedział ufności na poziomie 1- =0.95 oparty na n elementowej próbie prostej X1,X2,,,Xn z rozkładu Laplace’a o gęstości p(x,)2e|x|, > 0.