Przedziały ufności –estymacja przedziałowa
Niech X(X1,...,Xn)będzie próbą prostą z rozkładu PP {P:}.
Definicja. Losowy przedział [L(X U), (X)], gdzie P(L(X)U(X))1, taki, że dla zadanego )
1 , 0
(
P(L(X)g()U(X))1 , nazywamy 100(1)%przedziałem ufności dla parametru g()R. Statystyki L(X)i U(X) nazywamy odpowiednio dolnym i górnym końcem przedziału a współczynnik 1 nazywamy poziomem ufności.
Interpretacja. Prawdziwa nieznana, nielosowa wartość g()z prawdopodobieństwem 1 należy do losowego przedziału (jest pokryta losowym przedziałem) [L(X U), (X)]. Nie można tu mówić o prawdopodobieństwie, że nieznany parametr będzie zawarty w jakimś stałym przedziale. Takie zdanie miałoby sens gdyby nieznany parametr był zmienną losową a nie jest.
Konstrukcja przedziałów ufności za pomocą funkcji centralnej (wiodącej)
Definicja. Niech X(X1,...,Xn)próbą prostą z rozkładu PP {P:}. Funkcja Q X( ,g()) (to nie jest statystyka) nazywa się funkcją centralną dla parametru g()R, jeżeli jej rozkład prawdopodobieństwa nie zależy od parametru .
Przykłady
Niech X(X1,...,Xn)będzie próbą prostą z rozkładu N(m,02), gdzie 02 znane. Funkcja
0
) ) (
,
(
m X m n
Q X mająca rozkład N(0,1) jest funkcją centralną dla m
Niech Niech X(X1,...,Xn) będzie próbą prostą z rozkładu N(m,2). Oznaczmy
n
i n Xi
X
1
1 i
2 1
1
2 1 (X X)
S
n
i
n i
. Funkcja
S m X m n
X X
Q n ( )
) , ,...,
( 1
mająca rozkład tn-1 (t - Studenta z n-1 stopniami swobody) jest funkcją centralną dla m.
Funkcja 2
2 2 1
) 1 ) ( , ,...,
(X X n S
Q n
mająca rozkład n21 jest funkcją centralną dla 2.
Niech X(X1,...,Xn)będzie próbą prostą z rozkładu o ciągłej dystrybuancie FF . Ponieważ )
(Xi
F ma rozkład jednostajny U(0,1), wiec funkcja ( , ) ( i)
n
X F F
Q X
o rozkładzieZałóżmy, że dysponujemy funkcją centralną Q X( ,g()). Przedział ufności konstruujemy w następujący sposób:
Wybieramy liczby a i b tak aby spełniały nierówność:
(aQ( ,g())b)1
P X ñ P(aQ(X,g())b)1 , bo rozkład funkcji centralnej Q X( ,g()) nie zależy od parametru .
Gdy funkcja centralna Q X( ,g())jest ciągłą i ściśle monotoniczną funkcją parametru g()R, to nierówność aQ(X,g())bjest równoważna nierówności [L(X,a,b)g()U(X,a,b)]. Stąd przedział[L(X,a,b),U(X,a,b)] jest 100(1)%przedziałem ufności dla parametru g()R.
Przedział ufności dla m w rozkładzie N(m,02), gdzie 02 znane.
Funkcja centralna
0 1
) ) (
, ,...,
(
m X m n
X X
Q n ma rozkład N(0,1). Wobec tego
Rozkład N(0,1)
0,0 0,1 0,2 0,3 0,4
za/2 z1-a/2
a/2 a/2
m
) 1
)|
(| ( (1 /2)
0
m z X
Pm n
co jest równoważne
m
) 1
( (1 /2) 0 (1 /2) 0 n z
X m n z
X Pm
otrzymaliśmy wiec przedział ufności [ (1 /2) 0 , (1 /2) 0] n z
X n z
X
o stałej długości
z n n
l( ,)2 (1/2)0
Tą konstrukcję można powielić konstruując asymptotyczny przedział ufności dla pojedynczego parametru estymowanego MNW
(ˆ (1 /2) ˆ (1 /2) )1 z n
z n
P as as
gdzie za asymptotyczną wariancję as2 i1 należy przyjąć jej estymator. Dokładniej w informacji Fishera i =i() za parametr należy przyjąć ˆ =ENW[]. Poprawność tej konstrukcji jest prostym wnioskiem z asymptotycznych własności estymatorów NW i twierdzenia Słuckiego.
Przedział ufności dla m w rozkładzie N(m,2), gdzie 2 nieznane.
Funkcja centralna
S m X m n
X X
Q n ( )
) , ,...,
( 1 ma rozkład tn-1 (t - Studenta z n-1 stopniami swobody) . Wobec tego
(m,2)
) 1
)|
(| ( ( 1,1 /2)
) ,
(m tn
S m X P n
co jest równoważne
)( ( 1,1 /2) ( 1,1 /2) )1
,
( n
t S X n m
t S X
Pm n n
otrzymaliśmy wiec przedział ufności [ ( 1,1 /2) , ( 1,1 /2) ] n t S
n X t S
X n n o losowej długości
n t S
n
l( ,)2(n1,1/2) o wartości oczekiwanej długości
n const n t
t E n
S t E
n l
Em n m n n (n 1,1 /2)
2 1 )
2 / 1 , 1 ( )
, ( ) 2 / 1 , 1 ( )
,
( ( ) 2
) 2 2 (
) ,
(
Przedział ufności dla 2 w rozkładzie N(m,2)
Funkcja 2
2 2
1
) 1 ) ( , ,...,
( n S
X X
Q n
ma rozkład n21 . Wobec tego
Rozkład chi2n-1
0,0 0,1 0,2 0,3 0,4
chi2n-1,a/2 chi2n-1,1-a/2
a/2 a/2
(m,2)
( 1) )1
( 2 21,1 /2
2 2 2 / , 1 ) ,
(m n n
S
P n
co jest równoważne
(m,2)
1 ) ) 1 ( )
1
(( 2
2 / , 1
2 2
2 2 / 1 , 1
2 )
, (
n n
m
S n S
P n
otrzymaliśmy wiec przedział ufności ( 1) ] ) ,
1
[( 2
2 / , 1
2 2
2 / 1 , 1
2
n n
S n S
n o losowej długości
1 ) ( 1
) 1 ( ) ,
( 2
2 / 1 , 1 2
2 / , 1 2
n n
S n n
l o wartości oczekiwanej długości
1 ) ( 1
) 1 ( 1 )
)( 1 ( ) 1 ( ) ,
( 2
2 / 1 , 1 2
2 / , 1 2 2
2 / 1 , 1 2
2 / , 1 2 )
, (
n n
n n
m l n n E S n
E
W przypadku symetrycznego rozkładu funkcji centralnej wybór liczb a i b tak aby spełniały nierówność P(a Q(X1,...,Xn,) b)=1- wydaje się oczywisty. W przypadku rozkładu niesymetrycznego wybór nie jest już oczywisty. Można postawić problem takiego doboru a i b, aby długość l(a,b) przedziału [L(X1,...,Xn, a,b), U(X1,...,Xn, a,b)] (gdy jest nielosowa) lub wartość
oczekiwana długości była minimalna. Mówimy wtedy o najkrótszych przedziałach ufności na poziomie 1-.. Jeżeli F oznacza dystrybuantę rozkładu funkcji centralnej, to należy rozwiązać następujące zagadnienie optymalizacyjne
Rozkład tn-1
0,0 0,1 0,2 0,3 0,4
tn-1, a/2 tn-1,1-a/2
/2
/2
pod warunkiem
F(b)-F(a)=1-. W rozważanym powyżej problemie
l(a,b)(n1)2(a1b1)
( ) 2 ( ) 1
1 2
1 b F a
F
n n
Aby rozwiązać powyższy problem ekstremum warunkowego tworzymy funkcję Lagrange’a ))
1 ( ) ( ) ( ( ) ( ) 1 ( )
; ,
( 2
1 2
1
1
2 1
b F a
F n
b a L
n
b n
a .
Z WK otrzymujemy układ
0 ) 1 ( ) ( ) (
0 ) (
0 ) (
2 1 2
1
2 2 1
2
2 2 1
2
) 1 (
) 1 (
a F b F
b f
a f
n n
n n
L b n b L
a n a L
1 ) ( ) (
) (
) (
2 1 2
1
2 1 2
2 1 2
) 2 1 (
) 2 1 (
a F b F
b f b
a f a
n n
n n
n n
Niech ( ) 2 ( )
1
2f x
x x
n
(x)
X u
Y
a b
Należy tak dobrać poziom uaby para {a,b}1[{u}] spełniała warunek
( ) 2 ( ) 1
1 2
1 b F a
F n n
Uzupełnienie. Wielowymiarowy rozkład normalny
Wielowymiarowy rozkład normalny może być zdefiniowany poprzez funkcję gęstości względem odpowiedniej wielowymiarowej miary Lebesgue’a , lecz sposób ten prowadzi często do uciążliwych rachunków. Wygodniej jest wprowadzić n wymiarowy rozkład normalny w oparciu o
twierdzenie Cramera-Wolda głoszące, że rozkład n wymiarowej zmiennej losowej X jest całkowicie określony poprzez podanie jednowymiarowych rozkładów funkcji liniowych lTX dla wszystkich l Rn (symbol T oznacza transpozycję wektora traktowanego jako macierz kolumnową). To podejście może być także użyte do zdefiniowania rozkładu normalnego w nieskończenie wymiarowych przestrzeniach funkcyjnych Banacha czy Hilberta: wystarczy postulować aby dowolny funkcjonał liniowy miał jednowymiarowy rozkład normalny (Frechet 1951).
Niech X=
Xn
X M
1
będzie n wymiarową zmienną losową, m=E(X) wektorem wartości oczekiwanych a V
=V(X) macierzą kowariancyjną.
Def. Zmienna losowa X ma n wymiarowy rozkład normalny Nn(m,V) wtedy i tylko wtedy, gdy dla każdego wektora l R n jednowymiarowa zmienna losowa lTX ma rozkład normalny N(lTm, lTVl).
Z powyższej definicji łatwo wynikają następujące własności:
jeżeli A jest macierzą typu (q,n) a n wymiarowa zmienna losowa X ma rozkład Nn(m,V) , to q wymiarowa zmienna losowa Y=AX ma rozkład normalny Nq(Am, AVAT)
rozważmy p+q wymiarową zmienną losową X=
2 1
X
X przy czym p pierwszych składowych
tworzy p wymiarową zmienną X1 a pozostałe q wymiarową zmienną losową X2. Dokonując odpowiedniego podziału na bloki możemy przedstawić wektor wartości oczekiwanych m i macierz kowariancyjną V w postaci blokowej m=
2 1
m
m V=
22 21
12 11
V V
V
V . Jeżeli
2 1
X X
Np+q
22 21
12 11 2 1 ,
V V
V V m
m , to X1 Np(m1,V11) , X2 Nq(m2,V22)
X1| X2 Np
21
1 22 12 11 2 2 1 22 12
1 V V (X m ),V V V V
m
X2| X1 Nq
12
1 11 21 22 1 1 1 11 21
2 V V (X m ),V V V V
m
jeżeli macierz kowariancyjna V n wymiarowej zmiennej losowej X o rozkładzie Nn(m,V) jest nieosobliwa, to istnieje gęstość tego rozkładu względem n wymiarowej miary Lebesgue’a i
wyraża się wzorem ( ) ( )
|
| ) 2 (
1 2 1
1 2 / 1 2
) /
( x m V x m
x V
n e T
fn