Ma r e k Ka ł u s z k a
Łódź
O jednolitym podejściu do nierówności typu Rao-Cramera
(Praca wpłynęła do Redakcji 1985.10.21)
1. Wstęp. Podstawowa myśl pracy zawiera się w prostej interpretacji nierówności typu Rao-Cramera podanej w języku przestrzeni Hilberta. Nie- równość Schwarza, zwykle najważniejszy moment w dowodach, straciła na znaczeniu, wzrosła natomiast rola geometrii przez co zarówno problem, jak i jego rozwiązanie stają się znacznie łatwiejsze i bardziej podatne do dalszych uogólnień. W pracy przedstawiono znane nierówności typu Rao-Cramera (zwane dalej nierównościami typu RC), wzmocnienia znanych (tw. 6) i pewne nieznane nierówności (tw. 4), wskazując jednocześnie na dalsze możliwe uogólnienia.
Badanie nierówności typu RC rozpoczęli w latach czterdziestych Frechet (1943), Darmois (1945), Rao (1945), Cramer (1946). Autorzy ci uzyskali nierówność RC, korzystając z nierówności Schwarza. Następne prace idą w trzech kierunkach: wzmacniając założenia regularności [Bhattacharya (1946) (1947) (1948), Bolszew (1961)], osłabiając te założenia [Hammersley (1950), Chapman i Robbins (1950), Kiefer (1952), Barankin (1949), Fraser i Guttman (1952)] oraz podając nierówności typu RC dla estymacji sekwencyjnej [Wolfowitz (1947), Seth (1949), Magiera (1974), Winkler (1980), Różański (1980), Lipcer i Szirajew (1981), rozdz. 7]. Pojawiają się prace podające proste dowody nierówności typu RC [Shalayevski (1961) — dowód wykorzystujący algebrę macierzy] oraz uzupełniające wcześniejsze rezultaty [Fend (1959) — osiągalność dolnej granicy, Bhattacharya, Hogg i Kreig (1962) — osiągalność nierówności dla eśtymacji wektora parametrów, Linnik (1970) i Kołtunów (1977) — uwagi na temat nierówności Bhattacharya-Bolszewa, Ghosh i Sen (1977) — porównywanie dolnych granic Bhattacharya i Chapmana-Robbinsa, Blyth (1974) — dyskusji o nierównościach typu RC przy OeR1, Amari (1982) — interpretacja macierzy Fishera w terminach geometrii różniczkowej, poza tym Vincze (1980), Mori (1983), Ishii (1964) i inni]. Powstają także prace korygujące bezkrytycznie powtarzane błędy [Joshi (1976) — osiąganie nie- równości RC, Fabian i Hannan (1977) — subtelniejsze od podawanych
[5]
wcześniej założeń o regularności rodziny miar]. Nierówności typu RC powstają również dla ryzyka a priori [Schiitzenberger (1957), Gart (1959), Borowkow i Sachanienko (1980)]. Wszystkie wspomniane wyżej prace dotyczą estymacji przy kwadratowej funkcji straty. Próby przeniesienia wyników na dowolne, wypukłe funkcje straty datują się od prac Barankina (1949) [L(0, d) = \6 — d\p, p ^ 1] i Rao (1961) [pewne częściowe rezultaty dla wy- pukłych funkcji strat], a zakończone zostały przez Kózka (1974), (1976).
Jednocześnie powstaje wiele wyników poświęconych wykorzystaniu nieró- wności typu RC do:
(a) wyznaczania estymatorów optymalnych przy kwadratowej funkcji stra- ty; przykłady takich estymatorów można znaleźć w prawie każdej pracy dotyczącej nierówności typu RC, wymieńmy np. Bystrov (1956), Ghosh i Sen (1976), Stein (1950). Wyznaczanie estymatorów optymalnych przy innych niż kwadratowa funkcja straty, patrz wyniki o uniwersalnych funkcjach straty [Linnik i Ruhin (1971), Kózek (1979)];
(b) badania asymptotyki estymatorów, Ibragimow i Hasminskii (1981), Borowkow i Sachanienko (1980);
(c) badania dopuszczalności i minimaksowości; wśród szeregu prac wy- mieńmy nowsze prace Blytha (1974), Miltona i Olkina (1979) oraz Gajka (1983).
W pracy zostały pominięte nierówności typu RC dla estymacji sekwen- cyjnej oraz nierówności tego typu uzyskane w statystyce kwantowej [Holevo (1980)]. Warto zaznaczyć, że nierówności typu RC dla estymacji sekwencyjnej uzyskuje się bezpośrednio z lematu 1 pracy, przy czym główna trudność polega na określeniu przestrzeni zdarzeń, rodziny miar i procedur sekwencyjnych, co prowadzi do nowych pojęć, jak: miary na przestrzeniach funkcyjnych, moment zatrzymania, różniczka procesu, całka Ito itd. Wprowadzenie tych pojęć znacznie rozbudowałoby pracę, nie wnosząc do niej z punktu widzenia istoty rzeczy nic nowego. Zaznaczmy na koniec, że podana bibliografia nie jest kompletna. Jej uzupełnienie wymagałoby drobiazgowego prześledzenia litera- tury, co nie było celem autora.
2. Lemat podstawowy. Poniżej podamy prosty lemat, z którego wyprowa- dzimy w elementarny sposób wszystkie nierówności typu RC. Niech (H, (]•)) będzie przestrzenią Hilberta, PHox zaś — rzutem ortogonalnym elementu
x eH na podprzestrzeń H0 = Lin{y1? . ..,y„} (elementy yf mogą być liniowo za- leżne). Bezpośrednio z twierdzenia o rzucie ortogonalnym wiemy, że dla dowolnych
x eH i u e H 0 zachodzi
(1.1) (x|u) = {PHox\u).
Le m a t
1. Dla dowolnego x e H mamy
N I2 > Z ai(*\yi)>
i= 1 (1.2)
gdzie współczynniki a1, . . . , a n wyznaczone są z równania (1-3) [(yil^)i^i,^»][fli, a„Y = [(x^i), .... (*|y„)]T,
przy czym równość nierówność (1.2) zachodzi wtedy i tylko wtedy,i gdy
n
x = Z w -
i = 1
Dowód. Z twierdzenia Pitagorasa oraz z własności (1.1) mamy
IMI
2>
WP Ho X W2 = (P Ho X \P HoX ) = (X \P HoX )= Z 1=1
n
gdzie PHox = £ atyi, co daje (1.2). Oczywiście równość w (1.2) zachodzi wtedy
1=1
ni tylko wtedy, gdy * - PH0X = Z atyi- Korzystając ponownie z (1.1), otrzymujemy i= i
(x \yk) = (p Hox \yk) = Z ai(yM>
i = 1
gdzie k = 1, ..., n, co daje (1.3).
Zanim przejdziemy dalej, zauważmy, że w przypadku niezależności wek- torów y1, . . . , y n nierówność (1.2) można napisać w prostszej postaci
(M) NI 2 ^ l(x\yi), •••, • ••, (*k)]r,
gdzie $ = [iyilyjhśijśn]- Postać nierówności (1.2) można także uprościć, stosując dla wektorów yx, ..., yn procedurę ortonormalizacji Schmidta. Otrzy- mamy wówczas wektory yl , ..., yn i nierówność postaci
M l2 ^ Z (*!£•)•
i = 1
Podajmy interpretację geometryczną lematu 1, pokazującą w jaki sposób
będziemy wyznaczać z (1.2) nierówności typu RC, przy czym ograniczymy się
do estymacji jednego nieznanego parametru g{0). Wówczas H będzie prze-
strzenią zmiennych losowych postaci x = S — g(0), gdzie <5 jest estymatorem dla
g{0), całkowalnych z kwadratem, wektory yt będziemy zaś starali się dobrać
tak, aby lewa strona nierówności (1.2), będąca długością rzutu wektora
jcna
podprzestrzeń H0, była stała, gdy d przebiega klasę estymatorów nieobcią-
żonych parametru g(0). Innymi słowy chodzi o taki dobór wektorów aby
(*lyd = Atg(0), gdzie At są operatorami, np. operatorami różniczkowymi lub
całkowymi.
3. Nierówności typu RC dla kwadratowej funkcji straty
Def in ic j a.
Nierównością typu RC
nazywamy nierówność postaciEt m x ) - g m 2 > A(g(e), E'»(X)),
zachodzącą dla dowolnego 0 e 0 .
Poniżej skupimy się na najprostszym przykładzie nierówności Bhatta- charya rzędu k, aby pokazać jak naturalne stają się dowody nierówności typu RC po użyciu lematu 1 i jaką prostą interpretację uzyskują warunki osiągal- ności ich dolnych granic. Udowodnimy także ogólną nierówność typu Bhattacharya-Bolszewa dla wektora parametrów, a następnie podamy przy- kład nieznanej nierówności typu RC, sygnalizując w ten sposób możliwości, jakie kryją się we wskazanej przez nas metodzie. Dalej, jeżeli nie będzie to inaczej zaznaczone, używamy następujących oznaczeń: H = I}(Q, P) — prze- strzeń zmiennych losowych określonych na przestrzeni prób Q i całkowalnych z kwadratem względem miary P dla dowolnego 0e<9, iloczyn skalarny określony jest wzorem (x|y) = J x(t)y(t)dP(t) dla x, y eH , estymowana funkcja g: estymator dla g, <5: Q->V, gdzie
SiZaznaczmy, że warunki regularności podane będą jedynie dla nierówności Bhattacharya (śledząc uważnie dowody, warunki te dla pozostałych przypadków można z łatwością odtworzyć).
3.1. Nierówność Bhattacharya.
Tw i e r d z e n i e
1. Załóżmy, że:
(1) 0 c R1 jest otwarty,
(2) P0 p, gdzie p jest miarą o-skończoną,f(x, 0) = dPe, ——(x) oraz dp
vdn Wnf(x, 0) istnieje i f 1(x, 0)—~f(x, 6)eH dla n = 1 ,..., k. dn
ou
(3) -jgi/(*> 0)dp{x) = { ^ -f{x, 0)dp(x),
(4) rozważamy jedynie estymatory nieobciążone dla g(0) oraz takie, że dla dowolnego n = 1, ..., k mamy
^-J b (x )f(x , 0)dp(x) = \b{x)^-f{x, 0)dp(x).
UU Q Q CU
Wówczas
(2.1)
Var#5 > £ a,9m(9),
1=1
gdzie a = [al5 ..., ak] jest rozwiązaniem układu równań
t a = [9m 0<2'( 0 ) , 9 « ‘»(0)]r ,
przy czym
(p = E e r 2( x , e ) ^ n x , e ) ^ n x , e )
lśijśkj Równość w nierówności (2.1) jest osiągnięta wtedy i tylko wtedy, gdy
ó(x)-g{0) = £ a j '{x, 9 )~ if(x , 0),
/= i óu
prawie wszędzie względem miary p (p-p.w.).
D ow ód. Wyznaczmy wektory yu ..., yk tak, aby (x|y.) = g^O), co spro- wadza się do rozwiązania równania całkowego postaci
( 2 . 2 )
przy warunku
S [ó(x)~g(0)]yi(x, 0)/{x, 9)dp{x) = fif'(0),
Si
(2.3) { S{x)f{x, 9)dp{x) = g{9).
si
Różniczkując obie strony równania (2.3) względem 6, dostajemy 0 ) W , 0)dM(x) =
Stąd z uwagi na założenie (3) dostajemy rozwiązanie równania (2.2), spełniające warunek (2.3) w postaci
yi = f ~ 1(x, 9)^-J(x, 9)
dla i = 1, ..., k. Skorzystanie z lematu 1 przy x = S — g(9) kończy dowód.
U w aga 1. Nierówność (2.1) jest uogólnieniem nierówności Bhattacharya rzędu k. Jeżeli g(9) = 0 oraz k ^ 2 i macierz jest nieosobliwa, to nierówność ta przyjmie postać
Var„<5 ^ det ^22 ' • *2k~
.*(2 ' • ^kk _ /det4>,
gdzie $ij są elementami macierzy <P (patrz [47] wzór 4.2.6). Jeżeli g(0) # 0, to z nieosobliwości macierzy <P i z (2.1) dostajemy
Var*<5 ^ tg'(9), ..., <7<‘>(0)]a > lg'{9),..., ^ ( f l ) ] * '1 Q/'(0), g^(0)y (patrz [47], wzór 4.2.2).
U waga 2. Warto zauważyć, że podane w punktach (l)-(4) w twierdzeniu 1
warunki regularności są istotne. Na przykład, gęstość rozkładu jednostajnego
na przedziale (0, 0) nie spełnia warunków regularności i stąd wariancja
n +1 . .
estymatora optymalnego dla 6, —^ - X {n), leży poniżej dolnego ograniczenia Rao-Cramera.
U w aga 3. Inne oszacowanie typu Bhattacharya otrzymujemy, przyjmując w lemacie 1
x = ó-g{d), y = f ~ 1{x, 0) £ ci^Qif^x ’
i = 1
gdzie cf są dowolnymi stałymi. Po prostych przekształceniach mamy ( Z cid{i)(e))2
Vare<5 ^ sup —
Cu...,CnE
f'Hx, e) i c , ^ f ( x , 9)
i — 1
2 '
Jest to oszacowanie zwykle gorsze (rzut na podprzestrzeń L i n |/ _1(x, 9) Z ci^Qif(x ’
daje długość rzutu co najwyżej równą długości rzutu na podprzestrzeń L i n |/ _1(x, 0)ci ^ e)ckQQkf(x ’ 0)J)>
lecz o prostszej postaci niż
(2.1)(patrz
[2 2 ]).3.2. Nierówność Bhattacharya-Bolszewa. Oznaczmy przez:
0 = [01,..., 0 J nieznany wektor parametrów, g{0) = [0i(0), 0m(0)] estymowany wektor,
<5(Z) = [5j(X), ..., óm{xy\ estymator nieobciążony dla g,
C O \ 9(ó , ó) = [(c o v tfP ,., Sj)) 1<U tJ ,
^ .... = w B S ^ h(x’ 0)’
0 ti = Eer 2{X, 0 ) 8 ^ - ^ f( X , 0)8$'... {">/(X, 0),
gdzie i = (ij, ..., i
„),7= (/i, • • • > ;„) przebiegają wszystkie możliwe układy liczb naturalnych wraz z zerem takie, że 1 ^ it + ... + in ^ r, 1 ... +jn ^ r;
r jest z góry zadaną liczbą zwaną rzędem nierówności,
<p = [<2>„] macierz nieosobliwa typu [sxs], gdzie s jest liczbą wszystkich możliwych układów opisanych powyżej,
B = [dieiu- ,in)gj{6)'] macierz typu [sxm ].
Tw i e r d z e n i e 2.
Macierz
C OY0(ó,
d)— B<P~l BT jest nieujemnie określona.
Równość
C O We{6
,ó)
—Bd>~
1BT zachodzi wtedy i tylko wtedy, gdy prawie
wszędzie względem miary g zachodzi równość
&i(x)-9i(x) = £ cuf~Hx, 0)d{eh’- ’in)f{x, 6),
(ii ,•••,«'«)
gdzie l = 1, m, cu są zaś elementami macierzy <P~1BT.
D ow ód. Przyjmijmy w lemacie 1
m
i = i
yi = f - 1(x,9)di0f(x, 6),
gdzie i = (ix, in), w, zaś są dowolnymi liczbami rzeczywistymi. Wówczas po prostych przekształceniach dostajemy
\\x\\2 = uTCOYg(ó, d)u, gdzie u = [ult ..., um] r ,
m
(*» ty) = Z uide9i(0), i=i
( t y .
yj) = &ij,
(2.4) 0 = [nl5 nm] = <P~1BTu.
Ze wzorów (1.2) i (1.3) dostajemy zatem nierówność uTCOV0(<5, ó)u ^ uTB0~l BTu,
zachodzącą dla dowolnego u e R m, co oznacza, że macierz COV0(ó,<5) —
— B<P~1BT jest nieujemnie określona. Równość zachodzi wtedy i tylko wtedy, gdy dla dowolnego u e R m
m
Z
m/[<M*)-0/(0)] = z 9)dief{x, 6),
i = i
i
gdzie a dane jest wzorem (2.4). Stąd otrzymujemy [*i ( x ) - g i W , - , 8 m(x)-gmm =
= m u0'"”0)f ( x t 0), . . . , / “ 1 (x, 0)di°’- ^ f ( x , O)-]0~l B \ co daje żądany warunek na osiąganie równości.
Nierówność mówiąca o nieujemnej określoności macierzy jest często zbyt ogólna i nieprzydatna, np. gdy chcemy podać dolne ograniczenie typu RC dla funkcji straty postaci
<2-5) L(d,g) = Id-gWtd-gY,
gdzie W jest dodatnio określoną macierzą wag (być może zależną od 0). Mamy
wówczas
Tw ie r d z e n ie 3.
EeL(g, 5) ^ tiW BQ -'B7, gdzie trA oznacza ślad macierzy A.
D ow ód. Korzystając z elementarnych, algebraicznych własności, mó- wiących, że tr,4 ^ 0 dla macierzy nieujemnie określonych oraz iloczyn dwóch macierzy nieujemnie określonych jest macierzą nieujemnie określoną, dosta- jemy z twierdzenia 2
czyli
Ponadto
trlT(COVfl(<5, S)-B<P~1Bt) ^ 0,
trlTCOV0(<5, S) ^ tr WB(P~XBT.
\xWCONe{5, 5) = EeL(g, 5), co kończy dowód.
3.3. Przykład nowej nierówności typu Rao-Cramera. Zachowajmy wszystkie oznaczenia poprzedniego punktu z tym wyjątkiem, że teraz r = 1 oraz
= wijEf~2(X, »)■
Dla dowolnej macierzy kwadratowej oznaczmy diag[ci7] = [cn , ..., ckk].
Tw ie r d z e n ie 4.
Przy funkcji straty danej wzorem
(2.5)mamy (2.6) EgL(g(6), 5) ^ [diag WB]<P~1 [diag WE]T.
D ow ód. Przyjmijmy
Hx = X H, (x|y)j = trW 'R xJy^^ij^J, i— 1
przy czym (H, (■{•)) jest określone jak poprzednio. Weźmy x = [Sl ( f - g 1(9),...,Smf ) - g m(0)-], , yt =
Wtedy
0 ^ ^ , — log f(t, 0), 0, ..., 0
_ i —1 razy
C
h.-W
i= *ij>
i = 1, - n.
m q
(* W l = Z Wji0Q ^j^’
[_(x\y1)l ,...,(x\yn)1'] = dmgWB.
Stosując lemat 1, otrzymujemy
E,L(g, S) = ||x||? 3* (diag WB)4>~1 (diagWB)T.
Zgodnie z lematem 1 równość w nierówności (2.6) zachodzi wtedy i tylko
m
wtedy, gdy x = £ aiyi, gdzie at są elementami macierzy <2>-1 [diag WB~]T, co
i — 1
daje warunek równoważny
& i ( t ) - 9 i ( 0 ) = a i — l o g f i t , 0 ) ,
przy czym i = 1, m.
3.4. Nierówności Chapmana-Robbinsa, Kiefera i Barankina. Przyjmijmy w lemacie 1
X = m - g { 8 ) , y 0) J/(t, u)dA(u),
ł e
gdzie A jest przeliczalnie addytywną funkcją zbioru taką, że dla dowolnego, nieobciążonego estymatora <5 mamy
f I |£(x)/(x, u)\dp(x)dX{u) < oo.
e n Wówczas ||x||2 = Var„<5 oraz
Hyli2 = 0)(Sf(x, u)dX(u))2dfi(x),
Q 0
(*ly) = \ g(u)dX(u)-g{0)X{0).
0
Z lematu 1 otrzymujemy zatem
Tw ie r d z e n ie 5.
Dla dowolnego estymatora nieobciążonego ó prawdziwa jest nierówność
[$g{u)dX(u)-g(0)ł(0)Y (2.7) Var„<5 ^ --- 2--- ,
9)( j/(x , u)dX(u))2dp(x)
* n
0przy czym w (2.7) zachodzi równość wtedy i tylko wtedy, gdy
S{t)~ g = /fr ^ j l f ( t ’ u m u ) - gdzie
Sg(u)dX(u)-g(9)X(0) c(0) = --- *---.
j / _1(x, 0)( J/(x , u)dX{u))2dp(x)
Q 0
Podstawiając w (2.7) X = gdzie ij/a jest miarą probabilistyczną skupioną w punkcie a, a e C 0, C0 = {ae 0: Sa cz S0} oraz S0 = { te R l : /(t, 0) > 0}, otrzymamy nierówność Chapmana-Robbinsa. Przyjmując w (2.7)
X = X 1 — X 2, gdzie X l, X 2 są miarami probabilistycznymi skupionymi na C0, dostajemy nierówność Kiefera. Przyjmując w (2.7) X = ^ c ^ . , gdzie a.eC^, dostajemy nierówność Barankina.
U waga. Kiefer wykazał, że jego nierówność jest istotnie lepsza od
• w -ł-1
nierówności Chapmana-Robbinsa estymator X (n), optymalny przy esty- macji 0 w rozkładzie jednostajnym na przedziale (0, 9), ma wariancję osiąga- jącą nierówność Kiefera, podczas gdy dolna granica Chapmana-Robbinsa nie jest osiągnięta.
4. Nierówności typu RC dla ryzyka a priori
Def in ic ja.
Nierównością typu RC dla ryzyka a priori nazywamy nierówność postaci
j E,L(S(X), g(0))d({0) » A{i, g(0), E,S).
&
Nierówności tego typu dostarczają nam między innymi prace Garta [16]
i Schiitzenbergera [40] (dolne ograniczenie jest prawdziwe jedynie w klasie estymatorów nieobciążonych), lecz za przełomową w tym temacie należy uznać pracę Borowkowa i Sachanienki [5], w której wyznaczone są dolne granice typu RC prawdziwe dla wszystkich (!) estymatorów spełniających pewne słabe ograniczenia. Wyniki Garta i Schiitzenbergera i ich uogólnienia można w prosty sposób uzyskać z lematu 1, lecz nie będziemy tego czynić.
Ograniczymy się jedynie do podania uogólnienia nierówności Borowkowa-Sa- chanienki na przypadek estymacji wektora parametrów.
Niech funkcja straty będzie postaci L{g, d) = £ (df —g,)2, gdzie g(0) =
k i = 1= [gjfl), ..., gk{dy\ jest estymowanym wektorem, 6 = [0lt ..., 0J zaś jest wektorem nieznanych parametrów. Wprowadźmy następujące oznaczenia:
S = [<5^ ..., <5k] estymator wektora g,
3 3
* tj = E0r 2(X, 0)— / ( * , 0)— f( X , 0), 0 = [0y] macierz typu [nxn],
M(ói, ój) = J cov^, Sj)£(0)dQ,
e
M(y) = J EeY m d 0 ,
gdzie £ jest gęstością względem miary Lebesgue’a rozkładu a priori. Załóżmy
0ponadto, że 0 e 0 c= /?", gdzie 0 jest dowolną hiperpowierzchnią n-wymiarową spełniającą założenia twierdzenia Stokesa.
Przy powyższych założeniach zachodzi
Tw ie r d z e n ie 6.
Dla dowolnej funkcji h(0) takiej, że f ( x , 6)h(0) spełnia dla każdego x założenia twierdzenia Stokesa oraz h znika na brzegu 0, zachodzi nierówność
k i = 1 9
I
(4.1) £ J E & m - g t f m d e >
k
i = 1 O
I I (j gtm m y
M u w i-i M ” \ m
D ow ód. Przyjmijmy w lemacie 1
H — L2(Q, P) (przestrzeń funkcji całkowalnych z kwadratem względem miary P),
(x\y) = J J
k o Si
x =
ei = 1
" d
y = l f{ t>0)£(#)] \ X [/(t,0)/i(0)], oraz ze względów technicznych 9 — yf(tfl)Ź(9)- Mamy wówczas
k k
M l2 = I E u,UjM(S„ Sj),
i = l j = l
(4.2)
w 2 = if en U M m r ' i i -ż-fum o))2 dgwe = \i=ida(- J
n n ' d d
i=ij=ien Mi vVj
Oprócz tego
(4.3) (x\y) = j | £ ui[ ^ ( t)-£/((0)]jl(t)^(t)<ie = e n i = i
= - Z “: ! S e l(om t,0m t)do =
ki= i en
= - Z uiM9i(0)y(X),
gdyż
i J S,W(t,ff)dnM0 = J S,(t) f y(tfi)d6dix(t) =
en n e
= f Sm j i ^ u d t m m d o d m =
n e i= i
= 1 8i(t)Sf(t,&)h(6)[- X cos(n, Qf]dQdp{t)
n e j= i
(w ostatnim przejściu skorzystaliśmy z twierdzenia Stokesa, cos(ń, Oj) są cosinusami kierunkowymi normalnej
ńdo brzegu w punkcie (0X, ..., 6k), skierowanej do wnętrza zbioru 0), co wraz z założeniem h(0)\gB = 0 daje prawdziwość wzoru (4.3). Ostatecznie, korzystając z lematu 1 i z obliczonych wartości ||x||, ||y|| i (x|y), otrzymujemy nierówność
Z Z UiUjMiói, Sj)
i = U = l
> k k
I E
« = W=l u;u Mgi(e)y(X)M9j(e)y(X)
zachodzącą dla każdego u e R k, co daje nieujemną określoność macierzy (4.4) SJ) - M g i(e)y(X)Mgj(e)y(X)/\\y\n
gdzie || y ||2 dane jest wzorem (4.2). Mnożąc powyższą macierz przez dodatnio określoną macierz wag W i biorąc ślad, otrzymujemy
(4.5) t r W > ltW[Mgi(8)y(X)Mgj(6)y(X)l\\y\\2'\-
Biorąc w powyższym wzorze W = 1 .
0
0"
1 , otrzymujemy tezę (4.1).
Nierówność (4.1) jest niezwykle przydatna do badania asymptotyki esty- matorów bayesowskich i minimaksowych. Można ją uogólnić na przypadek nieograniczonych zbiorów 0 i innych funkcji strat (patrz wzory (4.4) i (4.5)).
5. Nierówności typu RC dla dowolnej wypukłej funkcji straty. Niech (X, || • ||) będzie przestrzenią Banacha, (X*, IHI*) zaś — przestrzenią do niej sprzężoną.
Wówczas dla dowolnego liniowego i ciągłego funkcjonału F e X * mamy
(5.1) \F(x)\ ^ ||F||J|x||.
Skorzystajmy dalej z faktu, że przestrzenią sprzężoną do U(T, P) (przestrzeni funkcji całkowalnych z modułem p-tej potęgi względem miary P) jest przestrzeń I3(T, P), gdzie q = p/(p— 1) dla p > 1 oraz q = oo dla p = 1. Zatem nie- równość (5.1) przyjmie dla funkcjonału
F(x) = | x(l)y(t)dP(t)
T
postać
(5.2) |J x(t)y{t)dP(t)| ^
T
y i x{tydP(t)f($
T T
(j \x(t)\dP(t))ess sup |y(t)l
T P,t
dla p > 1, dla p = 1.
Z powyższej nierówności otrzymuje się szereg nierówności typu RC dla funkcji strat postaci L(d, g) = \d — g\p, p ^ 1. Przyjmując na przykład
otrzymamy uogólnienie nierówności Rao-Cramera, przyjmując zaś y = i
= Z Oi)/f(t> 0)» otrzymamy uogólnienie nierówności Barankina. Dla
i = 1
jawnych wzorów odsyłamy do [28].
Zaprezentowane wyżej podejście nie nadaje się do uogólnień na dowolne wypukłe funkcje strat, gdyż wówczas otrzymujemy jedynie dolne ograniczenie dla normy w przestrzeni Orlicza danej wzorem
II<5-0(0)II
l= > 0: j L -(<5(0 -g(9)) f{t, 6)dp(t) ^ 1
gdzie L jest dowolnie wypukłą funkcją strat (patrz Rao [38]). Innego typu kombinacje nierówności Jensena i Hóldera doprowadziły Rao [38] do podania pewnych dolnych ograniczeń dla ryzyka przy dowolnej wypukłej funkcji strat, jednakże ostatecznie problem został rozstrzygnięty przez Kózka [28], [29].
Podamy teraz myśli przewodnie z prac [28] i [29], pomijając przy tym wiele ważnych subtelności, których opis można znaleźć w źródłach. Punktem wyjścia dla naszych rozważań jest pojęcie funkcji dopełniającej do danej pojawiające się w analizie wypukłej.
Niech będzie dana funkcja wypukła /: F-*/?1, gdzie V jest przestrzenią Banacha, Y = V* zaś jest przestrzenią do niej sprzężoną. Niech <u, y> będzie wartością funkcjonału y na elemencie v.
Def in ic ja.
Funkcję g określoną wzorem g{y) = sup {<
f, y}-f{v)}
v e V
nazywamy funkcją dopełniającą do funkcji /.
Wprowadźmy oznaczenia:
(F, A, {P}) model statystyczny,
<5: T-+V estymator dla g: {P} -*■ V,
L{•, •): Fx{P}->(0, oo) dowolna wypukła funkcja straty, M f, •); F*x{P}->R1 funkcja dopełniająca do L.
— Matematyka Stosowana t.30
Wówczas z definicji funkcji dopełniającej otrzymujemy L{v, P) ^ <u, yP} - M ( y P, P),
co po przyjęciu v = S i scałkowaniu obu stron względem miary P daje nam (5.3) R(S, P) > J <ó(t), yp(t))dP(t) - f M(yP(t), P)dP(t),
T T
gdzie yP: Tx {P}-► Kjest dowolną, całkowalną zmienną losową. Aby nierów- ność (5.3) była nierównością typu RC, trzeba tak dobrać zmienną losową yP, aby prawa strona w (5.3) zależała od S tylko poprzez Epó. Okazuje się, że dobór taki jest możliwy. Co więcej, okazuje się, iż otrzymana w ten sposób nierówność będzie najlepsza w tym sensie, że estymator optymalny będzie równość w tej nierówności osiągał (patrz lemat 3.4, tw. 1 i tw. 2 w [29]).
Nierówność (5.3) nie jest zbytnio przydatna do wyprowadzania z niej nierówności RC w przypadkach szczególnych, dlatego też podamy zamiesz- czoną w pracach [28] i [29] jej modyfikację. Podstawmy w (5.3) yP = cyP, gdzie c e R 1. Mamy zatem
(5.4) R(S, P) ^ sup {cEP(S, yP} — I(cyP, P)},
c eR1
gdzie I{y, P) = { M(y(t), P)dP(t). Oznaczając przez / funkcję dopełniającą do wypukłej funkcji /(•, P), wzór (5.4) można zapisać w postaci
TR(S, P) > r(EP(S, yP)),
co daje dogodną dla zastosowań modyfikację wzoru (5.3).
Do otrzymania nierówności typu RC może służyć także pojęcie sub- różniczki, które wykorzystuje się we wzorze dającym analogon wzoru Taylora, lecz nie będziemy rozwijali dalej tej uwagi.
Podziękowanie. Autor pragnie wyrazić swą wdzięczność dr. L. Gajkowi za wskazanie prac [5] i [11].
Bibliografia
[1] S. A mar i, Differentional geometry of curved exponential families —curvature and information, Ann. Statist. 10 (1982), 357-385.
[2] E. W. B a ra n k in , Locally best unbiased estimates, Ann. Math. Statist. 20 (1949), 477-501.
[3] A. B h a tta c h a r y a , On some analogues of amount of information and their use in statistical estimation, Sankhya 8 (1946-1948), 1-14, 201-218, 315-328.
[4] C. R. B ly th , Necessary and sufficient conditions for inequalities of Cramer-Rao type, Ann.
Statist. 2 (1974), 464-473.
[5] A. A. B o r o v k o v , A. 1. S a ch a n ien k o , Ob ocenkach dlja usrednennogo kvadraticnogo risika. Probability and Math. Statist. 1 (1980), 185-195.
[6] L. N. B o lsh ev , The refinement of the Cramer-Rao inequality, Theory Prób. Appl. 6 (1961), 319-327.
[7] N. F. B y stro v , On some unbiased estimators, Vestnik Leningrad. Universiteta 1 (1956), 169-175.
[8] D. G. C h ap m an , H. R o b b in s, Minimum variance unbiased estimation without regularity assumptions, Ann. Math. Statist. 22 (1951), 581-586.
[9] H. C ram er, Mathematical methods of statistics, Princeton 1948.
[10] G. D a rm o is, Sur les limites de la dispersion de certaines estimations, Rev. Inst. Int. Statist.
13 (1945), 9-15.
[11] V. F a b ia n , J. H an n an , On the Cramer-Rao inequality, Ann. Statist. 5 (1977), 197-206.
[12] A. V. F en d , On the attainment of Cramer-Rao and Bhattacharya bounds for the variance of an estimate, Ann. Math. Statist. 30 (1959), 381-388.
[13] D . A. S. F raser, I. G u ttm a n , Bhattacharya bounds without regularity assumptions, Ann.
Math. Statist. 24 (1952), 629-632.
[14] M. F rech et, Sur Vextension de certaines evaluations statistiques au cas de petits echantillons, Rev. Inst. Int. Statist. 11 (1943), 182-205.
[15] L. G ajek , Warunki dostateczne minimaksowości i dopuszczalności estymatorów regularnych, Praca doktorska, Instytut Matematyki, Politechnika Łódzka, 1983.
[16] J. G art, An extension of the Cramer-Rao inequalities, Ann. Math. Statist. 30 (1959), 367-380.
[17] B. K. G o sh , P. K. Sen, Comparison of some bounds in estimation theory, Ann. Statist.
4 (1976), 755-765.
[18] H. H am m ersley, On estimating restricted parameters, J. Roy. Statist. Soc., ser. B, 12 (1950), 192-229.
[19] R .V. H ogg, A. T. C raig, Some results on unbiased estimation, Sankhya ser. A, 24 (1962), 333-338.
[20] A. S. H o le v o , Probabilistical and statistical aspects of quantum theory, Nauka, Moskva 1980.
[21] I. A. Ib ra g im o w , R. Z. H a sm in sk ii, On information inequality and superefficient estimators, Prob. Pered. Inform. 10 (1973), 39-59.
[22] I. A. Ib ra g im o w , R. Z. H a sm in sk ii, Statistical estimation theory, Springer-Verlag, New York 1981.
[23] V. M. J o s h i, On the attainment of the Cramer-Rao lower bound, Ann. Statist. 4 (1976), 998- 1002.
[24] K. Ish ii, Inequalities of the types of Chebyshev and Cramer Rao and mathematical programming, Ann. Inst. Statist. Math. 16 (1964), 277-293.
[25] A. M. K agan , On the theory of Fisher’s information amounts, Doki. Akad. Nauk SSSR 151 (1963), 227-228.
[26] I. A. K o ltu n o v , O statistikach s minimalnymi dispersjami, Theory Prob. Appl. 22 (1977), 642-644.
[27] A. N . K o lm o g o r o w , Unbiased estimators, Izd. Akad. Nauk SSSR, ser. Matem., 14 (1950), 303 - 306.
[28] A. K ó zek , On the theory of estimation with convex loss functions, Proceeding of the Symp. to Honour Jerzy Neyman, Warszawa 1974, 177-202.
[29] A. K o zek , Efficiency and Cramer-Rao type inequalities for convex loss functions, Institute of Math. PAN, 1976, preprint 90.
[31] J. V. L in n ik , A note on Rao-Cramer and Bhattacharya inequalities, Sankhya, ser. A, 32 (1970), 449-452.
[31] J. V. L in n ik , A. L. R uhin, Convex loss functions in the theory of unbiased estimation, Doki. Akad. Nauk SSSR 198 (1971), 527-529.
[32] R. Sz. L ip c e r ,A . N . S ziria jew , Statystyka procesów stochastycznych, PWN, Warszawa 1981.
[33] R. M agiera, On the inequality of Cramer-Rao type in sequential estimation theory, Zast. Mat. 14 (1974), 227-235.
[34] S. M ilto n , I. O lk in , Admissible and minimax estimation for the multinominal distribution and for k independent binominal distributions, Ann. Statist. 7 (1979), 284-290.
[35] T. F. M ori, Note on the Cramer-Rao inequality in the nonregular case: the family of uniform distributions, J. Statist. Plann. and Inference 7 (1983), 353-358.
[36] C. R. R ao, Information an accurancy attainable in the estimation of statistical parameters, Bull. Calcutta Math. Soc. 37 (1945), 81-91.
[37] C. R. R ao, Modele liniowe statystyki matematycznej, PWN, Warszawa 1981.
[38] M. M. R ao, Theory of lower bounds for risk functions in estimation, Math. Ann. 143 (1961), 379-398.
[39] R. R ó ża ń sk i, A modification of Sudakov lemma and efficient sequential plans for the Ornstein-Uhlenbeck process, Zast. Mat. 17 (1980), 59-73.
[40] M. P. S ch u tzen b erg er, A generalization of the Frechet-Cramer inequality to the case of Bayes estimation, Bull. Amer. Math. Soc. 63 (1957), 142.
[41] G. R. S eth , On the variance of estimates, Ann. Math. Statist. 20 (1949), 1-27.
[42] O. V. S h a la y ev sk y , A short proof of the Cramer-Rao inequality, Theory Prob. Appl.
6 (1961), 352-353.
[43] Ch. S tein , Unbiased estimation with minimum variance, Ann. Math. Statist. 21 (1950), 406-415.
[44] W. W in k ler, Sequential estimation in processes with independent increments, Banach Center Publ., vol. 6 (1980), 325-331.
[45] I. V in cze, On the Cramer-Rao inequality and a new version of the Chi-square statistics, ibid., (1980), 323-324.
[46] J. W o lfo w itz , The efficiency of sequential estimates and Wald’s equation for sequential processes, Ann. Math. Statist. 18 (1947), 215-230.
[47] S. Z a ck s, The theory of statistical inference, J. Wiley, New York 1971.