• Nie Znaleziono Wyników

Asymptotycznie stabilne estymatory parametrów lokacyjnych I. Estymacja parametru położenia*

N/A
N/A
Protected

Academic year: 2021

Share "Asymptotycznie stabilne estymatory parametrów lokacyjnych I. Estymacja parametru położenia*"

Copied!
14
0
0

Pełen tekst

(1)

Tom asz Ry c h l ik

Warszawa

Asymptotycznie stabilne estymatory parametrów lokacyjnych I. Estymacja parametru położenia*

(Praca wpłynęła do Redakcji 1986.05.20)

1. Wstęp

1.1. Sformułowanie zagadnienia. Tematem niniejszej pracy jest asympto- tycznie odporna (w sensie: najbardziej stabilna) ze względu na obciążenie estymacja parametru położenia bądź parametru skali przy zaburzeniach podstawowego modelu, opisywanych przez otoczenia typu błędy grube albo otoczenia generowane przez metrykę typu Kołmogorowa-Levy’ego. Praca podzielona jest na dwie części; część pierwsza poświęcona jest estymacji parametru położenia, druga zaś — estymacji parametru skali. Ogólnie przyjmujemy, że mamy możliwość wielokrotnego przeprowadzania nieza- leżnych pomiarów pewnego niedeterministycznego zjawiska, o częściowo znanej probabilistycznej strukturze, która jest określona przez indeksowany parametrami liczbowymi podzbiór zbioru wszystkich dystrybuant na prostej rzeczywistej.

W pierwszej części podzbiór ten stanowi rodzina rozkładów z parametrem położenia

& P(F) = {Fe- Fe(x) = F(x — 6), 6eR},

gdzie F jest ustaloną, znaną dystrybuantą. Naszym baniem jest estymacja nieznanego parametru położenia 0 za pomocą ekwiwariantnej ze względu na przesunięcia funkcji obserwacji.

Przypuśćmy jednak, że wskutek błędów pomiarowych obserwuje się w istocie ciąg ( X n)„eN niezależnych zmiennych losowych o rozkładach (niekoniecznie jednakowych), które mogą nieznacznie różnić się od rozkładu oryginalnego. W pracy zakłada się, że dystrybuanty Gn odpowiadające

* Problem MR 1.1.

— Matematyka Stosowana t.30 [65]

(2)

kolejnym obserwacjom X n, n e N , należą do jednej z następujących klas otoczeń pierwotnej dystrybuanty Fg: otoczenia typu błędy grube, ina- czej s-zaburzenia (w literaturze angielskiej odpowiednio: gross errors, E-contamination)

(1.1) ®e(Fg) = {G = (1 —8)F6 + eH: He®}

albo otoczenia Kołmogorowa-Levy’ego

(1.2) ®EÓ{Fe) = {Ge®: F0(x- 3 ) -e ^ G(x) ś Fg(x + 3) + s}

dla ustalonych wartości 0 < e < 1/2 i 3 ^ 0 . W szczególnych przypadkach

<5 = 0 i 3 = e otoczenia (1.2) są generowane odpowiednio przez metryki Kołmogorowa i Levy’ego. Rozszerzenia podstawowego modelu parametry- cznego (dalej zwanego też krótko modelem):

Jt*(F) = {Fe = ® F6: 0OO eR}

n = 1 są zdefiniowane zatem przez odwzorowanie

F#^77<(J)(Fe) = {G = ® G„: G ,e 9 m (F,\ neN },00

n —1

(1.3)

F 6eJź p{F).

Symbol ®e(d){Fg) oznacza tu jedną z klas ®B{Fg) lub ®ed{Fg) postaci (1.1) lub (1.2) oraz n e{ó)(Fg) oznacza odpowiednio 77e(F0) lub 77E(5(Fg) dla ustalonego e lub £ i 3, natomiast (x) Gn jest nieskończonym produktem miar proba-00

ri = 1

bilistycznych na przestrzeni ciągów liczb rzeczywistych takim, że G„ jest dystrybuantą rozkładu n-tej współrzędnej. Jakkolwiek w ogólności nie zacho- dzi $ 'P{F) n ®eid)(F0) = {F0}, co nie pozwala przypisać konkretnemu rozkła- dowi obserwacji dokładnie jednego rozkładu pierwotnego, którego zaburzenie on stanowi, otoczenia (1.1) i (1.2) są powszechnie stosowane w literatprze statystycznej do opisu odstępstw od modelu.

Istotą postępowania odpornego jest wybór estymatora o możliwie naj- mniejszej wrażliwości na rozszerzenia modelu spośród estymatorów, które w modelu zachowują określone, niewiele odbiegające od optymalnych własności (por. Zieliński [28] oraz Bickel [7]).

Za kryterium oceny jakości estymatora Tn{Xl , ..., X n) przyjmujemy obciążenie, zdefiniowane jako maksymalne odchylenie mediany jego rozkładu od wartości parametru 9 opisującego badane zjawisko:

max{0—M0(G, Tn), M,(G, Tn)-0 }, G e n m (F„), (1.4)

przy czym

M„(G, Tn) = inf{x: Pc(Tn < x) » 1/2}, M,(G, T„) = sup{x: Pc{Tn ^ x) s; 1/2}

(3)

są odpowiednio najmniejszą i największą medianą rozkładu Tn w przypadku, gdy G opisuje rozkład ciągu obserwacji (X„)„eiV.

Powyższa definicja obciążenia jest uniwersalna w przeciwieństwie do ogólnie przyjętej, opartej na wartościach oczekiwanych, która może być określona tylko dla statystyk i rozkładów o skończonym pierwszym momencie.

Celem pracy jest znalezienie ciągu estymatorów T = ( T n)„eN, który w kla- sie 2T wszystkich ciągów estymatorów ekwiwariantnych ze względu na przesunięcia, czyli spełniających warunek

(1.5) (V n e iV)(V c, x u ..., xneR) T ^ + c , ..., x„ + c) = Tn(xu ..., x„) + c, i asymptotycznie nieobciążonych w modelu, tj. takich, że

(V 6eR) lim Mj(Ft ,T J = 6, j = 0,1,

n~> oo

minimalizuje asymptotyczną oscylację obciążenia na rozszerzeniu modelu B!iS)(T, 0) = sup{M1(G1, T„)-iW0(G2, TJ: C „ G2e n , IS)(FJ}

n~> oc

dla wszystkich rzeczywistych 0. Zadanie to daje się uprościć, ponieważ relacje

&E(d)(Fe) = {Ge- G E ^ m {F6)} (gdzie G„(x) = G(x-0)) oraz

00 00

(1.6) M j(® G ke,T n) = M j(® G t ,T J + 6, 7 = 0,1,

k = 1 k — l

dla dowolnej ekwiwariantnej ze względu na przesunięcia statystyki Tn powo- dują stałość oscylacji obciążenia względem zmiennej 6. Dlatego możemy pisać dalej B%id)(T) dla Tg9" oraz ograniczyć się do badania przypadku 0 = 0.

W paragrafie 3 zostało podane rozwiązanie zagadnienia dla przypadku e-zaburzenia modelu J t p(F) generowanego przez jednomodalną dystrybu- antę F, w paragrafie 4 zaś — dla otoczeń Kołmogorowa-Levy’ego dowolnego modelu z parametrem położenia. Paragraf 5 zawiera przykłady zastosowań przedstawionych wyników dla kilku wybranych F.

Zaletę tych rozwiązań (a także najstabilniej szych estymatorów parametru skali, zaprezentowanych w części II) stanowi łatwość ich obliczania, gdyż optymalnym estymatorem w każdym przypadku jest, mówiąc nieprecyzyjnie, liniowa funkcja pewnego kwantyla z próby rzędu z* e [£, 1 — e]. Wartości z* są określone jako rozwiązania pewnych nierówności, których postać jest zależna od postaci dystrybuanty modelowej F oraz parametrów e, ó rozszerzenia modelu. Warto jeszcze wspomnieć, że z uwagi na asymptotyczny charakter wyników estymatory te są optymalne w szerszej klasie estymatorów asympto- tycznie ekwiwariantnych, to znaczy takich, dla których warunek ekwiwariant- ności (tu: (1.5)) jest ósiągany granicznie przy n dążącym do nieskończoności.

1.2. Przegląd wyników dotyczących odpornej estymacji parametru położenia.

Zagadnienie minimalizacji asymptotycznego obciążenia dla ekwiwariantnych estymatorów parametru położenia zostało postawione przez Hubera [17].

(4)

Wykazał on, że najbardziej stabilnym ciągiem estymatorów w przypadku rozszerzeń (1.3) modelu generowanego przez symetryczną i jednomodalną dystrybuantę jest ciąg median z próby. Rychlik i Zieliński [24] podali ogólniejsze rozwiązanie dla klasy £-zaburzeń bez założenia symetryczności rozkładów modelowych. Wyniki cytowane wyżej różnią się od wyników przedstawionych w niniejszej pracy jedynie tym, że zostały sformułowane w uproszczonej wersji dla zaburzeń o jednakowym rozkładzie. Otoczenia Kołmogorowa-Levy’ego były rozważane w pracy autora [23], a uzyskane w niej rezultaty nie wymagały żadnych ograniczeń dotyczących postaci pierwotnego modelu. Analogiczne minimaksowe podejście do odpornej ze względu na obciążenie estymacji w przypadku błędów grubych stosował Riedel [20] , który rozpatrywał klasę ciągów estymatorów będących anty symetrycz- nymi i ekwiwariantnymi funkcjonałami dystrybuant empirycznych. W pracy [21] przedstawił on warunek optymalności dla ciągu symetrycznych estyma- torów typu największej wiarogodności (M-estymatorów) oraz obliczył wartość minimaksowego obciążenia dla przypadku jednopunktowych rozkładów za- burzających.

Obok tego typu problemów rozpatrywano zagadnienie asymptotycznie najbardziej stabilnej ze względu na wariancję, ekwiwariantnej estymacji para- metru położenia w przypadku, gdy została zagwarantowana asymptotyczna nieobciążoność, np. przez zawężenie klasy zaburzeń do rozkładów syme- trycznych. Wadą uzyskanych wyników jest jednak fakt, że porównywano w istocie wariancję rozkładów granicznych, a nie asymptotyczne zachowanie się wariancji estymatorów. Ogólną metodę poszukiwania rozwiązań w klasie ciągów M-estymatorów dla wypukłego i słabo zwartego zbioru symetrycznych zaburzeń podał Huber [16]; optymalny jest wówczas ciąg estymatorów największej wiarogodności dla rozkładu o minimalnej informacji Fishera.

W pracy tej przedstawiono ciąg M-estymatorów o minimaksowej (wśród wszystkich ciągów ekwiwariantnych estymatorów) asymptotycznej wariancji dla £-zaburzenia i częściowo dla otoczenia Kołmogorowa (wynik uzupełniony przez Sacksa i Ylvisakera [25]) rozkładu normalnego. Collins [10] przedstawił ciąg M-estymatorów najodporniejszy na zaburzenia ogonów rozkładu, a Bickel i Collins [9] — częściowy wynik dla £-zaburzeń będących mieszaninami rozkładów normalnych o różnej skali.

Ponieważ estymatory typu największej wiarogodności nie są ekwiwariantne ze względu na transformacje skali, a ich obliczanie może być żmudne, zaczęto poszukiwać liniowych kombinacji statystyk pozycyjnych (tzw. L-estymatorów) oraz statystyk testowych testów rangowych (tzw. R-estymatorów) równo- ważnych optymalnym M-estymatorom. Jaeckel [19] określił ciągi L-estyma- torów oraz R-estymatorów, które osiągają minimaksową asymptotyczną wariancję w przypadku £-zaburzenia rozkładu normalnego (ogólniej: symetry- cznego rozkładu o gęstości, której logarytm jest funkcją wklęsłą). Dla zaburzeń normalności w metryce Kołmogorowa problem istnienia mini-

(5)

maksowych ciągów L-estymatorów został rozstrzygnięty negatywnie przez Sacksa i Ylvisakera [25], w przypadku ciągów R-estymatorów zaś — pozy- tywnie przez Collinsa [11]. Przykład z pracy Sacksa i Ylvisakera [26]

wskazuje, że w ogólności nie można oczekiwać, aby w klasach L- lub R-estymatorów można było znaleźć najodporniejsze ze względu na asympto- tyczną wariancję ciągi ekwiwariantnych estymatorów.

Badano również problemy odporności M-estymatorów na asymptotyczny błąd średniokwadratowy. Ponieważ w dużych próbach ich obciążenie domi- nuje wariancję, w celu uniknięcia takiego efektu rozważano zwężające się otoczenia niesymetrycznych zakłóceń. Jaeckel [19] podał rozwiązanie dla zwężających się otoczeń typu błędy grube. Ogólniejszy typ zaburzeń, genero- wanych przez pewną klasę specjalnych pojemności, obejmujący również przypadek otoczeń w metryce pełnej wariacji, rozważał Rieder [22], a jego wynik uogólnił Bednarski [6], który zauważył też związek tego zagadnienia z przedstawionym przez Hampla [15] problemem minimalizacji asympto- tycznej wariancji estymatorów o ograniczonej krzywej wpływu. Pewne roz- wiązanie dla wypukłej funkcji strat zostało przedstawione przez Bickela [8].

W niektórych pracach (np. Huber [16], Collins [10]) zajmowano się odporną estymacją parametru położenia w modelu z nieznanym dodatkowo parametrem skali, który traktowano wówczas jako parametr zakłócający.

Bogatym źródłem wiedzy na temat odpornej estymacji parametru położenia jest monografia Hubera [18] zawierająca wszystkie najciekawsze wyniki z tej dziedziny, jakie ukazały się do 1980 roku. Należy jeszcze wspomnieć o nie ujętym w niniejszym przeglądzie, zapoczątkowanym przez Hampla [15] nurcie odporności w aspekcie jakościowym, rozumianym jako ciągłość procedur statystycznych przy przejściu do rozszerzenia modelu oraz infinitezymalnych kryteriach odporności. Nowe wyniki są omówione na str. 94.

2. Definicje i twierdzenia pomocnicze. Paragraf 2 zawiera pojęcia oraz twierdzenia, które zostaną wykorzystane przy referowaniu zasadniczych wyników pracy.

Niech oznacza rodzinę niemałejących, prawostronnie ciągłych funkcji.

Dla dowolnej dystrybuanty Ge3> zdefiniujmy (uogólniony) najmniejszy kwan- tyl rzędu z, 0 < z < 1, jako

Q0(z, G) = inf{x: G(x) ^ z}

oraz (uogólniony) największy kwantyl rzędu z jako Ql{z, G) = sup{x: G(x) < z}.

Lemat 2.1 zawiera podstawowe własności uogólnionych kwantyli.

Lemat 2.1 (por. [21], [23]). (a) Jeżeli OeR, k > 0 i (V xeR ) Gex{x) = G((x-0)/X),

(6)

to

Qi(z, G0X) = AQi(z, G) + 0, 1 = 0,1.

(b) Jeżeli G1 ^ G2, to Qd(z, Gx) ^ Qt{z, G2), i = 0, 1.

(c) Jeżeli zx < z2, to

e„(z„ G) SS 2 ,(2!, G) *5 2o(Z2. G) « 2,(22, G).

(d) lim 2,(z, G) = 2i(zo> G), lim Q,(z, G) = 2o(zo> G).

zj.z0 zT^O

Elementarny dowód pomijamy. ■

Przedstawimy teraz rodzinę asymptotycznie nieobciążonych (w sensie definicji podanej w punkcie 1.1) estymatorów kwantyli. Niech X k;„, 1 < k ^ n, oznacza k-tą statystykę pozycyjną w ciągu X l f ..., X n. Zachodzi następujące Tw ie r d z e n ie 2.2. (a) Jeżeli ciąg liczb naturalnych L: N -+N spełnia warunki

(2.1) (V neN) L{ń) ^ n,

(2.2) lim L(n)/n = z,

n-+ oo

to dla każdej takiej dystrybuanty G, że Q0(z, G) = (^(z, G), lim Mj((E> G, X L(n):n) = Qi(z, G), i,j = 0, 1.00

n~* oo k —1

(b) Ponadto dla i = 0 oraz i = 1, jeżeli

(2.3) lim (— l)\/n [z — L(n)/n \ > 0,

n~> oo

to dla dowolnej dystrybuanty G

lim Mt( ® G, X Lm:n) = Q,(z, G), j = 0, 1.00

n~* oo k=1

D ow ód twierdzenia 2.2a wynika stąd, że założenia (2.1) i (2.2) zapewniają zbieżność z prawdopodobieństwem 1 ciągu statystyk pozycyjnych (X L(n):n)neN do jednoznacznego kwantyla rzędu z, a asymptotyczna nieobciążoność jest warunkiem słabszym niż słaba zgodność.

Dowód twierdzenia 2.2b jest analogiczny do dowodu twierdzenia 5 Feldmana i Tuckera [13]. ■

Dla ustalonych i 6 {0,1} oraz ze(0, 1) oznaczmy przez i? f(z) zbiór wszystkich takich ciągów liczb naturalnych, które spełniają warunki (2.1)-(2.3).

Ciągi statystyk pozycyjnych o numerach z klasy i^(z), i = 0, 1, będziemy nazywać odpowiednio ciągami najmniejszych i największych kwantyli z próby rzędu z. W wyniku afinicznych przekształceń można uzyskać z nich rodzinę

(7)

asymptotycznie nieobciążonych w modelu ciągów ekwiwariantnych estyma- torów parametru położenia (a także skali — część II) zawierającą, jak pokażemy niżej, najstabilniejszy ciąg ze względu na obciążenie. Z rozważań wykluczamy wszystkie kwantyle z próby rzędu z<£[e, 1— e] a także naj- mniejsze kwantyle rzędu e i największe rzędu 1—e, ponieważ oscylacja ich obciążeń na zbiorach (1.3) jest nieskończona. (Dalej nie wykorzystujemy tego faktu i dlatego dowód pomijamy.)

Zauważmy jeszcze, że wszystkie kwantyle dystrybuanty F jednomodalnej (ogólniej — dystrybuanty, której nośnik jest przedziałem) są jednoznacznie określone, a to implikuje też jednoznaczność kwantyli rzędu ze(g, 1—e) dla wszystkich funkcji postaci G = (1 — &)F + eH, gdzie H : R-*[_0, 1] jest niemale- jąca. Dlatego przy rozważaniu e-zaburzenia rozkładu jednomodalnego uzasadniony jest następujący jednoznaczny wybór kwantyli rzędu z e [e, 1 —e]:

f

Qi(z, G), z = e,

Q(z, G) = < Q0(z, G) = Qt(z, G), ze(e, 1-e),

|^e0(z, g), z = i —s

oraz ich estymatorów — ciągów statystyk pozycyjnych o numerach L(n) takich, że L(n) ^ n, lim L(n)/n = z oraz

(2.4) lim v/n[L(n)/n —e] > 0, 71-> 00

(2.5) lim y/n[l — e — L(n)/ń] > 0

n~> co

Rodzinę ciągów spełniających powyższe warunki oznaczymy przez SF(z).

Zanim scharakteryzujemy zakres zmienności obciążenia kwantyli z próby wobec rozszerzeń modelu, określimy proste oszacowanie dla rozkładów statystyk pozycyjnych powstałych z ciągu niezależnych zmiennych losowych o niejednakowych rozkładach.

Lemat 2.3. Niech (Xn)neN będzie ciągiem niezależnych zmiennych losowych o rozkładzie G = (8) G„, x e R i 0 ^ q ^ 1. Jeśli (V neN ) Gn(x) ^ (^)ą,00

n = 1

to (V neN)

(2.6) ( V U U n)PG(X,:„ « x) ^ (» ) £ Q / ( l

D ow ód indukcyjny ze względu na n. Teza jest oczywista dla n = 1.

Załóżmy, że zachodzi (2.6). Przyjmując oznaczenia X 0:n = — oo, X n + l:n =

(8)

= + oo, dla dowolnego / = 1, ..., n +1 otrzymujemy

^ *) ~ Pg^I-m ^ X)^~ Pd^l-Un ^ x < ^ / : n ) + 1 W ^

^ (^)P C(^l-l:» < *)«■+ ^g(*/:„ < *)(1 “ 9) < ( »

* n » i ( " V +1(1- « r ‘ + i ( " V ( i - « ) " + ,- ‘ =

t=i-iW i-i w

Lemat 2.4. Załóżmy, że nośnik dystrybuanty F jest przedziałem, e e (0 , 1/2) i ze[s, 1 — £]. Jeżeli Le FF{z), to

00

(V fi > 0)(3 n(0))(V n > n(/?))(V G s /7,( <g> F))

fc = 1

2(z, (1 - e)F + e)-fi =S Mj(G, XL(„|:„) «: g(z, (l-e)F ) + /J, ] = O, 1.

D o wód. Dla ustalonego /? > O oznaczmy

«o = (1 - e ) f (e(z. (1 -e)F + e)-P) + e, <?, = (1 -s)F(S(z, (1 -«)F) + ^).

Wykażemy, że (3 n(/?))(V n > n(P))

(2.7) f ( " U ( l - « o T - ‘ < i < Z ( " W k = L(n) \ k/ Z fc = /.(n) 'k'

Zachodzą następujące nierówności e ^ q0 ^ z ^ ^ 1—e.

Jeśli s = q0 = z, to na podstawie twierdzenia Moivre’a-Laplace’a i wa- runku (2.4)

FL(\l ;m. i ("V o(l-4o r k ^4>

k = L(n) W

ne — L(n)

y/ns( 1 — e). + 0(D <2

dla dostatecznie dużych n. Warunek z > e implikuje skończoność Q(z, (1 — e)F + e) oraz nierówność q0 < z. Wówczas, ponownie na podstawie twierdzenia Moivre’a-Laplace’a oraz (2.2), zachodzi

Z (")<2o(l-4o)"

k = L ( n ) W

^p -L (n )

,^fnq0(\ - q 0). H- o(l) —> 0.

Podobnie możemy dowieść prawej nierówności we wzorze (2.7): rozpatrując przypadki z = ql = 1 — e i z < qx < 1 — e oraz wykorzystując definicję rodziny 5£{z) (warunki (2.2), (2.5)), otrzymujemy

k = E(n)i q1f ~ k > $

\ v/nql ( \ - q i)J 2

dla dostatecznie dużych wartości n. Zauważmy dalej, że dla dowolnej dystry-

(9)

buanty G e ^ 8(F) spełnione są nierówności

G(Q(z, (1 -e)F + e)-P) < q0, G(Q(z, (1 -e)F) + P) > qt .

Zatem na podstawie lematu 2.3 oraz (2.7), dla wszystkich n > n(p) oraz

00 00

G = (x) Gke/7£((x) F) zachodzi k= 1 f c = 1

e(z.

(1 -« )F + 8 )-j8) < 1/2 < P0(XL(„):„ s: e(z, (1 - e)F) + ,8), co kończy dowód lematu. ■

Analogicznie można wyznaczyć oszacowanie dla asymptotycznego obcią- żenia ciągu kwantyli z próby na otoczeniach Kołmogorowa-Levy’ego:

Lem at 2.5 (por. [23], lemat 3). Niech F e 3>, 0 < e < 1/2, <5 ^ 0 ze[s, 1 —e]

oraz ie{0, 1}. Jeżeli Le SF^z), to

00

(V fi > 0)(3 n(/?))(V n > «(/1))(V G e/7tł( ® F»

k= 1

g t.(z, F + e ) - a - j8 < My(G, XL(w):„) ^ &(z, F -e) + d + p, j = 0, 1. - Warunek Le SFfc) jest zbyt słaby, aby ciąg kwantyli z próby {XL(n).n)neN był zgodnym ciągiem estymatorów niejednoznacznego kwantyla i asymptotycznie, z rosnącym do jedności prawdopodobieństwem, spełniał ograniczenia dla obciążenia podane w lematach 2.4 i 2.5. Aby to osiągnąć, konieczne są następujące dodatkowe założenia:

(2.8) lim (— l)ly/n[_z — L(n)/ń] = + oo

n —► oc

dla uzyskania zbieżności wg prawdopodobieństwa oraz (2.9) lim (—l)‘[2z(l —z)nlnlnn]_1/2[nz —L(n)] > 1

n-+ oc

dla uzyskania zbieżności z prawdopodobieństwem 1. Twierdzenia dotyczące słabej i mocnej zgodności przy założeniach (2.1), (2.2) i (2.8) lub (2.9) były dowiedzione przez Feldmana i Tuckera [13]. Ograniczenia te dotyczą też własności odpornych estymatorów, tworzonych na bazie kwantyli z próby, które zostaną przedstawione w dalszej części pracy.

3. Błędy grube. Niech będzie dany model

J t p(F) = {F„ = <g> F,: F,(x) = F (x -0 ), 9eR}00

n= 1

określony przez ustaloną jednomodalną dystrybuantę F. Przypomnijmy, że dystrybuantę F nazywamy jednomodalną, jeśli istnieje liczba ą (moda) taka, że F jest wypukła na przedziale ( —oo, fi) oraz wklęsła na {ji, +oo) lub, równo- ważnie (zob. Feller [14], str. 151): F jest kombinacją rozkładu skupionego

(10)

w punkcie g i rozkładu absolutnie ciągłego mającego wersję gęstości niemale- jącą na ( — 00,^) i nierosnącą na (g, + 00).

Rozważmy e-zaburzenie

/7,(F„) = {G = <g> G„: Gn = (1 -s)F e + eHn, H„e2i, neN }, F„eJ(’(F).00

n=1

Rozkłady takie powstają w sytuacji, gdy podczas dokonywania kolejnych niezależnych obserwacji zjawiska losowego o dystrybuancie Fe, na każdym kroku mogą pojawiać się z niewielkim prawdopodobieństwem (nie większym niż e) tzw. błędy grube — niezależne wyniki pomiarów o nieznanym pocho- dzeniu i probabilistycznej strukturze.

Podane niżej twierdzenie 3.1 stanowi rozszerzenie rezultatu z pracy [24] na przypadek błędów grubych o niejednakowych rozkładach.

Dla danej dystrybuanty jednomodalnej F i ustalonego ee(0, 1/2) zdefiniujmy

A* = A* (F,e) = sup{d: sup [F(x) — F(x — AJ] ^ e/(l— e)}.

xe R

Łatwo sprawdzić, że O ^ d* < +oo.

Tw ie r d z e n ie 3.1.

(a) (3 z* e [e, 1-u]) Q(z*, (1-e)F)-Q (z*, (1-fOF+z) s; J*.

(b) Jeśli LeJF(z*), to

BpE((XL{n).M-Q(z*, F))neN) = A* = inf{£f(T): T e J } . D ow ód części (a) znajduje się w pracy [24] (lemat 2).

D ow ód części (b). Z twierdzenia 2.2 oraz lematu 2.1.(a) wynika, że (XL(n):r, — Q(Z*’ F))neN ^ ZT. Na podstawie lematu 2.4

(V jS > 0)(3 n(fi))(V n > n(«)(V G„ G2eH t(F))

Mj(Gu X Ua):n-Q(z*, F))-Mj(G 2, X Un);„ -Q (z \ F))

< Q(z*, (1 -s)F)-Q (z*, (l—e)F+e) + 2jl ^ ń* + 2fi, J = O, 1, a zatem Bpt{(Xm .n-Q(.z*, F)mN) $ A*.

Wystarczy jeszcze wykazać (w przypadku A* > 0), że (V TgJ ) BU T) ^ A*.

Dla każdej dystrybuanty jednomodalnej F i A > 0 istnieje taki punkt x(A), że funkcja x-+F(x) — F(x — A) jest niemalejąca na zbiorze ( — oo, x(d)) i nie- rosnąca na [x(d), +00) ([24], lemat 1). Wykorzystując ponadto definicję A*, wnioskujemy, że (V de(0, d*]) funkcje

]0,l-( l-e )[T (x )-F (x -d )]/e,

x < x(d), X ^ x(d) (3.1) H1A(x) =

(11)

oraz

(3.2) h 2A*) (1 — e)[F(x + A) — F(xy\/e, x <x ( A) — A,

1, x ^ x(A) — A

są dystrybuantami, natomiast dystrybuanty Gu = (1 — e)F + eHiA e ^ e(F), i = 1,2, spełniają zależność

(3.3) (V xeR) G 2A{x) = G 1a{x + A).

Na podstawie wzoru (1.6) uzyskujemy zatem (V T = (Tn)nelve J )

00 00

J* = Mj( ® G 1j.,T„)-Mj( ® G 2j.,T,)*ZB!(T), 7 = 0,1. .

k= 1 fc = 1

Uwagi. 3.1. Jeśli dystrybuanta F ma skok o wartości co najmniej e/(l —e), to ciąg estymatorów przedstawiony w twierdzeniu jest asymptotycznie absolutnie odporny (A* = 0). W tym przypadku nie jest wymagana jedno- modalność rozkładu modelowego.

3.2. Jeśli e ^ 1/2, to można zdefiniować dystrybuanty postaci (3.1), (3.2) dla dowolnego A > 0. Śledząc kolejne kroki dowodu tw. 3.1, otrzymujemy wówczas, że

(V £ ^ 1/2)(V T e3T) Bpe(T) = +oo.

3.3. Można wykazać, że rząd z* optymalnego kwantyla z próby zawiera się między liczbami (1— £)F(jw) oraz (1 — s)F(ji — ) + £, gdzie n oznacza modę.

Z drugiej strony występuje ograniczenie z* e [£, 1 — £]. Wynika stąd, że optymalny ciąg opiera się na obserwacjach „najbardziej reprezentatywnych”

dla rozkładu pierwotnego, tj. odpowiadających największej masie prawdo- podobieństwa rozkładu modelowego, a zarazem zabezpiecza przed wpływem nieograniczonych zaburzeń przez odrzucenie epsilonowych frakcji ekstremal- nych obserwacji. Ilustruje to ogólną zasadę stabilnej estymacji, gdy zakres błędów jest nieograniczony (por. dalsze wyniki). 4

4. Otoczenia Kołmogorowa-Levy’ego. Rozważmy rozszerzenie modelu pierwotnego J ł p{F) (F jest dowolną dystrybuantą) określone przez otoczenia Kołmogorowa-Levy’ego

(4.1)

n„( F,) = {G = ® G„: G„e@, Fe( x - S ) - s ^ G„(x) ^ Fe(x + S)+e, ne N}.00

n= 1

W odróżnieniu od błędów grubych nie ma ono naturalnej interpretacji, a struktura poszczególnych elementów otoczenia IJE3(Fg) może znacznie różnić się od struktury oryginalnego rozkładu F0. Z drugiej strony, rozszerzenia (4.1) obejmują np. nie ujęte w poprzednim paragrafie błędy powstałe wskutek zaokrągleń wyników. Istotna jest ponadto możliwość przedstawienia rozwią- zania bez założenia jednomodalności rozkładu pierwotnego.

(12)

Tw ie r d z e n ie 4.1. Niech dystrybuanta F, ££(0, 1/2) i S ^ O będą ustalone i niech = Ł,*{F, e) = sup{£: sup [F(x) —F(x —£)] ^ 2e]. Wówczas

xeR

(a) (3 i*e{O, 1})(3 z*e[e, 1-e]) Q? (z*, F - e ) - Q i* (z*, F + e) ^ £*;

(b) jeśli Le j£?,* (z*), to

= «* + 2<5 = inf{B&(T): TejT}.

Dowód opiera się na wykorzystaniu lematu 2.5, a poza tym nie różni się od dowodu podanego w pracy [23]. ■

Uwagi. 4.1. Dla ustalonego modelu J f p{F) oraz £ rozwiązanie jest wspólne dla wszystkich rozszerzeń 77E(5, 5 ^ 0.

4.2. Twierdzenie 4.1 dla <5 = 0 opisuje w szczególności asymptotycznie absolutnie odporny ciąg estymatorów, gdy rozkład pierwotny ma odpowiednio duży skok (por. uwagę 3.1). Dokładniej, £*(F, s) = 0 wtedy i tylko wtedy, gdy

(3 ąeR)(V P>0 ) F(h + P)-F(/ji-P) > 2e.

4.3. Jeśli e ^ 1/2, to dla dowolnej dodatniej liczby A można skonstruować parę dystrybuant spełniających (3.3). W konsekwencji uzyskujemy wynik analogiczny do uwagi 3.2:

(V £ ^ 1/2)(V ó ^ 0)(V TgJ ) Bpeó{ T) = +oo.

5. Przykłady. W konkretnych zastosowaniach istotne jest przede wszystkim określenie wartości z* (lub pary (i*, z*)) generujących najstabilniejszy ciąg estymatorów (XUn):n — Qi* (z*, F))neN, Le £F{z*) (lub F£ {* (z*)), a także wartości ich asymptotycznej oscylacji obciążenia. Dla rozszerzenia postaci (4.1) wystarczy podać wielkość odpowiadającą zaburzeniom w metryce Kołmo- gorowa. Jeżeli w tym przypadku kwantyle rzędu z* funkcji F — £, F, F + e są jednoznacznie określone, to można rozszerzyć klasę rozwiązań, dopuszczając

statystyki pozycyjne o numerach L(ń), LeFF(z*).

5.1. Rozkłady jednomodalne.

Pr z y k ł a d 1. Rozkład symetryczny j e d n o m o d a l n y . Najodporniej- szym ciągiem estymatorów środka symetrii symetrycznego jednomodalnego rozkładu Fn wobec zaburzeń obydwu rodzajów jest ciąg median z próby (XL(n):n)neN, Le J? (1/2). Ciąg ten minimalizuje ponadto maksymalne asympto- tyczne obciążenie, tzn. wielkość

(5.1) 6?(a,(T) = lim sup{0-M o(G, T„), M,(G, T„)-0: Ge/7«WI(F#)}

«-► 00

(por. (1.4)). Dowód Hubera (zob. [18], p. 4.2) wykorzystuje przedstawienie mediany jako funkcjonału na przestrzeni dystrybuant. Nasze, bardziej elementarne podejście pozwala rozpatrzyć zaburzenia o niejednakowych roz- kładach, a w pewnych przypadkach — rozszerzyć klasę rozwiązań, czego ilustrację stanowi następny przykład.

(13)

Pr z y k ł a d 2. Rozkład j ednost ajny F(x) = x + l/2, —1/2 < x ^ 1/2.

Łatwo można sprawdzić, że rozwiązaniem problemu są ciągi (^L(n):n —z +l/2)neA5 LejF(z), ZG[8, 1—fi], oraz ich wypukłe kombinacje. W szczególności, ciąg

T* = ( { X + X „ + 1- L(ny„)/2)neN, Le JFi (fi),

ma następujące zalety klasycznej mediany z próby (X[„/2] + odporność, ekwiwariantność ze względu na transformacje skali, nieobciążoność w podsta- wowym modelu dla dowolnego n, a dodatkowo jest efektywniejszy w modelu (zob. np. David [12], str. 36 (w wyd. ros. — str. 42)):

V&rF{XL(n).n + X„ + Ł _ Ł(n):n

) / 4 < L { n ) , 2 c < 1

VarF(2f[n/2] + i:n) Cw/2]

Minimalne wielkości asymptotycznej oscylacji i maksymalnego obciążenia wynoszą:

min{flf(T): T e J } = *?(T*) = e/(l-e), min{J%(T): T e J } = ^ (T * ) = 2£ + 2<5, min{fcfo(T): T G[f } = fcfo(T*) = Bfo(T*)/2.

Pr z y k ł a d 3. Rozkład Weibulla F“(x) = 1 — exp( — x“), x > 0, ze znanym parametrem kształtu a > 0. Jeżeli a < 1, to z* = e, a jeżeli a > 1, to z* jest rozwiązaniem odpowiedniego równania:

(a) w przypadku błędów grubych — równania

(1 — z —£)a/(a_1)ln [(1 — z)/(l — e)] = (1 —z)a/(a-1)ln[(l — z — e)/( 1 — e)], (b) w przypadku otoczeń Kołmogorowa-Levy’ego — równania

(1 —z —e)a/(a_1)ln(l —z —e) = (1 — z + e)a/(a_1)ln(l — z Fe).

Najodporniejszy ciąg estymatorów parametru położenia ma postać (5-2) (2ćL(„);„ —[ —ln(l — z*)]1/a)„e^y, Le&(z*),

a jego asymptotyczna oscylacja obciążenia wynosi:

(a) w przypadku błędów grubych

A*{Fa, e) = ln1/a[(l — £)/(l — z* —£)] —ln1/a[(l —£)/(l —z*)], (b) w przypadku otoczeń Kołmogorowa-Levy’ego

£*(F“, e) + 2ó = [ - ln ( l- z * - £ ) ] 1'a- [ - l n ( l - z * + £)]1/a + 2<$.

W przypadku £-zaburzenia rozkładu wykładniczego F 1, gdy e ^ (3 —>y/5)/2 «

% 0.3820, ciąg (5.2) jest optymalny również ze względu na asymptotyczne maksymalne obciążenie (5.1) (zob. [24], przykład 3).

(14)

Pr z y k ł a d 4. Rozkład podwójnie wykładniczy F(x) = 1 —

— exp( — ex). Optymalny ciąg estymatorów jest postaci (XL(n):„ ~ ln [-ln (l -z*)])„eJV, Le £>{z*), przy czym z* jest rozwiązaniem odpowiedniego równania:

(a) w przypadku błędów grubych

(5.3) (1 — z —e)ln[(l — z —e)/(l — e)] = (l-z )ln [(l-z )/(l-e )], (b) w przypadku otoczeń Kołmogorowa-Levy’ego

(5.4) (1 — z — e)ln(l —z —e) = (1 — z + e)ln(l —z + e).

W pracach [23], [24] podane są numeryczne wyniki w przypadku rozkładów Rayleigha (tj. Weibulla z parametrem a = 2) i podwójnie wykładni- czego dla £ = 0.01, 0.02, 0.05 (0.05) 0.25, 0.49. Równania określające z* w przykładach 3 i 4 powstały wskutek przyrównania do zera pochodnej lewej strony nierówności z twierdzenia 3.1.(a) (dla błędów grubych) i twier- dzenia 4.1.(a) (dla otoczeń Kołmogorowa-Levy’ego).

5.2. Przypadek ogólny. Rozpatrzymy jeszcze dwa przykłady rozkładów niejednomodalnych: dyskretnego i ciągłego. Pokazują one, że obydwa zało- żenia — symetryczności i jednomodalności — są istotne dla optymalności mediany z próby jako najodporniejszego estymatora parametru położenia.

Pr z y k ł a d 5. Rozkład dwu punktowy symetryczny. Szersza klasa rozwiązań jest przedstawiona w pracy [23], poniżej przytoczymy pewne rozwiązanie szczególne — ciąg minimalizujący również asymptotyczne maksy- malne obciążenie

(5-5) + 1 ~ L(n):n)/2) neNi

przy czym w przypadku e < 1/4 ciąg L należy do rodziny i?(l/4) (wówczas

= 0), a dla 1/4 ^ £ < 1/2 — do J?0(l/2) (£* = 2). Zauważmy, że klasyczna mediana z próby ma oscylację równą 2, ale jest asymptotycznie obciążona w modelu.

Ciąg postaci (5.5) dla Lei?(l/3) jest absolutnie odporny na £-zaburzenia, gdy e < 1/3.

Pr z y k ł a d 6. Rozkład beta o g ę s t o ś c i = B~1(a, 0 < x < 1, 0 < a, /? < 1 — znane.

Rozwiązanie jest generowane przez pary H, z« = J(1>e)> gdy

1(0, 1 -e), gdy 0.

Dla symetrycznego, dwumodalnego rozkładu o gęstości / a,a najstabilniejszy ciąg estymatorów parametru położenia może być więc utworzony z górnych kwantyli rzędu £ lub/i dolnych kwantyli rzędu 1 —£ z próby.

Cytaty

Powiązane dokumenty

• Estymacja punktowa – ma zastosowanie gdy, na podstawie danych z próby, chcemy ustalić liczbową wartość określonego parametru rozkładu cechy w całej populacji. •

Estymacja przedziałowa –gdy wyznaczamy granice przedziału liczbowego, w których, z określonym prawdopodobieństwem, mieści się prawdziwa wartość szacowanego parametru.... Niech

W opisie zjawisk losowych często zdarza się, że pewne obserwacje zmiennej losowej pojawiają się częściej niż wynika to z założonego rozkładu. Jako rozkład a priori

Dokonano 100 pomiarów ciśnienia wody na ostatnim piętrze bloku 15 piętrowego i okazało się, że średnie ciśnienie wynosiło 2,21 podczas gdy wariancja wyniosła 4,41..

Huber [16] otrzymał asymptotycznie najodporniejszy ze względu na wariancję ciąg M-estymatorów logarytmu parametru skali przy e-zaburzeniu ogonów rozkładu normalnego,

rachunek prawdopodobieństwa i statystyka matematyczna (4inf, rpism,

Wyznaczyć zmienną losową X przyjmującą wartości - liczbę rzutów kostką do momentu wyrzucenia szóstki oraz rozkład prawdopodobieństwa tej zmiennej losowej. A

b). Wartość oczekiwaną tej zmiennej losowej