• Nie Znaleziono Wyników

Lehman Rogers,

N/A
N/A
Protected

Academic year: 2021

Share "Lehman Rogers,"

Copied!
6
0
0

Pełen tekst

(1)

ROCZNIKI POLSKIEGO TOWARZYSTWA MATEMATYCZNEGO Seria III: MATEMATYKA STOSOWANA XII (1978)

E. PLESZCZYŃSKA, W. SzczESNY (Warszawa)

Odporność: ważne hasło współczesnej statystyki

(Praca przyjęta do druku 3.02.1977)

Odporność metod statystycznych reprezentuje nowy prąd, który budzi coraz

większe zainteresowanie środowiska statystycznego. Idea jest prosta. Wnioskowanie statystyczne wymaga specyfikacji modelu doświadczalnego złożonego ~ przestrzeni prób i rodziny rozkładów prawdopodobieństwa (określonych na wybranym a-ciele podzbiorów przestrzeni prób), do której należy nieznany rozkład losowania próby.

Model nie może być zbyt ogólny (tj. rodzina rozkładów nie może być zbyt obszerna),

gdyż wtedy nie istnieją takie metody rozwiązywania problemów decyzyjnych (na

przykład estymacji lub weryfikacji hipotez), które miałyby zadowalające własności.

Natomiast teoria statystyki dysponuje wartościowymi rozwiązaniami tych problemów wówczas, gdy model doświadczalny jest dostatecznie zawężony, ale takie modele

bywają krytykowane przez praktyków jako nadmierne uproszczenie doświadczalnej rzeczywistości. Zastosowania statystyki matematycznej od lat szukają kompromisu

między modelami dostatecznie ogólnymi dla praktyki a modelami dostatecznie

zawężonymi dla teorii. W koncepcji takiego kompromisu, wysuwanej przez zwolen- ników metod odpornych, punktem wyjścia są owe zawężone, standardowe modele oraz odpowiednio skonstruowane klasy modeli przybliżających model standardowy w taki sposób, by zbliżyć się do modelowanej rzeczywistości.

Klasyczne metody rozwiązywania poszczególnych problemów decyzyjnych, stosowane dotąd przy standardowych modelach, zyskują miano odpornych, jeśli

własności, dzięki którym owe metody były akceptowane dla modeli standardowych,

ulegają jedynie nieznacznym zmianom po zastąpieniu modelu standardowego mode- lem przybliżonym. Jeśli metoda klasyczna okaże się mało odporna, można próbować ją uodpornić poprzez odpowiednie modyfikacje, a gdy to nie da zadowalających

rezultatów, należy poszukiwać nowych metod, które przy modelu standardowym

okażą się niewiele mniej efektywne od metody klasycznej.

Przedstawiony wyżej schemat postępowania dopuszcza ogromną różnorodność podejść i „wdrożeń" hasła odporności. Owe stopnie swobody to przede wszystkim wybór modelu standardowego i klasy modeli przybliżających ten model, formalizacja problemu decyzyjnego, wybór zadowalającego rozwiązania tego problemu, wybór sposobu oceny efektywności wybranego rozwiązania w modelu standardowym

5 Matematyka Stosowana XII [65]

(2)

i wybór sposobu oceny zmian efektywności przy zastąpieniu modelu standardowego

przybliżonym.

Modele przybliżone w dotychczasowych rozważaniach mają często postać modeli z mieszaniną rozkładów: zamiast „czystych" rozkładów F z rodziny rozkładów

w modelu standardowym rozpatruje się mieszane rozkłady (1- o:)F + etG, gdzie G

jest elementem wybranej rodziny rozkładów spoza modelu standardowego, a „procent zanieczyszczenia" et jest liczbą z przedziału [O, I]. W takim przypadku et służy jako pewna ocena odległości między modelem przybliżonym a standardowym, co w prak- tyce odpowiada dopuszczeniu grubych błędów w procesie pomiaru obserwowanych w doświadczeniu wielkości.

Większość prac badawczych na temat odporności jest poświęcona odpornej estymacji parametrów modelu (a przede wszystkim środka symetrii jednowymiaro- wego rozkładu symetrycznego). Zwolennicy odporności wprowadzili do teorii estymacji nowe, ważne pojęcia, wśród nich zdefiniowaną niżej tzw. funkcję (lub

krzywą) wpływu.

Niech .fi = (f!f, d, &') będzie modelem lub, inaczej, strukturą statystyczną

z rodziną rozkładów &' zawierającą ro.in. dyskretne rozkłady n-punktowe, tj. roz-

kłady skupione na ciągu punktów x 1 , •.• , Xn należących do f!f i przypisujące tym punktom odpowiednio prawdopodobieństwa kdn, i= 1, ... , n, przy czym ki E

n

E {O, I, ... ,n} i 2: ki;:; n. Ponadto, dla każdego PEf?J, każdego etE [O, I] oraz

i=1

każdego x E f!f mieszanina rozkładu P i rozkładu ox skupionego w punkcie x, tj.

rozkład (I - et)P+ etox, również należy do f?J.

Niech T oznacza pewien rzeczywisty parametr struktury .fi (a więc T jest od- wzorowaniem rodziny rozkładów f?J w zbiór liczb rzeczywistych). Dla każdego rozkładu P należącego do pewnego wybranego podzbioru rodziny f?J definiuje się funkcję wpływu (ang. influence curve) parametru T jako funkcję ICT,P przyporządko­

wującą punktom x z przestrzeni f!f wyrażenie

le ( ) ~ 1. T[(I - o:)P + etox]-T(P)

T p X - Im -- - - - -

' ~~o et

dla tych x E f!f, dla których taka granica istnieje. Funkcja wpływu jest więc pewnego typu pochodną parametru T w punkcie odpowiadającym rozkładowi P. Wartość bezwzględna tej funkcji w punkcie x wskazuje, jak reaguje parametr T na zakłócenia rozkładu P za pomocą domieszek występujących w punkcie x; jest więc miarą lokal- nego braku odporności parametru T. Kształt funkcji wpływu zawiera jakościową informację o odporności parametru T w otoczeniu rozkładu P.

Włączenie dyskretnych rozkładów n-punktowych do rodziny pozwala związać

ze sobą parametr Ti jego estymator wyznaczony na podstawie niezależnych n-krot- nych losowań. Dokładniej, rozpatruje się problem estymacji parametru T w struk- turze M" = (f!f", dn, {P", PE f?J}), to jest w strukturze „losowania n niezależnych

prób w sposób opisany strukturą .A", za pomocą statystyki, która każdej próbce (x 1 , ••• , Xn) E f!fn przyporządkowuje wartość parametru T dla n-punktowego roz-

(3)

Odporność: ważne hasło współczesnej statystyki 67

kładu dyskretnego będącego empirycznym rozkładem w tej próbce. Taką statystykę

nazywa się próbko wym odpowiednikiem parametru T i będzie tu oznaczana przez Tn.

Jeśli n jest duże, a próba jest losowana według jakiegoś rozkładu P E & i parametr T jest ciągły w otoczeniu P (względem wybranej metryki w &), to Tn(x1 , ••• , Xn) aproksymuje T(P). Postać funkcji wpływu ICr,P informuje nas zatem o odporności

estymatora Tn w otoczeniu rozkładu P.

Kres górny funkcji wpływu dla x E fi' jest pewną miarą wrażliwości parametru T (lub estymatora Tn) na zakłócenia (ang. gross error sensitivity). Uodpornianie („huberyzacja") estymatora polega na ogół na obcięciu wierzchołka funkcji wpływu;

powoduje to jednak zwiększenie asymptotycznej wariancji zmodyfikowanego esty- matora w stosunku do wariancji estymatora pierwotnego, a więc stratę asympto- tycznej efektywności estymacji.

Można z łatwością stwierdzić, że dla wartości średniej µ i wariancji <J2 (lub, inaczej, dla ich próbkowych odpowiedników i a2) funkcja wpływu jest dana wzo- rami

(I) (2)

IC1,,p(x) = lim [(1-a)µ(P)+ ax-µ(P)]/a = x-µ(P),

°' J.0

IC112,p(x) = lim [(1-a)<J2(P)+ r.t (x- µ(P) )2 - <J2(P)]/a =

a J. O

= (x-µ(P))2-a2(P)

dla x E R i dla tych rozkładów P, dla których istnieją skończone momenty pierwsze (dla (I)) lub drugie (dla (2)).

Podobnie można wyznaczyć krzywe wpływu dla innych parametrów położenia i rozproszenia w rozkładzie jednowymiarowym, np. dla mediany i odchylenia media- nowego, i porównać ze sobą odpowiednie funkcje wpływu. Wartość bezwzględna

funkcji IC.u,P osiąga minimum w punkcie x = µ(P) i rośnie w miarę oddalania się od µ(P), a więc'µ jest bardzo wrażliwa na duże odchylenia od µ(P). Podobnie dzieje się ze statystyką a2 jako estymatorem parametru charakteryzującego rozproszenie.

Estymatoryµ i a2 są piętnowane jako bardzo nieodporne na zakłócenia, przy czym ta własność w niedostateczny na ogół sposób jest rekompensowana ich wysoką asymptotyczną efektywnością.

Dla rozkładów dwuwymiarowych statystyką bardzo mało odporną na pewne zakłócenia jest współczynnik korelacji z próby e. Wyznaczenie funkcji wpływu dla

e

jest nieco bardziej skomplikowane niż dla i a2 • Niech P będzie rozkładem dwu- wymiarowym, w którym istnieją skończone drugie momenty i niech µi(P), <Jf(P) (i = I, 2) oraz e(P) oznaczają odpowiednio średnie i wariancje rozkładów brzego- wych· oraz współczynnik korelacji. Niech Ps, oznacza standaryzowany rozkład P.

Ponieważ parametr e nie zmienia swej wartości przy dodatnich liniowych przekształ­

ceniach obu zmiennych, więc e(P) = e(Ps,) oraz

e [(1-Q'.)P + cxba,bl = e [(1-r.t)Pst + r.tbas1.bs1L gdzie

dla a, bE R.

(4)

Zatem (3)

dla tych (a, b), dla których funkcja wpływu jest określona. Aby policzyć prawą stronę tego wyrażenia, oznaczmy przez (~, r;) zmienną losową o rozkładzie P5,,

a przez (~a:, r;a.) zmienną losową o rozkładzie (1- cx)Pst + cx<5a51,bw Mamy więc

a więc

E~ = Er; = O, af = <1~ = 1 ,

E~IX = cxa5 ,, E~i = l-a+cxa;0 af(X = (1-cx)(l+aa;,), E;r; = e(P) = e(Ps,),

E~<X'Y/IX = (1-cx)E~r;,

(4) ICe.P(a, b) =

= lim cx-1 ( (1- cx)e(P)+ cxas,bs,-&.2as,~!_-e(l?)) = IX l o (1- a) y (1 + cxa;t)(l + cxb;t)

. ( a5 , hst ( ) 1 - V (l + cxa;t)( I + cxb;t) )

= ~1~ }/ (1-+ ~a;t)({+ cxb:t) + e p ex y (I + cxa;\)(1 + cxb;t) =

1 2 b2

= Gstbs,-2e(P)(ast+ st).

Zatem funkcja wpływu współczynnika korelacji zależy od postaci rozkładu P tylko poprzez pierwsze i drugie momenty rozkładu. Pokazuje ona, że współczynnik kore- lacji reaguje silnie na zakłócenia odległe od punktu 1 ( P), µ 2 ( P) ), przy czym sposób reagowania zależy od drugich momentów w sposób opisany wzorem ( 4), a więc zgodnie z intuicją, szczególnie dla e(P) = I, -1 i O.

Nieodporność współczynnika korelacji na zakłócenia scharakteryzowana funkcją wpływu pozwala spodziewać się braku odporności niektórych własności współ­

czynnika korelacji z próby na odstępstwa od założenia binormalności rozkładu,

które to założenie wyznacza standardowy model doświadczalny w wielu zastosowa- niach praktycznych tego współczynnika. Potwierdziły to, opisane m.in. w pracach Devlina [3] oraz Duncana i Layarda [4], badania prowadzone metodami symu- lacji nad odpornością współczynnika korelacji z próby jako estymatora e(P) oraz jako narzędzia testowania hipotez o niezależności dwóch zmiennych loso- wych. W pierwszej z tych prac rozważano także odporność i efektywność kilku innych statystyk mierzących zależność między dwiema zmiennymi losowymi.

Funkcja wpływu i inne pojęcia wprowadzon~ w badaniach nad odpornością

estymatorów rzeczywistych parametrów - np. tzw. punkt załamania (ang. breakdown point) oznaczający, z grubsza biorąc, najmniejszy procent domieszanego zakłócenia,

przy którym estymator przestaje przyjmować jakiekolwiek sensowne wartości -

stanowią nowe narzędzia estymacji. Jednakże narzędzia te mają na razie dosyć ogra- niczony zasięg oddziaływania. Co więcej, prawie wszystkie dotychczasowe badania nad odpornością dotyczyły problemu estymacji rzeczywistego parametru charakte-

(5)

Odporność: ważne hasło współczesnej statystyki 69

ryzującego położenie, i to głównie w rozkładzie jednowymiarowym posiadającym

punkt symetrii. Trudniejsze szczegółowe zagadnienia na razie bardzo słabo opraco- wane, a teoria ogólna jest ciągle w powijakach. Dlatego wydaje się, że w chwili obecnej naprawdę wartościowa jest przede wszystkim sama idea odporności statystyk.

Potrzebne takie formalizacje tej idei, które odnoszą się do obranego modelu standardowego i pewnego jego rozszerzenia, do obranego problemu decyzyjnego i jego rozwiązania oraz do obranego sposobu oceny jakości tego rozwiązania uwzg;lędniającej tak efektywność jak i odporność. Pewną taką formalizację stanowi bardzo interesująca i nowatorska propozycja R. Zielińskiego [9], którą autor przed- stawia czytelnikom w tym numerze Matematyki Stosowanej.

W załączonym spisie prac cytowanych podano kilka pozycji z bardzo bogatej literatury dotyczącej odporności, które naszym zdaniem szczególnie zasługują na

uwagę. Bickel i Lehmann w pierwszej z serii prac w r. 1975 i 1976 ([2]) rozważają ogólne postulaty odnoszące się do parametrów charakteryzujących pewien określony

aspekt rodziny rozkładów i do estymatorów tych parametrów, a wśród nich od-

porność. W dalszych dwu pracach specyfikują te rozważania dla parametrów poło­

żenia i rozproszenia. Klasyczną już pozycją wprowadzającą różne nowe parametry

położenia w przypadku jednowymiarowym jest praca Andrewsa i współautorów

z 1972 r. [I]. Ciekawy, intuicyjny przegląd metod odpornej estymacji został dokonany w r. 1973 przez Hampela [5], który jest obok Hubera jednym z głównych twórców teorii odpornego wnioskowania statystycznego. Hampel wprowadził pojęcie funkcji

wpływu i poświęcił jej kilka prac, w szczególności popularyzatorski artykuł [6] w r.

1974. Huber streścił wyniki osiągnięte przez siebie w pierwszym pionierskim okresie w pracy przeglądowej z r. 1972 [7]. W sierpniu 1975 r. podczas 40 Sesji Międzynaro­

dowego Instytutu Statystycznego w Warszawie Huber przewodniczył sesji poświęc.o­

nej odporności metod statystycznych. Była to bardzo ciekawa sesja, która ujawniła

znaczne różnice w poglądach na dalszy rozwój wnioskowania statystycznego uwzględ­

niającego odporność i w ocenach dotychczasowego dorobku takiego wnioskowania.

Sprawozdanie z sesji zostało opracowane przez Pleszczyńską [8]; fragmenty tego sprawozdania zostały wykorzystane we wstępie do niniejszej pracy.

Odporne wnioskowanie statystyczne jest szczególnie istotne dla praktyki i bliskie

współczesnemu informatycznemu podejściu do statystyki, dlatego odporność została określona w tytule tej pracy jako ważne hasło współczesnej statystyki.

Prace cytowane

[1] D. F. A n drew s, P. J. Bi ck e I, F. R. Ha mp e I, P. J. Huber, W. H. Rogers, J. W. Tuk e y, Robust estimates of location: Survey and advances, Princeton Univ. Press., Princeton 1972.

[2) P. J. Bi ck e I, E. L. Lehman n, Descriptive statistics for nonparametric models. I. Intro- duction, Ann. Statist. 3 (1975), str. 1038-1044; Jl. Location, ibid. 3 (1975), str. 1044-1069;

III. Dispersion, ibid. 4 (1976), str. 531-545.

(6)

[3] S. J. De v I i n, R. Gna n ad esik a n, J. R. Ket te nr i n g, Robust estimation and outlier detection with correlation coefficients, Biometrika 62 (1975), str. 531-545.

(4] G. T. D u n ca n, M. W. J. La yard, A Monte-Carlo study of asympt'!tically robust tests for corre/ation coefficients, ibid. 60 (1973), str. 551-558.

[5] F. R. Ha mp e I, Robust estimation: a condensedpartia/ survey, Z. Wahr. verw. Geb. 27 (1973), str. 87-104.

[6] -, The influence curve and its role in robust estimation, J. Amer. Statist. Assoc. 69 (1974), str. 383-393.

[7] P. J. Huber, Robust statistics: a review, Ann. Math. Statist. 43 (1972), str. 1041-1067.

[8] E. P I e s z c z y ń s k a, Odporne metody statystyczne („Robust statistics"), Wiadomości Staty- styczne 1 (1976), str. 20-21.

[9] R. Zie I iński, O mierzeniu odporności statystyk, Matematyka Stosowana, ten tom, str.71-76.

Cytaty

Powiązane dokumenty

De ‘commitment paradox’ houdt in dat veel commitment vragen een afschrikkend effect kan hebben (De Bruijn e.a., 2002). Die spanning is ook op dit proces van toepassing. Als actoren

Sprawa udziału polskich reprezentan­ tów była przedm iotem zebrania i uchwały Prezydium Zespołu do spraw kon­ serwacji zabytków ruchomych przy Zarządzie Muzeów

Violetta Rezler-Wasielewska, Działalność naukowo-oświatowa polskich jeńców wojennych w niemieckich i radzieckich obozach podczas II wojny światowej, Opole 200 l,

Survey ratings of the facilities, building, property management and CRE services; number of complaints; call frequency; cost per m2 help desk; location (proximity to

Door: Reinhout Kleinhans (OTB/TU Delft), Walter Klein Nienhuis (bewonersbedrijf Malburgen).. Reinhout Kleinhans heeft als onderzoeker aan OTB/TU Delft onderzoek gedaan naar

Wszystkie znane cząstki można podzielić na dwie grupy: cząstki o spinie 1/2, z których zbudowana jest materia we wszechświecie, i cząstki o spinie O, l lub

parum, quo puer aliquis missae, aut aliis officiis ministraturus induatur“. locum habere possit, quando privatae missae canonicorum inservit aliquis plane laicus interdum vix

Podobnie jak dla leptonów oddziaływanie pola Higgsa z kwarkami jest proporcjonalne do ich masy.. 14.4 Masy