• Nie Znaleziono Wyników

J. Neyman, E. Scott: O odrzucaniu elementów odstających*

N/A
N/A
Protected

Academic year: 2021

Share "J. Neyman, E. Scott: O odrzucaniu elementów odstających* "

Copied!
2
0
0

Pełen tekst

(1)

ROCZNIKI POLSKIEGO TOWARZYSTWA MATEMA TYCZNEGO SERIA III: MATEMATYKA STOSOWANA III (1974)

R. BARTOSZYŃSKI (Warszawa)

J. Neyman, E. Scott: O odrzucaniu elementów odstających*

W praktyce statystycznej stosunkowo

często

spotykamy

się

z

sytuacją,

gdy jeden z wy- ników jest na tyle

większy

(mniejszy) od

pozostałych, że

zachodzi podejrzenie,

jest on rezultatem

omyłki

(przeoczenia eksperymentatora,

przesunięcia

przecinka przy zestawianiu danych, itp.). W omawianej pracy Neyman i Scott

proponują następującą procedurę

rozstrzy- gania w jakich przypadkach podejrzenia takie

można uznać

za uzasadnione.

Niech y 1 , ... , y n (n

~

3)

będzie próbą prostą

z populacji o

rozkładzie

F, i niech x k ozna- cza k-ty co do wielkości spośród y 1, „., Yn· Mamy zatem x 1 ~ x 2 ~ „. ~ xn.

Dla oceny w jakim stopniu xn jest elementem

„odstającym"

od

pozostałych, rozważmy

iloraz

1

w=

(w=

oo

jeżeli xn-l = xn i xn - xn-l >O).

Intuicyjnie, im większe w, tym bardziej wydaje się to świadczyć, że element maksymal- ny xn jest „obcy" w pr6bce.

Powiemy,

że

próbka zawiera element (k,

n)-odstający

{ang. (k, n)-outlier),

jeżeli w~

k, czyli

(I) x n - x n- 1 ~ k (x n- 1 - x 1 )

(ściślej biorąc, należałoby tu mówić o „elementach (k, n )-odstających z prawej strony". Po-

nieważ określenie

elementów(k,

n)-odstających

ze strony przeciwnej jest identyczne i wszystkie

rozważania przenoszą się

bez zmian, w dalszym

ciągu będzie

mowa jedynie o „od- stawaniu" elementów

największych).

Niech p(k, n, F) oznacza

prawdopodobieństwo, że

n-elementowa próba prosta z

rozkła­

du F zawiera element (k, n

)-odstający.

Dla wyznaczenia p (k, n, F)

zauważmy, że

( 1) jest

równoważne nierówności

* J. Ney ma n and E. S co t t, Outlier proneness of phenomena and of related distributions; w

książce

Optimizing Methods in Statistics, New York 1971.

1 Wszystkie znane metody opierają się na porównaniu odległości xn od zbioru x l •···.Xn-l (określonej na przykład jako xn - xn-l, xn - x, itp.) z jakąś oceną odchylenia standardowego (np. s. x

71 -

x

l

•itp.).

Por. np. R.

Zielińsk

i, Tablice statystyczne, Warszawa 1972, str. 61-64.

[ 123]

(2)

124 R. B a r

t

o s z y

ń

s k i

Tak więc, pod warunkiem x 1 = x, xn = y (x ~ y ), próba będzie zawierać element (k, n)-od- stający, jeżeli x 2, x3, ... , xn-l znajdą się w przedziale między x i (y + kx)/(k +I). Zakłada-

jąc

dla uproszczenia,

że

F jest

rozkładem

typu

ciągłego, prawdopodobieństwo

ostatniego

zdarzenia wynosi

[!(y k+ +k; )- F(x~ n-2 ,

skąd całkując

otrzymujemy

+oo +oo

p(k, n, F) = f f C:'Ck: klx)-F(xB n-2 dF(y)dF(x).

X

W praktyce

rozkład

F jest zwykle nieznany; wiadomo natomiast na

ogół, że

jest on jednym z rozkładów pewnej rodziny ~ rozkładów prawdopodobieństwa.

Oznaczmy

1T(k, n,:J') = sup p(k, n, F)

FE-g:'

i

wprowadźmy następujące

definicje:

Rodzina :F jest odporna lub nieodporna na J..k, n )-odstawanie (ang. outlier resistant oraz outlier prone), w

zależpości

od tego, czy n(k, n,;/')< 1czy1T(k, n,;J") = 1.

Jeżeli

n(k, n, g:") = 1 dla wszystkich k > O oraz n~ 3, to rodzinę ~nazwiemy całkowicie nieod-

porną na odstawanie (completely outlier prone).

Neyman i Scott dowodzą następujących twierdzeń:

Niech F

będzie

dowolnym

rozkładem ciągłym,

i niech 9='1 ={Fm: Fm (x) = F(x - m)} ,

~ = {F

0:

F

0

(x) =F(x/a)} .

Wówczas rodziny 9l i :F 2 odporne na (k, n )-odstawanie przy dowolnych k > O

i

n~

3. Wynika

stąd

w

szczególności; że

rodzina

rozkładów

normalnych jest odporna na (k, n )-odstawanie przy każdym k > O i n ~ 3.

Najbardziej

zaskakujące sąjednak

twierdzenia

orzekające, że

rodzina wszystkich roz-

kładów

gamma, oraz rodzina wszystkich

rozkładów

logarytmo-normalnych

są całkowicie

nieodporne na odstawanie.

Wniosek praktyczny z dwóch ostatnich

twierdzeń

jest taki,

że jeżeli

o badanym zja- wisku wiemy,

że rządzone

jest przez

jakiś rozkład

gamma (lub log-normalny), to nawet dla najbardziej „dziwnie" wyglądających wyników, z xn - xn-=:-l dowolnie wiele razy przekra-

czającym

xn- l - x 1, nie mamy podstaw do odrzucenia elementu xn jako obarczonego

błę­

dem

(ponieważ

istnieje zawsze

rozkład

gamma (log-normalny), przy którym takie, lub jesz-

cze bardziej „d;liwnc" konfiguracje

mają prawdopodobieństwo

pojawienia

się

dowolnie

bliskie I).

Cytaty

Powiązane dokumenty

Zestaw zadań 4: Grupy permutacji.. (14) Wyznaczyć

Pokazać, że również w wyjściowym prostokącie długość jednego z boków musi być liczbą całkowitą.. Wyrazić współczynniki Fouriera funkcji h za pomocą

Oblicz prawdopodobieństwo wylosowania króla z talii 24 kart, jeśli wiemy, że wylosowana karta jest pikiem..

23. Dana jest liczba rzeczywista a. Niech P będzie dowolnym punktem wewnątrz czworokąta wypukłego ABCD. Udowod- nij, że środki ciężkości trójkątów 4P AB, 4P BC, 4P CD, 4P

Tetrisa możemy kłaść w dowolny sposób na szachownicę tak, aby boki tetrisa pokry- wały się z bokami pól na szachownicy, możemy również go obracać.. Mamy dane dwa

Kiedy wszystkiego się nauczyłem i swobodnie posługiwałem się czarami, to czarnoksiężnik znów zamienił mnie w człowieka... 1 Motywacje i przykłady dyskretnych układów dynamicz-

Na podstawie obserwacji obliczono prawdopodobieństwo p=0,1 że któryś komputerów w czasie zajęć jest wolny (równe dla wszystkich pięciu

Dla operatorów samosprzężonych obraz numeryczny jest rzeczywisty, jego kresy należą do widma, widmo zawiera się w domknięciu ob- razu numerycznego, więc dla operatora