• Nie Znaleziono Wyników

Przegląd wybranych testów

N/A
N/A
Protected

Academic year: 2021

Share "Przegląd wybranych testów"

Copied!
8
0
0

Pełen tekst

(1)

Przegląd wybranych testów

Testy dotyczące wartości oczekiwanej w rozkładzie normalnym i problem testowania równości średnich w dwóch zależnych populacjach o rozkładzie normalnym.

Model 1. Niech X=(X1,...,Xn) będzie próbą prostą z rozkładu N(m,2) przy czym 2 jest znane.

Testujemy hipotezę

1. H0a: mm0 wobec alternatywy H1a: m<m0

2. H0b: mm0 wobec alternatywy H1b: m>m0

3. H0c: m=m0 wobec alternatywy H1c: mm0

Statystyką testową jest

 ) 0

( X m

n X

T

 ,

która przy ustalonym m ma rozkład N( n mm0,1). Zbiór krytyczny (odrzucenia H0) C na poziomie  konstruujemy następująco:

1. C{X:T(X)u} dla alternatywy H1a: m<m0

2. C{X:T(X)u1} dla alternatywy H1b: m>m0

3. { : | ( )| }

12

X T X u

C dla alternatywy H1c: mm0

gdzie u jest kwantylem rzędu  rozkładu N(0,1)

Uwaga. W przypadku 1 i 2 test jest jednostajnie najmocniejszy. W przypadku 3 test jest jednostajnie najmocniejszy w klasie testów nieobciążonych. Test jednostajnie najmocniejszy w tym przypadku nie istnieje.

Model 2. Niech X=(X1,...,Xn) będzie próbą prostą z rozkładu N(m,2) przy czym 2 jest nieznane.

Testujemy hipotezę

1. H0a: mm0 wobec alternatywy H1a: m<m0 2. H0b: mm0 wobec alternatywy H1b: m>m0

3. H0c: m=m0 wobec alternatywy H1c: mm0

(2)

n Sn

m n X

S m n X X

T 0

*

0 1

)

( 

 

 ,

(gdzie

n

i

n Xi

X

1

1 , 2

1 1 2 1

* (X X)

S

n

i n i

n

, 2

1

2 1 (X X)

S

n

i n i

n

) ,

która przy prawdziwości H0 ma niecentralny rozkład t-Studenta o n-1 stopniach swobody i parametrze niecentralności  n mm0 (czyli tn1, ). Zbiór krytyczny (odrzucenia H0) C na poziomie  konstruujemy następująco:

1. C{X:T(X)u} dla alternatywy H1a: m<m0

2. C{X:T(X)u1} dla alternatywy H1b: m>m0

3. { : | ( )| }

12

X T X u

C dla alternatywy H1c: mm0

gdzie u jest kwantylem rzędu  rozkładu centralnego t Studenta tn-1 .

Uwaga. W przypadku 1 i 2 test jest jednostajnie najmocniejszy. W przypadku 3 test jest jednostajnie najmocniejszy w klasie testów nieobciążonych. Test jednostajnie najmocniejszy w tym przypadku nie istnieje. Dla n >30 rozkład t-Studenta aproksymujemy rozkładem normalnym N(0,1).

Powyższe testy mogą być użyte do porównywania wartości oczekiwanych w dwóch próbach zależnych o rozkładzie normalnym.

Niech (X1,Y1),...,(Xn,Yn) będzie próbą prostą z dwuwymiarowego rozkładu normalnego )

,

( 

 

 

 

y yx

xy x

y x

V C

C V m

N m . Chcemy testować hipotezę

H0: mx=my przeciwko alternatywie H0: mxmy

Z powyższym problemem mamy do czynienia, gdy dla tego samego pacjenta rejestrujemy dwa pomiary pewnej wielkości przed i po zażyciu leku.

Definiując zmienną Z=Y-X , którą możemy interpretować jako poprawę spowodowaną zażyciem leku dostajemy próbę prostą (Z1,...,Zn) z rozkładu N(mz,2) , gdzie

mz = my - mx i

 

 



 

 

 1

1 1

2 1

y yx

xy x

V C

C

V

i problem sprowadza się do testowania hipotezy H0: mz=0 wobec alternatywy H1: mz0 (lub mz>0

(3)

Testowanie równości średnich w dwóch niezależnych populacjach o rozkładzie normalnym.

Niech X=(X1,...,Xn) i Y=(Y1,...,Ym) będą niezależnymi próbami prostymi z rozkładów N(mx,2) i N(my,2) odpowiednio. Nieznana wariancja 2 jest taka sama w obu rozkładach.

Testujemy hipotezę

H0: mx=my wobec jednej z alternatyw H1a: mx<my , H1b: mx>my,, H1c: mxmy Statystyką testową jest

 

m

j j

n

i i

m n

m n nm

Y Y X

X

Y Y X

X T

1

2 1

2 )

2 (

) ( )

( )

,

( ,

która przy prawdziwości H0 ma rozkład t-Studenta o n+m-2 stopniach swobody (czyli tn+m-2). Zbiór krytyczny (odrzucenia H0) C na poziomie  konstruujemy następująco:

1. C{X:T(X)u} dla alternatywy H1a: mx<my

2. C{X:T(X)u1} dla alternatywy H1b: mx>my

3. { : | ( )| }

12

X T X u

C dla alternatywy H1c: mxmy

gdzie u jest kwantylem rzędu  rozkładu tn+m-2 .

Uwaga. W przypadku 1 i 2 test jest jednostajnie najmocniejszy. W przypadku 3 test jest jednostajnie najmocniejszy w klasie testów nieobciążonych. Test jednostajnie najmocniejszy w tym przypadku nie istnieje. Dla n >30 rozkład t-Studenta aproksymujemy rozkładem normalnym N(0,1).

Nieparametryczne odpowiedniki powyższych modeli testowania hipotez -testy Wilcoxona i Manna-Whitneya.

Rozważmy jeszcze raz problem porównywania dwóch prób zależnych. Niech (X1,Y1), ..., (Xn,Yn) będzie próbą prostą z pewnego dwuwymiarowego rozkładu ciągłego. Sytuacja taka odpowiada np.

pomiarowi pewnej zmiennej dla tych samych jednostek eksperymentalnych przed i po zastosowaniu terapii. Definiując zmienną Z=Y-X , którą możemy interpretować jako poprawę spowodowaną terapią, dostajemy próbę prostą (Z1,...,Zn) z pewnego rozkładu ciągłego. Jeśli terapia jest nieskuteczna, czyli zmienne X i Y mają taki sam rozkład, to zmienna Z ma rozkład symetryczny wokół 0. Oznacza to że zmienne Z (poprawa) i –Z (pogorszenie) mają taki sam rozkład. Oznaczając przez FZ(t) dystrybuantę zmiennej Z widać, że F-Z(t)=P(-Zt)=1-P(-Z>t)=1-P(Z<-t)=1-FZ(-t). Warunek symetryczności (wokół 0) rozkładu zmiennej Z przybiera postać FZ(t)+FZ(-t)=1 dla każdego tR. Jeżeli skutkiem terapii jest przesunięcie rozkładu, to zmienna Z ma dystrybuantę F(t) gdzie F jest nieznaną dystrybuanta

(4)

Niech Z1, ...,Zn będzie próbą prostą z pewnego rozkładu F(t)gdzie F jest ciągłą dystrybuantą rozkładu symetrycznego. Jest o oczywiście nieparametryczna rodzina rozkładów. Parametrem jest para (F,) symR ( sym jest zbiorem symetrycznych absolutnie ciągłych dystrybuant na R.

Testujemy hipotezę

H0: =0 (terapia jest nieskuteczna) wobec jednej z alternatyw

H1a: <0 albo H1b: >0 albo H1c: 0.

Dystrybuanta F jest w tym przypadku parametrem zakłócającym. Problem testowania jest niezmienniczy względem grupy wszystkich transformacji z i' f(zi), i=1,...,n takich, że f jest ciągła, nieparzysta i ściśle rosnąca. Transformacje powyższe zachowują znaki obserwacji i porządek bezwzględnych wartości obserwacji.

Oznaczmy przez Ri=ranga | Zi| wśród |Z1|,...,|Zn|

Można pokazać (Lehmann), że maksymalnym niezmiennikiem jest zbiór rang R ,...,1 R . Redukcja n przez statystyki dostateczne zastosowana do maksymalnego niezmiennika prowadzi do rang

R1 ,...,Rk, odpowiadających dodatnim obserwacjom Z1, ...,Zn ( których jest k).

Statystyka oparta na tym niezmienniku ma rozkład niezależny od dystrybuanty F sym. Statystyką testową jest statystyka Wilcoxona

k i

Ri

W

1

. Oznaczmy przez



 

0 , 0

0 , 1

i i

i X

S X i=1,...,n ciąg zmiennych losowych. Przy prawdziwości H0

zmienne losowe S1,...,Sn są niezależne o rozkładzie Bernouliego B(1,21)więc E(Si) 12 V(Si) 41

Przy prawdziwości H0 (21)21 (41)

1 1

1

) ( )

( ) ( )

(

   

  

n nn nn

i

i i n

i i i k

i

i E RS RE S

R E W

E

24 ) 1 2 )(

1 ( 4 1 6

) 1 2 )(

1 ( 1

1 1

) ( )

( ) ( )

(

   

  

n nn n nn n

i

i i n

i i i k

i

i V RS RV S

R V W

V .

W zależności od hipotezy alternatywnej obszar krytyczny konstruujemy lewostronny prawostronny, obustronny. Rozkład statystyki W jest stablicowany (Zieliński R, Zieliński W., Tablice statystyczne) Dla n>16 stosujemy aproksymację gaussowską

Statystyka

24 ) 1 2 )(

1 (

4 ) 1 (

n n n

n

W n

ma dla n>16 w przybliżeniu rozkład N(0,1).

(5)

Problem dwóch prób

Niech ( ,..., )

1 Xn1

X

X oraz ( ,..., )

1 Yn2

Y

Y będą dwiema niezależnymi próbami prostymi z rozkładów o dystrybuantach odpowiednio FX i FY.

Testujemy hipotezę H0: FX = FY

wobec jednej z alternatyw

I (location) H1: FY(t)FX(t) 0, albo ,0, albo 0 II (scale) H1: FY(t)FX(t) ,  0

III (Lehmann alternative) H1: FY(t)1(1FX(t)1 , 1 0, IV (stochastic domination) H1: FY(t)FX(t) t i t: FY(t)FX(t) V (general alternative) H1:FY(t)FX(t)

Ad III. W przypadku alernatywy Lehmanna dla N, FY(t)1(1FX(t)1jest dystrybuantą minimum z 1zmiennych X(X1,...,X1)

Ad IV XY

st

t t F t

FY() X()  i t: FY(t)FX(t)

W każdym z powyższych przypadków mamy do czynienia z nieparametrycznym problemem testowania. Musimy skonstruować rozsądną statystykę testową, której rozkład (przynajmniej przy prawdziwości H0: FX= FY=F nie zależy od nieznanej dystrybuanty F. W przypadku testowania hipotezy H0: FX = FY=F wobec alternatywy (location) H1: FY(t)FX(t) lub alternatywy (stochastic domination) H1: FY(t)FX(t) t i t: FY(t)FX(t) problem testowania jest niezmienniczy względem grupy transformacji x i' f(xi), y 'j f(yj)(i 1,...,n1, j 1,...,n2, gdzie f jest ciągłą i ściśle rosnącą bijekcją zbioru R na siebie. Niech R1R2LRn1n2będą rangami (kolejnymi numerami) odpowiednio obserwacji

nn

n Y Y

X X1,..., , 1,...,

1 w połączonej próbie ( ,..., )

1 Xn1

X

X

i Y(Y1,...,Yn2). Maksymalnym niezmiennikiem jest zbiór rang R1,R2,L,Rn1n2.Oznaczmy przez }

,..., ,

{in1 1 in1 2 in1 n2

S zbiór indeksów odpowiadających obserwacjom ( ,..., )

1 Yn2

Y

Y . Statystyką

testową testu Manna-Whitneya-Wilcoxona (MWW) jest

S i

Ri

W (czyli suma rang Y-ków) Duże wartości statystyki

S i

Ri

W świadczą przeciwko H0 na rzecz H1: 0 a małe na rzecz H1:

(6)

Rozważmy schemat losowania bez zwracania n2elementowego podzbioru S ze zbioru nn1n2 elementowego i oznaczmy przez



 

S i

S S i

Ii

, 0

, ) 1

( , i1,...,n dychotomiczną zmienną losową

określoną na zbiorze indeksów {1,...,n}.

Oczywiście iP(iS) nn2,i1,...,n a dla ij

ijP(i,jS) nn2((nn21)1).

i i S I

E( ( ))

, 2

2 1 2

2(1 )

) 1 ( )) (

( n

n n n n n n i i i S I

V

   ,

. ))

( ) (

cov( 2( 1)

2 1

n n

n n j i ij j

i S I S

I j

i

  

Widać, że

) (

1

S I R R

W i

n

i i S

i

i

 .

Stąd

2 ) 1 ( 2

) 1 ( 1

1 1

2 1 2 2

2

)) 2

( ( )

(

  

n nn nn n n n

i n i n n n n

i i i

n

i

iE I S R R

R W

E

12 ) 1 ( 12

1 1

) 1 2 (

2 ) 1 ( 6

) 1 2 )(

1 ( ) 1 ( 2 1 1

2 )

1 (

, 1

2 )

1 1 (

2 )

1 1 (

1 1

2

) 1 ( 1

2 1

2

2 1 2 1 2

1 2

2 1 2

2 1

2 2 1 2

2 1 2

2 1

2 2 1 2

2 1

) ) ( (

) ) ( (

) (

) )

1 ((

) (

)) ( ), ( cov(

)) ( ( )

(

n n n n n n

n n n n

n n n n n n

n n n

i i n

i n i n

n n

j j i

i n

i n i n

n n j j i

i n

i n i

n n n j j i n i n

i n i

n n

j j i n i n

n n n

i n i

n n J

i j j i

i i

n

i i

n R

R n

R R R

n R

R R

n R

R R

R R R

S I S I R R S

I V R W

V

Znane są rozkłady statystyk testowych dla małych n1i n2 (które nie zależą od F).(zobacz ZielińskiR.

Siedem wykładów...)) i aproksymacja normalna dla dużych n1 i n2(twierdzenie Hoeffdinga).

Statystyka

12 ) 1 (

2 ) 1 (

2 1 2 1

2 1 2

n n n n

n n

W n

ma rozkład zbieżny do rozkładu N(0,1), gdy min(n1,n2).

Aproksymacja ta jest wystarczająco dokładna dla min(n1,n2)4 i n 1 n220 (Plucińska).

Uwaga: Powyższy rozkład graniczny nie wynika z CTG Lindeberga Levy’ego , gdyż zmienne losowe )

(S

Ii w sumie ( )

1

S I R R

W i

n

i i S

i

i

 są zależne.

Test zgodności Kołmogorowa

Niech X=(X1,...,Xn) będzie próbą prostą z rozkładu o ciągłej dystrybuancie FFc. Niech F0Fc będzie ustaloną ciągłą dystrybuantą. Testujemy hipotezę

H0: F=F0 (hipoteza prosta) wobec jednej z alternatyw

(7)

H1a: F<F0 albo H1b: F>F0 albo H1c: FF0 .

Oznaczmy przez ndystrybuantę empiryczną i rozważmy następujące statystyki Kołmogorowa:

)) ( ) ˆ ( (

sup F x F0 x

D n

x

n   ,

)) ˆ ( ) ( (

sup F0 x F x

D n

x

n   ,

| ) ( ) ˆ (

|

sup F x F0 x

D n

x

n   .

Niech (X(1),K,X(n)) będzie wektorem statystyk pozycyjnych (próbą uporządkowaną).

Dowodzi się, że max(ni 0( (i)))

n i F X

D   , max( 0( (i)) in1)

n i F X

D   , Dn max{Dn,Dn}. Przy prawdziwości H0 rozkłady statystyk Kołmogorowa nie zależą od F0 i są znane. Znane są również rozkłady graniczne wyżej wymienionych statystyk. Duże wartości statystyki Dn świadczą na korzyść H1a (przeciwko H0). Podobnie duże statystyki Dn świadczą na korzyść H1b (przeciwko H0) a duże statystyki D świadczą na korzyść Hn 1c (przeciwko H0) .

Jeżeli F0 jest dystrybuantą rozkładu N(m,2), którego parametry m i 2 nie są znane lub dystrybuantą rozkładu wykładniczego E() z nieznanym parametrem  , to dokładny rozkład statystyki D został n wyznaczony przez Lillieforsa. Test Kolmogorowa Lillieforsa może być więc użyty do testowania hipotezy o normalności rozkładu.

Test zgodności chi- kwadrat

Rozważmy eksperyment, który może się zakończyć jednym z k różnych wyników A1,...,Ak przy czym pj=P(Aj) ; 0<pj<1, j=1,...,k ; 1

1

k

j

pj . Powtarzając eksperyment w niezmiennych warunkach n razy rejestrujemy liczności poszczególnych zdarzeń. Niech Xj oznacza liczbę zaobserwowanych zdarzeń Aj. Oczywiście

nk

k n

k k

k p p

n n n n X n X

P ...

!

!...

) ! ,...,

( 11

1 1

1   ; 1

1

k

j

pj , n n

k

j j

1

. Powyższy rozkład wielomianowy jest uogólnieniem rozkładu dwumianowego.

Chcemy testować hipotezę

H0: (p1,...,pk)(p10,...,pk0) (hipoteza prosta) przeciwko

(8)

k

i i

i i

np np n

1 0

2 0)

( ma graniczny (n) rozkład k21

Ponieważ statystyka Pearsona jest pewną miarą odstępstw liczności obserwowanych od oczekiwanych przy prawdziwości H0 , "duże" wartości statystyki Pearsona świadczą przeciwko hipotezie H0 . Wobec tego H0 należy odrzucić na poziomie , jeżeli

 

k

i

k i

i i

np np n

1

2 0 1

2 0

) 1 ) (

(   , gdzie k21(1) oznacza

kwantyl rzędu 1- rozkładu k21.

Testowanie złożonej hipotezy zgodności

H0: (p1,...,pk)(p1(),...,pk()), gdzie Rs ; s<k-2 przeciwko H1: H0.

Niech ˆ będzie estymatorem największej wiarygodności parametru . Oznaczmy p ˆi pi(ˆ); i=1,...,k.

Wówczas statystyka

k

i i

i i

p n

p n n

1

2

ˆ ˆ )

( ma graniczny rozkład k21 s .

Dalsza procedura jest kopią powyższej z jedyną modyfikacją dotyczącą ilości stopni swobody granicznego rozkładu k21 s .

Test W Shapiro-Wilka

Jest to powszechnie uważany za "najlepszy" uniwersalny test normalności.

Niech X=(X1,...,Xn) będzie próbą prostą z rozkładu o ciągłej dystrybuancie FFc. Testujemy hipotezę

H0: F= F0 , gdzie F0 jest dystrybuantą rozkładu N(m,2), którego parametry m i 2 nie są znane, wobec alternatywy

H1: FF0

 Opis konstrukcji testu Domański C., Statystyczne testy nieparametryczne, PWE

n

i i i

i i n in

X X

X X

a W

n

1

2 ]

[

1

2 ) ( ) 1 (

) (

) (

2

Współczynniki ainsą tablicowane dla n50. Dla n50są dostępne programy komputerowe obliczające te współczynniki

Cytaty

Powiązane dokumenty

W pracy podajemy metodę wyznaczania próby prostej dla badania normalności błędów doświadczalnych małych i dużych poletek w układzie split-plot, którą

W tym artykule rozwiążemy problem rozkładu słowa na najmniejszą liczbę słów Lyndona (zwanych też słowami pierwszymi). Problem ten jest inspirowany zadaniem Jan z pierwszej

będzie ciągiem nie- zależnych zmiennych losowych o

Dwuwymiarowa zmienna losowa jest typu skokowego jeśli przyjmuje skończoną lub co najwyżej przeliczaną liczbę wartości (x 1 ,y j ), (i,j=1,2,…... Oznacza to, że

W sprawozdaniu proszę zamieścić histogram pokazujący wartości n i /n dla każdego z podprze- działów, na tym samym rysunku proszę także zamieścić przebieg funkcji

Z uwagi na fakt, iż w tej pracy zajmujemy się przypadkiem, w którym są analizowane ciągi niezależnych zmiennych losowych do budowy prognoz ostrzegawczych, wzięte zostały stany

Zontek (1996) za- proponowali pewną metodę odpornej estymacji efektów stałych i odchylenia standardowego efektów losowych bazującą na zgodnych w sensie Fishera i róż- niczkowalnych

wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnym. wartości cechy mniej skoncentrowane niż przy