• Nie Znaleziono Wyników

Nieparametryczna ANOVA

N/A
N/A
Protected

Academic year: 2021

Share "Nieparametryczna ANOVA"

Copied!
5
0
0

Pełen tekst

(1)

Nieparametryczna ANOVA

Jeżeli z pewnych względów założenie normalności błędów w modelu ANOVA efektów stałych jest nie do przyjęcia, to można zbudować ogólniejszy model nie korzystający z tych krępujących założeń.

Rozważmy pewien nieparametryczny odpowiednik jednoczynnikowej ANOVA.

Oznaczmy przez Fac nieparametryczną rodzinę absolutnie ciągłych dystrybuant na prostej R Mamy więc model

11

11,...,X n

X próba prosta z rozkładu z nieznaną absolutnie ciągłą dystrybuantą F1

knk

k X

X ,...,1 próba prosta z rozkładu z nieznaną absolutnie ciągłą dystrybuantą Fk . Chcemy testować hipotezę

H0 : F1=...= Fk przeciwko alternatywie H1 :  i,j : FiFj .

Szczególnym przypadkiem powyższego modelu jest następujący model nieparametryczny

ij i

ij m

X   i=1,...,k; j=1,...,ni

ij iid F(x)Fac (E(ij)0 , V(ij)2 Oczywiście

ini

i X

X ,...,1 jest próbą prostą z rozkładu o dystrybuancie F(x-mi) W tym modelu testujemy hipotezę

H0 : m1=...= mk przeciwko alternatywie H1 :  i,j : mimj .

Powyższy problem przypomina problem rozważany wcześniej w 1 czynnikowej ANOVA efektów stałych. Inna jest jednak rodzina rozkładów na stosownej przestrzeni prób. W tym przypadku mamy do czynienia z nieparametryczną rodziną rozkładów parametryzowaną parametrem (m1,...,mk,F)Rk Fac .

Jak testować H

0

?

Pomysł: Zmodyfikować rozwiązanie uzyskane w odpowiednim modelu parametrycznym tak, aby przynajmniej przy prawdziwości H0 rozkład zmodyfikowanej statystyki testowej nie zależał od nieznanej dystrybuanty F(x)Fac .

Fakty

 Jeżeli X=(X1,...,Xn) jest próbą prostą z rozkładu o absolutnie ciągłej dystrybuancie FFac , to wektor statystyk pozycyjnych X=(X(1),...,X(n) ) jest statystyką dostateczną zupełną (więc także minimalną dostateczną).

Przejście od próby X do X redukuje próbę bez straty informacji lecz rozkład X w dalszym ciągu zależy od nieznanej dystrybuanty F.

(2)

 Za pomocą ściśle rosnącej transformacji można dowolny rozkład ciągły na prostej przekształcić na dowolny inny ciągły rozkład na prostej. Jeżeli zmienna losowa X ma pewien rozkład FFac , to zmienna F(X) ma rozkład jednostajny U[0,1]. Jeżeli GFac jest zadaną dystrybuantą na prostej , to G-1(F(X)) ma rozkład o dystrybuancie G a funkcja złożona G-1F jest ściśle monotoniczna

 Aby procedura testowa nie zależała do nieznanej dystrybuanty FFac "powinna" być ona niezmiennicza względem grupy rosnących bijekcji f : RR

 Maksymalnym niezmiennikiem względem grupy rosnących bijekcji jest wektor rang (R1,...,Rn) gdzie Ri=miejsce (ranga) obserwacji Xi w uporządkowanym rosnąco wektorze X=(X(1),...,X(n) )

Wniosek

. Test H0 należy oprzeć nie na surowych obserwacjach lecz na ich rangach

Test ANOVA Kruskala Wallisa (1952)

Uwaga . Dla rozkładów ciągłych z prawdopodobieństwem 1 wszystkie obserwacje są różne więc i rangi są różne.

Niech Rij będzie rangą obserwacji Xij w połączonej próbie

11

11,...,X n

X ,...,

knk

k X

X ,...,1 . Oznaczenia:

k

I ni

n

1

ni

j ij

i R

R

1

- suma rang w i-tej grupie

i

i

i R

R n1

- średnia ranga w i-tej grupie

2 ) 1 ... (

1

1

 

n n n R

R k

i i - suma wszystkich rang

2 1

1 

R n

R n średnia ranga w próbie n elementowej Statystyka

2 1

) ) (

1 (

12

n n

n R R

K k

i i i =

k

i i

i i

n R n R n

n 1

)2

( ) 1 (

12 =

k

i i

i i

R n

R n R n 1

)2

6 (

jest miarą typu 2 zróżnicowania średnich rang w grupach . Duże wartości statystyki K świadczą przeciwko hipotezie H0.

(3)

Przy prawdziwości hipotezy H0 każdy układ rang ma takie samo prawdopodobieństwo

! 1

n . Każdy z

!

!...

!

1 nk

n

n układów tych rang prowadzi do tego samego układu sum rang R1+,...,Rk+. Metodami

kombinatorycznymi można więc wyznaczyć kkryt ,aby (  )

0 kryt

H K k

P (patrz Zieliński -Tablice...) Dla ni5 rozkład statystyki K można przybliżać rozkładem k21.

Uwaga. Jeżeli powodu np. małej precyzji pomiaru otrzymujemy obserwacje o tych samych

wartościach, to przypisujemy im średnią rangę- mówimy wówczas o rangach związanych. W takiej sytuacji statystyka K zostaje zastąpiona statystyką KT z poprawką na rangi związane

n n

S S

K r K

i i i

T

3 1

3 )

( 1

, gdzie Si - ilość obserwacji z i-tą rangą związaną (i-te miejsce ex aequo)

Można pokazać, ze statystyka K jest związana ze statystyką



k

i n

j ij i

k n

k

i i i

k

i R R

R R n A

1 1

1 2 1

2 1

1

) (

) (

(ANOVA wykonana na rangach) wzorami

K n

A nn k K

) 1

1 ( ;

A k k n

A k K n

) 1 ( ) (

) 1 )(

1 (

  .

Test Kruskala-Wallisa jest równoważny testowi ANOVA wykonanemu na rangach

Uwaga. O.J. Dunn zaproponowała asymptotyczną procedurę porównań jednoczesnych typu Bonferoniego, która kontroluje błąd dla wszystkich porównań parami i procedurę porównań jednoczesnych z wyróżnioną grupą kontrolną (szczegóły np., Rohatgi i Woolson )

Dla porównań parami k grup ( czyli jednocześnie

 

k2 porównań ) proponowany przez O.J. Dunn test każe uznać grupy i-tą oraz j-tą za istotnie rożne, gdy

) (

|

|

1 (121) 1 1

) 1

(k i j

k n n

n n j

i

R z

R

; 1i<jk , gdzie

) 1

1k(k

z jest kwantylem rzędu

1 

k(k1) rozkładu N(0,1).

Przy prawdziwości H0 prawdopodobieństwo zaobserwowania fałszywie istotnej różnicy jest równe .

Przy porównaniach k-1 grup z wyróżnioną grupą kontrolną (o numerze k) mamy regułę Grupa i-ta istotnie różni się od grupy kontrolnej gdy

) (

|

|

1 (121) 1 1

) 1 (

2k ni nk

n n k

i

R z

R

; 1i<k-1 ,

Przy prawdziwości H prawdopodobieństwo zaobserwowania fałszywie istotnej różnicy jest równe .

(4)

Nieparametryczna 2 czynnikowa ANOVA Friedmana.

Model

 Xij mi j ij, i=1,...,r, j=1,...,c

 0

1

r

ii , 0

1

c

jj

 ij iid o pewnej ciągłej dystrybuancie FFac i E(ij)0 , V(ij)2

Jest to oczywiście model nieparametryczny, gdyż rodzina rozkładów na przestrzeni prób jest rodziną nieparametryczną. Jest to nieparametryczny odpowiednik 2 czynnikowej ANOVA efektów głównych (bez interakcji- model addytywny) z 1 obserwacją w każdej klatce (pomijamy więc indeks numeru obserwacji w klatce). Do takiego modelu prowadzi plan zrandomizowany w układzie blokowym lub jednoczynnikowa ANOVA w układzie z powtarzalnymi pomiarami. Zestawiając obserwacje Xij w macierz, wiersze traktujemy jako jednorodne bloki a kolumny jako zabiegi

Testujemy hipotezę

H0: 1=...=c (zabiegi nie różnią się między sobą) przeciwko alternatywie H1: H0

Procedura testowania powinna być niezmiennicza ze względu na transformacje zachowujące porządek ( w jednorodnych blokach) Jednorodność bloku zapewniamy poprzez zastosowanie dla każdego bloku porządkowej skali o c kategoriach.

Rangujemy więc obserwacje w każdym z bloków (wierszy) z osobna i oznaczamy Rij =R(Xij) - ranga j -tej obserwacji w i-tym bloku ( stąd 1  Rij  c )

Oznaczmy (dla j=1,...,c)

r

i ij

j R

R

1

-suma rang dla j (j-tego zabiegu, j-tej kolumny)

Oczywiście

cc(c21)

j Rij . Jeżeli prawdziwa jest hipoteza H0 , to E(Rj)c1rc(2c1)r(c21)

Statystyka

 

c

j R j E R j

S

1

) 2

( mierzy różnicę pomiędzy kolumnami (zabiegami)

Statystyka F Friedmana oparta na S ma postać ) 1 ( ) 3

1 (

12 )

1 ( 12

1

2  

 

 

R r c

c rc c

rc

F S c

j j

i jej rozkład przy prawdziwości H0 nie zależy od nieznanej dystrybuanty FFac jest wyznaczony metodami kombinatorycznymi. Punktem wyjścia jest fakt, że przy prawdziwości H0 każdy z (c!)r układów rang w blokach jest jednakowo prawdopodobny. Ponadto znany jest rozkład

asymptotyczny: dla r F ma rozkład c21. Dla c<6 są tablice rozkładu F dla małych r . Zobacz (

(5)

Zieliński R., Zieliński W. Tablice statystyczne str. 406 -Uwaga u Zielińskich obserwacje są rangowane w kolumnach -macierz obserwacji jest wiec transpozycją macierzy tu rozważanej)) Jeżeli zabiegi istotnie różnią się między sobą , to dlatego że rangowanie w poszczególnych blokach było podobne. Miarą tego podobieństwa jest Kendalla współczynnik zgodności.

) 1 ( 

r c

W F ,

który przyjmuje wartości z przedziału [0, 1] ( sprawdzić ). Jeżeli rangowanie w każdym bloku było identyczne (pełna zgodność), to sumy rang R+1,..., R+c są permutacjami liczb r,2r,...,cr i W=1.

Podobnie jeżeli rangowania w blokach są niezależne to sumy rang R+1,..., R+c są sobie bliskie i mogą być nawet identyczne. Wówczas współczynnik zgodności W=0.

Podobnie jak w przypadku ANOVA Kruskala-Wallisa znane są testy porównań wielokrotnych (zobacz Woolson R.F. Statistical methods for the analysis of biomedical data , Wiley, str. 378 i 379).

Grupy i-tą i j-tą (i-ty i j-ty zabieg) uznajemy za istotnie rożne jeżeli

r c c j

i

R q c

R |

1

( )

(121)

|

; 1i<jc ,

gdzie

q

1

( c )

jest kwantylem odpowiedniego rozkładu (zobacz Woolson - tablica 15).

Prawdopodobieństwo przy H0 zaobserwowania fałszywie istotnej różnicy łącznie w

 

c2 porównaniach jest równe .

Dla porównań z wyróżnioną grupą kontrolną (o numerze c) reguła jest podobna

r c c c

i

R q c

R |

1

( )

(6 1)

|

; 1ic-1 ,

przy czym

q

1

( c )

jest kwantylem stosownego (innego niż poprzednio) tablicowanego rozkładu (zobacz Woolson - tablica 16).

Uwaga. Test Friedmana może być także użyty do testowania jednorodności rozkładów w próbach zależnych pochodzących z c>2 wymiarowego rozkładu ciągłego. Mianowicie niech X=(X1,...,Xc) będzie wektorem (wierszowym)z c-wymiarowego rozkładu ciągłego , przy czym składowe X1,...,Xc mają odpowiednio rozkłady brzegowe o dystrybuantach F1,...,Fc .

Na podstawie r elementowej próby prostej X1 = (X11,...,X1c) ...

Xr = (Xr1,...,Xrc)

z rozpatrywanego rozkładu zweryfikować hipotezę

H0: F1=...=Fc wobec alternatywy H1:  i,j Xi st Xj (tzn. Fi Fj ).

Cytaty

Powiązane dokumenty

Used for small samples (n ≤30), when it performs better than the chi-squared test.. Chi-squared goodness-of-fit test – cont. General form of the

Pow ołując się n a wagę owych wydarzeń, stwierdza: „(...) kryzysy te oraz sposoby ich rozwiązywania stanow ią zasadnicze m om enty zwrotne w historii

Jak wiadomo ANOVA jest techniką, umożliwiającą przy pewnych założeniach (kluczowe jest założenie jednorodności wariancji w grupach), porównywanie wartości

W zakładce Opcje klikamy przycisk Czynniki losowe i wskazujemy Drzewo jako czynnik losowy Wyjaśnić dekompozycję wariancji (komponenty wariancyjne przedstawić na wykresie

[r]

im wyższa wartość elevation tym wyższa wartość adjacent a więc współczynniki są

1 Maksymalna liczba uderzeń serca na minutę w stanie stresu.. 3 Tabela obserwacji mniejszych/większych od mediany gdy nie ma różnicy

Chcemy zbadać czy na te średnie ma wpływ zmienna towarzysząca Y, która w grupie i-tej ma średnią  i.. Jak wiadomo, miarą zależności między dwiema zmiennymi losowymi