• Nie Znaleziono Wyników

Statystyka Matematyczna

N/A
N/A
Protected

Academic year: 2021

Share "Statystyka Matematyczna"

Copied!
35
0
0

Pełen tekst

(1)

Statystyka Matematyczna

Anna Janicka

wykład XII, 23.05.2016

PORÓWNANIE WIĘCEJ NIŻ DWÓCH POPULACJI

TESTY NIEPARAMETRYCZNE

(2)

Plan na dzisiaj

1. Porównywanie więcej niż dwóch populacji

test jednoczynnikowej analizy wariancji (ANOVA)

2. Testy zgodności

test Kołmogorowa

test Kołmogorowa-Smirnowa (dla dwóch próbek)

test Kołmogorowa-Lillieforsa test zgodności chi-kwadrat różne wersje

3. Testy niezależności

test chi-kwadrat

(3)

Porównywanie dwóch i więcej populacji

Zastanawiamy się, czy populacje są pod pewnymi względami „takie same”:

testy parametryczne: badamy równość konkretnych parametrów rozkładów

testy nieparametryczne: sprawdzamy, czy rozkłady są takie same

(4)

Uwaga na notację:

xcoś zawsze oznacza kwantyl rzędu coś

(5)

Testy dla więcej niż dwóch populacji

Naiwne podejście:

testowanie „parami”

Uwaga:

w tym przypadku p-stwo popełnienia błędu I rodzaju jest większe, niż założony poziom istotności!

(6)

Przypadek wielu populacji

Przypuśćmy, że mamy k prób losowych

, oraz

wszystkie Xi,j są niezależne (i=1,...,k, j=1,.., ni) Xi,j ~N(mi, σ2)

nie znamy m1, m2, ..., mk, ani σ2 ozn. n=n1+n2+...+nk

nk

k k

k

n n

X X

X

X X

X

X X

X

, 2

, 1

,

, 2 2

, 2 1

, 2

, 1 2

, 1 1

, 1

,..., ,

...

, ,...,

,

, ,...,

,

2 1

(7)

Test analizy wariancji (ANOVA) na poziomie istotności α

H0: µ1 = µ2 =... = µk

H1: ¬ H0 (tzn. nie wszystkie µi są równe) Test ilorazu wiarogodności ze statystyką:

ma obszar krytyczny

dla k=2 test ANOVA jest równoważny testowi t dla dwóch populacji

) ,

1 (

~ ) /(

) (

) 1 /(

) (

1 1

2 ,

1

2

k n

k F k

n X

X

k X

X F k n

i

n

j i j i

k

i i i

i

=

∑ ∑

= =

=

∑ ∑

= = = = = =

= k

i i i

k i

n

j i j

n

j i j

i

i n X

X n X n

n X

X i i

1

1 1 ,

1 ,

1 , 1

1

)}

, 1 (

) ( :

{

* x F x F1 k n k

K = > α − −

(8)

Test analizy wariancji – interpretacja

mamy

– estymator wariancji międzygrupowej – estymator wariancji wewnątrz grup

∑ ∑

= =

k i

n

j i j i

i X X

k

n 1 1

2

, )

1 (

Sum of Squares (SS)

Sum of Squares Between (SSB)

Sum of Squares Within (SSW)

=

k

i ni Xi X

k 1

)2

1 ( 1

∑ ∑ ∑

∑ ∑

= = = k= + = =

i

k i

n

j i j i

i i

k i

n

j i j

i

i X X n X X X X

1 1 1

2 ,

2

1 1

2

, ) ( ) ( )

(

(9)

Test analizy wariancji – tabela

źródło zmienności

sumy kwadratów

liczba stopni swobody

wartość statystyki F między

grupami SSB k-1

wewnątrz

grup SSW n-k

w sumie SS n-1 F

(10)

Test analizy wariancji – przykład

Roczne spożycie czekolady w trzech miastach: A, B, C na podstawie losowych prób nA = 8, nB = 10, nC = 9 konsumentów. Czy średnie spożycie zależy od

miasta?

→ odrzucamy H0 o równości średnich

A B C

średnia z próby 11 10 7

wariancja z próby 3,5 2,8 3

61 , 5 )

24 , 2 (

a 31 , 24 12

/ 7 , 73

2 / 63 , 75

7 , 73 8

3 9 8 , 2 7 5 , 3

63 , 75 9

) 3 , 9 7 ( 10 )

3 , 9 10 ( 8 ) 3 , 9 11 (

3 , 9 )

9 7 10 10

8 11 (

99 , 0

2 2

2 27

1

=

=

+

+

=

=

+

+

=

=

+

+

=

F F

SSW SSB

X

(11)

Test analizy wariancji – tabela – przykład

źródło zmienności

sumy kwadratów

liczba stopni swobody

wartość statystyki F między

grupami 75,63 2

wewnątrz

grup 73,7 24

w sumie 149,33 26 12,31

(12)

Testy nieparametryczne

Badamy, czy zmienna pochodzi z

konkretnego rozkładu (testy zgodności).

Badamy, czy rozkłady zmiennych są takie same

Badamy, czy zmienne/cechy są niezależne (test niezależności)

(13)

Test zgodności Kołmogorowa

Model: X1, X2, ..., Xn są próbą IID z rozkładu o dystrybuancie F.

H0: F = F0 (F0 ustalona)

H1: ¬ H0 (tzn. dystrybuanta jest jakaś inna)

Jeśli F0 jest ciągła, to testujemy statystyką

gdzie

zaś Fn(t) – n-ta dystrybuanta empiryczna }

, max{

| ) ( )

(

|

sup 0 = +

= t R n n n

n F t F t D D

D

n x i

F D

x n F

Dn i n i i n n i n i n 1

) (

max

, ) (

max 1,..., 0 : 1,..., 0 :

=

= = =

+

(14)

Test zgodności Kołmogorowa – cd.

Postać testu: odrzucamy H0 gdy:

Dn > c(α, n)

dla pewnej wartości krytycznej c(α, n).

Tw. Przy prawdziwej H0 rozkład statystyki Dn nie zależy od rozkładu F0.

Problem: Ten rozkład wymaga tablicowania, w zasadzie dla każdego n z osobna

Tw. W granicy

można stosować przybliżenie dla n ≥ 100

+∞=−∞

=

 →

k

d k k

n d n K d e

D n

P( ) ( ) ( 1) 2 2 2

(15)

Test zgodności Kołmogorowa – cd. 2

Tablica rozkładu asymptotycznego K(d)

1-α 0,8 0,9 0,95 0,99

kwantyl

K(d) 1,07 1,22 1,36 1,63

c(n, α)

dla n≥100 1,07/ n 1,22/ n 1,36/ n 1,63 / n

(16)

Test zgodności Kołmogorowa – przykład

Czy próba

0,4085 0,5267 0,3751 0,8329 0,0846 0,8306 0,6264 0,3086 0,3662 0,7952 pochodzi z rozkładu jednostajnego U(0,1)?

Źródło: W. Niemiro

(17)

Test zgodności Kołmogorowa – przykład cd.

Dn = 0,2086 c(10; 0,9) = 0,369

→ nie ma podstaw do odrzucenia hipotezy o jednostajności rozkładu

Xi:10 (i-1)/10 i/10 i/10 - F(Xi:10) F(Xi:10-i/10)

0,0846 0 0,1 0,0154 0,0846

0,3086 0,1 0,2 -0,1086 0,2086

0,3662 0,2 0,3 -0,0662 0,1662

0,3751 0,3 0,4 0,0249 0,0751

0,4085 0,4 0,5 0,0915 0,0085

0,5267 0,5 0,6 0,0733 0,0267

0,6264 0,6 0,7 0,0736 0,0264

0,7952 0,7 0,8 0,0048 0,0952

0,8306 0,8 0,9 0,0694 0,0306

0,8329 0,9 1 0,1671 -0,0671

(18)

Test zgodności Kołmogorowa – Smirnowa

Model: X1, X2, ..., Xn są próbą IID z rozkładu o dystrybuancie F, Y1, Y2, ..., Ym są próbą IID z rozkładu o dystrybuancie G.

H0: F = G

H1: ¬ H0 (tzn. dystrybuanty są różne)

Jeśli F (i G) jest ciągła, to testujemy statystyką

gdzie Fn(t) – n-ta dystrybuanta empiryczna

pierwszej próbki, a Gm(t) – m-ta dystrybuanta empiryczna drugiej próbki

| ) ( )

(

|

, sup F t G t

Dn m = tR n m

(19)

Test zgodności Kołmogorowa – Smirnowa – cd.

Postać testu: odrzucamy H0 gdy:

Dn,m > c(α, n, m)

dla pewnej wartości krytycznej c(α, n, m).

Tw. Przy prawdziwej H0 rozkład statystyki Dn,m nie zależy od rozkładu F (ani G).

Tw. W granicy

przybliżenie OK dla n,m ≥ 100

+∞=−∞

+ =

k

d k k

m m n

m n n

nm D d K d e

P( , ) , ( ) ( 1) 2 2 2

(20)

Test zgodności Kołmogorowa – Lillieforsa

Model: X1, X2, ..., Xn są próbą IID z rozkładu o dystrybuancie F.

H0: F jest dystrybuantą rozkładu normalnego

(o nieznanych parametrach)

H1: ¬ H0 (tzn. dystrybuanta jest jakaś inna)

Testujemy statystyką

gdzie a

} ,

max{ +

= n n

n D D

D

n z i

D n z

Dn i n i i n i n i 1

max

,

max 1,..., 1,...,

=

= = =

+





Φ

= S

X zi Xi:n

2 1 1

2 1 1

1 = , = = ( )

= n ni Xi S n ni Xi X X

(21)

Test zgodności Kołmogorowa – Lillieforsa – cd.

Postać testu: odrzucamy H0 gdy:

Dn > Dn(α)

dla pewnej wartości krytycznej Dn(α).

Tw. Przy prawdziwej H0 rozkład statystyki Dn nie zależy od konkretnego rozkładu norm.

Problem: Ten rozkład wymaga tablicowania i nie jest znana postać analityczna...

Stosowany zwł. dla próbek o liczebności do 30, kiedy jest lepszy niż test zgodności chi- kwadrat

(22)

Test zgodności Kołmogorowa – Lillieforsa wartości krytyczne

Źródło: H. Lilliefors

(23)

Test zgodności chi-kwadrat

Model: X1, X2, ..., Xn są próbą IID z rozkładu dyskretnego o k wartościach (ozn. 1, ..., k).

H0: prawdopodobieństwa w rozkładzie X to

H1: ¬ H0 (tzn. rozkład jest jakiś inny)

Oznaczmy rezultat doświadczenia jako

gdzie Ni oznacza liczbę uzyskanych wyników wartości i.

i 1 2 3 ... k

P(X=i) p1 p2 p3 ... pk

i 1 2 3 ... k

Ni N1 N2 N3 ... Nk

= =

= n

j X i

i j

N 11

etykiety

(24)

Test zgodności chi-kwadrat – postać testu

Ogólna postać testu:

u nas:

Tw. Przy prawdziwości H0 rozkład w/w

statystyki χ2 zmierza do rozkładu χ2 o k-1 stopniach swobody χ2(k-1) przy n→∞

Procedura: odrzucamy H0 gdy χ2 > c, gdzie c= χ21-α(k-1) jest kwantylem rzędu 1- α rozkładu χ2 o k-1 stopniach swobody

= wartosc oczekiwana

) oczekiwana wartosc

- a obserwowan

wartosc 2

2 ( χ

=

=

i i k i

i np

np

N 2

1

2 ( - )

χ

(25)

Test zgodności chi-kwadrat – przykład

Czy kość jest rzetelna? Na poziomie α=0,05 n=150 rzutów. Wyniki:

H0: (N1, N2, N3, N4, N5, N6)

~Mult(150, 1/6, 1/6, 1/6, 1/6, 1/6, 1/6) H1: ¬ H0

i 1 2 3 4 5 6

Ni 15 27 36 17 26 29

24 , 25 12

) 25 29

( 25

) 25 26

( 25

) 25 17

( 25

) 25 36

( 25

) 25 27

( 25

) 25 15

( 2 2 2 2 2 2

2 =

+

+

+

+

+ χ =

7 , 11 )

5

2 (

05 , 0

1

χ → odrzucamy H0.

Źródło: W. Niemiro

(26)

Test zgodności chi-kwadrat z nieznanym parametrem

Model: X1, X2, ..., Xn są próbą IID z rozkładu dyskretnego o k wartościach (ozn. 1, ..., k).

H0: prawdopodobieństwa w rozkładzie X to

przy czym θ jest nieznanym parametrem wymiaru d.

H1: ¬ H0 (tzn. rozkład jest jakiś inny)

i 1 2 3 ... k

P(X=i) p1(θ) p2(θ) p3(θ) ... pk(θ)

(27)

Test zgodności chi-kwadrat z nieznanym parametrem – postać testu

Statystyki testowe konstruujemy analogicznie jak poprzednio, przy czym wartości

oczekiwane wyliczamy w oparciu o

estymatory NW parametrów θ. Zmienia się tylko liczba stopni swobody w rozkładzie:

Tw. Przy prawdziwej H0 rozkład statystyki χ2 zmierza do rozkładu χ2 o k-d-1 stopniach swobody χ2(k-d-1) przy n→∞

(28)

Test zgodności chi-kwadrat – uciąglenie

Lepsze są testy Kołmogorowa, ale można również stosować test chi-kwadrat

Model: X1, X2, ..., Xn są próbą IID z rozkładu ciągłego.

H0: Rozkład zadany jest dystrybuantą F H1: ¬ H0 (tzn. rozkład jest jakiś inny)

Wystarczy rozbić zbiór wartości zmiennej na rozłączne przedziały i zliczać obserwacje,

które wpadły do poszczególnych przedziałów.

P-stwa oczekiwane są znane (wynikają z F).

Dalej: test chi-kwadrat

(29)

Test zgodności chi-kwadrat – uwagi praktyczne

Test powinien być stosowany dla dużych prób

Liczebności klas (oczekiwane) nie mogą być za małe (<5). Jeśli za małe, należy pogrupować obserwacje

Przedziały klas w wersji „ciągłej” ustalane dowolnie, ale warto zadbać o równomierne rozłożenie p-stw teoretycznych.

(30)

Test niezależności chi-kwadrat

Model: (X1,Y1), ..., (Xn,Yn) są próbą IID z rozkładu dwuwymiarowego o r*s wartościach (ozn.

zbiorem {1, ..., r} × {1, ..., s}).

Niech rozkład teoretyczny zadany będzie przez

Oznaczmy

Interesuje nas hipoteza o niezależności X i Y:

H0:

H1: ¬ H0

s j

r i

j Y

i X

P

p

ij

= ( = , = ) = 1 ,..., = 1 ,...,

= =

= = r

i ij

j s

j ij

i p p p

p 1 , 1

r j

s i

p p

pij = ij = 1,..., , = 1,...,

(31)

Test niezależności chi-kwadrat – cd.

Rozkład empiryczny opisany jest

dwuwymiarową tabelką (tzw. tablica kontyngencji)

i \ j 1 2 ... s Ni•

1 N11 N12 N1s N1•

2 N21 N22 N2s N2•

...

r Nr1 Nr2 Nrs Nr•

N•j N•1 N•2 N•s n

(32)

Test niezależności chi-kwadrat – postępowanie

Szczególny przypadek testu zgodności z

(r-1) + (s-1) parametrami do wyestymowania:

Statystyka testowa:

ma rozkład chi-kwadrat z (r-1)(s-1) stopniami swobody (przy prawdziwej H0)

∑ ∑

= =

= r

i

s j

j i

j i

ij

n N

N

n N

N N

1 1

2 2

/

) / χ (

(33)

Test niezależności chi-kwadrat – przykład

Badamy zależność gustów muzycznych i

poglądów politycznych, na poziomie α =0,05

Źródło: W. Niemiro

Popieram X Nie popieram X Razem

Słucham disco-polo 25 10 35

Słucham rocka 20 20 40

Słucham muzyki

klasycznej 15 10 25

Razem 60 40 100

57 , 100 3

/ 25

* 40

) 100 / 25

* 40 10

( 100

/ 40

* 40

) 100 / 40

* 40 20

( 100

/ 35

* 40

) 100 / 35

* 40 10

(

100 / 25

* 60

) 100 / 25

* 60 15

( 100

/ 40

* 60

) 100 / 40

* 60 20

( 100

/ 35

* 60

) 100 / 35

* 60 25

(

2 2

2

2 2

2 2

+

+ +

+ +

= χ

99 , 5 )

2 ( ))

1 3

)(

1 2

(( 02,95

2

05 , 0

1 = χ

χ

→ odrzucamy H0.

(34)

Randomizacja testu

Czasem może nie być testu o poziomie istotności równym dokładnie α (np. dla zmiennych o rozkładach dyskretnych).

Wówczas rozwiązaniem jest randomizacja.

(TJNM, o ile jest, musi być zrandomizowany).

np. liczba orłów w 8 rzutach, H0 : p = ½, H1 : p <½, α=0,05:

X≤1 odrzucamy, X>2 OK, X=2: p=1/11 odrzucamy

xi 0 1 2 3 4 5 6 7 8

pi 0,004 0,03 0,11 0,22 0,27 0,22 0,11 0,03 0,004 suma pi 0,004 0,04 0,15 0,36 0,64 0,86 0,97 0,996 1,000

(35)

Cytaty

Powiązane dokumenty

Przyjmując poziom istotności 0,05 zweryfikować hipotezę, że prawdopodobieństwo wystą- pienia na tym terenie wypadku spowodowanego przez kierowcę w stanie nietrzeźwym jest

Test Chi-kwadrat – zadania do samodzielnego

16.5 Z populacji pobrano 1000

One hundred people were interviewed outside a chocolate shop to nd out which avor of chocolate cream they preferred... Therefore, we reject the null

One hundred people were interviewed outside a chocolate shop to nd out which avor of chocolate cream they preferred... Therefore, we reject the null

Za pomoc¸ a testu chi-kwadrat zgodności na poziomie istotności 0,01 zweryfikować hipo- tezę, ze rozkład liczby zgłoszeń jest rozkładem Poissona..

[r]

Materiały dydaktyczne na zajęcia wyrównawcze z matematyki dla studentów pierwszego roku kierunku zamawianego..