testy
Neparametrick ´e testy – pokraˇcov ´an´ı
2021
Neparametrick´e testy Outline
Outline
Neparametrick´e testy 2021 2 / 1
Neparametrick´e testy
Poˇradov ´e testy – pokra ˇcov ´an´ı
Necht’X1, . . . , Xnjsou nez ´avisl ´e n ´ahodn ´e veliˇciny se spojitou distribuˇcn´ı funkc´ı F , Ri– poˇrad´ı Xi mezi X1, . . . , Xn, i = 1, . . . , n
Plat´ı P(Xi = Xj) = 0, i 6= j Pˇr´ıklad
Xi 53 48 45 55 63 51 66 56 50 58
Ri 05 02 01 06 09 04 10 07 03 08
Poˇradov ´e testy jsou zaloˇzeny na R1, . . . , Rn, jednoduch ´e, maj´ı ˇradu v´yhod, ale ztr ´ac´ıme ˇc ´ast informace
V ˇeta 1 Necht’ X1, . . . , Xnjsou nez ´avisl ´e n ´ahodn ´e veliˇciny se spojitou distribuˇcn´ı funkc´ı F . Pak plat´ı
P(R1= r1, . . . , Rn= rn) = 1
n!, (r1, . . . , rn) permutace 1, . . . , n, P(Ri= j ) = 1
n, i , j = 1, . . . , n P(R1= r1, R2= r2) = 1
n(n − 1), i 6= j 1 ≤ ri, rj≤ n ri 6= rj E Ri= (n + 1)/2, i = 1, . . . , n
var Ri= 1 n − 1
n
X
j =1
j2− 1 n − 1
n + 1 2
2
Neparametrick´e testy Outline
Rozd ˇelen´ı R1, . . . , Rnnez ´avis´ı na F , pokud je distribu ˇcn´ı funkce spojit ´a!!!
N ˇekter ´e statistiky zaloˇzen ´e na poˇrad´ıch a jejich vlastnosti Definujemeline ´arn´ı poˇradovou statistikupˇredpisem
S =
n
X
i =1
cia(Ri),
kde c1, . . . , cna a(1), . . . , a(n) jsou dan ´a ˇc´ısla, napˇr. a(i ) = i , i2, . . ..
Za pˇredpokladu pˇredchoz´ı v ˇety plat´ı
E S =1 n
n
X
i =1
ci n
X
j =1
a(j )
var {S} = 1 n − 1
n
X
i =1
(ci− cn)2
n
X
j =1
(a(j ) − an)2
cn=1 n
n
X
i =1
ci, an=1 n
n
X
j =1
a(j ).
Neparametrick´e testy 2021 4 / 1
Neparametrick´e testy
Jin ´a poˇradov ´a statistika -poˇradov ´a statistika pro hypot ´ezu symetrie:
S+=
n
X
i =1
a(Ri+)sign Xi
kde Ri+je poˇrad´ı |Xi| mezi |X1|, . . . , |Xn| a sign x = 1, x > 0; = −1, x < 0; = 0 x = 0.
V ˇeta 2 Necht’ jsou spln ˇeny pˇredpoklady v ˇety 1 a necht’ F (x) + F (−x) = 1, x ∈ R1. Pak jsou |Xi| a sign Xinez ´avisl ´e n ´ahodn ´e veliˇciny.nez ´avisl ´e Nav´ıc, n ´ahodn ´e vektory (R1+, . . . , Rn+)a (sign X1, . . . , sign Xn)jsou nez ´avisl ´e.
D ˚ukaz Plat´ı pro x > 0:
P(|X1| < x, sign X1= 1) = P(0 < X1< x ) = F (x ) − F (0),
P(|X1| < x) = P(−x < X1< x ) = F (x ) − F (−x ) = 2F (x ) − 1, P(sign X1= 1) = P(X1> 0) = 1/2, F (0) = 1/2
Tedy
P(|X1| < x, sign X1= 1) = P(|X1| < x)P(sign X1= 1) Podobn ˇe pro P(|X1| < x, sign X1= −1).
Neparametrick´e testy Outline
V ˇeta 3 Necht’ jsou spln ˇeny pˇredpoklady v ˇety 2. Pak
E S+= 0, var S+=1 n
n
X
j =1
a2(j )
D ˚ukaz Plat´ı E S+=Pn i =1
E signXi
e a(Ri+) E sign Xi = 0
var S+=
n
X
i =1
E signXi
2
e a(Ri+)2
Poˇradov ´e statistiky pro test hypot ´ezy symetrie
X1, . . . , Xnnez ´avisl ´e stejn ˇe rozd ˇel ´en ´e n ´ah. veliˇciny s spojitou distr. fc´ı F Hypot ´eza symetrie: formulace
H0+: F (x ) + F (−x ) = 1, x ∈ R1 ex.-li hustota f pak
H0: f (x ) = f (−x ), x ∈ R1 (az na Leb. miru 0) v tomto pˇr´ıpad ˇe je medi ´an roven 0
Neparametrick´e testy 2021 6 / 1
Neparametrick´e testy
zobecn ˇen´ı: ex. a re ´aln ´e, ˇze f (x + a) = f (a − x) pro vˇs. x alternativn´ı hypot ´eza: H0neplat´ı
pouˇz´ıvaj´ı se mimo jin ´e testy zaloˇzen ´e na S+
Motivace pro H0+a klasick´y p ´arov´y t-test
dvojice nez ´avisl´ych pozorov ´n´ı (Y1, Z1), . . . , (Yn, Zn), (Yi, Zi)m ´a distribuˇcn´ı funkci F (y , z)
Zi– odpov´ıd ´a oˇsetˇren´ı (zdravotn´ı stav pˇred l ´eˇcbou) Yi– odpov´ıd ´a kontrole (zdravotn´ı stav po l ´eˇcbou) H0: F (y , z) = F (z, y )pro vˇs. y , z
tedy oˇsetˇren´ı nem ´a vliv, popˇr. l ´eˇcba nem ´a vliv na zdravotn´ı stav ˇcasto definujeme: Xi= Yi− Zi, i = 1, . . .
G– distr. fce n ´ahodn ´e veliˇciny Xi pak H0: G (x ) + G (−x ) = 1
je-li G distribuˇcn´ı fce N(µ, σ2), µ ∈ R1and σ2> 0nezn ´m ´e pak H0: µ = 0a aplikujeme tzv. jednov´yb ˇerov´y t-test
Neparametrick´e testy Outline
Klasick ´a testov ´a statistika:Tn=sXn
n(x )
√n
Xn=1nPn
i =1Xi, s2n(x ) = n−11 Pn
i =1(Xi− Xn)2 zam´ıt ´ame na hladin ˇe α, jestliˇze
|Tn| ≥ tn−1,1−α/2
kde tn−1,1−α/2je kvantil t-rozd ˇelen´ı on n − 1 stupn´ıch volnosti
Test je vhodn´y, pokud je spln ˇen pˇredpoklad normality nebo je n dost velk ´e a jsou koneˇcn ´e momenty (centr ´aln´ı limitn´ı v ˇeta).
Wilcoxon ˚uv jednov´yb ˇerov´y test
a(i ) = i , S+=
n
X
i =1
sign XiRi+
S∗=
n
X
i =1,Xi>0
Ri+, S∗∗=
n
X
i =1,Xi<0
Ri+
S+= S∗− S∗∗, S+= 2S∗−n(n + 1)
2 ,
S∗+ S∗∗
n
X
i =1
i =n(n + 1)
2 , S∗∗=n(n + 1) 2 − S∗,
E S+= 0, var S+=
n
X
i =1
i2= n(n + 1)(2n + 1)/6
Neparametrick´e testy 2021 8 / 1
Neparametrick´e testy
Lze dok ´azat:
V ˇeta 4 Necht’ X1, . . . , Xnjsou nez ´avisl ´e n ´ahodn ´e veliˇciny se spojitou distribuˇcn´ı funkc´ı F takovou, ˇze
F (x ) + F (−x ) = 1, pro vs. x ∈ R.
Pak pro n → ∞ sup
x
|P(S+< xp
n(n + 1)(2n + 1)/6) − Φ(x )| → 0
kde Φ(x) je hodnota distribuˇcn´ı funkce normovan ´eho norm ´aln´ıho rozd ˇelen´ı N(0, 1).
Test:
(i) Statistick´y software spoˇc´ıt ´a tzv. p-hodnotu.
(ii) Pro mal ´a n lze pouˇz´ıt tabulky, napv r. v And ˇelovi, jsou tabelov ´any hodnoty wn(α) takov ´e, ˇze
P(min(S∗, S∗∗) ≤ wn(α)) = α
a hypot ´ezu H0zam´ıt ´ame, jestliˇze min(S∗, S∗∗) ≤ wn(α), α je hladina testu.
(iii) Pro velk ´a n pouˇzijeme v ˇetu 4 a zam´ıt ´ame H0, jestliˇze
|S+| ≥ Φ−1(1 − α/2)p
n(n + 1)(2n + 1)/6), kde Φ
Φ−1(1 − α/2)
= 1 − α/2.
Neparametrick´e testy Outline
Pˇr´ıklad 10 pokusn´ych osob m ˇelo nez ´avisle na sob ˇe a bez pˇredchoz´ıho tr ´eninku odhadnout, kdy od dan ´eho sign ´alu uplyne 1 minuta.
V´ysledky ( v sekund ´ach):
53, 48, 45, 55, 63, 51, 66, 56, 50, 58
H0: Fje symetrick ´a kolem 60, tj. F (x − 60) + F (−(x − 60)) = 1 odet¸eme 60 od kaˇzd ´eho pozorov ´an´ı
−7, −12, −15, −5, 3, −9, 6, −4, −10, −2
to vede na hypot ´ezu symetrie kolem 0
spoˇcteme Wilcoxonovu jednov´yb ˇerovou statistiku:
R1+= 6, R2+= 9, R3+= 10, R4+=, R5+= 2, R6+= 7, R7+= 5, R8+= 3, R9+= 8, R10+ = 1
S∗= 2 + 5 = 7, S∗∗= 10 × 11
2 − S∗= 48, min(S∗, S∗∗) = 7 < w10(0, 05) = 8 Tedy zam´ıt ´ame H0na hladin ˇe α = 0, 05
Pouˇzijeme-li limitn´ı v ˇety:
|S+| = 41 > Φ−1(0, 975)√
387 = 1, 96 × 3, ???
Tedy i tady zam´ıt ´ame.
Neparametrick´e testy 2021 10 / 1
Neparametrick´e testy
Znam ´enkov´y test
S+= sign Xi, S∗= pocet Xi> 0, S∗∗= pocet Xi < 0 Pouˇz´ıv ´a se pro test: H0: median = 0
S∗m ´a binomick ´e rozd ˇelen´ı (n, P(Xi> 0)),jsou-li X1, . . . , Xnnez ´avisl ´e stejn ˇe rozd ˇelen ´e n ´ahodn ´e veliˇciny
H0: P(Xi> 0) = 1/2 H0zam´ıt ´ame, jestliˇze
S∗≤ k1, S∗∗≥ n − k1 kde
PH0(S∗≤ k1)α/2, PH0(S∗≥ n − k1) ≤ α/2 Je-li n velk ´e, m ´a 2(S∗− n/2)/√
nm ´a pˇribliˇzn ˇe N(0, 1) a tedy H0zam´ıtneme, jestliˇze
|2S∗− n|/√
n ≥ Φ−1(1 − α/2)
Neparametrick´e testy Outline
Dvouv´yb ˇerov´y probl ´em
X1, . . . , Xn1— nez ´avisl ´e stejn ˇe rozd ˇelen ´e n ´ahodn ´e veliˇciny se spojitou distr. funkc´ı F Y1, . . . , Yn2— nez ´avisl ´e stejn ˇe rozd ˇelen ´e n ´ahodn ´e veliˇciny se spojitou distr. funkc´ı G vˇsechny n ´ahodn ´e veliˇciny nez ´avisl ´e
H0: F = G H1: F 6= G R1, . . . , Rn1+n2jsou poˇrad´ı odpov´ıdaj´ıc´ı X1, . . . , Xn1, Y1, . . . , Yn2
Pouˇz´ıvaj´ı se testov ´e statistiky:
S1=
n1
X
i =1
a(Ri), nebo S2=
n2+n1
X
i =n1+1
a(Ri)
Zˇrejm ˇe
S1+ S2=
n1+n2
X
i =1
a(i )
Neparametrick´e testy 2021 12 / 1
Neparametrick´e testy
Nejˇcast ˇeji se pouˇz´ıv ´a Wilcoxon ˚uv dvouv´yb ˇerov´y test: a(i ) = i , i = 1, . . . , n1+ n2
Pak S1+ S2=Pn1+n2
i =1 i =(n1+n2)(n21+n2+1)
E S1= (n1+ n2+ 1)n1/2, var S1= (n1+ n2+ 1)n1n2/12 Cast ˇeji se pouˇz´ıv ´a tvar:ˇ
U1= n1n2+ n1(n1+ 1)/2 − S1, U2= n1n2+ n2(n2+ 1)/2 − S2
U1+ U2= n1n2, E U1= E U2= n1n2/2 U1je t ´eˇz zn ´amo jakoMann-Whitney test
Test pro mal ´e n1, n2existuj´ı tabulky, b ˇezn´y software poskytuje p hodnotu, pro n1, n2
velk ´a lze pouˇz´ıt aproximaci zaloˇzenou na:
sup
x
|PH0
U1− EH0U1≤ xp var U1
− Φ(x)| → 0
pro min(n1, n2) → ∞
Neparametrick´e testy Outline
Pˇr´ıklad Je tˇreba zjistit, zda jsou dva druhy hnojen´ı ekvivalentn´ı pˇri stejn´ych ostatn´ıch podm´ınk ´ach.
1. skupina (Xi) 5, 7 5, 5 4, 3 5, 9 5, 2 5, 6 5, 8 5, 1 2. skupina (Yi) 5, 0 4, 5 4, 2 5, 4 4, 4
t-test:
n1= 8, X = 5, 3875, sx2= 0, 2698 n2= 5, Y = 4, 7000, sy2= 0, 24
t = 2, 370 > t11(0, 975) = 2, 160-tedy zam´ıt ´ame na hladin ˇe α = 0, 05, ovˇsem mus´ı b´yt spln ˇeny pˇredpoklady!!!
poˇrad´ı v sech pozorov ´an´ı: 11, 9, 2, 13, 7, 10, 12, 6, 5, 4, 2, 8, 3 S1= 70, S2= 21, U1= 6, U2= 34
zam´ıt ´ame na hladin ˇe α = 0.05
|U√1−E U1|
var U1 = 2.049 > 1.96 = Φ−1(0, 975)
Neparametrick´e testy 2021 14 / 1
Neparametrick´e testy
Z ´av ˇereˇcn ´e pozn ´amky k z ´akladn´ım poˇradov´ym test ˚um
(a) v´yhody poˇradov´ych test ˚u: rozd ˇelen´ı testov´ych statistik pˇri H0nez ´avis´ı na distribuˇcn´ı funkci n ´ahodn´ych veliˇcin, v´ypoˇcetn ˇe jednoduch ´e
(b) nev´yhoda: ztr ´ac´ıme ˇc ´ast informace, vhodn ´e jen pro jendoduche situace
(c) existuj´ı poˇradov ´e testy i pro dalˇs´ı situace (testy nez ´avislosti, pro regresn´ı modely) (d) existuj´ı odhady zaloˇzen ´e na poˇrad´ıch
(e) existuje teorie t´ykaj´ıc´ı se volby funkce a(.), zn ´ame-li distribuˇcn´ı funkci F (f) pozor na tzv. shody (ties anglicky), jestliˇze se dv ˇe pozorov ´an´ı shoduj´ı.
Neparametrick´e testy Outline
Kolmogorovovy-Smirnovovy testy
X1, . . . , Xnjsou nez ´avisl ´e stejn ˇe rozd ˇelen ´e n ´ahodn ´e veliˇciny s spojitou distribuˇcn´ı funkc´ı F
empirick ´a distribuˇcn´ı funkce Fnje definov ´ana:
Fn(x ) = 1 n
n
X
i =1
I {Xi≤ x} = 1
npocet Xi≤ x, x ∈ R
Plat´ı:
EFn(x ) = F (x ), var {Fn(x ) = 1
nFn(x )(1 − Fn(x ) x ∈ R1
P(sup
x
|Fn(x ) − F (x )| ≥ ε) → 0, n → ∞ pro kaˇzd ´e ε > 0,
rozd ˇelen´ı supx√
n|Fn(x ) − F (x )|nez ´avis´ı na distribuˇcn´ı funkci F plat´ı pro y > 0:
n→∞lim P(sup
x
√n|Fn(x ) − F (x )| ≤ y ) = 1 − 2
∞
X
k=1
exp{−2k2y2}
Neparametrick´e testy 2021 16 / 1
Neparametrick´e testy
Lze vyuˇz´ıt pro konstrukci test ˚u:
(i) X1, . . . , Xnjsou nez ´avisl ´e stejn ˇe rozd ˇelen ´e n ´ahodn ´e veliˇciny se spojitou distribuˇcn´ı funkc´ı F a testujeme hypot ´ezu:
H0: F = F0(F0− dano) H1: F 6= F0
Test lze zaloˇzit na n ˇekter ´e z n ´asleduj´ıc´ıch statistik:
Kolmogorov -Smirnovova statistika sup
x
|Fn(x ) − F0(x )|√ n
Cram ´er-von Misesova statstika
n Z
R1
|Fn(x ) − F0(x )|2dx
Anderson-Darligova statistika
n Z
R1
|Fn(x ) − F0(x )|2w (x )dx
kde w (.) je kladn ´a v ´ahov ´a funkce, napˇr.
w (x ) = 1
F0(x )(1 − F0(x )), x ∈ R1.
Neparametrick´e testy Outline
Pro Kolmogov=Smirnov ˚uv test zam´ıt ´ame na hladin ˇe α, jestliˇze sup
x
|Fn(x ) − F (x )|√
n ≥ qn(1 − α)
qn(1 − α)urˇceno tak, aby test m ˇel hladinu α, pro mal ´a n existuj´ı tabulky, pro velk ´a se pouˇz´ıv ´a limitn´ı rozd ˇelen´ı. Statistick´y software spoˇc´ıt ´a p- hodnotu.
POZOR!!! Vyˇse popsan ´e testy zaloˇzen ´e na empirick ´e dostribuˇcn´ı funkci lze pouˇz´ıt jen pokud F0v nulov ´e hypot ´eze je pln ˇe specifikovan ´a, napˇr. F0odpov´ıd ´a N(µ0, σ02), kde µ0, σ20jsou zn ´am ´e.
Jestliˇze
H0: F ∈ F = {F (., θ), θ ∈ Θ}
, kde θ je paramter a Θ jsou jeho moˇzn ´e hodnoty. Pak lze test zaloˇzit na
sup
x
|Fn(x ) − F (x ; bθ)|√ n
kde bθ)je vhodn´y odhad parametru. Limitn´ı rozd ˇelen´ı z ´avis´ı na θ. V ˇetˇsina softvaru je schopna pracovat i s touto situac´ı.
Neparametrick´e testy 2021 18 / 1
Neparametrick´e testy
(ii) Dvouv´yb ˇerov´y Kolmogorov ˚uv-Smirnov ˚uv test
X1, . . . , Xn1jsou nez ´avisl ´e stejn ˇe rozd ˇelen ´e n ´ahodn ´e veliˇciny se spojitou distribuˇcn´ı funkc´ı F
Y1, . . . , Yn2jsou nez ´avisl ´e stejn ˇe rozd ˇelen ´e n ´ahodn ´e veliˇciny se spojitou distribuˇcn´ı funkc´ı G
vˇsechny n ´ahodn ´e veliˇciny nez ´avisl ´e
H0: F1= F2, F16= F2
Test
sup
x
|Fn1(x ) − Gn2(x )|√
n ≥ qn1,n2(1 − α)
qn1,n2(1 − α)urˇceno tak, aby test m ˇel hladinu α, pro mal ´a n1a n2existuj´ı tabulky, pro velk ´a se pouˇz´ıv ´a limitn´ı rozd ˇelen´ı. Statistick´y software spoˇc´ıt ´a p- hodnotu.