Spis tre´sci

(1)

Spis tre´sci

1 Weryfikacja hipotez statystycznych 1

1.1 Poj˛ecia . . . 1

2 Porównania z normami 3 2.1 Wst˛ep . . . 3

2.2 Porównanie z normami: warto´s´c ´srednia . . . 3

2.3 Porównanie z normami: wariancja . . . 6

2.4 Porównanie z normami: frakcja . . . 6

3 Porównanie populacji 7 3.1 Wst˛ep . . . 7

3.2 Testowanie hipotez: porównanie dwóch ´srednich . . . 9

3.3 Testowanie hipotez: porównanie dwóch wariancji . . . 11

3.4 Testowanie hipotez: porównanie dwóch frakcji . . . 12

3.5 Testowanie hipotez: porównanie wielu ´srednich . . . 14

4 Test chi-kwadrat niezale˙zno´sci 17

5 Testy diagnostyczne 20

1 Weryfikacja hipotez statystycznych

1.1 Poj˛ecia

Poj˛ecia

Hipoteza statystyczna

Dowolne przypuszczenie dotycz ˛ace rozkładu prawdopodobie´nstwa cechy w populacji.

Oznaczenie H0

Test statystyczny

Post˛epowanie maj ˛ace na celu odrzucenie lub nie odrzucenie hipotezy statystycznej.

(2)

Statystyka testowa

Funkcja próby na podstawie której wnioskuje si˛e o odrzuceniu lub nie hipotezy statystycznej.

Poj˛ecia

Wnioskowanie

Rzeczywisto´s´c: Wniosek o hipotezie H0

nie odrzuca´c odrzuci´c H₀prawdziwa prawidłowy nieprawidłowy H₀ nieprawdziwa nieprawidłowy prawidłowy

Poj˛ecia

Wnioskowanie

Rzeczywisto´sć: Wniosek o hipotezie H₀ nie odrzucać odrzucić H₀prawdziwa prawidłowy nieprawidłowy H₀ nieprawdziwa nieprawidłowy prawidłowy

Poj˛ecia

Wnioskowanie

Rzeczywisto´sć: Wniosek o hipotezie H₀ nie odrzucać odrzucić H₀ prawdziwa prawidłowy bł ˛ad I rodzaju H₀ nieprawdziwa bł ˛ad II rodzaju prawidłowy

Poj˛ecia

Bł ˛ad I rodzaju

Bł ˛ad wnioskowania polegaj ˛acy na odrzuceniu hipotezy, gdy w rzeczywisto´sci jest ona prawdziwa.

Poziom istotno´sci

Dowolna liczba z przedziału (0, 1) okre´slaj ˛ac ˛a prawdopodobie´nstwo popełnienia bł˛edu I rodzaju.

Oznaczenie: α

(3)

Poj˛ecia

Bł ˛ad II rodzaju

Bł ˛ad wnioskowania polegaj ˛acy na nieodrzuceniu hipotezy, gdy w rzeczywisto´sci jest ona fałszywa.

Moc testu

Prawdopodobie´nstwo nie popełnienia bł˛edu II rodzaju.

Oznaczenie: 1 − β

2 Porównania z normami

2.1 Wst˛ep

Jedna populacja Wst˛ep

Analizujemy pewn ˛a cech˛e w populacji Porównania z normami obejmuj ˛a m.in.:

• porównanie poziomu cechy

• porównanie zró˙znicowania cechy

Jedna populacja Wst˛ep - cecha ci ˛agła Próba: X₁, . . . , X_n

Charakterystyki próby:

X,¯ varX, s² = varX n − 1

Jedna populacja

Wst˛ep - cecha dychotomiczne

ˆ p = k

n

(4)

2.2 Porównanie z normami: warto´s´c ´srednia

Rozkład normalny N (µ, σ²) Hipoteza H0 : µ = µ0

´Srednia µ oraz wariancja σ²s ˛a nieznane Test Studenta

Statystyka testowa

temp=

X − µ¯ 0

S

√n

Wnioskowanie

Warto´s´c krytyczna t(α; n − 1)

Je˙zeli |temp| > t(α; n − 1), to hipotez˛e H₀ : µ = µ₀odrzucamy Testowanie hipotezy H₀ : µ = µ₀

Przykład - tre´s´c

Przypuszczenie: maszyna pakuj ˛aca kostki masła nastawiona na jednostkow ˛a mas˛e 250 g uległa po pewnym czasie rozregulowaniu. W celu weryfikacji tego przy- puszczenia z bie˙z ˛acej produkcji pobrano prób˛e otrzymuj ˛ac wyniki 254, 269, 254, 248, 263, 256, 258, 261, 264, 258. Czy mo˙zna na tej podstawie s ˛adzi´c, ˙ze maszyna uległa rozregulowaniu?

Testowanie hipotezy H0 : µ = µ0

Przykład - rozwi ˛azanie

Populacja: paczkowane kostki masła Cecha X: masa kostki masła

Zało˙zenie: cecha X ma rozkład normalny N (µ, σ²)

Formalizacja: Rozregulowanie maszyny mo˙ze by´c interpretowane jako odej-

´scie od nominalnej wagi. Zatem nale˙zy zbada´c, czy ´srednia µ wynosi 250, czyli weryfikujemy hipotez˛e H0 : µ = 250

Technika statystyczna: test Studenta (test t) poziom istotno´sci α = 0.05

(5)

Testowanie hipotezy H₀ : µ = µ₀ Przykład - rozwi ˛azanie

Obliczenia

n = 10

¯

x = 258.5 s² = 36.05 temp = 4.47

Testowanie hipotezy H₀ : µ = µ₀ Przykład - rozwi ˛azanie

Warto´s´c krytyczna: t(0.05; 9) = 2.2622

Odpowied´z:Poniewa˙z |temp| > t(0.05; 9), wi˛ec hipotez˛e H₀ odrzucamy Wniosek: maszyna uległa rozregulowaniu

Testowanie hipotezy H0 : µ = µ₀ Przykład - inne rozwi ˛azanie

Populacja: paczkowane kostki masła Cecha X: masa kostki masła

Zało˙zenie: cecha X ma rozkład normalny N (µ, σ²)

Formalizacja: Rozregulowanie maszyny mo˙ze by´c interpretowane jako odej-

´scie od nominalnej wagi. Zatem nale˙zy zbada´c, czy ´srednia µ wynosi 250, czyli weryfikujemy hipotez˛e H₀ : µ = 250

Technika statystyczna: przedział ufno´sci dla ´sredniej µ poziom ufno´sci 1 − α = 0.95

Testowanie hipotezy H₀ : µ = µ₀ Przykład - inne rozwi ˛azanie Obliczenia

µ ∈ (254.20, 262.80)

Odpowied´z: Poniewa˙z µ₀ = 250 6∈ (254.20, 262.80), wi˛ec hipotez˛e H₀ odrzucamy

Wniosek: maszyna uległa rozregulowaniu

(6)

Testowanie hipotezy H₀ : µ = µ₀ Przedział ufno´sci a test hipotezy

H₀ nie odrzucamy na poziomie istotno´sci α m

µ₀ nale˙zy do przedziału ufno´sci na poziomie ufno´sci 1 − α

2.3 Porównanie z normami: wariancja

Rozkład normalny N (µ, σ²) Hipoteza H₀ : σ² = σ₀²

´Srednia µ oraz wariancja σ²s ˛a nieznane Test chi-kwadrat

Statystyka testowa

χ²_emp = varX σ₀² Wnioskowanie

Warto´sci krytyczne χ² 1 −^α₂; n − 1 oraz χ² ^α₂; n − 1

Je˙zeli χ²_emp < χ² 1 − ^α₂; n − 1 lub χ²_emp > χ² ^α₂; n − 1, to hipotez˛e H0 : σ² = σ²₀ odrzucamy

2.4 Porównanie z normami: frakcja

Rozkład dwumianowy B(n, p) Hipoteza H₀ : p = p₀

k - liczba sukcesów w próbie n elementowej Test przybli˙zony („du˙ze” n)

Statystyka testowa

uemp= k − np₀ pnp₀(1 − p₀) Wnioskowanie

Warto´s´c krytyczna u1−α/2

Je˙zeli |uemp| > u_1−α/2, to H₀ : p = p₀ odrzucamy

(7)

Hipoteza H₀ : p = p₀ Przykład - tre´s´c

W swojej ofercie sprzeda˙zy stawu rybnego jego wła´sciciel podaje, i˙z w stawie

˙zyje tysi ˛ac karpi. Potencjalny nabywca zainteresowany jest sprawdzeniem praw- dziwo´sci tego twierdzenia. W tym celu wyłowiono sto karpi i po zaobr ˛aczkowaniu ich wpuszczono je z powrotem do stawu. Po jakim´s czasie ponownie odłowiono sto ryb i stwierdzono, ˙ze w´sród nich jest pi˛etna´scie zaobr ˛aczkowanych. Czy w

´swietle uzyskanych wyników mo˙zna reklam˛e uzna´c za prawdziw ˛a?

Hipoteza H₀ : p = p₀ Przykład - rozwi ˛azanie Populacja: ryby w stawie

Cecha X: ryba zaobr ˛aczkowana/nie zaobr ˛aczkowana Zało˙zenie: cecha X ma rozkład dwupunktowy D(p)

Formalizacja: Je˙zeli w stawie ˙zyje N ryb, to odsetek zaobr ˛aczkowanych wynosi 100/N . Zgodnie z twierdzeniem wła´sciciela, N = 1000, czyli odsetek ryb zaobr ˛aczkowanych wynosi 0.1

Technika statystyczna: Przybli˙zony test hipotezy H₀ : p = 0.1 Poziom istotno´sci: α = 0.05

Hipoteza H0 : p = p0

Przykład - rozwi ˛azanie Obliczenia

n = 100 k = 15 uemp= k − np0

pnp0(1 − p0) = 15 − 10

√100 · 0.1 · 0.9 = 1.6667

Hipoteza H₀ : p = p₀ Przykład - rozwi ˛azanie

Warto´s´c krytyczna: u_1−0.05/2 = u_0.975 = 1.96

Odpowied´z: Poniewa˙z |uemp| < u_0.975, wi˛ec hipotezy H₀ nie odrzucamy Wniosek: mo˙zna uzna´c, ˙ze w stawie jest tysi ˛ac ryb

(8)

3 Porównanie populacji

3.1 Wst˛ep

Dwie populacje Wst˛ep

Analizujemy t˛e sam ˛a cech˛e w dwóch niezale˙znych od siebie populacjach Analiza porównawcza obejmuje m.in.:

• porównanie poziomu cech

• porównanie zró˙znicowania cech

Dwie populacje Wst˛ep - cechy ci ˛agłe

Próba z pierwszej populacji: X₁₁, . . . , X_1n₁ Charakterystyki pierwszej próby:

X¯₁, varX₁, s²₁ = varX1

n₁− 1

Dwie populacje Wst˛ep - cechy ci ˛agłe

Próba z drugiej populacji: X21, . . . , X2n2

Charakterystyki drugiej próby:

X¯₂, varX2, s²₂ = varX2

n₂− 1

Dwie populacje Wst˛ep - cechy ci ˛agłe Charakterystyki ł ˛aczne

S_e² = varX₁+ varX₂ n₁+ n₂− 2 S_r =

s S_e² 1

n1

+ 1 n2

(9)

Dwie populacje

Wst˛ep - cechy dychotomiczne Pierwsza populacja:

ˆ p₁ = k₁

n₁ Druga populacja:

ˆ p₂ = k2

n₂ Razem:

ˆ

p = k₁+ k₂ n₁+ n₂

3.2 Testowanie hipotez: porównanie dwóch ´srednich

Rozkłady normalne N (µ₁, σ₁²) i N (µ₂, σ²₂) Hipoteza H₀ : µ₁ = µ₂

zało˙zenie: σ²₁ = σ₂² Test Studenta Statystyka testowa

temp = X¯₁− ¯X₂ S_r Wnioskowanie

Warto´s´c krytyczna t(α; n1+ n2− 2)

Je˙zeli |temp| > t(α; n₁+ n₂− 1), to hipotez˛e H₀ : µ₁ = µ₂ odrzucamy Hipoteza H₀ : µ₁ = µ₂

Przykład - tre´s´c

Badano zawarto´sć tłuszczu w serach ˙zółtych produkowanych zim ˛a i latem. W ka˙zdym z dwóch okresów zbadano zawarto´sć tłuszczu w dziesi˛eciu serach. Na podstawie uzyskanych wyników stwierdzić, czy zawarto´sć tłuszczu w serze ˙zół- tym zale˙zy od pory roku.

Sery produkowane zim ˛a:

Xx_1i= 293.7, varx1 = 35.321

(10)

Sery produkowane latem:

Xx_2i= 271.2, varx2 = 18.176

Hipoteza H₀ : µ₁ = µ₂ Przykład - rozwi ˛azanie

Populacja 1: sery produkowane latem Populacja 2: sery produkowane zim ˛a Cecha X: zawarto´s´c tłuszczu

Zało˙zenia:

cecha X ma w populacji 1 rozkład N (µ₁, σ₁²) cecha X ma w populacji 2 rozkład N (µ₂, σ₂²) σ²₁ = σ₂²

Zadanie: weryfikacja hipotezy H₀ : µ₁ = µ₂

Technika statystyczna: test Studenta porównania ´srednich poziom istotno´sci α = 0.05

Hipoteza H₀ : µ₁ = µ₂ Przykład - rozwi ˛azanie Obliczenia

¯

x₁ = 29.37, varX₁ = 35.321

¯

x₂ = 27.12, varX₂ = 18.176 s²_r = 35.321 + 18.176

18

1 10+ 1

10

= 0.5944

Hipoteza H₀ : µ₁ = µ₂ Przykład - rozwi ˛azanie Obliczenia

temp= x¯₁ − ¯x₂

s_r = 29.37 − 27.12

0.771 = 2.918 t(0.05; 18) ≈ 2.1009

(11)

Hipoteza H₀ : µ₁ = µ₂ Przykład - rozwi ˛azanie

Odpowied´z: Poniewa˙z |temp| > t(0.05; 18), wi˛ec hipotez˛e H₀ : µ₁ = µ₂ odrzucamy

Wniosek. ´Srednie zawarto´sci tłuszczu w serach produkowanych latem i zim ˛a nie s ˛a takie same.

Hipoteza H₀ : µ₁ = µ₂ Przykład - dalsze wnioski

Poniewa˙z weryfikowana hipoteza została odrzucona, wi˛ec mo˙zna pokusi´c si˛e o ocen˛e ró˙znic mi˛edzy ´srednimi zawarto´sciami tłuszczu.

Skonstruowa´c przedział ufno´sci dla ró˙znicy µ1− µ₂ ´srednich (poziom ufno´sci 0.95)

Z przeprowadzonych wcze´sniej oblicze´n otrzymujemy:

(29.37 − 27.12 − 2.1009 · 0.771, 29.37 − 27.12 + 2.1009 · 0.771) (0.631, 3.869).

Hipoteza H₀ : µ₁ = µ₂ Przykład - dalsze wnioski

µ₁− µ₂ ∈ (0.631, 3.869).

Poniewa˙z oba ko´nce tego przedziału s ˛a dodatnie, wi˛ec mo˙zemy stwierdzi´c, ˙ze

´srednia zawarto´s´c tłuszczu w serach produkowanych latem jest wy˙zsza ni˙z ´srednia zawarto´s´c tłuszczu w serach produkowanych zim ˛a. Co wi˛ecej, przeci˛etnie w letnich serach jest tego tłuszczu wi˛ecej o co najmniej 0.631, ale nie wi˛ecej ni˙z 3.869 jednostek.

3.3 Testowanie hipotez: porównanie dwóch wariancji

Rozkłady normalne N (µ₁, σ₁²) i N (µ₂, σ²₂) Hipoteza H₀ : σ₁² = σ₂²

nieznane warto´sci ´srednie µ₁ oraz µ₂ Test F

(12)

Statystyka testowa

Femp = S₁² S₂²

Rozkłady normalne N (µ₁, σ₁²) i N (µ₂, σ²₂) Hipoteza H₀ : σ₁² = σ₂²

nieznane warto´sci ´srednie µ1 oraz µ2

Wnioskowanie Warto´sci krytyczne

F 1 − α

2; n₁− 1, n₂− 1

oraz Fα

2; n₁− 1, n₂− 1

Je˙zeli Femp < F 1 − ^α₂; n₁− 1, n₂− 1 lub Femp > F ^α₂; n₁ − 1, n₂− 1, to hipotez˛e H0 : σ₁² = σ²₂ odrzucamy

3.4 Testowanie hipotez: porównanie dwóch frakcji

Rozkłady dwumianowe B(n₁, p₁) i B(n₂, p₂) Hipoteza H₀ : p₁ = p₂

zało˙zenie: n1 i n2„du˙ze”

Test przybli˙zony Statystyka testowa

uemp= pˆ₁− ˆp₂ q

ˆ

p(1 − ˆp)(_n¹

1 +_n¹

2) Wnioskowanie

Warto´s´c krytyczna u_1−α/2

Je˙zeli |uemp| ≥ u_1−α/2, to H₀ : p₁ = p₂ odrzucamy

(13)

Hipoteza H₀ : p₁ = p₂ Przykład - tre´s´c

Celem badania było porównanie przygotowania z matematyki kandydatów na stu- dia b˛ed ˛acych absolwentami liceów oraz techników. W tym celu spo´sród kandy- datów zdaj ˛acych matematyk˛e wylosowano 400 absolwentów liceów oraz 600 ab- solwentów techników. W wylosowanej grupie stwierdzono, ˙ze 385 absolwentów liceów oraz 501 absolwentów techników rozwi ˛azało test wst˛epny. Czy mo˙zna na tej podstawie s ˛adzi´c, ˙ze przygotowanie w obu grupach absolwentów jest jedna- kowe?

Hipoteza H₀ : p₁ = p₂ Przykład - rozwi ˛azanie

Populacja 1: absolwenci liceów zdaj ˛acy egzamin wst˛epny

Populacja 2: absolwenci techników zdaj ˛acy egzamin wst˛epny Cecha X: umiej˛etno´s´c rozwi ˛azania testu (tak/nie)

Zało˙zenia:

cecha X ma w populacji 1 rozkład B(n1, p₁) cecha X ma w populacji 2 rozkład B(n₂, p₂) Zadanie: Weryfikacja hipotezy H₀ : p₁ = p₂

Technika statystyczna: Test przybli˙zony (poziom istotno´sci α = 0.05) Hipoteza H₀ : p₁ = p₂

Przykład - rozwi ˛azanie Obliczenia

n₁ = 400 k₁ = 385 pˆ₁ = 385/400 = 0.9625 n2 = 600 k2 = 501 pˆ2 = 501/600 = 0.8350

ˆ

p = (385 + 501)/(400 + 600) = 0.886 uemp= 0.9625 − 0.8350

q

0.886(1 − 0.886) ₄₀₀¹ +₆₀₀¹

= 6.215

(14)

Hipoteza H₀ : p₁ = p₂ Przykład - rozwi ˛azanie

Warto´s´c krytyczna u0.975 = 1.96

Odpowied´z: poniewa˙z |uemp| > u_0.975, wi˛ec hipotez˛e H₀ : p₁ = p₂ odrzucamy

Wniosek: przygotowanie absolwentów liceów i techników z matematyki nie jest takie same

Hipoteza H₀ : p₁ = p₂ Przykład - dalsze wnioski

Poniewa˙z weryfikowana hipoteza została odrzucona, wi˛ec mo˙zna pokusi´c si˛e o ocen˛e ró˙znic mi˛edzy odsetkami absolwentów, którzy zdaj ˛a pomy´slnie egzamin.

Skonstruowa´c przedział ufno´sci dla ró˙znicy p₁− p₂ ´srednich (poziom ufno´sci 0.95)

Z przeprowadzonych wcze´sniej oblicze´n otrzymujemy:

(0.9625 − 0.8350 − 1.96 · 0.0205, 0.9625 − 0.8350 + 1.96 · 0.0205) (0.0873, 0.1677).

Hipoteza H₀ : p₁ = p₂ Przykład - dalsze wnioski

p₁ − p₂ ∈ (0.0873, 0.1677).

Poniewa˙z oba ko´nce tego przedziału s ˛a dodatnie, wi˛ec mo˙zemy stwierdzi´c, ˙ze absolwenci liceów s ˛a lepiej przygotowani do egzaminu ni˙z absolwenci techników.

Co wi˛ecej, odsetek absolwentów liceów pozytywnie zdaj ˛acych egzamin jest wy˙z- szy od odsetka absolwentów techników o co najmniej 8.7%, ale nie wi˛ecej ni˙z 16.8%.

3.5 Testowanie hipotez: porównanie wielu ´srednich

Kilka populacji Wst˛ep

Analizujemy t˛e sam ˛a cech˛e w kilku niezale˙znych od siebie populacjach Analiza porównawcza obejmuje m.in.:

(15)

• porównanie poziomu cech

• porównanie zró˙znicowania cech

Kilka populacji Wst˛ep - cechy ci ˛agłe

Próba z i-tej populacji: Xi1, . . . , X_in_i (i = 1, . . . , K) Charakterystyki i-tej próby:

X¯_i, varX_i, s²_i = varX_i n_i− 1

Kilka populacji Wst˛ep - cechy ci ˛agłe Charakterystyki ł ˛aczne

N = n₁+ · · · + n_K

¯¯ X = 1

N

K

X

i=1 ni

X

j=1

X_ij

S_e² = varX1+ · · · + varX_K N − K

Rozkłady normalne N (µ_i, σ_i²), i = 1, . . . , K Hipoteza H₀ : µ₁ = · · · = µ_K

zało˙zenie: σ²₁ = · · · = σ_K² Test F

Statystyka testowa

Femp= PK

i=1( ¯X_i− ¯X)¯ ²/(K − 1) S_e²

Wnioskowanie

Warto´s´c krytyczna F (α; K − 1, N − K)

Je˙zeli Femp > F (α; K − 1, N − K), to hipotez˛e H₀ : µ₁ = · · · = µ_K odrzucamy

(16)

Rozkłady normalne N (µ_i, σ_i²), i = 1, . . . , K Tabela analizy wariancji

Zródło´ Stopnie Sumy ´Srednie Femp

zmienno´sci swobody kwadratów kwadraty

Czynnik k − 1 varA S_a² = ^var_k−1^A S_a²/S_e² Bł ˛ad losowy N − k varE S_e² = _{N −k}^var^E

Ogółem N − 1 varT

Rozkłady normalne N (µ_i, σ_i²), i = 1, . . . , K Wniosek praktyczny

Przynajmniej jedna ze ´srednich µ1, . . . , µkjest inna od pozostałych.

Pytanie

Jaki jest układ ´srednich?

Grupa jednorodna

Podzbiór ´srednich, które mo˙zna uzna´c za takie same.

Rozkłady normalne N (µ_i, σ_i²), i = 1, . . . , K Procedury porówna ´n wielokrotnych

Tukeya, Scheffégo, Bonfferroniego, Duncana, Newmana–Kuelsa Ogólna idea

N IR — najmniejsza istotna ró˙znica Je˙zeli

| ¯X_i− ¯X_j| < N IR

| ¯Xi− ¯Xl| < N IR

| ¯X_l− ¯X_j| < N IR,

to uznajemy, ˙ze µ_i = µ_j = µ_l. ANOVA - przykład

Przykład

Przeprowadzi´c analiz˛e porównawcz ˛a wyników punktowych klasówki w grupach studenckich.

(17)

ANOVA - przykład Przykład

Populacje: dziesi˛e´c populacji indeksowanych numerami grup studenckich Badana cecha: ilo´s´c punktów uzyskanych na klasówce

Zało˙zenia:

cecha X ma w i–tej populacji rozkład N (µi, σ_i²) (i = 1, . . . , 10) σ²₁ = · · · = σ₁₀²

ANOVA - przykład Przykład

Formalizacja

weryfikacja hipotezy H₀ : µ₁ = · · · = µ₁₀ Techniki statystyczne

• Jednoczynnikowa analiza wariancji

• Porównania szczegółowe Poziom istotno´sci 0.05

4 Test chi-kwadrat niezale˙zno´sci

Test chi-kwadrat niezale˙zno´sci Przykład

W celu stwierdzenia, czy podanie chorym na pewn ˛a chorob˛e nowego leku przy- nosi popraw˛e w ich stanie zdrowia wylosowano dwie grupy pacjentów w jednako- wym stopniu chorych na t˛e chorob˛e. Jednej grupie podawano nowy lek, za´s drugiej podawano leki tradycyjne. Na podstawie zanotowanych zmian stanu zdrowia zbada´c, czy nowy lek daje inne efekty leczenia ni˙z lek tradycyjny.

lek bez wyra´zna całkowite poprawy poprawa wyleczenie

nowy 20 40 60

tradycyjny 45 20 15

(18)

Test chi-kwadrat niezale˙zno´sci Posta´c danych

Klasy Klasy cechy X

cechy Y 1 2 . . . m

1 n₁₁ n₁₂ . . . n_1m 2 n₂₁ n₂₂ . . . n_2m

... ... ... ... k n_k1 n_k2 . . . n_km

Test chi-kwadrat niezale˙zno´sci Statystyka testowa

χ²_emp=

k

X

i=1 m

X

j=1

(n_ij − n^t_ij)² n^t_ij gdzie

n^t_ij = n_i·n·j

N , N =

k

X

i=1 m

X

j=1

n_ij

n_i· =

m

X

j=1

n_ij, n·j =

k

X

i=1

n_ij

Test chi-kwadrat niezale˙zno´sci Wnioskowanie

Je˙zeli χ²_emp > χ²(α; (k − 1)(m − 1)), to hipotez˛e hipotez˛e o niezale˙zno´sci cech odrzucamy

Test chi-kwadrat niezale˙zno´sci Przykład - rozwi ˛azanie

Populacja: chorzy na pewn ˛a chorob˛e

Cechy (X, Y ): (zmiana stanu zdrowia, rodzaj leku) Zało˙zenia: cechy maj ˛a charakter jako´sciowy

Zadanie: Weryfikacja hipotezy badane cechy s ˛a niezale˙zne

Technika statystyczna: Test niezale˙zno´sci chi-kwadrat (poziom istotno´sci α = 0.05)

(19)

Obliczenia:

liczba osób, których stan zdrowia:

bez poprawy: 65 wyra´zna poprawa: 60 całkowicie wyleczonych: 75 liczba osób:

leczonych nowym lekiem: 120 leczonych tradycyjnie: 80 Test chi-kwadrat niezale˙zno´sci Przykład - rozwi ˛azanie

Gdyby stan zdrowia nie zale˙zał od leku, to powinno by´c

nowy 39 36 45

tradycyjny 26 24 30

a jest

nowy 20 40 60

tradycyjny 45 20 15

Warto´s´c statystyki testu chi-kwadrat niezale˙zno´sci χ²_emp= 36.75 Warto´s´c krytyczna: 5.99

Stwierdzamy, ˙ze nowy lek ma inne działanie ni˙z tradycyjny.

(20)

nowy 16.67% 33.33% 50.00%

tradycyjny 56.25% 25.00% 18.75%

32.50% 30.00% 37.50%

5 Testy diagnostyczne

Przykład Test CRP

CRP (białko C-reaktywne) jest czułym wska´znikiem ostrych i przewlekłych sta- nów zapalnych o ró˙znym pochodzeniu. Poziom CRP, jednego z tzw. białek ostrej fazy, wzrasta w surowicy i osoczu w trakcie ogólnej, niespecyficznej odpowie- dzi na infekcje (głównie bakteryjne) oraz stany zapalne bez tła infekcyjnego(...) Oznaczenie st˛e˙zenia CRP wykorzystuje si˛e w diagnostyce (...)

Fizjologiczne st˛e˙zenie CRP nie przekracza 5 mg/L, st˛e˙zenie wi˛eksze ni˙z 10 mg/L uznawane jest za patologiczne.

(21)

Poj˛ecia Wynik testu

Rzeczywisto´s´c: Wynik testu

dodatni ujemny

chory (+) prawidłowy nieprawidłowy zdrowy (-) nieprawidłowy prawidłowy

dodatni ujemny

chory (+) prawidłowy nieprawidłowy zdrowy (-) nieprawidłowy prawidłowy

dodatni ujemny

chory (+) prawdziwie dodatni nieprawdziwie ujemny zdrowy (-) nieprawdziwie do-

datni prawdziwie ujemny

Poj˛ecia Czuło´s´c testu

prawdopodobie´nstwo uzyskania wyniku prawdziwie dodatniego to znaczy

prawdopodobie´nstwo uzyskania wyniku dodatniego dla osoby chorej okre´sla zdolno´s´c testu do wykrywania osób chorych

(22)

Poj˛ecia

Swoisto´s´c testu

prawdopodobie´nstwo uzyskania wyniku prawdziwie ujemnego to znaczy

prawdopodobie´nstwo uzyskania wyniku ujemnego dla osoby zdrowej okre´sla zdolno´s´c testu do wykrywania osób zdrowych

Zadanie Cel

Wyznaczyć warto´sć krytyczn ˛a dla testu minimalizuj ˛ac ˛a prawdopodobieństwa bł˛e- dów.

To znaczy jak najbardziej czułego i o jak najwi˛ekszej swoisto´sci Przykład

Zdrowi i chorzy

Przykład

Zdrowi i chorzy

(23)

Przykład

Zdrowi i chorzy

Przykład

Zdrowi i chorzy

Przykład

Zdrowi i chorzy

(24)

Przykład

Zdrowi i chorzy

Przykład

Zdrowi i chorzy

Przykład

Zdrowi i chorzy

(25)

barierka swoisto´s´c czuło´s´c

4 15.87% 99.87%

5 50.00% 97.72%

6 84.13% 84.13%

7 97.72% 50.00%

8 99.87% 15.87%

9 100.00% 2.28%

Przykład

Krzywa ROC (odsetek wyników pozytywnych)

(26)

barierka 1-swoisto´s´c czuło´s´c

4 84.13% 99.87%

5 50.00% 97.72%

6 15.87% 84.13%

7 2.28% 50.00%

8 0.13% 15.87%

9 0.00% 2.28%

Przykład Krzywa ROC

Nieznajomo´s´c matematyki zabija Irena Cie´sli ´nska GW 21.11.2014

Zrobiłam mammografi˛e. Dostałam wynik. Pozytywny. - Czy mam raka, dokto- rze? - zapytałam.

- Czuło´s´c testu wynosi 87 proc. To nie oznacza z cał ˛a pewno´sci ˛a, ˙ze ma pani nowotwór, bo zawsze jest jeszcze szansa, ˙ze zalicza si˛e pani do 13 proc.

szcz˛e´sliwców. Radziłbym wykona´c teraz dodatkowe badania, biopsj˛e.

- Ale ryzyko, ˙ze mam raka, wynosi jakie´s 87 proc.?

- Niestety tak. Przykro mi to mówi´c.

(27)

A jak powinno by´c Czuło´s´c wynosi 87%

P {wynik pozytywny|osoba chora} = 0.87 Swoisto´s´c wynosi 93%

P {wynik pozytywny|osoba zdrowa} = 0.07

A jak powinno by´c

Cz˛esto´s´c wyst˛epowania choroby wynosi 0.7%

P {osoba chora} = 0.007 Ogólny odsetek wyników pozytywnych

P {wynik pozytywny} =

P {wynik pozytywny|osoba chora} · P {osoba chora}+

P {wynik pozytywny|osoba zdrowa} · P {osoba zdrowa} = 0.87 · 0.007 + 0.07 · 0.993 = 0.0756

A jak powinno by´c

Ryzyko choroby przy pozytywnym wyniku P {osoba chora|wynik pozytywny} =

P {wynik pozytywny|osoba chora} · P {osoba chora}

P {wynik pozytywny} =

0.87 · 0.007

0.0756 = 0.0805