Dane. Charakteryzują obserwacje jednej lub wielu zmiennych Są uzyskiwane z próby, reprezentującej populację Mają różne formy (postacie)

(1)

Statystyka

(2)

Dane

• Charakteryzują obserwacje jednej lub wielu zmiennych

• Są uzyskiwane z próby, reprezentującej populację

• Mają różne formy (postacie)

(3)

Dane

Populacja generalna - zbiór elementów mający przynajmniej jedną właściwość wspólną dla wszystkich jego elementów kwalifikującą je do tego zbioru oraz

przynajmniej jedną właściwość, ze

względu na którą elementy tego zbioru mogą się różnić między sobą

(4)

Formy danych

• Dane jakościowe – cecha będąca

zmienną charakteryzowana jest przez opis słowny (może być subiektywny) i należy

wyłącznie do jednej z rozpatrywanych kategorii. Kategorie wzajemnie się

wykluczają

• Dane ilościowe – cecha będąca zmienną przyjmuje wartości liczbowe

(5)

Dane jakościowe

• Gdy zmienna przyjmuje jedną z dwóch możliwych wartości nazywają się

binarnymi lub dychotomicznymi, np. szczepiony, nieszczepiony

chory, zdrowy

(6)

Dane jakościowe

• Dane nominalne – zmienna jest

nieuporządkowana lecz można ją podzielić na rozłączne kategorie; jest nazwą

określającą stan

np. grupa krwi A, B, AB, 0 stan cywilny

(7)

Dane jakościowe

• Dane porządkowe (rangowe) - zmienna jest uporządkowana i można ją podzielić na klasy. Klasy (podzbiory) można

uporządkować i nadać im liczby

porządkowe tworząc prostą skalę. Nazwa klasy jest także opisem.

np. skala bólu: silny, umiarkowany, łagodny, brak

wykształcenie podstawowe, średnie, wyższe

(8)

Dane ilościowe

• Dane dyskretne – cecha zmienna przyjmuje wartości całkowite

• Dane ciągłe – cecha zmienna przyjmuje dowolną wartość liczbową

(9)

Dane pochodne

• Procenty – gdy istotne są relacje względne a nie wartości bezwzględne np. liczba chorych przypadających na całą społeczność

• Proporcje (ilorazy) – gdy taka forma danych jest czytelniejszym opisem cech badanego np.

BMI

• Częstości – powszechnie stosowane w epidemiologii

• Punktacja – stosuje się własną, przyjętą

arbitralnie, punktację, gdy nie można zmierzyć wielkości

(10)

Dane ucięte

• Spotyka się, gdy czułość urządzenia pomiarowego jest zbyt mała, aby

wykryć niewielki poziom badanej zmiennej

• W sytuacji, gdy część badanych

obiektów przestaje brać udział w

badaniach

(11)

Wprowadzanie danych

Dane brakujące:

• można usunąć wiersz z brakującą daną

lub

• można wpisać średnią arytmetyczną z danych tej samej kategorii

(12)

Wartości odskakujące

Znacznie różnią się od większości danych i są niezgodne z pozostałymi danymi.

Mogą być prawdziwe ale także mogą być wynikiem błędnego pomiaru np. kobieta o wzroście 204 cm.

(13)

Wartości odskakujące

Postępowanie:

• sprawdzić czy mają wpływ na wynik analizy, dokonując obliczeń przy

uwzględnieniu tych danych oraz

powtarzając obliczenia po wykluczeniu tych danych.

• gdy wyniki się znacznie różnią, należy

zastosować odpowiednie metody analizy

(14)

Miary tendencji centralnej

Charakteryzuje przeciętny pomiar. Inaczej mówiąc jest miarą położenia wartości

reprezentatywnej. W zależności od charakteru danych stosuje się

alternatywnie kilka miar wartości przeciętnej

(15)

Miary tendencji centralnej

Średnia arytmetyczna

inny zapis

lub lub

n x x

n

i



i

 ¹

n x _



xⁱ

n x _



x n

x ...

x x

x x     ⁿ

 ¹ ² ³

(16)

Miary tendencji centralnej

Mediana jest wartością znajdującą się w środku szeregu uporządkowanych danych, jeżeli liczba obserwacji jest nieparzysta

lub

jest średnią arytmetyczną z dwóch

sąsiednich środkowych obserwacji, gdy liczba tych obserwacji jest parzysta

(17)

Miary tendencji centralnej

Modalna (moda, dominanta) jest

wartością najczęściej występującą w zbiorze.

Jeżeli dane są ciągłe, to grupuje się je i wyznacza modalną dla grup.

Może istnieć kilka modalnych – gdy dwie lub więcej wartości występuje tyle samo

razy a inne wartości występują mniej razy.

Może nie istnieć modalna – gdy każda z wartości występuje tylko raz

(18)

Miary tendencji centralnej

S

posoby wyznaczania modalnej są różne w zależności od szeregu:

szereg rozdzielczy punktowy

szereg

rozdzielczy przedziałowy

(19)

Miary tendencji centralnej

szereg rozdzielczy punktowy -

wyznaczenie modalnej sprowadza się do wskazania wartości, która występuje najczęściej, czyli takiej, której

odpowiada największa liczebność

(20)

Miary tendencji centralnej

Przykład 1:

Wyznaczyć modalną na podstawie ilości dzieci w 20 rodzinach.

Dane - ilość dzieci w rodzinie:

1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5

(21)

Miary tendencji centralnej

szereg

rozdzielczy przedziałowy -

wskazujemy przedział modalnej (przedział, któremu odpowiada największa

liczebność), a następnie wyznaczamy przybliżoną wartość modalnej według wzoru interpolacyjnego

(22)

Miary tendencji centralnej

l₀ – dolna granica przedziału, w którym znajduje się modalna, f_m – liczebność przedziału zawierającego modalną

f_m-1 – liczebność przedziału poprzedzającego modalną f_m+1 – liczebność przedziału następnego po modalnej i – wielkość przedziału, w którym znajduje się modalna



₁

 

¹ ₁



0









 





m m

o f f f f

f i f

l M

(23)

Miary tendencji centralnej

Średnia geometryczna

jest zbliżona do mediany i mniejsza od

średniej arytmetycznej. Warunek: rozkład danych musi być symetryczny. Gdy dane są skośne musimy je przygotować, aby

można było policzyć średnią geometryczną

n

i n i

n x

x ...

x x

x









1 3

2 1

(24)

Miary tendencji centralnej

Średnia harmoniczna

stosowana jest, gdy wartości cechy opisują szybkość zmian badanej zmiennej

np. spadek produkcji, wzrost bezrobocia





 _n

i xi

x n

1

(25)

Miary tendencji centralnej

Średnia ważona







 















  _n

i

i n

i

i i

n

n n

w x w

w ...

w w

w

x w

...

x w

x x w

1 1 3

2 1

3 3

2 2

1 1

(26)

Miary tendencji centralnej

Kwartyl. Wartości Q1, Q2, Q3, zmiennej x które dzielą uporządkowany szereg na 4 równe pod względem liczebności części nazywa się kwartylami

(27)

Miary tendencji centralnej

Kwartyl pierwszy Q1 dzieli obserwacje w

taki sposób, że 25% obserwacji jest niższa bądź równa wartości tego kwartyla, a 75%

obserwacji jest równa bądź większa niż wartość tego kwartyla

Analogicznie:

Kwartyl drugi – jak inaczej się nazywa?

Kwartyl trzeci

(28)

Miary tendencji centralnej

Percentyl. Porządkujemy szereg danych od najmniejszej do największej. Wartość zmiennej x, poniżej której w tym szeregu znajduje się 1% wartości nazywa się

pierwszym percentylem. Analogicznie

drugi percentyl, to taka wartość zmiennej x, poniżej której w tym uporządkowanym szeregu znajduje się 2% wartości

(29)

Miary tendencji centralnej

Decyl. Porządkujemy szereg danych od najmniejszej do największej. Wartości

zmiennej x, które dzielą ten szereg na 10 równych pod względem liczebności części nazywa się decylami. Są to dziesiąty,

dwudziesty, trzydziesty, ...., dziewięćdziesiąty percentyl

(30)

Miary tendencji centralnej

Czym jest dwudziestypiąty percentyl?

Czym jest pięćdziesiąty percentyl?

Czym jest siedemdziesiątypiąty percentyl?

(31)

Miary rozproszenia

Miary rozproszenia znane są także pod nazwą dyspersji lub zmienności

(32)

Miary rozproszenia

Rozstęp to różnica pomiędzy najmniejszą i największą wartością w zbiorze danych.

Może być mylący, gdy występują wartości odskakujące

min

max

x

R  

(33)

Miary rozproszenia

Odchylenie przeciętne

n

x x

d

n

i



i





 ¹

(34)

Miary rozproszenia

Wariancja

 

n

x x

s

n

i



i





 ¹

2 2

(35)

Miary rozproszenia

Wariancja dla próby

dzielimy przez n - 1.

Najczęściej w badaniach mamy do czynienia z danymi z próby

 

1

2 2









n

x x

s

n

i

(36)

Miary rozproszenia

Odchylenie standardowe

wybieramy odpowiedni do rodzaju badania wzór na wariancję – dla

populacji lub dla próby s2

s 

(37)

Miary rozproszenia

Współczynnik zmienności

jest wartością względną wyrażoną w procentach

 100

 x

w s

(38)

Miary rozproszenia

Rozstęp międzykwartylowy

1

3

Q

IQR  

(39)

Miary geometrii rozkładu

k-ty moment centralny rozkładu

 

n

x x

n

i

k i

k







 ¹



(40)

Miary geometrii rozkładu

Czym jest drugi moment centralny rozkładu?

(41)

Miary symetrii rozkładu

Trzeci moment centralny rozkładu informuje o symetrii rozkładu:

μ₃< 0 rozkład lewoskośny μ₃= 0 rozkład symetryczny μ₃> 0 rozkład prawoskośny

(42)

Miary spłaszczenia rozkładu

Czwarty moment centralny rozkładu informuje o spłaszczeniu rozkładu w porównaniu z rozkładem normalnym

(43)

Miary spłaszczenia rozkładu

Współczynnik skupienia (koncentracji) (kurtoza) (K) - jest miarą skupienia

poszczególnych obserwacji wokół średniej

4 4

K _  s

(44)

Miary spłaszczenia rozkładu

K > 3 rozkład bardziej wysmukły K = 3 rozkład normalny

K < 3 rozkład mniej wysmukły

(45)

Miary spłaszczenia rozkładu

K = 3 oznacza rozkład normalny zwany mezokurtycznym

(46)

Miary spłaszczenia rozkładu

K > 3 oznacza rozkład zwany leptokurtycznym

wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnym

(47)

Miary spłaszczenia rozkładu

Rozkład leptokurtyczny świadczy najczęściej o występowaniu dwóch

niezależnych subpopulacji o rozkładach normalnych o zbliżonych średnich i

różnych wariancjach

(48)

Miary spłaszczenia rozkładu

K < 3 oznacza rozkład zwany platykurtycznym

wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym

(49)

Miary spłaszczenia rozkładu

Rozkład platykurtyczny jest szczególnym przypadkiem rozkładu dwumodalnego.

Oznacza to, że próba nie jest jednorodna i jej obserwacje pochodzą z dwóch różnych populacji, z których każda ma rozkład

normalny. Próby powinno się rozdzielić i osobno analizować każdą z nich

(50)

Miary spłaszczenia rozkładu

http://home.agh.edu.pl/~bartus/index.php?action=dydaktyka&subaction=statystyka&item=miary_koncentracji

(51)

Miary spłaszczenia rozkładu

Inna forma miary spłaszczenia - eksces vel. współczynnik ekscesu (

Ex

):

 3

 K

Ex

(52)

Przedział ufności

Jeżeli cecha

X

w zbiorowości generalnej ma rozkład normalny

to średnia arytmetyczna z próby z tej zbiorowości ma rozkład normalny o parametrach:

 

^X ^,

^

N : X

x





, n X N

:

x



(53)

Przedział ufności

Wartość standaryzowana średniej arytmetycznej

ma rozkład normalny o parametrach:

n X u x



 

  ^0, ¹

N

:

u

(54)

Przedział ufności

Prawdopodobieństwo, że wartość

standaryzowana średniej arytmetycznej mieści się wewnątrz przedziału (-u_α, u_α) jest równe:



^



   



 



  



 x X n u 1

u P

(55)

Przedział ufności

Przedział ufności dla średniej arytmetycznej:

współczynnik ufności:

1- α

 





   



 



       1

u n x

n X u

x P

(56)

Przedział ufności

Najczęściej stosowane wartości:

1- α = 0,90 u_α= 1,65 1- α = 0,95 u_α= 1,96 1- α = 0,99 u_α= 2,58 1- α = 0,997 u_α= 3,00

(57)

Przedział ufności

O populacji ludzi wiadomo, że czas reakcji na pewien bodziec ma rozkład normalny, o odchyleniu standardowym równym 12 minut. Wylosowano 36

zdrowych osób. Średni czas reakcji dla tej próby wynosi 23 minuty.

Obliczyć z prawdopodobieństwem

równym 0,997 średni czas reakcji na ten bodziec u wszystkich zdrowych osób.

(58)

Przedział ufności



¹⁷ ^X ²⁹



⁰^,⁹⁹⁷

P   

997 36 0

3 12 36 23

3 12

23 X ,

P  



 



      

(59)

Przedział ufności

Jeżeli cecha

X

w zbiorowości generalnej ma rozkład normalny

to zmienna losowa

ma rozkład t Studenta o n - 1 stopniach swobody

 

^X ^,

^

N : X

 1

 

 n

s

X

t x

(60)

Przedział ufności

Przedział ufności dla średniej arytmetycznej:

s - odchylenie standardowe z próby

 

   



 





 





 



 1

1

1 n

t s x

n X t s

x P

(61)

Przedział ufności

Dla prób powyżej 100 jednostek przedział ufności dla średniej arytmetycznej:

s - odchylenie standardowe z próby

Rozkład dowolny, ale nie mocno silnie asymetryczny

 

   



 



       1

n u s

x n X

u s x

P

(62)

Współzależność dwóch cech

Rodzaje analizy relacji między danymi:

• Analiza zależności między dwiema cechami niemierzalnymi

• Analiza zależności między cechą mierzalną a niemierzalną

• Analiza zależności między dwiema cechami mierzalnymi

(63)

Analiza zależności między dwiema cechami niemierzalnymi

Współczynnik Yule’a:

dane zebrane są w tablicy czteropolowej:

c b d

a

c b d

Q a









 

(64)

odmiany cechy B

odmiany cechy A I II razem

I a b a+b

II c d c+d

razem a+c b+d a+b+c+d

Analiza zależności między dwiema

cechami niemierzalnymi

(65)

Analiza zależności między dwiema cechami niemierzalnymi

• Q = 0 brak zależności

• Q > 0 I odmiana cechy A współwystępuje z I odmianą cechy B, a II odmiana cechy A współwystępuje z II odmianą cechy B

• Q < 0 I odmiana cechy A współwystępuje z II odmianą cechy B, a II odmiana cechy A współwystępuje z I odmianą cechy B

(66)

Analiza zależności między dwiema cechami niemierzalnymi

Przykład: Czy istnieje zależność pomiędzy szczepieniem a odpornością populacji na chorobę?

Dane zawiera poniższa tabela:

zachorowali nie zachorowali razem

szczepieni 9 312 321

nieszczepieni 28 26 54

razem 37 338 375

(67)

Analiza zależności między dwiema cechami niemierzalnymi

współczynnik Yule’a:

Q < 0 - silna zależność pomiędzy brakiem zachorowania a szczepieniem

95 , 8970 0

8502 28

312 26

9

28 312

26

9   

 







  Q

(68)

Analiza zależności między cechą mierzalną a niemierzalną

Miara siły zależności:

y - cecha mierzalna

x - cecha niemierzalna

x_i - odmiana cechy niemierzalnej

σ_yxi - odchylenie standardowe średnich cząstkowych σ_y - odchylenie standardowe cechy mierzalnej

y yx yx

i



  

(69)

Analiza zależności między cechą mierzalną a niemierzalną

η_yx = 0 - brak zależności η_yx = 1 - pełna zależność

(70)

Analiza zależności między cechą mierzalną a niemierzalną

Przykład: Czy istnieje zależność pomiędzy spadkiem masy ciała a metodą odchudzania?

spadek masy ciała [kg]

metoda I [liczba osób]

metoda II [liczba osób]

metoda III [liczba osób]

razem [liczba osób]

0 1 0 0 1

1 10 8 3 21

2 10 12 15 37

3 4 5 7 16

razem 25 25 25 75

(71)

Analiza zależności między cechą mierzalną a niemierzalną

metoda I

średnia cząstkowa:

spadek masy ciała y_i

metoda I

n_i y_in_i

0 1 0

1 10 10

2 10 20

3 4 12

razem 25 42

] [ 7 , 25 1

42 kg

y_xI  

(72)

Analiza zależności między cechą mierzalną a niemierzalną

metoda II

n_i y_in_i

0 0 0

1 8 8

2 12 24

3 5 15

razem 25 47

] [ 9 , 25 1

47 kg

y_xII  

(73)

Analiza zależności między cechą mierzalną a niemierzalną

metoda III

n_i y_in_i

0 0 0

1 3 3

2 15 30

3 7 21

razem 25 54

] [ 2 , 25 2

54 kg

y_xIII  

(74)

Analiza zależności między cechą mierzalną a niemierzalną

tabela odchyleń standardowych średnich cząstkowych:

średnia dla całej zbiorowości

odchylenie standardowe średnich

1,7 25 - 0,2 0,04 1,00

1,9 25 0,0 0,00 0,00

2,2 25 0,3 0,09 2,25

- 75 - - 3,25

^y ^y²

n_i  _xi 

^y_xi ^ ^y²

y y_xi  ni

yxi

] [ 9 , 75 1

143 kg

y  

] [ 21 , 75 0

25 ,

3 kg

yxi  



(75)

Analiza zależności między cechą mierzalną a niemierzalną

tabela ogólnego odchylenia standardowego:

ogólne odchylenie standardowe

0 1 - 1,9 3,61 3,61

1 21 - 0,9 0,81 17,01

2 37 0,1 0,01 0,37

3 16 1,1 1,21 19,36

- 75 - - 40,35

^y ^y²

n_i  _i 

^y_i ^ ^y²

y y_i  ni

yi

] [ 73 , 75 0

35 ,

40 kg

y  



(76)

Analiza zależności między cechą mierzalną a niemierzalną

miara siły zależności:

wniosek:

istnieje słaba zależność między metodą odchudzania a wielkością spadku masy ciała

28 , 73 0

, 0

21 ,

0 



y yx yx

i



 

(77)

Skala zależności

r_xy = 0 brak zależności 0 < r_xy < 0,1 nikła zależność 0,1 ≤ r_xy < 0,3 słaba zależność

0,3 ≤ r_xy < 0,5 przeciętna zależność 0,5 ≤ r_xy < 0,7 wysoka zależność

0,7 ≤ r_xy < 0,9 bardzo wysoka zależność 0,9 ≤ r_xy < 1 prawie pełna zależność r_xy = 1 pełna zależność

(78)

Analiza zależności między dwiema cechami mierzalnymi

Powiązanie funkcyjne zmiennej zależnej od zmiennej niezależnej:

• zależność liniowa

• zależność nieliniowa

(79)

Analiza zależności między dwiema cechami mierzalnymi

Zależność liniowa jest opisana liniowym równaniem regresji inaczej równaniem regresji stopnia pierwszego:

b x

a

y   

(80)

Analiza zależności między dwiema cechami mierzalnymi

współczynnik regresji:

N

x b

y a

N

i

i N

i



^ ^

 ^1

2

1 1

2 1



 



 









 





N

i

i N

i

N

i

i N

i

i N

i

i i

x x

N

y x

N b

(81)

Analiza zależności między dwiema cechami mierzalnymi

Równanie regresji stopnia pierwszego

pozwala na predykcję wartości wewnątrz

przedziału obserwacji zmiennej niezależnej!

(82)

Analiza zależności między dwiema cechami mierzalnymi

• dla dowolnej zmiennej X zmienna Y ma rozkład normalny,

• wariancje populacji Y są homogeniczne,

• relacja X i Y jest liniowa,

• próbki populacji Y są wzajemnie niezależne,

• próbki populacji X i Y nie są obarczone błędem pomiarowym.

(83)

Analiza zależności między dwiema cechami mierzalnymi

Miara korelacji prostoliniowej – współczynnik korelacji Pearsona:

       

y x

y E x

E y

x E y

r x



 





 

 cov  ,

(84)

Analiza zależności między dwiema cechami mierzalnymi

Miara korelacji prostoliniowej – współczynnik korelacji Pearsona:

   

    















 N

i

i N

i

i N

i

i i

y y

x x

y y

x x

r

1

2

1

2 1

(85)

Analiza zależności między dwiema cechami mierzalnymi

• dla dowolnej zmiennej X zmienna Y ma rozkład normalny,

• dla dowolnej zmiennej Y zmienna X ma rozkład normalny.

(86)

Analiza zależności między dwiema cechami mierzalnymi

Współczynnik korelacji zmienia się w zakresie od –1 do 1.

Podobnie jak współczynnik Youle’a

oddzielnie analizuje się znak i oddzielnie analizuje się wartość bezwzględną

(87)

Analiza zależności między dwiema cechami mierzalnymi

• wartość bezwzględna równa 1 – pełny związek funkcyjny

• wartość równa 0 – brak związku funkcyjnego

• wartości pomiędzy 0 a 1 – słabsza lub silniejsza zależność liniowa

(88)

Analiza zależności między dwiema cechami mierzalnymi

• r > 0 korelacja dodatnia - wzrost zmiennej niezależnej powoduje wzrost zmiennej

zależnej

• r < 0 korelacja ujemna - wzrost zmiennej niezależnej powoduje spadek zmiennej zależnej

(89)

Analiza zależności między dwiema cechami rangowanymi

Miara korelacji prostoliniowej – współczynnik korelacji rang Spearmana uwzględniający

rangi wiązane:

gdzie



¹



6

1 ¹ ₂

2







 



  











N N

T T

d _x _y

N

i



 

_i

 

_i

i ran x ran y

d  

(90)

Analiza zależności między dwiema cechami rangowanymi

współczynniki:

l_j liczba obserwacji w próbie posiadających tę samą j-tą wartość rangi zmiennej x

k_m liczb obserwacji w próbie posiadających tę samą m-tą wartość rangi zmiennej y

 









 ^J

j

j j

x l l

T

1 3

12 1

 









 ^M

m

m m

y k k

T

1

3

12 1

(91)

Analiza zależności między dwiema cechami rangowanymi

Przykład: Czy szczepienia mają wpływ na zachorowalność?

miasto

wskaźnik szczepień

x_i

wskaźnik zachorowal

ności y_i

ranga x_i ranga y_i d_i =

ran(x_i) – ran(y_i) d_i²

A 4,21 4,69 3 4 -1 1

B 3,89 6,06 2 7 -5 25

C 3,79 5,75 1 6 -5 25

D 5,01 4,12 6 2 4 16

E 4,63 4,29 4 3 1 1

F 5,82 3,87 7 1 6 36

G 4,91 5,41 5 5 0 0

razem 104

(92)

Analiza zależności między dwiema cechami rangowanymi

Ujemny współczynnik korelacji rang wskazuje, że wzrost szczepień powoduje SPADEK zachorowalności

Wartość bezwzględna wskazuje na bardzo wysoką zależność pomiędzy szczepieniami a zachorowalnością

  ^   ^

86 , 0 86

, 1 48 1

7

104 1 6

1 7

7

0 0

104 1 6

1 6

1 ¹ ₂ ₂

2







 

 



 





 

 





 



  











N N

T T

d _x _y

N

 i

(93)

Hipotezy statystyczne

Hipoteza statystyczna to każde

przypuszczenie o populacji generalnej, dotyczące jej cech statystycznych:

– rozkładu,

– miary tendencji centralnej, – miary rozproszenia.

(94)

Hipotezy statystyczne

Hipotezy statystyczne można podzielić na:

• parametryczne - hipoteza dotyczy wartości parametrów rozkładu,

• nieparametryczne - hipoteza dotyczy postaci funkcji rozkładu

(95)

Hipotezy statystyczne

Hipotezę statystyczną podlegającą weryfikacji nazywa się zerową H₀. Jest przeciwieństwem hipotezy

alternatywnej H₁.

(96)

Hipotezy statystyczne

Weryfikacja hipotezy statystycznej odbywa się na podstawie danych z próby.

Zatem, wnioski można formułować z pewnym prawdopodobieństwem.

(97)

Hipotezy statystyczne

Można popełnić błędy dwojakiego rodzaju:

– błąd I rodzaju z prawdopodobieństwem α - odrzucić hipotezę H₀ mimo, że jest prawdziwa – błąd II rodzaju z prawdopodobieństwem β -

przyjąć hipotezę H₀ mimo, że jest fałszywa

(98)

Hipotezy statystyczne

Prawdopodobieństwo popełnienia błędu I rodzaju nosi nazwę poziomu istotności α.

Poziom istotności ustalany jest a priori. W naukach biologiczno-medycznych wynosi zwykle α = 0,1 lub α = 0,05, rzadziej

α = 0,01.

(99)

Wybór typu testu

O wyborze decyduje kształt rozkładu prawdopodobieństwa:

• rozkład zgodny z rozkładem Gaussa – test parametryczny

• rozkład niezgodny z rozkładem Gaussa – test nieparametryczny

(100)

Wybór typu testu

Badanie kształtu rozkładu na podstawie

próby przeprowadzić można przy pomocy:

• testu chi-kwadrat,

• testu Kołmogorowa-Smirnowa,

• testu Shapiro-Wilka

(101)

Testy parametryczne

• Badana cecha ma rozkład normalny

• Różnica wariancji w badanych

populacjach jest nieistotna statystycznie

(102)

Testy parametryczne

Test

z

dla wartości średniej w populacji:

gdy n^{> 30} zastępujemy s^. X n

z  x  



(103)

Testy parametryczne

Istotność różnicy wartości średnich

arytmetycznych z dwóch niezależnych prób losowych:

Warunek: n^{> 30}

2 2 2 1

2 1

n s n

s

x z x



 

(104)

Testy parametryczne

Test t Studenta dla dwóch niezależnych prób losowych o małej liczebności :

2 1

1 1

n K n

x t x





 

   

2 1 1

2 1

2 2 2

2 1 1













 

n n

s n

s K n

30 4  n 

(105)

Testy parametryczne

Zmodyfikowany test t Studenta (wariancje

różnią się w sposób istotny statystycznie):

2 2 2 1

2 1

n s n

s

x t_z x



 

1

1 ₂

2

2 2 2

1

2

1 2 1

2

2 2 2 1

2 1





 





 



 







 



 



n n s n

n s

n s n

s



(106)

Testy parametryczne

Test t Studenta dla dwóch zależnych prób losowych:

s n t  d 

i i

i x x

d  ₁  ₂

 

1

2









n

d d

s

n

i

n d d

n

i



i

 ¹

(107)

(108)

Test wariancji

Test Fishera:

stopnie swobody

2 2

2 1

s F  s

1 1

1  n 

 ₂  n₂ 1

2 2 2

1 s

s 

(109)

Testy parametryczne

(110)

ANOVA

Analiza wariancji - jednoczynnikowa:

• każda populacja musi mieć rozkład normalny,

• próby pobrane z każdej populacji muszą być niezależnymi próbami losowymi,

• wariancje w populacjach są równe.

(111)

ANOVA

• Mamy k prób

• Wyznaczamy średnią arytmetyczną dla każdej próby:

gdzie i = 1, 2, …, k

i ni

j

j i

i n

x x





 ¹

,

(112)

ANOVA

• Wyznaczamy średnią arytmetyczną globalną:

gdzie

n x x

k

i

ni

j



i

 

 ¹ ¹

,





 ^k

i

ni

n

1

(113)

ANOVA

• Wyznaczamy liczbę stopni swobody między próbami:

• Wyznaczamy liczbę stopni swobody wewnątrz prób:

1

 k df_G

k n

df_E  

(114)

ANOVA

• Wyznaczamy sumę kwadratów wewnątrz prób:

• Wyznaczamy sumę kwadratów pomiędzy próbami:

 



 



 ^k

i

ni

j

i j

i x

x SSE

1 1

2 ,

 







 ^k

i

i x

x SSG

1

2

(115)

ANOVA

• Wyznaczmy średni kwadrat odchyleń wewnątrz prób:

• Wyznaczmy średni kwadrat odchyleń pomiędzy próbami:

k n

SSE df

MSE SSE

E  



1



 k

SSG df

MSG SSG

G

(116)

ANOVA

• Statystyka testowa:

• Porównujemy uzyskaną w teście liczbę F z liczbą F_α z tablicy rozkładu F^-Snedecora

(odrzucamy H₀, gdy ⁾

MSE F  MSG

 , ,dfE dfG

F F 

(117)

ANOVA

• Procedura Bonferroniego – test post hoc:

jeśli odrzucamy H₀ to porównanie wielokrotne, np.:

– test LSD, Duncana, Tukeya, – test Benferroniego, Scheffego, – …

(118)

Scheffe

• Wybieramy średnią arytmetyczną i dla porównywanych prób

• Obliczamy S

gdzie











 





j

i n

MSE n

SE 1 1

xi x_j

SE x S xⁱ  ^j



(119)

Scheffe

• Obliczamy wartość krytyczną S_α

• Porównujemy uzyskaną w teście liczbę S^z

liczbą S_α (odrzucamy H₀, gdy S ≥ S_α )



 dfG FdfG ,dfE ,

S  

(120)

LSD

• Wybieramy średnią arytmetyczną i dla porównywanych prób

• Obliczamy LSD:











 





j i

dfE MSE n n

t

LSD 1 1

,

xi x_j

(121)

LSD

• Jeśli

to średnie arytmetyczne i różnią się

istotnie statystycznie na poziomie istotności α LSD

x

x_i  _j 

xi x_j

(122)

ANOVA

Przykład 1

Tabela zawiera wyniki pomiaru stężenia cukru we krwi u osób stosujących różne diety. Czy poziom glikemii

zależy od wybranej diety?