• Nie Znaleziono Wyników

Dane. Charakteryzują obserwacje jednej lub wielu zmiennych Są uzyskiwane z próby, reprezentującej populację Mają różne formy (postacie)

N/A
N/A
Protected

Academic year: 2022

Share "Dane. Charakteryzują obserwacje jednej lub wielu zmiennych Są uzyskiwane z próby, reprezentującej populację Mają różne formy (postacie)"

Copied!
196
0
0

Pełen tekst

(1)

Statystyka

(2)

Dane

• Charakteryzują obserwacje jednej lub wielu zmiennych

• Są uzyskiwane z próby, reprezentującej populację

• Mają różne formy (postacie)

(3)

Dane

Populacja generalna - zbiór elementów mający przynajmniej jedną właściwość wspólną dla wszystkich jego elementów kwalifikującą je do tego zbioru oraz

przynajmniej jedną właściwość, ze

względu na którą elementy tego zbioru mogą się różnić między sobą

(4)

Formy danych

• Dane jakościowe – cecha będąca

zmienną charakteryzowana jest przez opis słowny (może być subiektywny) i należy

wyłącznie do jednej z rozpatrywanych kategorii. Kategorie wzajemnie się

wykluczają

• Dane ilościowe – cecha będąca zmienną przyjmuje wartości liczbowe

(5)

Dane jakościowe

• Gdy zmienna przyjmuje jedną z dwóch możliwych wartości nazywają się

binarnymi lub dychotomicznymi, np. szczepiony, nieszczepiony

chory, zdrowy

(6)

Dane jakościowe

• Dane nominalne – zmienna jest

nieuporządkowana lecz można ją podzielić na rozłączne kategorie; jest nazwą

określającą stan

np. grupa krwi A, B, AB, 0 stan cywilny

(7)

Dane jakościowe

• Dane porządkowe (rangowe) - zmienna jest uporządkowana i można ją podzielić na klasy. Klasy (podzbiory) można

uporządkować i nadać im liczby

porządkowe tworząc prostą skalę. Nazwa klasy jest także opisem.

np. skala bólu: silny, umiarkowany, łagodny, brak

wykształcenie podstawowe, średnie, wyższe

(8)

Dane ilościowe

• Dane dyskretne – cecha zmienna przyjmuje wartości całkowite

• Dane ciągłe – cecha zmienna przyjmuje dowolną wartość liczbową

(9)

Dane pochodne

• Procenty – gdy istotne są relacje względne a nie wartości bezwzględne np. liczba chorych przypadających na całą społeczność

• Proporcje (ilorazy) – gdy taka forma danych jest czytelniejszym opisem cech badanego np.

BMI

• Częstości – powszechnie stosowane w epidemiologii

• Punktacja – stosuje się własną, przyjętą

arbitralnie, punktację, gdy nie można zmierzyć wielkości

(10)

Dane ucięte

• Spotyka się, gdy czułość urządzenia pomiarowego jest zbyt mała, aby

wykryć niewielki poziom badanej zmiennej

• W sytuacji, gdy część badanych

obiektów przestaje brać udział w

badaniach

(11)

Wprowadzanie danych

Dane brakujące:

• można usunąć wiersz z brakującą daną

lub

• można wpisać średnią arytmetyczną z danych tej samej kategorii

(12)

Wartości odskakujące

Znacznie różnią się od większości danych i są niezgodne z pozostałymi danymi.

Mogą być prawdziwe ale także mogą być wynikiem błędnego pomiaru np. kobieta o wzroście 204 cm.

(13)

Wartości odskakujące

Postępowanie:

• sprawdzić czy mają wpływ na wynik analizy, dokonując obliczeń przy

uwzględnieniu tych danych oraz

powtarzając obliczenia po wykluczeniu tych danych.

• gdy wyniki się znacznie różnią, należy

zastosować odpowiednie metody analizy

(14)

Miary tendencji centralnej

Charakteryzuje przeciętny pomiar. Inaczej mówiąc jest miarą położenia wartości

reprezentatywnej. W zależności od charakteru danych stosuje się

alternatywnie kilka miar wartości przeciętnej

(15)

Miary tendencji centralnej

Średnia arytmetyczna

inny zapis

lub lub

n x x

n

i

i

1

n x

xi

n x

x n

x ...

x x

x x n

1 2 3

(16)

Miary tendencji centralnej

Mediana jest wartością znajdującą się w środku szeregu uporządkowanych danych, jeżeli liczba obserwacji jest nieparzysta

lub

jest średnią arytmetyczną z dwóch

sąsiednich środkowych obserwacji, gdy liczba tych obserwacji jest parzysta

(17)

Miary tendencji centralnej

Modalna (moda, dominanta) jest

wartością najczęściej występującą w zbiorze.

Jeżeli dane są ciągłe, to grupuje się je i wyznacza modalną dla grup.

Może istnieć kilka modalnych – gdy dwie lub więcej wartości występuje tyle samo

razy a inne wartości występują mniej razy.

Może nie istnieć modalna – gdy każda z wartości występuje tylko raz

(18)

Miary tendencji centralnej

S

posoby wyznaczania modalnej są różne w zależności od szeregu:

szereg rozdzielczy punktowy

szereg

rozdzielczy przedziałowy

(19)

Miary tendencji centralnej

szereg rozdzielczy punktowy -

wyznaczenie modalnej sprowadza się do wskazania wartości, która występuje najczęściej, czyli takiej, której

odpowiada największa liczebność

(20)

Miary tendencji centralnej

Przykład 1:

Wyznaczyć modalną na podstawie ilości dzieci w 20 rodzinach.

Dane - ilość dzieci w rodzinie:

1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5

(21)

Miary tendencji centralnej

szereg

rozdzielczy przedziałowy -

wskazujemy przedział modalnej (przedział, któremu odpowiada największa

liczebność), a następnie wyznaczamy przybliżoną wartość modalnej według wzoru interpolacyjnego

(22)

Miary tendencji centralnej

l0 – dolna granica przedziału, w którym znajduje się modalna, fm – liczebność przedziału zawierającego modalną

fm-1 – liczebność przedziału poprzedzającego modalną fm+1 – liczebność przedziału następnego po modalnej i – wielkość przedziału, w którym znajduje się modalna

1

 

1 1

0

 

m m

m m

m m

o f f f f

f i f

l M

(23)

Miary tendencji centralnej

Średnia geometryczna

jest zbliżona do mediany i mniejsza od

średniej arytmetycznej. Warunek: rozkład danych musi być symetryczny. Gdy dane są skośne musimy je przygotować, aby

można było policzyć średnią geometryczną

n

n

i n i

n x

x ...

x x

x

x

1 3

2 1

(24)

Miary tendencji centralnej

Średnia harmoniczna

stosowana jest, gdy wartości cechy opisują szybkość zmian badanej zmiennej

np. spadek produkcji, wzrost bezrobocia

n

i xi

x n

1

1

(25)

Miary tendencji centralnej

Średnia ważona

n

i

i n

i

i i

n

n n

w x w

w ...

w w

w

x w

...

x w

x w

x x w

1 1 3

2 1

3 3

2 2

1 1

(26)

Miary tendencji centralnej

Kwartyl. Wartości Q1, Q2, Q3, zmiennej x które dzielą uporządkowany szereg na 4 równe pod względem liczebności części nazywa się kwartylami

(27)

Miary tendencji centralnej

Kwartyl pierwszy Q1 dzieli obserwacje w

taki sposób, że 25% obserwacji jest niższa bądź równa wartości tego kwartyla, a 75%

obserwacji jest równa bądź większa niż wartość tego kwartyla

Analogicznie:

Kwartyl drugi – jak inaczej się nazywa?

Kwartyl trzeci

(28)

Miary tendencji centralnej

Percentyl. Porządkujemy szereg danych od najmniejszej do największej. Wartość zmiennej x, poniżej której w tym szeregu znajduje się 1% wartości nazywa się

pierwszym percentylem. Analogicznie

drugi percentyl, to taka wartość zmiennej x, poniżej której w tym uporządkowanym szeregu znajduje się 2% wartości

(29)

Miary tendencji centralnej

Decyl. Porządkujemy szereg danych od najmniejszej do największej. Wartości

zmiennej x, które dzielą ten szereg na 10 równych pod względem liczebności części nazywa się decylami. Są to dziesiąty,

dwudziesty, trzydziesty, ...., dziewięćdziesiąty percentyl

(30)

Miary tendencji centralnej

Czym jest dwudziestypiąty percentyl?

Czym jest pięćdziesiąty percentyl?

Czym jest siedemdziesiątypiąty percentyl?

(31)

Miary rozproszenia

Miary rozproszenia znane są także pod nazwą dyspersji lub zmienności

(32)

Miary rozproszenia

Rozstęp to różnica pomiędzy najmniejszą i największą wartością w zbiorze danych.

Może być mylący, gdy występują wartości odskakujące

min

max

x

x

R  

(33)

Miary rozproszenia

Odchylenie przeciętne

n

x x

d

n

i

i

1

(34)

Miary rozproszenia

Wariancja

 

n

x x

s

n

i

i

1

2 2

(35)

Miary rozproszenia

Wariancja dla próby

dzielimy przez n - 1.

Najczęściej w badaniach mamy do czynienia z danymi z próby

 

1

1

2 2

n

x x

s

n

i

i

(36)

Miary rozproszenia

Odchylenie standardowe

wybieramy odpowiedni do rodzaju badania wzór na wariancję – dla

populacji lub dla próby s2

s

(37)

Miary rozproszenia

Współczynnik zmienności

jest wartością względną wyrażoną w procentach

 100

x

w s

(38)

Miary rozproszenia

Rozstęp międzykwartylowy

1

3

Q

Q

IQR  

(39)

Miary geometrii rozkładu

k-ty moment centralny rozkładu

 

n

x x

n

i

k i

k

1

(40)

Miary geometrii rozkładu

Czym jest drugi moment centralny rozkładu?

(41)

Miary symetrii rozkładu

Trzeci moment centralny rozkładu informuje o symetrii rozkładu:

μ3 < 0 rozkład lewoskośny μ3 = 0 rozkład symetryczny μ3 > 0 rozkład prawoskośny

(42)

Miary spłaszczenia rozkładu

Czwarty moment centralny rozkładu informuje o spłaszczeniu rozkładu w porównaniu z rozkładem normalnym

(43)

Miary spłaszczenia rozkładu

Współczynnik skupienia (koncentracji) (kurtoza) (K) - jest miarą skupienia

poszczególnych obserwacji wokół średniej

4 4

K s

(44)

Miary spłaszczenia rozkładu

K > 3 rozkład bardziej wysmukły K = 3 rozkład normalny

K < 3 rozkład mniej wysmukły

(45)

Miary spłaszczenia rozkładu

K = 3 oznacza rozkład normalny zwany mezokurtycznym

(46)

Miary spłaszczenia rozkładu

K > 3 oznacza rozkład zwany leptokurtycznym

wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnym

(47)

Miary spłaszczenia rozkładu

Rozkład leptokurtyczny świadczy najczęściej o występowaniu dwóch

niezależnych subpopulacji o rozkładach normalnych o zbliżonych średnich i

różnych wariancjach

(48)

Miary spłaszczenia rozkładu

K < 3 oznacza rozkład zwany platykurtycznym

wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym

(49)

Miary spłaszczenia rozkładu

Rozkład platykurtyczny jest szczególnym przypadkiem rozkładu dwumodalnego.

Oznacza to, że próba nie jest jednorodna i jej obserwacje pochodzą z dwóch różnych populacji, z których każda ma rozkład

normalny. Próby powinno się rozdzielić i osobno analizować każdą z nich

(50)

Miary spłaszczenia rozkładu

http://home.agh.edu.pl/~bartus/index.php?action=dydaktyka&subaction=statystyka&item=miary_koncentracji

(51)

Miary spłaszczenia rozkładu

Inna forma miary spłaszczenia - eksces vel. współczynnik ekscesu (

Ex

):

 3

K

Ex

(52)

Przedział ufności

Jeżeli cecha

X

w zbiorowości generalnej ma rozkład normalny

to średnia arytmetyczna z próby z tej zbiorowości ma rozkład normalny o parametrach:

 

X ,

N : X

x





, n X N

:

x

(53)

Przedział ufności

Wartość standaryzowana średniej arytmetycznej

ma rozkład normalny o parametrach:

n X u x

 

  0, 1

N

:

u

(54)

Przedział ufności

Prawdopodobieństwo, że wartość

standaryzowana średniej arytmetycznej mieści się wewnątrz przedziału (-uα, uα) jest równe:

  

 

  

x X n u 1

u P

(55)

Przedział ufności

Przedział ufności dla średniej arytmetycznej:

współczynnik ufności:

1- α

 

  

 

       1

u n x

n X u

x P

(56)

Przedział ufności

Najczęściej stosowane wartości:

1- α = 0,90 uα = 1,65 1- α = 0,95 uα = 1,96 1- α = 0,99 uα = 2,58 1- α = 0,997 uα = 3,00

(57)

Przedział ufności

O populacji ludzi wiadomo, że czas reakcji na pewien bodziec ma rozkład normalny, o odchyleniu standardowym równym 12 minut. Wylosowano 36

zdrowych osób. Średni czas reakcji dla tej próby wynosi 23 minuty.

Obliczyć z prawdopodobieństwem

równym 0,997 średni czas reakcji na ten bodziec u wszystkich zdrowych osób.

(58)

Przedział ufności

17 X 29

0,997

P   

997 36 0

3 12 36 23

3 12

23 X ,

P  

 

      

(59)

Przedział ufności

Jeżeli cecha

X

w zbiorowości generalnej ma rozkład normalny

to zmienna losowa

ma rozkład t Studenta o n - 1 stopniach swobody

 

X ,

N : X

 1

 

n

s

X

t x

(60)

Przedział ufności

Przedział ufności dla średniej arytmetycznej:

s - odchylenie standardowe z próby

1

1

1 n

t s x

n X t s

x P

(61)

Przedział ufności

Dla prób powyżej 100 jednostek przedział ufności dla średniej arytmetycznej:

s - odchylenie standardowe z próby

Rozkład dowolny, ale nie mocno silnie asymetryczny

1

n u s

x n X

u s x

P

(62)

Współzależność dwóch cech

Rodzaje analizy relacji między danymi:

• Analiza zależności między dwiema cechami niemierzalnymi

• Analiza zależności między cechą mierzalną a niemierzalną

• Analiza zależności między dwiema cechami mierzalnymi

(63)

Analiza zależności między dwiema cechami niemierzalnymi

Współczynnik Yule’a:

dane zebrane są w tablicy czteropolowej:

c b d

a

c b d

Q a

(64)

odmiany cechy B

odmiany cechy A I II razem

I a b a+b

II c d c+d

razem a+c b+d a+b+c+d

Analiza zależności między dwiema

cechami niemierzalnymi

(65)

Analiza zależności między dwiema cechami niemierzalnymi

• Q = 0 brak zależności

• Q > 0 I odmiana cechy A współwystępuje z I odmianą cechy B, a II odmiana cechy A współwystępuje z II odmianą cechy B

• Q < 0 I odmiana cechy A współwystępuje z II odmianą cechy B, a II odmiana cechy A współwystępuje z I odmianą cechy B

(66)

Analiza zależności między dwiema cechami niemierzalnymi

Przykład: Czy istnieje zależność pomiędzy szczepieniem a odpornością populacji na chorobę?

Dane zawiera poniższa tabela:

zachorowali nie zachorowali razem

szczepieni 9 312 321

nieszczepieni 28 26 54

razem 37 338 375

(67)

Analiza zależności między dwiema cechami niemierzalnymi

współczynnik Yule’a:

Q < 0 - silna zależność pomiędzy brakiem zachorowania a szczepieniem

95 , 8970 0

8502 28

312 26

9

28 312

26

9

Q

(68)

Analiza zależności między cechą mierzalną a niemierzalną

Miara siły zależności:

y - cecha mierzalna

x - cecha niemierzalna

xi - odmiana cechy niemierzalnej

σyxi - odchylenie standardowe średnich cząstkowych σy - odchylenie standardowe cechy mierzalnej

y yx yx

i

  

(69)

Analiza zależności między cechą mierzalną a niemierzalną

ηyx = 0 - brak zależności ηyx = 1 - pełna zależność

(70)

Analiza zależności między cechą mierzalną a niemierzalną

Przykład: Czy istnieje zależność pomiędzy spadkiem masy ciała a metodą odchudzania?

Dane zawiera poniższa tabela:

spadek masy ciała [kg]

metoda I [liczba osób]

metoda II [liczba osób]

metoda III [liczba osób]

razem [liczba osób]

0 1 0 0 1

1 10 8 3 21

2 10 12 15 37

3 4 5 7 16

razem 25 25 25 75

(71)

Analiza zależności między cechą mierzalną a niemierzalną

metoda I

średnia cząstkowa:

spadek masy ciała yi

metoda I

ni yini

0 1 0

1 10 10

2 10 20

3 4 12

razem 25 42

] [ 7 , 25 1

42 kg

yxI

(72)

Analiza zależności między cechą mierzalną a niemierzalną

metoda II

średnia cząstkowa:

spadek masy ciała yi

metoda II

ni yini

0 0 0

1 8 8

2 12 24

3 5 15

razem 25 47

] [ 9 , 25 1

47 kg

yxII

(73)

Analiza zależności między cechą mierzalną a niemierzalną

metoda III

średnia cząstkowa:

spadek masy ciała yi

metoda III

ni yini

0 0 0

1 3 3

2 15 30

3 7 21

razem 25 54

] [ 2 , 25 2

54 kg

yxIII

(74)

Analiza zależności między cechą mierzalną a niemierzalną

tabela odchyleń standardowych średnich cząstkowych:

średnia dla całej zbiorowości

odchylenie standardowe średnich

1,7 25 - 0,2 0,04 1,00

1,9 25 0,0 0,00 0,00

2,2 25 0,3 0,09 2,25

- 75 - - 3,25

y y2

ni xi

yxi y2

y yxi ni

yxi

] [ 9 , 75 1

143 kg

y

] [ 21 , 75 0

25 ,

3 kg

yxi

(75)

Analiza zależności między cechą mierzalną a niemierzalną

tabela ogólnego odchylenia standardowego:

ogólne odchylenie standardowe

0 1 - 1,9 3,61 3,61

1 21 - 0,9 0,81 17,01

2 37 0,1 0,01 0,37

3 16 1,1 1,21 19,36

- 75 - - 40,35

y y2

ni i

yi y2

y yi ni

yi

] [ 73 , 75 0

35 ,

40 kg

y

(76)

Analiza zależności między cechą mierzalną a niemierzalną

miara siły zależności:

wniosek:

istnieje słaba zależność między metodą odchudzania a wielkością spadku masy ciała

28 , 73 0

, 0

21 ,

0

y yx yx

i

(77)

Skala zależności

rxy = 0 brak zależności 0 < rxy < 0,1 nikła zależność 0,1 ≤ rxy < 0,3 słaba zależność

0,3 ≤ rxy < 0,5 przeciętna zależność 0,5 ≤ rxy < 0,7 wysoka zależność

0,7 ≤ rxy < 0,9 bardzo wysoka zależność 0,9 ≤ rxy < 1 prawie pełna zależność rxy = 1 pełna zależność

(78)

Analiza zależności między dwiema cechami mierzalnymi

Powiązanie funkcyjne zmiennej zależnej od zmiennej niezależnej:

• zależność liniowa

• zależność nieliniowa

(79)

Analiza zależności między dwiema cechami mierzalnymi

Zależność liniowa jest opisana liniowym równaniem regresji inaczej równaniem regresji stopnia pierwszego:

b x

a

y   

(80)

Analiza zależności między dwiema cechami mierzalnymi

współczynnik regresji:

N

x b

y a

N

i

i N

i

i

1

2

1 1

2 1





 

N

i

i N

i

i

N

i

i N

i

i N

i

i i

x x

N

y x

y x

N b

(81)

Analiza zależności między dwiema cechami mierzalnymi

Równanie regresji stopnia pierwszego

pozwala na predykcję wartości wewnątrz

przedziału obserwacji zmiennej niezależnej!

(82)

Analiza zależności między dwiema cechami mierzalnymi

• dla dowolnej zmiennej X zmienna Y ma rozkład normalny,

• wariancje populacji Y są homogeniczne,

• relacja X i Y jest liniowa,

• próbki populacji Y są wzajemnie niezależne,

• próbki populacji X i Y nie są obarczone błędem pomiarowym.

(83)

Analiza zależności między dwiema cechami mierzalnymi

Miara korelacji prostoliniowej – współczynnik korelacji Pearsona:

       

y x

y x

y E x

E y

x E y

r x

cov ,

(84)

Analiza zależności między dwiema cechami mierzalnymi

Miara korelacji prostoliniowej – współczynnik korelacji Pearsona:

   

    

N

i

i N

i

i N

i

i i

y y

x x

y y

x x

r

1

2

1

2 1

(85)

Analiza zależności między dwiema cechami mierzalnymi

• dla dowolnej zmiennej X zmienna Y ma rozkład normalny,

• dla dowolnej zmiennej Y zmienna X ma rozkład normalny.

(86)

Analiza zależności między dwiema cechami mierzalnymi

Współczynnik korelacji zmienia się w zakresie od –1 do 1.

Podobnie jak współczynnik Youle’a

oddzielnie analizuje się znak i oddzielnie analizuje się wartość bezwzględną

(87)

Analiza zależności między dwiema cechami mierzalnymi

• wartość bezwzględna równa 1 – pełny związek funkcyjny

• wartość równa 0 – brak związku funkcyjnego

• wartości pomiędzy 0 a 1 – słabsza lub silniejsza zależność liniowa

(88)

Analiza zależności między dwiema cechami mierzalnymi

• r > 0 korelacja dodatnia - wzrost zmiennej niezależnej powoduje wzrost zmiennej

zależnej

• r < 0 korelacja ujemna - wzrost zmiennej niezależnej powoduje spadek zmiennej zależnej

(89)

Analiza zależności między dwiema cechami rangowanymi

Miara korelacji prostoliniowej – współczynnik korelacji rang Spearmana uwzględniający

rangi wiązane:

gdzie

1

6

1 1 2

2





N N

T T

d x y

N

i

i

 

i

 

i

i ran x ran y

d

(90)

Analiza zależności między dwiema cechami rangowanymi

współczynniki:

lj liczba obserwacji w próbie posiadających tę samą j-tą wartość rangi zmiennej x

km liczb obserwacji w próbie posiadających tę samą m-tą wartość rangi zmiennej y

 

J

j

j j

x l l

T

1 3

12 1

 

M

m

m m

y k k

T

1

3

12 1

(91)

Analiza zależności między dwiema cechami rangowanymi

Przykład: Czy szczepienia mają wpływ na zachorowalność?

Dane zawiera poniższa tabela:

miasto

wskaźnik szczepień

xi

wskaźnik zachorowal

ności yi

ranga xi ranga yi di =

ran(xi) – ran(yi) di2

A 4,21 4,69 3 4 -1 1

B 3,89 6,06 2 7 -5 25

C 3,79 5,75 1 6 -5 25

D 5,01 4,12 6 2 4 16

E 4,63 4,29 4 3 1 1

F 5,82 3,87 7 1 6 36

G 4,91 5,41 5 5 0 0

razem 104

(92)

Analiza zależności między dwiema cechami rangowanymi

Ujemny współczynnik korelacji rang wskazuje, że wzrost szczepień powoduje SPADEK zachorowalności

Wartość bezwzględna wskazuje na bardzo wysoką zależność pomiędzy szczepieniami a zachorowalnością

   

86 , 0 86

, 1 48 1

7

104 1 6

1 7

7

0 0

104 1 6

1 6

1 1 2 2

2





N N

T T

d x y

N

i

(93)

Hipotezy statystyczne

Hipoteza statystyczna to każde

przypuszczenie o populacji generalnej, dotyczące jej cech statystycznych:

– rozkładu,

– miary tendencji centralnej, – miary rozproszenia.

(94)

Hipotezy statystyczne

Hipotezy statystyczne można podzielić na:

• parametryczne - hipoteza dotyczy wartości parametrów rozkładu,

• nieparametryczne - hipoteza dotyczy postaci funkcji rozkładu

(95)

Hipotezy statystyczne

Hipotezę statystyczną podlegającą weryfikacji nazywa się zerową H0. Jest przeciwieństwem hipotezy

alternatywnej H1.

(96)

Hipotezy statystyczne

Weryfikacja hipotezy statystycznej odbywa się na podstawie danych z próby.

Zatem, wnioski można formułować z pewnym prawdopodobieństwem.

(97)

Hipotezy statystyczne

Można popełnić błędy dwojakiego rodzaju:

– błąd I rodzaju z prawdopodobieństwem α - odrzucić hipotezę H0 mimo, że jest prawdziwa – błąd II rodzaju z prawdopodobieństwem β -

przyjąć hipotezę H0 mimo, że jest fałszywa

(98)

Hipotezy statystyczne

Prawdopodobieństwo popełnienia błędu I rodzaju nosi nazwę poziomu istotności α.

Poziom istotności ustalany jest a priori. W naukach biologiczno-medycznych wynosi zwykle α = 0,1 lub α = 0,05, rzadziej

α = 0,01.

(99)

Wybór typu testu

O wyborze decyduje kształt rozkładu prawdopodobieństwa:

• rozkład zgodny z rozkładem Gaussa – test parametryczny

• rozkład niezgodny z rozkładem Gaussa – test nieparametryczny

(100)

Wybór typu testu

Badanie kształtu rozkładu na podstawie

próby przeprowadzić można przy pomocy:

• testu chi-kwadrat,

• testu Kołmogorowa-Smirnowa,

• testu Shapiro-Wilka

(101)

Testy parametryczne

• Badana cecha ma rozkład normalny

• Różnica wariancji w badanych

populacjach jest nieistotna statystycznie

(102)

Testy parametryczne

Test

z

dla wartości średniej w populacji:

gdy n > 30 zastępujemy s. X n

zx  

(103)

Testy parametryczne

Istotność różnicy wartości średnich

arytmetycznych z dwóch niezależnych prób losowych:

Warunek: n > 30

2 2 2 1

2 1

2 1

n s n

s

x z x

 

(104)

Testy parametryczne

Test t Studenta dla dwóch niezależnych prób losowych o małej liczebności :

2 1

2 1

1 1

n K n

x t x

   

2 1 1

2 1

2 2 2

2 1 1

n n

s n

s K n

30 4  n

(105)

Testy parametryczne

Zmodyfikowany test t Studenta (wariancje

różnią się w sposób istotny statystycznie):

2 2 2 1

2 1

2 1

n s n

s

x tz x

1

1 2

2

2 2 2

1

2

1 2 1

2

2 2 2 1

2 1













n n s n

n s

n s n

s

(106)

Testy parametryczne

Test t Studenta dla dwóch zależnych prób losowych:

s n t d

i i

i x x

d 1 2

 

1

1

2

n

d d

s

n

i

i

n d d

n

i

i

1

(107)
(108)

Test wariancji

Test Fishera:

stopnie swobody

2 2

2 1

s F s

1 1

1 n

2 n2 1

2 2 2

1 s

s

(109)

Testy parametryczne

(110)

ANOVA

Analiza wariancji - jednoczynnikowa:

• każda populacja musi mieć rozkład normalny,

• próby pobrane z każdej populacji muszą być niezależnymi próbami losowymi,

• wariancje w populacjach są równe.

(111)

ANOVA

• Mamy k prób

• Wyznaczamy średnią arytmetyczną dla każdej próby:

gdzie i = 1, 2, …, k

i ni

j

j i

i n

x x

1

,

(112)

ANOVA

• Wyznaczamy średnią arytmetyczną globalną:

gdzie

n x x

k

i

ni

j

j



i

1 1

,

k

i

ni

n

1

(113)

ANOVA

• Wyznaczamy liczbę stopni swobody między próbami:

• Wyznaczamy liczbę stopni swobody wewnątrz prób:

1

k dfG

k n

dfE

(114)

ANOVA

• Wyznaczamy sumę kwadratów wewnątrz prób:

• Wyznaczamy sumę kwadratów pomiędzy próbami:

 



k

i

ni

j

i j

i x

x SSE

1 1

2 ,

 

k

i

i x

x SSG

1

2

(115)

ANOVA

• Wyznaczmy średni kwadrat odchyleń wewnątrz prób:

• Wyznaczmy średni kwadrat odchyleń pomiędzy próbami:

k n

SSE df

MSE SSE

E  

1

k

SSG df

MSG SSG

G

(116)

ANOVA

• Statystyka testowa:

• Porównujemy uzyskaną w teście liczbę F z liczbą Fα z tablicy rozkładu F-Snedecora

(odrzucamy H0, gdy )

MSE FMSG

, ,dfE dfG

F F

(117)

ANOVA

• Procedura Bonferroniego – test post hoc:

jeśli odrzucamy H0 to porównanie wielokrotne, np.:

– test LSD, Duncana, Tukeya, – test Benferroniego, Scheffego, – …

(118)

Scheffe

• Wybieramy średnią arytmetyczną i dla porównywanych prób

• Obliczamy S

gdzie





 

j

i n

MSE n

SE 1 1

xi xj

SE x S xij

(119)

Scheffe

• Obliczamy wartość krytyczną Sα

• Porównujemy uzyskaną w teście liczbę S z

liczbą Sα (odrzucamy H0, gdy SSα )

dfG FdfG ,dfE ,

S  

(120)

LSD

• Wybieramy średnią arytmetyczną i dla porównywanych prób

• Obliczamy LSD:





 

j i

dfE MSE n n

t

LSD 1 1

,

xi xj

(121)

LSD

• Jeśli

to średnie arytmetyczne i różnią się

istotnie statystycznie na poziomie istotności α LSD

x

xij

xi xj

(122)

ANOVA

Przykład 1

Tabela zawiera wyniki pomiaru stężenia cukru we krwi u osób stosujących różne diety. Czy poziom glikemii

zależy od wybranej diety?

Cytaty

Powiązane dokumenty

Raport jest to opis przebiegu akcji w bazie danych.np koniec filtrowania itd.. Dzięki niej możemy pobierać dane i tworzyć zestawy

Wewnątrz obszaru szukamy za pomocą pochodnych cząstkowych, na brzegu obszaru za pomocą pochodnej funkcji jednej zmiennej.. Na koniec wybieramy wartość najmniejszą

Wniosek: całka podwójna to objętość „krzywopowierzchniowego” prostopadłościanu... Całka podwójna

Łatwo się domyśleć, że dla funckji dla dwóch zmiennych też zachodzi Twierdzenie o 3

Niech pI, ăq będzie zbiorem częściowo uporządkowanym.. Homomorfizm ψ nazywamy homomorfizmem pierścieni wielomianów n zmiennych indukowanym przez homomorfizm współczynników...

Projekt jest to przedsięwzięcie, na które składa się zespół czynności, które charakteryzują się tym, że mają:.. 

Na podstawie danych zawartych w arkuszu znaleźć 90% oraz 95% przedziały ufności dla parametrów strukturalnych liniowego modelu zmienności wysokości poborów

Dla danego zbioru danych liczbowych to wartość w uporządkowanym rosnąco szeregu, powyżej i poniżej której znajduje się jednakowa liczba