Statystyka
Dane
• Charakteryzują obserwacje jednej lub wielu zmiennych
• Są uzyskiwane z próby, reprezentującej populację
• Mają różne formy (postacie)
Dane
Populacja generalna - zbiór elementów mający przynajmniej jedną właściwość wspólną dla wszystkich jego elementów kwalifikującą je do tego zbioru oraz
przynajmniej jedną właściwość, ze
względu na którą elementy tego zbioru mogą się różnić między sobą
Formy danych
• Dane jakościowe – cecha będąca
zmienną charakteryzowana jest przez opis słowny (może być subiektywny) i należy
wyłącznie do jednej z rozpatrywanych kategorii. Kategorie wzajemnie się
wykluczają
• Dane ilościowe – cecha będąca zmienną przyjmuje wartości liczbowe
Dane jakościowe
• Gdy zmienna przyjmuje jedną z dwóch możliwych wartości nazywają się
binarnymi lub dychotomicznymi, np. szczepiony, nieszczepiony
chory, zdrowy
Dane jakościowe
• Dane nominalne – zmienna jest
nieuporządkowana lecz można ją podzielić na rozłączne kategorie; jest nazwą
określającą stan
np. grupa krwi A, B, AB, 0 stan cywilny
Dane jakościowe
• Dane porządkowe (rangowe) - zmienna jest uporządkowana i można ją podzielić na klasy. Klasy (podzbiory) można
uporządkować i nadać im liczby
porządkowe tworząc prostą skalę. Nazwa klasy jest także opisem.
np. skala bólu: silny, umiarkowany, łagodny, brak
wykształcenie podstawowe, średnie, wyższe
Dane ilościowe
• Dane dyskretne – cecha zmienna przyjmuje wartości całkowite
• Dane ciągłe – cecha zmienna przyjmuje dowolną wartość liczbową
Dane pochodne
• Procenty – gdy istotne są relacje względne a nie wartości bezwzględne np. liczba chorych przypadających na całą społeczność
• Proporcje (ilorazy) – gdy taka forma danych jest czytelniejszym opisem cech badanego np.
BMI
• Częstości – powszechnie stosowane w epidemiologii
• Punktacja – stosuje się własną, przyjętą
arbitralnie, punktację, gdy nie można zmierzyć wielkości
Dane ucięte
• Spotyka się, gdy czułość urządzenia pomiarowego jest zbyt mała, aby
wykryć niewielki poziom badanej zmiennej
• W sytuacji, gdy część badanych
obiektów przestaje brać udział w
badaniach
Wprowadzanie danych
Dane brakujące:
• można usunąć wiersz z brakującą daną
lub
• można wpisać średnią arytmetyczną z danych tej samej kategorii
Wartości odskakujące
Znacznie różnią się od większości danych i są niezgodne z pozostałymi danymi.
Mogą być prawdziwe ale także mogą być wynikiem błędnego pomiaru np. kobieta o wzroście 204 cm.
Wartości odskakujące
Postępowanie:
• sprawdzić czy mają wpływ na wynik analizy, dokonując obliczeń przy
uwzględnieniu tych danych oraz
powtarzając obliczenia po wykluczeniu tych danych.
• gdy wyniki się znacznie różnią, należy
zastosować odpowiednie metody analizy
Miary tendencji centralnej
Charakteryzuje przeciętny pomiar. Inaczej mówiąc jest miarą położenia wartości
reprezentatywnej. W zależności od charakteru danych stosuje się
alternatywnie kilka miar wartości przeciętnej
Miary tendencji centralnej
Średnia arytmetyczna
inny zapis
lub lub
n x x
n
i
i 1
n x
xin x
x nx ...
x x
x x n
1 2 3
Miary tendencji centralnej
Mediana jest wartością znajdującą się w środku szeregu uporządkowanych danych, jeżeli liczba obserwacji jest nieparzysta
lub
jest średnią arytmetyczną z dwóch
sąsiednich środkowych obserwacji, gdy liczba tych obserwacji jest parzysta
Miary tendencji centralnej
Modalna (moda, dominanta) jest
wartością najczęściej występującą w zbiorze.
Jeżeli dane są ciągłe, to grupuje się je i wyznacza modalną dla grup.
Może istnieć kilka modalnych – gdy dwie lub więcej wartości występuje tyle samo
razy a inne wartości występują mniej razy.
Może nie istnieć modalna – gdy każda z wartości występuje tylko raz
Miary tendencji centralnej
S
posoby wyznaczania modalnej są różne w zależności od szeregu:
szereg rozdzielczy punktowy
szereg
rozdzielczy przedziałowyMiary tendencji centralnej
szereg rozdzielczy punktowy -
wyznaczenie modalnej sprowadza się do wskazania wartości, która występuje najczęściej, czyli takiej, której
odpowiada największa liczebność
Miary tendencji centralnej
Przykład 1:
Wyznaczyć modalną na podstawie ilości dzieci w 20 rodzinach.
Dane - ilość dzieci w rodzinie:
1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5
Miary tendencji centralnej
szereg
rozdzielczy przedziałowy -wskazujemy przedział modalnej (przedział, któremu odpowiada największa
liczebność), a następnie wyznaczamy przybliżoną wartość modalnej według wzoru interpolacyjnego
Miary tendencji centralnej
l0 – dolna granica przedziału, w którym znajduje się modalna, fm – liczebność przedziału zawierającego modalną
fm-1 – liczebność przedziału poprzedzającego modalną fm+1 – liczebność przedziału następnego po modalnej i – wielkość przedziału, w którym znajduje się modalna
1
1 1
0
m m
m m
m m
o f f f f
f i f
l M
Miary tendencji centralnej
Średnia geometryczna
jest zbliżona do mediany i mniejsza od
średniej arytmetycznej. Warunek: rozkład danych musi być symetryczny. Gdy dane są skośne musimy je przygotować, aby
można było policzyć średnią geometryczną
n
n
i n i
n x
x ...
x x
x
x
1 3
2 1
Miary tendencji centralnej
Średnia harmoniczna
stosowana jest, gdy wartości cechy opisują szybkość zmian badanej zmiennej
np. spadek produkcji, wzrost bezrobocia
n
i xi
x n
1
1
Miary tendencji centralnej
Średnia ważona
n
i
i n
i
i i
n
n n
w x w
w ...
w w
w
x w
...
x w
x w
x x w
1 1 3
2 1
3 3
2 2
1 1
Miary tendencji centralnej
Kwartyl. Wartości Q1, Q2, Q3, zmiennej x które dzielą uporządkowany szereg na 4 równe pod względem liczebności części nazywa się kwartylami
Miary tendencji centralnej
Kwartyl pierwszy Q1 dzieli obserwacje w
taki sposób, że 25% obserwacji jest niższa bądź równa wartości tego kwartyla, a 75%
obserwacji jest równa bądź większa niż wartość tego kwartyla
Analogicznie:
Kwartyl drugi – jak inaczej się nazywa?
Kwartyl trzeci
Miary tendencji centralnej
Percentyl. Porządkujemy szereg danych od najmniejszej do największej. Wartość zmiennej x, poniżej której w tym szeregu znajduje się 1% wartości nazywa się
pierwszym percentylem. Analogicznie
drugi percentyl, to taka wartość zmiennej x, poniżej której w tym uporządkowanym szeregu znajduje się 2% wartości
Miary tendencji centralnej
Decyl. Porządkujemy szereg danych od najmniejszej do największej. Wartości
zmiennej x, które dzielą ten szereg na 10 równych pod względem liczebności części nazywa się decylami. Są to dziesiąty,
dwudziesty, trzydziesty, ...., dziewięćdziesiąty percentyl
Miary tendencji centralnej
Czym jest dwudziestypiąty percentyl?
Czym jest pięćdziesiąty percentyl?
Czym jest siedemdziesiątypiąty percentyl?
Miary rozproszenia
Miary rozproszenia znane są także pod nazwą dyspersji lub zmienności
Miary rozproszenia
Rozstęp to różnica pomiędzy najmniejszą i największą wartością w zbiorze danych.
Może być mylący, gdy występują wartości odskakujące
min
max
x
x
R
Miary rozproszenia
Odchylenie przeciętne
n
x x
d
n
i
i
1
Miary rozproszenia
Wariancja
n
x x
s
n
i
i
1
2 2
Miary rozproszenia
Wariancja dla próby
dzielimy przez n - 1.
Najczęściej w badaniach mamy do czynienia z danymi z próby
1
1
2 2
n
x x
s
n
i
i
Miary rozproszenia
Odchylenie standardowe
wybieramy odpowiedni do rodzaju badania wzór na wariancję – dla
populacji lub dla próby s2
s
Miary rozproszenia
Współczynnik zmienności
jest wartością względną wyrażoną w procentach
100
x
w s
Miary rozproszenia
Rozstęp międzykwartylowy
1
3
Q
Q
IQR
Miary geometrii rozkładu
k-ty moment centralny rozkładu
n
x x
n
i
k i
k
1
Miary geometrii rozkładu
Czym jest drugi moment centralny rozkładu?
Miary symetrii rozkładu
Trzeci moment centralny rozkładu informuje o symetrii rozkładu:
μ3 < 0 rozkład lewoskośny μ3 = 0 rozkład symetryczny μ3 > 0 rozkład prawoskośny
Miary spłaszczenia rozkładu
Czwarty moment centralny rozkładu informuje o spłaszczeniu rozkładu w porównaniu z rozkładem normalnym
Miary spłaszczenia rozkładu
Współczynnik skupienia (koncentracji) (kurtoza) (K) - jest miarą skupienia
poszczególnych obserwacji wokół średniej
4 4
K s
Miary spłaszczenia rozkładu
K > 3 rozkład bardziej wysmukły K = 3 rozkład normalny
K < 3 rozkład mniej wysmukły
Miary spłaszczenia rozkładu
K = 3 oznacza rozkład normalny zwany mezokurtycznym
Miary spłaszczenia rozkładu
K > 3 oznacza rozkład zwany leptokurtycznym
wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnym
Miary spłaszczenia rozkładu
Rozkład leptokurtyczny świadczy najczęściej o występowaniu dwóch
niezależnych subpopulacji o rozkładach normalnych o zbliżonych średnich i
różnych wariancjach
Miary spłaszczenia rozkładu
K < 3 oznacza rozkład zwany platykurtycznym
wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym
Miary spłaszczenia rozkładu
Rozkład platykurtyczny jest szczególnym przypadkiem rozkładu dwumodalnego.
Oznacza to, że próba nie jest jednorodna i jej obserwacje pochodzą z dwóch różnych populacji, z których każda ma rozkład
normalny. Próby powinno się rozdzielić i osobno analizować każdą z nich
Miary spłaszczenia rozkładu
http://home.agh.edu.pl/~bartus/index.php?action=dydaktyka&subaction=statystyka&item=miary_koncentracji
Miary spłaszczenia rozkładu
Inna forma miary spłaszczenia - eksces vel. współczynnik ekscesu (
Ex
): 3
K
Ex
Przedział ufności
Jeżeli cecha
X
w zbiorowości generalnej ma rozkład normalnyto średnia arytmetyczna z próby z tej zbiorowości ma rozkład normalny o parametrach:
X ,
N : X
x
, n X N
:
x
Przedział ufności
Wartość standaryzowana średniej arytmetycznej
ma rozkład normalny o parametrach:
n X u x
0, 1
N
:
u
Przedział ufności
Prawdopodobieństwo, że wartość
standaryzowana średniej arytmetycznej mieści się wewnątrz przedziału (-uα, uα) jest równe:
x X n u 1
u P
Przedział ufności
Przedział ufności dla średniej arytmetycznej:
współczynnik ufności:
1- α
1
u n x
n X u
x P
Przedział ufności
Najczęściej stosowane wartości:
1- α = 0,90 uα = 1,65 1- α = 0,95 uα = 1,96 1- α = 0,99 uα = 2,58 1- α = 0,997 uα = 3,00
Przedział ufności
O populacji ludzi wiadomo, że czas reakcji na pewien bodziec ma rozkład normalny, o odchyleniu standardowym równym 12 minut. Wylosowano 36
zdrowych osób. Średni czas reakcji dla tej próby wynosi 23 minuty.
Obliczyć z prawdopodobieństwem
równym 0,997 średni czas reakcji na ten bodziec u wszystkich zdrowych osób.
Przedział ufności
17 X 29
0,997P
997 36 0
3 12 36 23
3 12
23 X ,
P
Przedział ufności
Jeżeli cecha
X
w zbiorowości generalnej ma rozkład normalnyto zmienna losowa
ma rozkład t Studenta o n - 1 stopniach swobody
X ,
N : X
1
n
s
X
t x
Przedział ufności
Przedział ufności dla średniej arytmetycznej:
s - odchylenie standardowe z próby
1
1
1 n
t s x
n X t s
x P
Przedział ufności
Dla prób powyżej 100 jednostek przedział ufności dla średniej arytmetycznej:
s - odchylenie standardowe z próby
Rozkład dowolny, ale nie mocno silnie asymetryczny
1
n u s
x n X
u s x
P
Współzależność dwóch cech
Rodzaje analizy relacji między danymi:
• Analiza zależności między dwiema cechami niemierzalnymi
• Analiza zależności między cechą mierzalną a niemierzalną
• Analiza zależności między dwiema cechami mierzalnymi
Analiza zależności między dwiema cechami niemierzalnymi
Współczynnik Yule’a:
dane zebrane są w tablicy czteropolowej:
c b d
a
c b d
Q a
odmiany cechy B
odmiany cechy A I II razem
I a b a+b
II c d c+d
razem a+c b+d a+b+c+d
Analiza zależności między dwiema
cechami niemierzalnymi
Analiza zależności między dwiema cechami niemierzalnymi
• Q = 0 brak zależności
• Q > 0 I odmiana cechy A współwystępuje z I odmianą cechy B, a II odmiana cechy A współwystępuje z II odmianą cechy B
• Q < 0 I odmiana cechy A współwystępuje z II odmianą cechy B, a II odmiana cechy A współwystępuje z I odmianą cechy B
Analiza zależności między dwiema cechami niemierzalnymi
Przykład: Czy istnieje zależność pomiędzy szczepieniem a odpornością populacji na chorobę?
Dane zawiera poniższa tabela:
zachorowali nie zachorowali razem
szczepieni 9 312 321
nieszczepieni 28 26 54
razem 37 338 375
Analiza zależności między dwiema cechami niemierzalnymi
współczynnik Yule’a:
Q < 0 - silna zależność pomiędzy brakiem zachorowania a szczepieniem
95 , 8970 0
8502 28
312 26
9
28 312
26
9
Q
Analiza zależności między cechą mierzalną a niemierzalną
Miara siły zależności:
y - cecha mierzalna
x - cecha niemierzalna
xi - odmiana cechy niemierzalnej
σyxi - odchylenie standardowe średnich cząstkowych σy - odchylenie standardowe cechy mierzalnej
y yx yx
i
Analiza zależności między cechą mierzalną a niemierzalną
ηyx = 0 - brak zależności ηyx = 1 - pełna zależność
Analiza zależności między cechą mierzalną a niemierzalną
Przykład: Czy istnieje zależność pomiędzy spadkiem masy ciała a metodą odchudzania?
Dane zawiera poniższa tabela:
spadek masy ciała [kg]
metoda I [liczba osób]
metoda II [liczba osób]
metoda III [liczba osób]
razem [liczba osób]
0 1 0 0 1
1 10 8 3 21
2 10 12 15 37
3 4 5 7 16
razem 25 25 25 75
Analiza zależności między cechą mierzalną a niemierzalną
metoda I
średnia cząstkowa:
spadek masy ciała yi
metoda I
ni yini
0 1 0
1 10 10
2 10 20
3 4 12
razem 25 42
] [ 7 , 25 1
42 kg
yxI
Analiza zależności między cechą mierzalną a niemierzalną
metoda II
średnia cząstkowa:
spadek masy ciała yi
metoda II
ni yini
0 0 0
1 8 8
2 12 24
3 5 15
razem 25 47
] [ 9 , 25 1
47 kg
yxII
Analiza zależności między cechą mierzalną a niemierzalną
metoda III
średnia cząstkowa:
spadek masy ciała yi
metoda III
ni yini
0 0 0
1 3 3
2 15 30
3 7 21
razem 25 54
] [ 2 , 25 2
54 kg
yxIII
Analiza zależności między cechą mierzalną a niemierzalną
tabela odchyleń standardowych średnich cząstkowych:
średnia dla całej zbiorowości
odchylenie standardowe średnich
1,7 25 - 0,2 0,04 1,00
1,9 25 0,0 0,00 0,00
2,2 25 0,3 0,09 2,25
- 75 - - 3,25
y y2
ni xi
yxi y2
y yxi ni
yxi
] [ 9 , 75 1
143 kg
y
] [ 21 , 75 0
25 ,
3 kg
yxi
Analiza zależności między cechą mierzalną a niemierzalną
tabela ogólnego odchylenia standardowego:
ogólne odchylenie standardowe
0 1 - 1,9 3,61 3,61
1 21 - 0,9 0,81 17,01
2 37 0,1 0,01 0,37
3 16 1,1 1,21 19,36
- 75 - - 40,35
y y2
ni i
yi y2
y yi ni
yi
] [ 73 , 75 0
35 ,
40 kg
y
Analiza zależności między cechą mierzalną a niemierzalną
miara siły zależności:
wniosek:
istnieje słaba zależność między metodą odchudzania a wielkością spadku masy ciała
28 , 73 0
, 0
21 ,
0
y yx yx
i
Skala zależności
rxy = 0 brak zależności 0 < rxy < 0,1 nikła zależność 0,1 ≤ rxy < 0,3 słaba zależność
0,3 ≤ rxy < 0,5 przeciętna zależność 0,5 ≤ rxy < 0,7 wysoka zależność
0,7 ≤ rxy < 0,9 bardzo wysoka zależność 0,9 ≤ rxy < 1 prawie pełna zależność rxy = 1 pełna zależność
Analiza zależności między dwiema cechami mierzalnymi
Powiązanie funkcyjne zmiennej zależnej od zmiennej niezależnej:
• zależność liniowa
• zależność nieliniowa
Analiza zależności między dwiema cechami mierzalnymi
Zależność liniowa jest opisana liniowym równaniem regresji inaczej równaniem regresji stopnia pierwszego:
b x
a
y
Analiza zależności między dwiema cechami mierzalnymi
współczynnik regresji:
N
x b
y a
N
i
i N
i
i
1
2
1 1
2 1
N
i
i N
i
i
N
i
i N
i
i N
i
i i
x x
N
y x
y x
N b
Analiza zależności między dwiema cechami mierzalnymi
Równanie regresji stopnia pierwszego
pozwala na predykcję wartości wewnątrz
przedziału obserwacji zmiennej niezależnej!
Analiza zależności między dwiema cechami mierzalnymi
• dla dowolnej zmiennej X zmienna Y ma rozkład normalny,
• wariancje populacji Y są homogeniczne,
• relacja X i Y jest liniowa,
• próbki populacji Y są wzajemnie niezależne,
• próbki populacji X i Y nie są obarczone błędem pomiarowym.
Analiza zależności między dwiema cechami mierzalnymi
Miara korelacji prostoliniowej – współczynnik korelacji Pearsona:
y x
y x
y E x
E y
x E y
r x
cov ,
Analiza zależności między dwiema cechami mierzalnymi
Miara korelacji prostoliniowej – współczynnik korelacji Pearsona:
N
i
i N
i
i N
i
i i
y y
x x
y y
x x
r
1
2
1
2 1
Analiza zależności między dwiema cechami mierzalnymi
• dla dowolnej zmiennej X zmienna Y ma rozkład normalny,
• dla dowolnej zmiennej Y zmienna X ma rozkład normalny.
Analiza zależności między dwiema cechami mierzalnymi
Współczynnik korelacji zmienia się w zakresie od –1 do 1.
Podobnie jak współczynnik Youle’a
oddzielnie analizuje się znak i oddzielnie analizuje się wartość bezwzględną
Analiza zależności między dwiema cechami mierzalnymi
• wartość bezwzględna równa 1 – pełny związek funkcyjny
• wartość równa 0 – brak związku funkcyjnego
• wartości pomiędzy 0 a 1 – słabsza lub silniejsza zależność liniowa
Analiza zależności między dwiema cechami mierzalnymi
• r > 0 korelacja dodatnia - wzrost zmiennej niezależnej powoduje wzrost zmiennej
zależnej
• r < 0 korelacja ujemna - wzrost zmiennej niezależnej powoduje spadek zmiennej zależnej
Analiza zależności między dwiema cechami rangowanymi
Miara korelacji prostoliniowej – współczynnik korelacji rang Spearmana uwzględniający
rangi wiązane:
gdzie
1
6
1 1 2
2
N N
T T
d x y
N
i
i
i
ii ran x ran y
d
Analiza zależności między dwiema cechami rangowanymi
współczynniki:
lj liczba obserwacji w próbie posiadających tę samą j-tą wartość rangi zmiennej x
km liczb obserwacji w próbie posiadających tę samą m-tą wartość rangi zmiennej y
J
j
j j
x l l
T
1 3
12 1
M
m
m m
y k k
T
1
3
12 1
Analiza zależności między dwiema cechami rangowanymi
Przykład: Czy szczepienia mają wpływ na zachorowalność?
Dane zawiera poniższa tabela:
miasto
wskaźnik szczepień
xi
wskaźnik zachorowal
ności yi
ranga xi ranga yi di =
ran(xi) – ran(yi) di2
A 4,21 4,69 3 4 -1 1
B 3,89 6,06 2 7 -5 25
C 3,79 5,75 1 6 -5 25
D 5,01 4,12 6 2 4 16
E 4,63 4,29 4 3 1 1
F 5,82 3,87 7 1 6 36
G 4,91 5,41 5 5 0 0
razem 104
Analiza zależności między dwiema cechami rangowanymi
Ujemny współczynnik korelacji rang wskazuje, że wzrost szczepień powoduje SPADEK zachorowalności
Wartość bezwzględna wskazuje na bardzo wysoką zależność pomiędzy szczepieniami a zachorowalnością
86 , 0 86
, 1 48 1
7
104 1 6
1 7
7
0 0
104 1 6
1 6
1 1 2 2
2
N N
T T
d x y
N
i
Hipotezy statystyczne
Hipoteza statystyczna to każde
przypuszczenie o populacji generalnej, dotyczące jej cech statystycznych:
– rozkładu,
– miary tendencji centralnej, – miary rozproszenia.
Hipotezy statystyczne
Hipotezy statystyczne można podzielić na:
• parametryczne - hipoteza dotyczy wartości parametrów rozkładu,
• nieparametryczne - hipoteza dotyczy postaci funkcji rozkładu
Hipotezy statystyczne
Hipotezę statystyczną podlegającą weryfikacji nazywa się zerową H0. Jest przeciwieństwem hipotezy
alternatywnej H1.
Hipotezy statystyczne
Weryfikacja hipotezy statystycznej odbywa się na podstawie danych z próby.
Zatem, wnioski można formułować z pewnym prawdopodobieństwem.
Hipotezy statystyczne
Można popełnić błędy dwojakiego rodzaju:
– błąd I rodzaju z prawdopodobieństwem α - odrzucić hipotezę H0 mimo, że jest prawdziwa – błąd II rodzaju z prawdopodobieństwem β -
przyjąć hipotezę H0 mimo, że jest fałszywa
Hipotezy statystyczne
Prawdopodobieństwo popełnienia błędu I rodzaju nosi nazwę poziomu istotności α.
Poziom istotności ustalany jest a priori. W naukach biologiczno-medycznych wynosi zwykle α = 0,1 lub α = 0,05, rzadziej
α = 0,01.
Wybór typu testu
O wyborze decyduje kształt rozkładu prawdopodobieństwa:
• rozkład zgodny z rozkładem Gaussa – test parametryczny
• rozkład niezgodny z rozkładem Gaussa – test nieparametryczny
Wybór typu testu
Badanie kształtu rozkładu na podstawie
próby przeprowadzić można przy pomocy:
• testu chi-kwadrat,
• testu Kołmogorowa-Smirnowa,
• testu Shapiro-Wilka
Testy parametryczne
• Badana cecha ma rozkład normalny
• Różnica wariancji w badanych
populacjach jest nieistotna statystycznie
Testy parametryczne
Test
z
dla wartości średniej w populacji:gdy n > 30 zastępujemy s. X n
z x
Testy parametryczne
Istotność różnicy wartości średnich
arytmetycznych z dwóch niezależnych prób losowych:
Warunek: n > 30
2 2 2 1
2 1
2 1
n s n
s
x z x
Testy parametryczne
Test t Studenta dla dwóch niezależnych prób losowych o małej liczebności :
2 1
2 1
1 1
n K n
x t x
2 1 1
2 1
2 2 2
2 1 1
n n
s n
s K n
30 4 n
Testy parametryczne
Zmodyfikowany test t Studenta (wariancje
różnią się w sposób istotny statystycznie):
2 2 2 1
2 1
2 1
n s n
s
x tz x
1
1 2
2
2 2 2
1
2
1 2 1
2
2 2 2 1
2 1
n n s n
n s
n s n
s
Testy parametryczne
Test t Studenta dla dwóch zależnych prób losowych:
s n t d
i i
i x x
d 1 2
1
1
2
n
d d
s
n
i
i
n d d
n
i
i 1
Test wariancji
Test Fishera:
stopnie swobody
2 2
2 1
s F s
1 1
1 n
2 n2 1
2 2 2
1 s
s
Testy parametryczne
ANOVA
Analiza wariancji - jednoczynnikowa:
• każda populacja musi mieć rozkład normalny,
• próby pobrane z każdej populacji muszą być niezależnymi próbami losowymi,
• wariancje w populacjach są równe.
ANOVA
• Mamy k prób
• Wyznaczamy średnią arytmetyczną dla każdej próby:
gdzie i = 1, 2, …, k
i ni
j
j i
i n
x x
1
,
ANOVA
• Wyznaczamy średnią arytmetyczną globalną:
gdzie
n x x
k
i
ni
j
j
i
1 1
,
k
i
ni
n
1
ANOVA
• Wyznaczamy liczbę stopni swobody między próbami:
• Wyznaczamy liczbę stopni swobody wewnątrz prób:
1
k dfG
k n
dfE
ANOVA
• Wyznaczamy sumę kwadratów wewnątrz prób:
• Wyznaczamy sumę kwadratów pomiędzy próbami:
k
i
ni
j
i j
i x
x SSE
1 1
2 ,
k
i
i x
x SSG
1
2
ANOVA
• Wyznaczmy średni kwadrat odchyleń wewnątrz prób:
• Wyznaczmy średni kwadrat odchyleń pomiędzy próbami:
k n
SSE df
MSE SSE
E
1
k
SSG df
MSG SSG
G
ANOVA
• Statystyka testowa:
• Porównujemy uzyskaną w teście liczbę F z liczbą Fα z tablicy rozkładu F-Snedecora
(odrzucamy H0, gdy )
MSE F MSG
, ,dfE dfG
F F
ANOVA
• Procedura Bonferroniego – test post hoc:
jeśli odrzucamy H0 to porównanie wielokrotne, np.:
– test LSD, Duncana, Tukeya, – test Benferroniego, Scheffego, – …
Scheffe
• Wybieramy średnią arytmetyczną i dla porównywanych prób
• Obliczamy S
gdzie
j
i n
MSE n
SE 1 1
xi xj
SE x S xi j
Scheffe
• Obliczamy wartość krytyczną Sα
• Porównujemy uzyskaną w teście liczbę S z
liczbą Sα (odrzucamy H0, gdy S ≥ Sα )
dfG FdfG ,dfE ,
S
LSD
• Wybieramy średnią arytmetyczną i dla porównywanych prób
• Obliczamy LSD:
j i
dfE MSE n n
t
LSD 1 1
,
xi xj
LSD
• Jeśli
to średnie arytmetyczne i różnią się
istotnie statystycznie na poziomie istotności α LSD
x
xi j
xi xj
ANOVA
Przykład 1
Tabela zawiera wyniki pomiaru stężenia cukru we krwi u osób stosujących różne diety. Czy poziom glikemii
zależy od wybranej diety?