• Nie Znaleziono Wyników

Testy statystyczne — teoria przygotowanie: dr A. Goroncy, dr J. Karłowska-Pik Niech X

N/A
N/A
Protected

Academic year: 2021

Share "Testy statystyczne — teoria przygotowanie: dr A. Goroncy, dr J. Karłowska-Pik Niech X"

Copied!
4
0
0

Pełen tekst

(1)

Testy statystyczne — teoria

przygotowanie: dr A. Goroncy, dr J. Karłowska-Pik

Niech X1, . . . , Xn będzie próbą losową prostą z rozkładu Pθ, θ ∈ Θ oraz niech α ∈ (0, 1) będzie poziomem istotności (najczęściej 0,1, 0,05, czy 0,01).

Oznaczenia: Φ — dystrybuanta rozkładu N (0, 1),

Ft(n−1) — dystrybuanta rozkładu t-Studenta z n − 1 stopniami swobody, ni, nij — liczebności empiryczne (zaobserwowane),

n0i, n0ij — liczebności teoretyczne,

Fχ2(k−1) — dystrybuanta rozkładu χ2 z k − 1 stopniami swobody, 1. Test Studenta dla jednej średniej.

Hipoteza zerowa: Średnia wartość zmiennej jest równa określonej wartości a0 (a = a0).

Hipoteza alternatywna 1.: Średnia wartość zmiennej jest różna od określonej wartości a0 (a 6= a0).

Hipoteza alternatywna 2.: Średnia wartość zmiennej jest mniejsza od określonej wartości a0 (a < a0).

Hipoteza alternatywna 3.: Średnia wartość zmiennej jest większa od określonej wartości a0 (a > a0).

a) X ma rozkład normalny o znanej wariancji σ2. Statystyka testowa: Tn=

nx − a¯ 0 σ .

Obszar krytyczny 1.: K = (−∞, −Φ−1(1 − α/2)) ∪ (Φ−1(1 − α/2), +∞), Obszar krytyczny 2.: K = (−∞, −Φ−1(1 − α)),

Obszar krytyczny 3.: K = (Φ−1(1 − α), +∞).

b) X ma rozkład normalny o nieznanej wariancji σ2. Statystyka testowa: Tn=

nx − a¯ 0 s .

Obszar krytyczny 1.: K = (−∞, −Ft(n−1)−1 (1 − α/2)) ∪ (Ft(n−1)−1 (1 − α/2), +∞) dla n ¬ 30, K = (−∞, −Φ−1(1 − α/2)) ∪ (Φ−1(1 − α/2), +∞) dla n > 30, Obszar krytyczny 2.: K = (−∞, −Ft(n−1)−1 (1 − α)) dla n ¬ 30,

K = (−∞, −Φ−1(1 − α)) dla n > 30, Obszar krytyczny 3.: K = (Ft(n−1)−1 (1 − α), +∞) dla n ¬ 30,

K = (Φ−1(1 − α), +∞) dla n > 30.

c) X ma rozkład dowolny, istnieje D2X, n > 30.

Statystyka testowa: Tn=

nx − a¯ 0

σ0 lub Tn =

nx − a¯ 0

s , lub Tn=

nx − a¯ 0 ˆ s ,

gdzie σ0 jest odchyleniem standardowym rozkładu przy założeniu prawdziwości hipotezy zerowej, o ile wariancja rozważanego rozkładu jest funkcją jego wartości oczekiwanej (np. w rozkładzie

”0-1”, dwumianowym, Poissona, geometrycznym itp.).

Obszar krytyczny 1.: K = (−∞, −Φ−1(1 − α/2)) ∪ (Φ−1(1 − α/2), +∞), Obszar krytyczny 2.: K = (−∞, −Φ−1(1 − α)),

Obszar krytyczny 3.: K = (Φ−1(1 − α), +∞).

1

(2)

2. Test dla dwóch średnich i prób niezależnych

Hipoteza zerowa: Średnie wartości zmiennej są takie same w dwóch różnych populacjach (a1 = a2).

Hipoteza alternatywna 1.: Średnie wartości zmiennej są różne w badanych populacjach (a1 6= a2).

Hipoteza alternatywna 2.: Średnia wartość zmiennej w pierwszej populacji jest mniejsza od średniej wartości zmiennej w drugiej populacji (a1 < a2).

Hipoteza alternatywna 3.: Średnia wartość zmiennej w pierwszej populacji jest większa od średniej wartości zmiennej w drugiej populacji (a1 > a2).

a) X ma w obu populacjach rozkład normalny o znanych wariancjach σ12 i σ22. Statystyka testowa: Tn= x¯1− ¯x2

sσ12 n1 +σ22

n2 .

Obszar krytyczny 1.: K = (−∞, −Φ−1(1 − α/2)) ∪ (Φ−1(1 − α/2), +∞), Obszar krytyczny 2.: K = (−∞, −Φ−1(1 − α)),

Obszar krytyczny 3.: K = (Φ−1(1 − α), +∞).

b) X ma w obu populacjach rozkład normalny o nieznanych, ale równych wariancjach σ21 i σ22. Statystyka testowa: Tn= x¯1 − ¯x2

s(n1 − 1)s21+ (n2− 1)s22

n1+ n2− 2 · n1 + n2 n1n2

.

Obszar krytyczny 1.: K = (−∞, −Ft(n−1

1+n2−2)(1 − α/2)) ∪ (Ft(n−1

1+n2−2)(1 − α/2), +∞), Obszar krytyczny 2.: K = (−∞, −Ft(n−1

1+n2−2)(1 − α)), Obszar krytyczny 3.: K = (Ft(n−1

1+n2−2)(1 − α), +∞).

c) X ma w obu populacjach rozkład normalny o nieznanych wariancjach σ12 i σ22. Statystyka testowa: Cn= x¯1− ¯x2

ss21 n1 + s22

n2

(statystyka Cochrana i Coxa).

Obszar krytyczny 1.: K = (−∞, −cn1−α/21,n2 ) ∪ (cn1−α/21,n2 , +∞), Obszar krytyczny 2.: K = (−∞, −cn1−α1,n2),

Obszar krytyczny 3.: K = (cn1−α1,n2, +∞), gdzie

cn1−α1,n2 s21 n1Ft(n−1

1−1)(1 − α) + s22 n2Ft(n−1

2−1)(1 − α)

!

: s21 n1 + s22

n2

!

.

d) X ma w obu populacjach rozkład o nieznanych wariancjach σ21 i σ22, próby mają liczebności większe bądź równe 100.

Statystyka testowa: Tn= x¯1− ¯x2

ss21 n1 + s22

n2 .

Obszar krytyczny 1.: K = (−∞, −Φ−1(1 − α/2)) ∪ (Φ−1(1 − α/2), +∞), Obszar krytyczny 2.: K = (−∞, −Φ−1(1 − α)),

Obszar krytyczny 3.: K = (Φ−1(1 − α), +∞).

2

(3)

3. Test dla dwóch średnich i prób zależnych

Hipoteza zerowa: Dwie zmienne zależne (o rozkładach normalnych) mają jednakowe średnie (inaczej: różnica D = X − Y odpowiadających sobie wartości zmiennych ma średnią równą 0).

Hipoteza alternatywna 1.: Zmienne zależne mają różne średnie (inaczej: różnica D = X − Y odpowiadających sobie wartości zmiennych ma średnią różną od 0).

Hipoteza alternatywna 2.: Pierwsza ze zmiennych ma średnią mniejszą niż druga (inaczej:

różnica D = X − Y odpowiadających sobie wartości zmiennych ma średnią ujemną).

Hipoteza alternatywna 3.: Pierwsza ze zmiennych ma średnią większą niż druga (inaczej:

różnica D = X − Y odpowiadających sobie wartości zmiennych ma średnią dodatnią).

Statystyka testowa: Tn = d¯ sd

√n.

Obszar krytyczny 1.: K = (−∞, −Ft(n−1)−1 (1 − α/2)) ∪ (Ft(n−1)−1 (1 − α/2), +∞) dla n ¬ 30, K = (−∞, −Φ−1(1 − α/2)) ∪ (Φ−1(1 − α/2), +∞) dla n > 30, Obszar krytyczny 2.: K = (−∞, −Ft(n−1)−1 (1 − α)) dla n ¬ 30,

K = (−∞, −Φ−1(1 − α)) dla n > 30, Obszar krytyczny 3.: K = (Ft(n−1)−1 (1 − α), +∞) dla n ¬ 30,

K = (Φ−1(1 − α), +∞) dla n > 30.

4. Test chi-kwadrat zgodności

Założenia testu: Zmienna ma rozkład dyskretny, przyjmuje tylko wartości l1, . . . , lk z prawdo- podobieństwami odpowiednio p01, . . . , p0k, które nie są znane.

Hipoteza zerowa: Zmienna ma rozkład dyskretny z określonymi prawdopodobieństwami p01, . . . , p0k. Hipoteza alternatywna: Zmienna ma rozkład z innymi prawdopodobieństwami niż zadane.

Statystyka testowa: χ2 =Pki=1(ni − n0i)2

n0i =Pki=1(ni− np0i)2 np0i . Obszar krytyczny: K = (Fχ−12(k−1)(1 − α), +∞).

Uwagi:

• Jeżeli rozkład teoretyczny zależy od d nieznanych parametrów, to parametry te wyznaczamy metodą największej wiarogodności, a liczbę stopni swobody zmniejszamy o d.

• Przybliżenie rozkładem chi-kwadrat uznajemy za dopuszczalne, gdy np0i ­ 5, i = 1, . . . , k, a za dobre, gdy np0i ­ 10, i = 1, . . . , k. Jeśli liczba kategorii jest duża (> 6), to zgadzamy się stosować przybliżenie rozkładem chi-kwadrat także wtedy, gdy dla jednej lub dwóch kategorii 1 ¬ np0i < 5. Mało liczne kategorie można również łączyć z kategoriami sąsiednimi, redukując wówczas odpowiednio liczbę stopni swobody.

• W przypadku zmiennej o rozkładzie z ciągłą dystrybuantą dane grupujemy w k (10k ¬ n) klas. Prawdopodobieństwa teoretyczne wyliczamy z dystrybuanty. Klasy staramy się dobrać tak, aby prawdopodobieństwa znalezienia się w klasie były równe 1/k, a liczebności teore- tyczne były co najmniej równe 5. Testujemy wówczas hipotezę zerową: Zmienna ma rozkład o podanej dystrybuancie.

5. Test Kołmogorowa

Hipoteza zerowa: Zmienna ma rozkład o zadanej dystrybuancie F .

Hipoteza alternatywna: Zmienna ma rozkład o innej niż zadana dystrybuancie.

Wymagania testu: Ciągłość dystrybuanty.

a) n ¬ 100

3

(4)

Statystyka testu: Dn = max{D+n, Dn}, gdzie Dn+= max1¬i¬n

i

n − F (x(i))

, Dn = max1¬i¬n

F (x(i)) −i − 1 n

.

Obszar krytyczny: (dn(1−α), 1] (odczytujemy z tablic Kołmogorowa -Smirnowa, jest to taka wartość, dla której P (Dn­ dn(1 − α)) = α).

b) n > 100.

Statystyka testu:

nDn=

n max{D+n, Dn} (czasem (√

n + 0, 12 + 0, 11/√

n)Dn), gdzie Dn+= max1¬i¬n

i

n − F (x(i))

, Dn = max1¬i¬n

F (x(i)) −i − 1 n

.

Obszar krytyczny: (λ1−α, +∞), gdzie λ1−α jest kwantylem rzędu 1 − α granicznego rozkładu Kołmogorowa.

Uwaga: W przypadku danych zgrupowanych w klasy bierzemy pod uwagę prawy koniec każdej z klas i zamiast podanych statystyk wyznaczamy wartość maksymalną statystyki |Fn(xi) − F (xi)|, gdzie Fn jest dystrybuantą empiryczną.

6. Test chi-kwadrat niezależności

Założenia testu: Cechy X, Y są jakościowe (nominalne lub o wartościach uporządkowanych).

Hipoteza zerowa: X, Y są zmiennymi niezależnymi.

Hipoteza alternatywna: X, Y są zależne.

Statystyka testowa: χ2 = Pk

j=1 r

P

i=1

(nij − n0ij)2

n0ij , gdzie

r — liczba kategorii zmiennej X (liczba wierszy w tablicy kontyngencji), k — liczba kategorii zmiennej Y (liczba kolumn w tablicy kontyngencji), nij — liczba wystąpień w próbie par obserwacji (xi, yj),

n0ij =

Pk j=1

nij · Pr

i=1

nij

n ,

n =

r

X

i=1 k

X

j=1

nij.

Obszar krytyczny: K = (Fχ−12((r−1)(k−1))(1 − α), +∞).

Uwagi:

• Podobnie jak w teście chi-kwadrat zgodności, przybliżenie statystyki testowej rozkładem chi- kwadrat stosujemy, gdy liczebności teoretyczne prób w wierszach (kolumnach) są stosunkowo duże (n0ij ­ 5).

• Gdy tablica kontyngencji ma rozmiar 2 × 2 i liczebności próby w wierszach (kolumnach) są zbyt małe, można oprzeć się na tzw. dokładnym teście Fishera (którego tu nie będziemy omawiać).

• W przypadku pary cech o uporządkowanych kategoriach test niezależności może okazać się zwodniczy. Może wówczas zajść potrzeba wprowadzenia odpowiedniej miary zależności mię- dzy cechami (tego nie będziemy tu omawiać).

4

Cytaty

Powiązane dokumenty

W związku z tym hipotezę zerową odrzucamy, gdy istotność podawana przez pro- gram jest mniejsza niż deklarowany przez nas poziom istotności, a nie mamy podstaw do odrzucenia, gdy

[r]

Miejscowo właściwy do rozpoznania sprawy jest sąd, w którego okręgu popełniono przestępstwo skarbowe lub wykroczenie skarbowe. Jeżeli czyn popełniono na polskim statku wodnym

Wyprowadzić wzór na zależność energii potencjalnej masy m od odległości r od źródła pola M.. Podać

[r]

W związku z tym hipotezę zerową odrzucamy, gdy p-wartość jest mniejsza niż deklarowany przez nas poziom istotności, a nie mamy podstaw do odrzucenia, gdy jest

Jeśli nierówność społeczną rozumieć jako nierówność względnych udziałów w sumie dobra, wówczas współczynnik nierówności powinien przyjmować tę samą wartość dla

Rozważane poprzednio miary zależności tau Kendalla, rho Spearmana oraz gamma Giniego mają pewne wspólne własności, które można sformułować jako aksjomaty miary zgodności..