Statystyka i eksploracja danych
Testy statystyczne — teoria
Niech X1, . . . , Xn będzie próbą losową prostą z rozkładu Pθ, θ ∈ Θ oraz niech α ∈ (0, 1) będzie poziomem istotności (najczęściej 0,1, 0,05, czy 0,01).
Oznaczenia: Φ — dystrybuanta rozkładu N(0, 1), t1−α/2 = Φ−1(1 − α/2),
Ftn−1 — dystrybuanta rozkładu t-Studenta z n − 1 stopniami swobody, zn−11−α/2= Ft−1n−1(1 − α/2),
ni — liczebności empiryczne, n0i — liczebności teoretyczne,
Fχ2(k−1) — dystrybuanta rozkładu χ2 z k − 1 stopniami swobody, uk−11−α = Fχ−12(k−1)(1 − α).
Jeżeli statystyka testowa należy do obszaru krytycznego, to hipotezę zerową odrzuca- my i przyjmujemy hipotezę alternatywną. Jeżeli statystyka testowa nie należy do obszaru krytycznego, to nie ma podstaw do odrzucenia hipotezy zerowej.
W programie PASW Statistics zadeklarowany poziom istotności należy porównać z istot- nością wyliczaną przez program. Jest to minimalny próg odrzucenia bądź nie hipotezy zerowej. W związku z tym hipotezę zerową odrzucamy, gdy istotność podawana przez pro- gram jest mniejsza niż deklarowany przez nas poziom istotności, a nie mamy podstaw do odrzucenia, gdy jest większa.
1. Test dla jednej średniej.
Hipoteza zerowa: Średnia wartość zmiennej jest równa określonej wartości a0.
Hipoteza alternatywna: Średnia wartość zmiennej jest różna od określonej warto- ści a0.
a) X ma rozkład normalny o znanej wariancji σ2. Statystyka testowa: Tn= √n¯x − a0
σ .
Obszar krytyczny: K = (−∞, −t1−α/2) ∪ (t1−α/2,+∞).
b) X ma rozkład normalny o nieznanej wariancji σ2. Statystyka testowa: Tn= √n¯x − a0
s .
Obszar krytyczny: K = (−∞, −zn−11−α/2) ∪ (z1−α/2n−1 ,+∞) dla n ¬ 30, K = (−∞, −t1−α/2) ∪ (t1−α/2,+∞) dla n > 30.
c) X ma rozkład dowolny, istnieje D2X, n > 30.
Statystyka testowa: Tn= √n¯x − a0
σ lub Tn = √n¯x − a0
s , lub Tn= √n¯x − a0 ˆs . Obszar krytyczny: K = (−∞, −t1−α/2) ∪ (t1−α/2,+∞).
W programie PASW Statistics wybieramy: Analiza → Porównywanie średnich → Test t dla jednej próby...
2. Test dla dwóch średnich i prób niezależnych Hipoteza zerowa: Dwie zmienne mają jednakowe średnie.
Hipoteza alternatywna: Dwie zmienne mają różne średnie.
Wymagania testu:Dla prób mało licznych (tzn. choćby jedna z grup o liczebności nie większej niż 30) konieczne jest sprawdzenie normalności rozkładów.
Statystyka:Dwa różne wzory w zależności od tego, czy wariancje zmiennych są równe, czy różne (to jest sprawdzane testem Levene’a) (patrz A. Malarska str. 139).
W programie PASW Statistics wybieramy: Analiza → Porównywanie średnich → Test t dla prób niezależnych...
3. Test dla dwóch średnich i prób zależnych
Hipoteza zerowa: Dwie zmienne mają jednakowe średnie (inaczej: różnica odpowia- dających sobie wartości zmiennych ma średnią równą 0).
Hipoteza alternatywna: Dwie zmienne mają różne średnie.
Statystyka: (patrz A. Malarska str. 139).
W programie PASW Statistics wybieramy: Analiza → Porównywanie średnich → Test t dla prób zależnych...
4. Test dwumianowy
Hipoteza zerowa: Zmienna ma rozkład dwumianowy z określonym parametrem p0. Hipoteza alternatywna: Zmienna ma rozkład z innym parametrem p0.
Wymagania testu: Zmienna może przyjmować tylko 2 różne wartości.
Statystyka: (patrz A. Malarska str. 139).
W programie PASW Statistics wybieramy: Analiza → Testy nieparametryczne → Dwu- mianowy...
5. Test chi-kwadrat
Założenia testu: Zmienna ma rozkład dyskretny, przyjmuje tylko wartości l1, . . . , lk
z prawdopodobieństwami odpowiednio p01, . . . , p0k, które nie są znane.
Hipoteza zerowa:Zmienna ma rozkład dyskretny z określonymi prawdopodobieństwa- mi p01, . . . , p0k.
Hipoteza alternatywna: Zmienna ma rozkład z innymi prawdopodobieństwami niż zadane.
Statystyka testowa: χ2 =Pki=1(ni− n0i)2 n0i . Obszar krytyczny: K = (uk−11−α,+∞).
Uwagi:
• W przypadku zmiennej o rozkładzie z ciągłą dystrybuantą dane grupujemy w k (10k ¬ n) klas. Prawdopodobieństwa teoretyczne wyliczamy z dystrybuanty. Klasy staramy się dobrać tak, aby prawdopodobieństwa znalezienia się w klasie były równe 1/k. Testujemy wówczas hipotezę zerową: Zmienna ma rozkład o podanej dystrybuancie.
• Jeżeli liczebności teoretyczne dla jakiejś wartości lub w jakiejś klasie są mniejsze od 10, to należy połączyć tę wartość lub klasę z wartością lub klasą sąsiednią i zredukować liczbę stopni swobody.
• Liczbę stopni swobody redukujemy również wówczas, gdy do określenia rozkładu teoretycznego konieczne jest wyznaczenie jakiejś statystyki (np. średniej) z próbki.
W programie PASW Statistics wybieramy: Analiza → Testy nieparametryczne → Chi- kwadrat...
6. Test Kołmogorowa
Hipoteza zerowa: Zmienna ma rozkład o zadanej dystrybuancie F .
Hipoteza alternatywna: Zmienna ma rozkład o innej niż zadana dystrybuancie.
Wymagania testu: Ciągłość dystrybuanty.
a) n ¬ 100
Statystyka testu:Dn= max{Dn+, Dn−}, gdzie Dn+= max1¬i¬n
i
n − F (x(i))
, Dn−= max1¬i¬n
F(x(i)) − i − 1 n
.
Obszar krytyczny: (dn(1 − α), 1] (odczytujemy z tablic Kołmogorowa -Smirnowa, jest to taka wartość, dla której P (Dn dn(1 − α)) = α).
b) n > 100.
Statystyka testu:√
nDn = √n max{D+n, Dn−}, gdzie Dn+= max1¬i¬n
i
n − F (x(i))
, Dn−= max1¬i¬n
F(x(i)) − i − 1 n
.
Obszar krytyczny:(λ1−α,+∞), gdzie λ1−α jest kwantylem rzędu 1−α granicznego rozkładu Kołmogorowa.
Uwaga:W przypadku danych zgrupowanych w klasy bierzemy pod uwagę prawy koniec każdej z klas i zamiast podanych statystyk wyznaczamy wartość maksymalną statystyki
|Fn(xi) − F (xi)|, gdzie Fn jest dystrybuantą empiryczną.
W programie PASW Statistics wybieramy: Analiza → Testy nieparametryczne → K-S dla jednej próby... Można testować zgodność z rozkładem normalnym, jednostajnym Poissona i wykładniczym.