• Nie Znaleziono Wyników

Statystyka i eksploracja danych Testy statystyczne — teoria

N/A
N/A
Protected

Academic year: 2021

Share "Statystyka i eksploracja danych Testy statystyczne — teoria"

Copied!
3
0
0

Pełen tekst

(1)

Statystyka i eksploracja danych

Testy statystyczne — teoria

Niech X1, . . . , Xn będzie próbą losową prostą z rozkładu Pθ, θ ∈ Θ oraz niech α ∈ (0, 1) będzie poziomem istotności (najczęściej 0,1, 0,05, czy 0,01).

Oznaczenia: Φ — dystrybuanta rozkładu N(0, 1), t1−α/2 = Φ−1(1 − α/2),

Ftn−1 — dystrybuanta rozkładu t-Studenta z n − 1 stopniami swobody, zn−11−α/2= Ft−1n−1(1 − α/2),

ni — liczebności empiryczne, n0i — liczebności teoretyczne,

Fχ2(k−1) — dystrybuanta rozkładu χ2 z k − 1 stopniami swobody, uk−11−α = Fχ−12(k−1)(1 − α).

Jeżeli statystyka testowa należy do obszaru krytycznego, to hipotezę zerową odrzuca- my i przyjmujemy hipotezę alternatywną. Jeżeli statystyka testowa nie należy do obszaru krytycznego, to nie ma podstaw do odrzucenia hipotezy zerowej.

W programie PASW Statistics zadeklarowany poziom istotności należy porównać z istot- nością wyliczaną przez program. Jest to minimalny próg odrzucenia bądź nie hipotezy zerowej. W związku z tym hipotezę zerową odrzucamy, gdy istotność podawana przez pro- gram jest mniejsza niż deklarowany przez nas poziom istotności, a nie mamy podstaw do odrzucenia, gdy jest większa.

1. Test dla jednej średniej.

Hipoteza zerowa: Średnia wartość zmiennej jest równa określonej wartości a0.

Hipoteza alternatywna: Średnia wartość zmiennej jest różna od określonej warto- ści a0.

a) X ma rozkład normalny o znanej wariancji σ2. Statystyka testowa: Tn= √n¯x − a0

σ .

Obszar krytyczny: K = (−∞, −t1−α/2) ∪ (t1−α/2,+∞).

b) X ma rozkład normalny o nieznanej wariancji σ2. Statystyka testowa: Tn= √n¯x − a0

s .

Obszar krytyczny: K = (−∞, −zn−11−α/2) ∪ (z1−α/2n−1 ,+∞) dla n ¬ 30, K = (−∞, −t1−α/2) ∪ (t1−α/2,+∞) dla n > 30.

c) X ma rozkład dowolny, istnieje D2X, n > 30.

Statystyka testowa: Tn= √n¯x − a0

σ lub Tn = √n¯x − a0

s , lub Tn= √n¯x − a0 ˆs . Obszar krytyczny: K = (−∞, −t1−α/2) ∪ (t1−α/2,+∞).

W programie PASW Statistics wybieramy: Analiza → Porównywanie średnich → Test t dla jednej próby...

(2)

2. Test dla dwóch średnich i prób niezależnych Hipoteza zerowa: Dwie zmienne mają jednakowe średnie.

Hipoteza alternatywna: Dwie zmienne mają różne średnie.

Wymagania testu:Dla prób mało licznych (tzn. choćby jedna z grup o liczebności nie większej niż 30) konieczne jest sprawdzenie normalności rozkładów.

Statystyka:Dwa różne wzory w zależności od tego, czy wariancje zmiennych są równe, czy różne (to jest sprawdzane testem Levene’a) (patrz A. Malarska str. 139).

W programie PASW Statistics wybieramy: Analiza → Porównywanie średnich → Test t dla prób niezależnych...

3. Test dla dwóch średnich i prób zależnych

Hipoteza zerowa: Dwie zmienne mają jednakowe średnie (inaczej: różnica odpowia- dających sobie wartości zmiennych ma średnią równą 0).

Hipoteza alternatywna: Dwie zmienne mają różne średnie.

Statystyka: (patrz A. Malarska str. 139).

W programie PASW Statistics wybieramy: Analiza → Porównywanie średnich → Test t dla prób zależnych...

4. Test dwumianowy

Hipoteza zerowa: Zmienna ma rozkład dwumianowy z określonym parametrem p0. Hipoteza alternatywna: Zmienna ma rozkład z innym parametrem p0.

Wymagania testu: Zmienna może przyjmować tylko 2 różne wartości.

Statystyka: (patrz A. Malarska str. 139).

W programie PASW Statistics wybieramy: Analiza → Testy nieparametryczne → Dwu- mianowy...

5. Test chi-kwadrat

Założenia testu: Zmienna ma rozkład dyskretny, przyjmuje tylko wartości l1, . . . , lk

z prawdopodobieństwami odpowiednio p01, . . . , p0k, które nie są znane.

Hipoteza zerowa:Zmienna ma rozkład dyskretny z określonymi prawdopodobieństwa- mi p01, . . . , p0k.

Hipoteza alternatywna: Zmienna ma rozkład z innymi prawdopodobieństwami niż zadane.

Statystyka testowa: χ2 =Pki=1(ni− n0i)2 n0i . Obszar krytyczny: K = (uk−11−α,+∞).

Uwagi:

• W przypadku zmiennej o rozkładzie z ciągłą dystrybuantą dane grupujemy w k (10k ¬ n) klas. Prawdopodobieństwa teoretyczne wyliczamy z dystrybuanty. Klasy staramy się dobrać tak, aby prawdopodobieństwa znalezienia się w klasie były równe 1/k. Testujemy wówczas hipotezę zerową: Zmienna ma rozkład o podanej dystrybuancie.

(3)

• Jeżeli liczebności teoretyczne dla jakiejś wartości lub w jakiejś klasie są mniejsze od 10, to należy połączyć tę wartość lub klasę z wartością lub klasą sąsiednią i zredukować liczbę stopni swobody.

• Liczbę stopni swobody redukujemy również wówczas, gdy do określenia rozkładu teoretycznego konieczne jest wyznaczenie jakiejś statystyki (np. średniej) z próbki.

W programie PASW Statistics wybieramy: Analiza → Testy nieparametryczne → Chi- kwadrat...

6. Test Kołmogorowa

Hipoteza zerowa: Zmienna ma rozkład o zadanej dystrybuancie F .

Hipoteza alternatywna: Zmienna ma rozkład o innej niż zadana dystrybuancie.

Wymagania testu: Ciągłość dystrybuanty.

a) n ¬ 100

Statystyka testu:Dn= max{Dn+, Dn}, gdzie Dn+= max1¬i¬n

i

n − F (x(i))

, Dn= max1¬i¬n

F(x(i)) − i − 1 n

.

Obszar krytyczny: (dn(1 − α), 1] (odczytujemy z tablic Kołmogorowa -Smirnowa, jest to taka wartość, dla której P (Dn­ dn(1 − α)) = α).

b) n > 100.

Statystyka testu:

nDn = √n max{D+n, Dn}, gdzie Dn+= max1¬i¬n

i

n − F (x(i))

, Dn= max1¬i¬n

F(x(i)) − i − 1 n

.

Obszar krytyczny:1−α,+∞), gdzie λ1−α jest kwantylem rzędu 1−α granicznego rozkładu Kołmogorowa.

Uwaga:W przypadku danych zgrupowanych w klasy bierzemy pod uwagę prawy koniec każdej z klas i zamiast podanych statystyk wyznaczamy wartość maksymalną statystyki

|Fn(xi) − F (xi)|, gdzie Fn jest dystrybuantą empiryczną.

W programie PASW Statistics wybieramy: Analiza → Testy nieparametryczne → K-S dla jednej próby... Można testować zgodność z rozkładem normalnym, jednostajnym Poissona i wykładniczym.

Cytaty

Powiązane dokumenty

(2).Ta własność jest najważniejsza, bo z niej wynika wiele pozostałych.. Jej dowód

Jaką drogę przebędzie on do chwili zatrzymania się, jeśli współczynnik tarcia krążka o lód wynosi f=0,1?.

Udowodnić, że średnia arytmetyczna tych liczb jest równa n+1 r

Ćw. 71) W celu oszacowania wartości prze- ciętnego czasu bezawaryjnej pracy maszyny z partii tych maszyn wybrano losowo 7 maszyn i mierzono czas ich pracy do pierwszej awarii..

Oblicz prawdopodobieństwa, że X odchyla się od swojej wartości oczekiwanej o nie więcej niż kolejno σ, 2σ i

Zad. 117) Liczba wypadków drogowych w ciągu tygodnia ma w przybliżeniu rozkład Poissona. Zakładamy, że obserwacji dokonujemy przez okres n tygodni, w których ogólne warunki

Wyznacz minimalną i zupełną statystykę dostateczną dla tej rodziny rozkładów.. Znajdź estymator nieobciążony minimalnej wariancji parame-

Na poziomie istotności 0,05 zweryfikować hipotezę, że frakcja jajek złej jakości jest równa zakładanej, przeciw hipotezie, że frakcja ta jest inna, używając najpierw testu t