• Nie Znaleziono Wyników

Hipoteza zerowa i hipotezy alternatywne

N/A
N/A
Protected

Academic year: 2021

Share "Hipoteza zerowa i hipotezy alternatywne"

Copied!
30
0
0

Pełen tekst

(1)

Rachunek prawdopodobieństwa i statystyka - W 8 Wnioskowanie statystyczne.

Testy statystyczne. Weryfikacja hipotez statystycznych.

Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.pl

(2)

Hipotezy i Testy statystyczne

• Każde badanie naukowe rozpoczyna się od sformułowania

problemu oraz najbardziej prawdopodobnego rozwiązania czyli hipotezy badawczej, bądź wielu hipotez.

• Każda hipoteza statystyczna jest podzbiorem ( jedno lub wieloelementowym ) zbioru hipotez dopuszczalnych.

• Każda hipoteza jest zdaniem oznajmującym, powinna być tak sformułowana, by można ją ocenić i przyjąć lub odrzucić.

• Test statystyczny jest regułą postępowania,

– która każdej możliwej próbie przyporządkowuje decyzję przyjęcia lub odrzucenia konkretnej hipotezy

– rozstrzygającą jakie wyniki próby pozwalają uznać

sprawdzaną hipotezę za prawdziwą a jakie za fałszywą.

(3)

Hipotezy statystyczne

Hipoteza zerowa i hipotezy alternatywne

• Hipoteza zerowa jest jedną wyróżnioną hipotezą, która podlega weryfikacji, pozostałe hipotezy ze zbioru hipotez dopuszczalnych stanowią zbiór hipotez alternatywnych.

• Hipotezie zerowej przypisujemy inną wagę niż hipotezie alternatywnej.

• Za hipotezę zerową przyjmuje się tę, której prawdziwość poddajemy w wątpliwość.

• Do weryfikacji hipotezy zerowej stosuje się testy

statystyczne bazujące na funkcjach testowych, określających zmienne losowe, których rozkłady są znane.

• Zabieg posługiwania się zmienną losową o znanym rozkładzie odniesienia jest wspólny dla wszystkich zadań budowy

przedziałów ufności i dla problemu testowania hipotez.

(4)

Proces weryfikacji hipotez statystycznych jest wieloetapowy

1. Sformułowanie hipotez H0 i H1

2. Przyjęcie odpowiedniego poziomu istotności α oraz liczebności próby

3. Określenie obszaru krytycznego i obszaru przyjęcia sprawdzanej hipotezy H0

4. Wybór testu weryfikującego H0 i wyliczenie wartości funkcji testowej

5. Podjęcie decyzji weryfikacyjnej

(5)

Rodzaje hipotez statystycznych

•Hipotezy statystyczne mogą dotyczyć:

– wartości analizowanych zmiennych: np. wartości średniej, wartości ekstremalnych ( mim, max);

– rozproszenia wartości, jednorodności (wariancji);

– różnicy pomiędzy wartościami określonej cechy w różnych grupach badawczych (różnych populacjach);

– siły i kierunku zależności pomiędzy badanymi zmiennymi (korelacja);

– rodzaju badanych zależności np zależność logarytmiczna, wykładnicza, liniowa …(regresja)

– oceny charakteru rozkładu zmiennej losowej - dopasowanie rozkładu teoretycznego do rozkładu empirycznego

(6)

1. Formułowanie hipotez H0 i H1

H

0

1

= µ

2

; H1: µ

1

≠ µ

2

lub

H

0

1

= µ

2

; H1: µ

1

2

albo

H

0

: σ

21

= σ

22

H1: σ

21

≠ σ

22

(7)

Hipotezy dotyczące siły i kierunku zależności pomiędzy badanymi zmiennymi (korelacja);

(8)

Hipotezy dotyczące rodzaju zależności pomiędzy badanymi zmiennymi

(9)

Hipoteza dotycząca zgodności rozkładu w populacji z rozkładem normalnym

(10)

Formułowanie hipotez

w parametrycznych testach istotności

Testy dla wartości średniej w rodzinie rozkładów normalnych – przypadek znanej wariancji

Hipoteza sprawdzana (zerowa) dotyczy określonego parametru, np wartości oczekiwanej m:

• H0: m=m0

przy jednej z hipotez alternatywnych:

• H1: m≠m0 lub H1: m>m0 lub H1: m<m0

• Hipoteza H0 : o równości średnich z n - elementowej próby i w populacji będzie zweryfikowana na

podstawie wyników próby losowej.

(11)

Formułowanie hipotez

w parametrycznych testach istotności

Pracujemy nad nową technologią produkcji określonego stopu,

zapewniającą niższy średni poziom zanieczyszczeń niż w dotychczas stosowanej, w której średni poziom zanieczyszczeń wynosił µ0

•H0 :µ = µ0 ; H1: µ < µ0

Hipotezę H0 przyjmujemy albo odrzucamy na rzecz H1.

Nieodrzucenie (przyjęcie) hipotezy zerowej nie dowodzi jej

prawdziwości, wynika jedynie z braku podstaw do jej odrzucenia Hipoteza H1 jest w pewnym sensie ważniejsza, ponieważ test wykonujemy po to, by znaleźć podstawę do odrzucenia hipotezy zerowej i przyjęcia hipotezy alternatywnej.

Hipoteza zerowa jest hipotezą prostą, bowiem jednoznacznie

wyznacza rozkład prawdopodobieństwa, z którego jest losowana próba losowa. Hipotezą złożoną jest ta, która opisuje więcej niż jeden rozkład, w naszym przypadku jest to hipoteza alternatywna

(12)

Intuicyjna interpretacja hipotezy zerowej i alternatywnej

Nasze postępowanie przypomina zachowanie prokuratora, w sytuacji gdy

• Sąd musi opierać się na domniemaniu

niewinności podsądnego (hipoteza zerowa)

• Prokuratura skupia się na uzasadnieniu fałszywości tego domniemania

i odrzucenia go na korzyść orzeczenia winy podsądnego ( hipotezy alternatywnej)

(13)

2. Przyjęcie odpowiedniego poziomu istotności αααα oraz liczebności próby

Przy podejmowaniu decyzji weryfikującej hipotezy możemy popełnić dwa rodzaje błędów

prawdziwa fałszywa

bł ąd I rodzaju decyzja trafna

α 1- β

decyzja trafna błąd II rodzaju

1- α β

Hipoteza H

0

Decyzja

odrzucić

nie odrzucić

(14)

Przykład

H0- oskarżony jest niewinny H1 - oskarżony jest winien

Błąd I rodzaju : sąd skazał niewinnego:

H0 prawdziwa, ale ją odrzucono Błąd II rodzaju: sąd uwolnił winnego:

H1 prawdziwa, a przyjęto H0,

Tu błąd I rodzaju jest znacznie bardziej dotkliwy, dlatego należy zminimalizować

prawdopodobieństwo jego popełnienia (czyli dostarczyć „niezbitych” dowodów)

(15)

Związek pomiędzy błędami I i II rodzaju:

H0: µ=m0 H1: µ >m0

Przy przyjętym poziomie istotności α, obszar krytyczny obejmuje wartości średnie A, gdy P (x A)= α

Dla określenia obszaru β przyjmiemy następujący zestaw hipotez H0: µ=m0 H1: µ = m1 >m0

H0: µ=m0 H1: µ=m1

zmniejszanie wartości α pociąga wzrost wartości β

β α

(16)

Błąd II rodzaju i moc testu

• Z przedstawionego rysunku widać, że nie jest możliwe jednoczesne minimalizowanie prawdopodobieństwa popełnienia obu błędów.

• Z wartością β związana jest moc testu, która jest określana jako prawdopodobieństwo odrzucenia hipotezy zerowej , gdy jest ona fałszywa, czyli wynosi 1- β.

• Moc testu zależy od poziomu istotności α, a także od postaci hipotezy alternatywnej i liczebności próby

• W statystyce praktycznie postępuje się podobnie jak w sądzie przyjmując zasadę domniemania prawdziwości hipotezy

zerowej, co oznacza, że chcemy aby błąd I rodzaju nie często miał miejsce.

• Określając poziom istotności określamy granicę błędu I rodzaju, pamiętając że przyjmując niższą wartość α

uzyskujemy wyższą wiarygodność hipotezy alternatywnej (jej przyjęcie jest jakby mocniej uzasadnione), ale wtedy trudniej odrzucić hipotezę zerową.

(17)

3. Określenie obszaru krytycznego i obszaru przyjęcia sprawdzanej hipotezy H0

Obszar krytyczny wyznacza jedno z następujących równań

P(||||U |≥|≥|≥|≥ u1-αααα/2 ) = αααα dwustronny obszar krytyczny P(U ≥≥≥≥ u1-αααα ) = αααα prawostronny obszar krytyczny P(U ≤ -uαααα ) = αααα lewostronny obszar krytyczny

• Jeśli prawdziwa jest hipoteza zerowa, to wartość statystyki U nie powinna przekraczać pewnej wartości krytycznej uα

• α oznacza obszar zbiór nietypowych wartości statystyki testowej pod warunkiem prawdziwości hipotezy zerowej

(18)

H0: m=m0 H1: m<m0 P(U uαααα ) = αααα

0 u αααα

αααα

lewostronny obszar krytyczny

(19)

H0: m=m0 H1: m>m0 P(U ≥≥≥≥ uαααα ) = αααα

0

1- αααα

u 1-αααα αααα

prawostronny obszar krytyczny

(20)

H0: m=m0 H1: m≠m0 P (||||U |≥|≥|≥|≥ u 1-α/2 ) = αααα

0

1- αααα

u 1- αααα/2

αααα/2 αααα/2

dwustronny obszar krytyczny

(21)

4. Wybór testu weryfikującego H0 i wyliczenie statystyki testowej

Rozważamy rozkład średnich z n - elementowej próby, jest to rozkład N(m0,

σ

/ ), o ile hipoteza H0 jest prawdziwa

Stąd statystyka U , określona wzorem

ma rozkład N (0,1),

• Jeśli prawdziwa jest hipoteza zerowa , to obliczona z próby wartość statystyki U nie powinna przekraczać wartości

krytycznej uα (kwantyla uα )

m n

U x

o

σ

= −

n

(22)

Funkcje testowe dla dużej próby i dla małej,

gdy nieznana jest wartość wariancji w populacji

s n m

U = x

o

− 1

= − n

s m

t x

o

Duża próba, wylosowana z populacji o rozkładzie N (m, σ)

Mała próba, wylosowana z populacji o rozkładzie N (m, σ)

wtedy U, określone funkcją testową, jest zmienną losową o rozkładzie N(0;1)

wtedy zmienna losowa t, określona wzorem ma rozkład Studenta

o n-1 stopniach swobody, który jest niezależny od wartości wariancji w populacji

(23)

Inne funkcje testowe, określające zmienne o rozkładzie Studenta

) 2

(

1 2

2 1

2 1 2

2 2 2

1 1

2

1

+ −

+ +

= − n n

n n

n n s

n s

n

x t x

Jeśli z populacji mających taki sam rozkład normalny wylosujemy dwie próby o liczebnościach odpowiednio n1 i n2 , średnich arytmetycznych x1 i x2 oraz wariancjach s12 i s22 , obliczonych z próby, to zmienna t

ma rozkład Studenta o n1+n2-2 stopniach swobody

Podobnie rozkład Studenta mają funkcje stosowane do testowania hipotezy o niezależności zmiennych (że współczynnik korelacji ρ =0), i funkcje do testowania istotności współczynników regresji: (H0: ai=0).

(24)

Przykład realizowany z pomocą pakietu STATISTICA

Dane z badań przeprowadzonych w 1996 roku dotyczące zarobków Polaków.

Ankiety wysłano do 5000 pracowników wylosowanych przez GUS.

Ankiety zwróciło 1255 osób. Arkusz zawiera następujące informacje o badanych osobach

– Płeć

– Wykształcenie – Wiek

– Staż pracy – Płaca brutto

Stawiam pod wątpliwość twierdzenie, że płeć nie ma wpływu na wysokość zarobków w Polsce, jeśli by tak było to nie powinno być różnic pomiędzy średnimi wartościami zarobków kobiet i mężczyzn.

Hipotezą zerową jest zdanie: Zarobki mężczyzn i kobiet nie różnią się H0 : m1=m2 przy hipotezie alternatywnej H1 : m1 m2 ,

(25)

Obliczenia w programie Statistica

(26)

Podstawa do podjęcia decyzji weryfikacyjnej

• Jeżeli obliczona wartość funkcji testowej znajdzie się w obszarze krytycznym hipotezę H0 należy odrzucić co jest równoważne z przyjęciem hipotezy H1

• W programach komputerowych decyzję podejmuje się na podstawie obliczonej wartości prawdopodobieństwa p

• jeśli p< α H0 odrzucamy, przyjmujemy H1

• jeśli p ≥ α nie ma podstaw do odrzucenia H0

A α

(27)

Weryfikacja hipotezy o wariancji w rozkładzie normalnym

H0: (σσσσ2 ≤≤≤≤ σσσσ20) przy H1: (σσσσ2 > σσσσ20 )

Przyjmujemy poziom istotności α

i wiemy, że statystyka ma rozkład chi-kwadrat o n-1 stopniach swobody.

Skoro, gdy H0 jest prawdziwa, zachodzi równość ,

Zatem hipotezę H0 odrzucamy, na rzecz H1, ilekroć stwierdzimy (na podstawie obliczeń), że zaszła nierówność

2 2

0 2

χ α

σ n >

nS

α σ > χ α ) =

( 2 2

0 2

nS n

P

2 0

2

σ n nS

(28)

Weryfikacja hipotezy o wariancji w rozkładzie normalnym

• Błąd pomiaru odległości za pomocą radaru ma rozkład normalny.

Przeprowadzono 10 pomiarów tej samej znanej odległości i otrzymano następujące wartości błędów

k 1 2 3 4 5 6 7 8 9 10

sk[km] 0,115 -0,250 0,180 -0,060 -0,120 0,010 -0,050 0,075 -0,150 -0,250

suma błędów -0,500

średni błąd -0,050

wariancja błędów 0,0216

Na poziomie istotności α=0,05 zweryfikować hipotezę , że wariancja błędu nie przekracza 0,0125.

Odczytane z tablic chi kwadrat dla n-1=9 stopni swobody =16,919 Obliczam wartość funkcji testowej

919 , 16 276

, 0125 17

, 0

0216 ,

0

* 10

2 0

2 = = >

σ n

nS H0 należy odrzucić

(29)

Tablice rozkładu χχχχ2

poziom istotności 0,99 0,95 0,9 0,1 0,05 0,01

l.ss

1 0,000 0,004 0,016 2,706 3,841 6,635

2 0,020 0,103 0,211 4,605 5,991 9,210

3 0,115 0,352 0,584 6,251 7,815 11,345

4 0,297 0,711 1,064 7,779 9,488 13,277

5 0,554 1,145 1,610 9,236 11,070 15,086

6 0,872 1,635 2,204 10,645 12,592 16,812

7 1,239 2,167 2,833 12,017 14,067 18,475

8 1,646 2,733 3,490 13,362 15,507 20,090

9 2,088 3,325 4,168 14,684 16,919 21,666

10 2,558 3,940 4,865 15,987 18,307 23,209

11 3,053 4,575 5,578 17,275 19,675 24,725

12 3,571 5,226 6,304 18,549 21,026 26,217

13 4,107 5,892 7,042 19,812 22,362 27,688

14 4,660 6,571 7,790 21,064 23,685 29,141

15 5,229 7,261 8,547 22,307 24,996 30,578

(30)

Etapy wnioskowania statystycznego

obliczenia własne

1. postawienie hipotezy zerowej 2. wybór testu i sprawdzenie

spełnienia założeń

3. obliczenie wartości funkcji testowej

4. ustalenie (odczytanie z

tablic) wartości krytycznych dla danego poziomu

istotności

5. podjęcie decyzji o przyjęciu lub odrzuceniu hipotezy H0

6. interpretacja otrzymanych wyników

z użyciem pakietu STATISTICA 1. postawienie hipotezy zerowej 2. wybór testu i sprawdzenie

spełnienia założeń

3. wprowadzenie danych

4. podjęcie decyzji o przyjęciu lub odrzuceniu hipotezy H0

5. interpretacja otrzymanych wyników

Cytaty

Powiązane dokumenty

Dlatego, gdy mamy do czynienia z rozkładem ciągłym, powinniśmy unikać stoso- wania tego testu [...] Dopiero, gdy próba losowa jest bardzo liczna i hi- stogram sporządzony na

Zwraca uwagę, iż w badanej grupie średni wiek uro- dzenia pierwszego dziecka wynosił 24,1 lat, a dru- giego dziecka 27,5 lat. Wyniki analizy poglądów i postaw tych kobiet

Zatem na poziomie istotności α = 0.05 nie ma podstaw by twierdzić, że w badanej populacji świstaki pracujące przy masowaniu krów częściej niż świstaki pracujące przy zawijaniu

[r]

Jednak zmieniające się w czasie wartości największego wykładnika Lapunowa mogą świadczyć o tym, że stan rynku kapitałowego zmienia się w czasie oraz że następują

Założenia przyjęte w niniejszej pracy doktorskiej, uwzględniające silny kom- promis pomiędzy dwiema branymi pod uwagę cechami cząsteczek RNA, prowadzą

Istotą problemu rozwiązywanego w doktoracie jest zbudowanie modelu komputerowego procesu początków życia, rozumianego jako samoorganizacja materii pozwalająca molekułom

przyjąć H 1 : na podstawie obserwacji nie możemy stwierdzić, że nowa technologia zmniejsza poziom