Wykład 7

(1)

Wykład 7

Dwie niezależne próby

• Często porównujemy wartości pewnej zmiennej w dwóch populacjach.

• Przykłady:

– Grupa zabiegowa i kontrolna – Lekarstwo a placebo

– Pacjenci biorący dwa podobne lekarstwa – Mężczyźni a kobiety

– Dwie różne linie genetyczne

Niech rozkład cechy Y w populacji 1 będzie N(

₁

, 

₁

). Bierzemy próbę o rozmiarze n

₁

,

Niech rozkład cechy Y w populacji 2 będzie N(

₂

, 

₂

). Bierzemy próbę o rozmiarze n

₂

,

1 1 1

1 1

, ,

n SE s

s

y 

2 2 2 2 2

, ,

n SE s

s

y 

• Podstawowe pytanie: Jaka jest różnica między średnimi w populacjach: 

₁

-

₂

?

• Idea: znaleźć PU dla 

₁

- 

₂

• jest estymatorem 

₁

- 

₂

i będzie środkiem przedziału ufności.

• Należy jeszcze wyznaczyć SE.

2

1

y

y 

Standardowy błąd dla różnicy dwóch średnich

• Jak policzyć SE dla ?

• Istnieją dwa sposoby: uśredniony (łączony) i nieuśredniony (niełączony) (ang. pooled, unpooled).

• W obu przypadkach SE liczone jest przy pomocy s₁, s₂, oraz n₁, n₂.

• Na ogół będziemy używać niełączonego SE.

• Metodę łączonego SE zastosujemy tylko, gdy będzie można założyć, że₁=₂(albo gdy o to poprosi wykładowca)

• Gdy n₁= n₂, to obie metody dają te same wyniki.

2

1 y

y 

(2)

Metoda zwykła (niełączona)

• Liczymy SE1 = i SE2 =

(osobno w obu próbach).

• Obliczamy nieuśrednione SE:

1 1

s n

2 2

s n

2 2 2

)

1

( N SE  SE  SE

Metoda łączona

• Znajdujemy sumę kwadratów odchyleń dla obu prób:

, uśrednioną wariancję:

s_c²= ,

a następnie uśrednione (łączone) SE:

(U)SE= .

1 2

2 SS SS n n



 

2

1 2 1 2

1 1 1 1

c c

s s

n n n n

 

  

 

 

) ( , )

( _,₁ ₁² ₂ _,₂ ₂ ²

1^



^y ^^y ^SS^



^y ^^y

SS _i _i

Przykład:

• próba 1: n₁= 15, y₁= 75, SS₁= 600

• próba 2: n₂= 10, y₂= 55, SS₂= 300

Uwagi:

• Wyniki obu metod nie są takie same, ale są dość podobne.

• Zauważmy, że mieliśmy tu s₁= 6.55 i s₂= 5.77. (Gdy s₁=s₂, to oba rachunki dają to samo SE i PU.)

(3)

Przedział ufności dla 1 – 2

• Skonstruujemy przedział ufności dla₁–₂

• Przypomnienie: PU dla (pojedynczego) 

y  t/2SE_y= (estymator)  (kwantyl)(SE)

• Estymator dla1-2: y1-y2

• Potrzebujemy t_/2: Ile użyć stopni swobody?

(Wzoru nie trzeba pamiętać, będzie podawany.)

df=

 

   

2 2 2

1 2

4 4

1 2

1 1 2 1

SE SE

n n



  

• Tak wyliczona liczba stopni swobody jest nie większa niż n₁+ n₂– 2. W przybliżonych obliczeniach często stosujemy df = n₁+ n₂– 2.

• Jest tez nie mniejsza niż minimum z wartości n₁–1 i n₂–1.

• Jeżeli możemy założyć, że wariancje w obu grupach są równe, to stosujemy uśredniony estymator wariancji i df = n₁+ n₂– 2.

• Stosujemy ``nieuśredniony’’ SE, o ile w zadaniu nie będzie specjalnie wymagane użycie (U)SE.

PU na poziomie ufności (1-) dla ₁-₂:

y

₁

-y

₂

 t(df)

_/2

SE

_{(y1-y2)}

Przykład (cd)

• Skonstruuj 95% PU dla₁-₂

• y₁–y₂ = 75 – 55 = 20

• SE₁= 1.690 ; SE₂= 1.826

• df=

(4)

• Oblicz przedział ufności jeszcze raz

wykorzystując „uśredniony’’ SE.

Przykład 2 - 95% PU dla 

₁

- 

₂

• Rośliny hodowane w różnych warunkach oświetleniowych.

Ciemno Jasno

n 22 21

y 1.76 2.46

SE 0.5 0.7

• “1” – populacja/próba hodowana przy słabym oświetleniu

• “2” – populacja/próba hodowana przy mocnym oświetleniu

• Oblicz 95% PU dla₁-₂.

(5)

Przedziały ufności: Interpretacja

• Nasz PU zawiera wartości zarówno dodatnie jak i ujemne? Co to znaczy?

Testowanie hipotez

Idea:

• Chcemy odpowiedzieć na pytanie naukowe dotyczące populacji

• Decyzję podejmujemy w oparciu o próbę - dysponujemy informacją fragmentaryczną

• W rezultacie możemy popełnić błąd przy podejmowaniu decyzji

• Chcemy zminimalizować p-stwo błędu

Typowe są pytania o wartości parametrów:

Dla populacji o rozkładzie Bernoulliego:

Czy p-stwo sukcesu wynosi ½?

(„Czy moneta jest symetryczna/uczciwa?”)

Czy p-stwo sukcesu wynosi p₀? (p₀– pewna konkretna, interesująca nas wartość)

• Pytania dla jednego rozkładu normalnego:

Czy średnia w populacji wynosi 0?

Czy średnia w populacji wynosi 93?

Czy średnia w populacji wynosi₀?

• Dla dwóch populacji normalnych:

Czy średnie wartości cechy w obu populacjach są równe?

Czy różnica między średnimi w populacjach wynosi 0?

Czy różnica między średnimi wynosi₀?

(6)

• Na te pytania są możliwe odpowiedzi „tak” albo

„nie” (prawda albo fałsz).

• Pytania dotyczą całej populacji, do której na ogół nie mamy dostępu. Nasza decyzja, którą podejmujemy w oparciu o próbę, jest zagrożona błędem.

Sposób formułowania ostrożnych odpowiedzi:

• Zamiast: „Prawda” mówimy: „W oparciu o tę próbę nie możemy wykluczyć postawionej hipotezy”.

• Przykład: „Przeprowadzone badania nie potwierdzają, że badane populacje mają różny średni poziom badanej cechy.” (Ale nie można wykluczyć, że jest różnica).

• Zamiast: „Nieprawda” należałoby mówić: „Jest to mało prawdopodobne” albo: „Gdyby

postawiona hipoteza była prawdziwa, to uzyskany wynik (z próby) byłby bardzo mało prawdopodobny. Dlatego odrzucamy tę hipotezę.” (Ale możemy się mylić).

• Przykład:”Przeprowadzone badanie potwierdza tezę, że badane populacje różnią się średnią wartością badanej cechy.” (Odrzucamy hipotezę o równości średnich).

• Wprowadzimy później ilościowy

usprawiedliwiania takich decyzji (p-wartość).

Analogia: czujnik dymu

• Instalujemy czujniki dymu, aby ostrzegały przed pożarem.

• Czujniki reagują na cząstki dymu w powietrzu.

• Mogą być w dwu możliwych stanach – CICHO i GŁOŚNO

• Możemy podjąć decyzje: zostać albo uciekać

• Decyzję uzależniamy od stanu wykrywaczy dymu:

CICHO – zostajemy, GŁOŚNO – uciekamy.

• Są dwie sytuacje prawidlowej reakcji i dwie sytuacje błędnej reakcji.

(7)

• Na ogół nie ma pożaru i wykrywacz jest CICHO, więc nie reagujemy (dobra decyzja).

• Czasami nie ma pożaru, a wykrywacz jest GŁOŚNO, więc uciekamy (błędna decyzja – strata czasu) – błąd I-go rodzaju.

• Czasami jest pożar, a wykrywacz jest CICHO więc zostajemy (zła decyzja –

niebezpieczeństwo) – błąd II-go rodzaju.

• Czasami jest pożar i wykrywacz jest GŁOŚNO więc uciekamy (dobra decyzja).

Notacja: Hipotezy

• Stan podstawowy, „nie ma pożaru’’, nazywamy hipotezą zerową.

• Drugi możliwy stan, „pożar’’, nazywamy hipotezą alternatywną.

• H₀to skrót dla hipotezy zerowej.

• H_Ato skrót dla hipotezy alternatywnej.

Decyzje

• Nasze decyzje zwykle opisujemy w odniesieniu do hipotezy zerowej H₀:

– Decyzja „uciekamy” jest odrzuceniem H₀, tzn.

odrzucamy stanowisko, że nie ma pożaru.

– Decyzja „zostajemy” odpowiada nieodrzuceniu H₀.

• Decyzję podejmujemy w oparciu o zachowanie czujnika dymu, którego rolę w dalszym ciągu przejmie statystyka testowa, czyli pewna wielkość obliczona z próby.

• Gdy wykrywacz jest GŁOŚNO, to mówimy, że wynik testu jest ``istotny’’. Definicja: Istotny wynik powoduje odrzucenie H₀.

• Gdy wykrywacz jest CICHO, to wynik testu jest

``nieistotny’’ i nie odrzucamy H₀.

(8)

Podsumowanie analogii

• Hipotezy: H₀= nie ma pożaru, H_A= pożar

• Statystyka testowa:

nieistotna=CICHO, istotna=GŁOŚNO

• Decyzja: nie odrzucamy H₀= zostajemy, odrzucamy H₀= uciekamy

• Błąd I rodzaju: odrzucamy H₀, choć jest prawdziwa=uciekamy, choć nie ma pożaru

• Błąd II rodzaju: nie odrzucamy H₀, choć

prawdziwa jest H_A= zostajemy, choć jest pożar

Uwagi:

• H₀ jest bardziej precyzyjna niż H_A: gdy H_Ajest prawdziwa, to nie znana jest skala pożaru.

• Wykrywacze dymu mają pewną ustaloną czułość – reagują na określoną ilość dymu.

• Jeżeli wykrywacz jest zbyt czuły, to będzie często powodował fałszywe alarmy (błędy I-go rodzaju).

• Jeżeli nie jest dość czuły, to nie będzie się włączał, kiedy potrzeba (błędy II-go rodzaju).

• Zwiększając czułość zmniejszamy p-stwo błędu II-go rodzaju, ale też p-stwo błędu I-go rodzaju.

• Dobór czułości testu powinien zależeć od konsekwencji błędów!

Jak opisać czułość testu?

• „Poziom istotności” (α) to p-stwo błędu I-go rodzaju. Poziom istotności powinno się ustalić jeszcze przed przeprowadzeniem

Hipoteza zerowa H

₀

:

• Zwykle jest prosta i specyficzna. To właśnie ją będziemy odrzucali albo nie.

• Przykłady:

 = 0

 = ₀(-₀= 0)

₁= ₂(₁–₂= 0)

 - = 

(9)

Hipoteza alternatywna H

_A

:

• H_Ajest w pewnym sensie przeciwna do H₀. Na ogół jest bardziej ogólna niż H₀(np. nieznany jest rozmiar pożaru)

• „Odrzucenie H₀" oznacza, że wierzymy w H_A

• „Nieodrzucenie H₀" oznacza, że nie mamy dość silnych dowodów przemawiających za H_A, ale nie to samo, co udowodnienie prawdziwości H₀ (tego na ogół nie potrafimy zrobić przy pomocy statystyki)

• Przykłady H_A:

  ₀

 > ₀

 < ₀

₁ ₂(₁-₂ 0)

₁> ₂ (₁-₂> 0)

₁<₂ (₁-₂< 0)

• Rozkład statystyki testowej przy H_Apowinien być inny niż przy H₀(wykrywacz powinien być GŁOŚNO, a nie CICHO, gdy mamy pożar).

Przykład ilustracyjny

• Załóżmy, że mamy próbę z populacji o rozkładzie normalnym. Niech (nieznane) oznacza jego średnią. Chcemy

przetestować

• H₀:  = 5

przeciw alternatywie

• H_A:   5

• Możemy skonstruować przedział ufności dla  w oparciu o dane. Taki przedział ufności powinien zawierać .

Stąd:

• Jeżeli przedział ufności nie zawiera 5, to odrzucimy H₀na korzyść H_A.

• Jeżeli przedział ufności zawiera 5, to oznacza, że nie powinniśmy odrzucać H₀. Ponieważ PU zawiera także wiele innych wartości niż 5, nie mamy też dowodu, że H₀jest prawdziwa.

(10)

• PU na poziomie (1-) jest dany wzorem

y  t_/2SE. Sprawdzimy, kiedy zawiera on 5:

Wniosek: wystarczy wyznaczyć t=(y – 5)/SE

i sprawdzić, czy jest pomiędzy –t_/2i t_/2.

• Jeżeli tak, to statystyka t jest nieistotna i nie odrzucamy H₀.

• Jeżeli nie to statystyka jest istotna i odrzucamy H₀. Zbiór (-∞ , –t_/2) U (+t_/2, ∞) nazywamy obszarem krytycznym/obszarem odrzuceń (=jeżeli statystyka testowa znajdzie się w obszarze krytycznym, to odrzucamy H₀).

• Zauważmy, że postać statystyki testowej zależy od H₀(bo H₀specyfikuje 5).

• Statystyka testowa

przy H₀ma rozkład ...

• Zwykle nie znamy σ i zastępujemy je przez s.

• Przy H₀(y-)/SE ma rozkład Studenta z n-1 stopniami swobody.

• Stąd, jeżeli H₀jest prawdziwa, to  = 5 n

y

 • Co się stanie, jeżeli prawdziwa jest H_A?

Wtedy  ≠ 5 i rozkład statystyki (y-5)/SE będzie skoncentrowany blisko -5 zamiast blisko 0, i na ogół będziemy otrzymywać duże (dodatnie lub ujemne) wartości statystyki. Będą one prowadzić do odrzucenia hipotezy zerowej.

(11)

Poziom istotności

• Poziom istotności - = P-stwo błędu I-go rodzaju (odrzucenie H₀, gdy jest prawdziwa;

fałszywy dodatni wynik testu).

• Załóżmy, że H₀jest prawdziwa. Jakie jest p- stwo, że statystyka testowa znajdzie się w zbiorze krytycznym (-∞ , –t_/2) U (+t_/2,∞)?

Uwagi:

• α wybieramy przed przystąpieniem do testowania. Typowe wartości α to 0.05, 0.01 lub 0.1. Możemy jednak stosować inne wartości. Wybór α powinien zależeć od konsekwencji błędów I-go i II-go rodzaju.

• Wartość krytyczna – wartość leżąca na granicy obszaru krytycznego.

• Rozważaliśmy zbiór krytyczny

(-∞ , –t_/2) i (+t_/2,∞), bo H_A:  ≠ 5 , jest symetryczna (niekierunkowa).

• Możemy też być zainteresowani alternatywami, jednostronnymi, np. H_A:  < 5. Wtedy obszar krytyczny ma postać: (+t_,∞).

• Dlaczego?

• Dla H_A:  < 5, obszar krytyczny to (-∞ , –t_).