Zadanie 1.
Obserwując liczbę awarii w sieci wodno-kanalizacyjnej w ciągu 100 dni w pewnym rejonie miasta otrzymano dane:
Dzienna liczba awarii 0 1 2 3 4
Liczba dni 15 33 25 16 10
a) Na poziomie ufności 1 - =0,9 oszacować metodą przedziałową średnią dzienną liczbę awarii w l losowo wybranym dniu.
b) Na poziomie ufności 1 - =0,95 oszacować metodą przedziałową wariancję dziennej liczby awarii w sieci wodno kanalizacyjnej.
a) Na poziomie istotności 0,05 zweryfikować hipotezę, że średnia dzienna liczba awarii w sieci wodno-kanalizacyjnej jest równa 1,5.
Ad a).
Elementem populacji generalnej jest dowolny dzień który był, jest , będzie. Cechą dla elementu populacji generalnej jest liczba awarii sieci wodno-kanalizacyjnej w przeciągu dnia w pewnym rejonie miasta.
Z treści zadania wynika, że mamy dużą próbę - n=100>30 przedstawioną za pomocą szeregu rozdzielczego.
Z modeli na przedziały ufności dla wartości oczekiwanej a więc średniej mamy, że założenia modelu spełnione są w modelu III, w którym cecha może mieć dowolny rozkład i wielkość próby powinna być duża ( n>30).
Wtedy statystyka określona wzorem
S n m U X
ma rozkład normalny standaryzowany (w
przybliżeniu). Wychodząc z
) (
) (
) (
1 n
u S X n m
u S X P u S n
m P X u U
P
otrzymujemy wzór na przedział ufności . W pliku na mojej stronie internetowej o nazwie Wzory estymacja.doc można znaleźć wszystkie was obowiązujące modele na przedziały ufności i wszystkie podstawowe informacje potrzebne do wyznaczenia przedziału.
Aby policzyć przedział ufności zgodnie z wzorem n u s x n m u s
x
należy wyznaczyć wartości statystyki X i S w próbie które równają się średniej arytmetycznej x i odchyleniu standardowemu s w próbie przedstawionej za pomocą szeregu rozdzielczego. Ponadto z tablic rozkładu normalnego należy wyznaczyć kwanty u.
Dane z zadania należy przedstawić jak poniżej i obliczyć te podstawowe parametry zgodnie z schematem.
Cecha w populacji jest typu skokowego i przyjmuje tylko wartości całkowite. Wartości cech są środkami przedziałów klasowych.
dzienna liczba liczba
awarii dni składniki składniki xi ni xini (xi x)2ni
0 13 0 42,12
1 32 32 20,48
2 27 54 1,08
3 18 54 25,92
4 10 40 48,40
100
n
180
1388 , 100 1 180
x 1,38
100
2 138
s s s2 1,381,174734
Ponieważ 1 0,9 0,1
Z tablicy rozkładu normalnego zatytułowanego
) ( ) 1
(U u P U u
P zamieszczonego w pliku o nazwie tablice
podstawowe3.doc wyznaczamy u u0,11,645. Wszystkie potrzebne kwantyle w różnych modelach można znaleźć w tym pliku. Ostatecznie
100 174734 ,
6451 , 1 8 , 100 1
174734 ,
6451 , 1 8 ,
1 m 1,6 m1,99 . Ten przedział pokrywa z prawdopodobieństwem 1 0,9 teoretyczną średnią liczbę awarii w przeciągu dnia w sieci wodno- kanalizacyjnej w pewnym rejonie miasta.
Ad b).
Szukając model przedziału ufności w tym samym pliku tylko dla wariancji i odchylenia standardowego wybieramy z tych samych powodów model II. Model I dotyczy małej próby i cecha powinna mieć rozkład normalny.
Ponieważ 1 0,95 0,05 Wzór ma postać
n u
n s u
n n s
2 1
2 1
2
2 Ponieważ statystyka do wyznaczenia tego
przedziału miała rozkład normalny to z tej samej tablicy wyznaczamy u u0,05 1,96.
96 , 1 1 100 2
100 2 174734 , 1 96
, 1 1 100 2
100 2 174734 , 1
1,034 1,368
2 2
2 1,368
034 ,
1 1,0692 1,87
Te przedziały z prawdopodobieństwem 1 0,95 pokrywają odpowiednio teoretyczne odchylenie standardowe i wariancje dziennej liczby awarii w sieci wodno- kanalizacyjnej w pewnym rejonie miasta.
Ad c).
Zgodnie z treścią zadania stawiamy hipotezę, że średnia liczbę awarii w przeciągu dnia w sieci wodno- kanalizacyjnej w pewnym rejonie miasta jest równa 1,5 tzn.
5 , 1
0:m
H . Na przykład do tej pory po pewnych badaniach tak się uważało. Na podstawie uzyskanej próby należy sprawdzić czy to jest dalej zdanie prawdziwe.
Formułujemy hipotezę alternatywną która będzie prawdziwa po odrzuceniu hipotezy zerowej. W naszym przypadku hipoteza alternatywna będzie postaci
5 , 1
1:m
H tzn. , że średnia liczbę awarii w przeciągu dnia jest inna niż 1,5.
Ustalamy poziom istotności na podstawie którego będziemy weryfikować hipotezę. Te trzy elementy ustalany na podstawie treści zadania. Następnie znajdujemy statystykę za pomocą której będziemy weryfikować hipotezę przy założeniu prawdziwości hipotezy zerowej i innych nam znanych informacji. W praktyce wybieramy model do weryfikowania, w którym są spełnione założeń modelu, w którym podany jest wzór statystyki testowej i jej rozkład prawdopodobieństwa.
Wszystkie modele do weryfikowania was obowiązujące są podane w pliku na mojej stronie internetowej w pliku o nazwie Weryfikacja hipotez wzory z m.doc.
Postępujemy zgodnie z schematem:
5 , 1 :
0o H0 m 05 , 0 1o
5 , 1 :
2o H1 m
) 1 , 0 (
~
3 0 n N
S m U X
o tzn. wybraliśmy model III z grupy modeli do weryfikowania hipotez dla wartości średniej. Ponieważ mamy dużą próbę i cecha może mieć rozkład dowolny.
W pozostałych modelach założenia nie są spełnione.
4o Następnie obliczamy wartość statystyki z uzyskanej próby.
uo 11,174734,81,5 100 2,55377
5o Wyznaczamy obszar krytyczny czyli zbiór wartości statystyki testowej K przejmujący te
wartości z prawdopodobieństwem małym. W naszym przypadku z prawdopodobieństwem
0,05 tzn. P(u0 )K .
Z informacji z modelu wynika, że dla hipotezy alternatywnej pierwszej, obszar ten ma wzór
K = (-; -u) (u; + ) . Ponieważ statystyka testowa ma rozkład normalny N(0,1) to z tych samych tablic jak w powyższych punktach wyznaczamy u u0,05 1,96 a więc zbiór krytyczny ma postać K (;1,96)(1,96;)
6o Ponieważ wartość statystyki uo 2,55377 należy do obszaru krytycznego K (;1,96)(1,96;) tzn. uoK to hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej i twierdzimy z prawdopodobieństwem przynajmniej 0,95, że hipoteza alternatywna jest prawdziwa.
A więc twierdzimy z prawdopodobieństwem przynajmniej 0,95, że średnia teoretyczna liczba awarii w przeciągu dnia w sieci wodno-kanalizacyjnej w pewnym rejonie miasta jest
inna niż 1,5.
Z tym prawdopodobieństwem możemy uważać, że coś się zmieniło w stosunku np. co do tej
pory było. Błąd w takim rozumowaniu tzn. , że hipoteza zerowa jest prawdziwa a przyjmujemy
hipotezę alternatywną występuje z prawdopodobieństwem 0,05. Jest to błąd pierwszego
rodzaju
Zadanie 2
Badając zanieczyszczenie zbiornika wodnego w losowo wybranym czasie
dokonano 100 pomiarów i z otrzymanych wyników utworzono szereg rozdzielczy:
Zanieczyszczenie w promilach 0 - 4 4 - 8 8 - 12 12 - 16 16 - 20 liczba wyników pomiarów w przedziale 8 18 27 35 12
a) Na poziomie ufności 1 - =0,9 oszacować metodą przedziałową średnie zanieczyszczenie zbiornika wodnego w losowo wybranym czasie.
b) Na poziomie ufności 1 - =0,95 oszacować metodą przedziałową wariancję zanieczyszczenie zbiornika wodnego w losowo wybranym czasie.
a) Na poziomie istotności a = 0,05 zweryfikować hipotezę, że średnie zanieczyszczenie zbiornika wodnego jest równe 10,5 promila.
Jest to zadanie analogiczne do zadania poprzedniego i należy wyznaczyć te same zagadnienia.
Elementem populacji generalnej jest losowo wybrany czas a cechą elementu populacji jest zanieczyszczenie zbiornika wodnego w losowo wybranym czasie. Istotną różnicą jest typ cechy. W naszym zadaniu cecha jest typu ciągłego i może przyjmować wszystkie wartości z określonego przedziału. Dlatego przedziały klasowe są postaci ai ;bi) i 1,2,,,,k ai bi i do obliczenia podstawowych parametrów należy znaleźć środki przedziałów klasowych. W poprzednim zadaniu cecha elementu była typu skokowego i wartości cechy tworzyły środki przedziałów.
Pozostałe elementy i próba jest analogiczna jak w poprzednim zadaniu a więc modele za pomocą których będziemy wyznaczać analogiczne zagadnienia są takie same.
Ad a).
Z modelu III dla przedziałów ufności dla wartości oczekiwanej w którym spełnione są założenia modelu mamy wzór na przedział ufności
n u s x n m u s
x .
Obliczając podstawowe parametry występujące w wzorze otrzymamy:
Zanieczyszczeni
e w liczba środki składniki składniki
promila
ch pomiarów przedział
ai bi ni xi (aibi)/2 xini (xi x)2ni
0 4 8 2 16 648,00
4 8 18 6 108 450,00
8 12 27 10 270 27,00
12 16 35 14 490 315,00
16 20 12 18 216 588,00
100
n
1100
2028100 11 1100
x 20,28
100
2 2028
s s s2 20,28 4,5
Ponieważ 1 0,9 0,1 i z tablic rozkładu normalnego standaryzowanego zatytułowanego P(U u)P(U u)1 odczytujemy u u0,1 1,645. Stąd
100 5 , 645 4 , 1 100 11
5 , 645 4 , 1
11 m 10,259 m11,741 Ten przedział pokrywa z prawdopodobieństwem 1 0,9 teoretyczne średnie zanieczyszczenie zbiornika wodnego w losowo wybranym czasie.
Ad b).
Z modelu II dla przedziałów ufności dla wariancji i odchylenia standardowego w którym spełnione są założenia modelu mamy wzór na przedział ufności
n u
n s u
n n s
2 1
2 1
2 2
Ponieważ 1 0,95 0,05 i z tablic rozkładu normalnego
standaryzowanego zatytułowanego P(U u)P(U u)1 odczytujemy u u0,05 1,96. Stąd
96 , 1 1 100 2
100 2 5 , 4 96
, 1 1 100 2
100 2 5 , 4
3,96 5,24 Ten przedział pokrywa z prawdopodobieństwem 1 0,95 teoretyczne odchylenie standardowe zanieczyszczenie zbiornika wodnego w losowo wybranym czasie.
Ad c).
Postępujemy zgodnie z schematem:
10 :
0o H0 m ,5 tzn. średnie zanieczyszczenie wynosi 10,5 promil 05
, 0 1o
5 , 10 :
2o H1 m tzn. średnie zanieczyszczenie jest inne niż 10,5 promila
) 1 , 0 (
~
3 0 n N
S m U X
o tzn. wybraliśmy model III z grupy modeli do weryfikowania hipotez dla wartości średniej. Ponieważ mamy dużą próbę i cecha może mieć rozkład dowolny.
W pozostałych modelach założenia nie są spełnione.
4o Następnie obliczamy wartość statystyki z uzyskanej próby.
uo 114,105 ,5 100 1,11
5o Z informacji w modelu wynika, że dla hipotezy alternatywnej pierwszej, obszar ten ma wzór
K = (-; -u) (u; + ) . Ponieważ statystyka testowa ma rozkład normalny N(0,1) to z tych samych tablic jak w powyższych punktach wyznaczamy u u0,05 1,96 a więc zbiór krytyczny ma postać K (;1,96)(1,96;)
6o Ponieważ wartość statystyki uo 1,11 nie należy do obszaru krytycznego K (;1,96)(1,96;) tzn. uoK to twierdzimy, że nie ma podstaw do odrzucenia
hipotezy zerowej i przyjąć hipotezę alternatywną .
A więc nie ma podstaw do twierdzenia, że średnie zanieczyszczenie zbiornika wodnego jest inne niż 10,5 promila. W praktyce hipotezę zerową przyjmuje się za prawdziwą np. w przypadku gdy do tej pory uważało się ją za prawdziwą.
Błąd w takim rozumowaniu tzn. , że hipoteza alternatywna jest prawdziwa a przyjmujemy
hipotezę zerową występuje z prawdopodobieństwem małym ale trudnym do oszacowania.
Jest to błąd drugiego rodzaju..
Zadanie 3.
Zbadano dwie partie próbek 100 gramowych wątroby ze względu na zawartość węglowodanów.
Zawartości węglowodanów dla I partii próbek (w g) były następujący: 15 ; 17 ; 16 ; 17 ; 18,5 ; 18 ; 17,5. Dla II partii liczącej n = 10 próbek średnia zawartość węglowodanów wynosi
x
= 15,5 g i odchylenie standardowe s = 1,1 g.a) Na poziomie ufności 1 - =0,9 oszacować metodą przedziałową średnią zawartość węglowodanów w próbkach 100 gramowych wątroby I partii b) Na poziomie ufności 1 - =0,95 oszacować metodą przedziałową wariancję zawartości węglowodanów w próbkach 100 gramowych wątroby I partii.
c) Na poziomie istotności = 0,05 zweryfikować hipotezę, że badane partie próbek pochodzą z populacji generalnych o tej samej średniej zawartości węglowodanów .
Rozwiązanie Ad a).
Z modeli na przedziały ufności dla wartości oczekiwanej a więc średniej mamy, że założenia modelu mogą być spełnione tylko w modelu II, w którym cecha powinna mieć rozkład normalny
) , (m
N . W modelu I nie znamy teoretycznego odchylenia standardowego
cechy. W modelu III próba powinna być duża (n>30) . W zadaniu występuje n=7.Założenie, że X ~N(m,) jest do przyjęcia gdyż takie cechy przyrodnicze w większości tą własność mają. Istnieje możliwość zweryfikowania tej hipotezy i zakładamy, że ona została zweryfikowana. Wtedy statystyka
1
n
S m
t X ma rozkład t – Studenta o n-1 stopniach swobody.
Wychodząc z prawdopodobieństwa
1 1 1
1 , 1 , 1 , 1 , 1
n t S X n m
t S X P t
S n m P X
t t
P n n n n
A stąd wzór na przedział
1
1 , 1
1
,
n t s
x n m
t s
x n n Stąd trzeba policzyć
podstawowe parametry próby i z tablic rozkładu t – studenta odczytać kwantyl t,n1.
7 17 119
x 1,214
7 5 ,
2 8
s s s2 1,2141,102 xi (xi x)2
15 4
17 0
16 1
17 0
18,5 2,25
18 1
17,5 0,25
119
8,51 , 0 9
, 0
1 . Z tablic rozkładu t - Studenta zatytułowanego
) ( ) 1
(t t ,n 1 P t t ,n 1
P odczytujemy t,n1 t0,1;6 1,943 . Stopnie swobody występują w pierwszej kolumnie a wartości
w wierszu na górze. Stąd1 7 102 , 943 1 , 1 1 17
7 102 , 943 1 , 1
17
m 16,126 m17,874 Ten przedział pokrywa z prawdopodobieństwem 1 0,9 średnią teoretyczną zawartości węglowodanów w próbkach 100 gramowych wątroby I partii
Rozwiązanie Ad b).
Z modelu I dla przedziałów ufności dla wariancji i odchylenia standardowego w którym spełnione są założenia modelu mamy wzór na przedział ufności
P χns σ χns α
α,n α,n
2 1
2 1 1 2 2
2 2 1
2
gdzie
2 1 2,n
, 2 1 2, 1 n
są wartościami zmiennej
2 wyznaczonymi z tablicy rozkładu
2 zn - 1 stopniami swobody . Model II nie możemy stosować ponieważ mamy próbę małą.
449 ,
2 14
6 , 025 , 0 2
1 2,
n 2 02,975,6 1,237
1 2,
1
n . Stopnie swobody rozkładu
2występują w pierwszej kolumnie a wartości
w wierszu na górze.237 , 1
214 , 1 7 449
, 14
214 , 1
7 2 0,58832 4,3747 0,5883 4,3747
092 , 2 767
,
0
Te przedziały z prawdopodobieństwem 1 0,95 pokrywają odpowiednio teoretyczne wariancję i odchylenie standardowe zawartości węglowodanów w próbkach 100 gramowych wątroby I partii.
Rozwiązanie Ad c).
Zgodnie z treścią zadania stawiamy hipotezę, że średnie zawartości węglowodanów w próbkach 100 gramowych wątroby w obu partiach są jednakowe tzn. stawiamy hipotezę zerową
2 1
0:m m
H . Mamy dwie populacje generalne związane z różnymi partiami próbek 100 gramowych wątroby. Próby w populacjach generalnych mają obliczone parametry I partia : n1 7 x1 17 s1 1,102
II partia : n2 10 x2 15,5 s2 1,1
Indeksy przy podstawowych parametrach dotyczą numeru populacji a z tym związanych numeru próby. Aby odpowiedzieć na postawione pytanie wybieramy hipotezę alternatywną pierwszą tzn. H1:m1 m2. Do weryfikacji hipotezy
wybieramy model II spośród modeli na testy istotności dla dwóch średnich. W modelu I nie znamy teoretycznych odchylenia standardowe 1 i 2 a w modelu III próby są duże.
W modelu II cechy powinny mieć rozkład normalny co w tym wypadku jak wyjaśniłem w punkcie a).
jest prawdziwe. Ponadto powinno 1 2co można sprawdzić za pomocą testu Snedecora.
Dalej postępujemy zgodnie z schematem:
2 1 0 :
0o H m m tzn. średnie zawartości węglowodanów są takie same
05 , 0 1o
2 1 1:
2o H m m tzn. średnie z zawartości węglowodanów są różne swobody stopniach
n n o Studenta t
statystyka n
n n
n
S n S n
X
t X 2
1 1 2
3 1 2
2 1 2
1
2 2 2 2 1 1
2
0 1
tzn. wybraliśmy model II z grupy modeli testów istotności dla dwóch średnich.
4o Następnie obliczamy wartość statystyki z uzyskanej próby.
2,5975
10 1 7 1 2
10 7
1 , 1 10 214 , 1 7
5 , 15 17
0 2
t
5o Z informacji w modelu wynika, że dla hipotezy alternatywnej pierwszej, obszar krytyczny ma
wzór K = (-; -t,n1+n2-2) (t,n1+n2-2; + ) Ponieważ statystyka testowa ma rozkład t – Studenta z
tablic tego rozkładu odczytujemy ; 2 0,05;15 2,131
2
1 t
t n n a więc zbiór
krytyczny ma postać K ( ;2,131)(2,131; )
6o Ponieważ wartość statystyki to 2,5975 należy do obszaru krytycznego K ( ;2,131)(2,131; ) tzn. toK to hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej i twierdzimy z prawdopodobieństwem przynajmniej 0,95, że hipoteza alternatywna jest prawdziwa.
A więc twierdzimy z prawdopodobieństwem przynajmniej 0,95, że średnia teoretyczne zawartości węglowodanów w dwóch próbach są różne. Oznacza to, że próby pochodzą z różnych populacji.
Może wystąpić błąd pierwszego rodzaju tzn. że hipoteza zerowa jest prawdziwa a przyjmujemy
hipotezę alternatywną. Taki błąd występuje z prawdopodobieństwem 05
,
0
.