Zadanie 1.Obserwując liczbę awarii w sieci wodno-kanalizacyjnej w ciągu 100 dniw pewnym rejonie miasta otrzymano dane:Dzienna liczba awarii01234Liczba dni1533251610a) Na poziomie ufności 1 -

(1)

Zadanie 1.

Obserwując liczbę awarii w sieci wodno-kanalizacyjnej w ciągu 100 dni w pewnym rejonie miasta otrzymano dane:

Dzienna liczba awarii 0 1 2 3 4

Liczba dni 15 33 25 16 10

a) Na poziomie ufności 1 -  =0,9 oszacować metodą przedziałową średnią dzienną liczbę awarii w l losowo wybranym dniu.

b) Na poziomie ufności 1 -  =0,95 oszacować metodą przedziałową wariancję dziennej liczby awarii w sieci wodno kanalizacyjnej.

a) Na poziomie istotności 0,05 zweryfikować hipotezę, że średnia dzienna liczba awarii w sieci wodno-kanalizacyjnej jest równa 1,5.

Ad a).

Elementem populacji generalnej jest dowolny dzień który był, jest , będzie. Cechą dla elementu populacji generalnej jest liczba awarii sieci wodno-kanalizacyjnej w przeciągu dnia w pewnym rejonie miasta.

Z treści zadania wynika, że mamy dużą próbę - n=100>30 przedstawioną za pomocą szeregu rozdzielczego.

Z modeli na przedziały ufności dla wartości oczekiwanej a więc średniej mamy, że założenia modelu spełnione są w modelu III, w którym cecha może mieć dowolny rozkład i wielkość próby powinna być duża ( n>30).

Wtedy statystyka określona wzorem

S n m U  X 

ma rozkład normalny standaryzowany (w

przybliżeniu). Wychodząc z

) (

1 n

u S X n m

u S X P u S n

m P X u U

P _ _ _ _

          



otrzymujemy wzór na przedział ufności . W pliku na mojej stronie internetowej o nazwie Wzory estymacja.doc można znaleźć wszystkie was obowiązujące modele na przedziały ufności i wszystkie podstawowe informacje potrzebne do wyznaczenia przedziału.

Aby policzyć przedział ufności zgodnie z wzorem ⁿ u s x n m u s

x _    _

należy wyznaczyć wartości statystyki X i S w próbie które równają się średniej arytmetycznej x i odchyleniu standardowemu s w próbie przedstawionej za pomocą szeregu rozdzielczego. Ponadto z tablic rozkładu normalnego należy wyznaczyć kwanty u^_.

Dane z zadania należy przedstawić jak poniżej i obliczyć te podstawowe parametry zgodnie z schematem.

Cecha w populacji jest typu skokowego i przyjmuje tylko wartości całkowite. Wartości cech są środkami przedziałów klasowych.

(2)

dzienna liczba liczba

awarii dni składniki składniki xi n_i x_in_i (x_i x)²n_i

0 13 0 42,12

1 32 32 20,48

2 27 54 1,08

3 18 54 25,92

4 10 40 48,40



^

 100

n



^{ 180}



^{ 138}

8 , 100 1 180 



x 1,38

100

2 138

s s s²  1,381,174734

Ponieważ ¹^^ ^⁰^,⁹^^ ^⁰^,¹

Z tablicy rozkładu normalnego zatytułowanego



 _

     

 ) ( ) 1

(U u P U u

P zamieszczonego w pliku o nazwie tablice

podstawowe3.doc wyznaczamy u_  u0,1¹^,⁶⁴⁵. Wszystkie potrzebne kwantyle w różnych modelach można znaleźć w tym pliku. Ostatecznie

100 174734 ,

6451 , 1 8 , 100 1

174734 ,

6451 , 1 8 ,

1  m  ¹^,⁶^{ m}^¹^,⁹⁹ . Ten przedział pokrywa z prawdopodobieństwem ¹^^ ^⁰^,⁹ teoretyczną średnią liczbę awarii w przeciągu dnia w sieci wodno- kanalizacyjnej w pewnym rejonie miasta.

Ad b).

Szukając model przedziału ufności w tym samym pliku tylko dla wariancji i odchylenia standardowego wybieramy z tych samych powodów model II. Model I dotyczy małej próby i cecha powinna mieć rozkład normalny.

Ponieważ ¹^^ ^⁰^,⁹⁵^^ ^⁰^,⁰⁵ Wzór ma postać



 n u

n s u

n n s



 

 

 2 1

2 1

2

2 Ponieważ statystyka do wyznaczenia tego

przedziału miała rozkład normalny to z tej samej tablicy wyznaczamy ^u^ ^{ u}⁰^,⁰⁵ ^¹^,⁹⁶.

96 , 1 1 100 2

100 2 174734 , 1 96

, 1 1 100 2

100 2 174734 , 1





 

 





  ¹^,⁰³⁴^^ ^¹^,³⁶⁸

2 2

2 1,368

034 ,

1   1,069² 1,87

Te przedziały z prawdopodobieństwem ¹^^ ^⁰^,⁹⁵ pokrywają odpowiednio teoretyczne odchylenie standardowe i wariancje dziennej liczby awarii w sieci wodno- kanalizacyjnej w pewnym rejonie miasta.

Ad c).

Zgodnie z treścią zadania stawiamy hipotezę, że średnia liczbę awarii w przeciągu dnia w sieci wodno- kanalizacyjnej w pewnym rejonie miasta jest równa 1,5 tzn.

5 , 1

0:m

H . Na przykład do tej pory po pewnych badaniach tak się uważało. Na podstawie uzyskanej próby należy sprawdzić czy to jest dalej zdanie prawdziwe.

Formułujemy hipotezę alternatywną która będzie prawdziwa po odrzuceniu hipotezy zerowej. W naszym przypadku hipoteza alternatywna będzie postaci

5 , 1

1:m

H tzn. , że średnia liczbę awarii w przeciągu dnia jest inna niż 1,5.

(3)

Ustalamy poziom istotności na podstawie którego będziemy weryfikować hipotezę. Te trzy elementy ustalany na podstawie treści zadania. Następnie znajdujemy statystykę za pomocą której będziemy weryfikować hipotezę przy założeniu prawdziwości hipotezy zerowej i innych nam znanych informacji. W praktyce wybieramy model do weryfikowania, w którym są spełnione założeń modelu, w którym podany jest wzór statystyki testowej i jej rozkład prawdopodobieństwa.

Wszystkie modele do weryfikowania was obowiązujące są podane w pliku na mojej stronie internetowej w pliku o nazwie Weryfikacja hipotez wzory z m.doc.

Postępujemy zgodnie z schematem:

5 , 1 :

0^o H₀ m 05 , 0 1^o  

5 , 1 :

2^o H₁ m

) 1 , 0 (

~

3 ⁰ n N

S m U X

o   tzn. wybraliśmy model III z grupy modeli do weryfikowania hipotez dla wartości średniej. Ponieważ mamy dużą próbę i cecha może mieć rozkład dowolny.

W pozostałych modelach założenia nie są spełnione.

4^o Następnie obliczamy wartość statystyki z uzyskanej próby.

uo ^₁¹_,₁₇₄₇₃₄^,⁸^¹^,⁵ ¹⁰⁰ ^²^,⁵⁵³⁷⁷

5^o Wyznaczamy obszar krytyczny czyli zbiór wartości statystyki testowej K przejmujący te

wartości z prawdopodobieństwem małym. W naszym przypadku z prawdopodobieństwem

^ ^⁰^,⁰⁵ tzn. P(u₀ )K  .

Z informacji z modelu wynika, że dla hipotezy alternatywnej pierwszej, obszar ten ma wzór

K = (-; -u)  (u; + ) . Ponieważ statystyka testowa ma rozkład normalny N(0,1) to z tych samych tablic jak w powyższych punktach wyznaczamy ^u^ ^{ u}⁰^,⁰⁵ ^¹^,⁹⁶ a więc zbiór krytyczny ma postać K (;1,96)(1,96;)

6^o Ponieważ wartość statystyki uo ^²^,⁵⁵³⁷⁷ należy do obszaru krytycznego K (;1,96)(1,96;) tzn. ^uo^K to hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej i twierdzimy z prawdopodobieństwem przynajmniej 0,95, że hipoteza alternatywna jest prawdziwa.

A więc twierdzimy z prawdopodobieństwem przynajmniej 0,95, że średnia teoretyczna liczba awarii w przeciągu dnia w sieci wodno-kanalizacyjnej w pewnym rejonie miasta jest

inna niż 1,5.

Z tym prawdopodobieństwem możemy uważać, że coś się zmieniło w stosunku np. co do tej

pory było. Błąd w takim rozumowaniu tzn. , że hipoteza zerowa jest prawdziwa a przyjmujemy

hipotezę alternatywną występuje z prawdopodobieństwem ^ ^⁰^,⁰⁵. Jest to błąd pierwszego

rodzaju

(4)

Zadanie 2

Badając zanieczyszczenie zbiornika wodnego w losowo wybranym czasie

dokonano 100 pomiarów i z otrzymanych wyników utworzono szereg rozdzielczy:

Zanieczyszczenie w promilach 0 - 4 4 - 8 8 - 12 12 - 16 16 - 20 liczba wyników pomiarów w przedziale 8 18 27 35 12

a) Na poziomie ufności 1 -  =0,9 oszacować metodą przedziałową średnie zanieczyszczenie zbiornika wodnego w losowo wybranym czasie.

b) Na poziomie ufności 1 -  =0,95 oszacować metodą przedziałową wariancję zanieczyszczenie zbiornika wodnego w losowo wybranym czasie.

a) Na poziomie istotności a = 0,05 zweryfikować hipotezę, że średnie zanieczyszczenie zbiornika wodnego jest równe 10,5 promila.

Jest to zadanie analogiczne do zadania poprzedniego i należy wyznaczyć te same zagadnienia.

Elementem populacji generalnej jest losowo wybrany czas a cechą elementu populacji jest zanieczyszczenie zbiornika wodnego w losowo wybranym czasie. Istotną różnicą jest typ cechy. W naszym zadaniu cecha jest typu ciągłego i może przyjmować wszystkie wartości z określonego przedziału. Dlatego przedziały klasowe są postaci ai ;bi) i 1,2,,,,k ai bi i do obliczenia podstawowych parametrów należy znaleźć środki przedziałów klasowych. W poprzednim zadaniu cecha elementu była typu skokowego i wartości cechy tworzyły środki przedziałów.

Pozostałe elementy i próba jest analogiczna jak w poprzednim zadaniu a więc modele za pomocą których będziemy wyznaczać analogiczne zagadnienia są takie same.

Ad a).

Z modelu III dla przedziałów ufności dla wartości oczekiwanej w którym spełnione są założenia modelu mamy wzór na przedział ufności

n u s x n m u s

x _    _ .

Obliczając podstawowe parametry występujące w wzorze otrzymamy:

Zanieczyszczeni

e w liczba środki składniki składniki

promila

ch pomiarów przedział

ai b_i n_i x_i (a_ib_i)/2 x_in_i (x_i x)²n_i

0 4 8 2 16 648,00

4 8 18 6 108 450,00

8 12 27 10 270 27,00

12 16 35 14 490 315,00

16 20 12 18 216 588,00



^

 100

n



^{ 1100}



^{ 2028}

(5)

100 11 1100 



x 20,28

100

2  2028 

s s s²  20,28 4,5

Ponieważ ¹^^ ^⁰^,⁹^^ ^⁰^,¹ i z tablic rozkładu normalnego standaryzowanego zatytułowanego P(U u)^P(U u)1^ odczytujemy u  u0,1 ¹^,⁶⁴⁵. Stąd

100 5 , 645 4 , 1 100 11

5 , 645 4 , 1

11 m  ¹⁰^,²⁵⁹^{ m}^¹¹^,⁷⁴¹ Ten przedział pokrywa z prawdopodobieństwem ¹^^ ^⁰^,⁹ teoretyczne średnie zanieczyszczenie zbiornika wodnego w losowo wybranym czasie.

Ad b).

Z modelu II dla przedziałów ufności dla wariancji i odchylenia standardowego w którym spełnione są założenia modelu mamy wzór na przedział ufności



 n u

n s u

n n s



 

 

 2 1

2 1

2 2

Ponieważ ¹^^ ^⁰^,⁹⁵^^ ^⁰^,⁰⁵ i z tablic rozkładu normalnego

standaryzowanego zatytułowanego P(U u)^P(U u)1^ odczytujemy ^u^ ^{ u}⁰^,⁰⁵ ^¹^,⁹⁶. Stąd

96 , 1 1 100 2

100 2 5 , 4 96

, 1 1 100 2

100 2 5 , 4





 

 





  ³^,⁹⁶^^ ^⁵^,²⁴ Ten przedział pokrywa z prawdopodobieństwem ¹^^ ^⁰^,⁹⁵ teoretyczne odchylenie standardowe zanieczyszczenie zbiornika wodnego w losowo wybranym czasie.

Ad c).

Postępujemy zgodnie z schematem:

10 :

0^o H₀ m ,5 tzn. średnie zanieczyszczenie wynosi 10,5 promil 05

, 0 1^o  

5 , 10 :

2^o H₁ m tzn. średnie zanieczyszczenie jest inne niż 10,5 promila

) 1 , 0 (

~

3 ⁰ n N

S m U X

o   tzn. wybraliśmy model III z grupy modeli do weryfikowania hipotez dla wartości średniej. Ponieważ mamy dużą próbę i cecha może mieć rozkład dowolny.

W pozostałych modelach założenia nie są spełnione.

uo ^¹¹^₄_,¹⁰₅ ^,⁵ ¹⁰⁰ ^¹^,¹¹

5^o Z informacji w modelu wynika, że dla hipotezy alternatywnej pierwszej, obszar ten ma wzór

K = (-; -u)  (u; + ) . Ponieważ statystyka testowa ma rozkład normalny N(0,1) to z tych samych tablic jak w powyższych punktach wyznaczamy ^u^ ^{ u}⁰^,⁰⁵ ^¹^,⁹⁶ a więc zbiór krytyczny ma postać K (;1,96)(1,96;)

6^o Ponieważ wartość statystyki u_o 1,11 nie należy do obszaru krytycznego K (;1,96)(1,96;) tzn. ^uo^K to twierdzimy, że nie ma podstaw do odrzucenia

hipotezy zerowej i przyjąć hipotezę alternatywną .

A więc nie ma podstaw do twierdzenia, że średnie zanieczyszczenie zbiornika wodnego jest inne niż 10,5 promila. W praktyce hipotezę zerową przyjmuje się za prawdziwą np. w przypadku gdy do tej pory uważało się ją za prawdziwą.

(6)

Błąd w takim rozumowaniu tzn. , że hipoteza alternatywna jest prawdziwa a przyjmujemy

hipotezę zerową występuje z prawdopodobieństwem małym ale trudnym do oszacowania.

Jest to błąd drugiego rodzaju..

Zadanie 3.

Zbadano dwie partie próbek 100 gramowych wątroby ze względu na zawartość węglowodanów.

Zawartości węglowodanów dla I partii próbek (w g) były następujący: 15 ; 17 ; 16 ; 17 ; 18,5 ; 18 ; 17,5. Dla II partii liczącej n = 10 próbek średnia zawartość węglowodanów wynosi

x

= 15,5 g i odchylenie standardowe s = 1,1 g.

a) Na poziomie ufności 1 -  =0,9 oszacować metodą przedziałową średnią zawartość węglowodanów w próbkach 100 gramowych wątroby I partii b) Na poziomie ufności 1 -  =0,95 oszacować metodą przedziałową wariancję zawartości węglowodanów w próbkach 100 gramowych wątroby I partii.

c) Na poziomie istotności  = 0,05 zweryfikować hipotezę, że badane partie próbek pochodzą z populacji generalnych o tej samej średniej zawartości węglowodanów .

Rozwiązanie Ad a).

Z modeli na przedziały ufności dla wartości oczekiwanej a więc średniej mamy, że założenia modelu mogą być spełnione tylko w modelu II, w którym cecha powinna mieć rozkład normalny

) , (m 

N . W modelu I nie znamy teoretycznego odchylenia standardowego



cechy. W modelu III próba powinna być duża (n>30) . W zadaniu występuje n=7.

Założenie, że X ~N(m,) jest do przyjęcia gdyż takie cechy przyrodnicze w większości tą własność mają. Istnieje możliwość zweryfikowania tej hipotezy i zakładamy, że ona została zweryfikowana. Wtedy statystyka

1

  n

S m

t X ma rozkład t – Studenta o n-1 stopniach swobody.

Wychodząc z prawdopodobieństwa

 





 





 



 







 



   







 _ _ _ _

1 1 1

1 _, ₁ _, ₁ _, ₁ _, ₁

n t S X n m

t S X P t

S n m P X

t t

P __n __n __n __n



A stąd wzór na przedział

1

1 ^, ¹

1

,    

 _  _

n t s

x n m

t s

x __n __n Stąd trzeba policzyć

podstawowe parametry próby i z tablic rozkładu t – studenta odczytać kwantyl t_,n1.

7 17 119 



x 1,214

7 5 ,

2  8 

s s s²  1,2141,102 xi (x_i x)²

15 4

17 0

16 1

17 0

18,5 2,25

18 1

17,5 0,25



^{ 119}



^⁸^,⁵

(7)

1 , 0 9

, 0

1    . Z tablic rozkładu t - Studenta zatytułowanego



 _

     

 _ ) ( _ ) 1

(t t _,_n ₁ P t t _,_n ₁

P odczytujemy t_,_n_1 t0,1;6 ¹^,⁹⁴³ . Stopnie swobody występują w pierwszej kolumnie a wartości



w wierszu na górze. Stąd

1 7 102 , 943 1 , 1 1 17

7 102 , 943 1 , 1

17    

  m ¹⁶^,¹²⁶^{ m}^¹⁷^,⁸⁷⁴ Ten przedział pokrywa z prawdopodobieństwem ¹^^ ^⁰^,⁹ średnią teoretyczną zawartości węglowodanów w próbkach 100 gramowych wątroby I partii

Rozwiązanie Ad b).

Z modelu I dla przedziałów ufności dla wariancji i odchylenia standardowego w którym spełnione są założenia modelu mamy wzór na przedział ufności

^P _χ^ns ^σ _χ^ns ^α

α,n α,n





















2 1

2 1 1 2 2

2 2 1

2

gdzie

2 1 2,n

 _, ² 1 2, 1 n

 są wartościami zmiennej



² wyznaczonymi z tablicy rozkładu



² ^z

n - 1 stopniami swobody . Model II nie możemy stosować ponieważ mamy próbę małą.

449 ,

2 14

6 , 025 , 0 2

1 2,



 

_

n ² ₀²_,₉₇₅_,₆ 1,237

1 2,

1  



 

 _

n . Stopnie swobody rozkładu



²

występują w pierwszej kolumnie a wartości



w wierszu na górze.

237 , 1

214 , 1 7 449

, 14

214 , 1

7 ₂   ⁰^,⁵⁸⁸³^^² ^⁴^,³⁷⁴⁷ ⁰^,⁵⁸⁸³^^ ^ ⁴^,³⁷⁴⁷

092 , 2 767

,

0  

Te przedziały z prawdopodobieństwem ¹^^ ^⁰^,⁹⁵ pokrywają odpowiednio teoretyczne wariancję i odchylenie standardowe zawartości węglowodanów w próbkach 100 gramowych wątroby I partii.

Rozwiązanie Ad c).

Zgodnie z treścią zadania stawiamy hipotezę, że średnie zawartości węglowodanów w próbkach 100 gramowych wątroby w obu partiach są jednakowe tzn. stawiamy hipotezę zerową

2 1

0:m m

H  . Mamy dwie populacje generalne związane z różnymi partiami próbek 100 gramowych wątroby. Próby w populacjach generalnych mają obliczone parametry I partia : n₁ 7 x₁ 17 s₁ 1,102

II partia : n₂ 10 x₂ 15,5 s₂ 1,1

Indeksy przy podstawowych parametrach dotyczą numeru populacji a z tym związanych numeru próby. Aby odpowiedzieć na postawione pytanie wybieramy hipotezę alternatywną pierwszą tzn. H₁:m₁ m₂. Do weryfikacji hipotezy

wybieramy model II spośród modeli na testy istotności dla dwóch średnich. W modelu I nie znamy teoretycznych odchylenia standardowe ₁ i ₂ a w modelu III próby są duże.

W modelu II cechy powinny mieć rozkład normalny co w tym wypadku jak wyjaśniłem w punkcie a).

jest prawdziwe. Ponadto powinno 1 2co można sprawdzić za pomocą testu Snedecora.

Dalej postępujemy zgodnie z schematem:

2 1 0 :

0^o H m m tzn. średnie zawartości węglowodanów są takie same

(8)

05 , 0 1^o  

2 1 1:

2^o H m m tzn. średnie z zawartości węglowodanów są różne swobody stopniach

n n o Studenta t

statystyka n

n n

n

S n S n

X

t X 2

1 1 2

3 ₁ ₂

2 1 2

1

2 2 2 2 1 1

2

0 1   



 



 





 

tzn. wybraliśmy model II z grupy modeli testów istotności dla dwóch średnich.

2,5975

10 1 7 1 2

10 7

1 , 1 10 214 , 1 7

5 , 15 17

0 2 



 

 











  t

5^o Z informacji w modelu wynika, że dla hipotezy alternatywnej pierwszej, obszar krytyczny ma

wzór K = (-; -t,n1+n2-2)  (t,n1+n2-2; +  ) Ponieważ statystyka testowa ma rozkład t – Studenta z

tablic tego rozkładu odczytujemy _; ₂ ₀_,₀₅_;₁₅ 2,131

2

1_ _ t 

t_ _n _n a więc zbiór

krytyczny ma postać K ( ;2,131)(2,131; )

6^o Ponieważ wartość statystyki to ^²^,⁵⁹⁷⁵ należy do obszaru krytycznego K ( ;2,131)(2,131; ) tzn. ^to^K to hipotezę zerową odrzucamy na korzyść hipotezy alternatywnej i twierdzimy z prawdopodobieństwem przynajmniej 0,95, że hipoteza alternatywna jest prawdziwa.

A więc twierdzimy z prawdopodobieństwem przynajmniej 0,95, że średnia teoretyczne zawartości węglowodanów w dwóch próbach są różne. Oznacza to, że próby pochodzą z różnych populacji.

Może wystąpić błąd pierwszego rodzaju tzn. że hipoteza zerowa jest prawdziwa a przyjmujemy

hipotezę alternatywną. Taki błąd występuje z prawdopodobieństwem 05

,

0

 .