STATYSTYCZNE METODY WSPOMAGANIA DECYZJI Lab3 - Estymacja w R ESTYMACJA PARAMETRYCZNA
Przedziały ufno´sci dla ´sredniej µ na poziomie ufno´sci 1 − α
Model 1 X ∼ N (µ, σ), σ znane - funkcja z.test(x) w R lub ze wzoru h
¯
x − z1−α/2√σn, ¯x + z1−α/2√σn
i
Model 2 X ∼ N (µ, σ), σ nieznane - funkcja t.test(x) w R lub ze wzoruhx − t¯ n−11−α/2√s
n, ¯x + t n−1 1−α/2 s √ n i
Model 3 X ∼ rozkład dowolny (n > 25) - funkcja t.test(x) w R lub ze wzoruhx − z¯ 1−α/2√s
n, ¯x + z1−α/2 s √ n
i Przedziały ufno´sci dla wariancji σ2na poziomie ufno´sci 1 − α
Model 1 X ∼ N (µ, σ), σ nieznane - funkcja sigma.test(x) w R lub ze wzoru (n−1)s2 χ2 1−α/2,n−1 , χ(n−1)s2 2 α/2,n−1
Model 2 X ∼ rozkład dowolny (n > 25) - własna funkcja w R lub ze wzoru h s2(2n−2) (√2n−3+z1−α/2)2, s2(2n−2) (√2n−3−z1−α/2)2 i Przedział ufno´sci dla odsetka (procentu) p na poziomie ufno´sci 1 − α
Model X ∼ Bern(p), p - nieznane - funkcje binom.test(k,n), prop.test(k,n) lub (gdy np > 5, n(p − 1) > 5) ze wzoru ˆ p − z1−α/2 q ˆ p(1− ˆp) n , ˆp + z1−α/2 q ˆ p(1− ˆp) n
, gdzie ˆp = nk = liczba sukcesówliczno´s´c próby Uwaga: Funkcje z.test(x) i sigma.test(x) s ˛a dost˛epne w pakiecie TeachingDemos w R.
1. ´Srednie wynagrodzenie 50 losowo wybranych programistów wyniosło 6000 zł. Wiadomo, ˙ze odchylenie standardowe wynagrodzenia programistów wynosi 2100 zł. Wyznacz 95% przedział ufno´sci dla ´sredniego wynagrodzenia progra-mistów, zakładaj ˛ac, ˙ze rozkład ich wynagrodze´n jest rozkładem normalnym.
2. Dla wybranego u˙zytkownika zarejestrowano czasy mi˛edzy naci´sni˛eciami klawiszy, gdy wpisywał login i hasło. Po-brano z nich losow ˛a prób˛e 18 pomiarów (w sekundach):
0.24, 0.22, 0.26, 0.34, 0.35, 0.32, 0.33, 0.29, 0.19, 0.36, 0.30, 0.15, 0.17, 0.28, 0.38, 0.40, 0.37, 0.27. Zakładaj ˛ac, ˙ze czasy pochodz ˛a z rozkładu normalnego, wyznacz
a) 99% przedział ufno´sci dla ´sredniego czasu mi˛edzy naci´sni˛eciami klawiszy tego u˙zytkownika,
b) 95% przedział ufno´sci dla odchylenia standardowego czasu mi˛edzy naci´sni˛eciami klawiszy tego u˙zytkownika. 3. Zmierzono czas ´swiecenia 69 ´swietlówek i stwierdzono, ˙ze dla 14 z nich był on krótszy ni˙z 1000 godzin, dla 15 był
w przedziale [1000, 2000), dla 29 ´swietlówek był dłu˙zszy ni˙z 2000, ale krótszy ni˙z 3000 godzin, za´s dla pozostałych 11 - czas ´swiecenia był dłu˙zszy ni˙z 3000, ale nie dłu˙zszy ni˙z 4000 godzin. Oszacuj przedziałowo ´sredni ˛a i odchylenie standardowe czasu ´swiecenia ´swietlówek. Przyjmij poziom ufno´sci 0.95.
4. Ramka danych faithful zawiera dane dotycz ˛ace czasu trwania erupcji gejzera Old Faithful (zmienna eruptions) oraz czasu oczekiwania na kolejn ˛a erupcj˛e (zmienna waiting). Utwórz 99% przedział ufno´sci dla ´sredniego czasu oczeki-wania na kolejn ˛a erupcj˛e.
5. Ramka danych Pima.te z pakietu MASS zawiera dane dotycz ˛ace zdrowia kilkuset Indianek z plemienia Pima maj ˛acych co najmniej 21 lat. Zmienna type zawiera informacj˛e, czy kobieta jest chora na cukrzyc˛e, czy nie.
a) Utwórz 95% przedział ufno´sci dla odsetka Indianek dotkni˛etych cukrzyc ˛a.
b) Utwórz 95% przedział ufno´sci dla odsetka Indianek dotkni˛etych cukrzyc ˛a maj ˛acych co najmniej 35 lat.
6. Zmienna weight znajduj ˛aca si˛e w ramce danych chickwts opisuje wag˛e kurczaków, natomiast zmienna feed rodzaj u˙ztej paszy. Zakładamy, ˙ze waga kurczaków ma rozkład normalny. Zbuduj 93% przedział ufno´sci dla wariancji wagi kurczaków karmionych pasz ˛a soybean.
7. Jak du˙z ˛a prób˛e nale˙zy pobra´c, aby z maksymalnym bł˛edem ±2% oszacowa´c na poziomie ufno´sci 0.99 procent kie-rowców, którzy nie zapinaj ˛a pasów bezpiecze´nstwa? Uwzgl˛ednij rezultaty wst˛epnych bada´n, z których wynika, ˙ze interesuj ˛aca nas wielko´s´c jest rz˛edu 16%. Porównaj otrzyman ˛a liczno´s´c próby z liczno´sci ˛a, jaka byłaby wymagana, gdyby pomin ˛a´c rezultaty wst˛epnych bada´n.
STATYSTYCZNE METODY WSPOMAGANIA DECYZJI Lab3 - Estymacja w R Minimalna liczno´s´c próby do oszacowania ´sredniej µ na poziomie ufno´sci (1 − α) z max. bł˛edem d
Model 1 X ∼ N (µ, σ), σ znane - ze wzoru n ≥ σdz1−α/2
2 Model 2 X ∼ N (µ, σ), σ nieznane - ze wzoru n ≥sdtn0−1
1−α/2
2
, gdzie n0- liczno´s´c pobranej próby wst˛epnej
Minimalna liczno´s´c próby do oszacowania odsetka p na poziomie ufno´sci (1 − α) z max. bł˛edem d Model 1 Je´sli znany jest szacunkowy procent p0- ze wzoru n ≥ p0(1−pd2 0)z21−α/2
Model 2 Je´sli nie jest znany szacunkowy procent p0- ze wzoru n ≥ 4d12z21−α/2
8. Poni˙zsze dane przedstawiaj ˛a zarejestrowan ˛a przez radar drogowy pr˛edko´s´c 10 losowo wybranych pojazdów, jad ˛acych pewn ˛a autostrad ˛a (km/h):
106, 115, 99, 109, 122, 119, 104, 125, 107, 111.
Zakładaj ˛ac normalno´s´c rozkładu pr˛edko´sci, wyznacz liczno´s´c próby potrzebn ˛a do wyestymowania ´sredniej pr˛edko´sci z dokładno´sci ˛a ±2 km/h na poziomie ufno´sci 0.95.
9. W celu oszacowania niezawodno´sci pewnego urz ˛adzenia dokonano 8 pomiarów czasu bezawaryjnej pracy tego urz ˛ a-dzenia i otrzymano nast˛epuj ˛ace wyniki (w godzinach): 1034, 2720, 482, 622, 2624, 420, 342, 703. Zakładamy, ˙ze czas bezawaryjnej pracy tego urz ˛adzenia ma rozkład wykładniczy. Oszacuj prawdopodobie´nstwo, ˙ze dane urz ˛adzenie nie ulegnie awarii w ci ˛agu 750 godzin pracy.
ESTYMACJA NIEPARAMETRYCZNA Dystrybuanta empiryczna
Naturalnym estymatorem nieznanej dystrybuanty F zmiennej X jest dystrybuanta empiryczna zbudowana na pod-stawie próby losowej (X1, X2, . . . , Xn) dana wzorem
ˆ Fn(x) =
#{Xi: Xi ≤ x}
n , x ∈ R.
Uwaga: Dystrybuant˛e empiryczn ˛a mo˙zna narysowa´c w R wywołuj ˛ac funkcj˛e ecdf(). Estymatory j ˛adrowe
Innym estymatorem nieznanego rozkładu s ˛a estymatory j ˛adrowe opisywane wzorem ˆ fn(x) = 1 hn n X i=1 K x − Xi h ,
gdzie h > 0 jest zadan ˛a szeroko´sci ˛a pasma, natomiast K jest pewn ˛a funkcj ˛a spełniaj ˛ac ˛a warunekR+∞
−∞ K(x)dx = 1
zwan ˛a j ˛adrem. Cz˛esto jako K przyjmuje si˛e g˛esto´s´c rozkładu N (0, 1), wtedy przyjmuje si˛e h = 1.06S/√3n.
10. Wygeneruj 4 próby losowe z rozkładu standardowego normalnego: 5, 10, 20 i 100 elementow ˛a. Narysuj dla tych prób dystrybuanty empiryczne i porównaj je z odpowiedni ˛a dystrybuant ˛a teoretyczn ˛a (tw. Gliwienki-Cantellego).
11. Wygeneruj n-elementow ˛a (n = 100) prób˛e losow ˛a z rozkładu normalnego standardowego. Utwórz histogram oraz estymator j ˛adrowy dla tej próby. Nałó˙z na uzyskany obraz wykres g˛esto´sci teoretycznej rozkładu normalnego. 12. Wygeneruj n = 500 elementow ˛a prób˛e (Y1, Y2, . . . , Yn) z rozkładu normalnego standardowego.
a) Dla ka˙zdej podpróbki zawieraj ˛acej i pocz ˛atkowych elementów próbki wyj´sciowej, tj. dla Xi = (Y1, . . . , Yi),
gdzie i = 1, . . . , n wyznacz ´sredni ˛a Xi oraz median˛e M edi. Narysuj na wspólnym wykresie wektory {Xi :
i = 1, . . . , n} oraz {M edi : i = 1, . . . , n}. Przeanalizuj wpływ liczno´sci próby na zachowanie si˛e ´sredniej i
mediany z próby. Czy statystyki te wydaj ˛a si˛e by´c sensownymi estymatorami parametru warto´sci oczekiwanej w tym modelu?
b) Dla ka˙zdej podpróbki zawieraj ˛acej i = 2, . . . , n pocz ˛atkowych elementów próbki wyj´sciowej wyznacz odchy-lenie standardowe sioraz di = IQR(Xi)/1.35. Przedstaw na wspólnym wykresie wektory {si : i = 2, . . . , n}
oraz {di : i = 2, . . . , n}. Przeanalizuj wpływ liczno´sci próby na zachowanie si˛e sii di. Czy statystyki te wydaj ˛a
si˛e by´c sensownymi estymatorami odchylenia standardowego w tym modelu?