Statystyka matematyczna, UMK. Egzamin, czerwiec 2012
1. Rozważamy rodzinę rozkładów Pareto o gęstości:
fθ(x) =
2θθ
(2 + x)θ+1 dla x > 0
0 dla x ¬ 0.
gdzie θ > 0 jest nieznanym parametrem. Załóżmy, że obserwujemy pojedynczą zmienną losową X z wyżej podanego rozkładu. Na podstawie obserwacji X testu- jemy hipotezę zerową H0 : θ = 1 przeciw alternatywie H1 : θ = 4.
(a) Wyznacz obszar krytyczny (obszar odrzuceń H0) dla najmocniejszego testu na poziomie istotności α = 0.1.
(b) Oblicz moc tego testu, 1 − β.
(c) Oblicz p-wartość testu, jeśli zaobserwowano wartość X = 0.01.
Wskazówka: Dystrybuanta zmiennej losowej X jest dana wzorem
Fθ(x) = 1 − 2θ (2 + x)θ, dla x > 0.
Rozwiązanie. Obliczamy iloraz wiarogodności:
f4(x)
f1(x) = 24· 4
21· 1· (2 + x)−5
(2 + x)−2 = (stała) · (2 + x)−3.
Jest to malejąca funkcja x więc, na mocy Lematu Neymana-Pearsona, najmocniejszy test na poziomie istotności α = 0.1 ma obszar krytyczny postaci (2 + x)−3 > ˜c czyli x < c. Wyznaczamy stałą c z faktu, że prawdopodobieństwo błędu I rodzaju ma być równe α, czyli P1(X < c) = α. Stosując wzór na dystrybuantę otrzymujemy równanie
P1(X < c) = F1(c) = 1 − 2
2 + c = 0.1.
Rozwiązaniem tego równania jest c = 2/9.
Odpowiedź (a): {x : x < 2/9}.
Moc: P4(X < c) = 1 −
2 2 + c
4
= 1 − 2
2 + 2/9
!4
= 1 − (0.9)4, znów ze wzoru na dystrybuantę.
Odpowiedź (b): Moc 1 − (0.9)4.
p-wartość dla x = 0.01 analogicznie: P1(X < x) = 1 −
2 2 + x
= 1 −
2 2 + 0.01
= 1/201, znów ze wzoru na dystrybuantę.
Odpowiedź (c): p-wartość 1/201.
2. Niech X1, . . . , Xn będą niezależnymi zmiennymi losowymi o jednakowym rozkładzie o gęstości
fθ(x) =
1
θx1/θ−1 dla 0 < x < 1;
0 w pozostałych przypadkach, gdzie θ > 0 jest nieznanym parametrem.
(a) Wyznacz estymator parametru θ metodą największej wiarogodności.
(b) Wyznacz estymator parametru θ metodą momentów.
(c) Czy estymator największej wiarogodności jest w tym przykładzie nieobciążony, czy nie jest? Uzasadnij odpowiedź.
Wskazówka: Możesz skorzystać z faktu, że R01 1θx1/θ−1ln xdx = −θ.
Rozwiązanie. Funkcja wiarogodności i jej logarytm są postaci:
L(θ) = fθ(x1, . . . , xn)iid= fθ(x1) · . . . · fθ(xn) = 1
θn(x1· . . . · · · xn)1/θ−1, x1, . . . , xn ∈ (0, 1), l(θ) = ln(L(θ)) = −n ln θ +
1 θ − 1
n
X
i=1
ln(xi),
∂l
∂θ = −n θ − 1
θ2
n
X
i=1
ln(xi).
Szukamy ekstremów lokalnych:
∂l
∂θ = 0 ⇐⇒ θ = −1 n
n
X
i=1
ln(xi),
∂l
∂θ > 0 ⇐⇒ θ < −1 n
n
X
i=1
ln(xi),
∂l
∂θ < 0 ⇐⇒ θ > −1 n
n
X
i=1
ln(xi).
Zatem w punkcie θ = −1 n
n
P
i=1
ln(xi) znajduje się maksimum lokalne, które jest jedno- cześnie supremum funkcji l. Szkic wykresu logarytmu funkcji wiarogodności wygląda następująco:
Odpowiedź (a): EN W (θ) = −1 n
Pn i=1
ln(xi).
Estymator θ uzyskany metodą momentów:
Parametr θ jest jednowymiarowy, więc wystarczy jedno równanie momentowe:
EX = ¯X.
Liczymy EX = EX1:
EX =
Z1
0
x · 1
θx1/θ−1dx = 1 θ
Z1
0
x1/θdx = 1 θ · 1
1
θ + 1x1/θ+1 |x=1x=0=
1 θ 1
θ + 1 = 1
1 + θ. Zatem
1
1 + θ = ¯X ⇐⇒ θ = 1 X¯ − 1, Odpowiedź (b): ˆθ = 1
X¯ − 1.
Obciążenie estymatora EN W (θ):
Należy sprawdzić, czy
E(EN W (θ))= θ.? (1)
Liczymy wartość oczekiwaną estymatora:
E(EN W (θ)) = E −1 n
n
X
i=1
ln(Xi)
!
= −1 n
n
X
i=1
E(ln(Xi))(∗)= −1
nnE(ln(X1))
= −E(ln(Xi)) = −
1
Z
0
ln(x)1
θx1/θ−1dx(∗∗)= −
u = ln(x) du = 1x dv = 1θx1/θ−1 v = x1/θ
= − ln(x)x1/θ|10+
Z1
0
x1/θ−1dx = θx1/θ|10 = θ,
zatem mamy równość w (1).
(*) - zmienne X1, . . . , Xnmają ten sam rozkład (**) - całkowanie przez części
Odpowiedź (c): Estymator EN W (θ) jest nieobciążony.
3. Zważono 10 paczek masła i otrzymano nastepuj, ace wyniki:,
245; 248; 241; 251; 252; 244; 246; 248; 247; 248.
Zakładamy, że jest to próbka losowa z rozkładu normalnego N(µ, σ2) z nieznanymi parametrami µ i σ.
(a) Oblicz przedział ufności dla µ na poziomie ufności 1 − α = 0.95.
(b) Przeprowadź test hipotezy H0 : µ = 250 przeciwko alternatywie H1 : µ < 250.
Przyjmij poziom istotności α = 0.05.
(c) Przeprowadź test hipotezy H0 : σ = 5 przeciwko alternatywie H1 : σ > 5.
Przyjmij poziom istotności α = 0.05.
Rozwiązanie. Definiujemy zmienną losową X-waga kostki masła ∼ N (µ, σ2), która ma rozkład normalny z nieznaną wartością oczekiwaną i wariancją. Dysponujemy próbką x1 = 245, . . . , xn= 248, zatem:
n = 10 (¬ 30),
¯
x = 1 n
n
X
i=1
= 247, s2 = 1
n − 1
n
X
i=1
(xi− ¯x)2 = 1
9(4 + 1 + 36 + 16 + 25 + 9 + 1 + 1 + 0 + 1)
= 94
9 ' 10, 44, s = q10, 44 ' 3, 2318, 1 − α = 0, 95 ⇒ α = 0, 05 ⇒ α
2 = 0, 025 ⇒ 1 − α
2 = 0, 975, Ft−1n−1
1 − α 2
= Ft−19 (0, 975) = 2, 262.
gdzie Ft−1n−11 − α2- kwantyl rozkładu t-Studenta z n − 1 stopniami swobody rzędu 1 −α2. Przedział ufności ma postać:
"
¯
x − Ft−1n−1
1 −α 2
s
√n, ¯x + Ft−1n−1
1 − α 2
s
√n
#
, co po podstawieniu do wzoru daje nam
Odpowiedź (a): [244.69, 249.31].
Statystyka testowa ma postać Tn=√
nx − µ¯ 0
s =√
10247 − 250
3, 2318 ' −2, 935.
Obszar krytyczny jest postaci
K = (−∞, −Ft−1n−1(1 − α)) = (−∞, −1, 833), Zatem Tn∈ K.
Odpowiedź (b): Odrzucamy hipotezę zerową H0na rzecz hipotezy alternatywnej H1. Test istotności dla odchylenia standardowego w modelu normalnym:
H0 = σ = 5 vs H1 : σ > 5, (hipoteza alternatywna prawostronna). Mamy:
σ0 = 5 ⇒ σ02 = 25,
α = 0, 05 ⇒ 1 − α = 0, 95, Fχ−12
n−1(1 − α) = Fχ−12
9 (0, 95) = 16, 919, gdzie Fχ−12
n−1(1−α) - kwantyl rozkładu ch-kwadrat z (n−1) stopniami swobody rzędu 1 − α. Statystyka testowa ma postać
Tn= (n − 1)s2
σ20 = 910, 44
25 ' 3, 76.
Obszar krytyczny jest postaci K =
Fχ−12
n−1(1 − α), ∞
= (16.919, ∞), zatem Tn∈ K./
Odpowiedź (c): Nie mamy podstaw do odrzucenia hipotezy zerowej H0.
4. Typowy student spędza X godzin dziennie na czytaniu książek. Zakładamy, że X ma rozkład normalny N(3, 22). Niech ¯X będzie średnią obliczoną na podstawie próbki 20 losowo wybranych studentów, tzn. ¯X = 201 P20i=1Xi, gdzie Xis są niezależnymi zmiennymi losowymi o tym samym rozkładzie co X.
(a) Jaki jest rozkład prawdopodobieństwa zmiennej losowej ¯X ? (b) Jakie jest prawdopodobieństwo, że ¯X przekroczy 4?
(c) Oblicz E( ¯X − 3)2.
Rozwiązanie. Wiadomo z wykładu, że jeśli Xi ∼ N (µ, σ2) to dla średniej z próbki, X ∼ N (µ, σ¯ 2/n) = N (3, 4/20).
Odpowiedź (a): ¯X ∼ N (3, 1/5).
Standaryzujemy zmienną losową ¯X:
P(X > 4) = P¯
X − 3¯
q1/5
> 4 − 3
q1/5
= P(Z >√ 5),
gdzie Z ∼ N (0, 1). Z tablic odczytujemy P(Z >√
5) = 1 − Φ(√
5) = 0.1267366.
Odpowiedź (b): P( ¯X > 4) = 0.1267366 Z definicji wariancji E( ¯X − 3)2 = Var( ¯X).
Odpowiedź (c): E( ¯X − 3)2 = 1/5.
5. Oznaczono grupę krwi dla 400 osób. Wyniki były następujące: 85 osób miało grupę A, 90 osób miało grupę B, 105 osób miało grupę AB, pozostali mieli grupę 0. Zweryfi- kuj hipotezę zerową H0 mówiącą, że rozkład grup jest równomierny (to znaczy każda z grup ma jednakowe prawdopodobieństwo). Przyjmij poziom istotności α = 0.05.
(a) Podaj wartość statystyki testowej.
(b) Podaj wartość odpowiedniego kwantyla rozkładu χ2, z którym należy porównać wartość statystyki.
(c) Podejmij decyzję: ODRZUCAMY H0 / NIE ODRZUCAMY H0. Rozwiązanie.
Stosujemy test χ2 zgodności. Ze wzoru χ2 =X
i
(Ni− npi)2 npi
= (85 − 100)2
100 +(90 − 100)2
100 + (105 − 100)2
100 +(400 − 85 − 90 − 105 − 100)2 100
= 7.5,
bo H0 : p1 = p2 = p3 = p4 = 1/4, n = 400.
Odpowiedź (a): χ2 = 7.5.
Odpowiedź (b): Z tablic χ20.95(3) = 7.85.
Odpowiedź (c): Ponieważ 7.5 < 7.85 więc nie odrzucamy H0.
6. Rozkład prawdopodobieństwa dziennej sprzedaży produktu A w pewnym sklepie jest w przybliżeniu normalny, N(100, 302). Rozkład dziennej sprzedaży produktu B jest w przybliżeniu N(150, 402). Zakładamy, że wysokości sprzedaży produktów A i B są niezależne. Oblicz
(a) prawdopodobieństwo, że dzienna sprzedaż A przekroczy 150PLN;
(b) prawdopodobieństwo, że dzienna sprzedaż A będzie większa niż dzienna sprze- daż B;
(c) prawdopodobieństwo, że dzienna sprzedaż każdego z produktów A i B przekro- czy 150PLN;
Rozwiązanie. Standaryzujemy A: P(A > 150) = P(Z > 5/3) = 1 − Φ(5/3) . . . z tablic = 0.0478
Odpowiedź (a): P(A > 150) = 0.0478
Ponieważ A i B są niezależne, więc A − B ∼ (100 − 50, 302+ 402) = N (−50, 502).
Stąd P(A > B) = P(A − B > 0) . . . standaryzujemy = P(Z > 1) . . . z tablic
= 0.15868.
Odpowiedź (b): P(A > B) = 0.15868.
Ponieważ A i B są niezależne, więc
P(A > 150, B > 150) = P(A > 150)P(B > 150) = 0.0478 ∗ 0.5.
Odpowiedź (c): P(A > 150, B > 150) = 0.0239.
7. Próba losowa prosta X = (X1, . . . , Xn) pochodzi z rozkładu P oiss(λ). Rozważmy estymator parametru θ = 1 + P (X = 3) postaci
θ(X) =ˆ
n + Pn
i=1
1{3}(Xi)
n .
(a) Zbadaj, czy ˆθ jest estymatorem nieobciążonym.
(b) Oblicz jego ryzyko średniokwadratowe.
(c) Sprawdź mocną zgodność estymatora ˆθ.
Rozwiązanie. Zdefiniujmy zmienne losowe postaci
Yi = 1{3}(Xi) =
1, Xi = 3, 0, Xi 6= 3.
, i = 1, . . . , n.
Są one (podobnie jak X1, . . . , Xn) niezależne o tym samym rozkładzie. Ponadto EY1 = 1 · P (X1 = 3) + 0 · P (X1 6= 3) = P (X1 = 3),
V ar(Y1) = EY12 − (EY1)2 = 12· P (X1 = 3) + 02· P (X1 6= 3) − (P (X1 = 3))2
= P (X1 = 3)(1 − P (X1 = 3)).
Mamy więc
θ(X) =ˆ
n + Pn
i=1
1{3}(Xi)
n = 1 + 1
n
n
X
i=1
Yi.
Policzmy wartość oczekiwaną estymatora:
E ˆθ = E 1 + 1 n
n
X
i=1
Yi
!
= 1 + 1 n
n
X
i=1
E(Yi)(∗)= 1 + 1
nnE(Y1) = 1 + P (X1 = 3) = θ.
(*)-zmienne Y1, . . . , Ynmają ten sam rozkład.
Odpowiedź (a): ˆθ jest nieobciążonym estymatorem parametru θ.
Ryzyko estymatora ˆθ w punkcie θ jest równe jego wariancji, ponieważ estymator ten jest nieobciążony. Zatem:
R(θ) = V ar(ˆθ) = V ar 1 + 1 n
n
X
i=1
Yi
!
(∗∗)= 1 n2V ar
n
X
i=1
Yi
!
(∗∗∗)
= 1
n2
n
X
i=1
V ar(Yi)
= 1
n2nV ar(Y1)(∗∗∗∗)= 1
nV ar(Y1)
(**) - własności wariancji
(***)-zmienne Y1, . . . , Ynsą niezależne
(****)-zmienne Y1, . . . , Ynmają ten sam rozkład
Odpowiedź (b): R(θ) = 1nP (X1 = 3)(1 − P (X1 = 3)).
Wykorzystamy Mocne Prawo Wielkich Liczb. Ponieważ E|Y1| = EY1 = P (X1 = 3) < ∞, możemy sformułować MPWL dla iid zmiennych Y1, . . . , Yn, . . .:
Pn i=1
n Yi n→∞−→p.w.EY1 = P (X1 = 3.) Zatem
θ = 1 +ˆ 1 n
n
X
i=1
Yi
n→∞−→p.w.1 + P (X1 = 3) = θ.
Odpowiedź (c): Estymator ˆθ jest mocno zgodnym estymatorem parametru θ.