Statystyka matematyczna, UMK. Egzamin, czerwiec 2012

(1)

Statystyka matematyczna, UMK. Egzamin, czerwiec 2012

1. Rozważamy rodzinę rozkładów Pareto o gęstości:

f_θ(x) =











2^θθ

(2 + x)^θ+1 dla x > 0

0 dla x ¬ 0.

gdzie θ > 0 jest nieznanym parametrem. Załóżmy, że obserwujemy pojedynczą zmienną losową X z wyżej podanego rozkładu. Na podstawie obserwacji X testu- jemy hipotezę zerową H₀ : θ = 1 przeciw alternatywie H₁ : θ = 4.

(a) Wyznacz obszar krytyczny (obszar odrzuceń H₀) dla najmocniejszego testu na poziomie istotności α = 0.1.

(b) Oblicz moc tego testu, 1 − β.

(c) Oblicz p-wartość testu, jeśli zaobserwowano wartość X = 0.01.

Wskazówka: Dystrybuanta zmiennej losowej X jest dana wzorem

F_θ(x) = 1 − 2^θ (2 + x)^θ, dla x > 0.

Rozwiązanie. Obliczamy iloraz wiarogodności:

f₄(x)

f₁(x) = 2⁴· 4

2¹· 1· (2 + x)⁻⁵

(2 + x)⁻² = (stała) · (2 + x)⁻³.

Jest to malejąca funkcja x więc, na mocy Lematu Neymana-Pearsona, najmocniejszy test na poziomie istotności α = 0.1 ma obszar krytyczny postaci (2 + x)⁻³ > ˜c czyli x < c. Wyznaczamy stałą c z faktu, że prawdopodobieństwo błędu I rodzaju ma być równe α, czyli P1(X < c) = α. Stosując wzór na dystrybuantę otrzymujemy równanie

P1(X < c) = F₁(c) = 1 − 2

2 + c = 0.1.

Rozwiązaniem tego równania jest c = 2/9.

Odpowiedź (a): {x : x < 2/9}.

Moc: P4(X < c) = 1 −

2 2 + c

4

= 1 − 2

2 + 2/9

!4

= 1 − (0.9)⁴, znów ze wzoru na dystrybuantę.

Odpowiedź (b): Moc 1 − (0.9)⁴.

p-wartość dla x = 0.01 analogicznie: P¹(X < x) = 1 −

2 2 + x

= 1 −

2 2 + 0.01

= 1/201, znów ze wzoru na dystrybuantę.

Odpowiedź (c): p-wartość 1/201.

(2)

2. Niech X₁, . . . , X_n będą niezależnymi zmiennymi losowymi o jednakowym rozkładzie o gęstości

f_θ(x) =







1

θx^1/θ−1 dla 0 < x < 1;

0 w pozostałych przypadkach, gdzie θ > 0 jest nieznanym parametrem.

(a) Wyznacz estymator parametru θ metodą największej wiarogodności.

(b) Wyznacz estymator parametru θ metodą momentów.

(c) Czy estymator największej wiarogodności jest w tym przykładzie nieobciążony, czy nie jest? Uzasadnij odpowiedź.

Wskazówka: Możesz skorzystać z faktu, że ^R₀¹ ¹_θx^1/θ−1ln xdx = −θ.

Rozwiązanie. Funkcja wiarogodności i jej logarytm są postaci:

L(θ) = f_θ(x₁, . . . , x_n)^iid= f_θ(x₁) · . . . · f_θ(x_n) = 1

θⁿ(x₁· . . . · · · x_n)^1/θ−1, x₁, . . . , x_n ∈ (0, 1), l(θ) = ln(L(θ)) = −n ln θ +

1 θ − 1

n

X

i=1

ln(x_i),

∂l

∂θ = −n θ − 1

θ²

n

X

i=1

ln(xi).

Szukamy ekstremów lokalnych:

∂l

∂θ = 0 ⇐⇒ θ = −1 n

n

X

i=1

ln(x_i),

∂l

∂θ > 0 ⇐⇒ θ < −1 n

n

X

i=1

ln(x_i),

∂l

∂θ < 0 ⇐⇒ θ > −1 n

n

X

i=1

ln(xi).

Zatem w punkcie θ = −1 n

n

P

i=1

ln(x_i) znajduje się maksimum lokalne, które jest jedno- cześnie supremum funkcji l. Szkic wykresu logarytmu funkcji wiarogodności wygląda następująco:

(3)

Odpowiedź (a): EN W (θ) = −1 n

Pn i=1

ln(xi).

Estymator θ uzyskany metodą momentów:

Parametr θ jest jednowymiarowy, więc wystarczy jedno równanie momentowe:

EX = ¯X.

Liczymy EX = EX₁:

EX =

Z1

0

x · 1

θx^1/θ−1dx = 1 θ

Z1

0

x^1/θdx = 1 θ · 1

1

θ + 1x^1/θ+1 |^x=1_x=0=

1 θ 1

θ + 1 = 1

1 + θ. Zatem

1

1 + θ = ¯X ⇐⇒ θ = 1 X¯ − 1, Odpowiedź (b): ˆθ = 1

X¯ − 1.

Obciążenie estymatora EN W (θ):

Należy sprawdzić, czy

E(EN W (θ))= θ.^? (1)

Liczymy wartość oczekiwaną estymatora:

E(EN W (θ)) = E −1 n

n

X

i=1

ln(Xi)

!

= −1 n

n

X

i=1

E(ln(Xi))^(∗)= −1

nnE(ln(X₁))

= −E(ln(X_i)) = −

1

Z

0

ln(x)1

θx^1/θ−1dx^(∗∗)= −

u = ln(x) du = ¹_x dv = ¹_θx^1/θ−1 v = x^1/θ

= − ln(x)x^1/θ|¹₀+

Z1

0

x^1/θ−1dx = θx^1/θ|¹₀ = θ,

zatem mamy równość w (1).

(*) - zmienne X1, . . . , Xnmają ten sam rozkład (**) - całkowanie przez części

Odpowiedź (c): Estymator EN W (θ) jest nieobciążony.

(4)

3. Zważono 10 paczek masła i otrzymano nastepuj_, ace wyniki:_,

245; 248; 241; 251; 252; 244; 246; 248; 247; 248.

Zakładamy, że jest to próbka losowa z rozkładu normalnego N(µ, σ²) z nieznanymi parametrami µ i σ.

(a) Oblicz przedział ufności dla µ na poziomie ufności 1 − α = 0.95.

(b) Przeprowadź test hipotezy H₀ : µ = 250 przeciwko alternatywie H₁ : µ < 250.

Przyjmij poziom istotności α = 0.05.

(c) Przeprowadź test hipotezy H₀ : σ = 5 przeciwko alternatywie H₁ : σ > 5.

Przyjmij poziom istotności α = 0.05.

Rozwiązanie. Definiujemy zmienną losową X-waga kostki masła ∼ N (µ, σ²), która ma rozkład normalny z nieznaną wartością oczekiwaną i wariancją. Dysponujemy próbką x₁ = 245, . . . , x_n= 248, zatem:

n = 10 (¬ 30),

¯

x = 1 n

n

X

i=1

= 247, s² = 1

n − 1

n

X

i=1

(x_i− ¯x)² = 1

9(4 + 1 + 36 + 16 + 25 + 9 + 1 + 1 + 0 + 1)

= 94

9 ' 10, 44, s = ^q10, 44 ' 3, 2318, 1 − α = 0, 95 ⇒ α = 0, 05 ⇒ α

2 = 0, 025 ⇒ 1 − α

2 = 0, 975, F_t⁻¹_n−1

1 − α 2

= F_t⁻¹₉ (0, 975) = 2, 262.

gdzie F_t⁻¹_n−11 − ^α₂- kwantyl rozkładu t-Studenta z n − 1 stopniami swobody rzędu 1 −^α₂. Przedział ufności ma postać:

"

¯

x − F_t⁻¹_n−1

1 −α 2

s

√n, ¯x + F_t⁻¹_n−1

1 − α 2

s

√n

#

, co po podstawieniu do wzoru daje nam

Odpowiedź (a): [244.69, 249.31].

(5)

Statystyka testowa ma postać T_n=√

nx − µ¯ ₀

s =√

10247 − 250

3, 2318 ' −2, 935.

Obszar krytyczny jest postaci

K = (−∞, −F_t⁻¹_n−1(1 − α)) = (−∞, −1, 833), Zatem T_n∈ K.

Odpowiedź (b): Odrzucamy hipotezę zerową H₀na rzecz hipotezy alternatywnej H₁. Test istotności dla odchylenia standardowego w modelu normalnym:

H₀ = σ = 5 vs H₁ : σ > 5, (hipoteza alternatywna prawostronna). Mamy:

σ0 = 5 ⇒ σ₀² = 25,

α = 0, 05 ⇒ 1 − α = 0, 95, F_χ⁻¹2

n−1(1 − α) = F_χ⁻¹2

9 (0, 95) = 16, 919, gdzie F_χ⁻¹2

n−1(1−α) - kwantyl rozkładu ch-kwadrat z (n−1) stopniami swobody rzędu 1 − α. Statystyka testowa ma postać

T_n= (n − 1)s²

σ²₀ = 910, 44

25 ' 3, 76.

Obszar krytyczny jest postaci K =

F_χ⁻¹2

n−1(1 − α), ∞

= (16.919, ∞), zatem T_n∈ K./

Odpowiedź (c): Nie mamy podstaw do odrzucenia hipotezy zerowej H₀.

(6)

4. Typowy student spędza X godzin dziennie na czytaniu książek. Zakładamy, że X ma rozkład normalny N(3, 2²). Niech ¯X będzie średnią obliczoną na podstawie próbki 20 losowo wybranych studentów, tzn. ¯X = ₂₀¹ ^P²⁰_i=1X_i, gdzie X_is są niezależnymi zmiennymi losowymi o tym samym rozkładzie co X.

(a) Jaki jest rozkład prawdopodobieństwa zmiennej losowej ¯X ? (b) Jakie jest prawdopodobieństwo, że ¯X przekroczy 4?

(c) Oblicz E( ¯X − 3)².

Rozwiązanie. Wiadomo z wykładu, że jeśli X_i ∼ N (µ, σ²) to dla średniej z próbki, X ∼ N (µ, σ¯ ²/n) = N (3, 4/20).

Odpowiedź (a): ¯X ∼ N (3, 1/5).

Standaryzujemy zmienną losową ¯X:

P(X > 4) = P¯





X − 3¯

q1/5

> 4 − 3

q1/5



= P(Z >√ 5),

gdzie Z ∼ N (0, 1). Z tablic odczytujemy P(Z >√

5) = 1 − Φ(√

5) = 0.1267366.

Odpowiedź (b): P( ¯X > 4) = 0.1267366 Z definicji wariancji E( ¯X − 3)² = Var( ¯X).

Odpowiedź (c): E( ¯X − 3)² = 1/5.

(7)

5. Oznaczono grupę krwi dla 400 osób. Wyniki były następujące: 85 osób miało grupę A, 90 osób miało grupę B, 105 osób miało grupę AB, pozostali mieli grupę 0. Zweryfi- kuj hipotezę zerową H₀ mówiącą, że rozkład grup jest równomierny (to znaczy każda z grup ma jednakowe prawdopodobieństwo). Przyjmij poziom istotności α = 0.05.

(a) Podaj wartość statystyki testowej.

(b) Podaj wartość odpowiedniego kwantyla rozkładu χ², z którym należy porównać wartość statystyki.

(c) Podejmij decyzję: ODRZUCAMY H₀ / NIE ODRZUCAMY H₀. Rozwiązanie.

Stosujemy test χ² zgodności. Ze wzoru χ² =^X

i

(N_i− np_i)² np_i

= (85 − 100)²

100 +(90 − 100)²

100 + (105 − 100)²

100 +(400 − 85 − 90 − 105 − 100)² 100

= 7.5,

bo H₀ : p₁ = p₂ = p₃ = p₄ = 1/4, n = 400.

Odpowiedź (a): χ² = 7.5.

Odpowiedź (b): Z tablic χ²_0.95(3) = 7.85.

Odpowiedź (c): Ponieważ 7.5 < 7.85 więc nie odrzucamy H₀.

(8)

6. Rozkład prawdopodobieństwa dziennej sprzedaży produktu A w pewnym sklepie jest w przybliżeniu normalny, N(100, 30²). Rozkład dziennej sprzedaży produktu B jest w przybliżeniu N(150, 40²). Zakładamy, że wysokości sprzedaży produktów A i B są niezależne. Oblicz

(a) prawdopodobieństwo, że dzienna sprzedaż A przekroczy 150PLN;

(b) prawdopodobieństwo, że dzienna sprzedaż A będzie większa niż dzienna sprze- daż B;

(c) prawdopodobieństwo, że dzienna sprzedaż każdego z produktów A i B przekroczy 150PLN;

Rozwiązanie. Standaryzujemy A: P(A > 150) = P(Z > 5/3) = 1 − Φ(5/3) . . . z tablic = 0.0478

Odpowiedź (a): P(A > 150) = 0.0478

Ponieważ A i B są niezależne, więc A − B ∼ (100 − 50, 30²+ 40²) = N (−50, 50²).

Stąd P(A > B) = P(A − B > 0) . . . standaryzujemy = P(Z > 1) . . . z tablic

= 0.15868.

Odpowiedź (b): P(A > B) = 0.15868.

Ponieważ A i B są niezależne, więc

P(A > 150, B > 150) = P(A > 150)P(B > 150) = 0.0478 ∗ 0.5.

Odpowiedź (c): P(A > 150, B > 150) = 0.0239.

(9)

7. Próba losowa prosta X = (X₁, . . . , X_n) pochodzi z rozkładu P oiss(λ). Rozważmy estymator parametru θ = 1 + P (X = 3) postaci

θ(X) =ˆ

n + ^Pⁿ

i=1

1{3}(Xi)

n .

(a) Zbadaj, czy ˆθ jest estymatorem nieobciążonym.

(b) Oblicz jego ryzyko średniokwadratowe.

(c) Sprawdź mocną zgodność estymatora ˆθ.

Rozwiązanie. Zdefiniujmy zmienne losowe postaci

Y_i = 1{3}(Xi) =







1, X_i = 3, 0, X_i 6= 3.

, i = 1, . . . , n.

Są one (podobnie jak X₁, . . . , X_n) niezależne o tym samym rozkładzie. Ponadto EY₁ = 1 · P (X₁ = 3) + 0 · P (X₁ 6= 3) = P (X₁ = 3),

V ar(Y₁) = EY₁² − (EY₁)² = 1²· P (X₁ = 3) + 0²· P (X₁ 6= 3) − (P (X₁ = 3))²

= P (X1 = 3)(1 − P (X1 = 3)).

Mamy więc

θ(X) =ˆ

n + ^Pⁿ

i=1

1{3}(Xi)

n = 1 + 1

n

X

i=1

Y_i.

Policzmy wartość oczekiwaną estymatora:

E ˆθ = E 1 + 1 n

n

X

i=1

Yi

!

= 1 + 1 n

n

X

i=1

E(Yi)^(∗)= 1 + 1

nnE(Y₁) = 1 + P (X₁ = 3) = θ.

(*)-zmienne Y1, . . . , Ynmają ten sam rozkład.

Odpowiedź (a): ˆθ jest nieobciążonym estymatorem parametru θ.

Ryzyko estymatora ˆθ w punkcie θ jest równe jego wariancji, ponieważ estymator ten jest nieobciążony. Zatem:

R(θ) = V ar(ˆθ) = V ar 1 + 1 n

n

X

i=1

Y_i

!

(∗∗)= 1 n²V ar

n

X

i=1

Y_i

!

(∗∗∗)

= 1

n²

n

X

i=1

V ar(Y_i)

= 1

n²nV ar(Y1)^{(∗∗∗∗)}= 1

nV ar(Y1)

(**) - własności wariancji

(***)-zmienne Y1, . . . , Ynsą niezależne

(****)-zmienne Y1, . . . , Ynmają ten sam rozkład

Odpowiedź (b): R(θ) = ¹_nP (X₁ = 3)(1 − P (X₁ = 3)).

(10)

Wykorzystamy Mocne Prawo Wielkich Liczb. Ponieważ E|Y₁| = EY₁ = P (X1 = 3) < ∞, możemy sformułować MPWL dla iid zmiennych Y₁, . . . , Y_n, . . .:

Pn i=1

n Y_i ^n→∞−→^p.w.EY₁ = P (X₁ = 3.) Zatem

θ = 1 +ˆ 1 n

n

X

i=1

Yi

n→∞−→^p.w.1 + P (X₁ = 3) = θ.

Odpowiedź (c): Estymator ˆθ jest mocno zgodnym estymatorem parametru θ.