Praca domowa #2 z SAD – przykładowe rozwiązania

(1)

Praca domowa #2 z SAD – przykładowe rozwiązania

Zadanie 1:

Na podstawie próby liczącej 49 obserwacji oszacowano parametry modelu regresji:

y = β0+ β1x1+ β2x2+ β3x3+ ε

i uzyskano R² = 0.2. Następnie dodano do modelu jedną obserwację, leżącą na oszacowanej prostej regresji.

W efekcie dodania obserwacji całkowita suma kwadratów modelu zwiększyła się o 4 procent.

• Jak dodanie obserwacji wpłynęło na R² i R²_adj (R² skorygowane)? Odpowiedź uzasadnić.

• Oblicz R² oraz R²_adj dla modelu z dodatkową obserwacją. (Wskazówka: R²_adj = 1 −_{N −K}^{N −1}(1 − R²), gdzie N – liczba obserwacji, K – liczba parametrów do oszacowania w modelu.)

Rozwiązanie:

• Z treści zadania wiemy, że całkowita suma kwadratów się zwiększyła. RSS zostało bez zmian (dodali- śmy obserwację leżącą na prostej regresji). W modelu występuje stała, dlatego T SS = ESS + RSS.

Stąd wiemy, że ESS (wyjaśniona suma kwadratów) również się zwiększyło. R² wzrośnie. R²_adj również wzrośnie (odejmujemy od 1 mniejszą wartość niż przed dodaniem obserwacji).

• W modelu wystepuje stała:

R²= ESS

T SS = T SS − RSS RSS 0.2 = 1 − RSS

T SS 0.8 = RSS

T SS

Przyjmijmy RSS = 8, T SS = 10. Wiemy, że TSS wzrosło o 4%:

R²₂ = 1 − 8

(1.04 ∗ 10) = 0.2308

Po dodaniu obserwacji mamy N = 50 obserwacji, w modelu jest K = 4 parametry do oszacowania (współczynnik przy stałej również musimy oszacować!)

R²_adj = 1 − N − 1

N − K(1 − R²₂) = 1 − 49

50 − 4(1 − 0.23076) = 0.1806

(2)

Zadanie 2:

Na podstawie n = 10 elementowej próby, szacowany jest model yi = β₀+ β₁x_i+ ε_i.

• Wyznacz wartości estymatora ˆβ uzyskane Metodą Najmniejszych Kwadratów, wiedząc, że Pⁿ_i=1xiyi= 350, Pⁿ_i=1x_i = 40, Pⁿ_i=1y_i= 98a Pⁿ_i=1x²_i = 250.

• Mamy dane wektory y^T = [5, 3, 1, 1] oraz x^T = [2, 1, x3, x4]. Oszacowano MNK model yi = β0+ β₁x_i + ε_i i uzyskano wektor reszt e^T = [0.5, −0.5, e₃, e₄]. Znaleźć x3, x₄, e₃, e₄. (Wskazówka:

skorzystaj z właściwości hiperpłaszczyzny regresji: X^Te = 0 – wektor reszt jest ortogonalny do macierzy X; w modelu ze stałą PN

i=1ei= 0.) Rozwiązanie:

• Podobne zadanie do jednego z rozwiązywanych podczas ćwiczeń. Albo wykorzystujemy wynik z ćwiczeń, albo wyprowadzamy postać estymatora, pamiętając, że w modelu pojawia się stała (pierwsza kolumna macierzy X to jedynki). Korzystamy ze standardowego wzoru na estymator MNK. Wyniki:

β = [11.667, −7/15]ˆ ^T

• Układ równań dla dwóch pierwszych obserwacji:

5 = ˆβ0+ 2 ˆβ1+ 0.5 3 = ˆβ0+ ˆβ1− 0.5

Otrzymujemy ˆβ₀ = 2.5 i ˆβ₁ = 1. Następnie zauważamy, że w modelu ze stałą P^N_i=1e_i = 0. Stąd wynika, że e3 = −e4. Z własności hiperpłaszczyzny regresji X^Te = 0wynika, że:

4

X

i=1

e_ix_i= 0.5 + x₃e₃+ x₄e₄= 0.5 + e₃(x₃− x₄) = 0 .

Kontynuując:

1 = 2.5 + x3+ e3

1 = 2.5 + x₄+ e₄ Odejmując te równania od siebie, uzyskujemy:

x₃− x₄ = e₄− e₃ = −2e₃ Wstawiając:

0.5 − 2e²₃= 0

Co daje e3= 0.5i e4 = −0.5lub e3 = −0.5i e4 = 0.5. Rozwiązując równania dla x3i x4 uzyskujemy x3 = −2 i x4 = −1lub x3= −1 i x4= −2.

(3)

Zadanie 3:

Oszacowano model y = Xβ + ε. Następnie stworzono macierz X^∗ = XA, gdzie A jest pewną macierzą nieosobliwą.

• Udowodnić, że jeśli oszacujemy regresję y = X^∗β^∗+ ε^∗, to ˆβ^∗ = A⁻¹βˆ, gdzie ˆβ jest oszacowaniem współczynników z regresji y na X.

• Policzyć Var( ˆβ^∗). Rozwiązanie:

Niestety, zadanie było nierozwiązywalne z powodu błędu. Powyżej poprawna postać zadania, gdzie X i A są przemnożone na odwrót.

• Skorzystamy ze standardowego wzoru: ˆβ = (X^TX)⁻¹X^Ty βˆ^∗ = (X^∗TX^∗)⁻¹X^{T ∗}y βˆ^∗ = ((XA)^TXA)⁻¹(XA)^Ty

βˆ^∗ = (A^TX^TXA)⁻¹A^TX^Ty βˆ^∗= A⁻¹(X^TX)⁻¹(A^T)⁻¹X^Ty βˆ^∗ = A⁻¹(X^TX)⁻¹X^Ty = A⁻¹βˆ

• Korzystamy ze wzoru na wariancję estymatora MNK:

Var( ˆβ^∗) = Var(A⁻¹β) = Aˆ ⁻¹Var( ˆβ)(A⁻¹)^T = σ²A⁻¹(X^TX)⁻¹(A⁻¹)^T

Zadanie 4:

Mając obserwacje x^T = [1, 2, −1, 4, −1]oraz y^T = [7, 2, 1, 10, −3] policzyć:

• estymator ˆβ metodą najmniejszych kwadratów w modelu yi = β0+ β1xi+ εi;

• ˆy, e, R², nieobciążony estymator wariancji dla składnika losowego.

Rozwiązanie:

Przywołamy niezbędne wzory do rozwiązania zadania:

• ˆβ = (X^TX)⁻¹X^Ty

• ˆy = X ˆβ

• e = y − ˆy

• R² = ÊSS_{T SS}, w modelu jest stała, dlatego T SS = ESS + RSS. R² = 1 −^RSS_{T SS} = 1 −^Pn ê^Tê i=1(yi−¯y)²

• nieobciążony estymator wariancji dla składnika losowego: _n−k^e^T^e

W naszym przypadku w modelu są k = 2 parametry do oszacowania β0oraz β1, macierz X zawiera kolumnę jedynek. Liczba obserwacji n = 5.

Wyniki obliczeń:

(4)

• ˆβ = [1.4, 2.0]^T

• ˆy = [3.40, 5.40, −0.60, 9.40, −0.60]^T

• e = [3.60, −3.40, 1.60, 0.60, −2.40]^T (przybliżenie do drugiego miejsca po przecinku)

• R² ∼ 0.684

• nieobciążony estymator wariancji dla składnika losowego: ∼ ^33.2₅₋₂ = 11.07

Zadanie 5:

Dany jest model regresji liniowej:

y = β₀+ β₁x₁+ β₂x₂+ β₃x₃+ ε ,

gdzie ε ∼ N(0, σ²In), dla którego na próbie n = 120 obserwacji otrzymano następujące oszacowania współczynników:

βˆ^T = [2, −1.1, 5, −1.5]

oraz oszacowanie macierzy wariancji-kowariancji dla estymatora MNK Var( ˆβ):

Var ˆβ =

0.04

−1.12 1.21

−0.45 2.8 6.25 3.25 −7.68 0.71 0.09

• Które z oszacowań są statystycznie istotne na poziomie istotności 1%?

• Zinterpretuj istotne statystycznie na poziomie istotności 5% oszacowania parametrów.

Rozwiązanie:

• Przeprowadzamy test t, aby ocenić istotność statystyczną oszacowań. H0 – oszacowanie nie jest istotne statystycznie, H1– oszacowanie jest istotne statystycznie. Drugi ze stopni swobody dla wartości krytycznej to N −K, gdzie N to liczba obserwacji, a K to liczba parametrów do oszacowania (łącznie ze stałą), w naszym przypadku 120 − 4 = 116. Obszar krytyczny na poziomie istotności α = 0.01:

W = (−∞, t(^α₂, 116)] ∪ [t(1 − ^α₂, 116), +∞) = (−∞, −2.619] ∪ [2.619, +∞).

t = βˆ se( ˆ )ˆβ

se( ˆ )ˆβ odczytujemy biorąc pierwiastek z elementów na przekątnej macierzy wariancji-kowariancji.

– β₀: ^√_0.04² = 10, t ∈ W , oszacowanie istotne – β₁: ^√^−1.1_1.21 = −1, t /∈ W , oszacowanie nieistotne – β₂: ^√_6.25⁵ = 2, t /∈ W , oszacowanie nieistotne – β₃: ^√^−1.5_0.09 = −5 t ∈ W, oszacowanie istotne

(5)

• Obszar krytyczny na poziomie istotności α = 0.05: W = (−∞, t(^α₂, 116)] ∪ [t(1 − ^α₂, 116), +∞) = (−∞, −1.981] ∪ [1.981, +∞). Wielkości statystyk testowych zostają bez zmian, konkluzja zmieniła się dla β2. Model jest na poziomach, dlatego:

– Współczynnika przy stałej nie interpretuje się

– Zmiana x2 o jednostkę wiąże się ze wzrostem y o 5 jednostek, ceteris paribus.

– Zmiana x3 o jednostkę wiąże się ze spadkiem y o 1.5 jednostek, ceteris paribus.

Zadanie 6:

Rozkład miesięcznych wydatków na książki studentów I roku ma rozkład normalny. W wylosowanej próbie 16 studentów średnia wynosiła 150 zł, zaś wariancja wyznaczona na podstawie tej próby wynosiła 1600 zł. Przypuszczamy, że studenci I roku wydają przeciętnie 200 zł. Czy dysponując opisaną próbą możemy odrzucić to założenie? Przyjąć poziom istotności α = 0.1.

Rozwiązanie:

H₀ – Studenci I roku wydają przeciętnie µ0 = 200zł

H₁ – Studenci I roku nie wydają przeciętnie µ0 = 200zł (hipoteza dwustronna) Poziom istotności α = 0.1.

Z zadania:

(a) Rozkład miesięcznych wydatków na książki studentów I roku ma rozkład normalny (b) Mamy N = 16 studentów, obliczona dla ich próby średnia ¯Xn= 150zł.

(c) Nie znamy wariancji rozkładu, jedynie jest oszacowanie próbkowe Sn² = 1600zł

Skorzystamy z wersji testu t przy nieznanej wariancji. Obliczamy wartość statystyki testowej:

t = X¯n− µ₀ pS_n²

√

N − 1 = 150 − 200

√1600

√

15 = −4.8412

Obszar krytyczny: W = (−∞, t(^α₂, 15)] ∪ [t(1 − ^α₂, 15), +∞) = (−∞, −1.753] ∪ [1.753, +∞). t ∈ W , dlatego odrzucamy H0 na podstawie podanej próby.

Zadanie 7:

W pewnym browarze zainstalowane są dwa automaty do napełniania butelek. Ilość piwa dozowana przez pierwszy jest zmienną losową o rozkładzie N(m1, 11²), a ilość piwa dozowana przez drugi jest zmienną losową o rozkładzie N(m2, 13²). Pobrano niezależnie 10-elementowe próbki losowe butelek napełnianych przez każdy z automatów. Średnia z próby dla pierwszego automatu wyniosła 501 ml, a dla drugiego 498 ml. Na poziomie istotności α = 0.05 zweryfikuj hipotezę, że automaty dozują przeciętnie po tyle samo piwa.

Rozwiązanie:

H₀ – Automaty dozują przeciętnie po tyle samo piwa

H₁ – Automaty nie dozują przeciętnie po tyle samo piwa (hipoteza dwustronna) Poziom istotności α = 0.05.

Z zadania:

(a) Ilość piwa dozowana przez automaty ma rozkład normany, znamy wielkości wariancji (b) Próby pobrano niezależnie

(c) Dla pierwszego automatu, średnia z n1 = 10 butelek wyniosła ¯X₁ = 501 ml, wariancja rozkładu dla automatu to σ₁²= 11²

(6)

(d) Dla drugiego automatu, średnia z n2 = 10 butelek wyniosła ¯X₂ = 498 ml, wariancja rozkładu dla automatu to σ₂²= 13²

Skorzystamy z wersji testu t dla prób niezależnych przy znanej wariancji. Obliczamy wartość statystyki testowej:

u = X¯1− ¯X2

qσ²₁ n1 +^σ_n²²

2

= 501 − 498 q11²

10 +¹³₁₀²

= 0.557

Obszar krytyczny: W = (−∞, U(^α₂)] ∪ [U (1 − ^α₂), +∞) = (−∞, −1.96] ∪ [1.96, +∞). u /∈ W , dlatego nie odrzucamy H0 na podstawie podanej próby.