Praca domowa #2 z SAD – przykładowe rozwiązania
Zadanie 1:
Na podstawie próby liczącej 49 obserwacji oszacowano parametry modelu regresji:
y = β0+ β1x1+ β2x2+ β3x3+ ε
i uzyskano R2 = 0.2. Następnie dodano do modelu jedną obserwację, leżącą na oszacowanej prostej regresji.
W efekcie dodania obserwacji całkowita suma kwadratów modelu zwiększyła się o 4 procent.
• Jak dodanie obserwacji wpłynęło na R2 i R2adj (R2 skorygowane)? Odpowiedź uzasadnić.
• Oblicz R2 oraz R2adj dla modelu z dodatkową obserwacją. (Wskazówka: R2adj = 1 −N −KN −1(1 − R2), gdzie N – liczba obserwacji, K – liczba parametrów do oszacowania w modelu.)
Rozwiązanie:
• Z treści zadania wiemy, że całkowita suma kwadratów się zwiększyła. RSS zostało bez zmian (dodali- śmy obserwację leżącą na prostej regresji). W modelu występuje stała, dlatego T SS = ESS + RSS.
Stąd wiemy, że ESS (wyjaśniona suma kwadratów) również się zwiększyło. R2 wzrośnie. R2adj również wzrośnie (odejmujemy od 1 mniejszą wartość niż przed dodaniem obserwacji).
• W modelu wystepuje stała:
R2= ESS
T SS = T SS − RSS RSS 0.2 = 1 − RSS
T SS 0.8 = RSS
T SS
Przyjmijmy RSS = 8, T SS = 10. Wiemy, że TSS wzrosło o 4%:
R22 = 1 − 8
(1.04 ∗ 10) = 0.2308
Po dodaniu obserwacji mamy N = 50 obserwacji, w modelu jest K = 4 parametry do oszacowania (współczynnik przy stałej również musimy oszacować!)
R2adj = 1 − N − 1
N − K(1 − R22) = 1 − 49
50 − 4(1 − 0.23076) = 0.1806
Zadanie 2:
Na podstawie n = 10 elementowej próby, szacowany jest model yi = β0+ β1xi+ εi.
• Wyznacz wartości estymatora ˆβ uzyskane Metodą Najmniejszych Kwadratów, wiedząc, że Pni=1xiyi= 350, Pni=1xi = 40, Pni=1yi= 98a Pni=1x2i = 250.
• Mamy dane wektory yT = [5, 3, 1, 1] oraz xT = [2, 1, x3, x4]. Oszacowano MNK model yi = β0+ β1xi + εi i uzyskano wektor reszt eT = [0.5, −0.5, e3, e4]. Znaleźć x3, x4, e3, e4. (Wskazówka:
skorzystaj z właściwości hiperpłaszczyzny regresji: XTe = 0 – wektor reszt jest ortogonalny do macierzy X; w modelu ze stałą PN
i=1ei= 0.) Rozwiązanie:
• Podobne zadanie do jednego z rozwiązywanych podczas ćwiczeń. Albo wykorzystujemy wynik z ćwiczeń, albo wyprowadzamy postać estymatora, pamiętając, że w modelu pojawia się stała (pierwsza kolumna macierzy X to jedynki). Korzystamy ze standardowego wzoru na estymator MNK. Wyniki:
β = [11.667, −7/15]ˆ T
• Układ równań dla dwóch pierwszych obserwacji:
5 = ˆβ0+ 2 ˆβ1+ 0.5 3 = ˆβ0+ ˆβ1− 0.5
Otrzymujemy ˆβ0 = 2.5 i ˆβ1 = 1. Następnie zauważamy, że w modelu ze stałą PNi=1ei = 0. Stąd wynika, że e3 = −e4. Z własności hiperpłaszczyzny regresji XTe = 0wynika, że:
4
X
i=1
eixi= 0.5 + x3e3+ x4e4= 0.5 + e3(x3− x4) = 0 .
Kontynuując:
1 = 2.5 + x3+ e3
1 = 2.5 + x4+ e4 Odejmując te równania od siebie, uzyskujemy:
x3− x4 = e4− e3 = −2e3 Wstawiając:
0.5 − 2e23= 0
Co daje e3= 0.5i e4 = −0.5lub e3 = −0.5i e4 = 0.5. Rozwiązując równania dla x3i x4 uzyskujemy x3 = −2 i x4 = −1lub x3= −1 i x4= −2.
Zadanie 3:
Oszacowano model y = Xβ + ε. Następnie stworzono macierz X∗ = XA, gdzie A jest pewną macierzą nieosobliwą.
• Udowodnić, że jeśli oszacujemy regresję y = X∗β∗+ ε∗, to ˆβ∗ = A−1βˆ, gdzie ˆβ jest oszacowaniem współczynników z regresji y na X.
• Policzyć Var( ˆβ∗). Rozwiązanie:
Niestety, zadanie było nierozwiązywalne z powodu błędu. Powyżej poprawna postać zadania, gdzie X i A są przemnożone na odwrót.
• Skorzystamy ze standardowego wzoru: ˆβ = (XTX)−1XTy βˆ∗ = (X∗TX∗)−1XT ∗y βˆ∗ = ((XA)TXA)−1(XA)Ty
βˆ∗ = (ATXTXA)−1ATXTy βˆ∗= A−1(XTX)−1(AT)−1XTy βˆ∗ = A−1(XTX)−1XTy = A−1βˆ
• Korzystamy ze wzoru na wariancję estymatora MNK:
Var( ˆβ∗) = Var(A−1β) = Aˆ −1Var( ˆβ)(A−1)T = σ2A−1(XTX)−1(A−1)T
Zadanie 4:
Mając obserwacje xT = [1, 2, −1, 4, −1]oraz yT = [7, 2, 1, 10, −3] policzyć:
• estymator ˆβ metodą najmniejszych kwadratów w modelu yi = β0+ β1xi+ εi;
• ˆy, e, R2, nieobciążony estymator wariancji dla składnika losowego.
Rozwiązanie:
Przywołamy niezbędne wzory do rozwiązania zadania:
• ˆβ = (XTX)−1XTy
• ˆy = X ˆβ
• e = y − ˆy
• R2 = ESST SS, w modelu jest stała, dlatego T SS = ESS + RSS. R2 = 1 −RSST SS = 1 −Pn eTe i=1(yi−¯y)2
• nieobciążony estymator wariancji dla składnika losowego: n−keTe
W naszym przypadku w modelu są k = 2 parametry do oszacowania β0oraz β1, macierz X zawiera kolumnę jedynek. Liczba obserwacji n = 5.
Wyniki obliczeń:
• ˆβ = [1.4, 2.0]T
• ˆy = [3.40, 5.40, −0.60, 9.40, −0.60]T
• e = [3.60, −3.40, 1.60, 0.60, −2.40]T (przybliżenie do drugiego miejsca po przecinku)
• R2 ∼ 0.684
• nieobciążony estymator wariancji dla składnika losowego: ∼ 33.25−2 = 11.07
Zadanie 5:
Dany jest model regresji liniowej:
y = β0+ β1x1+ β2x2+ β3x3+ ε ,
gdzie ε ∼ N(0, σ2In), dla którego na próbie n = 120 obserwacji otrzymano następujące oszacowania współczynników:
βˆT = [2, −1.1, 5, −1.5]
oraz oszacowanie macierzy wariancji-kowariancji dla estymatora MNK Var( ˆβ):
Var ˆβ =
0.04
−1.12 1.21
−0.45 2.8 6.25 3.25 −7.68 0.71 0.09
• Które z oszacowań są statystycznie istotne na poziomie istotności 1%?
• Zinterpretuj istotne statystycznie na poziomie istotności 5% oszacowania parametrów.
Rozwiązanie:
• Przeprowadzamy test t, aby ocenić istotność statystyczną oszacowań. H0 – oszacowanie nie jest istotne statystycznie, H1– oszacowanie jest istotne statystycznie. Drugi ze stopni swobody dla wartości krytycznej to N −K, gdzie N to liczba obserwacji, a K to liczba parametrów do oszacowania (łącznie ze stałą), w naszym przypadku 120 − 4 = 116. Obszar krytyczny na poziomie istotności α = 0.01:
W = (−∞, t(α2, 116)] ∪ [t(1 − α2, 116), +∞) = (−∞, −2.619] ∪ [2.619, +∞).
t = βˆ se( ˆ )ˆβ
se( ˆ )ˆβ odczytujemy biorąc pierwiastek z elementów na przekątnej macierzy wariancji-kowariancji.
– β0: √0.042 = 10, t ∈ W , oszacowanie istotne – β1: √−1.11.21 = −1, t /∈ W , oszacowanie nieistotne – β2: √6.255 = 2, t /∈ W , oszacowanie nieistotne – β3: √−1.50.09 = −5 t ∈ W, oszacowanie istotne
• Obszar krytyczny na poziomie istotności α = 0.05: W = (−∞, t(α2, 116)] ∪ [t(1 − α2, 116), +∞) = (−∞, −1.981] ∪ [1.981, +∞). Wielkości statystyk testowych zostają bez zmian, konkluzja zmieniła się dla β2. Model jest na poziomach, dlatego:
– Współczynnika przy stałej nie interpretuje się
– Zmiana x2 o jednostkę wiąże się ze wzrostem y o 5 jednostek, ceteris paribus.
– Zmiana x3 o jednostkę wiąże się ze spadkiem y o 1.5 jednostek, ceteris paribus.
Zadanie 6:
Rozkład miesięcznych wydatków na książki studentów I roku ma rozkład normalny. W wylosowanej próbie 16 studentów średnia wynosiła 150 zł, zaś wariancja wyznaczona na podstawie tej próby wynosiła 1600 zł. Przypuszczamy, że studenci I roku wydają przeciętnie 200 zł. Czy dysponując opisaną próbą możemy odrzucić to założenie? Przyjąć poziom istotności α = 0.1.
Rozwiązanie:
H0 – Studenci I roku wydają przeciętnie µ0 = 200zł
H1 – Studenci I roku nie wydają przeciętnie µ0 = 200zł (hipoteza dwustronna) Poziom istotności α = 0.1.
Z zadania:
(a) Rozkład miesięcznych wydatków na książki studentów I roku ma rozkład normalny (b) Mamy N = 16 studentów, obliczona dla ich próby średnia ¯Xn= 150zł.
(c) Nie znamy wariancji rozkładu, jedynie jest oszacowanie próbkowe Sn2 = 1600zł
Skorzystamy z wersji testu t przy nieznanej wariancji. Obliczamy wartość statystyki testowej:
t = X¯n− µ0 pSn2
√
N − 1 = 150 − 200
√1600
√
15 = −4.8412
Obszar krytyczny: W = (−∞, t(α2, 15)] ∪ [t(1 − α2, 15), +∞) = (−∞, −1.753] ∪ [1.753, +∞). t ∈ W , dlatego odrzucamy H0 na podstawie podanej próby.
Zadanie 7:
W pewnym browarze zainstalowane są dwa automaty do napełniania butelek. Ilość piwa dozowana przez pierwszy jest zmienną losową o rozkładzie N(m1, 112), a ilość piwa dozowana przez drugi jest zmienną losową o rozkładzie N(m2, 132). Pobrano niezależnie 10-elementowe próbki losowe butelek napełnianych przez każdy z automatów. Średnia z próby dla pierwszego automatu wyniosła 501 ml, a dla drugiego 498 ml. Na poziomie istotności α = 0.05 zweryfikuj hipotezę, że automaty dozują przeciętnie po tyle samo piwa.
Rozwiązanie:
H0 – Automaty dozują przeciętnie po tyle samo piwa
H1 – Automaty nie dozują przeciętnie po tyle samo piwa (hipoteza dwustronna) Poziom istotności α = 0.05.
Z zadania:
(a) Ilość piwa dozowana przez automaty ma rozkład normany, znamy wielkości wariancji (b) Próby pobrano niezależnie
(c) Dla pierwszego automatu, średnia z n1 = 10 butelek wyniosła ¯X1 = 501 ml, wariancja rozkładu dla automatu to σ12= 112
(d) Dla drugiego automatu, średnia z n2 = 10 butelek wyniosła ¯X2 = 498 ml, wariancja rozkładu dla automatu to σ22= 132
Skorzystamy z wersji testu t dla prób niezależnych przy znanej wariancji. Obliczamy wartość statystyki testowej:
u = X¯1− ¯X2
qσ21 n1 +σn22
2
= 501 − 498 q112
10 +13102
= 0.557
Obszar krytyczny: W = (−∞, U(α2)] ∪ [U (1 − α2), +∞) = (−∞, −1.96] ∪ [1.96, +∞). u /∈ W , dlatego nie odrzucamy H0 na podstawie podanej próby.