• Nie Znaleziono Wyników

Praca domowa #2 z SAD – przykładowe rozwiązania

N/A
N/A
Protected

Academic year: 2021

Share "Praca domowa #2 z SAD – przykładowe rozwiązania"

Copied!
6
0
0

Pełen tekst

(1)

Praca domowa #2 z SAD – przykładowe rozwiązania

Zadanie 1:

Na podstawie próby liczącej 49 obserwacji oszacowano parametry modelu regresji:

y = β0+ β1x1+ β2x2+ β3x3+ ε

i uzyskano R2 = 0.2. Następnie dodano do modelu jedną obserwację, leżącą na oszacowanej prostej regresji.

W efekcie dodania obserwacji całkowita suma kwadratów modelu zwiększyła się o 4 procent.

• Jak dodanie obserwacji wpłynęło na R2 i R2adj (R2 skorygowane)? Odpowiedź uzasadnić.

• Oblicz R2 oraz R2adj dla modelu z dodatkową obserwacją. (Wskazówka: R2adj = 1 −N −KN −1(1 − R2), gdzie N – liczba obserwacji, K – liczba parametrów do oszacowania w modelu.)

Rozwiązanie:

• Z treści zadania wiemy, że całkowita suma kwadratów się zwiększyła. RSS zostało bez zmian (dodali- śmy obserwację leżącą na prostej regresji). W modelu występuje stała, dlatego T SS = ESS + RSS.

Stąd wiemy, że ESS (wyjaśniona suma kwadratów) również się zwiększyło. R2 wzrośnie. R2adj również wzrośnie (odejmujemy od 1 mniejszą wartość niż przed dodaniem obserwacji).

• W modelu wystepuje stała:

R2= ESS

T SS = T SS − RSS RSS 0.2 = 1 − RSS

T SS 0.8 = RSS

T SS

Przyjmijmy RSS = 8, T SS = 10. Wiemy, że TSS wzrosło o 4%:

R22 = 1 − 8

(1.04 ∗ 10) = 0.2308

Po dodaniu obserwacji mamy N = 50 obserwacji, w modelu jest K = 4 parametry do oszacowania (współczynnik przy stałej również musimy oszacować!)

R2adj = 1 − N − 1

N − K(1 − R22) = 1 − 49

50 − 4(1 − 0.23076) = 0.1806

(2)

Zadanie 2:

Na podstawie n = 10 elementowej próby, szacowany jest model yi = β0+ β1xi+ εi.

• Wyznacz wartości estymatora ˆβ uzyskane Metodą Najmniejszych Kwadratów, wiedząc, że Pni=1xiyi= 350, Pni=1xi = 40, Pni=1yi= 98a Pni=1x2i = 250.

• Mamy dane wektory yT = [5, 3, 1, 1] oraz xT = [2, 1, x3, x4]. Oszacowano MNK model yi = β0+ β1xi + εi i uzyskano wektor reszt eT = [0.5, −0.5, e3, e4]. Znaleźć x3, x4, e3, e4. (Wskazówka:

skorzystaj z właściwości hiperpłaszczyzny regresji: XTe = 0 – wektor reszt jest ortogonalny do macierzy X; w modelu ze stałą PN

i=1ei= 0.) Rozwiązanie:

• Podobne zadanie do jednego z rozwiązywanych podczas ćwiczeń. Albo wykorzystujemy wynik z ćwiczeń, albo wyprowadzamy postać estymatora, pamiętając, że w modelu pojawia się stała (pierwsza kolumna macierzy X to jedynki). Korzystamy ze standardowego wzoru na estymator MNK. Wyniki:

β = [11.667, −7/15]ˆ T

• Układ równań dla dwóch pierwszych obserwacji:

 5 = ˆβ0+ 2 ˆβ1+ 0.5 3 = ˆβ0+ ˆβ1− 0.5

Otrzymujemy ˆβ0 = 2.5 i ˆβ1 = 1. Następnie zauważamy, że w modelu ze stałą PNi=1ei = 0. Stąd wynika, że e3 = −e4. Z własności hiperpłaszczyzny regresji XTe = 0wynika, że:

4

X

i=1

eixi= 0.5 + x3e3+ x4e4= 0.5 + e3(x3− x4) = 0 .

Kontynuując:

 1 = 2.5 + x3+ e3

1 = 2.5 + x4+ e4 Odejmując te równania od siebie, uzyskujemy:

x3− x4 = e4− e3 = −2e3 Wstawiając:

0.5 − 2e23= 0

Co daje e3= 0.5i e4 = −0.5lub e3 = −0.5i e4 = 0.5. Rozwiązując równania dla x3i x4 uzyskujemy x3 = −2 i x4 = −1lub x3= −1 i x4= −2.

(3)

Zadanie 3:

Oszacowano model y = Xβ + ε. Następnie stworzono macierz X = XA, gdzie A jest pewną macierzą nieosobliwą.

• Udowodnić, że jeśli oszacujemy regresję y = Xβ+ ε, to ˆβ = A−1βˆ, gdzie ˆβ jest oszacowaniem współczynników z regresji y na X.

• Policzyć Var( ˆβ). Rozwiązanie:

Niestety, zadanie było nierozwiązywalne z powodu błędu. Powyżej poprawna postać zadania, gdzie X i A są przemnożone na odwrót.

• Skorzystamy ze standardowego wzoru: ˆβ = (XTX)−1XTy βˆ = (X∗TX)−1XT ∗y βˆ = ((XA)TXA)−1(XA)Ty

βˆ = (ATXTXA)−1ATXTy βˆ= A−1(XTX)−1(AT)−1XTy βˆ = A−1(XTX)−1XTy = A−1βˆ

• Korzystamy ze wzoru na wariancję estymatora MNK:

Var( ˆβ) = Var(A−1β) = Aˆ −1Var( ˆβ)(A−1)T = σ2A−1(XTX)−1(A−1)T

Zadanie 4:

Mając obserwacje xT = [1, 2, −1, 4, −1]oraz yT = [7, 2, 1, 10, −3] policzyć:

• estymator ˆβ metodą najmniejszych kwadratów w modelu yi = β0+ β1xi+ εi;

• ˆy, e, R2, nieobciążony estymator wariancji dla składnika losowego.

Rozwiązanie:

Przywołamy niezbędne wzory do rozwiązania zadania:

• ˆβ = (XTX)−1XTy

• ˆy = X ˆβ

• e = y − ˆy

• R2 = ESST SS, w modelu jest stała, dlatego T SS = ESS + RSS. R2 = 1 −RSST SS = 1 −Pn eTe i=1(yi−¯y)2

• nieobciążony estymator wariancji dla składnika losowego: n−keTe

W naszym przypadku w modelu są k = 2 parametry do oszacowania β0oraz β1, macierz X zawiera kolumnę jedynek. Liczba obserwacji n = 5.

Wyniki obliczeń:

(4)

• ˆβ = [1.4, 2.0]T

• ˆy = [3.40, 5.40, −0.60, 9.40, −0.60]T

• e = [3.60, −3.40, 1.60, 0.60, −2.40]T (przybliżenie do drugiego miejsca po przecinku)

• R2 ∼ 0.684

• nieobciążony estymator wariancji dla składnika losowego: ∼ 33.25−2 = 11.07

Zadanie 5:

Dany jest model regresji liniowej:

y = β0+ β1x1+ β2x2+ β3x3+ ε ,

gdzie ε ∼ N(0, σ2In), dla którego na próbie n = 120 obserwacji otrzymano następujące oszacowania współczynników:

βˆT = [2, −1.1, 5, −1.5]

oraz oszacowanie macierzy wariancji-kowariancji dla estymatora MNK Var( ˆβ):

Var ˆβ =

0.04

−1.12 1.21

−0.45 2.8 6.25 3.25 −7.68 0.71 0.09

• Które z oszacowań są statystycznie istotne na poziomie istotności 1%?

• Zinterpretuj istotne statystycznie na poziomie istotności 5% oszacowania parametrów.

Rozwiązanie:

• Przeprowadzamy test t, aby ocenić istotność statystyczną oszacowań. H0 – oszacowanie nie jest istotne statystycznie, H1– oszacowanie jest istotne statystycznie. Drugi ze stopni swobody dla wartości krytycznej to N −K, gdzie N to liczba obserwacji, a K to liczba parametrów do oszacowania (łącznie ze stałą), w naszym przypadku 120 − 4 = 116. Obszar krytyczny na poziomie istotności α = 0.01:

W = (−∞, t(α2, 116)] ∪ [t(1 − α2, 116), +∞) = (−∞, −2.619] ∪ [2.619, +∞).

t = βˆ se( ˆ )ˆβ

se( ˆ )ˆβ odczytujemy biorąc pierwiastek z elementów na przekątnej macierzy wariancji-kowariancji.

– β0: 0.042 = 10, t ∈ W , oszacowanie istotne – β1: −1.11.21 = −1, t /∈ W , oszacowanie nieistotne – β2: 6.255 = 2, t /∈ W , oszacowanie nieistotne – β3: −1.50.09 = −5 t ∈ W, oszacowanie istotne

(5)

• Obszar krytyczny na poziomie istotności α = 0.05: W = (−∞, t(α2, 116)] ∪ [t(1 − α2, 116), +∞) = (−∞, −1.981] ∪ [1.981, +∞). Wielkości statystyk testowych zostają bez zmian, konkluzja zmieniła się dla β2. Model jest na poziomach, dlatego:

– Współczynnika przy stałej nie interpretuje się

– Zmiana x2 o jednostkę wiąże się ze wzrostem y o 5 jednostek, ceteris paribus.

– Zmiana x3 o jednostkę wiąże się ze spadkiem y o 1.5 jednostek, ceteris paribus.

Zadanie 6:

Rozkład miesięcznych wydatków na książki studentów I roku ma rozkład normalny. W wylosowanej próbie 16 studentów średnia wynosiła 150 zł, zaś wariancja wyznaczona na podstawie tej próby wynosiła 1600 zł. Przypuszczamy, że studenci I roku wydają przeciętnie 200 zł. Czy dysponując opisaną próbą możemy odrzucić to założenie? Przyjąć poziom istotności α = 0.1.

Rozwiązanie:

H0 – Studenci I roku wydają przeciętnie µ0 = 200zł

H1 – Studenci I roku nie wydają przeciętnie µ0 = 200zł (hipoteza dwustronna) Poziom istotności α = 0.1.

Z zadania:

(a) Rozkład miesięcznych wydatków na książki studentów I roku ma rozkład normalny (b) Mamy N = 16 studentów, obliczona dla ich próby średnia ¯Xn= 150zł.

(c) Nie znamy wariancji rozkładu, jedynie jest oszacowanie próbkowe Sn2 = 1600zł

Skorzystamy z wersji testu t przy nieznanej wariancji. Obliczamy wartość statystyki testowej:

t = X¯n− µ0 pSn2

N − 1 = 150 − 200

√1600

15 = −4.8412

Obszar krytyczny: W = (−∞, t(α2, 15)] ∪ [t(1 − α2, 15), +∞) = (−∞, −1.753] ∪ [1.753, +∞). t ∈ W , dlatego odrzucamy H0 na podstawie podanej próby.

Zadanie 7:

W pewnym browarze zainstalowane są dwa automaty do napełniania butelek. Ilość piwa dozowana przez pierwszy jest zmienną losową o rozkładzie N(m1, 112), a ilość piwa dozowana przez drugi jest zmienną losową o rozkładzie N(m2, 132). Pobrano niezależnie 10-elementowe próbki losowe butelek napełnianych przez każdy z automatów. Średnia z próby dla pierwszego automatu wyniosła 501 ml, a dla drugiego 498 ml. Na poziomie istotności α = 0.05 zweryfikuj hipotezę, że automaty dozują przeciętnie po tyle samo piwa.

Rozwiązanie:

H0 – Automaty dozują przeciętnie po tyle samo piwa

H1 – Automaty nie dozują przeciętnie po tyle samo piwa (hipoteza dwustronna) Poziom istotności α = 0.05.

Z zadania:

(a) Ilość piwa dozowana przez automaty ma rozkład normany, znamy wielkości wariancji (b) Próby pobrano niezależnie

(c) Dla pierwszego automatu, średnia z n1 = 10 butelek wyniosła ¯X1 = 501 ml, wariancja rozkładu dla automatu to σ12= 112

(6)

(d) Dla drugiego automatu, średnia z n2 = 10 butelek wyniosła ¯X2 = 498 ml, wariancja rozkładu dla automatu to σ22= 132

Skorzystamy z wersji testu t dla prób niezależnych przy znanej wariancji. Obliczamy wartość statystyki testowej:

u = X¯1− ¯X2

qσ21 n1 +σn22

2

= 501 − 498 q112

10 +13102

= 0.557

Obszar krytyczny: W = (−∞, U(α2)] ∪ [U (1 − α2), +∞) = (−∞, −1.96] ∪ [1.96, +∞). u /∈ W , dlatego nie odrzucamy H0 na podstawie podanej próby.

Cytaty

Powiązane dokumenty

W tym zadaniu rozważamy algorytmy sortujące niemalejąco n-elementową tablicę liczb całkowitych a[1..n], gdzie n jest dodatnią liczbą całkowitą. Algorytm

Rozwinęła się także etyka dotycząca zwierząt (animal ethics), która postulowała i uzasadniała konieczność zmiany nastawienia ludzi do zwierząt, istot w gruncie rzeczy tak

, n zaś funkcją wiążącą jest funkcja kwantylowa standardowego rozkładu normalnego (tzn.. , n, nazywamy

Mamy sześciościenną kostkę do gry, przy czym nie znamy prawdopodobieństwa wypadnięcia 6, oznaczo- nego

Tam, gdzie zasadne, sprawdzić, czy założenia testu są

Niespełnione założenie o normalności rozkładu (zachowanie ogonów) – jednak próba jest duża, moglibyśmy się powołać na CTG.. Niespełnione założenie o normalności

[r]

(d) (1 pkt) Dla wybranej na podstawie kryterium liczby skupień obejrzyj statystyki opisowe (niewystanda- ryzowanych) zmiennych (lub ich transformacji, jeśli uznasz to za potrzebne)