Wyk lad 12, 13 i 14: Wielokrotna regresja liniowa
Teraz rozwa˙zamy sytuacj¸e, w kt´ orej mamy zmienn¸ a obja´ snian¸ a Y i p zmiennych obja´ sniaj¸ acych x 1 , x 2 , . . . , x p . Dane b¸ edziemy mie´ c zatem zapisane w postaci n wektor´ ow (p + 1)-wymiarowych:
(x 11 , x 12 , . . . , x 1p , y 1 ), (x 21 , x 22 , . . . , x 2p , y 2 ), . . . , (x n1 , x n2 , . . . , x np , y n ), gdzie x ij oznacza warto´ s´ c j-tej zmiennej obja´ snianej dla i-tego obiektu.
Np. mo˙zemy bada´ c zale˙zno´ s´ c ceny mieszkania od jego powierzchni i odleg lo´ sci od centrum.
Wtedy b¸ edziemy potrzebowa´ c dane nast¸ epuj¸ acej postaci:
(x 11 , x 12 , y 1 ), (x 21 , x 22 , y 2 ), . . . , (x n1 , x n2 , y n ), gdzie
• y i oznacza cen¸ e i-tego mieszkania;
• x i1 oznacza powierzchni¸ e i-tego mieszkania;
• x i2 oznacza odleg lo´ s´ c i-tego mieszkania od centrum.
Do tych danych b¸ edziemy pr´ obowa´ c dopasowa´ c model liniowy
Y i = β 0 + β 1 x i1 + β 2 x i2 + ε i , i = 1, 2, . . . , n, gdzie ε i to niezale˙zne zmienne losowe o rozk ladzie N (0, σ 2 ).
Og´ olnie model wielokrotnej regresjii liniowej jest nast¸ epuj¸ acy
Y i = β 0 + β 1 x i1 + β 2 x i2 + . . . + β p x ip + ε i , i = 1, 2, . . . , n,
gdzie ε i to niezale˙zne zmienne losowe o rozk ladzie N (0, σ 2 ). Nieznanymi parametrami tego modelu s¸ a β 0 , β 1 , . . . , β p i σ 2 .
Oznaczaj¸ ac
Y =
Y 1 Y 2
.. . Y n
,
| {z }
wektor odpowiedzi
X =
1 x 11 x 12 . . . x 1p 1 x 21 x 22 . . . x 2p
.. . .. . .. . .. . 1 x n1 x n2 . . . x np
,
| {z }
macierz eksperymentu
B =
β 0 β 1
.. . β p
,
| {z }
wektor parametr´ ow
E =
ε 1 ε 2
.. . ε n
,
| {z }
wektor b l¸ ed´ ow
powy˙zszy model mo˙zemy zapisa´ c w postaci macierzowej Y = X · B + E.
Metod¸ a najmniejszych kwadrat´ ow otrzymujemy nast¸ epuj¸ acy estymator wektora parametr´ ow
B = ˆ
β ˆ 0 β ˆ 1 .. . β ˆ p
= (X T · X) −1 · X T · Y,
przy za lo˙zeniu, ˙ze macierz X T · X jest odwracalna, co zachodzi, gdy kolumny macierzy X s¸a liniowo niezale˙zne. Stosuj¸ ac metod¸ e najwi¸ ekszej wiarygodno´ sci otrzymujemy dok ladnie ten sam estymator B. Ponadto mo ˙zna pokaza´ ˆ c, ˙ze ˆ B jest estymatorem nieobci¸ a˙zonym wektora parametr´ ow B, tzn.
E(ˆ B) = B.
Do szacowania nieznanej wariancji b l¸ ed´ ow σ 2 u˙zywamy nieobci¸ a˙zonego estymatora tej wielko´ sci, danego wzorem
σ ˆ 2 = 1 n − (p + 1)
n
X
i=1
e 2 i , gdzie e i = Y i − ( ˆ β 0 + ˆ β 1 x i1 + . . . + ˆ β p x ip )
| {z }
ozn. ˆ Y
i−prognoza dla i-tej obserwacji
to i-ty b l¸ ad (rezyduum, warto´ s´ c resztowa).
St¸ ad
σ ˆ 2 = 1 n − (p + 1)
n
X
i=1
Y i −
p
X
j=0
x ij β ˆ j
2
= 1
n − (p + 1) (Y − X · ˆ B) T · (Y − X · ˆ B), gdzie
x 10 x 20 . . . x n0 = 1 1 . . . 1 .
Zauwa˙zmy, ˙ze wektor prognoz ˆ Y = Y ˆ 1 Y ˆ 2 . . . Y ˆ n T
dany jest wzorem Y = X · ˆ B = X · (X ˆ T · X) −1 · X T
| {z }
ozn.H
·Y = H · Y.
Macierz H nazywana jest macierz¸ a daszkow¸ a (bo przekszta lca Y na ˆ Y czyli na Y z daszkiem).
Testy w modelu regresji liniowej
1. Testy istotno´ sci dla poszczeg´ olnych wsp´ o lczynnik´ ow Ustalamy i 0 ∈ {0, 1, . . . , p}. Weryfikujemy hipotez¸e
H 0 : β i
0= 0 ( i 0 -ta zmienna nie jest istotna w sytuacji, gdy wszystkie inne zmienne obja´ sniaj¸ ace pozostaj¸ a w modelu; gdy i 0 = 0 oznacza to, ˙ze wyraz wolny nie jest w modelu istotny)
przeciwko hipotezie H 1 : β i
06= 0.
Statystyka testowa T = β ˆ i
0SE( ˆ β i
0) , gdzie SE( ˆ β i
0) jest estymatorem odchylenia standardowego SE( ˆ β i
0), w sytuacji, gdy H 0 jest prawdziwa, ma rozk lad t-Studenta o n − (p + 1) stopniach swobody.
Estymator SE( ˆ β i
0) wyznaczamy jako pierwiastek z i 0 -tego elementu na przek¸ atnej macierzy σ ˆ 2 (X T · X) −1 .
Zbi´ or krytyczny to
W = (−∞, −t 1−
α2
,n−(p+1) ] ∪ [t 1−
α2
,n−(p+1) , +∞).
Je´ sli T ∈ W , to na poziomie istotno´ sci α, H 0 odrzucamy.
2. Test F czy kt´ orakolwiek ze zmiennych obja´ sniaj¸ acych jest istotna
H 0 : β 1 = β 2 = . . . = β p = 0 (˙zadna zmienna w modelu nie jest istotna)
H 1 : istnieje i takie, ˙ze β i 6= 0 (co najmniej jedna zmienna w modelu jest istotna) Statystyka testowa
F = SSR/p
SSE/(n − (p + 1))
w sytuacji, gdy H 0 jest prawdziwa, ma rozk lad F -Snedecora o p i n − (p + 1) stopniach swobody.
Zbi´ or krytyczny to
W = [f 1−α,p,n−(p+1) , +∞).
Je´ sli F ∈ W , to na poziomie istotno´ sci α, H 0 odrzucamy.
Implementacja test´ ow z 1. i 2. w R:
> model.liniowy=lm(zm.objasniana∼ zm.objasniajaca.0+ . . . +zm.objasniajaca.p)
> summary(model.liniowy)
3. Test czy pewien podzbi´ or zmiennych obja´ sniaj¸ acych jest istotny (tzw. cz¸ e´ sciowy test F ) Rozwa˙zamy dwa modele liniowe: model mniejszy zawarty w modelu wi¸ ekszym:
model mniejszy (m.m.): Y i = β 0 x i0 + β 1 x i1 + . . . + β p x ip + ε i
model wi¸ ekszy (m.w.): Y i = β 0 x i0 + β 1 x i1 + . . . + β p x ip + β p+1 x i,p+1 + . . . + β q x iq + ε i , gdzie p < q.
H 0 : β p+1 = . . . = β q = 0 (model mniejszy jest poprawny)
H 1 : istnieje i ∈ {p + 1, . . . , q} takie, ˙ze β i 6= 0 (potrzebny jest model wi¸ekszy) Statystyka testowa
F = (SSE m.m. − SSE m.w. )/(q − p) SSE m.w. /(n − (q + 1))
w sytuacji, gdy H 0 jest prawdziwa, ma rozk lad F -Snedecora o q − p i n − (q + 1) stopniach swobody.
Zbi´ or krytyczny to
W = [f 1−α,q−p,n−(q+1) , +∞).
Je´ sli F ∈ W , to na poziomie istotno´ sci α, H 0 odrzucamy.
Implementacja w R:
> model.mniejszy=lm(zm.objasniana∼ zm.objasniajaca.0+ . . . +zm.objasniajaca.p)
> model.wiekszy=lm(zm.objasniana∼ zm.objasniajaca.0+ . . . +zm.objasniajaca.q)
> anova(model.mniejszy, model.wiekszy)
Diagnostyka dopasowania modelu regresji liniowej
Analizowanie jedynie warto´ sci wsp´ o lczynnika determinacji R 2 i wynik´ ow test´ ow w modelu re- gresji, nie wystarcza by prawid lowo oceni´ c czy dobry model zosta l wybrany do opisu danych.
Poprawno´ s´ c test´ ow bowiem, jak i poprawno´ s´ c prognoz robionych na podstawie modelu, zale˙z¸ a w istotny spos´ ob od poprawno´ sci postulowanego modelu. Przypominijmy, ˙ze w modelu regresji liniowej zak ladamy, ˙ze
• dla ustalonego X, E(Y) = B · X;
• b l¸edy ε i , i = 1, 2, . . . , n, s¸ a niezale˙zne o tym samym rozk ladzie N (0, σ 2 ) (wszczeg´ olno´ sci zak ladamy, ˙ze b l¸ edy maj¸ a r´ owne wariancje).
Aby sprawdzi´ c za lo˙zenia dotycz¸ ace b l¸ ed´ ow ε i , i = 1, 2, . . . , n, analizujemy rezydua e i = y i − ˆ y i ,
i = 1, 2, . . . , n. Rezydua przybli˙zaj¸ a b l¸ edy; im wi¸ eksze n, tym przybli˙zenie jest lepsze. Zatem, je´ sli
model jest poprawny, to rezydua powinny w przybli˙zeniu zachowywa´ c si¸ e jak niezale˙zne zmienne
losowe o tym samym rozk ladzie normalnym N (0, σ 2 ) (w szczeg´ olno´ sci jak zmienne losowe o r´ ownych
wariancjach).
1. Rysujemy
• wykres rezydu´ ow w funkcji x: (x i , e i ) je´ sli mamy tylko jedn¸ a zmienn¸ a obja´ sniaj¸ ac¸ a lub wykresy rezydu´ ow w funkcji kolejnych zmiennych obja´ sniaj¸ acych, gdy tych zmiennych jest wi¸ ecej ni˙z jedna;
lub
• wykres rezydu´ ow w funkcji numeru porz¸ adkowego: (i, e i );
lub
• wykres rezydu´ ow w funkcji prognoz: ( ˆ Y i , e i ).
Wszystkie te wykresy powinny przedstawia´ c chmur¸ e punkt´ ow skupion¸ a wok´ o l osi OX, nie maj¸ ac¸ a wyra´ znej struktury ani tendencji.
2. Je´ sli n nie jest du˙ze, to lepszym rozwi¸ azaniem, ni˙z analizowanie rezydu´ ow, jest patrzenie na tzw. rezydua standardyzowane
r i = e i ˆ σ √
1 − h ii ,
gdzie h ii to i-ty element z przek¸ atnej macierzy daszkowej H. Wynika to st¸ ad, ˙ze rezydua nie musz¸ a mie´ c r´ ownych wariancji, nawet w sytuacji, gdy wariancje b l¸ ed´ ow s¸ a r´ owne:
V ar(e i ) = σ 2 (1 − h ii ).
Po podzieleniu e i przez ˆ σ √
1 − h ii (czyli przez estymator odchylenia standardowego e i ) otrzy- mujemy V ar(r i ) ≈ 1, i = 1, 2, . . . , n.
Poni˙zsza funkcja w R:
> plot(nazwa.modelu.liniowego) wykonuje 4 wykresy:
(a) wykres rezydu´ ow w funkcji prognoz, (b) wykres kwantylowy dla rezydu´ ow,
(c) wykres p|r i | w funkcji prognoz (niekt´ orzy w la´ snie taki wykres zalecaj¸ a by wykry´ c ewen- tualne nier´ owne wariancje b l¸ ed´ ow, pierwiastek ma zredukowa´ c asymetri¸ e pojawiaj¸ ac¸ a si¸ e z powodu warto´ sci bezwzgl¸ednej),
(d) o 4-tym wykresie b¸edzie mowa p´ o´ zniej.
3. Szukamy obserwacji wp lywowych czyli obserwacji, kt´ ore znacznie wp lywaj¸ a na dopasowany
model (obrazowo m´ owi¸ ac - przyci¸ agaj¸ a dopasowan¸ a hiperp laszczyzn¸ e).
Jak wykry´ c obserwacje wp lywowe?
Dla obserwacji wp lywowej ˆ Y i znacznie zale˙zy od Y i . Zauwa˙zmy, ˙ze Y = H · Y ˆ ⇒ Y ˆ i = h i1 Y 1 + h i2 Y 2 + . . . + h ii Y i + . . . + h in Y n =
n
X
j=1,j6=i
h ij Y j + h ii Y i .
Wida´ c, ˙ze im h ii wi¸eksze, tym ˆ Y i bardziej zale˙zy od Y i . Zatem za miar¸e wp lywu Y i na ˆ Y i mo˙zna przyj¸ a´ c h ii - i-ty element z przek¸ atnej macierzy daszkowej H. Ponadto dowodzi si¸ e,
˙ze 1
n ≤ h ii ≤ 1 dla ka˙zdego i = 1, 2, . . . , n, oraz P n
i=1 h ii = p + 1.
Uznaje si¸ e, ˙ze je´ sli
h ii > 2 · ´ srednie(h ii ) = 2 · p + 1 n , to i-ta obserwacja jest potencjaln¸ a obserwacj¸ a wp lywow¸ a.
4. Szukamy obserwacji odstaj¸ acych czyli takich, kt´ ore nie pasuj¸ a do wzorca sugerowanego przez pozosta le punkty.
W przypadku obserwacji odstaj¸ acej
r i = Y i − ˆ Y i
ˆ σ √
1 − h ii
b¸edzie du˙ze.
Uznaje si¸ e, ˙ze obserwacja jest odstaj¸ aca gdy |r i | > 2, zmieniaj¸ac ten warunek na |r i | > 4, gdy mamy bardzo du˙zy zbi´ or danych.
Powy˙zsza regu la mo˙ze jednak nie wychwyci´ c wp lywowych obserwacji odstaj¸ acych, bo dla nich Y i − ˆ Y i mo˙ze by´ c bardzo ma le. Aby zidentyfikowa´ c tak˙ze takie obserwacje odstaj¸ ace, analizuje si¸e rezydua modyfikowane
d i = Y i − ˆ Y i(i) ,
gdzie ˆ Y i(i) to prognoza dla Y i na podstawie modelu regresji liniowej wyznaczonego z po- mini¸eciem i-tej obserwacji.
5. Do wykrycia obserwacji wp lywowych i odstaj¸ acych s lu˙zy tak˙ze miara zwana odleg lo´ sci¸ a Cook’a. Odleg lo´ s´ c Cooke’a D i to miara wp lywu jaki ma i-ta obserwacja na dopasowan¸ a hiperp laszczyzn¸e:
D i = P n
j=1 ( ˆ Y j(i) − ˆ Y j ) 2
(p + 1) ˆ σ 2 = (ˆ B − B ˆ (i) ) T · X T · X · (ˆ B − B ˆ (i) ) (p + 1) ˆ σ 2 , gdzie
• ˆ Y j(i) to warto´ s´ c przewidywana dla j-tej obserwacji, obliczona na podstawie modelu reg- resji liniowej wyznaczonego z pomini¸ eciem i-tej obserwacji;
• ˆ B (i) to estymator parametr´ ow modelu regresji liniowej na podstawie danych, z kt´ orych usuni¸ eto i-t¸ a obserwacj¸ e.
Du˙za warto´ s´ c D i wskazuje na to, ˙ze usuni¸ ecie i-tej obserwacji ma znaczny wp lyw na prognozy znanych warto´ sci zmiennej obja´ snianej.
Mo˙zna pokaza´ c, ˙ze
D i = 1
p + 1 · r i 2 · h ii 1 − h ii
,
sk¸ ad wida´ c, ˙ze warto´ s´ c D i b¸edzie du˙za, gdy |r i | b¸edzie du˙ze (a du˙za warto´s´c |r i | sugeruje, ˙ze i-ta obserwacja jest obserwacj¸ a odstaj¸ ac¸ a) lub gdy h ii b¸edzie du˙ze (czyli bliskie 1, co sugeruje,
˙ze i-ta obserwacja jest obserwacj¸ a wp lywow¸ a). W literaturze zaleca si¸e by uznawa´ c, ˙ze D i
nie jest du˙ze, gdy jest znacz¸ aco mniejsze od 1, ale wskazane jest patrzenie nie tylko na sam¸ a warto´ s´ c D i , ale tak˙ze na to jakie s¸ a odst¸ epy pomi¸ edzy uporz¸ adkowanymi warto´ sciami D i - du˙ze skoki powinny wzbudza´ c nasze zainteresowanie.
Czwarty wykres generowany przez komend¸ e
> plot(nazwa.modelu.liniowego)
to wykres standaryzowanych rezydu´ ow r i w zale˙zno´ sci od wp lyw´ ow h ii . Na wykresie tym na- niesione s¸ a czerwone, przerywane krzywe (je´ sli tylko si¸ e mieszcz¸ a) odpowiadaj¸ ace warto´ sciom D i = 0.5 i D i = 1. Obserwacje wymagaj¸ ace bli˙zszego przyjrzenia si¸ e to obserwacje o du˙zej odleg lo´ sci Cook’a D i .
Jak post¸ epowa´ c w przypadku wykrycia obserwacji wp lywowych lub odstaj¸ acych?
• Je´sli obserwacja ta jest nietypowa i w pewien spos´ ob r´ o˙zni si¸ e od pozosta lych danych, warto spr´ obowa´ c j¸ a usun¸ a´ c i na nowo dopasowa´ c model regresji.
• Nie nale˙zy jednak usuwa´ c takich obserwacji automatycznie i bezmy´ slnie. Je´ sli taka obserwacja nie pojawi la si¸ e w wyniku b l¸ edu i nie widzimy by by la ona nietypowa, to warto pr´ obowa´ c dopasowa´ c inny model; np. doda´ c zmienne obja´ sniaj¸ ace (do l¸ aczy´ c np.
kolejne pot¸ egi zmiennej obja´ sniaj¸ acej) lub pr´ obowa´ c przekszta lca´ c zmienn¸ a obja´ snian¸ a lub zmienne obja´ sniaj¸ ace.
6. Jednym z za lo˙ze´ n modelu regresji liniowej jest to, ˙ze b l¸ edy maj¸ a r´ owne wariancje. Aby spraw- dzi´ c czy za lo˙zenie to jest spe lnione, analizujemy wykresy rezydu´ ow, o kt´ orych by la mowa w pkt 1.
Jak post¸ epowa´ c w sytuacji, gdy uznamy, ˙ze za lo ˙zenie o r´ ownych wariancjach b l¸ ed´ ow nie jest spe lnione? Mamy dwie mo˙zliwo´ sci rozwi¸ azania tego problemu.
• Zastosowa´ c metod¸ e najmniejszych wa˙zonych kwadrat´ ow do wyznaczenia wsp´ o lczynnik´ ow modelu regresji liniowej, tzn. za estymator wektora parametr´ ow B przyj¸a´c wektor B ˆ W = [ ˆ β 0W , ˆ β 1W , . . . , ˆ β pW ], kt´ ory minimalizuje sum¸ e
n
X
i=1
w i (y i − (β 0W + β 1W x i1 + . . . + β pW x ip )) 2 ,
gdzie waga w i powinna by´ c tym mniejsza im V ar(ε i ) jest wi¸ eksza. W praktyce przyjmuje si¸ e w i = 1 ˆ
σ
i2, gdzie ˆ σ i 2 jest pewnym estymatorem lub oszacowaniem V ar(ε i ) = V ar(Y i ).
Zatem metod¸e t¸ a mo˙zemy w praktyce zastosowa´ c, gdy jeste´ smy w stanie oszacowa´ c lub wyestymowa´ c V ar(Y i ). Mo˙zemy to zrobi´ c np. w przypadku, w kt´ orym Y i to ´ srednie b¸ ad´ z mediany policzone na podstawie n i obserwacji. Wtedy V ar(Y i ) s¸ a proporcjonalne do n 1
i