Teraz rozwa˙zamy sytuacj¸e, w kt´ orej mamy zmienn¸ a obja´ snian¸ a Y i p zmiennych obja´ sniaj¸ acych x 1 , x 2 , . . . , x p . Dane b¸ edziemy mie´ c zatem zapisane w postaci n wektor´ ow (p + 1)-wymiarowych:

(1)

Wyk lad 12, 13 i 14: Wielokrotna regresja liniowa

Teraz rozwa˙zamy sytuacj¸e, w kt´ orej mamy zmienn¸ a obja´ snian¸ a Y i p zmiennych obja´ sniaj¸ acych x ₁ , x ₂ , . . . , x _p . Dane b¸ edziemy mie´ c zatem zapisane w postaci n wektor´ ow (p + 1)-wymiarowych:

(x ₁₁ , x ₁₂ , . . . , x _1p , y ₁ ), (x ₂₁ , x ₂₂ , . . . , x _2p , y ₂ ), . . . , (x _n1 , x _n2 , . . . , x _np , y _n ), gdzie x ij oznacza warto´ s´ c j-tej zmiennej obja´ snianej dla i-tego obiektu.

Np. mo˙zemy bada´ c zale˙zno´ s´ c ceny mieszkania od jego powierzchni i odleg lo´ sci od centrum.

Wtedy b¸ edziemy potrzebowa´ c dane nast¸ epuj¸ acej postaci:

(x ₁₁ , x ₁₂ , y ₁ ), (x ₂₁ , x ₂₂ , y ₂ ), . . . , (x _n1 , x _n2 , y _n ), gdzie

• y _i oznacza cen¸ e i-tego mieszkania;

• x _i1 oznacza powierzchni¸ e i-tego mieszkania;

• x _i2 oznacza odleg lo´ s´ c i-tego mieszkania od centrum.

Do tych danych b¸ edziemy pr´ obowa´ c dopasowa´ c model liniowy

Y i = β 0 + β 1 x i1 + β 2 x i2 + ε i , i = 1, 2, . . . , n, gdzie ε i to niezale˙zne zmienne losowe o rozk ladzie N (0, σ ² ).

Og´ olnie model wielokrotnej regresjii liniowej jest nast¸ epuj¸ acy

Y i = β 0 + β 1 x i1 + β 2 x i2 + . . . + β p x ip + ε i , i = 1, 2, . . . , n,

gdzie ε _i to niezale˙zne zmienne losowe o rozk ladzie N (0, σ ² ). Nieznanymi parametrami tego modelu s¸ a β 0 , β 1 , . . . , β p i σ ² .

Oznaczaj¸ ac

Y =





 Y ₁ Y 2

.. . Y n





 ,

| {z }

wektor odpowiedzi

X =







1 x ₁₁ x ₁₂ . . . x _1p 1 x 21 x 22 . . . x 2p

.. . .. . .. . .. . 1 x n1 x n2 . . . x np





 ,

| {z }

macierz eksperymentu

B =





 β ₀ β 1

.. . β p





 ,

| {z }

wektor parametr´ ow

E =





 ε ₁ ε 2

.. . ε n





 ,

| {z }

wektor b l¸ ed´ ow

powy˙zszy model mo˙zemy zapisa´ c w postaci macierzowej Y = X · B + E.

Metod¸ a najmniejszych kwadrat´ ow otrzymujemy nast¸ epuj¸ acy estymator wektora parametr´ ow

B = ˆ





 β ˆ ₀ β ˆ ₁ .. . β ˆ p







= (X ^T · X) ⁻¹ · X ^T · Y,

przy za lo˙zeniu, ˙ze macierz X ^T · X jest odwracalna, co zachodzi, gdy kolumny macierzy X s¸a liniowo niezale˙zne. Stosuj¸ ac metod¸ e najwi¸ ekszej wiarygodno´ sci otrzymujemy dok ladnie ten sam estymator B. Ponadto mo ˙zna pokaza´ ˆ c, ˙ze ˆ B jest estymatorem nieobci¸ a˙zonym wektora parametr´ ow B, tzn.

E(ˆ B) = B.

(2)

Do szacowania nieznanej wariancji b l¸ ed´ ow σ ² u˙zywamy nieobci¸ a˙zonego estymatora tej wielko´ sci, danego wzorem

σ ˆ ² = 1 n − (p + 1)

n

X

i=1

e ² _i , gdzie e _i = Y _i − ( ˆ β ₀ + ˆ β ₁ x _i1 + . . . + ˆ β _p x _ip )

| {z }

ozn. ˆ Y

i

−prognoza dla i-tej obserwacji

to i-ty b l¸ ad (rezyduum, warto´ s´ c resztowa).

St¸ ad

σ ˆ ² = 1 n − (p + 1)

n

X

i=1



Y i −

p

X

j=0

x ij β ˆ j





2 = 1

n − (p + 1) (Y − X · ˆ B) ^T · (Y − X · ˆ B), gdzie

x ₁₀ x ₂₀ . . . x _n0 = 1 1 . . . 1 .

Zauwa˙zmy, ˙ze wektor prognoz ˆ Y = Y ˆ ₁ Y ˆ ₂ . . . Y ˆ _n T

dany jest wzorem Y = X · ˆ B = X · (X ˆ ^T · X) ⁻¹ · X ^T

| {z }

ozn.H

·Y = H · Y.

Macierz H nazywana jest macierz¸ a daszkow¸ a (bo przekszta lca Y na ˆ Y czyli na Y z daszkiem).

Testy w modelu regresji liniowej

1. Testy istotno´ sci dla poszczeg´ olnych wsp´ o lczynnik´ ow Ustalamy i 0 ∈ {0, 1, . . . , p}. Weryfikujemy hipotez¸e

H ₀ : β _i

₀

= 0 ( i ₀ -ta zmienna nie jest istotna w sytuacji, gdy wszystkie inne zmienne obja´ sniaj¸ ace pozostaj¸ a w modelu; gdy i ₀ = 0 oznacza to, ˙ze wyraz wolny nie jest w modelu istotny)

przeciwko hipotezie H 1 : β i

0

6= 0.

Statystyka testowa T = β ˆ _i

₀

SE( ˆ β _i

₀

) , gdzie SE( ˆ β _i

₀

) jest estymatorem odchylenia standardowego SE( ˆ β _i

₀

), w sytuacji, gdy H ₀ jest prawdziwa, ma rozk lad t-Studenta o n − (p + 1) stopniach swobody.

Estymator SE( ˆ β i

0

) wyznaczamy jako pierwiastek z i 0 -tego elementu na przek¸ atnej macierzy σ ˆ ² (X ^T · X) ⁻¹ .

Zbi´ or krytyczny to

W = (−∞, −t ₁₋

^α

2

,n−(p+1) ] ∪ [t ₁₋

^α

2

,n−(p+1) , +∞).

Je´ sli T ∈ W , to na poziomie istotno´ sci α, H 0 odrzucamy.

2. Test F czy kt´ orakolwiek ze zmiennych obja´ sniaj¸ acych jest istotna

H ₀ : β ₁ = β ₂ = . . . = β _p = 0 (˙zadna zmienna w modelu nie jest istotna)

H ₁ : istnieje i takie, ˙ze β _i 6= 0 (co najmniej jedna zmienna w modelu jest istotna) Statystyka testowa

F = SSR/p

SSE/(n − (p + 1))

(3)

w sytuacji, gdy H ₀ jest prawdziwa, ma rozk lad F -Snedecora o p i n − (p + 1) stopniach swobody.

Zbi´ or krytyczny to

W = [f 1−α,p,n−(p+1) , +∞).

Je´ sli F ∈ W , to na poziomie istotno´ sci α, H ₀ odrzucamy.

Implementacja test´ ow z 1. i 2. w R:

> model.liniowy=lm(zm.objasniana∼ zm.objasniajaca.0+ . . . +zm.objasniajaca.p)

> summary(model.liniowy)

3. Test czy pewien podzbi´ or zmiennych obja´ sniaj¸ acych jest istotny (tzw. cz¸ e´ sciowy test F ) Rozwa˙zamy dwa modele liniowe: model mniejszy zawarty w modelu wi¸ ekszym:

model mniejszy (m.m.): Y i = β 0 x i0 + β 1 x i1 + . . . + β p x ip + ε i

model wi¸ ekszy (m.w.): Y _i = β ₀ x _i0 + β ₁ x _i1 + . . . + β _p x _ip + β _p+1 x _i,p+1 + . . . + β _q x _iq + ε _i , gdzie p < q.

H ₀ : β _p+1 = . . . = β _q = 0 (model mniejszy jest poprawny)

H ₁ : istnieje i ∈ {p + 1, . . . , q} takie, ˙ze β _i 6= 0 (potrzebny jest model wi¸ekszy) Statystyka testowa

F = (SSE _m.m. − SSE _m.w. )/(q − p) SSE _m.w. /(n − (q + 1))

w sytuacji, gdy H 0 jest prawdziwa, ma rozk lad F -Snedecora o q − p i n − (q + 1) stopniach swobody.

Zbi´ or krytyczny to

W = [f 1−α,q−p,n−(q+1) , +∞).

Je´ sli F ∈ W , to na poziomie istotno´ sci α, H ₀ odrzucamy.

Implementacja w R:

> model.mniejszy=lm(zm.objasniana∼ zm.objasniajaca.0+ . . . +zm.objasniajaca.p)

> model.wiekszy=lm(zm.objasniana∼ zm.objasniajaca.0+ . . . +zm.objasniajaca.q)

> anova(model.mniejszy, model.wiekszy)

Diagnostyka dopasowania modelu regresji liniowej

Analizowanie jedynie warto´ sci wsp´ o lczynnika determinacji R ² i wynik´ ow test´ ow w modelu regresji, nie wystarcza by prawid lowo oceni´ c czy dobry model zosta l wybrany do opisu danych.

Poprawno´ s´ c test´ ow bowiem, jak i poprawno´ s´ c prognoz robionych na podstawie modelu, zale˙z¸ a w istotny spos´ ob od poprawno´ sci postulowanego modelu. Przypominijmy, ˙ze w modelu regresji liniowej zak ladamy, ˙ze

• dla ustalonego X, E(Y) = B · X;

• b l¸edy ε _i , i = 1, 2, . . . , n, s¸ a niezale˙zne o tym samym rozk ladzie N (0, σ ² ) (wszczeg´ olno´ sci zak ladamy, ˙ze b l¸ edy maj¸ a r´ owne wariancje).

Aby sprawdzi´ c za lo˙zenia dotycz¸ ace b l¸ ed´ ow ε _i , i = 1, 2, . . . , n, analizujemy rezydua e _i = y _i − ˆ y _i ,

i = 1, 2, . . . , n. Rezydua przybli˙zaj¸ a b l¸ edy; im wi¸ eksze n, tym przybli˙zenie jest lepsze. Zatem, je´ sli

model jest poprawny, to rezydua powinny w przybli˙zeniu zachowywa´ c si¸ e jak niezale˙zne zmienne

losowe o tym samym rozk ladzie normalnym N (0, σ ² ) (w szczeg´ olno´ sci jak zmienne losowe o r´ ownych

wariancjach).

(4)

1. Rysujemy

• wykres rezydu´ ow w funkcji x: (x _i , e _i ) je´ sli mamy tylko jedn¸ a zmienn¸ a obja´ sniaj¸ ac¸ a lub wykresy rezydu´ ow w funkcji kolejnych zmiennych obja´ sniaj¸ acych, gdy tych zmiennych jest wi¸ ecej ni˙z jedna;

lub

• wykres rezydu´ ow w funkcji numeru porz¸ adkowego: (i, e _i );

lub

• wykres rezydu´ ow w funkcji prognoz: ( ˆ Y i , e i ).

Wszystkie te wykresy powinny przedstawia´ c chmur¸ e punkt´ ow skupion¸ a wok´ o l osi OX, nie maj¸ ac¸ a wyra´ znej struktury ani tendencji.

2. Je´ sli n nie jest du˙ze, to lepszym rozwi¸ azaniem, ni˙z analizowanie rezydu´ ow, jest patrzenie na tzw. rezydua standardyzowane

r _i = e _i ˆ σ √

1 − h _ii ,

gdzie h _ii to i-ty element z przek¸ atnej macierzy daszkowej H. Wynika to st¸ ad, ˙ze rezydua nie musz¸ a mie´ c r´ ownych wariancji, nawet w sytuacji, gdy wariancje b l¸ ed´ ow s¸ a r´ owne:

V ar(e _i ) = σ ² (1 − h _ii ).

Po podzieleniu e i przez ˆ σ √

1 − h ii (czyli przez estymator odchylenia standardowego e i ) otrzymujemy V ar(r _i ) ≈ 1, i = 1, 2, . . . , n.

Poni˙zsza funkcja w R:

> plot(nazwa.modelu.liniowego) wykonuje 4 wykresy:

(a) wykres rezydu´ ow w funkcji prognoz, (b) wykres kwantylowy dla rezydu´ ow,

(c) wykres p|r _i | w funkcji prognoz (niekt´ orzy w la´ snie taki wykres zalecaj¸ a by wykry´ c ewen- tualne nier´ owne wariancje b l¸ ed´ ow, pierwiastek ma zredukowa´ c asymetri¸ e pojawiaj¸ ac¸ a si¸ e z powodu warto´ sci bezwzgl¸ednej),

(d) o 4-tym wykresie b¸edzie mowa p´ o´ zniej.

3. Szukamy obserwacji wp lywowych czyli obserwacji, kt´ ore znacznie wp lywaj¸ a na dopasowany

model (obrazowo m´ owi¸ ac - przyci¸ agaj¸ a dopasowan¸ a hiperp laszczyzn¸ e).

(5)

Jak wykry´ c obserwacje wp lywowe?

Dla obserwacji wp lywowej ˆ Y i znacznie zale˙zy od Y i . Zauwa˙zmy, ˙ze Y = H · Y ˆ ⇒ Y ˆ i = h i1 Y 1 + h i2 Y 2 + . . . + h ii Y i + . . . + h in Y n =

n

X

j=1,j6=i

h ij Y j + h ii Y i .

Wida´ c, ˙ze im h _ii wi¸eksze, tym ˆ Y _i bardziej zale˙zy od Y _i . Zatem za miar¸e wp lywu Y _i na ˆ Y _i mo˙zna przyj¸ a´ c h ii - i-ty element z przek¸ atnej macierzy daszkowej H. Ponadto dowodzi si¸ e,

˙ze 1

n ≤ h _ii ≤ 1 dla ka˙zdego i = 1, 2, . . . , n, oraz P n

i=1 h _ii = p + 1.

Uznaje si¸ e, ˙ze je´ sli

h _ii > 2 · ´ srednie(h _ii ) = 2 · p + 1 n , to i-ta obserwacja jest potencjaln¸ a obserwacj¸ a wp lywow¸ a.

4. Szukamy obserwacji odstaj¸ acych czyli takich, kt´ ore nie pasuj¸ a do wzorca sugerowanego przez pozosta le punkty.

W przypadku obserwacji odstaj¸ acej

r i = Y i − ˆ Y i

ˆ σ √

1 − h ii

b¸edzie du˙ze.

Uznaje si¸ e, ˙ze obserwacja jest odstaj¸ aca gdy |r _i | > 2, zmieniaj¸ac ten warunek na |r _i | > 4, gdy mamy bardzo du˙zy zbi´ or danych.

Powy˙zsza regu la mo˙ze jednak nie wychwyci´ c wp lywowych obserwacji odstaj¸ acych, bo dla nich Y i − ˆ Y i mo˙ze by´ c bardzo ma le. Aby zidentyfikowa´ c tak˙ze takie obserwacje odstaj¸ ace, analizuje si¸e rezydua modyfikowane

d _i = Y _i − ˆ Y _i(i) ,

gdzie ˆ Y _i(i) to prognoza dla Y i na podstawie modelu regresji liniowej wyznaczonego z pomini¸eciem i-tej obserwacji.

5. Do wykrycia obserwacji wp lywowych i odstaj¸ acych s lu˙zy tak˙ze miara zwana odleg lo´ sci¸ a Cook’a. Odleg lo´ s´ c Cooke’a D i to miara wp lywu jaki ma i-ta obserwacja na dopasowan¸ a hiperp laszczyzn¸e:

D _i = P n

j=1 ( ˆ Y _j(i) − ˆ Y j ) ²

(p + 1) ˆ σ ² = (ˆ B − B ˆ (i) ) ^T · X ^T · X · (ˆ B − B ˆ (i) ) (p + 1) ˆ σ ² , gdzie

• ˆ Y _j(i) to warto´ s´ c przewidywana dla j-tej obserwacji, obliczona na podstawie modelu regresji liniowej wyznaczonego z pomini¸ eciem i-tej obserwacji;

• ˆ B (i) to estymator parametr´ ow modelu regresji liniowej na podstawie danych, z kt´ orych usuni¸ eto i-t¸ a obserwacj¸ e.

Du˙za warto´ s´ c D _i wskazuje na to, ˙ze usuni¸ ecie i-tej obserwacji ma znaczny wp lyw na prognozy znanych warto´ sci zmiennej obja´ snianej.

Mo˙zna pokaza´ c, ˙ze

D _i = 1

p + 1 · r _i ² · h _ii 1 − h ii

,

(6)

sk¸ ad wida´ c, ˙ze warto´ s´ c D _i b¸edzie du˙za, gdy |r _i | b¸edzie du˙ze (a du˙za warto´s´c |r _i | sugeruje, ˙ze i-ta obserwacja jest obserwacj¸ a odstaj¸ ac¸ a) lub gdy h _ii b¸edzie du˙ze (czyli bliskie 1, co sugeruje,

˙ze i-ta obserwacja jest obserwacj¸ a wp lywow¸ a). W literaturze zaleca si¸e by uznawa´ c, ˙ze D i

nie jest du˙ze, gdy jest znacz¸ aco mniejsze od 1, ale wskazane jest patrzenie nie tylko na sam¸ a warto´ s´ c D _i , ale tak˙ze na to jakie s¸ a odst¸ epy pomi¸ edzy uporz¸ adkowanymi warto´ sciami D _i - du˙ze skoki powinny wzbudza´ c nasze zainteresowanie.

Czwarty wykres generowany przez komend¸ e

> plot(nazwa.modelu.liniowego)

to wykres standaryzowanych rezydu´ ow r i w zale˙zno´ sci od wp lyw´ ow h ii . Na wykresie tym na- niesione s¸ a czerwone, przerywane krzywe (je´ sli tylko si¸ e mieszcz¸ a) odpowiadaj¸ ace warto´ sciom D _i = 0.5 i D _i = 1. Obserwacje wymagaj¸ ace bli˙zszego przyjrzenia si¸ e to obserwacje o du˙zej odleg lo´ sci Cook’a D i .

Jak post¸ epowa´ c w przypadku wykrycia obserwacji wp lywowych lub odstaj¸ acych?

• Je´sli obserwacja ta jest nietypowa i w pewien spos´ ob r´ o˙zni si¸ e od pozosta lych danych, warto spr´ obowa´ c j¸ a usun¸ a´ c i na nowo dopasowa´ c model regresji.

• Nie nale˙zy jednak usuwa´ c takich obserwacji automatycznie i bezmy´ slnie. Je´ sli taka obserwacja nie pojawi la si¸ e w wyniku b l¸ edu i nie widzimy by by la ona nietypowa, to warto pr´ obowa´ c dopasowa´ c inny model; np. doda´ c zmienne obja´ sniaj¸ ace (do l¸ aczy´ c np.

kolejne pot¸ egi zmiennej obja´ sniaj¸ acej) lub pr´ obowa´ c przekszta lca´ c zmienn¸ a obja´ snian¸ a lub zmienne obja´ sniaj¸ ace.

6. Jednym z za lo˙ze´ n modelu regresji liniowej jest to, ˙ze b l¸ edy maj¸ a r´ owne wariancje. Aby sprawdzi´ c czy za lo˙zenie to jest spe lnione, analizujemy wykresy rezydu´ ow, o kt´ orych by la mowa w pkt 1.

Jak post¸ epowa´ c w sytuacji, gdy uznamy, ˙ze za lo ˙zenie o r´ ownych wariancjach b l¸ ed´ ow nie jest spe lnione? Mamy dwie mo˙zliwo´ sci rozwi¸ azania tego problemu.

• Zastosowa´ c metod¸ e najmniejszych wa˙zonych kwadrat´ ow do wyznaczenia wsp´ o lczynnik´ ow modelu regresji liniowej, tzn. za estymator wektora parametr´ ow B przyj¸a´c wektor B ˆ W = [ ˆ β _0W , ˆ β _1W , . . . , ˆ β _pW ], kt´ ory minimalizuje sum¸ e

n

X

i=1

w i (y i − (β _0W + β 1W x i1 + . . . + β pW x ip )) ² ,

gdzie waga w i powinna by´ c tym mniejsza im V ar(ε i ) jest wi¸ eksza. W praktyce przyjmuje si¸ e w i = ¹ _ˆ

σ

_i²

, gdzie ˆ σ _i ² jest pewnym estymatorem lub oszacowaniem V ar(ε i ) = V ar(Y i ).

(7)

Zatem metod¸e t¸ a mo˙zemy w praktyce zastosowa´ c, gdy jeste´ smy w stanie oszacowa´ c lub wyestymowa´ c V ar(Y _i ). Mo˙zemy to zrobi´ c np. w przypadku, w kt´ orym Y _i to ´ srednie b¸ ad´ z mediany policzone na podstawie n i obserwacji. Wtedy V ar(Y i ) s¸ a proporcjonalne do _n ¹

i

, zatem mo˙zemy przyj¸ a´ c w _i = n _i .

> lm(zm.objasniana ∼ zm.objasniajaca.1 + . . . + zm.objasniajaca.p, weights =

|{z}

wektor z wagami

)

• Przekszta lci´ c zmienn¸ a obja´ snian¸ a Y lub zmienne obja´ sniane tak by po przekszta lceniu wariancje b l¸ ed´ ow sta ly si¸ e w przybli˙zeniu r´ owne.

– Je´ sli kt´ ora´ s ze zmiennych jest typu zliczaj¸ acego, to spierwiastkowanie jej cz¸ esto okazuje si¸ e dobrym wyborem.

– Inne, cz¸esto rozwi¸ azuj¸ ace problem przekszta lcenie, to logarytmowanie.

– Je´ sli zmienna obja´ sniana i zmienna obja´ sniaj¸ aca (zmienne obja´ sniaj¸ ace) maj¸ a t¸ a sam¸ a jdnostk¸ e, to zalecane jest poddawanie ich temu samemu przekszta lceniu.

7. Przekszta lcenia zmiennych stosuje si¸ e tak˙ze wtedy, gdy b l¸ edy nie maj¸ a rozk ladu normalnego.

• Do znajdowania przekszta lcenia dodatniej zmiennej odpowiedzi Y , daj¸ acego najlepiej dopasowany model, stosuje si¸ e metod¸ e Boxa-Coxa. Przekszta lcenie jest wybierane z ro- dziny przekszta lce´ n

g _λ (y) =

( y

^λ

−1

λ gdy λ 6= 0 ln y gdy λ = 0.

Parametr λ dobieramy tak, by maksymalizowa l funkcj¸e wiarygodno´ sci. Metoda Boxa- Coxa jest wra˙zliwa na obserwacje odstaj¸ ace - gdy otrzymamy ˆ λ = 5, to w la´ snie one najprawdopodobniej b¸ ed¸ a powodem tak du˙zej warto´ sci λ.

Implementacja w R:

> library(MASS)

> boxcox(nazwa.modelu.liniowego, lambda=seq(-2,2,by=0.1))

• Gdy w modelu mamy tylko jedn¸ a zmienn¸ a obja´ sniaj¸ ac¸ a, w celu oceny jej wp lywu na

zmienn¸ a obja´ snian¸ a, patrzymy na wykres y _i w funkcji x _i . Wykres ten mo˙ze zasugerowa´ c

stosown¸ a transformacj¸ e zmiennej obja´ sniaj¸ acej lub dodanie do modelu kolejnych pot¸ eg

zmiennej obja´ sniaj¸ acej.

(8)

• Gdy mamy wi¸ecej zmiennych obja´sniaj¸ acych, w celu wizualizacji wp lywu jednej wybranej zmiennej obja´ sniaj¸ acej x _i

₀

na zmienn¸ a obja´ snian¸ a, po usuni¸ eciu liniowego wp lywu pozosta lych zmiennych obja´ snianych, mo˙zna u˙zy´ c cz¸ e´ sciowych wykres´ ow regresji (partial regression plots lub partial laverage plots).

8. Wsp´ o lliniowo´ s´ c zmiennych obja´ sniaj¸ acych.

Je´ sli macierz X ^T · X jest nieodwracalna (czyli je´sli zmienne obja´sniaj¸ace s¸a liniowo zale˙zne), to estymator ˆ B nie jest wyznaczony jednoznacznie.

Np. je´ sli w modelu regresji

Y = 1 + 3x 1 + 5x 2 + ε mamy x 2 = 2x 1 ,

to mo˙zemy go r´ ownowa˙znie przepisa´ c np. jako Y = 1 + 7x 1 + 3x 2 + ε i estymator ˆ B = [ ˆ β ₀ , ˆ β ₁ , ˆ β ₂ ] ^T mo˙ze by´ c zar´ owno bliski [1, 3, 5] ^T jak i [1, 7, 3] ^T . Gdy macierz X ^T · X jest bliska macierzy nieodwracalnej (czyli wyst¸ epuje przybli˙zona zale˙zno´ s´ c liniowa mi¸ edzy zmiennymi obja´ sniaj¸ acymi), to cho´ c ˆ B jest wyznaczona jednoznacznie, jej zmienno´ s´ c mo˙ze by´ c bardzo du˙za.

Mo˙zna pokaza´ c, ˙ze w modelu liniowym z p zmiennymi obja´ sniaj¸ acymi V ar( ˆ β j ) = 1

1 − R ² _j · σ ²

(n − 1)S _x ²

_j

, j = 1, 2, . . . , p,

gdzie R _j ² to wsp´ o lczynnik determinacji dla modelu liniowego, w kt´ orym x _j to zmienna obja´ sniana a pozosta le x i , i 6= j, to zmienne obja´ sniaj¸ ace (gdy w modelu mamy tylko dwie zmienne, jest to kwadrat wsp´ o lczynnika korelacji mi¸ edzy tymi zmiennymi, zatem R j mo˙zemy traktowa´ c jako uog´ olnienie wsp´ o lczynnika korelacji na wi¸ ecej zmiennych).

Czynnik _1−R ¹

2 j

jest zwany wsp´ o lczynnikiem podbicia wariancji VIF _j (variance inflation fac- tor):

VIF j = 1 1 − R ² _j .

Du˙za warto´ s´ c VIF _j (w praktyce VIF _j > 5 jest uznawane za du˙ze) sugeruje, ˙ze zmienna x _j jest silnie zale˙zna liniowo od pozosta lych zmiennych i warto pr´ obowa´ c usun¸ a´ c j¸ a z modelu.

Selekcja zmiennych w modelu regresji liniowej Przed przyst¸ apieniem do selekcji zmiennych nale˙zy:

• Zastosowa´ c wszelkie transformacje danych, kt´ ore wydaj¸ a si¸e by´ c stosowne.

• Zidentyfikowa´ c obserwacje odstaj¸ ace i wp lywowe (bo metody selekcji zmiennych s¸ a na nie nieodporne) i by´ c mo˙ze wy l¸ aczy´ c je z analizy, przynajmniej tymczasowo. Je´ sli nie b¸ edziemy mieli podstaw do usuni¸ ecia tych obserwacji, nale˙zy zastosowa´ c metody selekcji zmiennych oparte na regresji odpornej (tych metod nie b¸ edziemy omawia´ c).

Kryteria s lu˙z¸ ace do wyboru najlepszego modelu:

1. Wsp´ o lczynnik determinacji R ² i skorygowany wsp´ o lczynnik determinacji R ² _adj R ² = SSR

SST = 1 − SSE

SST ,

(9)

gdzie, jak w modelu regresji jednokrotnej, SST = P n

i=1 (Y _i − ¯ Y ) ² - suma kwadrat´ ow odpowiadaj¸ aca za ca lkowit¸ a zmienno´ s´ c zmiennej obja´ snianej Y SSE = P n

i=1 (Y _i − ˆ Y _i ) ² = P n

i=1 e ² _i - suma kwadrat´ ow b l¸ed´ ow (odpowiada za zmienno´ s´ c Y nie wyja´ snion¸ a przez model regresji), SSR = P n

i=1 ( ˆ Y i − ¯ Y ) ² - regresyjna suma kwadrat´ ow (odpowiada za zmienno´ s´ c Y obja´ snian¸ a przez model regresji i zachodzi SST = SSE + SSR.

Tak jak w przypadku regresji jednokrotnej, warto´ s´ c wsp´ o lczynnika determinacji R ² w modelu wielokrotnej regresji liniowej interpretujemy jako stosunek zmienno´ sci Y obja´ snianej przez model do zmienno´ sci ca lkowitej Y .

Je´ sli do modelu dodajemy jedn¸ a lub wi¸ ecej zmiennych obja´ sniaj¸ acych, to R ² nie maleje (za- zwyczaj wzrasta), nawet je´ sli dodana zmienna/zmienne s¸ a w modelu nieistotne. Zatem, por´ ownuj¸ ac dopasowanie modeli liniowych o r´ o˙znej liczbie zmiennych obja´ sniaj¸ acych, nale˙zy patrze´ c na warto´ s´ c skorygowanego wsp´ o lczynnika determinacji R ² _adj , a nie na R ² :

R ² _adj = 1 − SSE/(n − (p + 1)) SST /(n − 1) .

Mo˙zna wykaza´ c, ˙ze dodanie zmiennej obja´ sniaj¸ acej (lub zmiennych obja´ sniaj¸ acych) do modelu regresji zwi¸ekszy R ² _adj jedynie, gdy warto´ s´ c statystyki testu F sprawdzaj¸ acego istotno´ s´ c tych zmiennych b¸ edzie wi¸ eksza od 1.

2. Kryterium Akaike AIC (Akaike Information Criterion)

AIC = −2[funkcja wiarygodno´sci − (p + 2)]

= n ln( ^SSE _n ) + 2p + (sta la),

| {z }

mo ˙zna pomin¸ a´ c

gdzie (sta la) nie zale˙zy od SSE i p, czyli jest taka sama dla wszystkich modeli zbudowanych na podstawie tego samego zbioru danych, wi¸ ec mo˙ze zosta´ c pomini¸ eta podczas por´ owna´ n.

Im AIC przyjmuje mniejsz¸ a warto´ s´ c, tym model jest lepszy.

Gdy n jest ma le lub gdy _{P +2} ⁿ ≤ 40, to AIC ma tendencj¸e do preferowania modeli z za du˙z¸ a liczb¸ a zmiennych. Dlatego w tej sytuacji zalecane jest u˙zywanie skorygowanego kryterium Akaike:

AIC _c = AIC + 2(p + 2)(p + 3) n − p − 1 .

3. Kryterium Schwarza BIC (Schwarz Criterion lub Bayes Information Criterion)) BIC = n ln( ^SSE _n ) + (p + 2) ln n

= n ln( ^SSE _n ) + p ln n + 2 ln n,

| {z }

mo˙zna pomin¸ a´ c

gdzie 2 ln n jest sta l¸ a niezale˙zn¸ a od SSE i p, czyli jest takie samo dla wszystkich modeli zbudowanych na podstawie tego samego zbioru danych, wi¸ ec mo˙ze zosta´ c pomini¸ ete podczas por´ owna´ n.

Podobnie jak w przypadku AIC, im BIC przyjmuje mniejsz¸ a warto´ s´ c, tym model jest lepszy.

(10)

Chcemy wybra´ c ”najlepszy”podzbi´ or zmiennych obja´ sniaj¸ acych, usuwaj¸ ac zmienne nieistotne.

Poni˙zsze trzy metody wyboru takiego podzbioru mo˙zemy przeprowadzi´ c opieraj¸ ac si¸e na jednym z kryteri´ ow: R ² _adj , AIC, AIC c lub BIC.

1. Metoda eliminacji (backward elimination)

Rozpoczynamy od modelu pe lnego, zawieraj¸ acego wszystkie zmienne obja´ sniaj¸ ace. W ka˙zdym kroku usuwamy zmienn¸ a, kt´ ora ma najwi¸ eksz¸ a warto´ s´ c p-value testu istotno´ sci tej jednej zmiennej (poniewa˙z w ustalonym kroku por´ ownujemy modele o tej samej liczbie zmiennych, wyb´ or zmiennej o najwi¸ ekszym p-value jest r´ onowa˙zny wyborowi zmiennej, po usuni¸ eciu kt´ orej otrzymamy model o najmniejszej warto´ sci kryterium informacyjnego lub r´ ownowa˙znie o najwi¸ ekszej warto´ sci R _adj ). Proces ten kontynuujemy a˙z do momentu, gdy kryterium wskazuje, ˙ze po usuni¸ eciu zmiennej o najwi¸ ekszym p-value model ulegnie pogorszeniu (R ² _adj zmaleje albo AIC, AIC c albo BIC wzro´ snie) lub, gdy usuniemy wszystkie zmienne z modelu.

Warunek zako´ nczenia procedury mo˙zna tak˙ze oprze´ c na samej warto´ sci p-value - ko´ nczy´ c procedur¸ e, gdy usuniemy wszystkie zmienne z modelu lub gdy warto´ s´ c p-value testu istotno´ sci dla zmiennej wybranej do usuni¸ ecia, jest mniejsza b¸ ad´ z r´ owna pewnej warto´ sci granicznej p OU T (zwykle przyjmuje si¸ e p OU T = 0.05 lub p OU T = 0.1).

2. Metoda do l¸ aczania (forward selection)

Rozpoczynamy od modelu zawieraj¸ acego jedynie wyraz wolny. W ka˙zdym kroku dadajemy zmienn¸ a, kt´ ora ma najmniejsz¸ a warto´ s´ c p-value testu istotno´ sci tej jednej zmiennej. Pro- ces ten kontynuujemy a˙z do momentu, gdy kryterium wskazuje, ˙ze po dodaniu zmiennej o najmniejszym p-value model ulegnie pogorszeniu (R ² _adj zmaleje albo AIC, AIC c albo BIC wzro´ snie) lub, gdy dodamy wszystkie zmienne do modelu.

Podobnie jak w przypadku metody eliminacji, warunek zako´ nczenia procedury metody do l¸ a- czania mo˙zna te˙z oprze´ c na samej warto´ sci p-value - ko´ nczy´ c procedur¸ e, gdy dodamy wszystkie zmienne do modelu lub gdy warto´ s´ c p-value testu istotno´ sci dla zmiennej wybranej do dodania, jest wi¸ eksza b¸ ad´ z r´ owna pewnej warto´ sci granicznej p _IN (zwykle przyjmuje si¸e p _IN = 0.1 lub p _IN = 0.2).

3. Metoda selekcji krokowej (stepwise regression)

Rozpoczynamy od modelu zawieraj¸ acego jedynie wyraz wolny. Pierwszy krok jest krokiem z metody do l¸ aczania, po nim wykonujemy krok z metody eliminacji i tak na zmian¸ e, a˙z do momentu, gdy stwierdzimy, ˙ze nie dodajemy ˙zadnej zmiennej do modelu.

Implementacja w R:

> step(object=model.poczatkowy, scope, direction=c(”backward”, ”forawrd”, ”both”), k)

> model.pelny=lm(zm.objasniana ∼ ·, data =

|{z}

ramka danych

)

> model.pusty=lm(zm.objasniana ∼ 1)

Metoda eliminacji oparta na kryterium AIC:

> step(model.pelny, scope=list(upper=model.pelny,lower=model.pusty), direction=”backward”, k=2) Metoda do l¸ aczania oparta na kryterium BIC:

> step(model.pusty, scope=list(upper=model.pelny,lower=model.pusty), direction=”forward”,

k=log(length(zm.objasniana)))

(11)

PRZYK LAD 12.1

Zbi´ or cigconsumption.txt zawiera dane dotycz¸ ace sprzeda˙zy papieros´ ow przypadaj¸ acej na jednego mieszka´ nca (zmienna Sales) w 51 stanach USA oraz dodatkowe zmienne obja´ sniaj¸ ace:

Age - mediana wieku populacji stanu, State - nazwa stanu,

HS - procent mieszka´ nc´ ow z wykszta lceniem co najmniej ´ srednim, Income - doch´ od przypadaj¸ acy na jednego mieszka´ nca,

Black - procent ludno´ sci czarnej,

Female - procentowy udzia l kobiet w populacji stanu, Price - wa˙zona ´ srednia cena paczki papieros´ ow.

(a) Dopasowa´ c model liniowy ze zmienn¸ a obja´ snian¸ a Sales i traktuj¸ ac wszystkie pozosta le zmienne z pomini¸ eciem State jako zmienne obja´ sniaj¸ ace. Jaka jest warto´ s´ c statystyki F w tym modelu i co ona oznacza? Kt´ ore zmienne maj¸ a odpowiadaj¸ ace p-warto´ sci wi¸ eksze od 0,05 i co to oznacza?

(b) Przetestowa´ c hipotez¸ e, ˙ze zmienne Female i HS (maj¸ ace najwi¸ eksze indywidualne p-warto´ sci) mog¸ a by´ c jednocze´ snie usuni¸ ete z modelu.

(c) Por´ owna´ c warto´ sci R ² i skorygowanego R ² w obu modelach.

(12)

Analiza wariancji jako szczeg´ olny przypadek regresji liniowej Model jednoczynnikowej analizy wariancji

Y _ij = µ + α _i + ε _ij , i = 1, 2, . . . , k, j = 1, 2, . . . , n,

mo˙zemy zapisa´ c jako model regresji liniowej z k − 1 zmiennymi obja´ sniaj¸ acymi. Np. dla k = 3 i n = 4, przyjmuj¸ ac konwencj¸ e α ₁ = 0, otrzymamy nast¸ epuj¸ acy model liniowy:





 Y ₁₁ Y ₁₂ Y 13

Y ₁₄ Y ₂₁ Y 22

Y 23

Y ₂₄ Y 31

Y 32

Y ₃₃ Y 34







=







1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 0 1 1 0 1 0 1 1 0 1 1 0 1 1 0 1







· 

 µ α 2

α ₃



 +





 ε ₁₁ ε ₁₂ ε 13

ε ₁₄ ε ₂₁ ε 22

ε 23

ε ₂₄ ε 31

ε 32

ε ₃₃ ε 34





 .

Do weryfikacji hipotezy

H ₀ : α ₂ = α ₃ = . . . = α _k = 0 przeciwko hipotezie

H 1 : istnieje i takie, ˙ze α i 6= 0 u˙zywamy statystyki testowej

F = SSR/p

SSE/(˜ n − (p + 1)) =

P ˜ n

i=1 ( ˆ Y _i − ¯ Y ) ² /p P n ˜

i=1 (Y _i − ˆ Y _i ) ² /(˜ n − (p + 1)) i zbioru krytycznego

W = [f _1−α,p,˜ _n−(p+1) , +∞), gdzie p = k − 1, ˜ n = nk, ˆ Y i = ¯ Y i· , ¯ Y = ¯ Y ·· . Otrzymujemy zatem

F = n P k

i=1 ( ¯ Y _i· − ¯ Y ·· ) ² /(k − 1) P k

i=1

P n

j=1 (Y _ij − ¯ Y _i· ) ² /(nk − k) =

1 k−1 SSA

1 k(n−1) SSE i W = [f 1−α,k−1,k(n−1) , +∞), czyli dok ladnie ten sam test co w analizie wariancji.

Analogicznie modele wieloczynnikowej analizy wariancji mog¸ a by´ c traktowane jako modele wielokrotnej regresji liniowej. Pozwala to, przy rozwi¸ azywaniu problemu analizy wariancji, na stoso- wanie metod opracowanych do analizy modelu regresji linowej. W szczeg´ olno´ sci

• umo˙zliwia to natychmiastowe uog´ olnienie analizy wariancji na przypadek, gdy liczno´ sci w grupach nie s¸ a r´ owne (czyli, gdy plan do´ swiadczenia nie jest zr´ ownowa˙zony);

• gdy wariancje w grupach nie s¸ a r´ owne, to mo˙zna skorzysta´ c z metody najmniejszych wa˙zonych

kwadrat´ ow (pod warunkiem, ˙ze znamy wariancje w grupach lub jeste´ smy w stanie je wysza-

cowa´ c - do tego potrzebujemy eksperyment z replikacjami).

Teraz rozwa˙zamy sytuacj¸e, w kt´ orej mamy zmienn¸ a obja´ snian¸ a Y i p zmiennych obja´ sniaj¸ acych x 1 , x 2 , . . . , x p . Dane b¸ edziemy mie´ c zatem zapisane w postaci n wektor´ ow (p + 1)-wymiarowych:

Wyk lad 12, 13 i 14: Wielokrotna regresja liniowa