• Nie Znaleziono Wyników

Teraz rozwa˙zamy sytuacj¸e, w kt´ orej mamy zmienn¸ a obja´ snian¸ a Y i p zmiennych obja´ sniaj¸ acych x 1 , x 2 , . . . , x p . Dane b¸ edziemy mie´ c zatem zapisane w postaci n wektor´ ow (p + 1)-wymiarowych:

N/A
N/A
Protected

Academic year: 2021

Share "Teraz rozwa˙zamy sytuacj¸e, w kt´ orej mamy zmienn¸ a obja´ snian¸ a Y i p zmiennych obja´ sniaj¸ acych x 1 , x 2 , . . . , x p . Dane b¸ edziemy mie´ c zatem zapisane w postaci n wektor´ ow (p + 1)-wymiarowych:"

Copied!
12
0
0

Pełen tekst

(1)

Wyk lad 12, 13 i 14: Wielokrotna regresja liniowa

Teraz rozwa˙zamy sytuacj¸e, w kt´ orej mamy zmienn¸ a obja´ snian¸ a Y i p zmiennych obja´ sniaj¸ acych x 1 , x 2 , . . . , x p . Dane b¸ edziemy mie´ c zatem zapisane w postaci n wektor´ ow (p + 1)-wymiarowych:

(x 11 , x 12 , . . . , x 1p , y 1 ), (x 21 , x 22 , . . . , x 2p , y 2 ), . . . , (x n1 , x n2 , . . . , x np , y n ), gdzie x ij oznacza warto´ s´ c j-tej zmiennej obja´ snianej dla i-tego obiektu.

Np. mo˙zemy bada´ c zale˙zno´ s´ c ceny mieszkania od jego powierzchni i odleg lo´ sci od centrum.

Wtedy b¸ edziemy potrzebowa´ c dane nast¸ epuj¸ acej postaci:

(x 11 , x 12 , y 1 ), (x 21 , x 22 , y 2 ), . . . , (x n1 , x n2 , y n ), gdzie

• y i oznacza cen¸ e i-tego mieszkania;

• x i1 oznacza powierzchni¸ e i-tego mieszkania;

• x i2 oznacza odleg lo´ s´ c i-tego mieszkania od centrum.

Do tych danych b¸ edziemy pr´ obowa´ c dopasowa´ c model liniowy

Y i = β 0 + β 1 x i1 + β 2 x i2 + ε i , i = 1, 2, . . . , n, gdzie ε i to niezale˙zne zmienne losowe o rozk ladzie N (0, σ 2 ).

Og´ olnie model wielokrotnej regresjii liniowej jest nast¸ epuj¸ acy

Y i = β 0 + β 1 x i1 + β 2 x i2 + . . . + β p x ip + ε i , i = 1, 2, . . . , n,

gdzie ε i to niezale˙zne zmienne losowe o rozk ladzie N (0, σ 2 ). Nieznanymi parametrami tego modelu s¸ a β 0 , β 1 , . . . , β p i σ 2 .

Oznaczaj¸ ac

Y =

 Y 1 Y 2

.. . Y n

 ,

| {z }

wektor odpowiedzi

X =

1 x 11 x 12 . . . x 1p 1 x 21 x 22 . . . x 2p

.. . .. . .. . .. . 1 x n1 x n2 . . . x np

 ,

| {z }

macierz eksperymentu

B =

 β 0 β 1

.. . β p

 ,

| {z }

wektor parametr´ ow

E =

 ε 1 ε 2

.. . ε n

 ,

| {z }

wektor b l¸ ed´ ow

powy˙zszy model mo˙zemy zapisa´ c w postaci macierzowej Y = X · B + E.

Metod¸ a najmniejszych kwadrat´ ow otrzymujemy nast¸ epuj¸ acy estymator wektora parametr´ ow

B = ˆ

 β ˆ 0 β ˆ 1 .. . β ˆ p

= (X T · X) −1 · X T · Y,

przy za lo˙zeniu, ˙ze macierz X T · X jest odwracalna, co zachodzi, gdy kolumny macierzy X s¸a liniowo niezale˙zne. Stosuj¸ ac metod¸ e najwi¸ ekszej wiarygodno´ sci otrzymujemy dok ladnie ten sam estymator B. Ponadto mo ˙zna pokaza´ ˆ c, ˙ze ˆ B jest estymatorem nieobci¸ a˙zonym wektora parametr´ ow B, tzn.

E(ˆ B) = B.

(2)

Do szacowania nieznanej wariancji b l¸ ed´ ow σ 2 u˙zywamy nieobci¸ a˙zonego estymatora tej wielko´ sci, danego wzorem

σ ˆ 2 = 1 n − (p + 1)

n

X

i=1

e 2 i , gdzie e i = Y i − ( ˆ β 0 + ˆ β 1 x i1 + . . . + ˆ β p x ip )

| {z }

ozn. ˆ Y

i

−prognoza dla i-tej obserwacji

to i-ty b l¸ ad (rezyduum, warto´ s´ c resztowa).

St¸ ad

σ ˆ 2 = 1 n − (p + 1)

n

X

i=1

Y i −

p

X

j=0

x ij β ˆ j

2

= 1

n − (p + 1) (Y − X · ˆ B) T · (Y − X · ˆ B), gdzie 

x 10 x 20 . . . x n0  =  1 1 . . . 1  .

Zauwa˙zmy, ˙ze wektor prognoz ˆ Y =  Y ˆ 1 Y ˆ 2 . . . Y ˆ n  T

dany jest wzorem Y = X · ˆ B = X · (X ˆ T · X) −1 · X T

| {z }

ozn.H

·Y = H · Y.

Macierz H nazywana jest macierz¸ a daszkow¸ a (bo przekszta lca Y na ˆ Y czyli na Y z daszkiem).

Testy w modelu regresji liniowej

1. Testy istotno´ sci dla poszczeg´ olnych wsp´ o lczynnik´ ow Ustalamy i 0 ∈ {0, 1, . . . , p}. Weryfikujemy hipotez¸e

H 0 : β i

0

= 0 ( i 0 -ta zmienna nie jest istotna w sytuacji, gdy wszystkie inne zmienne obja´ sniaj¸ ace pozostaj¸ a w modelu; gdy i 0 = 0 oznacza to, ˙ze wyraz wolny nie jest w modelu istotny)

przeciwko hipotezie H 1 : β i

0

6= 0.

Statystyka testowa T = β ˆ i

0

SE( ˆ β i

0

) , gdzie SE( ˆ β i

0

) jest estymatorem odchylenia standardowego SE( ˆ β i

0

), w sytuacji, gdy H 0 jest prawdziwa, ma rozk lad t-Studenta o n − (p + 1) stopniach swobody.

Estymator SE( ˆ β i

0

) wyznaczamy jako pierwiastek z i 0 -tego elementu na przek¸ atnej macierzy σ ˆ 2 (X T · X) −1 .

Zbi´ or krytyczny to

W = (−∞, −t 1−

α

2

,n−(p+1) ] ∪ [t 1−

α

2

,n−(p+1) , +∞).

Je´ sli T ∈ W , to na poziomie istotno´ sci α, H 0 odrzucamy.

2. Test F czy kt´ orakolwiek ze zmiennych obja´ sniaj¸ acych jest istotna

H 0 : β 1 = β 2 = . . . = β p = 0 (˙zadna zmienna w modelu nie jest istotna)

H 1 : istnieje i takie, ˙ze β i 6= 0 (co najmniej jedna zmienna w modelu jest istotna) Statystyka testowa

F = SSR/p

SSE/(n − (p + 1))

(3)

w sytuacji, gdy H 0 jest prawdziwa, ma rozk lad F -Snedecora o p i n − (p + 1) stopniach swobody.

Zbi´ or krytyczny to

W = [f 1−α,p,n−(p+1) , +∞).

Je´ sli F ∈ W , to na poziomie istotno´ sci α, H 0 odrzucamy.

Implementacja test´ ow z 1. i 2. w R:

> model.liniowy=lm(zm.objasniana∼ zm.objasniajaca.0+ . . . +zm.objasniajaca.p)

> summary(model.liniowy)

3. Test czy pewien podzbi´ or zmiennych obja´ sniaj¸ acych jest istotny (tzw. cz¸ e´ sciowy test F ) Rozwa˙zamy dwa modele liniowe: model mniejszy zawarty w modelu wi¸ ekszym:

model mniejszy (m.m.): Y i = β 0 x i0 + β 1 x i1 + . . . + β p x ip + ε i

model wi¸ ekszy (m.w.): Y i = β 0 x i0 + β 1 x i1 + . . . + β p x ip + β p+1 x i,p+1 + . . . + β q x iq + ε i , gdzie p < q.

H 0 : β p+1 = . . . = β q = 0 (model mniejszy jest poprawny)

H 1 : istnieje i ∈ {p + 1, . . . , q} takie, ˙ze β i 6= 0 (potrzebny jest model wi¸ekszy) Statystyka testowa

F = (SSE m.m. − SSE m.w. )/(q − p) SSE m.w. /(n − (q + 1))

w sytuacji, gdy H 0 jest prawdziwa, ma rozk lad F -Snedecora o q − p i n − (q + 1) stopniach swobody.

Zbi´ or krytyczny to

W = [f 1−α,q−p,n−(q+1) , +∞).

Je´ sli F ∈ W , to na poziomie istotno´ sci α, H 0 odrzucamy.

Implementacja w R:

> model.mniejszy=lm(zm.objasniana∼ zm.objasniajaca.0+ . . . +zm.objasniajaca.p)

> model.wiekszy=lm(zm.objasniana∼ zm.objasniajaca.0+ . . . +zm.objasniajaca.q)

> anova(model.mniejszy, model.wiekszy)

Diagnostyka dopasowania modelu regresji liniowej

Analizowanie jedynie warto´ sci wsp´ o lczynnika determinacji R 2 i wynik´ ow test´ ow w modelu re- gresji, nie wystarcza by prawid lowo oceni´ c czy dobry model zosta l wybrany do opisu danych.

Poprawno´ s´ c test´ ow bowiem, jak i poprawno´ s´ c prognoz robionych na podstawie modelu, zale˙z¸ a w istotny spos´ ob od poprawno´ sci postulowanego modelu. Przypominijmy, ˙ze w modelu regresji liniowej zak ladamy, ˙ze

• dla ustalonego X, E(Y) = B · X;

• b l¸edy ε i , i = 1, 2, . . . , n, s¸ a niezale˙zne o tym samym rozk ladzie N (0, σ 2 ) (wszczeg´ olno´ sci zak ladamy, ˙ze b l¸ edy maj¸ a r´ owne wariancje).

Aby sprawdzi´ c za lo˙zenia dotycz¸ ace b l¸ ed´ ow ε i , i = 1, 2, . . . , n, analizujemy rezydua e i = y i − ˆ y i ,

i = 1, 2, . . . , n. Rezydua przybli˙zaj¸ a b l¸ edy; im wi¸ eksze n, tym przybli˙zenie jest lepsze. Zatem, je´ sli

model jest poprawny, to rezydua powinny w przybli˙zeniu zachowywa´ c si¸ e jak niezale˙zne zmienne

losowe o tym samym rozk ladzie normalnym N (0, σ 2 ) (w szczeg´ olno´ sci jak zmienne losowe o r´ ownych

wariancjach).

(4)

1. Rysujemy

• wykres rezydu´ ow w funkcji x: (x i , e i ) je´ sli mamy tylko jedn¸ a zmienn¸ a obja´ sniaj¸ ac¸ a lub wykresy rezydu´ ow w funkcji kolejnych zmiennych obja´ sniaj¸ acych, gdy tych zmiennych jest wi¸ ecej ni˙z jedna;

lub

• wykres rezydu´ ow w funkcji numeru porz¸ adkowego: (i, e i );

lub

• wykres rezydu´ ow w funkcji prognoz: ( ˆ Y i , e i ).

Wszystkie te wykresy powinny przedstawia´ c chmur¸ e punkt´ ow skupion¸ a wok´ o l osi OX, nie maj¸ ac¸ a wyra´ znej struktury ani tendencji.

2. Je´ sli n nie jest du˙ze, to lepszym rozwi¸ azaniem, ni˙z analizowanie rezydu´ ow, jest patrzenie na tzw. rezydua standardyzowane

r i = e i ˆ σ √

1 − h ii ,

gdzie h ii to i-ty element z przek¸ atnej macierzy daszkowej H. Wynika to st¸ ad, ˙ze rezydua nie musz¸ a mie´ c r´ ownych wariancji, nawet w sytuacji, gdy wariancje b l¸ ed´ ow s¸ a r´ owne:

V ar(e i ) = σ 2 (1 − h ii ).

Po podzieleniu e i przez ˆ σ √

1 − h ii (czyli przez estymator odchylenia standardowego e i ) otrzy- mujemy V ar(r i ) ≈ 1, i = 1, 2, . . . , n.

Poni˙zsza funkcja w R:

> plot(nazwa.modelu.liniowego) wykonuje 4 wykresy:

(a) wykres rezydu´ ow w funkcji prognoz, (b) wykres kwantylowy dla rezydu´ ow,

(c) wykres p|r i | w funkcji prognoz (niekt´ orzy w la´ snie taki wykres zalecaj¸ a by wykry´ c ewen- tualne nier´ owne wariancje b l¸ ed´ ow, pierwiastek ma zredukowa´ c asymetri¸ e pojawiaj¸ ac¸ a si¸ e z powodu warto´ sci bezwzgl¸ednej),

(d) o 4-tym wykresie b¸edzie mowa p´ o´ zniej.

3. Szukamy obserwacji wp lywowych czyli obserwacji, kt´ ore znacznie wp lywaj¸ a na dopasowany

model (obrazowo m´ owi¸ ac - przyci¸ agaj¸ a dopasowan¸ a hiperp laszczyzn¸ e).

(5)

Jak wykry´ c obserwacje wp lywowe?

Dla obserwacji wp lywowej ˆ Y i znacznie zale˙zy od Y i . Zauwa˙zmy, ˙ze Y = H · Y ˆ ⇒ Y ˆ i = h i1 Y 1 + h i2 Y 2 + . . . + h ii Y i + . . . + h in Y n =

n

X

j=1,j6=i

h ij Y j + h ii Y i .

Wida´ c, ˙ze im h ii wi¸eksze, tym ˆ Y i bardziej zale˙zy od Y i . Zatem za miar¸e wp lywu Y i na ˆ Y i mo˙zna przyj¸ a´ c h ii - i-ty element z przek¸ atnej macierzy daszkowej H. Ponadto dowodzi si¸ e,

˙ze 1

n ≤ h ii ≤ 1 dla ka˙zdego i = 1, 2, . . . , n, oraz P n

i=1 h ii = p + 1.

Uznaje si¸ e, ˙ze je´ sli

h ii > 2 · ´ srednie(h ii ) = 2 · p + 1 n , to i-ta obserwacja jest potencjaln¸ a obserwacj¸ a wp lywow¸ a.

4. Szukamy obserwacji odstaj¸ acych czyli takich, kt´ ore nie pasuj¸ a do wzorca sugerowanego przez pozosta le punkty.

W przypadku obserwacji odstaj¸ acej

r i = Y i − ˆ Y i

ˆ σ √

1 − h ii

b¸edzie du˙ze.

Uznaje si¸ e, ˙ze obserwacja jest odstaj¸ aca gdy |r i | > 2, zmieniaj¸ac ten warunek na |r i | > 4, gdy mamy bardzo du˙zy zbi´ or danych.

Powy˙zsza regu la mo˙ze jednak nie wychwyci´ c wp lywowych obserwacji odstaj¸ acych, bo dla nich Y i − ˆ Y i mo˙ze by´ c bardzo ma le. Aby zidentyfikowa´ c tak˙ze takie obserwacje odstaj¸ ace, analizuje si¸e rezydua modyfikowane

d i = Y i − ˆ Y i(i) ,

gdzie ˆ Y i(i) to prognoza dla Y i na podstawie modelu regresji liniowej wyznaczonego z po- mini¸eciem i-tej obserwacji.

5. Do wykrycia obserwacji wp lywowych i odstaj¸ acych s lu˙zy tak˙ze miara zwana odleg lo´ sci¸ a Cook’a. Odleg lo´ s´ c Cooke’a D i to miara wp lywu jaki ma i-ta obserwacja na dopasowan¸ a hiperp laszczyzn¸e:

D i = P n

j=1 ( ˆ Y j(i) − ˆ Y j ) 2

(p + 1) ˆ σ 2 = (ˆ B − B ˆ (i) ) T · X T · X · (ˆ B − B ˆ (i) ) (p + 1) ˆ σ 2 , gdzie

• ˆ Y j(i) to warto´ s´ c przewidywana dla j-tej obserwacji, obliczona na podstawie modelu reg- resji liniowej wyznaczonego z pomini¸ eciem i-tej obserwacji;

• ˆ B (i) to estymator parametr´ ow modelu regresji liniowej na podstawie danych, z kt´ orych usuni¸ eto i-t¸ a obserwacj¸ e.

Du˙za warto´ s´ c D i wskazuje na to, ˙ze usuni¸ ecie i-tej obserwacji ma znaczny wp lyw na prognozy znanych warto´ sci zmiennej obja´ snianej.

Mo˙zna pokaza´ c, ˙ze

D i = 1

p + 1 · r i 2 · h ii 1 − h ii

,

(6)

sk¸ ad wida´ c, ˙ze warto´ s´ c D i b¸edzie du˙za, gdy |r i | b¸edzie du˙ze (a du˙za warto´s´c |r i | sugeruje, ˙ze i-ta obserwacja jest obserwacj¸ a odstaj¸ ac¸ a) lub gdy h ii b¸edzie du˙ze (czyli bliskie 1, co sugeruje,

˙ze i-ta obserwacja jest obserwacj¸ a wp lywow¸ a). W literaturze zaleca si¸e by uznawa´ c, ˙ze D i

nie jest du˙ze, gdy jest znacz¸ aco mniejsze od 1, ale wskazane jest patrzenie nie tylko na sam¸ a warto´ s´ c D i , ale tak˙ze na to jakie s¸ a odst¸ epy pomi¸ edzy uporz¸ adkowanymi warto´ sciami D i - du˙ze skoki powinny wzbudza´ c nasze zainteresowanie.

Czwarty wykres generowany przez komend¸ e

> plot(nazwa.modelu.liniowego)

to wykres standaryzowanych rezydu´ ow r i w zale˙zno´ sci od wp lyw´ ow h ii . Na wykresie tym na- niesione s¸ a czerwone, przerywane krzywe (je´ sli tylko si¸ e mieszcz¸ a) odpowiadaj¸ ace warto´ sciom D i = 0.5 i D i = 1. Obserwacje wymagaj¸ ace bli˙zszego przyjrzenia si¸ e to obserwacje o du˙zej odleg lo´ sci Cook’a D i .

Jak post¸ epowa´ c w przypadku wykrycia obserwacji wp lywowych lub odstaj¸ acych?

• Je´sli obserwacja ta jest nietypowa i w pewien spos´ ob r´ o˙zni si¸ e od pozosta lych danych, warto spr´ obowa´ c j¸ a usun¸ a´ c i na nowo dopasowa´ c model regresji.

• Nie nale˙zy jednak usuwa´ c takich obserwacji automatycznie i bezmy´ slnie. Je´ sli taka obserwacja nie pojawi la si¸ e w wyniku b l¸ edu i nie widzimy by by la ona nietypowa, to warto pr´ obowa´ c dopasowa´ c inny model; np. doda´ c zmienne obja´ sniaj¸ ace (do l¸ aczy´ c np.

kolejne pot¸ egi zmiennej obja´ sniaj¸ acej) lub pr´ obowa´ c przekszta lca´ c zmienn¸ a obja´ snian¸ a lub zmienne obja´ sniaj¸ ace.

6. Jednym z za lo˙ze´ n modelu regresji liniowej jest to, ˙ze b l¸ edy maj¸ a r´ owne wariancje. Aby spraw- dzi´ c czy za lo˙zenie to jest spe lnione, analizujemy wykresy rezydu´ ow, o kt´ orych by la mowa w pkt 1.

Jak post¸ epowa´ c w sytuacji, gdy uznamy, ˙ze za lo ˙zenie o r´ ownych wariancjach b l¸ ed´ ow nie jest spe lnione? Mamy dwie mo˙zliwo´ sci rozwi¸ azania tego problemu.

• Zastosowa´ c metod¸ e najmniejszych wa˙zonych kwadrat´ ow do wyznaczenia wsp´ o lczynnik´ ow modelu regresji liniowej, tzn. za estymator wektora parametr´ ow B przyj¸a´c wektor B ˆ W = [ ˆ β 0W , ˆ β 1W , . . . , ˆ β pW ], kt´ ory minimalizuje sum¸ e

n

X

i=1

w i (y i − (β 0W + β 1W x i1 + . . . + β pW x ip )) 2 ,

gdzie waga w i powinna by´ c tym mniejsza im V ar(ε i ) jest wi¸ eksza. W praktyce przyjmuje si¸ e w i = 1 ˆ

σ

i2

, gdzie ˆ σ i 2 jest pewnym estymatorem lub oszacowaniem V ar(ε i ) = V ar(Y i ).

(7)

Zatem metod¸e t¸ a mo˙zemy w praktyce zastosowa´ c, gdy jeste´ smy w stanie oszacowa´ c lub wyestymowa´ c V ar(Y i ). Mo˙zemy to zrobi´ c np. w przypadku, w kt´ orym Y i to ´ srednie b¸ ad´ z mediany policzone na podstawie n i obserwacji. Wtedy V ar(Y i ) s¸ a proporcjonalne do n 1

i

, zatem mo˙zemy przyj¸ a´ c w i = n i .

> lm(zm.objasniana ∼ zm.objasniajaca.1 + . . . + zm.objasniajaca.p, weights =

|{z}

wektor z wagami

)

• Przekszta lci´ c zmienn¸ a obja´ snian¸ a Y lub zmienne obja´ sniane tak by po przekszta lceniu wariancje b l¸ ed´ ow sta ly si¸ e w przybli˙zeniu r´ owne.

– Je´ sli kt´ ora´ s ze zmiennych jest typu zliczaj¸ acego, to spierwiastkowanie jej cz¸ esto okazuje si¸ e dobrym wyborem.

– Inne, cz¸esto rozwi¸ azuj¸ ace problem przekszta lcenie, to logarytmowanie.

– Je´ sli zmienna obja´ sniana i zmienna obja´ sniaj¸ aca (zmienne obja´ sniaj¸ ace) maj¸ a t¸ a sam¸ a jdnostk¸ e, to zalecane jest poddawanie ich temu samemu przekszta lceniu.

7. Przekszta lcenia zmiennych stosuje si¸ e tak˙ze wtedy, gdy b l¸ edy nie maj¸ a rozk ladu normalnego.

• Do znajdowania przekszta lcenia dodatniej zmiennej odpowiedzi Y , daj¸ acego najlepiej dopasowany model, stosuje si¸ e metod¸ e Boxa-Coxa. Przekszta lcenie jest wybierane z ro- dziny przekszta lce´ n

g λ (y) =

( y

λ

−1

λ gdy λ 6= 0 ln y gdy λ = 0.

Parametr λ dobieramy tak, by maksymalizowa l funkcj¸e wiarygodno´ sci. Metoda Boxa- Coxa jest wra˙zliwa na obserwacje odstaj¸ ace - gdy otrzymamy ˆ λ = 5, to w la´ snie one najprawdopodobniej b¸ ed¸ a powodem tak du˙zej warto´ sci λ.

Implementacja w R:

> library(MASS)

> boxcox(nazwa.modelu.liniowego, lambda=seq(-2,2,by=0.1))

• Gdy w modelu mamy tylko jedn¸ a zmienn¸ a obja´ sniaj¸ ac¸ a, w celu oceny jej wp lywu na

zmienn¸ a obja´ snian¸ a, patrzymy na wykres y i w funkcji x i . Wykres ten mo˙ze zasugerowa´ c

stosown¸ a transformacj¸ e zmiennej obja´ sniaj¸ acej lub dodanie do modelu kolejnych pot¸ eg

zmiennej obja´ sniaj¸ acej.

(8)

• Gdy mamy wi¸ecej zmiennych obja´sniaj¸ acych, w celu wizualizacji wp lywu jednej wybra- nej zmiennej obja´ sniaj¸ acej x i

0

na zmienn¸ a obja´ snian¸ a, po usuni¸ eciu liniowego wp lywu pozosta lych zmiennych obja´ snianych, mo˙zna u˙zy´ c cz¸ e´ sciowych wykres´ ow regresji (partial regression plots lub partial laverage plots).

8. Wsp´ o lliniowo´ s´ c zmiennych obja´ sniaj¸ acych.

Je´ sli macierz X T · X jest nieodwracalna (czyli je´sli zmienne obja´sniaj¸ace s¸a liniowo zale˙zne), to estymator ˆ B nie jest wyznaczony jednoznacznie.

Np. je´ sli w modelu regresji

Y = 1 + 3x 1 + 5x 2 + ε mamy x 2 = 2x 1 ,

to mo˙zemy go r´ ownowa˙znie przepisa´ c np. jako Y = 1 + 7x 1 + 3x 2 + ε i estymator ˆ B = [ ˆ β 0 , ˆ β 1 , ˆ β 2 ] T mo˙ze by´ c zar´ owno bliski [1, 3, 5] T jak i [1, 7, 3] T . Gdy macierz X T · X jest bliska macierzy nieodwracalnej (czyli wyst¸ epuje przybli˙zona zale˙zno´ s´ c liniowa mi¸ edzy zmiennymi obja´ sniaj¸ acymi), to cho´ c ˆ B jest wyznaczona jednoznacznie, jej zmienno´ s´ c mo˙ze by´ c bardzo du˙za.

Mo˙zna pokaza´ c, ˙ze w modelu liniowym z p zmiennymi obja´ sniaj¸ acymi V ar( ˆ β j ) = 1

1 − R 2 j · σ 2

(n − 1)S x 2

j

, j = 1, 2, . . . , p,

gdzie R j 2 to wsp´ o lczynnik determinacji dla modelu liniowego, w kt´ orym x j to zmienna obja´ sniana a pozosta le x i , i 6= j, to zmienne obja´ sniaj¸ ace (gdy w modelu mamy tylko dwie zmienne, jest to kwadrat wsp´ o lczynnika korelacji mi¸ edzy tymi zmiennymi, zatem R j mo˙zemy traktowa´ c jako uog´ olnienie wsp´ o lczynnika korelacji na wi¸ ecej zmiennych).

Czynnik 1−R 1

2 j

jest zwany wsp´ o lczynnikiem podbicia wariancji VIF j (variance inflation fac- tor):

VIF j = 1 1 − R 2 j .

Du˙za warto´ s´ c VIF j (w praktyce VIF j > 5 jest uznawane za du˙ze) sugeruje, ˙ze zmienna x j jest silnie zale˙zna liniowo od pozosta lych zmiennych i warto pr´ obowa´ c usun¸ a´ c j¸ a z modelu.

Selekcja zmiennych w modelu regresji liniowej Przed przyst¸ apieniem do selekcji zmiennych nale˙zy:

• Zastosowa´ c wszelkie transformacje danych, kt´ ore wydaj¸ a si¸e by´ c stosowne.

• Zidentyfikowa´ c obserwacje odstaj¸ ace i wp lywowe (bo metody selekcji zmiennych s¸ a na nie nieodporne) i by´ c mo˙ze wy l¸ aczy´ c je z analizy, przynajmniej tymczasowo. Je´ sli nie b¸ edziemy mieli podstaw do usuni¸ ecia tych obserwacji, nale˙zy zastosowa´ c metody selekcji zmiennych oparte na regresji odpornej (tych metod nie b¸ edziemy omawia´ c).

Kryteria s lu˙z¸ ace do wyboru najlepszego modelu:

1. Wsp´ o lczynnik determinacji R 2 i skorygowany wsp´ o lczynnik determinacji R 2 adj R 2 = SSR

SST = 1 − SSE

SST ,

(9)

gdzie, jak w modelu regresji jednokrotnej, SST = P n

i=1 (Y i − ¯ Y ) 2 - suma kwadrat´ ow odpowiadaj¸ aca za ca lkowit¸ a zmienno´ s´ c zmiennej obja´ snianej Y SSE = P n

i=1 (Y i − ˆ Y i ) 2 = P n

i=1 e 2 i - suma kwadrat´ ow b l¸ed´ ow (odpowiada za zmienno´ s´ c Y nie wyja´ snion¸ a przez model regresji), SSR = P n

i=1 ( ˆ Y i − ¯ Y ) 2 - regresyjna suma kwadrat´ ow (odpowiada za zmienno´ s´ c Y obja´ snian¸ a przez model regresji i zachodzi SST = SSE + SSR.

Tak jak w przypadku regresji jednokrotnej, warto´ s´ c wsp´ o lczynnika determinacji R 2 w modelu wielokrotnej regresji liniowej interpretujemy jako stosunek zmienno´ sci Y obja´ snianej przez model do zmienno´ sci ca lkowitej Y .

Je´ sli do modelu dodajemy jedn¸ a lub wi¸ ecej zmiennych obja´ sniaj¸ acych, to R 2 nie maleje (za- zwyczaj wzrasta), nawet je´ sli dodana zmienna/zmienne s¸ a w modelu nieistotne. Zatem, por´ ownuj¸ ac dopasowanie modeli liniowych o r´ o˙znej liczbie zmiennych obja´ sniaj¸ acych, nale˙zy patrze´ c na warto´ s´ c skorygowanego wsp´ o lczynnika determinacji R 2 adj , a nie na R 2 :

R 2 adj = 1 − SSE/(n − (p + 1)) SST /(n − 1) .

Mo˙zna wykaza´ c, ˙ze dodanie zmiennej obja´ sniaj¸ acej (lub zmiennych obja´ sniaj¸ acych) do modelu regresji zwi¸ekszy R 2 adj jedynie, gdy warto´ s´ c statystyki testu F sprawdzaj¸ acego istotno´ s´ c tych zmiennych b¸ edzie wi¸ eksza od 1.

2. Kryterium Akaike AIC (Akaike Information Criterion)

AIC = −2[funkcja wiarygodno´sci − (p + 2)]

= n ln( SSE n ) + 2p + (sta la),

| {z }

mo ˙zna pomin¸ a´ c

gdzie (sta la) nie zale˙zy od SSE i p, czyli jest taka sama dla wszystkich modeli zbudowanych na podstawie tego samego zbioru danych, wi¸ ec mo˙ze zosta´ c pomini¸ eta podczas por´ owna´ n.

Im AIC przyjmuje mniejsz¸ a warto´ s´ c, tym model jest lepszy.

Gdy n jest ma le lub gdy P +2 n ≤ 40, to AIC ma tendencj¸e do preferowania modeli z za du˙z¸ a liczb¸ a zmiennych. Dlatego w tej sytuacji zalecane jest u˙zywanie skorygowanego kryterium Akaike:

AIC c = AIC + 2(p + 2)(p + 3) n − p − 1 .

3. Kryterium Schwarza BIC (Schwarz Criterion lub Bayes Information Criterion)) BIC = n ln( SSE n ) + (p + 2) ln n

= n ln( SSE n ) + p ln n + 2 ln n,

| {z }

mo˙zna pomin¸ a´ c

gdzie 2 ln n jest sta l¸ a niezale˙zn¸ a od SSE i p, czyli jest takie samo dla wszystkich modeli zbudowanych na podstawie tego samego zbioru danych, wi¸ ec mo˙ze zosta´ c pomini¸ ete podczas por´ owna´ n.

Podobnie jak w przypadku AIC, im BIC przyjmuje mniejsz¸ a warto´ s´ c, tym model jest lepszy.

(10)

Chcemy wybra´ c ”najlepszy”podzbi´ or zmiennych obja´ sniaj¸ acych, usuwaj¸ ac zmienne nieistotne.

Poni˙zsze trzy metody wyboru takiego podzbioru mo˙zemy przeprowadzi´ c opieraj¸ ac si¸e na jednym z kryteri´ ow: R 2 adj , AIC, AIC c lub BIC.

1. Metoda eliminacji (backward elimination)

Rozpoczynamy od modelu pe lnego, zawieraj¸ acego wszystkie zmienne obja´ sniaj¸ ace. W ka˙zdym kroku usuwamy zmienn¸ a, kt´ ora ma najwi¸ eksz¸ a warto´ s´ c p-value testu istotno´ sci tej jednej zmiennej (poniewa˙z w ustalonym kroku por´ ownujemy modele o tej samej liczbie zmiennych, wyb´ or zmiennej o najwi¸ ekszym p-value jest r´ onowa˙zny wyborowi zmiennej, po usuni¸ eciu kt´ orej otrzymamy model o najmniejszej warto´ sci kryterium informacyjnego lub r´ ownowa˙znie o najwi¸ ekszej warto´ sci R adj ). Proces ten kontynuujemy a˙z do momentu, gdy kryterium wska- zuje, ˙ze po usuni¸ eciu zmiennej o najwi¸ ekszym p-value model ulegnie pogorszeniu (R 2 adj zmaleje albo AIC, AIC c albo BIC wzro´ snie) lub, gdy usuniemy wszystkie zmienne z modelu.

Warunek zako´ nczenia procedury mo˙zna tak˙ze oprze´ c na samej warto´ sci p-value - ko´ nczy´ c procedur¸ e, gdy usuniemy wszystkie zmienne z modelu lub gdy warto´ s´ c p-value testu istotno´ sci dla zmiennej wybranej do usuni¸ ecia, jest mniejsza b¸ ad´ z r´ owna pewnej warto´ sci granicznej p OU T (zwykle przyjmuje si¸ e p OU T = 0.05 lub p OU T = 0.1).

2. Metoda do l¸ aczania (forward selection)

Rozpoczynamy od modelu zawieraj¸ acego jedynie wyraz wolny. W ka˙zdym kroku dadajemy zmienn¸ a, kt´ ora ma najmniejsz¸ a warto´ s´ c p-value testu istotno´ sci tej jednej zmiennej. Pro- ces ten kontynuujemy a˙z do momentu, gdy kryterium wskazuje, ˙ze po dodaniu zmiennej o najmniejszym p-value model ulegnie pogorszeniu (R 2 adj zmaleje albo AIC, AIC c albo BIC wzro´ snie) lub, gdy dodamy wszystkie zmienne do modelu.

Podobnie jak w przypadku metody eliminacji, warunek zako´ nczenia procedury metody do l¸ a- czania mo˙zna te˙z oprze´ c na samej warto´ sci p-value - ko´ nczy´ c procedur¸ e, gdy dodamy wszystkie zmienne do modelu lub gdy warto´ s´ c p-value testu istotno´ sci dla zmiennej wybranej do dodania, jest wi¸ eksza b¸ ad´ z r´ owna pewnej warto´ sci granicznej p IN (zwykle przyjmuje si¸e p IN = 0.1 lub p IN = 0.2).

3. Metoda selekcji krokowej (stepwise regression)

Rozpoczynamy od modelu zawieraj¸ acego jedynie wyraz wolny. Pierwszy krok jest krokiem z metody do l¸ aczania, po nim wykonujemy krok z metody eliminacji i tak na zmian¸ e, a˙z do momentu, gdy stwierdzimy, ˙ze nie dodajemy ˙zadnej zmiennej do modelu.

Implementacja w R:

> step(object=model.poczatkowy, scope, direction=c(”backward”, ”forawrd”, ”both”), k)

> model.pelny=lm(zm.objasniana ∼ ·, data =

|{z}

ramka danych

)

> model.pusty=lm(zm.objasniana ∼ 1)

Metoda eliminacji oparta na kryterium AIC:

> step(model.pelny, scope=list(upper=model.pelny,lower=model.pusty), direction=”backward”, k=2) Metoda do l¸ aczania oparta na kryterium BIC:

> step(model.pusty, scope=list(upper=model.pelny,lower=model.pusty), direction=”forward”,

k=log(length(zm.objasniana)))

(11)

PRZYK LAD 12.1

Zbi´ or cigconsumption.txt zawiera dane dotycz¸ ace sprzeda˙zy papieros´ ow przypadaj¸ acej na jednego mieszka´ nca (zmienna Sales) w 51 stanach USA oraz dodatkowe zmienne obja´ sniaj¸ ace:

Age - mediana wieku populacji stanu, State - nazwa stanu,

HS - procent mieszka´ nc´ ow z wykszta lceniem co najmniej ´ srednim, Income - doch´ od przypadaj¸ acy na jednego mieszka´ nca,

Black - procent ludno´ sci czarnej,

Female - procentowy udzia l kobiet w populacji stanu, Price - wa˙zona ´ srednia cena paczki papieros´ ow.

(a) Dopasowa´ c model liniowy ze zmienn¸ a obja´ snian¸ a Sales i traktuj¸ ac wszystkie pozosta le zmienne z pomini¸ eciem State jako zmienne obja´ sniaj¸ ace. Jaka jest warto´ s´ c statystyki F w tym modelu i co ona oznacza? Kt´ ore zmienne maj¸ a odpowiadaj¸ ace p-warto´ sci wi¸ eksze od 0,05 i co to oznacza?

(b) Przetestowa´ c hipotez¸ e, ˙ze zmienne Female i HS (maj¸ ace najwi¸ eksze indywidualne p-warto´ sci) mog¸ a by´ c jednocze´ snie usuni¸ ete z modelu.

(c) Por´ owna´ c warto´ sci R 2 i skorygowanego R 2 w obu modelach.

(12)

Analiza wariancji jako szczeg´ olny przypadek regresji liniowej Model jednoczynnikowej analizy wariancji

Y ij = µ + α i + ε ij , i = 1, 2, . . . , k, j = 1, 2, . . . , n,

mo˙zemy zapisa´ c jako model regresji liniowej z k − 1 zmiennymi obja´ sniaj¸ acymi. Np. dla k = 3 i n = 4, przyjmuj¸ ac konwencj¸ e α 1 = 0, otrzymamy nast¸ epuj¸ acy model liniowy:

 Y 11 Y 12 Y 13

Y 14 Y 21 Y 22

Y 23

Y 24 Y 31

Y 32

Y 33 Y 34

=

1 0 0 1 0 0 1 0 0 1 0 0 1 1 0 1 1 0 1 1 0 1 1 0 1 0 1 1 0 1 1 0 1 1 0 1

·

 µ α 2

α 3

 +

 ε 11 ε 12 ε 13

ε 14 ε 21 ε 22

ε 23

ε 24 ε 31

ε 32

ε 33 ε 34

 .

Do weryfikacji hipotezy

H 0 : α 2 = α 3 = . . . = α k = 0 przeciwko hipotezie

H 1 : istnieje i takie, ˙ze α i 6= 0 u˙zywamy statystyki testowej

F = SSR/p

SSE/(˜ n − (p + 1)) =

P ˜ n

i=1 ( ˆ Y i − ¯ Y ) 2 /p P n ˜

i=1 (Y i − ˆ Y i ) 2 /(˜ n − (p + 1)) i zbioru krytycznego

W = [f 1−α,p,˜ n−(p+1) , +∞), gdzie p = k − 1, ˜ n = nk, ˆ Y i = ¯ Y i· , ¯ Y = ¯ Y ·· . Otrzymujemy zatem

F = n P k

i=1 ( ¯ Y − ¯ Y ·· ) 2 /(k − 1) P k

i=1

P n

j=1 (Y ij − ¯ Y ) 2 /(nk − k) =

1 k−1 SSA

1

k(n−1) SSE i W = [f 1−α,k−1,k(n−1) , +∞), czyli dok ladnie ten sam test co w analizie wariancji.

Analogicznie modele wieloczynnikowej analizy wariancji mog¸ a by´ c traktowane jako modele wie- lokrotnej regresji liniowej. Pozwala to, przy rozwi¸ azywaniu problemu analizy wariancji, na stoso- wanie metod opracowanych do analizy modelu regresji linowej. W szczeg´ olno´ sci

• umo˙zliwia to natychmiastowe uog´ olnienie analizy wariancji na przypadek, gdy liczno´ sci w gru- pach nie s¸ a r´ owne (czyli, gdy plan do´ swiadczenia nie jest zr´ ownowa˙zony);

• gdy wariancje w grupach nie s¸ a r´ owne, to mo˙zna skorzysta´ c z metody najmniejszych wa˙zonych

kwadrat´ ow (pod warunkiem, ˙ze znamy wariancje w grupach lub jeste´ smy w stanie je wysza-

cowa´ c - do tego potrzebujemy eksperyment z replikacjami).

Cytaty

Powiązane dokumenty

zawiera oświadczenie Wykonawcy o udzieleniu dla Zamawiającego 36 miesięcznej gwarancji, której bieg rozpoczyna się od daty spisania pozytywnego protokołu odbioru tych robót,

Osoby skreślone z listy członków PKZP powinny odebrać swoje wkłady najpóźniej ciągu 6 miesięcy od dnia skreślenia. Jeżeli były członek PKZP nie odbierze swoich wkładów w tym

Zachęcam Was również do zapoznania się z poradami dr Lisy Damour, która ukazuje, w jaki sposób, każdy z nas, może zadbać o swoje dobre samopoczucie w tym trudnym czasie....

Więcej kompetencji przenieść z urzędów na NGOsy, decyzje oddać w ręce wspólnych rad/komisji z udziałem NGOsów i urzędników.. Jawność kryteriów i wystawianych ocen wniosków

[r]

mont aż u szybko zmiennego

Teren, przez który przebiegać będzie projektowana sieć cieplna, jest uzbrojony w następujące sieci infrastruktury technicznej:.. • sieci

Powiatowe Centrum Pomocy Rodzinie i Powiatowy Urząd Pracy, należy wskazać Miasto Kowary i Gminę Mysłakowice, powiatowe jednostki oświatowe, domy