3. Regresja liniowa

(1)

3. Regresja liniowa

3.1. Założenia dotyczące modelu regresji liniowej

Aby można było wykorzystać model regresji liniowej, muszą być spełnione następujące założenia:

1. Relacja pomiędzy zmienną objaśnianą a zmiennymi objaśniającymi musi być niezmiennicza ze względu na obserwacje, tzn. jeśli istnieje N funkcji opisujących te relacje,

y = f

_n

( x

₁

, x

₂

,..., x

_k

, ε )

, n = 1,2,...,N, to

f

₁

= f

₂

= … = f

_N

= f

2. Model jest liniowy względem parametrów, tzn. przy K zmiennych obja- śniających jego postać jest dana wzorem

ε α

α α

α

ε = + + + + +

= f x

₁

x

₂

x

_k ₀ ₁

x

₁ ₂

x

₂ _K

x

_K

y ( , ,..., , ) ...

3. Zmienna objaśniająca jest nielosowa, a jej wartości są ustalonymi licz- bami rzeczywistymi. Oznacza to, że

a) wartość oczekiwana zmiennej objaśnianej, E(y), nie jest warunkowa względem zmiennej objaśniającej x ,

b) wariancja zmiennej objaśnianej, D²(y), nie jest warunkowa wzglę- dem zmiennej objaśniającej x.

4. Składnik losowy ma rozkład normalny

5. Występujące zakłócenia, które reprezentuje składnik losowy ε, mają tendencje do wzajemnej redukcji: E(ε)=0 , (wartość oczekiwana jest równa zero).

6. Informacje zawarte w próbie są jedynymi, na podstawie których doko- nuje się estymacji parametrów modelu.

7. Poszczególne wartości składnika losowego nie zależą wzajemnie od siebie.

Założenia te nazywane są założeniami schematu Gaussa-Markowa i defi- niują tzw. standardowy model liniowy.

(2)

3.2. Estymacja modelu liniowego - metoda najmniejszych kwadratów Model liniowy postaci

ε α

α α

α + + + + +

=

₀ ₁

x

₁ ₂

x

₂ _K

x

_K

y ...

można zapisać, wykorzystując zapis zmiennych oraz składnika losowego (elementów zakłócenia) w postaci macierzowej:

ε α

α α

α + + + + +

=

₀ ₁

X

₁ ₂

X

₂ _K

X

_K

Y ...

gdzie - przy N obserwacjach - zmienne i składnik losowy maja postać

1 N Nx

2 1

y y y Y

 





 





= M

^,

1 nk Nx

k 2

k 1

k

x x x X

 





 





= M

^,

1 n Nx 2 1

 





 





= ε ε ε ε M

Wprowadzając macierze

) (K 1 NK Nx

2 N 1

N

K 2 22

21

K 1 12

11

x x

x 1

x x

x 1

x x

x 1 X

+

 





 





=

L

L L

L

L L

, ^K ^K ¹ ^x¹

1 0

) ( +

 





 





= α

α α

α M

możemy zapisać model liniowy w zwartej postaci, a mianowicie:

ε α + Y = X

Numer obserwacji to dla wszystkich macierzy (oprócz α) numery wierszy.

Dla macierzy α liczba wierszy określona jest jako K+1 , co wynika z tego, ze wszystkie (poza pierwszym) elementy tej macierzy są współczynnikami przy zmiennych objaśniających, a pierwszy jest wyrazem wolnym.

Składnik losowy (macierz zakłócenia) to macierz różnic pomiędzy elemen- tami rzeczywistymi a przewidywanymi przez model:

α ε = Y − X

parametry strukturalne układu

(3)

3.3. Metoda najmniejszych kwadratów

Oczywiste jest, że model będzie tym lepiej opisywał zmienną objaśniana im mniejsze będą zakłócenia, opisywane przez macierz kolumnową

ε

^{. Taką}

macierz można utożsamić z wektorem o n współrzędnych. Kwadrat długo- ści tego wektora zapiszemy w postaci

[ ] ^∑

=

= +

+ +

=

 





 





=

^N

1 n

2 n 2

N 2

2 2 1

N 2 1 N 2

1

T

ε ε ε ε

φ ^L

L M

gdzie - zgodnie ze wzorem

ε = Y − X α

i wprowadzonymi oznaczeniami -

(

₀ ₁ _n₁ ₂ _n₂ _K _nK

)

n

y α α x α x α x

ε = − + + + L +

Kwadrat długości wektora ε można zatem zapisać jako

( )

( ) (

₀ ₁ _K

)

N 1 n

2 nK K 2

n 2 1

n 1 0

n

T

ε y α α x α x α x φ α α α

ε

φ = = ∑ − + + + ^L + = ^, ^, ^K ^,

=

czyli jako funkcję

K+1

zmiennych, którymi są parametry strukturalne modelu

α

₀

^, α

₁

^, ^K ^, α

_K . Warunkiem koniecznym osiągnięcia minimum przez tę funkcję jest zerowanie się wszystkich pochodnych cząstkowych względem parametrów strukturalnych. Prowadzi to do układu równań:

( )

( y x x x ) x 0 k 0 1 2 K

2

N 1

n n 0 1 n1 2 n2 K nK nk

k

,..., , , , =

= +

+ +

+

−

∂ =

∂ ∑

=

α α

α α α

φ _L

gdzie

x

_n0

=1 , n = 1,2,...,N

. Ten układ równań można – po podzieleniu przez 2 – zapisać w zwartej, macierzowej postaci:

( Y X ) 0

X

^T

− α =

Jest to tzw. układ równań normalnych.

(4)

Układ równań normalnych

X

^T

( Y − X α ) = 0

można zapisać w postaci

Y X X

X

^T

α =

^T

Jeśli macierz

X

^T

X

jest nieosobliwa (czyli istnieje macierz do niej odwrotna), to mnożąc lewostronnie powyższe równanie przez

(X

^T

X)

^-1 otrzymuje- my wektor parametrów strukturalnych w postaci:

( ^X

^T

^X )

⁻¹

^X

^T

^Y

α =

Można sprawdzić bezpośrednim rachunkiem, że dla tak wyznaczonych pa- rametrów strukturalnych macierz ₂

2 X

^T

X

k 2

 =



 





∂

∂ α

φ

jest dodatnio określona,

z czego wynika, że funkcja

φ ( α

₀

, α

₁

, K , α

_K

)

osiąga dla nich minimum. To oznacza, że dla tak wyznaczonej macierzy α składnik losowy (macierz za- kłócenia) jest rzeczywiście zminimalizowany.

Tym samym znamy postać modelu liniowego z dokładnością do zminimali- zowanych zakłóceń:

ε α

α α

α + + + + +

=

₀ ₁

x

₁ ₂

x

₂ _K

x

_K

y ...

Przykład 2

Tabela przedstawia dane dotyczące liczby ludności x oraz liczby uczniów szkół podstawowych y w powiatach województwa święto- krzyskiego w 2002 roku (bez powiatu grodzkiego Kielce):

B J K W Kie Ko Op Ost P San S-K Star Stasz Wło X1 76 255 92 135 37 617 196 528 87 747 59 138 121 715 43 692 85 858 83 917 98 529 78 091 48 123 Y 5 993 7 473 3 011 19 078 7 002 4 934 8 829 3 517 7 017 5 887 7 839 6 813 4 338

Wyznaczyć liniową postać modelu ekonometrycznego opisującego

liczbę uczniów w zależności od liczby ludności w powiatach.

(5)

Rozwiązanie:

Ponieważ jest jedna zmienna objaśniająca, zatem szukamy funkcji

1 1

0

X

Y = α + α

W tym przykładzie K = 1 (jedna zmienna objaśniająca) oraz N = 13 (trzy- naście powiatów). Odpowiednie macierze są następujące:

 

 



= 

 





 





=

 





 





=

1

0

α

α α , ,

48123 1

78091 1

98529 1

83917 1

85858 1

43692 1

121715 1

59138 1

87747 1

196528 1

37617 1

92135 1

76255 1

X

4338 6813 7839 5887 7017 3517 8829 4934 7002 19078

3011 7473 5993

Y

Najpierw obliczymy

X

^T

X

^:

 

 



= 

69 1147979981 1109345

1109345 X 13

X

^T - jak widać, jest ona symetryczna.

Jej wyznacznik det(X^TX)= 261727647172 ≠ 0. Zatem istnieje macierz odwrotna:

( ) _



 





−

= −

−

4967 0000000000

0 47 0000042385 ,

0 43861625

, X 0

X

^T ¹

,

(6)

Obliczenie iloczynu X^TY prowadzi do wyniku

 

 



= 

9752270279 91731 Y

X

^T

skąd

( ) 



 



= −

=

⁻

09558863 ,

0 751509 ,

Y 1100 X

X

^T ¹ ^T

α

co oznacza, że α0 = -1100,75 oraz α1 = 0,09558863. Zatem model ekonometryczny zależności pomiędzy liczbą ludności w powiecie województwa świętokrzyskiego a liczbą uczniów szkół podstawowych wyraża się wzorem:

y = -1100,75 + 0,09558863x

Porównajmy, jak wygląda obliczona liczba uczniów w powiatach w porów- naniu z liczbą faktyczna:

powiat Bus Jęd Ka W Kie Ko Op Ost Piń San S-K Star Stasz Wło Y dane 5 993 7 473 3 011 19 078 7 002 4 934 8 829 3 517 7 017 5 887 7 839 6 813 4 338 Y obl 6 188 7 706 2 495 17 685 7 287 4 552 10 534 3 076 7 106 6 921 8 318 6 364 3 499 Yd - Yo -195 -233 516 1393 -285 382 -1705 441 -89 -1034 -479 449 839 błąd % -3,26 -3,12 17,14 7,30 -4,07 7,74 -19,31 12,55 -1,27 -17,56 -6,10 6,59 19,33 Jak widać z tabeli, w niektórych powiatach występuje znaczne odstępstwo wartości obliczonych od faktycznych.

Przykład 1 – cd

Wyznaczyć liniową postać modelu ekonometrycznego opisującego produkcję firmy w mld zł (y) przy następujących zmiennych obja- śniających (numeracja jak w części 1):

x

₂

– wartość środków trwałych (mld zł), x

₃

– czas przestoju maszyn (dni).

Podane w tym przykładzie dwie zmienne objaśniające zostały wy- brane arbitralnie spośród trzech „kandydatek”. Aby uniknąć niepo- rozumień co do numeracji, wprowadzono oznaczenia

X

_I

=x

₂

(7)

Rozwiązanie

Ponieważ mamy tu dwie zmienne objaśniające, więc szukamy funkcji

II 2 I

1

0

X X

Y = α + α + α

W tym przykładzie K = 2 (dwie zmienne objaśniające) oraz N = 10 (dane z dziesięciu lat). Odpowiednie macierze mają postać:

 







 







=

 





 





=

 





 





=

2 1 0

26 18

1 26 16

1 24 16

1 24 14

1 18 8

1 18 12

1 14 8

1 X

22 20 20 20 14 12 16 16 10 10

Y

α α α α

,

Najpierw obliczymy

X

^T

X

^:

 







 







=

4192 2548

200 2548 1576

120 200 120

10 X

X

^T

Jak widać, jest to macierz symetryczna. Jej wyznacznik det(X^TX)= 42080.

Stąd macierz odwrotna:

( )

 







 







−

=

0323 0

0352 0

2243 0

0352 0

0456 0

1559 0

2243 0

1559 0

7160 2

X X

^T ¹

, ,

,

, ,

,

, ,

,

(8)

Obliczenie iloczynu X^TY prowadzi do wyniku

 







 







=

3376 2068 160 Y

X

^T

skąd

( )

 







 





−

=

⁻

4828897 0

5627376 0

4106464 0

Y X X

X

^T ¹ ^T

, , , α

co oznacza, że α0 = - 0,4106464, α1 = 0,5627376 oraz α2 = 0,4828897. Za- tem model ekonometryczny zależności pomiędzy produkcją firmy w mld zł (y) a wartością środków trwałych (mld zł) i czasem przestoju maszyn (dni) wyraża się wzorem:

y = - 0,4106464 + 0,5627376X_I+0,4828897X_II

Porównajmy, jak wygląda obliczona wartość produkcji firmy w mld zł w po- równaniu z wartością faktyczną:

Lata ‘71 ‘72 ‘73 ‘74 ‘75 ‘76 ‘77 ‘78 ‘79 ‘80 Y dane 10 10 16 16 12 14 20 20 20 22

Y obl 10,852 10,852 15,034 15,034 12,783 12,783 19,057 20,183 21,148 22,274 Yd - Yob.= εεεε 0,852 0,852 -0,966 -0,966 0,783 -1,217 -0,943 0,183 1,148 0,274

błąd % 8,52 8,52 -6,04 -6,04 6,53 -8,69 -4,72 0,91 5,74 1,24 Jak widać z tabeli, występuje tu nieznaczne odstępstwo wartości obliczonych od faktycznych.