3. Regresja liniowa
3.1. Założenia dotyczące modelu regresji liniowej
Aby można było wykorzystać model regresji liniowej, muszą być spełnione następujące założenia:
1. Relacja pomiędzy zmienną objaśnianą a zmiennymi objaśniającymi musi być niezmiennicza ze względu na obserwacje, tzn. jeśli istnieje N funkcji opisujących te relacje,
y = f
n( x
1, x
2,..., x
k, ε )
, n = 1,2,...,N, tof
1= f
2= … = f
N= f
2. Model jest liniowy względem parametrów, tzn. przy K zmiennych obja- śniających jego postać jest dana wzorem
ε α
α α
α
ε = + + + + +
= f x
1x
2x
k 0 1x
1 2x
2 Kx
Ky ( , ,..., , ) ...
3. Zmienna objaśniająca jest nielosowa, a jej wartości są ustalonymi licz- bami rzeczywistymi. Oznacza to, że
a) wartość oczekiwana zmiennej objaśnianej, E(y), nie jest warunkowa względem zmiennej objaśniającej x ,
b) wariancja zmiennej objaśnianej, D2(y), nie jest warunkowa wzglę- dem zmiennej objaśniającej x.
4. Składnik losowy ma rozkład normalny
5. Występujące zakłócenia, które reprezentuje składnik losowy ε, mają tendencje do wzajemnej redukcji: E(ε)=0 , (wartość oczekiwana jest równa zero).
6. Informacje zawarte w próbie są jedynymi, na podstawie których doko- nuje się estymacji parametrów modelu.
7. Poszczególne wartości składnika losowego nie zależą wzajemnie od siebie.
Założenia te nazywane są założeniami schematu Gaussa-Markowa i defi- niują tzw. standardowy model liniowy.
3.2. Estymacja modelu liniowego - metoda najmniejszych kwadratów Model liniowy postaci
ε α
α α
α + + + + +
=
0 1x
1 2x
2 Kx
Ky ...
można zapisać, wykorzystując zapis zmiennych oraz składnika losowego (elementów zakłócenia) w postaci macierzowej:
ε α
α α
α + + + + +
=
0 1X
1 2X
2 KX
KY ...
gdzie - przy N obserwacjach - zmienne i składnik losowy maja postać
1 N Nx
2 1
y y y Y
= M
,1 nk Nx
k 2
k 1
k
x x x X
= M
,1 n Nx 2 1
= ε ε ε ε M
Wprowadzając macierze
) (K 1 NK Nx
2 N 1
N
K 2 22
21
K 1 12
11
x x
x 1
x x
x 1
x x
x 1 X
+
=
L
L L
L L
L
L L
, K K 1 x1
1 0
) ( +
= α
α α
α M
możemy zapisać model liniowy w zwartej postaci, a mianowicie:
ε α + Y = X
Numer obserwacji to dla wszystkich macierzy (oprócz α) numery wierszy.
Dla macierzy α liczba wierszy określona jest jako K+1 , co wynika z tego, ze wszystkie (poza pierwszym) elementy tej macierzy są współczynnikami przy zmiennych objaśniających, a pierwszy jest wyrazem wolnym.
Składnik losowy (macierz zakłócenia) to macierz różnic pomiędzy elemen- tami rzeczywistymi a przewidywanymi przez model:
α ε = Y − X
parametry strukturalne układu
3.3. Metoda najmniejszych kwadratów
Oczywiste jest, że model będzie tym lepiej opisywał zmienną objaśniana im mniejsze będą zakłócenia, opisywane przez macierz kolumnową
ε
. Takąmacierz można utożsamić z wektorem o n współrzędnych. Kwadrat długo- ści tego wektora zapiszemy w postaci
[ ] ∑
=
= +
+ +
=
=
=
N1 n
2 n 2
N 2
2 2 1
N 2 1 N 2
1
T
ε ε ε ε
ε ε ε ε
ε ε ε ε
φ L
L M
gdzie - zgodnie ze wzorem
ε = Y − X α
i wprowadzonymi oznaczeniami -(
0 1 n1 2 n2 K nK)
n
n
y α α x α x α x
ε = − + + + L +
Kwadrat długości wektora ε można zatem zapisać jako
( )
( ) (
0 1 K)
N 1 n
2 nK K 2
n 2 1
n 1 0
n
T
ε y α α x α x α x φ α α α
ε
φ = = ∑ − + + + L + = , , K ,
=
czyli jako funkcję
K+1
zmiennych, którymi są parametry strukturalne mo- deluα
0, α
1, K , α
K . Warunkiem koniecznym osiągnięcia minimum przez tę funkcję jest zerowanie się wszystkich pochodnych cząstkowych względem parametrów strukturalnych. Prowadzi to do układu równań:( )
( y x x x ) x 0 k 0 1 2 K
2
N 1
n n 0 1 n1 2 n2 K nK nk
k
,..., , , , =
= +
+ +
+
−
∂ =
∂ ∑
=
α α
α α α
φ L
gdzie
x
n0=1 , n = 1,2,...,N
. Ten układ równań można – po podzieleniu przez 2 – zapisać w zwartej, macierzowej postaci:( Y X ) 0
X
T− α =
Jest to tzw. układ równań normalnych.
Układ równań normalnych
X
T( Y − X α ) = 0
można zapisać w postaciY X X
X
Tα =
TJeśli macierz
X
TX
jest nieosobliwa (czyli istnieje macierz do niej odwrot- na), to mnożąc lewostronnie powyższe równanie przez(X
TX)
-1 otrzymuje- my wektor parametrów strukturalnych w postaci:( X T X )
−1X
TY
α =
Można sprawdzić bezpośrednim rachunkiem, że dla tak wyznaczonych pa- rametrów strukturalnych macierz 2
2 X
TX
k 2
=
∂
∂ α
φ
jest dodatnio określona,z czego wynika, że funkcja
φ ( α
0, α
1, K , α
K)
osiąga dla nich minimum. To oznacza, że dla tak wyznaczonej macierzy α składnik losowy (macierz za- kłócenia) jest rzeczywiście zminimalizowany.Tym samym znamy postać modelu liniowego z dokładnością do zminimali- zowanych zakłóceń:
ε α
α α
α + + + + +
=
0 1x
1 2x
2 Kx
Ky ...
Przykład 2
Tabela przedstawia dane dotyczące liczby ludności x oraz liczby uczniów szkół podstawowych y w powiatach województwa święto- krzyskiego w 2002 roku (bez powiatu grodzkiego Kielce):
B J K W Kie Ko Op Ost P San S-K Star Stasz Wło X1 76 255 92 135 37 617 196 528 87 747 59 138 121 715 43 692 85 858 83 917 98 529 78 091 48 123 Y 5 993 7 473 3 011 19 078 7 002 4 934 8 829 3 517 7 017 5 887 7 839 6 813 4 338
Wyznaczyć liniową postać modelu ekonometrycznego opisującego
liczbę uczniów w zależności od liczby ludności w powiatach.
Rozwiązanie:
Ponieważ jest jedna zmienna objaśniająca, zatem szukamy funkcji
1 1
0
X
Y = α + α
W tym przykładzie K = 1 (jedna zmienna objaśniająca) oraz N = 13 (trzy- naście powiatów). Odpowiednie macierze są następujące:
=
=
=
1
0
α
α α , ,
48123 1
78091 1
98529 1
83917 1
85858 1
43692 1
121715 1
59138 1
87747 1
196528 1
37617 1
92135 1
76255 1
X
4338 6813 7839 5887 7017 3517 8829 4934 7002 19078
3011 7473 5993
Y
Najpierw obliczymy
X
TX
:
=
69 1147979981 1109345
1109345 X 13
X
T - jak widać, jest ona symetryczna.Jej wyznacznik det(XTX)= 261727647172 ≠ 0. Zatem istnieje macierz od- wrotna:
( )
−
= −
−
4967 0000000000
0 47 0000042385 ,
0
47 0000042385 ,
0 43861625
, X 0
X
T 1,
Obliczenie iloczynu XTY prowadzi do wyniku
=
9752270279 91731 Y
X
Tskąd
( )
= −
=
−09558863 ,
0
751509 ,
Y 1100 X
X
X
T 1 Tα
co oznacza, że α0 = -1100,75 oraz α1 = 0,09558863. Zatem model eko- nometryczny zależności pomiędzy liczbą ludności w powiecie województwa świętokrzyskiego a liczbą uczniów szkół podstawowych wyraża się wzo- rem:
y = -1100,75 + 0,09558863x
Porównajmy, jak wygląda obliczona liczba uczniów w powiatach w porów- naniu z liczbą faktyczna:
powiat Bus Jęd Ka W Kie Ko Op Ost Piń San S-K Star Stasz Wło Y dane 5 993 7 473 3 011 19 078 7 002 4 934 8 829 3 517 7 017 5 887 7 839 6 813 4 338 Y obl 6 188 7 706 2 495 17 685 7 287 4 552 10 534 3 076 7 106 6 921 8 318 6 364 3 499 Yd - Yo -195 -233 516 1393 -285 382 -1705 441 -89 -1034 -479 449 839 błąd % -3,26 -3,12 17,14 7,30 -4,07 7,74 -19,31 12,55 -1,27 -17,56 -6,10 6,59 19,33 Jak widać z tabeli, w niektórych powiatach występuje znaczne odstępstwo wartości obliczonych od faktycznych.
Przykład 1 – cd
Wyznaczyć liniową postać modelu ekonometrycznego opisującego produkcję firmy w mld zł (y) przy następujących zmiennych obja- śniających (numeracja jak w części 1):
x
2– wartość środków trwałych (mld zł), x
3– czas przestoju maszyn (dni).
Podane w tym przykładzie dwie zmienne objaśniające zostały wy- brane arbitralnie spośród trzech „kandydatek”. Aby uniknąć niepo- rozumień co do numeracji, wprowadzono oznaczenia
X
I=x
2Rozwiązanie
Ponieważ mamy tu dwie zmienne objaśniające, więc szukamy funkcji
II 2 I
1
0
X X
Y = α + α + α
W tym przykładzie K = 2 (dwie zmienne objaśniające) oraz N = 10 (dane z dziesięciu lat). Odpowiednie macierze mają postać:
=
=
=
2 1 0
26 18
1
26 16
1
24 16
1
24 14
1
18 8
1
18 8
1
18 12
1
18 12
1
14 8
1
14 8
1
X
22 20 20 20 14 12 16 16 10 10
Y
α α α α
,
,
Najpierw obliczymy
X
TX
:
=
4192 2548
200
2548 1576
120
200 120
10 X
X
TJak widać, jest to macierz symetryczna. Jej wyznacznik det(XTX)= 42080.
Stąd macierz odwrotna:
( )
−
−
−
−
−
=
0323 0
0352 0
2243 0
0352 0
0456 0
1559 0
2243 0
1559 0
7160 2
X X
T 1, ,
,
, ,
,
, ,
,
Obliczenie iloczynu XTY prowadzi do wyniku
=
3376 2068 160 Y
X
Tskąd
( )
−
=
=
−4828897 0
5627376 0
4106464 0
Y X X
X
T 1 T, , , α
co oznacza, że α0 = - 0,4106464, α1 = 0,5627376 oraz α2 = 0,4828897. Za- tem model ekonometryczny zależności pomiędzy produkcją firmy w mld zł (y) a wartością środków trwałych (mld zł) i czasem przestoju maszyn (dni) wyraża się wzorem:
y = - 0,4106464 + 0,5627376XI +0,4828897XII
Porównajmy, jak wygląda obliczona wartość produkcji firmy w mld zł w po- równaniu z wartością faktyczną:
Lata ‘71 ‘72 ‘73 ‘74 ‘75 ‘76 ‘77 ‘78 ‘79 ‘80 Y dane 10 10 16 16 12 14 20 20 20 22
Y obl 10,852 10,852 15,034 15,034 12,783 12,783 19,057 20,183 21,148 22,274 Yd - Yob.= εεεε 0,852 0,852 -0,966 -0,966 0,783 -1,217 -0,943 0,183 1,148 0,274
błąd % 8,52 8,52 -6,04 -6,04 6,53 -8,69 -4,72 0,91 5,74 1,24 Jak widać z tabeli, występuje tu nieznaczne odstępstwo wartości obliczo- nych od faktycznych.
Na koniec wypiszmy własności wektora α :
α ε
α Y X
X
Y = + ,
obl=
( Y Y ) 0
I I
N 1 n
n obl
T
T
= − = ∑ =
=