• Nie Znaleziono Wyników

3. Regresja liniowa

N/A
N/A
Protected

Academic year: 2021

Share "3. Regresja liniowa"

Copied!
8
0
0

Pełen tekst

(1)

3. Regresja liniowa

3.1. Założenia dotyczące modelu regresji liniowej

Aby można było wykorzystać model regresji liniowej, muszą być spełnione następujące założenia:

1. Relacja pomiędzy zmienną objaśnianą a zmiennymi objaśniającymi musi być niezmiennicza ze względu na obserwacje, tzn. jeśli istnieje N funkcji opisujących te relacje,

y = f

n

( x

1

, x

2

,..., x

k

, ε )

, n = 1,2,...,N, to

f

1

= f

2

= … = f

N

= f

2. Model jest liniowy względem parametrów, tzn. przy K zmiennych obja- śniających jego postać jest dana wzorem

ε α

α α

α

ε = + + + + +

= f x

1

x

2

x

k 0 1

x

1 2

x

2 K

x

K

y ( , ,..., , ) ...

3. Zmienna objaśniająca jest nielosowa, a jej wartości są ustalonymi licz- bami rzeczywistymi. Oznacza to, że

a) wartość oczekiwana zmiennej objaśnianej, E(y), nie jest warunkowa względem zmiennej objaśniającej x ,

b) wariancja zmiennej objaśnianej, D2(y), nie jest warunkowa wzglę- dem zmiennej objaśniającej x.

4. Składnik losowy ma rozkład normalny

5. Występujące zakłócenia, które reprezentuje składnik losowy ε, mają tendencje do wzajemnej redukcji: E(ε)=0 , (wartość oczekiwana jest równa zero).

6. Informacje zawarte w próbie są jedynymi, na podstawie których doko- nuje się estymacji parametrów modelu.

7. Poszczególne wartości składnika losowego nie zależą wzajemnie od siebie.

Założenia te nazywane są założeniami schematu Gaussa-Markowa i defi- niują tzw. standardowy model liniowy.

(2)

3.2. Estymacja modelu liniowego - metoda najmniejszych kwadratów Model liniowy postaci

ε α

α α

α + + + + +

=

0 1

x

1 2

x

2 K

x

K

y ...

można zapisać, wykorzystując zapis zmiennych oraz składnika losowego (elementów zakłócenia) w postaci macierzowej:

ε α

α α

α + + + + +

=

0 1

X

1 2

X

2 K

X

K

Y ...

gdzie - przy N obserwacjach - zmienne i składnik losowy maja postać

1 N Nx

2 1

y y y Y

 

 

 

 

= M

,

1 nk Nx

k 2

k 1

k

x x x X

 

 

 

 

= M

,

1 n Nx 2 1

 

 

 

 

= ε ε ε ε M

Wprowadzając macierze

) (K 1 NK Nx

2 N 1

N

K 2 22

21

K 1 12

11

x x

x 1

x x

x 1

x x

x 1 X

+

 

 

 

 

=

L

L L

L L

L

L L

, K K 1 x1

1 0

) ( +

 

 

 

 

= α

α α

α M

możemy zapisać model liniowy w zwartej postaci, a mianowicie:

ε α + Y = X

Numer obserwacji to dla wszystkich macierzy (oprócz α) numery wierszy.

Dla macierzy α liczba wierszy określona jest jako K+1 , co wynika z tego, ze wszystkie (poza pierwszym) elementy tej macierzy są współczynnikami przy zmiennych objaśniających, a pierwszy jest wyrazem wolnym.

Składnik losowy (macierz zakłócenia) to macierz różnic pomiędzy elemen- tami rzeczywistymi a przewidywanymi przez model:

α ε = Y − X

parametry strukturalne układu

(3)

3.3. Metoda najmniejszych kwadratów

Oczywiste jest, że model będzie tym lepiej opisywał zmienną objaśniana im mniejsze będą zakłócenia, opisywane przez macierz kolumnową

ε

. Taką

macierz można utożsamić z wektorem o n współrzędnych. Kwadrat długo- ści tego wektora zapiszemy w postaci

[ ]

=

= +

+ +

=

 

 

 

 

=

=

N

1 n

2 n 2

N 2

2 2 1

N 2 1 N 2

1

T

ε ε ε ε

ε ε ε ε

ε ε ε ε

φ L

L M

gdzie - zgodnie ze wzorem

ε = Y − X α

i wprowadzonymi oznaczeniami -

(

0 1 n1 2 n2 K nK

)

n

n

y α α x α x α x

ε = − + + + L +

Kwadrat długości wektora ε można zatem zapisać jako

( )

( ) (

0 1 K

)

N 1 n

2 nK K 2

n 2 1

n 1 0

n

T

ε y α α x α x α x φ α α α

ε

φ = = ∑ − + + + L + = , , K ,

=

czyli jako funkcję

K+1

zmiennych, którymi są parametry strukturalne mo- delu

α

0

, α

1

, K , α

K . Warunkiem koniecznym osiągnięcia minimum przez tę funkcję jest zerowanie się wszystkich pochodnych cząstkowych względem parametrów strukturalnych. Prowadzi to do układu równań:

( )

( y x x x ) x 0 k 0 1 2 K

2

N 1

n n 0 1 n1 2 n2 K nK nk

k

,..., , , , =

= +

+ +

+

∂ =

∂ ∑

=

α α

α α α

φ L

gdzie

x

n0

=1 , n = 1,2,...,N

. Ten układ równań można – po podzieleniu przez 2 – zapisać w zwartej, macierzowej postaci:

( Y X ) 0

X

T

− α =

Jest to tzw. układ równań normalnych.

(4)

Układ równań normalnych

X

T

( Y − X α ) = 0

można zapisać w postaci

Y X X

X

T

α =

T

Jeśli macierz

X

T

X

jest nieosobliwa (czyli istnieje macierz do niej odwrot- na), to mnożąc lewostronnie powyższe równanie przez

(X

T

X)

-1 otrzymuje- my wektor parametrów strukturalnych w postaci:

( X

T

X )

1

X

T

Y

α =

Można sprawdzić bezpośrednim rachunkiem, że dla tak wyznaczonych pa- rametrów strukturalnych macierz 2

2 X

T

X

k 2

 =

 

∂ α

φ

jest dodatnio określona,

z czego wynika, że funkcja

φ ( α

0

, α

1

, K , α

K

)

osiąga dla nich minimum. To oznacza, że dla tak wyznaczonej macierzy α składnik losowy (macierz za- kłócenia) jest rzeczywiście zminimalizowany.

Tym samym znamy postać modelu liniowego z dokładnością do zminimali- zowanych zakłóceń:

ε α

α α

α + + + + +

=

0 1

x

1 2

x

2 K

x

K

y ...

Przykład 2

Tabela przedstawia dane dotyczące liczby ludności x oraz liczby uczniów szkół podstawowych y w powiatach województwa święto- krzyskiego w 2002 roku (bez powiatu grodzkiego Kielce):

B J K W Kie Ko Op Ost P San S-K Star Stasz Wło X1 76 255 92 135 37 617 196 528 87 747 59 138 121 715 43 692 85 858 83 917 98 529 78 091 48 123 Y 5 993 7 473 3 011 19 078 7 002 4 934 8 829 3 517 7 017 5 887 7 839 6 813 4 338

Wyznaczyć liniową postać modelu ekonometrycznego opisującego

liczbę uczniów w zależności od liczby ludności w powiatach.

(5)

Rozwiązanie:

Ponieważ jest jedna zmienna objaśniająca, zatem szukamy funkcji

1 1

0

X

Y = α + α

W tym przykładzie K = 1 (jedna zmienna objaśniająca) oraz N = 13 (trzy- naście powiatów). Odpowiednie macierze są następujące:

 

 

= 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

1

0

α

α α , ,

48123 1

78091 1

98529 1

83917 1

85858 1

43692 1

121715 1

59138 1

87747 1

196528 1

37617 1

92135 1

76255 1

X

4338 6813 7839 5887 7017 3517 8829 4934 7002 19078

3011 7473 5993

Y

Najpierw obliczymy

X

T

X

:

 

 

= 

69 1147979981 1109345

1109345 X 13

X

T - jak widać, jest ona symetryczna.

Jej wyznacznik det(XTX)= 261727647172 ≠ 0. Zatem istnieje macierz od- wrotna:

( )

 

= −

4967 0000000000

0 47 0000042385 ,

0

47 0000042385 ,

0 43861625

, X 0

X

T 1

,

(6)

Obliczenie iloczynu XTY prowadzi do wyniku

 

 

= 

9752270279 91731 Y

X

T

skąd

( ) 

 

= −

=

09558863 ,

0

751509 ,

Y 1100 X

X

X

T 1 T

α

co oznacza, że α0 = -1100,75 oraz α1 = 0,09558863. Zatem model eko- nometryczny zależności pomiędzy liczbą ludności w powiecie województwa świętokrzyskiego a liczbą uczniów szkół podstawowych wyraża się wzo- rem:

y = -1100,75 + 0,09558863x

Porównajmy, jak wygląda obliczona liczba uczniów w powiatach w porów- naniu z liczbą faktyczna:

powiat Bus Jęd Ka W Kie Ko Op Ost Piń San S-K Star Stasz Wło Y dane 5 993 7 473 3 011 19 078 7 002 4 934 8 829 3 517 7 017 5 887 7 839 6 813 4 338 Y obl 6 188 7 706 2 495 17 685 7 287 4 552 10 534 3 076 7 106 6 921 8 318 6 364 3 499 Yd - Yo -195 -233 516 1393 -285 382 -1705 441 -89 -1034 -479 449 839 błąd % -3,26 -3,12 17,14 7,30 -4,07 7,74 -19,31 12,55 -1,27 -17,56 -6,10 6,59 19,33 Jak widać z tabeli, w niektórych powiatach występuje znaczne odstępstwo wartości obliczonych od faktycznych.

Przykład 1 – cd

Wyznaczyć liniową postać modelu ekonometrycznego opisującego produkcję firmy w mld zł (y) przy następujących zmiennych obja- śniających (numeracja jak w części 1):

x

2

– wartość środków trwałych (mld zł), x

3

– czas przestoju maszyn (dni).

Podane w tym przykładzie dwie zmienne objaśniające zostały wy- brane arbitralnie spośród trzech „kandydatek”. Aby uniknąć niepo- rozumień co do numeracji, wprowadzono oznaczenia

X

I

=x

2

(7)

Rozwiązanie

Ponieważ mamy tu dwie zmienne objaśniające, więc szukamy funkcji

II 2 I

1

0

X X

Y = α + α + α

W tym przykładzie K = 2 (dwie zmienne objaśniające) oraz N = 10 (dane z dziesięciu lat). Odpowiednie macierze mają postać:

 

 

=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

 

 

 

 

 

 

 

 

 

 

 

 

 

 

=

2 1 0

26 18

1

26 16

1

24 16

1

24 14

1

18 8

1

18 8

1

18 12

1

18 12

1

14 8

1

14 8

1

X

22 20 20 20 14 12 16 16 10 10

Y

α α α α

,

,

Najpierw obliczymy

X

T

X

:

 

 

=

4192 2548

200

2548 1576

120

200 120

10 X

X

T

Jak widać, jest to macierz symetryczna. Jej wyznacznik det(XTX)= 42080.

Stąd macierz odwrotna:

( )

 

 

=

0323 0

0352 0

2243 0

0352 0

0456 0

1559 0

2243 0

1559 0

7160 2

X X

T 1

, ,

,

, ,

,

, ,

,

(8)

Obliczenie iloczynu XTY prowadzi do wyniku

 

 

=

3376 2068 160 Y

X

T

skąd

( )

 

 

−

=

=

4828897 0

5627376 0

4106464 0

Y X X

X

T 1 T

, , , α

co oznacza, że α0 = - 0,4106464, α1 = 0,5627376 oraz α2 = 0,4828897. Za- tem model ekonometryczny zależności pomiędzy produkcją firmy w mld zł (y) a wartością środków trwałych (mld zł) i czasem przestoju maszyn (dni) wyraża się wzorem:

y = - 0,4106464 + 0,5627376XI +0,4828897XII

Porównajmy, jak wygląda obliczona wartość produkcji firmy w mld zł w po- równaniu z wartością faktyczną:

Lata ‘71 ‘72 ‘73 ‘74 ‘75 ‘76 ‘77 ‘78 ‘79 ‘80 Y dane 10 10 16 16 12 14 20 20 20 22

Y obl 10,852 10,852 15,034 15,034 12,783 12,783 19,057 20,183 21,148 22,274 Yd - Yob.= εεεε 0,852 0,852 -0,966 -0,966 0,783 -1,217 -0,943 0,183 1,148 0,274

błąd % 8,52 8,52 -6,04 -6,04 6,53 -8,69 -4,72 0,91 5,74 1,24 Jak widać z tabeli, występuje tu nieznaczne odstępstwo wartości obliczo- nych od faktycznych.

Na koniec wypiszmy własności wektora α :

α ε

α Y X

X

Y = + ,

obl

=

( Y Y ) 0

I I

N 1 n

n obl

T

T

= − = ∑ =

=

ε ε

( Y X ) X Y X X 0

X

X

T

ε =

T

− α =

T

T

α =

( X ) X 0

Y

T

ε = α

T

ε = α

T T

ε =

Cytaty

Powiązane dokumenty

Nawet jeżeli dla pewnej funkcji f rozwiązanie istnieje to nie zależy w sposób ciągły od parametrów zadania (czyli funkcji f ).. 4.4

1 Dane Hubble’a o prędkości ucieczki gromad znajdujących się poza Drogą Mleczną.. Źródło: Hubble, E., A Relatiom Between Distance and Radial Velocity Among

1 Dane Hubble’a o prędkości ucieczki gromad znajdujących się poza Drogą Mleczną.. Źródło: Hubble, E., A Relatiom Between Distance and Radial Velocity Among

Badacz na podstawie zebranych danych skonstruował za pomocą analizy regresji model regresyjny, w którym wykazał zależność liniową pomiędzy poziomem inteligencji uczniów a

Wyka˙z, ˙ze dla ka˙zdej liczby rzeczywistej λ problem powy˙zszy posiada niezerowe gÃladkie rozwi azania.. , Wskaz´ owka: metoda

Obniżenie oceny o 0,5 następuje w przypadku każdorazowego niezaliczenia nieobecności na zajęciach we wskazanym terminie (por. b) oraz w przypadku

Współczynnik korelacji liniowej Pearsona Aby ocenić korelację pomiędzy zmiennymi należy znać:.  poziom istotności p współczynnika r (określa, czy korelacje jest/nie

• zakłada się, że rozważane zmienne zostały zmierzone co najmniej na skali porządkowej (rangowej), tzn. że indywidualne obserwacje mogą być zestawione