• Nie Znaleziono Wyników

sgnsgn == 1r = , 979350r r = sgnsgn k=1,2,...,K  rrrR  M = 4. Weryfikacja modelu LMOMMLL 1rrr1rrr1R =

N/A
N/A
Protected

Academic year: 2021

Share "sgnsgn == 1r = , 979350r r = sgnsgn k=1,2,...,K  rrrR  M = 4. Weryfikacja modelu LMOMMLL 1rrr1rrr1R ="

Copied!
26
0
0

Pełen tekst

(1)

4. Weryfikacja modelu

Wyznaczenie wektora α parametrów strukturalnych układu kończy etap es- tymacji. Kolejnym etapem jest etap weryfikacji modelu. Przeprowadza się ją w dwóch ujęciach: merytorycznym i statystycznym.

4.1. Weryfikacja merytoryczna modelu 4.1.1. Współczynnik koincydencji

Jeśli modelowane jest zjawisko, o którym teoria ekonomii nie stanowi, wów- czas analizę merytoryczną można oprzeć na obliczeniu i interpretacji współczynników korelacji między zmiennymi występującymi w modelu. Ze- stawia się macierze

 

 

 

 

=

K 2 1

0

r r r

R M

oraz

 

 

 

 

=

1 r

r

r 1

r

r r

1 R

2 K 1 K

K 2 21

K 1 12

L M O M

M

L L

(por. część 1).

Żądamy, aby szacowany przez nas model był koincydentny. Mówimy, że model jest koincydentny, jeśli dla każdej zmiennej objaśniającej modelu spełniony jest warunek

k

r

k

sgn α

sgn =

,

k=1,2,...,K

Jeśli model nie jest koincydentny, wtedy należy powrócić do wcześniej- szych etapów modelowania ekonometrycznego i zmienić zestaw zmiennych objaśniających albo analityczną postać zależności.

Dla przykładu 2 rozważanego w części 3 (liniowa postać modelu ekonome- trycznego opisującego liczbę uczniów w zależności od liczby ludności w powiatach) współczynnik korelacji pomiędzy zmienną objaśnianą i zmienną objaśniającą

r

1

= 0 , 97935

. Ponieważ α1 = 0,09558863 więc widoczne jest, że

sgn r

1

= sgn α

1

= 1

. Model jest więc koincydentny.

(2)

Dla przykładu 1 (model ekonometryczny opisujący produkcję firmy) mamy dwie zmienne objaśniające. Współczynniki korelacji pomiędzy zmienną ob- jaśnianą i zmiennymi objaśniającymi oraz parametry strukturalne układu dane są macierzami

, ,

, 

 

= 

9574 0

9566 R

0

0

 

 

−

=

 

 

=

4828897 0

5627376 0

4106464 0

2 1 0

, , , α

α α α

Widoczne jest, że

sgn r

1

= sgn α

1

= 1

,

sgn r

2

= sgn α

2

= 1

Model jest więc w pełni koincydentny.

4.1.2. Współczynnik determinacji

W sensie algebraicznym wyznaczenie wektora α parametrów strukturalnych układu w przypadku regresji liniowej, czyli wyznaczenie równania

K K 2

2 1

1

0

x x x

y = α + α + α + ... + α

jest tożsame z wyznaczeniem pewnej hiperpłaszczyzny w przestrzeni RK+1. Jakość dopasowania tej hiperpłaszczyzny do danych empirycznych można zmierzyć przy pomocy współczynnika determinacji R2 :

(

Y Y

) (

Y Y

)

1

R T

2 T

= ε ε

Występujący w ostatnim wzorze ułamek nosi nazwę współczynnika zbież- ności φφφφ2 :

(

Y Y

) (

T Y Y

)

2 T

= ε ε

φ czyli

2

2

1

R = − φ

Dla jednorównaniowego modelu ekonometrycznego z wyrazem wolnym wartość współczynnika R2 jest liczbą z przedziału [0; 1]. R2=1 oznacza, że wszystkie punkty empiryczne leżą na wyznaczonej hiperpłaszczyźnie. R=0

(3)

oznacza, że niezerowy jest tylko wyraz wolny α0 . W praktyce przyjmuje się, że model jest dobrze dopasowany, gdy R > 0,6.

Sprawdzimy, jak wygląda współczynnik determinacji dla przykładu 2 (linio- wa postać modelu ekonometrycznego opisującego liczbę uczniów w zależ- ności od liczby ludności w powiatach). Obliczymy najpierw współczynnik zbieżności φφφφ2 :

(

Y Y

) (

T Y Y

)

2 T

= ε ε

φ czyli

φ φ φ φ

2

= 0,040866

Stąd współczynnik determinacji R2 :

2

2

1

R = − φ czyli R

2

= 0,959134

Tak więc model jest bardzo dobrze dopasowany.

Dla przykładu 1 (model ekonometryczny opisujący produkcję firmy) współ- czynnik zbieżności φφφφ2 :

φ φ φ

φ

2

= 0,043899

Stąd współczynnik determinacji R2 :

R

2

= 0,956101

Tak więc i tutaj wg

R

2 model jest bardzo dobrze dopasowany.

Gdy liczba K+1 szacowanych parametrów strukturalnych modelu jest nie- wiele mniejsza od liczby obserwacji N , do oceny dopasowania modelu można stosować tzw. skorygowany współczynnik determinacji:

)

(

2

2 2

R 1 1

K N R K

R −

− −

=

przy czym

R ≤

2

R

2. Uzasadnieniem dla wprowadzenia korekty jest to, że może się w tej sytuacji zdarzyć, iż średnia kwadratów reszt

ε

T

ε /N

jest mała i wywołuje zbyt optymistyczny obraz dopasowania. Skorygowany współ- czynnik determinacji

R

2 nie jest unormowany (może przyjmować wartości ujemne).

(4)

4.1.3. Efekt katalizy

Współczynnik determinacji R2 jest miarą dopasowania modelu ekonome- trycznego do danych empirycznych, lecz informacja, jaką niesie o modelu, może być fałszywa jeśli w modelu występują zmienne, które nazywamy ka- talizatorami. W takim przypadku istnieje możliwość uzyskania wysokiej wartości współczynnika determinacji, mimo że charakter i siła powiązań zmiennych objaśniających i zmiennej objaśnianej nie uzasadniają takiego wyniku. Zjawisko to nazywamy efektem katalizy w modelu ekonometrycz- nym. Występuje ono, gdy zmienne objaśniające są wzajemnie silnie skore- lowane.

Badanie występowania efektu katalizy prowadzi się przy pomocy badania miary, nazywanej natężeniem efektu katalizy η :

H R

2

− η =

gdzie H jest integralną pojemnością informacyjną zestawu zmiennych ob- jaśniających modelu.

Ze względu na interpretację i możliwość porównywania różnych modeli określa się względne natężenie efektu katalizy Wη :

100 % W R

2

= η

η

Dla przykładu 2 (liniowa postać modelu ekonometrycznego opisującego liczbę uczniów w zależności od liczby ludności w powiatach) obie macierze korelacji, R oraz R0 są jednoelementowe:

R = [r1] = [0,97935]; R0 = [r11] = [ 1]

Indywidualna pojemność informacyjna zmiennej objaśniającej X jest równa

K

1

= {X} Z

1

= {1} h

11

= 0 959 1

97935 0

r

r

2

11 2

1

, ,

=

= H

1

= h

11

= 0,959126

Współczynnik determinacji

R

2

= 0,959134 .

Oznacza to, że w około 96 pro- centach liczba uczniów szkół podstawowych może być wyjaśniona przez liczbę ludności w powiatach.

(5)

Natężeniem efektu katalizy:

H R

2

η = = 0,959134 - 0,959126 = 0,0000079742

a względne natężenie efektu katalizy Wη = 0,0008314 %. Istnieją zatem nikłe podstawy do przypuszczenia, że ocena jakości modelu na podstawie współczynnika determinacji może być obarczona poważniejszym błędem.

Dla przykładu 1 (model ekonometryczny opisujący produkcję firmy) macie- rze korelacji,

R

0 oraz

R

mają postać:

, ,

, 

 

= 

9574 0

9566

R

0

0

 

= 

1 9159

0

9159 0

R 1

, ,

Liczba zmiennych

L = 2

. Stąd liczba kombinacji

2

L

– 1 = 2

2

– 1 = 3

. Wypi-

szemy poszczególne kombinacje, policzymy indywidualną pojemność in- formacyjną elementów każdej kombinacji, a następnie integralną pojem- ność informacyjną każdej kombinacji.

K

1

= {X

I

} Z

1

= {1} h

11

= 0 9151 1

9566 0

r

r

2

11 2

1

, ,

=

= H

1

= h

11

= 0,9151 K

2

= {X

II

} Z

2

= {2} h

22

= 0 9166

1 9574 0

r

r

2

22 2

2

, ,

=

= H

2

= h

22

= 0,9166 K

3

= {X

I

, X

II

} Z

4

= {1; 2} h

31

= 0 4776

9159 1

9566 0

r r

r

2

12 11

2

1

,

,

, =

+ =

h

32

= 0 4784

9159 1

9574 0

r r

r

2

22 21

2

2

,

,

, =

+ = H

3

=h

31

+h

32

= 0,4776+0,4784=0,956

Współczynnik determinacji

R

2

= 0,956101 .

Oznacza to, że w blisko 96 pro- centach produkcja firmy w mld zł (y) może być opisana wartością środków trwałych (mld zł) i czasem przestoju maszyn (dni).

Natężenie efektu katalizy:

H R

2

η = = 0, 0,956101 - 0, 956 = 0,000101

a względne natężenie efektu katalizy Wη = 0,0101 %. Istnieją zatem nikłe podstawy do przypuszczenia, że ocena jakości modelu na podstawie współczynnika determinacji może być obarczona poważniejszym błędem.

(6)

4.2. Weryfikacja statystyczna modelu

Podczas weryfikacji statystycznej głównym przedmiotem zainteresowania jest wektor reszt modelu

ε = Y − X α = Y − Y

obl. Uważa się go za empirycz- ną realizację składnika losowego modelu.

Przy pomocy odpowiednich testów przeprowadza się, m.in., nastepujace badania:

• badanie losowości składnika losowego,

• badanie symetrii rozkładu składnika losowego,

• badanie stacjonarności składnika losowego,

• badanie wartości oczekiwanej składnika losowego,

• badanie autokorelacji składnika losowego,

• badanie homoskedastyczności składnika losowego,

• badanie normalności składnika losowego.

Ostatnie badanie wynika z przyjęcia założenia 7 (część 3).

Weryfikacja własności składnika losowego modelu ekonometrycznego skła- da się – jak widać – z wielu kroków. Niepowodzenie w badaniu jakiejkolwiek pożądanej cechy składnika losowego powinno spowodować powrót do wcześniejszych etapów modelowania (zmiana postaci analitycznej modelu, zmiana zestawu zmiennych objaśniających, zmiana metody szacunku pa- rametrów) i rozpoczęcie procedury weryfikacyjnej od początku.

W praktyce stosuje się niekiedy kompromisy, godząc się na model gorzej oszacowany, ale mający inne korzystne z punktu widzenia badacza cechy.

(7)

4.2.1. Błędy szacunku parametrów

Estymatorem wariancji składnika losowego (resztowego) w metodzie naj- mniejszych kwadratów jest

( ) ( )

1 K N

Y 1

K N

X Y Y Y 1

K N

X Y X

Y 1 K S N

T T

T T 2 T

= −

= −

= −

= − ε ε α α α ε

N – K – 1 to liczba nazywana ilością stopni swobody.

Odchylenie standardowe składnika resztowego:

S

2

S =

Macierz wariancji i kowariancji estymatorów parametrów:

(

T

)

1

2

2

S X X

D ( α ) =

Jest to macierz kwadratowa stopnia K + 1 . Szczególne znaczenie mają elementy lezące na jej głównej przekątnej – są to wariancje estymatorów parametrów strukturalnych.

Średnie błędy szacunku parametru αn - są to pierwiastki z wariancji esty- matorów parametrów strukturalnych. Błędy te tworzą macierz oznaczaną

( ) ( ) ( )

 

 

 

=

 

 

 

 

=

K 1 0

KK 22 11

D D D

D D D D

α α α M M

Poszczególne elementy tej macierzy informują, ile średnio wynoszą błędy oszacowania odpowiednich parametrów strukturalnych modelu.

Średni względny błąd szacunku n-tego parametru αn wyznacza się jako liczbę

( )

100 % D

n n

⋅ α

α

.

(8)

Oszacujemy błędy szacunku parametrów dla przykładu 2 (liniowa postać modelu ekonometrycznego opisującego liczbę uczniów w zależności od liczby ludności w powiatach).

Estymator wariancji składnika losowego: S2 = 653161,555 Odchylenie standardowe składnika losowego: S = 808,1841

Macierz wariancji i kowariancji:

( )

 

= −

0000000401 0

00343 0

00343 0

483 D2 354

, ,

, α ,

Średnie błędy szacunku parametru αn : 

 

= 



 

= 

0002 0

8277 18

D D D

22 11

, ,

Ponieważ

( )

 

 −

=

=

09558863 ,

0

751509 ,

Y 1100 X

X

X

T 1 T

α

więc średni względny błąd szacunku będzie

• dla α0 % , %

,

, 100 171

75 1100

8277

18 ⋅ =

• dla α1 % , %

,

, 100 0 21

09558863 0

0002

0 ⋅ =

W ekonometrii przyjęta jest konwencja podawania średnich błędów szacun- ku parametrów strukturalnych łącznie z oszacowaniem modelu. Dla liniowej postaci modelu ekonometrycznego opisującego liczbę uczniów w zależno- ści od liczby ludności w powiatach zapiszemy więc

x 09558863 0

75 1100

0002 0 8277

18

y =

− ,

+

, ⋅

) , ( )

, (

(9)

Dla przykładu 1 (model ekonometryczny opisujący produkcję firmy):

Estymator wariancji składnika losowego:

103748 1 1

K S N

2 T

,

− =

= − ε ε

Odchylenie standardowe składnika losowego:

050594 1

S

S =

2

= ,

Macierz wariancji i kowariancji:

( ) ( )

 

 

=

=

03567 0

03882 0

24761 0

03882 0

05036 0

17207 0

24761 0

17207 0

99775 2

X X S

D

2 2 T 1

, ,

,

, ,

,

, ,

, α

Średnie błędy szacunku parametru αn :

 

 

=

 

 

=

18887 0

22441 0

73140 1

D D D D

33 22 11

, , ,

Ponieważ

 

 

 −

=

 

 

=

4828897 0

5627376 0

4106464 0

2 1 0

, , ,

α α α α

więc średni względny błąd szacunku będzie

• dla α0

% , %

,

, 100 421 63

4106464 0

73140

1 ⋅ =

• dla α1

% , %

,

, 100 3 97

567376 0

022551

0 ⋅ =

• dla α2

% , %

,

, 100 39 11

4828897 0

18887

0 ⋅ =

W ekonometrii przyjęta jest konwencja podawania średnich błędów szacun- ku parametrów strukturalnych łącznie z oszacowaniem modelu. Dla liniowej postaci modelu ekonometrycznego zapiszemy więc

( ) ( ) I ( ) II

X 4828897 0

X 5627376 0

1889 0 2244

7314 0 1

4106464 0

y , ,

, , ,

, + +

=

(10)

4.2.2. Dalsze konsekwencje przyjęcia założeń Gaussa-Markowa

Wróćmy jeszcze raz do estymacji parametrów αk ,

k = 0, 1, 2, ... K

.

W liniowym jednorównaniowym modelu z

K

zmiennymi objaśniającymi

K 2

1

X X

X , ,...,

obserwacje

x

n1

, x

n2

,..., x

nK

, n = 1, 2, ... N

są ustalonymi liczbami, zaś

ε

n zmienną losową o rozkładzie normalnym z wartością ocze- kiwaną 0 i estymatorem wariancji

σ

2 określonym poprzez wariancję reszt

1 K S N

2 T

= − ε ε

.

Estymator macierzy wariancji i kowariancji szacowania parametrów struktu- ralnych ma postać

D

2

( α ) = S

2

( X

T

X )

1 zaś średnie błędy szacunku pa- rametru αn (pierwiastki z wariancji estymatorów parametrów struktural- nych czyli z wyrazów na głównej przekątnej macierzy

D

2

( α )

) tworzą

macierz oznaczaną

( ) ( )

( )

 

 

 

=

 

 

 

 

=

 

 

 

 

=

K 1 0

S S S

D D D

D D D D

K 1 0

KK 22 11

α α α

α α α M M M

Standardowy błąd szacunku parametru strukturalnego

S

αk jest oceną od- chylenia standardowego wartości estymatora parametru strukturalne- go, jakie przyjmuje on w próbach, składających się z

N

obserwacji.

Standardowy błąd szacunku powinien być jak najmniejszy w stosunku do oceny parametru strukturalnego. W praktyce przyjmuje się, że jeśli licz- ba stopni swobody jest większa niż 20 to nie powinien on przekraczać 50% jej wartości bezwzględnej.

W przykładzie 2 (liniowa postać modelu ekonometrycznego opisującego liczbę uczniów w zależności od liczby ludności w powiatach) warunek ten jest spełniony; w przykładzie 1 (model ekonometryczny opisujący produkcję firmy) – nie.

(11)

4.2.3. Przedziały ufności dla parametrów strukturalnych

Chcąc zbudować przedział ufności dla parametru αk ,

k = 0, 1, 2, ... K

przy współczynniku ufności (1- α) (tzn. przy poziomie istotności α ) należy wyznaczyć z tablic rozkładu statystyki

t –

Studenta wartość

t

α,NK1

= t *

.

Wówczas przedział ufności dla parametru αk jest postaci

( α

k

t * S

αk

, α

k

+ t * S

αk

) = ( α

k

t * D ( ) α

k

, α

k

+ t * D ( ) α

k

)

UWAGA: Wartość

t

α,NK1

= t *

można obliczyć za pomocą funkcji staty- stycznej

ROZKŁAD.T.ODW( α , N – K –1 )

w arkuszu kalkulacyjnym Excel.

W przykładzie 2 (liniowa postać modelu ekonometrycznego opisującego liczbę uczniów w zależności od liczby ludności w powiatach), gdzie mamy

 

 

= −

 

 

09558863 ,

0

751509 ,

1100

1 0

α

α

oraz 

 

= 

0002 0

8277 D 18

,

, , przy poziomie istotności

α = 0,01

oraz

N=13, K=1

znajdujemy

t

0,01,11

= * t = 3 , 105815

. Znajduje- my tu następujące przedziały ufności dla parametrów strukturalnych:

dla α0

(

1159,23;1042,28

)

dla α1

(

0,095;0,0962

)

Można zatem sądzić na 99%, że przedstawione dla przykładu 2 przedziały ufności obejmują nieznane, a szacowane metodą najmniejszych kwadra- tów parametry strukturalne.

(12)

W przykładzie 1 (model ekonometryczny opisujący produkcję firmy) mamy dla

α = 0,01

oraz

N=10, K=2 t = * 3 , 499481

, a stąd dla

 

 

−

=

 

 

4828897 0

5627376 0

4106464 0

2 1 0

, , ,

α α α

oraz

 

 

=

18887 0

22441 0

73140 1

D

, , ,

przedziały

( )

( )

( 0 178 1 144 )

348 1 223 0

648 5 470 6

,

; ,

,

; ,

,

; ,

Można sądzić na 99%, że przedstawione dla przykładu 1 przedziały ufno- ści obejmują nieznane, a szacowane metodą najmniejszych kwadratów pa- rametry strukturalne .

Dla poziomu istotności

α = 0,05

przedziały ufności przyjmują postać

( )

( )

( 0 036 0 929 )

093 1 032 0

683 3 505 4

,

; ,

,

; ,

,

;

− ,

czyli to, że przedstawione dla przykładu 1 przedziały ufności obejmują nieznane, a szacowane metodą najmniejszych kwadratów parametry struk- turalne, jest wtedy pewne na 95%.

Widoczne jest, że parametry strukturalne w przykładzie 2 są znacznie lepiej oszacowane niż w przykładzie 1.

(13)

4.3. Testowanie hipotez dotyczących wartości parametrów strukturalnych

4.3.1 Istotność ocen parametrów strukturalnych na podstawie rozkładu statystyki

t–

Studenta

Przypuszcza się, że parametr strukturalny αk ,

k = 0, 1, 2, ... K ,

przyjmuje pewną ustaloną wartość

α

k0 . W sposób formalny przypuszczenie to może być zapisane jako hipoteza zerowa:

0 k k

H

0

: α = α

wobec hipotezy alternatywnej

0 k k

H

1

: α ≠ α

Jeśli hipoteza zerowa jest prawdziwa, to statystyka

S

k

t

0 k k k

α

α α −

=

ma roz-

kład

t –

Studenta z

N – K – 1

stopniami swobody. Zatem bezwzględna wartość tej statystyki nie powinna przekraczać wartości krytycznej

,

t *

t

α NK1

=

, co oznacza, że obszar krytyczny testu określony jest przez relację

( t t

α NK1

) = α

P

,

Tak więc wartość statystyki

S

k

t

0 k k k

α

α α −

=

nie powinna należeć do zbioru

Z

:

( ) ( )

= ; t

,NK1

t

,NK1

;

Z

α α

gdzie

α

jest poziomem istotności.

(14)

W przykładzie 2 (liniowa postać modelu ekonometrycznego opisującego liczbę uczniów w zależności od liczby ludności w powiatach), gdzie mamy

 

 

= −

 

 

09558863 ,

0

751509 ,

1100

1 0

α

α

oraz przedziały ufności

( )

(

0 095 0 0962

)

28 1042 23

1159

,

; ,

,

;

, −

spróbujemy zweryfikować na poziomie istotności

α

= 0,05

hipotezę

1000

H

0

: α

0

=

Statystyka

( )

3512 8277 5

18

t0 0 1000 ,

,− = −

= α −

. Dla

N=13, K=1

znajdujemy war- tość krytyczną statystyki

t –

Studenta

t

0,01;11

= * t = 2 , 201

. Oznacza to, że zbiór

Z

ma tutaj postać:

( ) ( )

= ; 2 , 201 2 , 201 ; Z

Jak widać,

t

0

∈ Z

, więc można odrzucić hipotezę zerową. Oznacza to, że parametr strukturalny różni się istotnie od wartości -1000.

Zwróćmy uwagę na to, że przy poziomie istotności

α

= 0,01

nie ma pod- staw do odrzucenia hipotezy H0, gdyż wówczas

t

0,01;11

= t * = 3 , 106

, co oznacza, że zbiór

Z

ma tutaj postać:

( ) ( )

= ; 3 , 106 3 , 106 ; Z

i wówczas

t

0

∉ Z

(bo

t

0

= 2 , 4546 < 3 , 106

).

(15)

Sprawdźmy jeszcze hipotezę

0 H

0

: α

1

=

Statystyka 477 09

0002

t1 0 1 ,

, =

= α

. Przy poziomie istotności α = 0,01 mamy

106 3

t

0,01;1

= ,

, tzn.

Z = ( − ∞ ; − 3 , 106 ) ( ∪ 3 , 106 ; ∞ )

, zaś dla

α

= 0,05

mamy

t

0,01;11

= 2 , 201

, tzn

Z = ( ; 2 , 201 ) ( 2 , 201 ; )

.

W obu przypadkach

t

0

> t

α;11, (tzn.

t

0

∈ Z

) czyli odrzucamy hipotezę ze- rową na rzecz hipotezy

0 H

1

: α

1

Szczególnym przypadkiem rozważanych hipotez są takie, jak ta ostatnia, tzn.

0

H

0

: α

k

=

,

k = 0, 1, 2, ... K 0

H

1

: α

k

Zwłaszcza bowiem w sytuacji, gdy oceny parametrów niewiele różnią się od zera może powstać wątpliwość, czy parametry strukturalne faktycznie nie są równe zeru. Jeśli hipoteza zerowa jest prawdziwa, to statystyka

S

k

t

k k

α

= α

,

k = 0, 1, 2, ... K ,

ma rozkład

t –

Studenta z

N – K – 1

stop-

niami swobody. W przypadku odrzucenia hipotezy zerowej mówi się wów- czas o statystycznej istotności parametru

α

k ,

k = 0, 1, 2, ... K

(16)

W przykładzie 2 (liniowa postać modelu ekonometrycznego opisującego liczbę uczniów w zależności od liczby ludności w powiatach) parametry α0 i α1 są statystycznie istotne. Mamy bowiem

dla α0 58 464

8277 18

7515

t0 1100 ,

,

, =

=

dla α1 477 09

0002 0

09558863

t1 0 ,

,

, =

=

a dla poziomu istotności α = 0,01 mamy

Z = ( ; 3 , 106 ) ( 3 , 106 ; )

,

co oznacza, że dla obu parametrów należy odrzucić hipotezę zerową.

W przykładzie 1 (model ekonometryczny opisujący produkcję firmy) test sta- tystycznej istotności dla poszczególnych estymat parametrów struktural- nych wygląda następująco:

dla α0

- 0 , 23718

73140 1

4106464

t

0

− 0 =

= ,

,

dla α1

2 , 507632 22441

0

5627376

t

1

= 0 =

, ,

dla α2

2 , 556731 18887

0

4828897

t

1

= 0 =

, ,

Ponieważ dla poziomu istotności

α

= 0,01 mamy

t = * 3 , 499481

, zaś dla

α

= 0,05

t * = 2 , 364623

, więc widać, że na poziomie istotności

α

= 0,01

nie ma podstaw do odrzucenia hipotezy zerowej, zaś na poziomie

α

= 0,05

statystycznie istotne są parametry α1 i α2 .

(17)

4.3.2 Wartość

p

Na folii 4.12 podano, że jeśli liczba stopni swobody jest większa niż 20 to standardowy błąd szacunku parametru nie powinien on przekraczać 50%

wartości bezwzględnej estymaty parametru strukturalnego.

Jest tak dlatego, że przy poziomie istotności

α

= 0,05 wartość krytyczną statystyki

t –

Studenta

t *

jest w przybliżeniu równa 2.

Jeśli zatem

S 50

k

k

α

α

< %

, to

t S 2

k k

k

= α /

α

>

dla

k = 0, 1, 2, ... K .

Mamy wówczas

t

k

> t *

, to zaś oznacza statystyczną istotność para- metru.

Większość programów analizy regresji liniowej w tabeli wyników , obok in- formacji o standardowych błędach szacunku i wartościach empirycznych statystyki

t –

Studenta, podaje wartość p. Jest to krytyczny poziom istotno- ści dla testu

t –

Studenta, tzn. p = P(tN-K-1 ≥ |t|) (wartość prawdopodobień- stwa – nazywana krytycznym poziomem istotności, dla którego krytycz- na wartość statystyki

t –

Studenta jest niemniejsza niż wartość empiryczna statystyki

t –

Studenta dla danego parametry strukturalnego). Jest to zatem taki poziom prawdopodobieństwa, przy którym nie ma podstaw do odrzuce- nia hipotezy zerowej przy obliczonej na podstawie próby wartości empi- rycznej statystyki.

Wartość p ustala się, wyznaczając

S

k

t

k

= α

k

/

α , a następnie – kolejno podstawiając różne wartości α do funkcji ROZKŁAD.T.ODW(ααα, N – K – 1)α w arkuszu kalkulacyjnym Excel – obliczając wartość

t

α,NK1

= t *

dopóty,

dopóki nie będzie ona nieznacznie większa od

t

k .

Przyjmując, że poziom istotności ustala się zwykle w badaniach ekono- micznych na jako 0,05 , hipotezę zerową odrzuca się na rzecz hipotezy al- ternatywnej, gdy p ≤≤≤≤ 0,05.

(18)

W przykładzie 1 (model ekonometryczny opisujący produkcję firmy) dla po- szczególnych parametrów strukturalnych mamy następujące wartości p : dla α0 p = 0,819

dla α1 p = 0,0405 dla α2 p = 0,0378

Jak widać, dla α1 i α2 zachodzi nierówność p ≤≤≤≤ 0,05.

W przykładzie 2 (liniowa postać modelu ekonometrycznego opisującego liczbę uczniów w zależności od liczby ludności w powiatach) dla poszcze- gólnych parametrów strukturalnych mamy:

dla α0 p < 0,000001 dla α1 p < 0,000001

4.3.3. Istotność ocen zestawu parametrów strukturalnych na podstawie rozkładu statystyki

F–

Snedecora

Hipotezy statystyczne mogą dotyczyć nie tylko pojedynczych parametrów strukturalnych, ale także całego ich zestawu.

Rozważmy hipotezę zerową:

0 H

0

: α

0

= α

1

= α

2

= ... = α

K

=

wobec hipotezy alternatywnej

H

1

:

co najmniej jeden z parametrów

α

k ,

k = 0,1,2,...K ,

jest różny od zera.

(19)

Można wykazać, że przy prawdziwości hipotezy H0 statystyka

( )

2 2

R 1

R K

1 K F N

− ⋅

= −

ma rozkład

F–

Snedecora z parametrami m1 = K oraz m2 = N – K – 1 Pa- rametr m2 nazywamy liczbą stopni swobody.

Tutaj

R

2 to znany współczynnik determinacji, określany ze wzoru

Y N Y 1 Y

R

T

2 T

− −

= ε ε

skąd

Y N Y R Y

1

T

2 T 2

= −

=

− ε ε

ϕ

zaś

R

czyli pierwiastek ze współczynnika determinacji to współczynnik kore- lacji wielorakiej.

Procedura testowania jest następująca:

1. Na podstawie próby obliczamy wartość empiryczną statystyki

F.

2. Dla zadanego poziomu istotności α oraz parametrów m1 i m2 odczy- tujemy z tablic lub obliczamy w arkuszu kalkulacyjnym Excel (stosując funkcję

ROZKŁAD.F.ODW( α α α α ; m

1

; m

2

)

) wartość krytyczną

F*.

3. Wyznaczamy zbiór

Z:

Z = ( F *; ∞ )

4. Jeżeli

F ∈ Z

(czyli jeżeli

F > F *

), to hipotezę H0 odrzucamy. Nato- miast jeśli

F ∉ Z

(gdy

F ≤ F *

), to nie ma podstaw do odrzucenia H0.

W przykładzie 1 (model ekonometryczny opisujący produkcję firmy) mamy:

0 H

0

: α

0

= α

1

= α

2

=

oraz

m

1

= K = 2 ; m

2

= N − K − 1 = 10 − 2 − 1 = 7 ; α = 0 , 05 ; R

2

= 0 , 956101

Stąd

23 , 043899 76

0

956101 0

2

F = 7 ⋅ =

,

,

oraz

F * = 4 , 7374

czyli

Z = ( 4 ,7374 ; )

Ponieważ

F ∈ Z

, więc hipotezę H0 odrzucamy, co oznacza, że co najmniej jeden z parametrów strukturalnych jest różny od zera.

(20)

W przykładzie 2 (liniowa postać modelu ekonometrycznego opisującego liczbę uczniów w zależności od liczby ludności w powiatach) mamy:

0 H

0

: α

0

= α

1

=

oraz

m

1

= K = 1 ; m

2

= N − K − 1 = 13 − 1 − 1 = 11 ; α = 0 , 05 ; R

2

= 0 , 9591

.

Stąd

95 0409 257

0

9591 0

1

F 11 ,

,

, =

=

oraz

F * = 4 , 8443

czyli

Z = ( 4 ,8443 ; ∞ )

Ponieważ

F ∈ Z

, więc hipotezę H0 odrzucamy, co oznacza, że co najmniej jeden z parametrów strukturalnych jest różny od zera.

4.3.4. Badanie efektu wprowadzania nowych zmiennych na podstawie rozkładu statystyki

F–

Snedecora

Rozważmy model podstawowy, w którym mamy K zmiennych objaśniaja- cych i K + 1 parametrów strukturalnych

α

k ,

k = 0,1,2,...K

. Postać mo- delu:

ε α

α α

α + + + + +

=

0 1

x

1 2

x

2 K

x

K

y ...

Do tych K zmiennych objaśniających dodajemy jeszcze L zmiennych. Po- stać modelu będzie tu następująca:

µ α

α α

α α

α + + + + + + + +

=

0 1

x

1 2

x

2 K

x

K K+1

x

K+1 K+L

x

K+L

y ... ...

gdzie µ to składnik losowy w modelu rozszerzonym.

(21)

Do zbadania łącznego efektu wprowadzonych zmiennych służy hipoteza:

0 H

0

: α

K+1

= α

K+2

= ... = α

K+L

=

H

1

:

co najmniej jeden z parametrów

α

k ,

k = K+1,K+2,...K+L ,

jest różny od zera

Procedura testowania jest następująca:

1. Szacujemy za pomocą metody najmniejszych kwadratów parametry modelu podstawowego oraz parametry modelu rozszerzonego. Reszty w modelu podstawowym oznaczamy εn zas w modelu rozszerzonym µn , n = 1,2,..., N.

2. Obliczamy wartość empiryczna statystyki

F

określoną w sposób na- stępujący:

=

=

=

 

 

 −

=

N

1 n

2 n N

1 n

2 n N

1 n

2 n

1 L K N

1 L

1 F

µ µ ε

Przy prawdziwości hipotezy zerowej statystyka

F

ma rozkład

F–

Snedecora z m1 = L oraz m2 = N – K – L – 1 stopniami swobody.

3. Dla zadanego poziomu istotności oraz dla liczby stopni swobody m1 = L oraz m2 = N – K – L – 1 odczytujemy z tablic lub obliczamy w Excelu (funkcja

ROZKŁAD.F.ODW( α α α α ; m

1

; m

2

)

) wartość krytyczną

F*.

Wyznaczamy zbiór

Z:

Z = ( F *; ∞ )

.

4. Jeżeli

F ∈ Z

(czyli jeżeli

F > F *

), to hipotezę H0 odrzucamy. Nato- miast jeśli

F ∉ Z

(gdy

F ≤ F *

), to nie ma podstaw do odrzucenia H0.

(22)

4.4. Przyczyny braku statystycznej istotności parametrów

Brak statystycznej istotności parametru strukturalnego może wynikać z fak- tycznego braku związku pomiędzy zmienną objaśniającą a zmienną obja- śnianą, ale może też być spowodowany innymi przyczynami:

• niską jakością danych statystycznych

• małą liczebnością próby

• niewłaściwie dobranym zespołem zmiennych objaśniających

• niewłaściwą postacią analityczną modelu Bada się to następującymi sposobami:

4.4.1. Badanie normalności reszt metodą JB W tym celu obliczamy współczynnik asymetrii

3 3

S

A = M , gdzie εTε N

S = 1 ,

=

=

N 1 n

3 n

3 N

M 1 ε

oraz współczynnik skupienia

4 4

S

K = M ,

=

=

N 1 n

4 n

4 N

M 1 ε .

Następnie oblicza się statystykę



 

 + −

= 2 K 3 2

24 A 1

6 N 1

JB ( )

Ma ona rozkład χ2. W następnym kroku wyznaczamy wartość krytyczną statystyki χ2* (funkcja ROZKŁAD.CHI.ODW(αααα, N -K - 1)) .

Badana hipoteza:

H0: składnik losowy ma rozkład normalny ; hipoteza H1 jest jej zaprzeczeniem.

Jeśli JB ≤ χ2* to nie ma podstaw do odrzucenia H0 , czyli reszty mają roz- kład normalny.

(23)

W przykładzie 2 (liniowa postać modelu ekonometrycznego opisującego liczbę uczniów w zależności od liczby ludności w powiatach) mamy:

N=13, 776 478

N

S = 1 εTε = , , 6610554 95 N

M 1

N 1 n

3 n

3 =

= ,

=

ε

50 3779234956 N

M 1

N 1 n

4 n

4 =

=

=

ε

Współczynnik asymetrii 0 01412 S

A M

3

3 = ,

=

Współczynnik skupienia 0 1043 S

K M

4

4 = ,

=

Następnie oblicza się statystykę 54227 4

3 24 K

A 1 6 N 1

JB 2 ( )2 = ,

 

 + −

=

Wartość krytyczna statystyki dla α = 0,05 χ2* =

19,67

JB < χ2* - nie ma podstaw do odrzucenia H0 , czyli reszty mają rozkład normalny.

4.4.2. Badanie symetrii składnika losowego

Niech m oznacza liczbę odchyleń in plus (lub zamiennie in minus) pomiędzy wartościami obserwowanymi Y a wyliczonymi w modelu (teoretycznymi) Yˆ . Hipoteza dotycząca symetrii składnika losowego przedstawia się następu- jąco:

H0: (frakcja reszt dodatnich = ½);

hipoteza alternatywna: H1: (frakcja reszt dodatnich <> ½).

(24)

Weryfikujemy ją testem istotności:

1 N

N 1 m N m

2 1 N m t



 

 −

= ,

który dla N ≤ 30 ma rozkład Studenta o N-1 stopniach swobody, natomiast dla N > 30 ma rozkład normalny. N – liczba obserwacji

Jeżeli hipoteza zerowa jest odrzucana (t > t*) to należy zmodyfikować mo- del (np. nowa postać analityczna). Jeżeli hipoteza zerowa nie jest odrzuca- na (t < t*) to przechodzimy do następnego etapu.

W przykładzie 2 (liniowa postać modelu ekonometrycznego opisującego liczbę uczniów w zależności od liczby ludności w powiatach) mamy:

B J K W Kie Ko Op Ost P San S-K Star Stasz Wło X1 76 255 92 135 37 617 196 528 87 747 59 138 121 715 43 692 85 858 83 917 98 529 78 091 48 123 Y dane 5 993 7 473 3 011 19 078 7 002 4 934 8 829 3 517 7 017 5 887 7 839 6 813 4 338 Yo = Xααα 6 188 7 706 2 495 17 685 7 287 4 552 10 534 3 076 7 106 6 921 8 318 6 364α 3 499 Y-Yo=εεεε -195 -233 516 1393 -285 382 -1705 441 -89 -1034 -479 449 839

Wtedy mamy m = 6 (cztery odchyłki >0) wśród N obserwacji. N = 13

Test istotności: 0 267

1 N

N 1 m N m

2 1 N m

t = ,



 

 −

= ; t* = 2,201 dla α = 0,05 .

Ponieważ t < t* , więc spośród hipotez

H0: (frakcja reszt dodatnich = ½);

H1: (frakcja reszt dodatnich <> ½)

przyjmuje się H0, co oznacza, że składnik losowy jest symetryczny. Wnio- sek: nie jest potrzebna nowa postać analityczna modelu, np. jakaś do- datkowa zmienna.

(25)

4.4.3. Badanie losowości reszt modelu

O losowości składnika losowego ε sądzimy stawiając hipotezę zerową H0 :

εεεε

jest czysto losowy, wobec hipotezy alternatywnej

H0 :

εεεε

nie jest czysto losowy.

Badanie losowości ma na celu zweryfikowanie hipotezy o trafności doboru postaci analitycznej modelu.

Procedura:

a) Porządkujemy niemalejąco jedną ze zmiennych objaśniających wraz z wektorem reszt ε ;

b) Obliczamy liczbę S serii reszt o takich samych znakach (kolejnych se- kwencji o takich samych znakach);

c) Z tablic testu liczby serii (są na końcu) dla liczby reszt dodatnich n1 , liczby reszt ujemnych n2 oraz przyjętego poziomu istotności α , odczy- tujemy krytyczną liczbę serii S*1 (tablica dla α) i S*2 (tablica dla 1-α).

Jeśli S*1< S < S*2 to nie ma podstaw do odrzucenia hipotezy zerowej, zatem reszty mają charakter losowy.

W przykładzie 2 (liniowa postać modelu ekonometrycznego opisującego liczbę uczniów w zależności od liczby ludności w powiatach) po uporząd- kowaniu względem zmiennej X mamy:

X 37617 43692 48123 59138 76255 78091 83917 85858 87747 92135 98529 121715 196528 Y 3011 3517 4338 4934 5993 6813 5887 7017 7002 7473 7839 8829 19078 Y-Xalfa 516,0 441,3 838,7 381,8 -195,4 449,1 -1033,8 -89,3 -284,9 -233,3 -478,5 -1704,8 1392,9

Mamy S = 5 serii reszt o takich samych znakach, przy czym n1 = 6, n2 = 7 . W tablicach dla α = 0,05 nie ma podanej wartości krytycznej dla takich da- nych, co oznacza, że S*1=3; dla S*2=11. Mamy więc S*1 < S < S*2 , co oznacza, że hipoteza H0 jest prawdziwa.

(26)

4.4.4. Badanie homoskedastyczności

W klasycznej metodzie najmniejszych kwadratów zakłada się, że wariancja składnika losowego εn jest stała niezależnie od liczby obserwacji dla zmien- nych (tzn. dla n=1,...,N) Własność ta nosi nazwę homoskedatyczności.

Równość wariancji w podpróbach homogenicznych ze względu na warian- cję składnika losowego można przeprowadzić w oparciu o test Goldfelda- Quandta. Stałość wariancji składnika losowego jest weryfikowana przez hi- potezę o równości wariancji dwóch skrajnych podprób obserwacji.

Dla podprób o najmniejszej i największej wariancji (o liczebnościach odpo- wiednio n1, n2) budujemy równania regresji, a następnie stawiamy hipotezę zerową:

H1: S21 = S22

przy kontrhipotezie: H2: S21 ≠ S22 Procedura:

a) Porządkujemy niemalejąco jedną ze zmiennych objaśniających (podej- rzana o zachowanie psujące homoskedatyczność) , a wraz z nią pozo- stałe zmienne;

b) Wybieramy dwie skrajne próby, jedna o liczbie obserwacji ok. N/3 (nie więcej niż pierwsze N/3 danych), drugą o liczbie obserwacji także ok. N/3 (nie więcej niż ostatnie N/3 danych)

c) Dla obu prób budujemy model regresji liniowej, a następnie dla obu prób obliczamy estymatory wariancji ze wzoru

1 K S N

2 T

= −ε ε

(jak w p. 9) schematu obliczeń) , S21 i S22 .

d) Obliczamy

2 2 2 1

S

S (w liczniku musi być większa z wariancji, czyli S21 to większa z tych dwóch wariancji). Jeśli hipoteza H0 jest prawdziwa, to

2 2 2 1

S

S ma rozkład F Fishera-Snedecorna;

Obliczamy F* dla zadanego poziomu istotności α oraz parametrów m1=n1- K-1 i m2=n2-K-1 odczytujemy z tablic lub obliczamy w arkuszu kalkulacyj- nym Excel (stosując funkcję ROZKŁAD.F.ODW(αααα; m1; m2)).

Jeśli F ≤ F* to nie ma podstaw do odrzucenia hipotezy H0 .

Cytaty

Powiązane dokumenty

Tak skonstruowany model pozwala na wyznaczenie rozkładu naprężeń u podstawy zęba, a tym samym współczynnika K Fβ , na podstawie zadanego nie- równomiernego wzdłuż

d) Wykonaj analizę wariancji i wybrany test porównań wielokrotnych dla wydatków na produkty mleczne względem zmiennej MIASTA i RODZINA_n 3. e) Wykonaj analizę wariancji dla

Tworzenie nowych grup łamania jest możliwe w kreatorze raportu (przy wybraniu odpowiedniego rozkładu) lub w modelu danych poprzez „wyciągnięcie” kolumny na zewnątrz grupy w

Gdyby się okazało, że nie jest on statystycznie istotny, to oznaczałoby to, że w modelu liniowym kształtowanie się zmiennej objaśnianej nie może być

Ka˙zdy zbiór, który powstaje poprzez wybranie dokładnie jednej liczby z ka˙zdej klasy abstrakcji relacji R i zebranie razem tych wszystkich liczb nazywamy zbiorem

[r]

[r]

[r]