5.1
5 . Sekwencyjne metody doboru zmiennych objaśniających do modelu
W sekwencyjnych procedurach doboru zmiennych do ostatecznej postaci modelu dochodzi się droga stopniowego „ulepszania” kolejnych wersji mo- delu.. Wyodrębnia się dwa rodzaje tych procedur:
• procedury eliminacji
Wychodzi się od modelu ze wszystkimi potencjalnymi zmiennymi objaśniającymi i stopniowo eliminuje się je aż do osiągnięcia zado- walającej wersji modelu.
• procedury selekcji
Budowę modelu rozpoczyna się od modelu z jedną, odpowiednio dobraną, zmienną objaśniającą i w kolejnych krokach wprowadza się następne zmienne aż do momentu uzyskania wersji modelu , która spełnia założone kryteria.
5.1. Metoda regresji krokowej „wstecz”
Procedura (eliminacji a posteriori):
1. Szacuje się model zawierający wszystkie potencjalne zmienne objaśniające (czyli oblicza się parametry strukturalne i ich średnie błędy szacunku)
2. Dla każdej potencjalnej zmiennej objaśniającej określa się wartości bezwzględne statystyki t-Studenta liczonej wg wzoru
S
kt
k= α
k/
α3. Minimalną wartość bezwzględną statystyki tk porównuje się z warto- ścią krytyczną
t
,N K 1= t *
−
α − , którą można obliczyć za pomocą funkcji statystycznej
ROZKŁAD.T.ODW(α α α α , N – K –1),
gdzie N –liczba obserwacji, K – liczba zmiennych objaśniających w modelu, α - poziom istotności.
a. Jeśli wartość tk jest mniejsza lub równa t* , to z modelu należy usunąć odpowiadającą jej zmienna objaśniającą, ponownie osza- cować model i wrócić do kroku 2.
b. Jeśli wartość tk jest większa od t* , to za ostateczną wersję należy przyjąć model z rozważanym ostatnio zestawem zmiennych obja- śniających.
5.2
Przykład:
W próbie obejmującej 20 losowo wybranych osób do opisu spożycia mięsa wieprzowego (Y) w kg zaproponowano (na podstawie ich wypowiedzi) 3 po- tencjalne zmienne objaśniające:
- roczny dochód w tys. zł (X1)
- roczne spożycie ryb w kg na osobę (X2) - spożycie ziemniaków w kg na osobę (X3) Model z tymi trzema zmiennymi ma postać
0278 3 2 0
207 1 0
1 0 677
4
x 01 0 x
90 1 x
35 0 47 34
y = + ⋅ − ⋅ − ⋅
) ,
( )
, ( )
, ( ) , (
, ,
, ,
Wartości bezwzględne statystyk
S
kt
k= α
k/
αprzyjmują wartości
t1 = 3,49 t2 = 9,17 t3 = 0,36
Wartość krytyczna
t0,05,20 3 1 = t* = 2,120−
−
Ponieważ
0,36 ≤ 2,120 , więc zmienną x3 wyeliminowano.Po ponownym oszacowaniu otrzymano model
2 2 1 0
087 0 018
3
x 90 1 x
34 0 32
33
y = + ⋅ − ⋅
) , ( )
, ( ) , (
, ,
,
Wartości bezwzględne statystyk
przyjmują wartości
t1 = 3,90 t2 = 9,48
Wartość krytyczna
t0,05,20 2 1 =t* = 2,110−
−
Ponieważ 3,90 > 2,110 , więc podany model zostaje przyjęty.
5.3
5.2. Metoda regresji krokowej „w przód”
Procedura (selekcji):
1. Mając do dyspozycji K potencjalnych zmiennych objaśniających, sza- cujemy K modeli z jedną zmienną objaśniającą:
K 2
1 k x
y = α
0+ α
k k+ ε
k, = , ,...,
Wybieramy taką zmienną, która ma maksymalną co do wartości bezwzględnej wartość empiryczną statystyki
t-Studenta liczonej wg wzoru
S
kt
k= α
k/
α.
Przyjmijmy, że będzie to np. X
1. Jeśli parametr α
1okaże się statystycznie istotny, to przechodzimy do kroku 2.
Gdyby się okazało, że nie jest on statystycznie istotny, to oznaczałoby to, że w modelu liniowym kształtowanie się zmiennej objaśnianej nie może być wyjaśnione przez żadną z potencjalnych zmiennych objaśniających.
2.
Mając już ustaloną zmienną x
1jako zmienną objaśniającą bu- dujemy K – 1 modeli z dwiema zmiennymi objaśniającymi
K 2
k x
x
y = α
0+ α
1 1+ + α
k k+ ε
k, = ,...,
Spośród zmiennych X2 , X3 , ... , XK wybieramy taką, która ma mak- symalną co do wartości bezwzględnej wartość empiryczną statystyki
t-Studenta. Z powstałego modelu usuwa się zmienne, którym odpowiadają statystycznie nieistotne parametry.
3. Postępowanie z dodawaniem zmiennych kończy się wtedy,
gdy do zbudowanego modelu nie można dodać żadnej z po-
zostałych zmiennych.
5.4
Przykład – ten sam, co poprzednio:
Oszacowane modele z jedną zmienną objaśniającą są postaci:
204 1 0 387
7
x 57 0 40 16
y = + ⋅
) , ( ) , (
,
,
2
258 0 64
1
x 12 2 92 43
y = − ⋅
) , ( ) , (
, ,
0875 3 0
34 12
x 07 0 59
22
y = + ⋅
) ,
( ) , (
, ,
Wartości bezwzględne statystyk: t1 = 2,80 t2 = 8,23 t3 = 0,80
Wybrano zmienną X2 , - największa wartość bezwzględna statystyki t- Studenta. Ponadto t0,05,20−1−1 = t* = 2,101
< 8,23.
Następnie oszacowano modele z dwiema zmiennymi, z których jedną jest X2
2 2 1 0
087 0 018
3
x 90 1 x
34 0 32 33
y = + ⋅ − ⋅
) , ( )
, ( ) , (
, ,
,
042 2 2 0
23 0 94
5
x 05 0 x
10 2 07 37
y = − ⋅ + ⋅
) , ( )
, ( ) , (
, ,
,
Wartości bezwzględne statystyk: t1 = 3,90 t3 = 1,20
Spośród zmiennych X1 i X3 wybrano X1 , gdyż odpowiada jej największa wartość bezwzględna statystyki t-Studenta.
Ponadto t* = 2,11 < 3,90.
Buduje się teraz model, w którym zmiennymi objaśniającymi są
X1 i X2 i pozostała kandydatka na zmienną objaśniającą X3 :0278 3 2 0
207 1 0
1 0 677
4
x 01 0 x
90 1 x
35 0 47 34
y = + ⋅ − ⋅ − ⋅
) ,
( )
, ( )
, ( ) , (
, ,
, ,
Zmienną X3 usuwa się z modelu z uwagi na to, że t3 = 0,36, a w
artość kry- tyczna
t0,05,20−3−1 = t* = 2,120, czyli t
3< t* . Do modelu nie można już dodać żadnej więcej zmiennej, czyli ostatecznie ma on postać
2 2 0 1 087 0 018
3
x 90 1 x
34 0 32
33
y = + ⋅ − ⋅
) , ( )
, ( ) , (