1. Wybór zmiennych objaśniających
1.1. Oznaczenia
Będziemy na razie rozważać model jednorównaniowy.
symbol opis
K
liczba zmiennych objaśniającychN
liczba obserwacji (liczba wartości każdej ze zmiennych, wy- stępujących w modelu)y
zmienna objaśniana. Jej wartości można przedstawić jako macierz kolumnowąY
o elementachy
n, n = 1,2,...,N .
Czę-sto taką macierz utożsamia się z wektorem o
N
współrzęd- nych.y
nn
-ta wartość zmiennej objaśnianej (jej wartość wn
-tej ob-serwacji). Jest to
n
-ty element macierzy kolumnowejY
.f
model (relacja pomiędzy zmiennymi objaśniającymi i obja- śnianą)x
k, k=1,2,...K
zmienne objaśniające. Można je przedstawić jako macierze kolumnoweX
k, k=1,2,...K,
lub wektory. Tych macierzy będzieK;
każda z nich będzie się składać zN
elementów.x
nk, n=1,2,...N n
-ta wartośćk-
tej zmiennej objaśniającej (n
-ty element ma- cierzy kolumnowejX
k)n
oznacza numer kolejnej obserwacji (chwili czasu)x
ky ,
wartości średnie, odpowiednio, zmiennejy
orazx
kPodstawowe wzory:
wartość średnia zmiennej
x
k∑
=
=
N 1 n
k
x
nkN x 1
macierz kolumnowa wartości średnich
X
k= [ x
k,..., x
k]
TN
elementówx
kodchylenie zmiennej
x
k od jej wartości średniejX
k -X
kodchylenie standardowe zmiennej
x
k∑ ( )
=
−
=
N 1 n
2 nk k
k
x x
N
S 1
k=1,2,...K
współczynnik zmienności zmiennej xk
k k k
x
= S
υ
Warunkiem wstępnym uznania różnych wielkości za zmienne objaśniające jest dostatecznie wysoka ich zmienność. Miarą poziomu zmienności jest współczynnik zmienności:
k k k
x
= S υ
Obiera się pewną wartość krytyczną
υ
*k tego współczynnika, np.υ
*k= 0 , 1
. Zmienne spełniające nierówność* k
k
υ
υ ≤
uznaje się za quasi-stałe i eliminuje się ze zbioru potencjalnych zmiennych objaśniających.
Przykład 1:
Do opisu produkcji firmy w mld zł (y) zaproponowano 4 wielkości: x
1– zatrudnienie (tys. osób), x
2– wartość środków trwałych (mld zł), x
3– czas przestoju maszyn (dni), x
4– nakłady inwestycyjne (mln zł). Wartości zmiennych w latach 1971-80 podano w tabeli.
Lata ‘71 ‘72 ‘73 ‘74 ‘75 ‘76 ‘77 ‘78 ‘79 ‘80
y 10 10 16 16 12 14 20 20 20 22
x
16 6 10 10 8 10 12 12 12 14
x
28 8 12 12 8 8 14 16 16 18
x
314 14 18 18 18 18 24 24 26 26 x
412 12 12 14 10 12 14 12 12 10 Sprawdzić – przy założonej wartości krytycznej υ
k*=0,15 czy potencjalne zmienne objaśniające odznaczają się odpowiednio wysoką zmiennością.
Rozwiązanie:
Wyznaczamy średnie:
( 6 6 10 10 8 10 12 12 12 14 ) 10 10
x
1= 1 + + + + + + + + + =
( 8 8 12 12 8 8 14 16 16 18 ) 12 10
x
2= 1 + + + + + + + + + =
podobnie licząc dostajemy
x
3= 20 , x
4= 12 .
Tabela do wyznaczenia odchyleń standardowych
∑ ( )
=
−
=
N 1 n
2 nk k
k
x x
N
S 1
:n xn1 – 10 (A)
xn2 – 12 (B)
xn3 – 20 (C)
xn4 – 12
(D) A2 B2 C2 D2
1 -4 -4 -6 0 16 16 36 0
2 -4 -4 -6 0 16 16 36 0
3 0 0 -2 0 0 0 4 0
4 0 0 -2 2 0 0 4 4
5 -2 -4 -2 -2 4 16 4 4
6 0 -4 -2 0 0 16 4 0
7 2 2 4 2 4 4 16 4
8 2 4 4 0 4 16 16 0
9 2 4 6 0 4 16 36 0
10 4 6 6 -2 16 36 36 4
∑
= 10 1
10n
1 - - - - 6,4 13,6 19,2 1,6
Sk - - - - 2,53 3,69 4,38 1,265
υk=Sk/xk - - - - 0,253 0,307 0,219 0,105
>0,15 >0,15 >0,15 <0,15 Jak wynika z tabeli, zmienną x4 można przy tych warunkach uznać za quasi-stałą i wyeliminować ze zbioru zmiennych objaśniających.
1.3. Metoda analizy współczynników korelacji
Polega na badaniu korelacji pomiędzy „kandydatkami” na zmienne obja- śniające, a także pomiędzy nimi a zmienną objaśnianą. Służy do tego war- tość krytyczna współczynnika korelacji.
W wyniku tego badania eliminuje się „kandydatki” słabo skorelowane ze zmienną objaśnianą.
Następnie ze zbioru tych zmiennych, które zostały, wybiera się tę, która jest najsilniej skorelowana ze zmienną objaśnianą. Spośród pozostałych elimi- nuje się te, które są silnie skorelowane z tą wybraną w poprzednim kroku.
Jak widać, trzeba zdefiniować współczynnik korelacji dwóch zmiennych oraz wyjaśnić, co to jest wartość krytyczna współczynnika korelacji oraz co to znaczy słabo skorelowane oraz silnie skorelowane zmienne.
Dla zmiennych
x
k orazx
l współczynnik korelacjir
kl oblicza się ze wzoru:( ) ( )
( ) ( ) ( ) ( )
( )( )
( ) ∑ ( )
∑
∑
=
=
=
−
⋅
−
−
−
=
=
− −
⋅
− −
−
= −
N 1 n
2 l nl N
1 n
2 k nk
N 1 n
l nl k nk
l l
T l l
k k
T k k
l l
T k kl k
x x
x x
x x
x x
X X
X X
X X
X X
X X
X r X
Współczynniki te tworzą macierz korelacji
R
:
=
1 r
r
r 1
r
r r
1 R
2 K 1 K
K 2 21
K 1 12
L M O M
M
L L
Dla zmiennych
x
k orazy
współczynnik korelacjir
k oblicza się ze wzoru:( ) ( )
( ) ( ) ( ) ( )
( )( )
( ) ∑ ( )
∑
∑
=
=
=
−
⋅
−
−
−
=
=
− −
⋅
− −
−
= −
N 1 n
2 nk k
N 1 n
2 n
N 1 n
k nk
n
k k
T k k
T
k k
T k
x x
y y
x x
y y
X X
X X
Y Y Y Y
X X
Y r Y
Współczynniki korelacji pomiędzy zmienną objaśnianą
y
oraz „kandydat- kami” na zmienne objaśniającex
k można przedstawić w postaci macierzy kolumnowej
=
K 2 1
0
r r r
R M
1.3.1. Ustalenie wartości krytycznej współczynnika korelacji
Wartość krytyczna współczynnika korelacji
r*
zależy od liczby obserwa- cjiN
oraz od poziomu istotnościα
który zadajemy (najczęściejα = 0,05
lubα = 0,01
). Wartośćr*
wyznacza się ze wzoru( )
( ) t N 2 r t
2 2
− +
=
α
*
αgdzie
t
α jest wartością statystykit –
Studenta dla zadanego poziomu istotno- ściα
oraz dla liczbyN – 2
nazywanej liczbą stopni swobody. Tablice warto- ści krytycznych dla testut − − − −
Studenta są podane w podręcznikach.Wyznaczenia wartości krytycznej współczynnika korelacji dokonuje się raz – wartość ta obowiązuje do zakończenia procedury wyboru zmiennych ob- jaśniających.
1.3.2. Eliminacja zmiennych słabo skorelowanych ze zmienną objaśnianą Słaba korelacja oznacza mały wpływ jednej zmiennej na wartość drugiej.
Dlatego „kandydatki” słabo skorelowane ze zmienną objaśnianą eliminuje- my. Słaba korelacja zdefiniowana jest nierównością
r * r
k≤
Etap eliminacji „kandydatek” słabo skorelowanych ze zmienną objaśnianą występuje tylko raz. Po nim przystępujemy do punktu 1.3.3.
1.3.3. Wybór zmiennej najsilniej skorelowanej ze zmienną objaśnianą Do zbioru zmiennych objaśniających zaliczamy jako pierwszą spośród po- zostałych „kandydatek” tę, która jest najsilniej skorelowana ze zmienną ob- jaśnianą. Oznaczmy ją
r
h ; wyznaczamy ją ze wzoru{ }
kk
h
r
r = max
1.3.4. Eliminacja „kandydatek” silnie skorelowanych z
r
hFormalnie eliminujemy te zmienne
x
k , dla których zachodzi związekr * r
hk>
Wynika to z faktu, że poprzez silne skorelowanie zmiennych spełniających ten warunek ze zmienną
r
h , nie wniosą one istotnie nowych informacji o zmiennej objaśnianej, gdyż to, co mogłyby wnieść, zostanie wniesione przez zmienną objaśniającąr
h.
Postępowanie opisane w punktach 1.3.3 oraz 1.3.4 powtarza się aż do wyczerpania wszystkich „kandydatek” na zmienne objaśniające.
Przykład
Wykorzystując metodę analizy współczynników korelacji wybrać zmienne objaśniające spośród x
1, x
2, x
3z poprzedniego przykładu.
Lata ‘71 ‘72 ‘73 ‘74 ‘75 ‘76 ‘77 ‘78 ‘79 ‘80
y 10 10 16 16 12 14 20 20 20 22
x
16 6 10 10 8 10 12 12 12 14
x
28 8 12 12 8 8 14 16 16 18
x
314 14 18 18 18 18 24 24 26 26
Rozwiązanie:
Wartości średnie poszczególnych zmiennych:
16 ,
y = x
1= 10 , x
2= 12 , x
3= 20 .
n 1 2 3 4 5 6 7 8 9 10
y-y
śr-6 -6 0 0 -4 -2 4 4 4 6
x
1-x
1śr8 -10 -10 -10 -10 -10 -10 -10 -10 -10
x
2-x
2śr-4 -4 0 0 -4 -4 2 4 4 6
x
3-x
3śr-6 -6 -2 -2 -2 -2 4 4 6 6
Współczynniki korelacji dla każdych dwóch wektorów odchyleń zmiennych od średnich obliczamy w programie Excel, korzystając z funkcji WSP.KORELACJI(Wektor1;Wektor2). Otrzymujemy:
=
=
1 9159
0 9382 0
9159 0
1 9004
0
9382 0
9004 0
1 R
9574 0
9566 0
9799 0
R
0, ,
, ,
, ,
, ,
, ,
Zakładamy poziom istotności
α = 0,05
.Ponieważ tutaj
N=10
więc liczba stopni swobody wynosiN-2=10-2=8
.Z tablic rozkładu
t − − − −
Studenta dla takichα
iN-2
otrzymujemyt
α= 2,306.
Zatem wartość krytyczna współczynnika korelacji
r*
przyjmuje wartość( )
( ) 2 306 8 0 632
306 2 2
N t
r t
2 2 2
2
, ,
* , =
+
=
− +
=
α α
Analizując macierz R0 stwierdzamy, że żadna zmienna nie jest słabo sko- relowana ze zmienną objaśnianą y , gdyż |xk|>0,632 dla k=1,2,3.
Spośród tych zmiennych najsilniej ze zmienną objaśnianą jest skorelowana zmienna x1. Staje się ona zmienną objaśniającą.
Z tablicy R widać, że mamy |r12| = 0,9004 >r* oraz |r13|=0,9159>r* . Zatem eliminujemy zmienną zarówno x2 jak i x3.
Zatem metoda współczynników korelacji wyłoniła jedną zmienną objaśnia- jącą: x1.
1.4. Metoda wskaźników pojemności informacyjnej – metoda Hellwiga Dysponujemy zbiorem „kandydatek” na zmienne objaśniające,
x
1, x
2, ..., x
Loraz zmienną objaśnianą
y
. W związku z tym bez trudu obliczamy macie- rze współczynników korelacji R0 oraz R.Każda z „kandydatek” jest traktowana jako nośnik informacji o
y
.Rozpatrujemy wszystkie niepuste kombinacje zmiennych
x
1, x
2, ..., x
L. Ichliczba to
2
L– 1
. Każdą kombinację oznaczamyK
l , zaś numery zmiennych zawartych w kombinacjiK
l zawarte są w zbiorzeZ
l, gdziel= 1, 2,..., 2
L– 1
.Indywidualną pojemność informacyjną hlk zmiennej
x
k, k=1, 2,...,L
,wchodzącej w skład
l
–tej kombinacjiK
l określamy następująco:∑
∈
=
Zl
s
sk 2 lk k
r h r
Integralna pojemność informacyjna
l
–tej kombinacjiK
l :∑
∈
=
Zl
s lk
l
h
H
Zarówno indywidualna jaki i integralna pojemność informacyjna przyjmuje wartości z przedziału [0; 1]. Za najlepszą kombinację zmiennych (za zbiór zmiennych objaśniających) uznajemy zbiór „kandydatek”, dla których pojemność integralna jest największa
H
optymalne= max{ H
l: l = 1 , 2 ,..., 2
L− 1 }
Rozważymy zbiór kandydatek na zmienne objaśniające z poprzedniego przykładu.
Dla tego zbioru znamy macierze R0 oraz R:
=
=
1 9159
0 9382 0
9159 0
1 9004
0
9382 0
9004 0
1 R
9574 0
9566 0
9799 0
R
0, ,
, ,
, ,
, ,
, ,
Liczba zmiennych
L = 3
. Stąd liczba kombinacji2
L– 1 = 2
3– 1 = 7
. Wypi- szemy poszczególne kombinacje, policzymy indywidualną pojemność in- formacyjną elementów każdej kombinacji, a następnie integralna pojem- ność informacyjną każdej kombinacji.K
1= {x
1} Z
1= {1} h
11= 0 9602 1
9799 0
r
r
211 2
1
, ,
=
= H
1= h
11= 0,9602
K
2= {x
2} Z
2= {2} h
22= 0 9151 1
9566 0
r
r
222 2
2
, ,
=
= H
2= h
22= 0,9151
K
3= {x
3} Z
3= {3} h
33= 0 9166 1
9574 0
r
r
233 2
3
, ,
=
= H
3= h
33= 0,9166
K
4= {x
1, x
2} Z
4= {1; 2} h
41= 0 505 9004
0 1
9799 0
r r
r
212 11
2
1
,
,
, =
= + +
h
42= 0 459
9004 0
1
9566 0
r r
r
222 21
2
2
,
,
, =
= +
+ H
4=h
41+h
42=0,505+0,459=0,964
K
5= {x
1, x
3} Z
5= {1; 3} h
51=
9382 0
1
9799 0
r r
r
213 11
2 1
, ,
= +
+ =0,495
h
53=
1 9382 0
9574 0
r r
r
233 31
2 3