• Nie Znaleziono Wyników

∑ x xxN1S k=1,2,...K x X X x ∑

N/A
N/A
Protected

Academic year: 2021

Share "∑ x xxN1S k=1,2,...K x X X x ∑"

Copied!
9
0
0

Pełen tekst

(1)

1. Wybór zmiennych objaśniających

1.1. Oznaczenia

Będziemy na razie rozważać model jednorównaniowy.

symbol opis

K

liczba zmiennych objaśniających

N

liczba obserwacji (liczba wartości każdej ze zmiennych, wy- stępujących w modelu)

y

zmienna objaśniana. Jej wartości można przedstawić jako macierz kolumnową

Y

o elementach

y

n

, n = 1,2,...,N .

Czę-

sto taką macierz utożsamia się z wektorem o

N

współrzęd- nych.

y

n

n

-ta wartość zmiennej objaśnianej (jej wartość w

n

-tej ob-

serwacji). Jest to

n

-ty element macierzy kolumnowej

Y

.

f

model (relacja pomiędzy zmiennymi objaśniającymi i obja- śnianą)

x

k

, k=1,2,...K

zmienne objaśniające. Można je przedstawić jako macierze kolumnowe

X

k

, k=1,2,...K,

lub wektory. Tych macierzy będzie

K;

każda z nich będzie się składać z

N

elementów.

x

nk

, n=1,2,...N n

-ta wartość

k-

tej zmiennej objaśniającej (

n

-ty element ma- cierzy kolumnowej

X

k)

n

oznacza numer kolejnej obserwacji (chwili czasu)

x

k

y ,

wartości średnie, odpowiednio, zmiennej

y

oraz

x

k

Podstawowe wzory:

wartość średnia zmiennej

x

k

=

=

N 1 n

k

x

nk

N x 1

macierz kolumnowa wartości średnich

X

k

= [ x

k

,..., x

k

]

T

N

elementów

x

k

odchylenie zmiennej

x

k od jej wartości średniej

X

k -

X

k

odchylenie standardowe zmiennej

x

k

∑ ( )

=

=

N 1 n

2 nk k

k

x x

N

S 1

k=1,2,...K

współczynnik zmienności zmiennej xk

k k k

x

= S

υ

(2)

Warunkiem wstępnym uznania różnych wielkości za zmienne objaśniające jest dostatecznie wysoka ich zmienność. Miarą poziomu zmienności jest współczynnik zmienności:

k k k

x

= S υ

Obiera się pewną wartość krytyczną

υ

*k tego współczynnika, np.

υ

*k

= 0 , 1

. Zmienne spełniające nierówność

* k

k

υ

υ ≤

uznaje się za quasi-stałe i eliminuje się ze zbioru potencjalnych zmiennych objaśniających.

Przykład 1:

Do opisu produkcji firmy w mld zł (y) zaproponowano 4 wielkości: x

1

– zatrudnienie (tys. osób), x

2

– wartość środków trwałych (mld zł), x

3

– czas przestoju maszyn (dni), x

4

– nakłady inwestycyjne (mln zł). Wartości zmiennych w latach 1971-80 podano w tabeli.

Lata ‘71 ‘72 ‘73 ‘74 ‘75 ‘76 ‘77 ‘78 ‘79 ‘80

y 10 10 16 16 12 14 20 20 20 22

x

1

6 6 10 10 8 10 12 12 12 14

x

2

8 8 12 12 8 8 14 16 16 18

x

3

14 14 18 18 18 18 24 24 26 26 x

4

12 12 12 14 10 12 14 12 12 10 Sprawdzić – przy założonej wartości krytycznej υ

k*

=0,15 czy potencjalne zmienne objaśniające odznaczają się odpowiednio wysoką zmiennością.

Rozwiązanie:

Wyznaczamy średnie:

( 6 6 10 10 8 10 12 12 12 14 ) 10 10

x

1

= 1 + + + + + + + + + =

( 8 8 12 12 8 8 14 16 16 18 ) 12 10

x

2

= 1 + + + + + + + + + =

podobnie licząc dostajemy

x

3

= 20 , x

4

= 12 .

(3)

Tabela do wyznaczenia odchyleń standardowych

∑ ( )

=

=

N 1 n

2 nk k

k

x x

N

S 1

:

n xn1 – 10 (A)

xn2 – 12 (B)

xn3 – 20 (C)

xn4 – 12

(D) A2 B2 C2 D2

1 -4 -4 -6 0 16 16 36 0

2 -4 -4 -6 0 16 16 36 0

3 0 0 -2 0 0 0 4 0

4 0 0 -2 2 0 0 4 4

5 -2 -4 -2 -2 4 16 4 4

6 0 -4 -2 0 0 16 4 0

7 2 2 4 2 4 4 16 4

8 2 4 4 0 4 16 16 0

9 2 4 6 0 4 16 36 0

10 4 6 6 -2 16 36 36 4

= 10 1

10n

1 - - - - 6,4 13,6 19,2 1,6

Sk - - - - 2,53 3,69 4,38 1,265

υk=Sk/xk - - - - 0,253 0,307 0,219 0,105

>0,15 >0,15 >0,15 <0,15 Jak wynika z tabeli, zmienną x4 można przy tych warunkach uznać za quasi-stałą i wyeliminować ze zbioru zmiennych objaśniających.

1.3. Metoda analizy współczynników korelacji

Polega na badaniu korelacji pomiędzy „kandydatkami” na zmienne obja- śniające, a także pomiędzy nimi a zmienną objaśnianą. Służy do tego war- tość krytyczna współczynnika korelacji.

W wyniku tego badania eliminuje się „kandydatki” słabo skorelowane ze zmienną objaśnianą.

Następnie ze zbioru tych zmiennych, które zostały, wybiera się tę, która jest najsilniej skorelowana ze zmienną objaśnianą. Spośród pozostałych elimi- nuje się te, które są silnie skorelowane z tą wybraną w poprzednim kroku.

Jak widać, trzeba zdefiniować współczynnik korelacji dwóch zmiennych oraz wyjaśnić, co to jest wartość krytyczna współczynnika korelacji oraz co to znaczy słabo skorelowane oraz silnie skorelowane zmienne.

(4)

Dla zmiennych

x

k oraz

x

l współczynnik korelacji

r

kl oblicza się ze wzoru:

( ) ( )

( ) ( ) ( ) ( )

( )( )

( ) ∑ ( )

=

=

=

=

=

 

 

 − −

 ⋅

 

 − −

= −

N 1 n

2 l nl N

1 n

2 k nk

N 1 n

l nl k nk

l l

T l l

k k

T k k

l l

T k kl k

x x

x x

x x

x x

X X

X X

X X

X X

X X

X r X

Współczynniki te tworzą macierz korelacji

R

:

 

 

 

 

=

1 r

r

r 1

r

r r

1 R

2 K 1 K

K 2 21

K 1 12

L M O M

M

L L

Dla zmiennych

x

k oraz

y

współczynnik korelacji

r

k oblicza się ze wzoru:

( ) ( )

( ) ( ) ( ) ( )

( )( )

( ) ∑ ( )

=

=

=

=

=

 

 

  − −

 ⋅

 

 

 − −

= −

N 1 n

2 nk k

N 1 n

2 n

N 1 n

k nk

n

k k

T k k

T

k k

T k

x x

y y

x x

y y

X X

X X

Y Y Y Y

X X

Y r Y

Współczynniki korelacji pomiędzy zmienną objaśnianą

y

oraz „kandydat- kami” na zmienne objaśniające

x

k można przedstawić w postaci macierzy kolumnowej

 

 

 

 

=

K 2 1

0

r r r

R M

(5)

1.3.1. Ustalenie wartości krytycznej współczynnika korelacji

Wartość krytyczna współczynnika korelacji

r*

zależy od liczby obserwa- cji

N

oraz od poziomu istotności

α

który zadajemy (najczęściej

α = 0,05

lub

α = 0,01

). Wartość

r*

wyznacza się ze wzoru

( )

( ) t N 2 r t

2 2

− +

=

α

*

α

gdzie

t

α jest wartością statystyki

t –

Studenta dla zadanego poziomu istotno- ści

α

oraz dla liczby

N – 2

nazywanej liczbą stopni swobody. Tablice warto- ści krytycznych dla testu

t − − − −

Studenta są podane w podręcznikach.

Wyznaczenia wartości krytycznej współczynnika korelacji dokonuje się raz – wartość ta obowiązuje do zakończenia procedury wyboru zmiennych ob- jaśniających.

1.3.2. Eliminacja zmiennych słabo skorelowanych ze zmienną objaśnianą Słaba korelacja oznacza mały wpływ jednej zmiennej na wartość drugiej.

Dlatego „kandydatki” słabo skorelowane ze zmienną objaśnianą eliminuje- my. Słaba korelacja zdefiniowana jest nierównością

r * r

k

Etap eliminacji „kandydatek” słabo skorelowanych ze zmienną objaśnianą występuje tylko raz. Po nim przystępujemy do punktu 1.3.3.

1.3.3. Wybór zmiennej najsilniej skorelowanej ze zmienną objaśnianą Do zbioru zmiennych objaśniających zaliczamy jako pierwszą spośród po- zostałych „kandydatek” tę, która jest najsilniej skorelowana ze zmienną ob- jaśnianą. Oznaczmy ją

r

h ; wyznaczamy ją ze wzoru

{ }

k

k

h

r

r = max

(6)

1.3.4. Eliminacja „kandydatek” silnie skorelowanych z

r

h

Formalnie eliminujemy te zmienne

x

k , dla których zachodzi związek

r * r

hk

>

Wynika to z faktu, że poprzez silne skorelowanie zmiennych spełniających ten warunek ze zmienną

r

h , nie wniosą one istotnie nowych informacji o zmiennej objaśnianej, gdyż to, co mogłyby wnieść, zostanie wniesione przez zmienną objaśniającą

r

h

.

Postępowanie opisane w punktach 1.3.3 oraz 1.3.4 powtarza się aż do wyczerpania wszystkich „kandydatek” na zmienne objaśniające.

Przykład

Wykorzystując metodę analizy współczynników korelacji wybrać zmienne objaśniające spośród x

1

, x

2

, x

3

z poprzedniego przykładu.

Lata ‘71 ‘72 ‘73 ‘74 ‘75 ‘76 ‘77 ‘78 ‘79 ‘80

y 10 10 16 16 12 14 20 20 20 22

x

1

6 6 10 10 8 10 12 12 12 14

x

2

8 8 12 12 8 8 14 16 16 18

x

3

14 14 18 18 18 18 24 24 26 26

Rozwiązanie:

Wartości średnie poszczególnych zmiennych:

16 ,

y = x

1

= 10 , x

2

= 12 , x

3

= 20 .

n 1 2 3 4 5 6 7 8 9 10

y-y

śr

-6 -6 0 0 -4 -2 4 4 4 6

x

1

-x

1śr

8 -10 -10 -10 -10 -10 -10 -10 -10 -10

x

2

-x

2śr

-4 -4 0 0 -4 -4 2 4 4 6

x

3

-x

3śr

-6 -6 -2 -2 -2 -2 4 4 6 6

(7)

Współczynniki korelacji dla każdych dwóch wektorów odchyleń zmiennych od średnich obliczamy w programie Excel, korzystając z funkcji WSP.KORELACJI(Wektor1;Wektor2). Otrzymujemy:

 

 

=

 

 

=

1 9159

0 9382 0

9159 0

1 9004

0

9382 0

9004 0

1 R

9574 0

9566 0

9799 0

R

0

, ,

, ,

, ,

, ,

, ,

Zakładamy poziom istotności

α = 0,05

.

Ponieważ tutaj

N=10

więc liczba stopni swobody wynosi

N-2=10-2=8

.

Z tablic rozkładu

t − − − −

Studenta dla takich

α

i

N-2

otrzymujemy

t

α

= 2,306.

Zatem wartość krytyczna współczynnika korelacji

r*

przyjmuje wartość

( )

( ) 2 306 8 0 632

306 2 2

N t

r t

2 2 2

2

, ,

* , =

+

=

− +

=

α α

Analizując macierz R0 stwierdzamy, że żadna zmienna nie jest słabo sko- relowana ze zmienną objaśnianą y , gdyż |xk|>0,632 dla k=1,2,3.

Spośród tych zmiennych najsilniej ze zmienną objaśnianą jest skorelowana zmienna x1. Staje się ona zmienną objaśniającą.

Z tablicy R widać, że mamy |r12| = 0,9004 >r* oraz |r13|=0,9159>r* . Zatem eliminujemy zmienną zarówno x2 jak i x3.

Zatem metoda współczynników korelacji wyłoniła jedną zmienną objaśnia- jącą: x1.

(8)

1.4. Metoda wskaźników pojemności informacyjnej – metoda Hellwiga Dysponujemy zbiorem „kandydatek” na zmienne objaśniające,

x

1

, x

2

, ..., x

L

oraz zmienną objaśnianą

y

. W związku z tym bez trudu obliczamy macie- rze współczynników korelacji R0 oraz R.

Każda z „kandydatek” jest traktowana jako nośnik informacji o

y

.

Rozpatrujemy wszystkie niepuste kombinacje zmiennych

x

1

, x

2

, ..., x

L. Ich

liczba to

2

L

– 1

. Każdą kombinację oznaczamy

K

l , zaś numery zmiennych zawartych w kombinacji

K

l zawarte są w zbiorze

Z

l, gdzie

l= 1, 2,..., 2

L

– 1

.

Indywidualną pojemność informacyjną hlk zmiennej

x

k

, k=1, 2,...,L

,

wchodzącej w skład

l

–tej kombinacji

K

l określamy następująco:

=

Zl

s

sk 2 lk k

r h r

Integralna pojemność informacyjna

l

–tej kombinacji

K

l :

=

Zl

s lk

l

h

H

Zarówno indywidualna jaki i integralna pojemność informacyjna przyjmuje wartości z przedziału [0; 1]. Za najlepszą kombinację zmiennych (za zbiór zmiennych objaśniających) uznajemy zbiór „kandydatek”, dla których pojemność integralna jest największa

H

optymalne

= max{ H

l

: l = 1 , 2 ,..., 2

L

− 1 }

Rozważymy zbiór kandydatek na zmienne objaśniające z poprzedniego przykładu.

Dla tego zbioru znamy macierze R0 oraz R:

 

 

=

 

 

=

1 9159

0 9382 0

9159 0

1 9004

0

9382 0

9004 0

1 R

9574 0

9566 0

9799 0

R

0

, ,

, ,

, ,

, ,

, ,

(9)

Liczba zmiennych

L = 3

. Stąd liczba kombinacji

2

L

– 1 = 2

3

– 1 = 7

. Wypi- szemy poszczególne kombinacje, policzymy indywidualną pojemność in- formacyjną elementów każdej kombinacji, a następnie integralna pojem- ność informacyjną każdej kombinacji.

K

1

= {x

1

} Z

1

= {1} h

11

= 0 9602 1

9799 0

r

r

2

11 2

1

, ,

=

= H

1

= h

11

= 0,9602

K

2

= {x

2

} Z

2

= {2} h

22

= 0 9151 1

9566 0

r

r

2

22 2

2

, ,

=

= H

2

= h

22

= 0,9151

K

3

= {x

3

} Z

3

= {3} h

33

= 0 9166 1

9574 0

r

r

2

33 2

3

, ,

=

= H

3

= h

33

= 0,9166

K

4

= {x

1

, x

2

} Z

4

= {1; 2} h

41

= 0 505 9004

0 1

9799 0

r r

r

2

12 11

2

1

,

,

, =

= + +

h

42

= 0 459

9004 0

1

9566 0

r r

r

2

22 21

2

2

,

,

, =

= +

+ H

4

=h

41

+h

42

=0,505+0,459=0,964

K

5

= {x

1

, x

3

} Z

5

= {1; 3} h

51

=

9382 0

1

9799 0

r r

r

2

13 11

2 1

, ,

= +

+ =0,495

h

53

=

1 9382 0

9574 0

r r

r

2

33 31

2 3

= +

+ ,

, =0,473 H

5

= 0,495 + 0,473 = 0,968

K

6

= {x

2

, x

3

} Z

6

= {2; 3} h

62

=0,4776, h

63

=0,4784 H

6

=0,956 K

7

={x

1

, x

2

, x

3

} Z

7

={1; 2; 3} h

71

= =

+

+ 0 9004 0 9382 1

9799

0

2

, ,

, 0,338,

h

72

= =

+

+ 1 0 9159 9004

0

9566

0

2

, ,

, 0,325, h

73

= =

+ + 0 9159 1 9382

0

9574

0

2

, ,

, 0,321,

H

7

=0,338+0,325+0,321=0,984

H

optymalne

= max{H

l

:l=1,2,...,7} =0,984

i jest osiągana dla

K

7

.

Jak z tego wynika, zmiennymi objaśniającymi wg metody Hellwiga powinny zostać wszystkie trzy kandydatki

.

Wynikło to z faktu, iż wszystkie trzy zmienne były

Cytaty

Powiązane dokumenty

Uzupełnij schemat przedstawiający rozwój polskiego ruchu narodowego tak, aby w każdej ramce oprócz wpisanych tam informacji znalazła się pełna nazwa organizacji. na

Promień światła skierowano prostopadle na szklany pryzmat o podstawie trójkąta prostokątnego równoramiennego, tak jak zaznaczono na schemacie. Przyjmij, że kąt

У хаце прыезджыя паклалі на стол дары, у тым ліку хлеб і віно, і пачалася размова, уся на выкрутасах, уся на жартах, на двухсэнсоўнасцях.. То купецкая пра

To już zupełnie przestało mu się podobać, zaczął więc przepychać się między płaszczami to w jedną, to w drugą stronę, nawołując:.

Podaj dwa przykłady z tekstu, które wskazują, że narratorem jest dziecko.. Cieszył się

Oblicz długości przekątnych oraz wysokość tego rombu. Powierzchnia boczna tego graniastosłupa po rozłożeniu na płaszczyźnie jest

Schematy przedstawiają właściwości ciał lub modele różnych zjawisk odbywających się na poziomie cząsteczkowym. Jaka jest to odległość w terenie?.. Miejsce

Jeżeli jego objawy nasilają się, należy zgłosić się do lekarza zajmującego się schorzeniami skóry, czyli.. bezpłciowo