Kazimierz Kacprzak
Idea zastosowania korelacji
kanonicznej do wyboru optymalnego
zbioru zmiennych objaśniających do
modelu ekonometrycznego
Annales Universitatis Mariae Curie-Skłodowska. Sectio H, Oeconomia 15-16, 177-184
U N I V E R S I T A T I S M A R I A E C U R I E - S K Ł O D O W S K A L U B L I N — P O L O N I A
VOL. X V /X V I, 13 SECTIO H 1981/82
Zakład Statystyki, Ekonometrii i Informatyki Wydziału Ekonomicznego UMCS
K a z i m i e r z K A C P R Z A K
Idea zastosow ania korelacji kanonicznej do w yboru optym alnego zbioru zm iennych objaśniających do m odelu ekonom etrycznego
И дея применения канонической корреляции для выбора оптимального множ ества объ я сним ы х перем енны х в эконом етрической модели
The A p p lication of C anonical C orrelation to th e S electio n of an O ptim al Set of E xp lan atory V ariables for an E conom etric M odel
U W AG I W STĘPN E
A naliza kanoniczna stanow i jeden z elem entów w ielow ym iarow ej an a lizy staty sty czn ej. Ogólnie m ożna stw ierdzić, że polega ona na badaniu zw iązku pom iędzy dwom a układam i (w ektoram i) zm iennych, przy czym jeden u k ład tw orzą zm ienne objaśniane, a drugi — zm ienne objaśniające. W ynika z tego, że analizę kanoniczną m ożna traktow ać jako uogólnienie reg resji w ielokrotnej, w k tó rej zmienność zm iennej objaśnianej m ożna w yjaśnić zm iennością zespołu zm iennych objaśniających.
Pojęcie zm iennych kanonicznych i korelacji kanonicznej w prow adził do lite ra tu ry statystyczno-ekonom etrycznej H. H otelling w r. 1936, a sze rokie podstaw y teorii korelacji kanonicznej dał T. W. A nderson w r. 1958.1 Problem ten omówiony jest rów nież przez w ielu autorów (przede w szyst kim zachodnich) w pracach dotyczących w ielow ym iarow ej analizy sta tystycznej. A utorzy, do któ rych m iędzy innym i należą: Co.oley, Lohnes, H arris, K endall, S tu a rt i Rao podali nie tylko teoretyczne aspekty ko re lacji kanonicznej, ale rów nież praktyczne jej zastosowania. Główne dzie-1 T. W. A n d e r s o n : A n I n tro d u ctio n to M u l ti v a r ia t e S ta tis tic a l A n a ly s i s , W iley, N ew York 1958, s. 288—306.
178 K azim ierz K acprzak
dżiny dotychczasow ych zastosow ań analizy kanonicznej to: psychologia, geografia, antropologia, botanika, n auk i rolnicze i ekon o m iczn e.2
Z ainteresow anie w naszym k ra ju analizą kanoniczną i jej w yko rzy staniem do bad ań em pirycznych d a tu je się od drugiej połow y lat siedem dziesiątych. Teoria tej p ro b lem aty k i om ówiona jest m iędzy innym i w opracow aniach A. K r z y ś k i3 i M. Nowosadzkiego, n ato m iast w yniki p ra k tycznych zastosow ań zaw arte są w pracach B. Głębockiego 4, S. M e jz y 5 i W. R a ta jc z a k a 6, dotyczących bad ań pro du kcji rolniczej, zootechnicz nych i w geografii ekonom icznej. W p racach tych zastosow anie analizy kanonicznej pozwoliło zbadać zw iązki pom iędzy zm iennym i m ierzącym i poziom u rb an izacji a zm iennym i m ierzącym i poziom uprzem ysłow ienia w układzie gm in w ojew ództw a poznańskiego, jak rów nież w spółzależ ności pom iędzy rozw ojem ekonom icznym , środow iskiem geograficznym i kształtem pow iatów w ojew ództw a poznańskiego a rozw ojem ich sieci drogow ej i kolejow ej.
Niniejsze opracow anie nie opiera się na badaniach em pirycznych. Ma ono c h a ra k te r teo rety czn y . Celem tego opracow ania jest przedstaw ienie m ożliwości w y ko rzy stan ia korelacji kanonicznej do w yboru optym alnego zbioru zm iennych o bjaśniających do m odelu ekonom etrycznego.
Możliwość zastosow ania korelacji kanonicznej do w yboru zm iennych objaśniających do m odelu ekonom etrycznego w początkow ej fazie jego budow y zaproponow ał J. G reń 7. Podał on ogólną ideę tej m etody w w y m ienionym aspekcie. W niniejszym opracow aniu — poza przypom nie niem propozycji J. G ren ia — przedstaw iono dalsze uw agi dotyczące uzyskania ostatecznego rozw iązania, tzn. ustalenia zbioru zm iennych ob jaśn iający ch do m odelu ekonom etrycznego.
Załóżm y, że dysp o n ujem y dużym zbiorem poten cjaln ych zm iennych, któ re m ożna by użyć w m odelu jako zm ienne objaśniające. Nie chcem y jed n ak w prow adzać do m odelu w szystkich zm iennych p o tencjalny ch (zda
2 M. N o w o s a d z k i : A n aliza k a nonic zna i analiza re d u n d a c ji, P ią te C ollo quium M etod ologiczn e z A g ro -b io m etrii, W arszaw a 1975, s. 230— 252.
3 M. K r z y ś k o : A n a li z a z m i e n n y c h kan o n ic z n y c h i k o r e la c ji k a n o n icz n ych [w:] A n a liza r e g r e s j i w geogra fii, pr. zb. pod red. Z. C h ojnickiego, P A N , W arsza w a —P ozn ań 1980, s. 55—68.
4 B. G ł ę b o c k i : C z y n n i k i k s z t a ł t u j ą c e p r z e s t r z e n n ą s t r u k t u r ę p r o d u k c y j n ą
r o ln ic tw a , U n iw e r sy te t im . A. M ick iew icza, P ozn ań 1979.
5 S. M e j z a : K o r e la c j e ka n o n icz n e i ich z a s to s o w a n ia w b adan iach ro ln i
czych, P ią te C olloquium M etod ologiczn e z A gro-B iom etrii, P A N , 1975, s. 254—274.
6 W. R a t a j c z a k : Z a s to s o w a n i e a n a lizy k a n o n icz n ej w badania ch g e o g r a
ficzn ych , pr. zbiorow a pod red. Z. C hojn ick iego nt. „A naliza regresji w g eo g ra fii”, P A N , W arszaw a—Poznań, 1980, s. 69— 81.
7 P rop ozycja ta zo sta ła zgłoszona na sem in ariu m n a u k ow ym p ośw ięcon ym p rob lem ow i doboru zm ien n ych do m odelu, które odbyło się w Z akopanem w k w ie t niu 1979 r.
rza się, że nad m iern a liczba -zm iennych objaśniających w y stępująca w m odelu poza kłopotam i n a tu ry num erycznej u tru d n ia m ery tory czne zin terp reto w an ie uzyskanych wyników). M usim y więc dokonać w yboru zm iennych spośród w szystkich kandydatek.
Z biór zm iennych oznaczm y przez x, natom iast zbiór zm iennych, któ re ostatecznie w ejdą do m odelu przez Xa, a zbiór zm iennych pom iniętych — przez Xb- Zm ienne ze zbioru Xa będziem y nazyw ać zm iennym i a k ty w n y mi, zaś zm ienne ze zbioru Xb — zm iennym i biernym i. Na tej podstaw ie zbiór zm iennych potencjalnych m ożna zapisać jako sum ę podzbiorów Za i Xb, czyli:
X=Xa^ Xb
gdzie: xa= j Xi, ieA j , Xb== {Xj( j e B ) .
P roblem więc sprow adza się do odpowiedniego podziału zbioru x podzbiory xa i Xb- Podział ten pow inien być jed nak ta k dokonany, aby w yb ran e zm ienne do m odelu najlepiej w y jaśn iały zm ienność zm iennej objaśnianej. Co w ięcej — ze względu na brak dokładnego rozeznania, które ze zm iennych zbioru x bezwzględnie pow inny w m odelu w ystąpić — nie chcem y całkowicie rezygnow ać z w pływ u zm iennych pom ijanych.
W ym agam y więc, aby zm ienne podzbioru Xa, poza inform acjam i, jakie
same wnoszą do m odelu, reprezen to w ały rów nież inform acje pochodzące od zm iennych pom ijanych. W ydaje się, że odpowiedniego podziału zbioru X na podzbiory xa i Xb m ożna dokonać przez w ykorzystanie teorii k o re lacji kanonicznej.
KORELACJA K A N O N IC ZN A
Rozważm y w ek to r x zm iennych o i + j składow ych oraz podw ektory
xa= [x j i x B—:[xj] U tw órzm y dwie zm ienne sztuczne u A i vB, będące kom binacjam i liniow ym i elem entów w ektorów x A i x B, co m ożna zapisać następująco:
“A - Z A qiXi = q TxA VB = § g l’j*j =
(2 . 1 )
gdzie: q = [ q i ] , h = [h j] — w spółczynniki powyższych kom binacji liniow ych będą ta k dobrane, aby w spółczynnik korelacji pom iędzy zm iennym i u A i vB był m aksym alny.
Dla uzyskania jednoznacznych rozw iązań num erycznych w prow adza się d odatkow y w arunek, a m ianow icie taki, żeby w spółczynniki qi i hj
180 Kazimierz Kacprzak
b y ły tak dobrane, aby w a ria n c je zm iennych u A i vB rów n ały się jedności, czyli:
D2(ua ) = 1 i D2(vB) = 1 (2.2)
W spółczynnik k o relacji pom iędzy zm iennym i u A i v B oznaczony przez puAv B m ożna w te d y w yrazić następująco:
e ° v(uA,vB)
p = - --- -— = c o v ( u v ) . (2.3)
UA VB V d j(ua) D3(vb ) A “
Zdefiniow ane w zorem (2.1) zm ienne u A i v B nazyw am y zm iennym i kanonicznym i, a w spółczynnik korelacji pom iędzy ty m i zm iennym i o k reś lony w zorem (2.3) n azyw am y w spółczynnikiem korelacji kanonicznej. W spółczynnik ten m ierzy siłę zw iązku pom iędzy zm iennym i kanonicz nym i. M aksym alizując go chcem y zapew nić sobie w prow adzenie do m o d elu info rm acji nie tylko rep rezen to w an y ch przez zm ienne, k tóre zostaną w m odelu uw zględnione, ale rów nież — przez silne skorelow anie ich ze zm iennym i p o m ijan y m i — inform acje pochodzące od zm iennych nie uw zględnionych w m odelu. W spółczynnik puAv B jest bowiem k ry te riu m
w yb o ru odpowiedniego podziału zbioru x podzbiory x a i Xb, um ożli
w iającym u stalen ie listy zm iennych objaśniających, k tó re pow inny w y stąpić w m odelu. D okładniej problem w yboru omówiono w punkcie 3 n i niejszego opracow ania.
Obecnie p rzed staw im y proces w yznaczania m aksym alnego w spółczyn nika korelacji kanonicznej dla jednego z m m ożliw ych podziałów zbio ru x na podzbiory X a i
Xb-Jeżeli d y sp o n u jem y m acierzą x obserw acji na zm iennych p o ten cjal nych i r-ty m podziałem tej m acierzy na bloki x A i x B oraz w ek to ram i zm iennych kanonicznych tego podziału, to za T heilem m ożem y podać, że 8:
D»K>) = ««'l'»jf> = « f x J X A, r = l
^
d
2(
v
(D) = t« t v« = 1.7 x7; xB h, = i.
N atom iast w spółczynnik korelacji kanonicznej m ożna zapisać n a stę pująco:
P U <r > V<f> = UA >T Vu ’ = l J X A X B h r ' <2 ' 5 )
A B
A by otrzym ać m ak sy m aln y w spółczynnik PuA (r) vB(r)} należy zm aksy
m alizow ać p raw ą stronę w y rażenia (2.5) p rzy w aru n k ach (2.4). P roblem
ten — jak wiadomo — jest poszukiw aniem m aksim um w arunkow ego fun k cji L agran ge’a, k tó ra w naszym w ypadku p rzy jm u je następ u jącą postać:
F(V hr) = qrT x T x Bh[ - j x ( q ^ x J X Aqr - 1) - ^ ( ^ X j X B hr - 1) (2.6)
gdzie: 1 i (i są m nożnikam i L ag ran ge’a.
O bliczając pochodne cząstkowe funkcji (2.6) względem w ektorów q r i hr i p rzy ró w n u jąc je do w ek to ra zerowego otrzym ujem y:
XI XBh, - * XAXAlr = °
0 q r
(2.7)
- ^ - = x J X Aqr - M X j X Bhr = o .
r
W ykorzystując (2.4) i (2.7), m ożna w ykazać, że:
A = H = p u ( r)4 r) ' (2 .8)
Z kolei w yko rzy stu jąc (2.7) i (2.8) i dokonując odpow iednich p rz e
kształceń, o trzy m u jem y dwa rów nania o następującej postaci:
[ (xI x a>“ x a V x b x b> " x 5 x a - = °
A B r (2.9)
U X 1B X B > " X J X a ( X I X a ) " X I X B - P i < r ) v ( r ) U hr = O .
Ja k w ynika z (2.9) Q2u A(r )v B(r ) jest w artością w łasną odpow iednich m acierzy — w artością, któ rej p ierw iastek jest w spółczynnikiem ko re lacji kanonicznej. N atom iast q r i h r są w ektoram i w łasnym i ty ch sam ych, odpow iednich m acierzy. Aby więc uzyskać najw iększy w spółczynnik ko relacji kanonicznej, w y bieram y najw iększy p ierw iastek w ielom ianu cha rakterystycznego, w ystępującego w rów naniu ch arak tery sty czny m , k tó re jest w yznacznikiem (2.9) porów nanym do zera. N ajw iększem u p ierw ia st kowi przyporządkow ane będą odpowiednie w ek tory spełniające w a ru nek (2.2).
PR O CED UR A ZA STO SO W A N IA KO RELACJI K A N O N IC Z N EJ DO W Y BO RU ZM IENNYCH O B JA ŚN IA JĄ C Y C H
Cały proces w ykorzy stan ia analizy kanonicznej do w yboru zm iennych objaśniających m ożna przedstaw ić w postaci poniższego schem atu blo kowego. Schem at ten przed staw ia kolejność czynności zm ierzających do
182 K azim ierz K acprzak
w y bo ru ostatecznego, optym alnego podziału zbioru x na podzbiory Xa
i Xb
-J a k w ynika ze schem atu przedstaw ionego na rycinie, poszukiw anie m aksym alnego w spółczynnika korelacji kanonicznej przebiega przez w szystkie r ^ m podziałów zbioru x na odpow iednie podzbiory Xa i Xb-
N ależy jedn ak podkreślić, że in te re su ją nas tylk o te podziały, k tó re za pew n iają co n a jm n ie j dw uelem en tow e podzbiory Xa i Xb- Takie bowiem
podzbiory um ożliw iają k o n stru k c ję zm iennych kanonicznych.
S ch em at b lok ow y w y k o rzy sta n ia a n a lizy k an on iczn ej do w yb oru zm ien n ych o b ja ś nia ją cy ch
B lock sch em e of th e a p p lication of ca n o n ica l a n a ly sis to th e selectio n of ex p la n a to ry va ria b les
O stateczny w ybór optym alnego podziału rozw ażanego zbioru n a stę puje po zbadaniu m aksym alnych w spółczynników korelacji kanonicznej dla m podziałów. T rak tu jąc bowiem w spółczynnik korelacji kanonicznej jako k ry te riu m w yboru optym alnego podziału zbioru x n a podzbiory Xa
i X b , w yb ieram y ze w szystkich m m aksym alnych w spółczynników k o re
lacji ten, k tó ry jest najw iększy. K ry te riu m to m ożem y zapisać n a stę pująco:
p u a vr = m a x ( m a x p u v ) = m a x p u v
A B А , В q , h А В А , В UA VB
gdzie: % v B - ™a£PuAvB (3.1)
W ydaje się, że powyższe k ry te riu m m aksym alnego w spółczynnika korelacji kanonicznej może zapew nić w ybór optym alnego (najlepszego) podziału zbioru zm iennych p otencjalnych na podzbiór zm iennych a k ty w nych i podzbiór zm iennych biernych. N ależy sądzić, że zm ienne osta tecznie w prow adzone do m odelu w m yśl k ry te riu m (3.1) dobrze objaśniać będą zm ienną objaśnianą i dobrze zastępow ać zm ienne pom inięte. Taki sposób podejścia może pozwolić na zredukow anie dużej liczby zm iennych p oten cjaln y ch do zbioru zm iennych aktyw nych, zachow ując jednocześnie — przez w prow adzenie analizy kanonicznej — oddziaływ anie zm iennych biernych. Trzeba jednak zdawać sobie spraw ę z fak tu , że stro na rac h u n kowa dojścia do ostatecznego rozw iązania jest czasochłonna i skom pli kow ana. Zbadanie m aksim um funkcji (2.6) dla w szystkich m podziałów dużego zbioru x zmusza do k o rzystania z tech nik i kom p utero w ej. P o nadto w ym aga rów nież znajom ości odpowiednich program ów obliczenio wych. Pow yższy fak t spraw ia, że analiza kanoniczna budzi pew ne kon trow ersje. N ależy jed nak zaznaczyć, że obecny poziom techniki ko m pu terow ej jest taki, że naw et czasochłonne i skom plikow ane num erycznie zadania m ogą być zadow alająco rozw iązane, o czym świadczą cytow ane w tym opracow aniu publikacje.
Р Е З Ю М Е В статье представлена возм ож ность применения канон ической корреляции для вы бора объ я сн и м ы х перем енн ы х в эконометрической модели. В ступ ительная часть работы посвящ ена общ им принципам деления больш ого м нож ества п о тенциальны х перем енн ы х на подм нож ество перем енны х, в ходя щ и х в м одель, и на п одм нож ество п р опущ ен ны х переменны х. Вторая часть работы посвящ ена критерию выбора соответствую щ его деления м нож ества потенциальны х перем енны х. Таким критерием есть максимальны й
1 8 4 K azim ierz K acprzak к оэф ф и ц и ен т канон ической корреляции м еж д у двум я каноническим ^ п ер ем ен ными, из которы х одна является линейной комбинацией перем енн ы х, приняты х во внимание в м одели, а другая — линейной ком бинацией п р опущ ен ны х п е рем енны х. Нам к аж ет ся, что м аксим ализируя к оэф ф и ц и ен т канонической кор р еляц ии м еж д у этими перем енны ми, м ож н о буд ет произвести такой выбор по тенциальны х перем енн ы х, при котором введенны е в модель перем енны е будут хорош о объ я сн я ть объясним ы е перем енны е. Б ольш е того — если мы их сильно скоррелируем с пропущ енны м и переменны ми, то они будут учиты вать и н ф о р мацию, содер ж ащ ую ся в п ерем енн ы х, не уч тен н ы х в модели. В третьей части статьи п редставлена целая п р оц едур а получени я оконч а тельного, оптимального дел ен и я м нож ества потенциальны х перем енн ы х на мно ж ест в о перем енн ы х, вв еденны х в м одель, и на м нож ество п р опущ ен ны х п ер е менны х. С ледует, однако, добавить, что п роцедура м аксим ализации к оэф ф и ц и ен та канон ической корреляции, являю щ егося критерием выбора, до л ж н а охваты вать все соответствую щ ие дел ен и я м нож ества потенциальны х перем енн ы х. Этот про цесс сл ож ен в нум ерич еском отнош ении, он требует использования ком пью тер ной вы числительной техники. S U M M A R Y
T he a rticle p resen ts a p o ssib ility of ap p lyin g can on ical correlation to th e s e le c tion of ex p la n a to ry v a ria b les for an econ om etric m odel. T he in trod u ctory sectio n d eals w ith th e g en era l p rin cip les of th e d iv isio n of a large set of p o ten tia l va ria b les into a su b set of v a ria b les in clu d ed in th e m od el and a su b set of v ariab les om itted.
The second part concerns th e se le c tio n criterion for an appropriate d iv isio n of th e p oten tial v a ria b les set. T his criterion is provid ed by th e m axim u m c o e ff i cien t of can on ical correlation b e tw e e n tw o can on ical variab les, of w h ich one is a lin ear com b in ation of v a ria b les in clu d ed in th e m odel, w h ile th e other is a lin ear com b in ation of v a ria b les o m itted . It seem s th a t th e m a x im iza tio n of th e can on ical correlation co e ffic ie n t b e tw e e n th ese v a ria b les m ay en su re th e selectio n of such a d iv isio n of th e p o ten tia l v a ria b les set th at th e v a ria b les in trod u ced into th e m od el w ill in terp ret w e ll th e v a ria b le ex p la in ed . M oreover, by th eir strong co rrela tion w ith th e v a ria b les om itted, th ey w ill tak e into accou n t the in form ation c o n ta in ed in v a ria b les not in clu d ed in th e m od el.
T he third part of th e a rticle p resen ts th e w h o le procedure of reach in g th e fin al, optim al d iv isio n of th e p o ten tia l v a ria b les set in to th e set of v ariab les in tr o duced into th e m o d el and th e set of v a ria b les o m itted . H ow ever, it should be added th at th e p rocedure of th e m a x im iza tio n of th e can on ical correlation c o e ffi cien t, w h ich is th e se le c tio n criterion, m u st cover a ll the appropriate d iv isio n s of th e p oten tial v a ria b les set. It is a process n u m erica lly co m p lex and requires th e ap p lica tio n of com p u ter ca lcu la tio n tech n iq u es.