Analiza głównych składowych jako metoda wstępnego przetwarzania danych dla sieci neuronowych

Pełen tekst

(1)2000. Janu.sz Morajda KatHra Inf.rmatykl. Analiza głównych składowych jako metoda wstępnego przetwarzania danych dla sieci neuronowych S treszczenie: W artykule opisano llnalizę gl6wnych sk ładowych (PCA) w odniesieniu do zagadnienia wSlcpncj transformacji danych dla sieci neuronowych typu perceptron. Zaprezentowano pr.~y tym funkcjonowanie opierającej się na regule Sangcra i reali zującej taką transformację sieci neuronowej tYPll PC A.jako. narzędzia. alternatywnego dla metody klasycznej.. Następnie. przedstawiono wyniki badań doboru optymalnej iloSci stosowan ych głównych składowych oraz czasu uczenia sieci PCA w zagadnieniu wstępnego prLctwarzania danych dla sieci neuronowych. wykol7,ystywanych do prognozowania dynamiki zmian indeksu. giełdowego. W IG 20. Wykazano. celowość. lilosowania analizy PCA w wybranych zagadnieniach oraz sformulowano szereg wniosków dotyczących tej metody. Slowa klu czowe: analiza gl6wnych skladowych. sieci neuronowe.. 1. Wprowadzenie. W ostatnich latach można zaobserwować intensywny postęp prac badawczych związanych z wykorzystaniem stosunkowo nowyc h metod przetwarzania i anal izy informacji opierających się na sztucznych sieciach neuronowych (SN). Narzędzia te, stanowiące rodzaj nieliniowych i nieparametrycznych technik modelowania zjaw isk, znajdują zastosowanie m.in . w taki ch zagadnieniach. jak szeroko poję te rozpoznawanie obrazów. klasyfikacja wzorcowa i bezwzorcowa, prognozowanie szeregów czasowych oraz w innych podobnyc h problemach. Sieci neuronowe są wykorzystywane w wie lu zagadnieniach z dziedziny ekonomii i za rządzania (np. w marketingu , klasyfikacji kli entów firmy, prognozowaniu rynków finan sowych . itp.), stanowiąc przy tym często uzupe lnienie lub alterna t ywę dla metod klasycznych. Sztuczne sieci neuro nowe powsta ł y na gruncie insp iracji poc h odzącyc h z biologi i i biocybernetyki. Prletwarzają one informacje w sposób ana logiczny do nat ural nych strukt ur komórek nerwowych. W n ajw i ększym uproszczeniu.

(2) Jan/lsz. •. ::====::~:l~e sicci. • neuron połąc1.cnia między. ncuronami. posiadające pl7.ypisane wagi. Rys. \ . Schemat sieci neuronowej typu perceptron Źródło: opracowanie własne na podstawie [Hayldn przepływ. 19941 .. i przetwarzanie informacji w sieci neuronowej na s tępuj e poprzez przez kolejne warstwy sieci, zawie rające określone zestawy pojcdyn ~ czych e lementów (ne uronów), przy czy m neurony sąsied nich warstw przeka~ zują sobie sygna ł y za pośrednic t wem połączeń, które posiadają pewne przyp i ~ sane wa rtości liczbowe (tzw. wagi). Wagi połączeń , dobierane w trakcie tzw. procesu uczenia, decydują o znaczeni u (wadze) i o sposobie transformacji przepływającyc h przez nie pojedy nczych sygnałów i w konsekwencji o sposob ie przetwarzania danych przez całą sieć (por. rys. I). Pod s tawą konstru kcji modeli o p ierających się na sieciach neuronowych (SN) jest proces uczenia sieci, w trakcie którego nastę p uje adaptacyj ny dobór wag sieci i wyksz ta łcana jest odpowiednia relacja pomiędzy jej wejściem a wyjściem. Proce s uczenia sieci neuronowej polega na wie lokrotnym podawaniu na wejście sieci odpowied nich zestawów da nych (wektorów wejścio wych), wchodzących w sk ład tzw. ciągu uczącego , oraz na porównywaniu otrzymanej odpow iedzi sieci z pożądaną (zna n ą) dla danego wektora wejścio wego wartością wyjśc i ową ( wzorcow ą). Celem operacj i uczenia jest uzyskan ie takiego końcowego zbioru wag połączeń sieci, aby błędy odpowiedzi sieci dla poszczególnych wektorów wejśc i owych były jak najmniej sze. Szczegółowy opis stosowanych architektur sieci , modeli neuronów oraz metod uczenia sieci neuronowych nie jest celem niniejszego arty k ułu, toteż autor odsyła tu czytelnika do bogatej literatury, np . rTadeusiewicz 1993], [Hayk.in 1994], [Osowski 1996] . [Rutkowska ; ;n. 1997]. [Zurada 1992]. przej śc i e.

(3) AI/aliza. meroda .... Jednym z podstawowych zagadnień decydujących o efektywności procesu uczen ia sieci i funkcjonowania nauczonej sieci jest dobór zestawu zm iennych wej śc iowyc h (ele mentów wektorów wejściowych) oraz dokonanie właściwej wstępnej transformacji tych zmiennych przed wykorzystaniem ich jako wejść dla sieci ne uronowej. Szczególnie przydatne może s ię okazać zlikwidowanie wzajemnych korelacji tych zmiennych (dekorelacja), a takż e redukcja liczby zmie nnych. polegająca na eliminacji wejść sieci nie wnoszących istotnej informacji fA zo ff 1994]. W celu prleprowadzenia dekorelacji danych wejściowych można zastosować szereg technik analitycznych. zmierzających do ortogonalizacji przestrzeni wejść. Dość powszec hnie stosowanym narzędzi e m , umożli wiającym zarówno ortogonalizację.jak i dal szą reduk cję wymiarowości przestrzeni cec h , jest analiza głównych s kład owych (Prillcipa/ COII/pollelll Alla/)'sis - PCA) .. 2. Analiza. głównych składowych. Analiza głównych s kładow yc h [Haykin 1994, Jajuga 1993] oparta jest na liniowym prze k sz tałceni u II-wy miarowej prleslrLeni skorelowanych cech (pierwotnie przyjętych zmiennych wejściowych dla sieci neuronowej) w k-wymiarową prze s trze ń cech nieskorelowanych (g ł ów n ych składow yc h ) (k ~ II) wed lug za l eż no ści:. y. = V · X , gdzie V = lVI' V2 ' ... , VkJ T jest maci erz.} k x n. ( 1). gdzie: X - wektor zmiennych wejściowych przed transformacją, y - wektor zmiennych wej śc i owyc h po transformacj i (głównych s kłado wych). VI' v ' .... V k - wektory własne macierzy kowariancji wyznaczonej dla z calego zbioru wektorów X. odpowiadające kolejnym wartościom własnym Al ' ~, ...• Ak. tej macierzy. Ponieważ wartości własne 1.. 1,1.. ' •••• Ak s tanowią miary wariancji zmien nych 2 po tran sfonnacji (g ł ów ny ch s kład owyc h) , w wyniku pr zekształcenia PCA otrlymujemy zestaw zdekore ł owanych zmi ennych , uporzqdkowanych wedlug ich malejącej wariancji. Traktując wariancje zmien nej jako wskaźnik jej informat yw no ści (a więc znaczenia danej zm iennej') oraz przyjmując k < 11, może m y dokonać redukcji wy miarowośc i przestrzeni wejść poprzez odrzucenie pewnej il ości ostatnich g ł ów n yc h s kładow yc h (tych o najmniejszej wariancj i). W wyniku takiej operacji realizujemy jednoczesną dekorelację zmiennych wejściowych dla siec i neuronowej oraz zmniejszenie ich il ośc i , stqd też analiza g ł ównych sk ład owych jest powszechnie uż ywany m narzędz i em wstępnego przetwarzania danych, szczególnie w zastosowaniach SN do anali zy i predyk-. I Prlyjmuje. s ię często. iż. zmienne o. małej. wariancji nic wnosz;j istotnej informacji..

(4) lalll/sz. cji finan sowyc h szeregów czasowyc h [Azoff 1994 , Thomason l 996a]. Przepływ i tran sformacja danych przez caly układ przetwarzania informacj i odbywa s i ę wed łu g sche mat u przedstawionego na rys. 2.. sict neuronowa "perceptron". ----~~At=======~~~~~~30~. wyjśc ie. sieci. Ileuron. pierwotne zmienne. zmienne wejściowe po transformacji -. wejściowe. główne skł adowe. Rys. 2. Schemat pncpt ywu informacji s kładający s i ę z modułu analizy głów nyc h s kła dowych (PCA ) i sieci neuronowej (typu perceptron) , posiadaj'lcej w tym przykładzie 6 neuronów wejśc i owyc h (wykorzystano 6 g łów n ych s kładowyc h ), 4 neurony w tzw. warstwie ukrytej i 1 neuron wyj ści owy Żr6dło : opracowanie własne.. O mawiana tu transformacja PCA m oże być realizowana nie tylko za pomocą metod y klasycznej obliczania wektorów w ła s ny ch mac ie rzy kowariancji, al e także przez pewien typ tzw. sa mou czącyc h s i ę sieci neuronowych, nazwanych siec iami PCA [Haykin 1994,Osowski 1996 , Grabowski 19971-. 3. Sieci PCA S i eć PCA, rea lizując a n e uronową i mplemen t ację analizy g łówn yc h sk łado wych,jest w istoc ie neuronową l ini ową siec i ą jednowarstwową (bez warstwy ukrytej ) o 11 elementach w warstwie wejśc i owej i k liniowych neuronach w warstwie wyjściowej , przetwarzającą info rmację wlaśnie według fo rmuł y ( l). W tej sieci wektory wag zw ią zane z poszczególnymi neuronami wyjśc i owy mi stanowią kolejne wiersze mac ierzy przek sz t ałcenia liniowego V = l"l ' " 2' . .. , "kl T ..

(5) Allaliza. metoda .... Wagi te wyznaczane są w iteracyjnym procesie uczeni a2 , w oparciu o pojawiaj:lce s i ę na wej śc iu sieci kolejne elementy ciąg u u czącego X - wektory x(t) . Do naj częśc i ej stosowanych algorytmów uczenia taki ej siec i (czy li wyznaczania w s półczynników macierzy V) nal eży regu ła Sangera (zwana równi eż regułą GHA) , będąca pewną modyfika cją powszechnie stosowanej w uczeni u nienadzorowanym reg uły Hebba . Reg uła Sangera wyrażona jest wektorową za leżno. 1996]: v,U + l ). śc ią3 l0sows k i. = v,(t) + ~(t). . y,(t) . (, '(I) - y,(t) . v ,(t)). y/t) = Vi(l). x(t) =. (2). gdzie: o. ". ,..L, v/t)x/,). i- I. , '( t). = ' U) - hL· , vh(l)y,,(t) i = 1,2, ..., k. Wykazano [Haykin 1994], że jeże li X(I) jest wektorem losowym o zerowej to przy założe niac h dotyczący ch w s półczyn nik a uczenia~ TJ(I):. wartości średni ej4,. lim 1")(1) = O. oraz. ,~-. ,. ,. (3). wektory wag v I(I), v 2(t) •... , vk(t) zainicjowane losowymi wartościami począt kowymi i modyfikowane w trakc ie procesu uczenia według iteracyjnej re g uły (2) , będą odpow iednio dą żyć przy 1--+ do k pierwszych wektorów własnych macierzy kowariancji wektora losowego x . a zate m wyzn a cz ą k pierwszych g ł ównyc h s kładowyc h tego wektora . Neuronowa impleme ntacja procedury transfonnacji wektorów wej śc iowych opartej o anal i zę g ł ównych s kład owyc h obejmuje: - n o rmali zację wszystkich zmiennych wej śc i owyc h . w tak i sposób , aby zapewni ć s pe łnienie warunku zerowej wa rt ośc i średni ej każd ej zmiennej ; znormali zowane w ten sposób wszystkie dos tępne wektory wej ściowe (oznaczmy ich ilo ść sy mbol em 6) s tanowi ć będą c iąg u czący dla sieci pe A , DO. 2 Proces uczenia w sieciach samouczących się (do których należą m.in. s ieci PCA) określa si~ terminem .. uc7,enia nienadzorowanego'". w te go typu sieciach nic dysponujemy bowiem po1.ądanymi wyjściowymi wartościami wzorcowymi dla sieci (na podstawie któryc h wyznacza s ię w kolejnych iteracjaeh błędy sygnałów wyjściowych i nastę pnie modyfikuje waSi).jak to ma miejsce np. dla sicci typu perceptron . Modyfikacja was podczas uczenia nicnadzorowanego dokonywana jC51 wedł u g określonego algorytmu,jedynie w oparciu o wektory wejSciowe z ciągu uczącego . 3 Wektory oznaczono symbolami pogrubionymi . • Aby spełn ić to za lożenie, należy przed uczeniem sieci PCA dQkonać odpowiedniej nonnalizllcji wek torów wej ściowyc h X(I). ~ W spółczy nnik ten określa długość wektora modyfikacji wag w pojcdynczej iteracji i mo1.c być zmieniany (zmniejszany) w trakcie procesu uczenia siec i PCA : zmiany te powinny być dokonywane w taki sposób, aby okreś l one w tekkie założenia (3) zosta ły spelnione..

(6) Janusz - określe ni e poc zą tk owego ws półczynnika uczenia Tl( I), zasad dokonywania zm ian wart ośc i tego wspó ł czy nnika w trakcie procesu uczenia, zdefi niowanie liczby epok6 uczenia E, dokonanie losowej ini cj ali zacj i wag, - rea li zacj ę iteracyj nego algory tmu uczenia sieci PCA na podstawie reg uły Sangcra (2) . - transformację wszystki ch 1} wektorów wejśc i owyc h na podstawie nauczonej sieci PCA, tzn. wed łu g za leżnośc i ( I) . Otrzy mane w wy niku wyżej opisanej tran sform acji k-wymiarowe wektory stan ow i ć będą właściwe wzorce wejściowe dla siec i typu perceptron (stosowanej jako zasadni czy modu l przetwarzania informacji). W prlypad ku zastosowania dla danych wejściowych SN anal izy g ł ów n ych sk ład owyc h , i s totną spraw'l jest optymalne o kreś l e ni e na s t ę pującyc h wielkości: - parametru k, tzn. li czby uwzględnionych g ł ów n yc h sk ład owyc h (za kła damy wykorzystanie przez s i eć k pierwszych, tzn. najbardziej infofm atywnych g łówn ych s kł adowyc h ).. - parametru E, tzn. liczby epok uczenia sieci PCA. Po ni żej przedstaw iono wyniki badań zmierzających do w ł aściwego oszacowania tych wartości przy wykorzystaniu siec i neuron owej typu perceptron do wybranego proble mu predykcji dynam iki indeksu gie łd owego dla polskiego rynku akcji.. 4. Analiza problemu badawczego I metodologia. badań. Prezentowane badania zw iązane są z zagadnieniem wykorzystani a sieci neuronowych typu perceptron do prognozowania zmian indeksu gie ldowego WIG 20. Do tego celu zastosowano sieci ni elini owe.jednok ierunkowe, posiadające jede n element wyjściowy (generujący wa rt ości wyjściowe reprezentujące przyszłq d yna mik ę zmian prognozowa nego indeksu) orazjedn'l warstwę ukry tą , uczone przy u życi u algorytmu wstecznej propagacji b łędów na podstawie danych pochodzących z rynku akcji z okresu od 14 kwietnia 1994 r. (pierwsze notowanie WIG20) do 30 września 1997 r. 7 Jako kryterium końco wej oceny sieci, reprezentującej jej e fek tyw no ść, przyjęto wartość liczbową o kre śloną zaproponowaną przez autora formu łą (4), stan ow i ąq miarę błędu siec i dla wzorców użytych zarówno do uczenia.jak i walidacji 8 sieci. 6 Epoką uczenia sicci nazywamy fragment procesu uczenia. obcjmujljey jednokrotnIj prezentajcst prezentowany sieci wielokrotnie, tzn . proces uczenia sklada się z wielu epok. 7 Szczegóły przyjętej architektury sieci oraz zasady funkcjonowania i parametrów algorytmu uczenia nie są istotne dla omawianego w artykule problcmu i ze względu na szczu plość miejsca nic zoslaną lutaj prledstawione. s Zbiór wszystkich dostępnych wzorców podziclono na dwa podzbiory: właściwy ciąg uczący i tzw . ciąg walidacyjny. Etementy ciągu walidacyjnego (nie stanowiące wzorców uczących) sluzą do biezącego testowania sieci (w trakcie uczenia), w celu zapobiegania występowaniu IZW. dcklU prleuczcn;a sieci. cję ca ł cgo ciągu uczącego; zwykłe ciąg uczący.

(7) Analiza. ,. '. I. metoda .... (4). gdz ie:. eu. -. ś re dniokwadratowy błąd wyjścia. sieci dla pojedynczego elementu. c i ą g u u czą cego,. e!, - ś redniokwadratowy błąd wyjśc i a. sieci dla pojedynczego element u c ią g u. waJidacyjnego. Bez k o ni eczn ośc i szczegó łowej interpretacji fo rmu ł y (4) wystarczy dla celów omawianych tutaj badań s twierdzi ć, że im średni bł ąd sieci jest mniejszy, tym wartość oceny jest mniejsza, to znaczy dana s i eć jest lepsza (bardziej efektywna), z kol ei większe wart ośc i oceny świad czą gorszej e fektywno śc i siec i. Dobór il ośc i i rodzaju pierwotnych danych wejściowych sieci (s poś ród 110 odpowiednio skonstruowanych ws kaźni k ów analizy techni cznej z dobiera lnymi dodatkowo parametrami), oraz liczby neuronów w warstwie ukrytej , zreali zow ano za pomocą odpow iednio zmodyfik ow anego algorytmu ge netycznego 9 , przy czym ja ko kryterium optymalizacji pr zyję t o oce n ę na uczonej siec i 10. W wyniku real izacj i 30 it eracji (tak zwanych populacji) algorytmu genetycznego, przy li cze bn ości pojedynczej populacji ( i l ośc i jednocześ n ie analizowanych potencjalnych rozwiązań 11 ) wy n oszącej 100, otrzymano w efekcie 30 najlepszych (najlep iej oceni onych) siec i neuronow yc h dl a rozważanego zagadnieni a 12 . Te w ł a ś ni e sieci poddano da lszym badani om, p o legający m na dodatkowym zastosowaniu transformacji pierwotnyc h zmiennych wej śc i owyc h na podstawie analizy g ł ów n yc h s kład o w yc h i na ocenie efe k tywnośc i tak zmodyfikowan ych sieci. Analiz uj ąc kw es t ię określenia liczby g ł ów nyc h s kład owyc h stwierdzono, że wynik i badań będą miał y walor ogó l nośc i ,jeś l i prob lem będzie sfo rm u ł owa n y ni e tyle w kategorii bez p oś red ni ego ok reś l e ni a parametru k, co wyznaczenia procentowego stosunku liczby g ł ó wn yc h s kładow yc h do ca łkowitej liczby pierwotnych danych wej śc i owyc h , tzn. wartości ~ =(k II! ) . 100%. Jest to podyktowane występowan i e m różnych wie lk ości 1/ dla poszczególn ych siec i neuronowych otrzy man yc h w wyniku reali zacj i algorytmu genetycznego. Dla ka żd ej z tych sieci zrealizowano (przy niezmi enionych dla danej SN pi erwotn yc h. °. 9 Algorytmy genetyczne stanowią swoiste procedury optymalizacji, stwOrLOne są na podstawie inspiracji zaczerpnictych z wystcpujących w naturze zjawisk doboru naturalnego i dziedzi czenia cech. Szczegółowy opis tych narzędzi dostcpny jest w bogatej literaturze. np. [Gol dbcrg 1995]. lRutkowska i in. 19971. Hl Na etapie realizacji algorytm u genetycznego nic stosowano transformacji PCA dla danych wejści ow ych sieci poddaw anej procesowi uczenia. II Pojedyncze potencjalne rozw i ązanie stan owi tu o kre~lony zestaw zmienn ych wej śc iowych dla SN wraz z li czbą okrcślającą ilość neuronów w warstwie ukrytej. l2 Srednia liczba wej ść dla otrzymanych 30 sieci wyniosła 24,33 (przy odchyleniu standardowym ±3,49). Z kolei ś redni stosun ek liczby elementów w warstwic ukrytej do i lo~ci wej ść wyniósł 0,94 (przy odchyle niu standardowym 10.26) ..

(8) Jamuz. parametrach uczenia i architekturze sieci) szereg nieza ~ procesów uczenia , stos ując analizę głównych sk ładowyc h jako dodat ~ kowe narzędzie wstępnego przetwarzania danych wejściowych i przyjmując kolejno wartości, = 10%,20%,30%, ... , 100%. ZwrÓĆmy uwagę na fakt , i ż przy zastosowaniu tran sformacji danych wej~ ściowych z wykorzystaniem metody PCA , wymiar warslwy wejśc i owej z mni ej~ sza się z II do k elementów (gdzie po zaokrągleniu k "" ~ . 11 / 100%). Za ł ożono jednocześnie, że odpowiednio proporcjonalnie (w przybl i żonym stosun ku kin, po zaokrągleniu do wielkości całkow itej ) maleje wielkość warstwy ukrytej. przy tak dokonywanej redukcji siec i, dla struktur siec i o dużych rozmiarach, liczba podleg ają cyc h modyfikacji podczas uczenia wag spada w przybliżeniu proporcjonalnie do kwadratu wielkości stopnia redukcji warstwy wejściowej (wymiar tej warstwy jest określony przez ilość wykorzystanych g łównych sk ła~ dowych). Uczenia s ieci PCA dokonano przy wykorzystaniu reguly Sangera. przy czym przyjęto li cz bę epok uczenia E = 500 (próby zastosowania w i ększej liczby epok uczenia sieci PCA, np . E= 1500, prowadziły praktycznie do takich samych wyników badań ; por. też dyskusja zagadnienia doboru właściwej war~ lości E, zamieszczona poniżej). Ponadto, w celu dokonania obiektywnego porównania wyników uczenia. przeprowadzono dla ka żdej sieci neu ronowej danych. wejściowych,. Icżnych. ponowny.. niezal eżny. proces uczenia bez wykorzyslania analizy. g łównych s kła ~. dowych do lransformacji danych wejśc i owyc h . W każdym z anali zowanych przypadków uczenia , dla każdej z rozpatrywanych sieci, proces uczenia powta ~ rzano dz iesi ęc i o krotni e 13 , rozpoczynając go od różnych, losowo wygenerowa~ nych , wag początkowych.. 5 .. Wpływ liczby zastosowanych na efektywność sieci. głównych składowych. Wyniki liczbowe badail za l eż nośc i oceny sieci,jako miary jej e fcktywno~ procentowej liczby zastosowanych g ł ów nych s kładowyc h (paramelru ~) zamieszczono w tabeli I oraz zaprezentowano w formie graficznej na rys. 3. Tabela I zawiera w kolejnych kolumnach wartości oceny poszczególnych sieci dla parametru ~,z mi en iaj ącego się od 10% do 100%, oraz dl a przypadku bez zastosowania trans formacji PCA. Na ry s. 3 zobrazowano z ale ż n ość ś red ni ej oceny sieci od procentowej wielkości ~ (za mieszczono także rezu ltaty otrzy ~ manc w pr.lypadku braku wykorzystania analizy g łówn yc h s kład owych do transformacj i danych wejściowych), przy czy m dla poszczególnych punktów śc i , od. 11 Wielokrotne powtarzanie procesu uczenia z różnych punklów począlkowyeh w prleslrzeni wag ma na celu uniknięcie niekorzystnego, prlypadkowego zatrlymania uczenia w zbyt wysoko polożonym minimum lokalnym funkcji oceny (błędu) sieci..

(9) Analiza. wykresu naniesiono w postaci analizowanych sieci. Tabela I.. Wartości. słupków błędu. odchylenia standardowe ocen 30. ocen poszczególnych sieci ·1. Numer sieci I 2 3. , ,, 4. 6. 7. 10. "1213 14. " "" " "" 16 17. 20. 21. 23. 24. 27 28. ". 30. Żródlo:. opracowanie własne.. Graficzna analiza rezultatów zaprezentowanych na rys. 3 prowadzi do wniosków: l . Efektywność siec i neuronowych. wyrażona liczbowo poprLcz oce nę sieci, początkowo wyrainie wzrasta wraz ze wzrostem parametru ~ (wartość oceny spada), osi qgając jednak sta ly poziom dla ~ wynoszącego ok. 50--60%. PrLy dalszym wzroście liczby g ł ównych s kładowych efektyw n ość sieci pozostaje stala. 2. Transformacja danych wejściowych przy wykorzystaniu analizy g łów nych sk ład owyc h bezpoś red ni o nie poprawia e fe k tyw n ości funkcjonowania następujących.

(10) Jal/lISZ Morajda. 0.28. :~. 0.26 0.24. ~. o. u. g. 0.22. 'e". 0.20. o. ~~. o. • o. 2. •. ~. 0.18 0.16. ~'". T. I. ~. 0 .14 0 .12 \O. 20. 30. 40. 50. '". 70. 80. 90. 100. bez. PCA. Procent wykorzystanych głównych s kładowych Rys. 3. Zależność. średniej. oceny sieci od. wartośc i. parametru. ~, wy rażaj ącego proporcję. l iczby użytyc h głównyc h s kładowych do ilości pierwotnych danych wej ściowyc h . Słupki blędu przeds tawiają odchylenia standardowe od wartośc i ś redniej dla poszczególnych punktów wykresu. NaJeży zw róc i ć u wagę na istotne minimum średniej oceny sieci (punkt, dla którego ta ocenajesl najlepsza) dla ~ = 70% . 2r6dto: opracowanie wlasne.. sieci neuronowej ( można to wywnioskować z porównania wm10sci oceny sieci dla I: z zakresu od 50 do 100% z przypadkiem uczenia siec i bez zastosowania anali zy g ł ów n yc h sk ład owych), nie przynosi też widocznych efektów sama dekorelacja zmienn ych (I: = 100%). Bard zo i s t otną korzy śc ią użycia przek szta ł ce ni a PCA może b yć natomiast redukcja il ośc i zmiennych wej ści owych SN oraz pow i ązana z tym redukcja rozmiarów ca lej sieci, co w dalszej konsekwencj i prowadz i do znacznego przyspieszenia procesu uczenia s iec i oraz może prowadzić do poprawy jej efe kt ywnośc i . Przedstawione wyżej wnioski, zw ła szcza l , pot wie rd zaj ą powszechnie akceptowaną tezę, iż kolejne g ł ówne s kładow e, posiadające stopniowo malej ącą war ian cję, dostarczaj ą odpowiedn io coraz mniejszej ilosc i istot nej informacji. Z wniosku l wy nika , iż kOllcowe ok. 50% (w tym przypadku) s kłado wych n-wymiarowego wektora wejściowego uzyskanego po transformacji peA, praktycznie nie wnosi u ży tecznej informacji dla sieci neuronowej..

(11) Allaliza. metoda .... 6 . Dobór liczby epok uczenia sieci PCA Analizując ściowych. generalnie ce l owość zastosowania transformacji danych wejprzy wykorzystaniu metody PCA, nal eży zasadniczo rozważyć kom-. promis pomiędzy: - generalną oszczędnością wysil ku związa n ego z budową modelu, wyn ikającą ze skróccnia czasu i potencjalnej poprawy efek t ywnośc i liczeni a sieci typu perceptron wskutek redukcji struktu ry sieci. - wzrostem czasu przeznaczonego na konstrukcję wzorców wejściowych dla SN wskutek dodatkowych nak ladów czasu komputerowego poświęconych na transformację PCA (g ł ównie uczenie siec i PCA). Drugi z powyższych czyn nik ów jest zależny w glównej mierze od parametru E. definiujqcego liczbę epok uczenia sieci PCA. Optymal ny dobór parametru E okazuje się bardzo istotny, gdyż jego zbyt mała wartość prowadzi do niedostatecznie dokładnego wyznaczenia głównych s kład owych, z kolei zbyt duża liczba epok E powoduje nadmierne, w praktyce niepotrzebne wyd łu żenie czasu uczenia sieci PCA. Za wskazane należy więc uznać przeprowadzenie dła danego zagadn ienia badań, mających na celu oszacowanie właściwej (optymalnej) wartośc i E. Rezultaty tego typu badall w analizowanym zagadnieniu zobrazowano w rornlie graricznej na rys. 4, gdzie prZ\::dslawiono zależność kOllcowej oceny zasadniczej sieci typu perceptron od liczby epok uczenia sieci PCA, służącej do wstępnego przetwarzania danych wejściowych dla tej siec i. Badanie przeprowadzono dla wybranej sieci neuronowej posiadajqcej (w przypadku brak u PCA) 20 wej ść oraz 7 neuronów ukrytych. Dla transrormacji zmien nych wejściowyc h przy użyciu PCA przyjęłO parametr ~ = 50%, co spowodowa ł o reduk cję struktury sieci do 10 eleme ntów wejściowych oraz do 4 neuronów w warstwie ukrytej. Proces uczenia tej sieci rozpoczynano każdorazowo od nowa od tych samych warunków początkowych, jednak trening przeprowadzano przy pom ocy danych przetransformowanych do postaci PCA przy uży ciu sieci PCA uczonej przy zastosowaniu róż ny c h wartości E. Jak wynika z rys. 4, efektywność w ten sposób trenowanej sieci perceptron początkowo wzrasta (wartość oceny spada) wraz ze wzrostem liczby epok E. po czym po przekroczeniu pewnej wartości stabilizuje się na okrcś l onym poziomie. Pozwala to w tym przypadku na oszacowanie pożądanej wielkości E równej ok. 80. Przy doborze parametru E należy dodatkowo brać pod uwagę. iż wielkość ta zależy m.in. od następuj:,cych czyn ników: - liczby wzorców wchodzących w sk ład ciągu uczącego siec i PCA (tzn. wiel k ości '6) - generalnie wypraktykowano, że E można zmniejszyć, gdy warlOŚć'6 wzrasta, - liczby wyznaczanych g ł ównyc h sk ład owych - im jest ona mniejsza tym można przyjąć mniejszą wartość E. Zasada ta wynika ze sposobu funkcjono-.

(12) Jallusz Morajda. 0.27. -•e. 0 .25. E.. 0.23. "11.. .~ •". 0.21. -•. ••. • •. 0.19. i5. •. 0 .17 0.15. o. 20. 60. 80. 100. 120. 140. 160. 180. 200. Liczba epok uczenia sieci PCA. Rys. 4. Przykl:ldowa. zależność efektywności. sieci typu perceptron , wyrażona. QCeny tej sieci, od liczby epok uczenia E sieci PCA. s łu żącej. do. wstępnej. wartości.,. transformacji. dnnych. W tym przykładzie przyjęto ~ = 50% (sieć perceptron posiada 10 elementów w warstwie wejściowej związa n ych z pierwszymi dziesięcioma glównymi s kład owym i , oraz 4 e lementy w warstwie ukrytej). Uczenie sieci perceptron rozpoczynano zawsze od tych samych warunków pocz'ltkowych. Regresji dokonano wielomianem 4. stopnia . t.r6dło:. opracowanie własne .. wania zastosowanego algorytmu uczen ia siec i PCA , powodując ego naj szybszy spadek błę du wyznaczania poc z ątkowy c h głów n ych składowych, przy coraz wolniejszym spadku tego b łędu dla kolejnych dal szych sk ł adowych.. 7. Metoda neuronowa a metoda klasyczna przekształcenia PCA Decyd ując s ię. na zastosowani e transformacji PCA dla danych wejściowych wykorzystanie dla ich wyznaczania metody klasycznej. czy li al gorytmu numerycznego opartego o wyznaczanie wektorów w ł a snych macierzy kowariancji poszczególnych zm ien nych wej śc iowyc h . W pew nych przypadkach takie podej ście klasyczne może o ka zać s ię szybsze niż uczeni e sieci PCA , po zwa ł a ono też na dok ł adn i ej sze wyznaczenie g ł ó wn yc h s kładowy c h . Jednak w wielu zagadnieniach, zwłaszcza wtedy, gdy celowa jest redukcja stosunkowo dużej liczby zmiennych wej śc i owyc h siec i neuronowej można również rozważyć.

(13) ,. .,. metoda .. .. do niew ielkiej ich il ośc i , a wysoka precyzja wyznaczania g ł ów n yc h s k łado wych ni e jest konieczna (a z takimi w ł aśnie sytuacjam i spotykamy s ię na ogól w problemach wstę pn ego przetwarzania danych finan sowych d la SN ) podejśc i e. neuronowe do wyznaczan ia PCA, oparte o regułę: Sangera , może okazać bardz iej efektywne l4 • Efektywność neuronowych metod transformacj i PCA wzrośnie l eż znaczni e przy zastosowa ni u do obli cze ń cora z powszechn iej się:. dos t ęp n ych. komputerowych architek tur. równoległych.. 8 . Podsumowanie Z o pi sanyc h badall wynika, iż analiza g łównych s kład owyc h jako metoda transformacji danych wejściowych dla sieci ne uronowej m oże stanow i ć sk uteczne narzędzie, s łu żące z wła szcza do redukcji struktury sieci oraz do poprawy jej efek t ywnośc i. Meloda la m oże okazać s i ę szczególni e przydatn a w przypadku , gdy dysponujemy dużą ilością istotnie skorelowanyc h zmie nnych wejściowych (co częs to ma miejsce w przy padkach wykorzystani a siec i neuronowych w celu generowania prognoz dynamik i rynków finan sowych). W opisanym tutaj zagadnieniu zaobserwowano, że dobre efek ty funkcjonowania siec i typu perceptron m ożna u zyskać uw zg l ęd ni ając jedynie o koł o 60% począ tkowyc h, naj bardziej in formatywnych g ł ów n yc h s kładowych. Pokazano przy tym możliwość zastosowania osobnej sieci neuronowej typu PCA, uczonej wed łu g regu ł y Sangera, która już po stosu nkowo niewielkiej li czbie epok uczenia może dobrze s pe łnia ć zadanie realizacji transformacj i danych wej śc io wyc h (nie wyk lucza to jed nak faktu, że w wie lu prob lemac h skutcczniej sza i szybsza m oże się okazać kłasyczna metoda analizy g ł ównyc h składowyc h , oparta na obliczeniu wektorów wlasnych macierzy kowa riancji). R ów ni eż n a l eży pamiętać, iż w innych zastosowaniach siec i neuronowych w ekonom ii lub zarządzani u optyma lne oszacowania anali zowanych tu parametrów ~ oraz E m ogą być inne. w s tępnej. Literatura. Azoff E.M . [ 1994J. Neuml Network Time Ser/es Forecasling oj F//Ulllc;al Markets. Ncw York, Wilcy. Goldberg D . E. [1995J. AlgorJlmy genetyczne i ich zastosowtIIlia, WNT. Warszawa . Grabowski M. [1997 J. Sieci neuronowe w analizie danych spoleczllo·ekonomicZIl)'ch. praca doktorska. Akademia Ekonomiczna w Krakowie. Haykin 5.11994J, Neural Nelworb. A Comprehensive FOl/nda/ion , New York, Macmi llan College Publishing Company. Jajuga K. {19931, SWtySlyCZllll analiza wielowymiarowa. PWN , Warszawa.. 14 1 ntcrcsujące badania wlakiwości sieci neuronowych PCA uczonych na podstawie Sangcra z.awano w pracy {Grabowski 1997J.. reguły.

(14) JOIIUSZ. Morajda. Morajda J. [ 1997J, Wybralle możliwości zastosowali sieci lIel/rollowych II' ekollomii i wrządz.aniu, Akademia Ekonomiczna w Krakowie, ZeszYIY Naukowe, nr 493. Neuml Networks illlhe CapiraI Markets [1995[, A.P. Refenes (cd.), Chichcstcr, Wilcy. Osowski S. [1 996 [, Sieci lIeurollowe w ujęciu algorytmicZIIJlII, WNT. Warszawa. Rulkowska D., Pil iński M.• Rutkowski L. [1997}. Sieci /leI/rOI/owe, algorytmy genetyczne i syslemy rovny/e, PWN . WarS7..awa. Tadeusiewicz R. [1993], Sieci lIel/rOIlOWe, Akadem icka Oficyna Wydawnicza RM. WarS7..awa. Tadeusiewicz R. [ 1995], Sieci /lel/rOllowe IV progno:,oll'allil/ procesów go~·poll{/rczyc". Maleriały konferencyjne nt.: SZ/J/cz/w illleligellcja i infraslrllk/J/rtl informatyczna. Siedlce. Thomason M.R. [I 996al, Prillcipal COll1po/Jems Allafysis for Nel/raf Netll'ork 1111'1/1 VMiable ReJuction and Finallcial Forecasling. Neurovest Jouma!. Part I: January/February 1996; Part 2: MarchlApril. lllOmason M.R. f1996b I. Neuraf Netll'ork Inpllt Variabfe Sefection (revisted). Neurovest Joomal. May/J une. t.urada J. [19921 . /ntrotbIClioll to Artificiaf Nel/m! Systems. West Publishing Co. Pńncipal. Components Analysis as a Data for Neural Networks. Pre~processing. Method. This study diseusses principal componenls analysis (PCA) wilh refe rence 10 preliminary dOla lransfonnation for pcrceptron-type neuml networks. In <Jdditioll. the perform;mce of lhe PCA-Iype neuml network, which is based on the Sanger rule and results in such a tr.msformalion . has been presenled aS:1I1 altemative tool to the elassie slalislical melhod. Nexl. the aUlhor give research results determining Ihe optimal number of principal components and leaming time for the PCA network: PCA network exploitation dcals wilh lhe problem of dala pre-processing for perceptron neuml nelworks that have been used to predict WIG 20 slock index changes. Thc author demonstrate Ihe ulilily of PCA ,lIIalysis in selectcd areas and offcr a number of conclusions with regard lo Ihis melhod..

(15)