• Nie Znaleziono Wyników

Obserwacje nietypowe w modelowaniu neuronowym

N/A
N/A
Protected

Academic year: 2021

Share "Obserwacje nietypowe w modelowaniu neuronowym"

Copied!
16
0
0

Pełen tekst

(1)Paweł. Lula. Katedra Informatyki. Janusz Morajda Katedra Informatyki. Obserwacje nietypowe w modelowaniu neuronowym Streszczenie: Artykuł poświęcony jest problemom zwiqzanym z obserwacjami nietypowymi w modelowaniu neuronowym procesów ekonomicznych. Autorzy przedstawili klasyfikację obserwacji nietypowych i określili ich wpływ na proces konstrukcji modelu oraz jego późniejszego wykorzystania. W badaniach rozważano modele wykorzystuj 'lee jednokierunkowe sieci wielowarstwowe (sieci MLP, perceptrony wielowarstwowe) oraz sieci o radialnych funkcjach bazowych (sieci RBF), Słowa kluczowe: obserwacje nietypowe, sieci neuronowe, modelowanie procesów ekonomicznych.. l. Wprowadzenie Badanie zjawisk występujących w dziedzinie ekonomii wymaga stosowania różnorodnych metod analizy danych, Jednym z możliwych do wykorzystania narzędzi są sztuczne sieci neuronowe, Mogą okazać się przydatne w zagadnieniach modelowania, prognozowania, klasyfikacji wzorcowej i bezwzorcowej oraz przy rozwiązywaniu problemów optymalizacyjnych, Artykuł poświęcony jest zagadnieniom modelowania neuronowego zjawisk społeczno-gospodarczych, W części pierwszej zaprezentowano wady i zalety sieci neuronowych jako narzędzia modelowania, W zastosowaniach praktycznych najczęściej spotykane są modele wykorzystujące dwa rodzaje sieci: jednokierunkowe sieci wielowarstwowe (perceptrony wielowarstwowe, sieci MLP) oraz sieci o radialnych funkcjach bazowych (sieci RBF), Wspomniane typy sieci omówione zostały w drugiej części artykułu, W chwili obecnej metodologia modelowania neuronowego zjawisk ekonomicznych nie jest jeszcze.

(2) I. Pawel Lu/a,. }tllltlSZ. Morajda. w pelni ugruntowana, Szczególne trudności sprawiać może proces doboru struktury części ukrytej modelu neuronowego, Zagadnieniom tym poświęcona jest trzecia część publikacji, Trudności związane z określeniem topologii modelu mogą być potęgowane przez obserwacje nietypowe występujące w dostępnych zbiorach danych, Charakterystyka obserwacji nietypowych przedstawiona zostala w rozdziale czwartym artykulu, W rozdziale piątym autorzy prezentują wyniki badań dotyczących wplywu obserwacji nietypowych na proces konstrukcji sieci perceptronowych i sieci RBF, Rozdzial szósty zawiera propozycje metod identyfikacji różnych typów obserwacji nietypowych, Ostatnia część artykulu stanowi podsumowanie rozważalI,. 2. Sieci neuronowe w modelowaniu ziawlsk ekonomicznych Sztuczne sieci neuronowe posiadają takie wlasności, dzięki którym mogą przydatne narzędzie modelowania i prognozowania zjawisk ekonomicznych i społecznych [Lula 1999), Cełowość ich zastosowania wynika zarówno z pewnych cech charakteryzujących wspomniany typ zjawisk, jak również ze sposobu budowy i funkcjonowania modeli neuronowych: - znaczna ilość zjawisk rozpatrywanych na gruncie ekonomii (np, w zagadnieniach finansowych) ma charakter nieliniowy , co stanowi podstawową przesłankę do tego, aby do modelowania tych zależności stosować narzędzia przystosowane do opisu załeżności nieliniowych; - proces budowy modelu neuronowego polega na eksploracji dostępnych zbiorów danych i oszacowaniu na tej podstawie modelu opisującego stwierdzone prawidłowości. Stosowanie narzędzi tego typu nie wymaga znajomości postaci funkcji opisującej istniejącą prawidlowość, W związku z tym modele neuronowe mogą znaleźć zastosowanie wszędzie tam, gdzie nie jest znanc dokładne prawo opisujące kształtowanie się badanych zależności; - modele neuronowe mają charakter adaptacyjny, Mogą siu żyć do opisu załeżności zmieniających się w czasie , W chwili pojawienia się nowych danych przeprowadzony może zostać proces douczenia sieci, poprzez uwzględnienic w tworzonym modelu informacji zawartych w naj nowszych obserwacjach; - sieć neuronowa moze być traktowal1ll nie tylko jako mechanizm opisują­ cy przebieg zjawiska i generujący przyszłe jego wartości. Daje ona możliwo­ ści przeprowadzania wszechstronnej analizy badanego fragmentu rzeczywistości, jak również pozwala na kon s trukcję ukladów sterujących przebic)!iem zjawiska, Stosowanie modeli nelll'onowych nie zawsze jest uzasadnione, Modele tego typu nie powinny być stosowane wtedy , gdy: - badacz nie dysponujc odpowiednią liczbą obserwacji mogących stanowić podstawę do oszacowania modelu, Szacowanie sieci posiadających stosunkostanowić.

(3) Obserwacje nietypowe w modelowaniu net/rollowym. I. wo dużą liczbę parametrów na podstawie nielicznego zbioru uczącego prowadzi najczęściej do powstania modeli dopasowujących się do danych uczących, ale nie posiadających zdolności do opisu ogólnych prawidłowości charakteryzujących dane; - trudno znaleźć uzasadnienie dla stosowania modeli neuronowych w sytuacji, w której znany jest charakter występującej prawidłowości (np. znana jest postać funkcji opisującej analizowane zjawisko). W takim przypadku oszacowanie parametrów funkcji pociąga za sobą mniejsze nakłady i prowadzi do powstania modelu łatwiejszego w interpretacji. Nawet wówczas, gdy spełnione są warunki uzasadniające stosowanie modeli neuronowych należy pamiętać, że oprócz zalet posiadają one również pewne słabe strony, mogące przyczyniać się do powstawania problemów na etapie budowy modelu. Do najistotniejszych wad sieci neuronowych należy zaliczyć: - potrzebę odpowiedniego przygotowania danych - w zależności od charakteru zmiennych i zastosowanego rodzaju sieci, - problemy związane z doborem właściwej struktury modelu neuronowego (rodzaj sieci, przyjęte modele neuronu, liczba neuronów i sposób ich połączenia), - konieczność wyboru właściwego algorytmu uczenia sieci, - wysokie nakłady czasowe związane z oszacowaniem modelu neuronowego, - brak (w większości przypadków) możliwości bezpośredniej interpretacji poszczególnych współczynników modelu neuronowego. Można wskazać wiele prac poświęconych zastosowaniom sieci nem'onowych w analizie danych ekonomicznych, m.in. zagadnieniom tym poświęcone są monografie: [Neuml Networks ... 1993], [Baestaens i in. 1994], [Azoff. 1994], [Neuml Networks ... 1995].. 3. Sieci perceptronowe I sieci o radialnych funkclach bazowych 3.1. Perceptrony wielowarstwowe Jednokierunkowe sieci wielowarstwowe (perceptrony wielowarstwowe, sieci MLP - MultiLayer Perceptrons) należą do najlepiej poznanych i najczę­ ściej wykorzystywanych architektur sieciowych. Ich bogatą charakterystykę można znaleźć m.in. w: [Tadeusiewicz, 1993], [Hertz i in., 1993], [Osowski, 1996] . Do podstawowych ich cech należy zaliczyć: - posiadają architekturę warstwową - wyróżnia się warstwę wejściową, warstwy ukryte oraz wyjściową, - polączenia umożliwiają komunikację pomiędzy neuronami znajdującymi się w sąsiadujących ze sobą warstwach,.

(4) I. Paweł. Lula, Janusz Marajda. - wszystkie neurony wchodzące w skład sieci dokonują agregacji danych wejściowych poprzez wyznaczenie sumy ważonych wejść, - funkcja aktywacji neuronów wejściowych ma charakter liniowy, neuronów ukrytych nieliniowy (najczęściej s-kształtny), neuronów wyjściowych zaś liniowy bądź nieliniowy , - z uwagi na występujący w s-kształtnych funkcjach aktywacji poziom nasycenia dane przetwarzane przez sieć wymagają odpowiedniego przeskalowania. Uczenie perceptronów wielowarstwowych polega na próbie wyznaczenia minimum funkcji błędu - zwykle stosuje się techniki wyznaczania minimum oparte na gradiencie (metoda wstecznej propagacji błędów i jej modyfikacje), hesjanie (metoda Newtona, Levcnberga-Marquardta) lub przybliżeniu odwrotności hesjanu (metody quasi-Newtona) - wszystkie te metody nie są odporne na zatrzymywanie się w minimach lokalnych funkcji błędu. Stosowany jest tryb uczenia z nauczycielem (zbiór uczący zawiera przykładowe zestawy danych wejściowych i odpowiadających im danych wyjściowych). Czas uczenia perceptronów wielowarstwowych jest długi w porównaniu z nakładami czasowymi niezbędnymi do przeprowadzenia uczenia innych typów sieci. Stosowanie w procesie uczenia globalnych metod optymalizacji jest możliwe, lecz zazwyczaj nieefektywne . Modele oparte na jednokierunkowych sieciach wielowarstwowych mają oszczędną strukturę, co powoduje, że czas ich uruchamiania jest krótki i że wymagają niewielkich obszarów pamięci. Do podstawowych problemów pojawiających się w trakcie ich konstrukcji należy zaliczyć dobór właściwej struktury (liczba warstw i liczba neuronów w warstwach ukrytych) oraz unikanie minimów lokalnych funkcji błędu w trakcie uczenia. 3.2. SIeci o radialnych funkclach bazowych Sieci o radialnych funkcjach bazowych (sieci RBF - Radial Basis Function Networks) zostały opisane w pracach: [Park i in. 1991], [Xu i in. 1994], [Osowski 1996]. Do podstawowych cech klasycznej sieci typu RBF można zaliczyć: - strukturę warstwową: posiada warstwę wejściową, pojedynczą warstwę ukrytą oraz warstwę wyjściową; - neurony warstwy ukrytej dokonują agregacji danych wejściowych poprzez wyznaczenie odległości pomiędzy wektorem wejściowym a wektorem wag. Tak wyznaczona zagregowana wartość wejściowa staje się parametrem funkcji aktywacji, w charakterze której wykorzystuje się funkcje symetryczne względem osi DY - najczęściej dzwonowe (gaussowskie), których zastosowanie powodujc, że wartość wyjściowa neuronu ukrytego jest tym większa, im większe było podobicr\stwo wcktora wejściowego do wektora wag neuronu;.

(5) Obserwacje nietypowe w modelowaniu neul'onowyln. I. - neurony warstwy wyjściowej agregują wartości wyjściowe neuronów ukrytych (obliczając ważoną sumę ich wartości wyjściowych) i wyznaczają wartości wyjściowe sieci za pomocą liniowej funkcji aktywacji. Uczenie sieci RBF składa się z trzech etapów: - określenie wag neuronów ukrytych - wartości te mają reprezentować strukturę zbioru danych uczących. Jeśli liczba neuronów ukrytych jest równa liczbie elementów uczących, to w charakterze wag wykorzystuje się wektory wejścio­ we poszczególnych wzorców. Jeśli liczba neuronów jest mniejsza od liczby elementów uczących, to posiadany zbiór danych dzielony jest na skupienia, których liczba jest równa liczbie neuronów uczących; wówczas wagi neuronów określa się na poziomie równym środkom ciężkości poszczególnych grup; - określenie kształtu funkcji aktywacji - po wyznaczeniu wag neuronów ukrytych (które reprezentują skupienia występujące w danych) wyznacza się rozpiętość gaussowskich funkcji aktywacji w taki sposób, aby poszczególne funkcje dzwonowe zachodziły na siebie w umiarkowanym stopniu. Podstawowym czynnikiem wpływającym na kształt funkcji aktywacji jest rozkład punktów reprezentujących skupienia występujące w danyclI. Zastosowanie opisanej procedury uczenia neuronów ukrytych powoduje, że po wprowadzeniu danych wejściowych do sieci na wyjściach neuronów ukrytych pojawiają się wartości świadczące o stopniu podobielIstwa wektora wejściowego do poszczególnych skupień;. - określenie wag warstwy wyjściowej - z uwagi na liniowy charakter neuronów liniowych wartości te mogą zostać wyznaczone bezpośrednio, a nie w sposób iteracyjny. Modele wykorzystujące sieci RBF charakteryzują się krótkim czasem uczenia w porównaniu z perceptronami wielowarstwowymi. Modele RBF posiadają jednak dużo większą liczbę neuronów ukrytych, co znacznie wydłuża czas uruchamiania sieci i zwiększa zapotrzebowanie na pamięć komputera. Dobór struktury sieci RBF nie stwarza zwykle większych problemów, jednakże podobnie jak w przypaclku sieci MLP uzyskane rozwiązania mogą mieć charakter suboptymalny.. 4. Znaczenie I konstrukcla. części. ukrytel sieci neuronowel. Konstruując część ukrytą sieci w przypadku perceptronów wielowarstwowych należy określić: -liczby warstw ukrytych, -liczby neuronów w poszczególnych warstwach, - typu neuronów ukrytych. Próbując określić liczbę elementów składających się na sieć należy uwzględ­ nić oczekiwaną zdolność clo aproksymacji oraz zdolność clo generalizacji. Zdol-.

(6) I ność. Paweł. Lula, Janusz Morajda. do aproksymacji (która przejawia się stopniem poprawności działania po prezentacji danych wchodzących w skład zbioru uczącego) zwykle wzrasta wraz z rozbudową struktury sieci. Z drugiej strony należy pamiętać, że wzboga .. canie sieci o nowe elementy może spowodować zmniejszenie zdolności de generalizacji (której odzwierciedleniem jest stopieIl poprawności funkcjonowania sieci po wprowadzeniu na jej wejściu danych, które nie były prezentowane w czasie uczenia). Pojawiające się w trakcie uczenia zjawisko polegające na zaniku zdolności do generalizacji, któremu towarzyszy wzrost zdolności do aproksymacji nazywane jest przeuczeniem sieci neuronowej. Sieć o małej zdolności do uogólniania zwykle nie jest zdolna do generowania prawidłowych prognoz. Powyższe fakty wskazują, że najlepsza strategia określania struktury sieci to kompromis, polegający na utrzymaniu zdolności do aproksymacji i generalizacji na akceptowalnym poziomie. Narzędziem służącym do poprawnego określe­ nia struktury są algorytmy konstrukcji sieci, które określają optymalną strukturę na drodze poszukiwań iteracyjnych. Podobnie jak sieci MLP również sieci o radialnych funkcjach bazowych posiadające jedną warstwę ukrytą, w której wszystkie nel11'ony wyposażone są w identyczny współczynnik wygładzania, mogą pełnić rolę uniwersalnego aproksymatora (porównaj np. [Park i in. 1991]). Podstawowy problem, jaki pojawia się przy próbie budowy modelu opartego na sieci RBF, jest analogiczny do dylematu charakterystycznego dla sieci MLP - ile neuronów musi się znaleźć w warstwie ukrytej, aby zapewnić z jednej strony zdolność do aproksymacji, z drugiej zachować umiejętność do generalizacji. W przeciwiel1stwie do perceptronów wielowarstwowych wagi każdego nel11'onu ukrytego w sieci RBF posiadają jednoznaczną interpretację - reprezentują one skupienia występują­ ce w zbiorze danycll. W związku z tym liczba neuronów ukrytych nie może przyjmować dowolnych wartości, lecz powinna stanowić odzwierciedlenie liczby skupieIl danycll. Powszechnie stosowane są następujące metody określania liczby neuronów ukrytych w sieciach RBF: - stosuje się liczbę neuronów równą liczbie elementów w zbiorze uczącym, przy czym wagi neuronów ukrytych przyjmują wartości równe wektorom wejściowym wzorców uczących; takie rozwiązanie prowadzi do powstania bardzo rozbudowanych sieci, które działają doskonale dla elementów uczących, lecz posiadają małe zdolności do uogólniania; - przyjmuje się w sposób arbitralny pewną liczbę neuronów w warstwie ukrytej, którym w trakcie uczenia przypisuje się wagi równe losowo wybranym wektorom wejściowym pochodzącym ze zbioru uczącego. Powtarzając tę procedurę dla sieci o różnej liczbie neuronów ukrytych wybiera się model o optymalnej strukturze. Wydaje się, że słabą stroną tej metody może być brak pewności, że losowo wybrane elementy uczące reprezentują strukturę całej zbiorowości;.

(7) Obserwacje nietypowe w modelowaniu neuronowym. I. - po przyjęciu określonej liczby neuronów ukrytych dokonuje się za pomometod taksonomicznych podziału elementów zbioru uczącego na taką samą liczbę skupień, a następnie w charakterze wag przyjmuje się wektory reprezentujące wyznaczone skupienia (np. środki ciężkości skupiel\). Wśród metod taksonomicznych stosowanych do podziału zbioru uczącego na zadaną liczbę skupień najczęściej wymienia się metodę k-średnich; - w warstwie ukrytej umieszcza się neurony w liczbie równej ilości skupień występujących w danych uczących. Identyfikację liczby skupień przeprowadza się za pomocą metod taksonomicznych nie wymagających precyzowania liczby grup lub przy pomocy sieci neuronowych (sieci Kohonena). Proces poszukiwania optymalnej struktury sieci RBF jest prostszy niż w przypadku sieci MLP z uwagi na znacznie szybszy przebieg uczenia tych pierwszych, co pozwala na realizację większej liczby doświadczeń. cą. 5. Obserwacje nietypowe w modelowaniu neuronowym W danych wykorzystywanych w modelowaniu neuronowym mogą pojawić dwa podstawowe rodzaje wartości nietypowych: - nietypowe wartości wejściowe - wartość (wartości) wyjściowa w prawidło­ wy sposób reprezentuje zależność pomiędzy zmiennymi wejściowymi a zmienną (zmiennymi) wyjściową; nietypowość przypadku przejawia się w tym, że wartości zmiennych wejściowych wyraźnie odbiegają od pozostałych, - nietypowe wartości wyjściowe - wartości wejściowe nie odbiegają w wyraźny sposób od innych wartości wejściowych, natomiast wartość wyjściowa jest zniekształcona; przypadek taki nie reprezentuje w prawidłowy sposób istniejąc w rzeczywistości prawidłowości. Wymienione rodzaje obserwacji nietypowych pojawić się mogą w zbiorze uczącym wykorzystywanym w procesie estymacji modelu. Fakt ten powoduje konieczność badania ich wpływu na proces konstrukcji modelu. Nietypowe wartości wejściowe mogą również pojawić się na etapie wykorzystania oszacowanego wcześniej modelu. Prawidłowość wyznaczonej teoretycznej wartości zmiennej wyjściowej jest uzależniona od posiadanej przez model zdolności do ekstrapolacji. Umiejętność ta może stanowić istotne kryterium przy ocenie różnych metod modelowania. się.

(8) I. Paweł. Lula, Janusz Morajda. 6. Wpływ obserwacli nietypowych na proces konstrukcji sieci W celu określenia wpływu operacji nietypowych na tworzony modeł neuronowy przeprowadzono ekspelyment obliczeniowy. Połegał on na konstrukcji modelu neuronowego służącego do aproksymacji zależności funkcyjnej o postaci:. t(x,y); e-(.<'+Y') Wykres. zależności. (1). prezentuje rys. l.. 1.1 0,9 0,7. 0.5 0,3 0,1. -3 ,0. Rys. I . Wykres badanej. zależności. Źródło: opracowanie własne. Dostępny. zbiór danych sk ładal się z trójek wartości (x, y, z) i wygenerowany w następujący sposób: - pa.ry wartości (x, y) wygenerowano przy pomocy generatora wartości pseudolosowych o wielowymiarowym rozkladzie normalnym. Przyjęto wektor warzostał. . ..sre<I'mch'rowny [0]° .. ... - kowanancJJ . . o postacI:. [l° 1; 0] I macIerz wanancJI. tOSCI. - wartość Z wyznaczono wedlug formuly (1). W ten sposób utworzono zbiór danych skladający się z 90 przypadków. Wchod zące w jego skład elementy pod ziełono na: zbiór liczący (60 elemen-.

(9) I. Obserwacje nie typowe w modelowaniu neuronowym. tów), walidacyjny (15 elementów) i testowy (15 elementów). Zbiorom tym nadano odpowiednio oznaczenia: Uo, Wo, To' Korzystając z tak zdefiniowanych danych przeprowadzono proces konstrukcji modeli perceptronowych różniących się liczbą neuronów ukrytych. Do oceny wszystkich rozpatrywanych modeli wykorzystano miernik w postaci ilorazu odchyleń standardowych, wyznaczonych dla szeregu reszt uzyskanych po zastosowaniu modelu i szeregu rzeczywistych wartości zmiennej wyjściowej. Mniejsza wartość wskaźnika świadczy o wyższej jakości modelu. Rezultaty uzyskane dla sieci MLP zaprezentowano w tabeli I. Tabela 1 . Mierniki jakości dla sieci MLP Liczba neuronów ukrytych Zbiór. l. 2. 3. 4. 5. 6. UD. 0,87. 0,76. 0,22. 0,32. 0,27. 0,27. 11'0. 0,88. 0,49. 0,26. 0,26. 0,24. 0,23. To. 1,00. 0,83. 0,99. 0,99. 0,81. 1,25. Te same dane wykorzystano do konstrukcji sieci RBF. Rezultaty pokazuje tabela 2. Tabela 2. Mierniki jakości dla sieci RBF Zbiór. Liczba neuronów ukrytych l. 3. 5. 10. 15. 20. UD. 0,53. 0,47. 0,33. 0,08. 0,06. 0,D3. 11'0. 0,46. 0,39. 0,33. 0,11. 0,10. 0,05. To. 0,78. 0,69. 0,77. 0,11. 0,20. 0,07. Podstawowym celem badaó było określenie wpływu obserwacji nietypowych na sposób działania estymowanego modelu. Rozpatrywano dwa rodzaje obserwacji nietypowych: - doświadczenie A polegało na zastąpieniu dziesięciu elementów pochodzą­ cych ze zbioru uczącego elementami, których wartości wejściowe wygenerowaue zostały przy zastosowaniu zmodyfikowanych parametrów generatora, wartość wyjściowa zaś została wyznaczona za pomocą tej samej formuly co w pierwotnym zbiorze danych; - w doświadczeniu B w dziesięciu elementach pierwotnego zbioru danych zmodyfikowano wartość wyjściową, wartości wejściowe zaś pozostawiono na niezmienionym poziomie. Modyfikację wartości wyjściowych przeprowadzo-.

(10) I. Pawel Lilia, Janus z Morajda. no poprzez dodanie do wartości oryginalnych liczb pseudolosowych o rozkladzie normalnym o średniej zero i zadanym odchyleniu standardowym. Doświadczenie. A. Badając wpływ opisanych zmian przeprowadzonych w zbiorze uczącym na wyniki estymacji sieci MLP, przeprowadzono proces szacowania sieci posiadającej 1,2,3,4,5 i 6 neuronów ukrytych za pomocą zbiorów uczących róż­ niących się od zbioru początkowego dziesięcioma przypadkami, w których wartości wejściowe generowane byty przez wielowymiarowy generator liczb. pseudolosowych o. rozkładzie normalnym o wartościach średnich [~] i macierz. wariancji - kowariancji o postaci:. l. [~ ~. gdzie II. przyjmowało wartości:. -. 2 (zbiór UAI)' 3 (zbiór UA2 ), 4 (zbiór UA3)' 5 (zbiór UII4 ). W każdym ze zbiorów uczących pozostalych 80 przypadków pochodziło ze zbioru Uo' Proces uczenia dla każdego przypadku powtarzano wielokrotnie i z uzyskanych rozwiązalI wybierano to, które charakteryzowaly s ię najniższą wartośc ią błędu dla zbioru walidacyjnego. W tabeli 3 zaprezentowano procentowe zmiany błędu walidacyjnego dla sieci uczonych przy wykorzystaniu zbiorów UAI , UA2 , UA3 oraz UA4 w porównaniu ze zbiorem Uo' Tabela 3. Procentowa zmiana blędu walidacyjnego powstala w rezultacie wprowadzenia nietypowych warto ści wej śc iowych do zbioru uczącego dla sieci MLP Liczba neuronów ukrytych. I. 2. 3. 4. 5. 6. U AI. -1%. -20%. -12% -27%. -4%. -4% -30%. -23%. -46% -4%. U A2. 0%. 4%. -25% 30%. UiI ). -1 %. U,14. 1%. 65% -16%. 75% -20%. -19%. -8%. - 39% 17%. Analogiczne doświadczenie powtórzono dla sieci REF. Wykorzystano identyczne zbiory uczące jak w przypadku sieci MLP. Rozpatrywano sieci posiadające 1,3,5,10,15 oraz 20 neuronów ukrytych..

(11) I. Obserwacje nietypowe w modelowaniu neuronowym. Tabela 4. Procentowa zmiana blęd u walidacyjnego powstala w rezultac ie wprowadze nia niet ypowych warlOSci wejściowych do zbioru uczącego dla sieci RBF Liczba neuronów ukrytych. l. UA1. 11 %. 3%. UA2. 17%. -3%. UA3. 59%. UM. 15%. 3. 10. 15. 20. -12%. 64%. - 55%. - 60%. 0%. -45 %. -27%. -20%. 3 1%. 3%. 36%. -45%. -80%. 15%. 27%. 136%. 55%. -20%. 5. Odwotując się do danych zawartych w ta belach l i 2 m oż n a stwierdzić, że w przypadku sieci MLP w warstwie ukrytej należy umie śc i ć przynajmniej 3 neurony, sieć RBF wymaga zaś zastosowania nie mniej niż 10 neuronów ukrytych. Analizuj ąc wyłączni e dla takich sieci zmiany wywołane przez wprowadzenie obserwacji nictypowych można stw ierdzić, iż w większości badanych przypadków ich wpływ nn uzyskane wyniki był pozytywny, gdyż prowadził do zmniejszenia s i ę blędll walidacyjnego . Doświadczenie. W drugim. B. doświadczeniu. analizowano. wpływ wartości. nietypowych pojaW tym przypadku w obliczeniach wykorzystano zbiory uczące U OI ' Um. U/I3' U 04 i UU j' Każdy z tych zbiorów różnił s ię tylko dz iesięcioma przypadkami (80 przypadków pozostalo niezmieni onych). Modyfikacje dotyc zące 10 pozostatych przypadków polegaty na dodaniu do oryginalnej wartości zmiennej wyjściowej liczb losowych o rozkła­ dzie normalnym o średniej O i odchyleniu standardow ym s, gdzie s przyjmowato wartość: - l (w zbiorze Um). - 2 (w zbiorze U/J2)' - 3 (w zbiorze UB3 ). - 4 (w zbiorze UB4 ). - 5 (w zbiorze U8j) ' Uczenie sieci przeprowadzano analogicznie jak w poprzednim doświadcze­ niu. Procentowe zmiany w wielkościach blędu walidacyjnego pokazano w tabelach 5 i 6. Sposób. w jaki rozpatrywany rodzaj operacji nietypowych wpływa na proces konstrukcji sieci MLP i RBF jest całkowicie różny . W sieciach perceptronowych wprowadzenie nielicznych obserwacj i nietypowych wpłynęlo pozytywnie na wartość błędu walidacyjncgo. Oznacza to zwiększenie się posiadanej przez model zdolności cło generalizacji. Zmniejszaniu się wartości błędu walidacyjnego to warzyszy ło zwiększanie się błędu dla zbi oru uczącego (co oznacza spadek zdolności do aproksymacji).. wiających się p ośró d wartości wyj ściowyc h..

(12) I. Paweł. Lula, Janusz Morajda. Tabela 5. Procentowa zmiana błędu wnlidacyjnego powstała w rezultacie wprowadzenia nietypowych wartości wyjściowych do zbioru uczącego dla sieci MLP Liczba neuronów ukrytych. l. 2. 3. 4. 5. 6. UB! U., Um UD' UD'. 0%. -8% -8% -8%. 15% 30%. -35%. 4% -8%. 9% 9% -13%. 0% 0% 0%. 1%. 2% - 20%. -12%. -5%. -42%. 5%. -12% -35%. 15%. --4% -17% -13%. -9% -26%. Tabela 6. Procentowa zmiana blędu walidacyjnego powstala w rezultacie wprowadzenia nietypowych wartości wyjściowych do zbioru uc zącego dla sieci RBF Liczba neuronów ukrytych. l. 3. 5. 10. -3% - 6% -9% - 12% -12%. 0%. 0%. 0%. 0% t8% 36% 64%. 18% 45%. 60%. UB!. 0%. -3%. Um. 0%. -5 %. UD]. - 2% -2% -2%. -10%. UB". UD'. -8% - 10%. 15. 20. 82%. 220% 240%. 127%. 340%. W przypadku sieci o radialnych funkcjach bazowych rozpatrywany rodzaj obserwacji nietypowych zasadniczo pogorszy I jakość sieci. Wprowadzane zaklócenia w wartościach wyjściowej zmiennej uczącej powodowaly bardzo znaczące zwiększenie się blędu walidacyjnego. Zmianom tym towarzyszylo również pogarszanie się wartości mierników j akości wyznaczanych dla zbioru uczącego .. Doświadczenie. C W kolejnym doświadczeniu badano wpływ obserwacji nietypowych na jakość prognoz realizowanych przez sieć. Proces uczenia przeprowadzano z wykorzystaniem jednorodnego zbioru uczącego. Zbiór uczący (54 elementy) i zbiór walidacyjny (l6 elementów) wygenerowany został poprzez losowe wyznaczenie wartości wejściowych (wielowymiarowy rozklad normalny; wektor. , d. I [O],.. ... kowananCJI . . o postaC1:. [la} . O 1 ,natomiast. sre l11e l: O l maCIerz wananCJI wartości. zmiennej wyjściowej obliczone zo stały za pomocą formuły (1), Zastosowano dwa zbiory testowe (każdy z nich liczyl 10 elementów), Przy gen erowanitl wartości wejściowych pierwszego zastosowano macierz wariancji -. . "o postacI.[1° O]l ' w druglm. zas, macIerz . ta mm. Ia postac,[5O 5' O] kowarmllcJI.

(13) I. Obserwacje nietypowe w modelowaniu neuronowym Wartości wyjściowe. obliczono zgodnie ze wzorem (1). Pierwszy zbiór testowy oznaczono przez T CI' drugi TC2' Tabele 7 i 8 prezentują mierniki jakości sieci wyznaczone dla obu zbiorów testowych dla sieci MLP (tabela 7) oraz sieci RBF (tabela 8). Tabela 7. Wplyw nietypowych sieci MLP. wartości wejściowych. Liczba neuronów ukrytych. I. T CI. 0,85. Te>. 2.37. zmiana [%]. 179. -69. Tabela 8. Wplyw nietypowych sieci RBF. 2. na wyniki uruchomienia. 3. 4. 5. 6. 0.62. 0,43. 0.57. 0.54. 0,56. 0,19. 0,86. 1,74. 1,52. 1,36. 100. 205. 181. 143. wartości wejściowych. Liczba ncuronów ukrytych. l. 3. 5. T CI. 0,65. 0,49. Te>. 3.62. 1,88. zmiana [%]. 457. 284. na wyniki uruchomienia 10. 15. 20. 0.44. 0,15. 0.12. 0,05. 0,9. 0,44. 0.2. 0,2. 105. 193. 67. 300. Przeciętna zmiana wyrażona w procentach w wielkości miernika powstała po zastosowaniu zbioru testowego o innej strukturze niż zbiorów uczących i walidacyjnych dla sieci MLP wyniosła 123%, natomiast dla sieci RBF 234%. Sieć REF charakteryzuje się mniejszą zdolnością do ekstrapolacji niż sieć MLP.. 7. Metody Identyflkacll obserwacli nietypowych Z uwagi na widoczny wpływ obserwacji nietypowych na proces konstrukcji modelu i na sposób jego funkcjonowania ważnym elementem procesu modelowania staje się identyfikacja obserwacji nietypowyc1l. W zgromadzonych zbiorach danych należy wykryć zarówno nietypowe wartości wejściowe modelu,jak i przypadki charakteryzujące się nietypową wartością wyjściową. Wśród wielu metod identyfikacji nietypowych wartości zmicnnych wejścio­ wych na szczególną uwagę zasługują metody graficzne. Pozwalają one na identyfikację nietypowych wartości wejściowych na podstawie optycznej ocel)y ich wykresu. Taki sposób oceny jcst bardzo utrudniony, jeżeli liczba zmiennych wejściowych wynosi trzy, natomiast staje się nie możliwy do realizacji, jeśli liczba wejść przekracza wartość 3. W przypadku danych opisywanych przcz większą liczbę cech konieczne jest przeprowadzenie redukcji wymiaru przestrzeni danych i poddanie analizie graficznej danych zredukowanych..

(14) I. Paweł Luła,. Janusz Morajda. W charakterze narzędzia redukującego wymiar przestrzeni zastosować z jedną warstwą ukrytą (rys. 2) [Lula 1999].. można. sieć autoasocjacyjną. Warstwa wejściowa N neuronów. Warstwa ukryta M neuronów. Warstwa wyjściowa N neuronów. Rys. 2. Schemat sieci autoasocjacyjnej Sieć. autoasocjacyjna posiada w warstwie wyjściowej dokładnie taką samą neuronów jak w warstwie wejściowej. Jej celem jest odtwarzanie na wyjściach informacji wejściowych. Różnice pomiędzy wektorami wejściowym i wyjściowym są uzależnione od prawidłowego doboru współczynników wagowych oraz od liczby neuronów w warstwie ukrytej. Ta ostatnia wartość określa również wymiar przestrzeni, do której odbywa się rzutowanie pierwotnych punktów. Punktom o współrzędnych określonych przez wartości wejściowe sieci odpowiadają punkty o współrzędnych równych wartościom wyjściowym neuronów warstwy ukrytej sieci. Te ostatnie prezentowane są na wykresie i mogą służyć do optycznej oceny jednorodności danych wejściowych. Inną metodę postępowania należy zastosować wówczas, gdy nietypowość przypadku wchodzącego w skład zbioru danych przejawia się w wartości wyjściowej. Wykrycie takiej obserwacji jest możliwe na podstawie analizy reszt uzyskanych po oszacowaniu modelu neuronowego. Jeśli dla pewnej, niewielkiej grupy przypadków różnice pomiędzy wyjściowymi wartościami rzeczywistymi i teoretycznymi są znacznie większe niż dla pozostałych przypadków, to może to być oznaką nietypowości. Wykryte w ten sposób przypadki nietypowe można usunąć ze zbioru uczącego i powtórzyć proces konstrukcji modelu na podstawie pozostałych obserwacji. liczbę.

(15) Obserwacje Ilietypowe w modelowaniu neuronowym. I. końcowe. 8. Uwagi. Podsumowując przeprowadzone rozważania należy podkreślić, że właściwe potraktowanie przypadków nietypowych ma istotny wpływ na proces konstrukcji i późniejszego wykorzystania modelu. Szczególnie duże znaczenie mają obserwacje charakteryzujące się nietypOW!1 wartością wyjściową. Badania porównawcze wskazują, że sieci perceptronowe są znacznie bardziej odporne na występowanie obserwacji nietypowych niż sieci o radialnych funkcjach bazowych. Fakt ten może świadczyć o więks zej przydatności sieci typu MLP do modelowania zjawisk o charakterze ekonomicznym. Stosunkowo częste występowanie obserwacji nictypow ych w danych opisujących zjawiska ekonomiczne stwarza potrzebę ich identyfikacji. Zaprezentowane neuronowe metody identyfikacji mogą być przydatne zarówno do wykrycia nietypowych wartości wejściowych, jak i wyjściowych.. Literatura Azorf E.M. [1994]. Neum/ Network Time Series FOl'ecasting oj FilUlIlcial Market.~·. John Wilcy & Sons. Bacsmcns D.E., van den Bergh W .M., Wood D. [19941, New'al Network Snlllliollsfol' Tl'adillg in Fil/nudal Mal'kcts . Pitman Publ.. London. Decyzje. Symulacje . Sieci "euronowe [1997). pod rcd. M . Rymarczyk, Wycl'l\vniclwo Wyższej Szkoły Bankowej, PoznaIl. Hertz J., Krogh A" Pnlmcr R.G. [1993], Wstęp do teorii obliczeli nCl/rrJl/OIvych, WNT, Wnrszawa. Lula P. [1999] Jedllokiel'//Ilkowe sieci lIel/ronowe w IIwdefOlvllni/ł zjawisk ekonomicznych, Wy~ I. dawnictwo AE w Krakowie, Kraków.. New'al Netwol'ks ill tlIC Capital Ma/'ket.s [1995],pod red. A.-P. Refcnes. John Wilcy & Sons. New'o/ Networks ill Finfllłce (//ul /u vesti'lg [1993). pod red . R. TriPI)i, E. Turban, Probus Publishing Co. Osowski S. [1996]. Sieci /leurol/owe IV ujęciu algorylflliczllylll . WNT, Warszawa. Park J Sandbcrg I.W. (ł991]. Universal Appl'Oximntioll Using Radial - Basis - FUlIctioll Netwo rk.~·, "Nem'nl Computation", 1l[' 3. Pawełek B., Zeliaś A. [1 996], Obserwacje lIietypolVe IV b{/(!aniach ekvl/ollletrycVlych, "Badania Opcracyjne i Decyzje". nr 2. Rulkowska D., Pilil\ski M., RUlkowski L. [19971, Sieci "curo/łOwe, algorytmy gel/elyc.'zne i .\'yste~ my rozmyte, Wydawnictwo Naukowe PWN, Warszawa-Łódź. Statystyczne metody oceny ryzyka IV dzialalno.vci gospodarczej [1998], pod red. A. Zcliasiu, Wydawnictwo AE w Krakowie, Kwków. Tadcllsicwicz R. [1993], Sieci lWI/fOlIOWe, Akademicka Oficyna Wydawnicza RM, Warszawa. Xli L.. Krzyżak A., Yuille A. [1994]. O" Rar/ial BlI.\'is FIlItCliolI Ner.\' a"d KUl/el RegressiolI.' Starist;cal COf/sistellcy, COllve"gc!l/cc Rotes, alld Receptivc Field Size, Neuml NClworks. vol. 7, nr 4. q.

(16) I. Paweł. LII/a, Janusz Morajda. Outlying Observations in Neural ModelIing The m'tiele deals wilh Ihe problems of appearing of atypiea l observations (outliers) in neura! modelIing af econo mic processes. The authors have presented the c1assification af oulliers and have determillcd the influence af such dala on (he process af model construction and on the subsequent model utilisation, The research has concentrated on the models baseu on Ihe feed-forw ard multilayer perceptrons (MLP) and on the rad ial basis funetion networks (RBF) ,.

(17)

Cytaty

Powiązane dokumenty

Bliższe przyjrzenie się obu tekstom prowadzi jednak do wniosku, że autor antologii nie zawsze opierał się na w spo­ m nianych Zasadach, i przez to tekst jest

So far Poland hasn’t complied with the OECD recommendations regarding development of the national strategy for financial education. And although Poland

Przeczytać kserokopię tekstu Grandes réserves et parcs, Pays Masaï, Unité 1.3, exercice 12 patrz: Le nouveau Sans Frontières 2, Cahier d’exercices... Czas

Zacznijmy od monografii państwa Kazimierza Wielkiego napisanej przez Zdzisława Kaczmarczyka, która - jak słusznie zauważył Antoni Gąsiorowski - wciąż stanowi

Jeśli więc j u ż jakaś cnota intelektualna powinna się znaleźć pośród cnót kardynalnych, to powinna to być mądrość (jako bardziej zasadnicza), nie roztropność..

W dotychczasowym ekonometrycznym modelowaniu zmiennych syn­ tetycznych charakteryzujących rozwój społeczno-gospodarczy poszczegól­ nych obiektów ekonomicznych lub ich

Może warto by się też zastanowić, od którego momentu ruina stała się tylko stereotypowym elementem kiczowatych ogrodów, kiedy przekształciła się ze wzniosłej

W stosunku do podległego personelu dow ódca zam kow ego plu to ­ nu żandarm erii posiad a upraw nienia dow ódcy kom