• Nie Znaleziono Wyników

Sieć Kohonena jako metoda identyfikacji i wizualizacji obserwacji nietypowych

N/A
N/A
Protected

Academic year: 2021

Share "Sieć Kohonena jako metoda identyfikacji i wizualizacji obserwacji nietypowych"

Copied!
17
0
0

Pełen tekst

(1)1Ji][7547 w Krakowi.. Mariusz Grabowski Kat.dra Informatyki. Sieć Kohonenajako •••. l. •. obserwacji Streszczenie: Jednym z kluczowych zagadnień statystycznej analizy wielowymiaro~ wej jest spełnienie wymogu jednorodności zbioru obserwacji. Zagadnienie to jest. przez wielu badaczy niedoceniane. Wiele z metod statystycznej analizy wielowymia-. rowej. zakłada normalność rozkładu badanych cech. W rzeczywistości warunek tcn nic jest spełniony. W ZWią7.ku z tym istnieje konieczność. prawie nigdy poszukiwania. metod analizy danych, pozwalających na określenie stopnia jednorodności danych i ewentualną identyfikację obserwacji nietypowych. Wydaje się, że jedną z takich metod mo ze. okazać się sieć. Kohonena. W artykule zostanie przedstawiony ogólny. zarys metody oraz propozycja jej wykorLYstania do identyfikacji i wizualizacji danych nietypowych. Słowa. kluczowe: sieci neuronowe, sieci Kohonena, SOM, obserwacje nietypowe.. l. Ogólne. własności. I zastosowania SOM. W ostatnich latach zauważa się szczególne zainteresowanie sieciami neuronowymi jako metodami szeroko pojętej analizy danych. Problematyka sieci neuronowych jest szeroko omówiona w literaturze. Godne polecenia są artykuły wprowadzające ILippmann 1987; Murtagh 1994], monografie w języku polskim ITadeusiewicz 1993; Osowski 1996; Korbicz, Obuchowicz, Uciński 1994], monografie w języku angielskim IHaykin 1994; Kohonen 19951. Najczęściej stosowanymi typami sieci neuronowych są sieci nadzorowane (z nauczycielem), w szczególności sieci MLP (m"ltilayer perceptron -- perceptron wiclowarstwo• Pracę wykonano w ramach projektu badawczego nr I H02B 028 08 (decyzja nr I0.181l1(12ftJ5JOX),. finansowanego przez Komitet. Badał'!. Naukowych w latach 1995-1996..

(2) Mariusz Grabowski. wy) i RBF (radial basisjllllctioll network - sieć o radialnych funkcjach bazowych). Do zadat\ rozwiązywanych przy ich użyciu należą analiza dyskrymina• eyJna l prognozowame . Innym, nieco rzadziej omawianym lypem sieci neuronowych , nalcż:lcym do grupy nienadzorowanych (bez nauczyciela) sieci konkurencyjnych S'I nazwane od nazwiska ich twórcy samoorganizuj:)ce się mapy cech Kohonena, zwane często równici. SOM (seljorgl/llizing map) . Inspiracją do prac nad omawianym modelem sieci neuronowych byly badania lekarzy i psychologów wykazujące, że neurony w pewnych obszarach kory mózgowej są uporz:ldkowane zgodnie z charakterem rozpoznawanych przez nie wzorców. W len sposób np . w korze sluchowej neurony z obszaru tonotopowego są uporządkowane zgodnie z wzrastającymi wartościami częstotliwości rozpoznawanych przez nie sygnalów akustycznych. SOM, podobnie jak ich biologiczne odpowiedniki, są zorganizowane w jedno- lub dwuwymiarową siatkę neuronów - mapę . SOM może być konstruowana jako hiperkostka o dowolnym wymiarze . Wzorce wejściowe podawane sąjednocześnie na wszystkie neurony siatki . Mapa może mieć formę kwadratow:l, heksagonalną (efektywn:1 do celów wizualizacji) [SOM_PAK ... 1995] lub nieregulamą. W procesie uczenia neurony wspólpracują z neuronami sąs iednimi oraz konkurują z neuronami z innych obszarów mapy. Proces uczenia porządkuje mapę w ten sposób, że wzorce podobne do siebie w przestrLcni cech są reprezentowane przez neurony leżące w bliskim sąsiedztwie (w sensie pewnej metryki) na mapie. SOM można uważać za: - przekształcenie dowolnej ci:lglej przestrzeni metrycznej (przestrzeni topologicznej ciąglej wyposażonej w metrykę) w dyskretny podzbiór przestrzeni liniowej (najczęściej jedno- lub dwuwymiarowej). W tym sensie SOM można uznać za podobną do metody analizy glównej skladowej [Jajuga 1990; Oja 1995] lub skalowania wielowymiarowego oraz metod grupowania; - metodę realizującą nieparametryc zną regresję [Cherkassky, Lari-Najafi 1991: Kohonen 1995], dokonującą dopasowania skończonej uporządkowanej liczby wektorów kodowych (codebook "ectars) do rozkładu obiektów w przestrzeni cech . Sieci SOM są jednymi z najczęściej stosowanych w praktyce naukowo-badawczej s amouczących się sieci neuronowych . O ich przydatności decyduje: - unikalność (brak bezpośredniego podobieństwa do innych metod analizy danych) [Sarle 1994], - możliwość analizy danych niekompletnych, - możliwość analizy praktycznie dowolnie dlugich zbiorów danych , - szybkość uczenia i dzialania, - wielość wariantów podstawowej metody, - potencjal naukowo-badaczy zaangażowany w ich rozwijanie, - analogia neurobiologiczna. •. •.

(3) me/oda .. SidK Głównym. obszarem zastosowań SOM jest analiza danych. rozumiana jako taksonomia'. czyli dziedzina. w której w przeciwieństwie do dyskryminacji nie ma informacji na temat przynależności grupowej analizowanych obiektów. W takim sensie SOM stosuje się w celu: - wizualizacji danych, - grupowania dowolnie dlugich zbiorów danych. W metodzie SOM istnieje dość płynna granicu pomiędzy wizualizacją a grupowaniem. Im większy jest rozmiar mapy. tym w większym stopniu metodę SOM można uznać za metodę wizualizacji. W przypadku małego rozmiaru mapy SOM moi.na uważać bardziej za algorytm grupujący. W tym sensie SOM jest uogółnieniem metody k-średnich' [Hartigan 1975). Własności funkcji sąsiedztwa sprawiają, że SOM wizualizuje wzajemne położenie grup. Własność ta może zostać wykorzystana do określenia hierarchii klas podohnie jak ma to miejsce w przypadku metod grupowania hierarchicznego [Hartigan 1975: Metody taksonomiczne ... 1988: Metody taksonomii ... ł989]. Metoda otrzymywania hierarchii klas na podstawie SOM opisana jest w pracach [Murtagh 1995a,1995b). Ponieważ w metodzie SOM, podobnie jak w metodzie k-średnich nie wyznacza się macierzy odległości, SOM można używać do grupowania praktycznie dowolnie długich zbiorów danych. Przykład wykorzystania SOM do klasyfikacji danych astronomicznych IRAS podaje literatura [Murtagh, Hernandez-Pajeraz 1995; Murtagh 1995c l. Pewne unikałne własności SOM sprawiają, że metoda ta może być użyta do rozwiązania wielu złożonych problemów analizy danych, takich jak analiza danych niekompletnych [Kohonen 1995], estymacja danych brakujących [Grabowski 1997a, 1997b) oraz omawiana w niniejszym artykule identyfikacja i wizualizacja danych nietypowych.. 2. Algorytm SOM W swej podstawowej postaci algorytm SOM składa się z dwóch faz, które są powtarzane dla każdego obiektu z przestrzeni cech określoną-' liczbę razy [Kangas 1994; Kohonen 1995: SOM_PAK ... 1995]. Wzorce z przestrzeni cech Sl} prezentowane w sposób losowy. I Z,aslOsowania SOM jaJw sieci sarnoucz;lcyc h si~ dotyt.:z'j pr/.cuc wszystkim takS<lIlOmii . BCZptlśrctlnic stosowanie SOM w anali/je dyskryminacyjnej nic jest z<ls:uJnc I Kohoncn . I ()951 . W przyp.uJku klasy likacji z nauczycielem właściwe jc slużycic zmodyfikowanej wersji SOM noszill.:cj na 7.W~ LVQ (lell"';" K vectar IIUClIlliZlllilllJ)[ LVQ _PA K. .. 19951 .. 2 SOM jest sl.czcgóllll.l rcaIi7.acj;, metody k·śrcdni c h w prl.ypadku braku funk cji si)sicdzlwa ([ZII . wtedy gdy pr/,yjmujc ona warto ść t jedynie dla neuronll I.\"ydęzcy podczas trwania całego procesu uczenia IKohoncn 19951, .1 Przyjmuje si<; [Koholl CII 1995]. i.e liczha pra.c nt:lcji wdtorów w trakcie prn~ cs \l uczenia powinna. być rz~du. 100000 ..

(4) Mari/u :. G ro hmvski. Faza J. Okre ś lenie najblii.szego neuronu. Dla ka żdego wzorca x(t) z prze-. strzeni cech znajdź najbliższy mu neuron mapy w", . W celu zdefini owania najbli ższego neuronu używa si~ okre ś l onej metryki . W prze w a ż.ajqcej liczbi e przypadków stosuje się metrykę euklidesową lub wartość iloczynu wektorów "Tli' (w tym przypadku konieczne jest dodatkowe unormowanie wektoró w) . lI.r tl - w.. (l11I = min. {lIx(t) -. wpm. J. gdzie: •. numer neuronu zw y cIęzcy. t - kolejny krok uczenia (t = I, .. . , S), j - numer neuronu (j = I . ... , M) . In -. Faza 2. Adaptacja wektorów wag neuronów. Dokonuje się zmiany wekto-. rów wag neuronu zwycięskiego oraz neuronów należącyc h do jego s ąsi ed ztwa ' tak, aby odległość wektorów wag tych neuronów (w .) od prezentowanego .t(l) uległa zmniejszeniu. W przypadku stosowania jak(/miary odległości metryki euklidesowej zasada zmiany wag jest okreś lona wzorem : wjl.(t + I) = 11'jl.(1) + (I) + T](t)h m j .(t)[l x .(t) - 11'j ..l (1)]. gdzie: Wj;U) - i-ta wagaj-tego neuronu w t-tym kroku uczenia.. T](t) - parametr uczenia O < T](t) < ł (malejący ze wzrostem t ) . hmlt) - funkcja sąsiedztwa ; m - indeks zwycię s kiego neuronu,) - indeks neuronu ,. t - krok uczenia, O < hm/t) < I. Sieć. Kohonena. oprócz mechanizmu uczenia konkurencyjnego (faza I algorytmu SOM) zawiera również c echę przekazywania efektu z wyc i ęstwa danego neuronu na jego otoczenie. Rolę tego mechanizmu spełni a funkcja sąsiedztwa hmP) . W najprostszej postaci może nią być : funkcja prost okątna :. II m,(t) =. ł;. lirm - ',I < a(t). O; w przeciwnym przypadku. gdzie:. 'm - w s półrzędne (na mapie) neuronu zwycięzc y.. 'j - w s półrzędne. a(t) .. promi eń. (na mapie) neuronu , sąsi edztwa; malejąca funkcja. zale żna. od t.. S ąs iedztwem nazy wamy zbiór ncuron<lw wok ól neuronu , do którego to sq sicdzt wo od nosimy. wyznanony popr/.Cl. p romie ń okre ś lon y odle g łośc ią wynikaj.,c;1z przyj~tcj metryki . J.

(5) Sieć. KollOllena jako metoda idellly{ik(lcji .... I. m- l. •. .. ", +1. //I. J. •. 2a(r ). Rys. I. Funkcja sąs iedztwa typu pros tokątnego Żródło: opracowanie własne .. Innym przykładem bardziej gaussow skiego:. z łożonej. funkcji s'lsiedztwa jest funkcja typu. lir", - r, ll' II .(1) = e m). 20 ' (1). I. -+. •. m-lmm+1. •. 20(1). J. •. Rys. 2. Funkcja sąs iedz twa typu ga ussowskiego Żródlo: opracowanie własne .. względu na typ funkcji S<)sicdztwa zachowana jest pod stawowa wła­ s no,ć ałgorytmu SOM, polegaj'lea na odwzorowaniu przestrzeni cech IV mapę. co oznacza. że wynikowe odwzorowanie posiada następuj'lcq własność : jeSli. Bez.

(6) MlIrius::. Grahol\'.\'ki. pewien wektor wejściowy x jest odwzorowany przez wektor wag 11'" to wektory leżące "blisko" wektora x w przestrzeni cech są .. s,~siadami" neuronu w na i mapie 1Kangas 19941 ·. 3. ZastosowanIe SOM do Identyflkacll I wbuallzacll danych. nIetypowych Monografi:1 szerzej preze ntuj:le:1 zagadnienia zwi:lzanc z ni e typowością danych jest praca K. JajlIgi 119931. Autor definiuje w niej między innymi lakie pojęcia, jak jednorodność eliplyczna oraz jednorodność w sensie regresji liniowej. Rozważając omawiane zagadnienia, rozgranicza je na podejście opisowe i stochastyczne . Wskazuje również. na potrzebę stosowania odpornych metod slatystyc7.l1ych oraz na konieczność identyfikacji obserw:ocji nielypowych . SOM jesl melod'l. która jak się wydaje może być pomocnym narzę dziem w rozwiązywaniu wyżej opisanych problemów . .lako meloda wizlIaliz:ocyjna i grupująca może być i jest wykorzystywana do analizy slruktury zbioru obserwacji. Dodatkowo jako m"toda dokonująca nieparametrycwcj regresji nie liniowej w przeslrzeni wag może być użyta do identyfikacji obserwacji nictypowych w zbiorach multimodalnych . Obserwacje nietypowe (odstaj'lce) charakteryzują s ię tym, że znacznie różnią się od reszty danych. Pozostaje problem określenia kryterium zróżnicowania. Może nim być np. odległo ść danych od hiperplaszczyzny regresji liniowej wyznaczonej za pomocą metody najmniejszych kwadratów. Punkty znacznie od niej oddalone mog'l być uznane za nietypowe. Jednak w zbiorach danych o charakterze multimodalnym kryterium odległo­ ści od hiperplaszczyzny regresji nie jest możliwe do przyjęcia, gdyż hiperplaszczyzna regresj i nie odwzorowuje grupowej struktury zbioru danycll. W takim przypadku konieczne jest zastosowanie metody dokonującej regresji w sposób nieliniowy i nieparametryczny. Wydaje się, że taką metodą może być SOM . SOM m ożna uważać za nicliniową regresję w przestrzeni wej śc iowej, którą stanowi elastyczna siatka neuronów. Dane nietypowe, ze względu na rzadkość ich występowania, nic są w stanic wytworzyć w procesie uczenia "wlasnych" neuronów (wektorów kodowych) , co sprawia, że są stosunkowo daleko oddalone od neuronów . Odleglość danej obserwacji od najbliższego jej neuronu. zwana błędem kwantyzacji ' moż.e być podstawą do określenia jej nietypowo ści.. ~. W statysty<.: zncj arwlizic wiclowymiarO\wj lIIodd\)wan... zjawisko 11I07.lIa prJ.C(blawi( w postaci: dane::: model + reSZla IJ<1juga 199:l1 , Dlatego kategl'fi l; <':Zt;sto nazywan,] w Ilaukadl lec hniL: wyc h hh; dem określa siC mianem reszl y, Z uwagi na tradYl:jt; określania nicdopasowania w literaturze d()IYCZ;lccj SOM przez " hł;lo kw;mlyzacji·· ()kn.~~kni c tn będzie uiywanc w dalszej l"I.t; ~l' i artykulu..

(7) Sie(; KoluJIl cl1(/ jako nwtoda idl·lltyfik(l(ji .... BK; = min { lix; -. "'j. l! }. J. gdzie: x; - i-ty obiekt wejściowy; i = I , ... . S, wj - j oty wektor kodowy;} = I, ... . M.. Algorytm uczenia SOM ma na celu znalezienie takiej mapy, w której ni bląd kwant yzacji: I. śred­. .,. SBK = S' ~ BK;. k= I. osiągnąl wart ość minimalną. Do określania od l eg lośc i pomiędzy wektorami można s t osować dowolne miary spelniające warunki metryki. Jednak w praktyce n ajczęśc i ej stosuje się odleglość euklidesową lub odleglość Mahalanobi sa. Metodę określania obserwacji nietypow ych w zbiorac h multimodalnych można s prowadzi ć do na stępujących kroków : - zdefiniowanie siatki SOM o wystarczająco malym śred nim blędz ie kwan-. ... ty zaCJ I, - przetworzenie danych wejściowych przez SO M, - identyfikacja danych odstających dzięki du żej wa n ości b lędu kwantyzacji. W celu ok reśle nia wlaściwości SOM w zakresie identyfikacj i obserwacji nietypowych dokonano 17 eksperymentów badawczych, k orzys tając z pakietu SOM]AK ISOM_PAK ... 19951. Jako zbioru danych u ży t o powszechnie stosowanego w analizie danych zbioru Irys. Irys jest zbiorem ISO obserwacji dotyczących pomiaru cech kwiatów kosaL'ca, po raz pierwszy u żyty zostal przez Fishera w roku 1936. Badane cechy to: X I dlugość li ścia w cm, X2 - szerokość liścia w cm, Xl - dl ugość platka w cm, X4 szerokość platk a w cm. Dane pochodzą z trzech rodzin : Iris setosa (obserwacje od I- 50), Iris vef.l' ic% ur ( obserwacje 51 - 100), I ri.~ virg illica (obserwacje 10 l- ISO). Zbiór ten zaczerpnięto z pracy K. Jajugi [ 19901. Ze względu na wielokrotne u żywa nie tego zbioru w pracach dot yczących klasyfikacj i, stanow i on wzorzec slu i.ący do testowania procedur tak sonomicznych i dyskryminacyjnych. W przypadku rozpoznawania z nauczyc ielem pierwsze 40 obserwacji z każdej z grup stanowi c iąg uczący, a ostatnie 10 ciqg testowy. W rozpoznawaniu bez nauczyciela u ży wa się wszystkich obserwacji . Parametrami eksperymentów badawczych by ł y następujqce w i e lk ośc i, odpowiadające poszczególnym pozycjom identyfikat ora badania: I . Zas ię g funk cji sąsiedztwa: A - obcjmuj'lcy na P()(' z'ltku procesu uczenia cah] mapę i malej'lcy do I (obejmujqcy tylko neurony Ich]cc hezpośrednio przy neuronie zwycięskim) w jego końcu, N - maj'lcy wartość I (obcjmuj'lcy tylko neurony le żące bezpośrednio przy neuronie zwycięskim) podczas calego procesu ucze nia - pozycja I identyfikatora badania ..

(8) MariliSZ Grahow.\"ki. 2 . Rozmiar mapy l x i , I3xl3: pozycja 2 i 3 identyfikatora eksperymentu. 3. Topologia: R - prostokątna, H - heksagonalna - pozycja 4 identyfikatora eksperymentu. 4. Typ funkcji sąsiedztwa: B - prostokątny, G - gaussowski - pozycja S identyfi katora eksperymentu . 5. Wartość startowa generatora pseudolosowego: 1,2 - pozycja 6 identyfikatora eksperymentu . Dla mapy o rozmiarze I x I przeprowadwno tylko jeden ek speryment badawczy, oznaczony identyfikatorem XOIXXX. Pozostale parametry (oznacwne przez X) w tym przypadku nic mają żadnego wplywu na wynik eksperymentu (dają taki sam rezultat). Przypadek ten jest równoznaczny obliczaniu blędów kwantyzacji względem średniej dla calego zbioru. W tym przypadku zbiór jest traktowany jako jednorodny. Dla mapy o rozmiarze 13xl3 przeprowadzono 16 eksperymentów badawczych (dla wszystkich wariantów kombinacji opisanych wyżej parametrów . W tabeli A I zaprezentowano wyniki jedynie 4 eksperymentów : A 13HG I , A 13RG I, N 13RB I, N 13R B2. Przypadki te wybrano z następujących powodów : A 13HG I okazala się zbieżna z A 13HG2, podobnie A 13RG I z A 13RG2, a NI3RBI i N13RB2 charakteryzowaly się najmniejszym średnim blędem kwantyzacji (byly najlepiej dopasowane do danych). W tym przypadku zbiór nie jest traktowany jako jednorodny. Dopuszcza się w nim istnienie 169 grup. Analizując dane zawarte w tabeli I oraz rys . 3 i 4, można wywnioskować: - przypadek XOI XXX (rys. 3) nie identyfikuje multimodalnej struktury zbioru Irys. W tym przypadku wszystkie wzorce z grupy I (obserwacje I- 50) i 3 (obserwacje J Ol - ISO) należaloby uznać za nietypowe . ponieważ charakteryzują się znacznie większą wartością blędu kwantyzacji od danych z grupy drugiej; - pozostale przypadki (rys. 4) identyfikują multimodalną strukturę zbioru Irys, a duże wartości blędu kwantyzacji wskazują na dane odstające od struktury grupowej tego zbioru . Można również zauważyć, że wszystkie metody uznają podobne dane jako nietypowe, przy czym metodyodużym s'lsiedztwie (A) mają niemal identyczny przebieg i w sposób bardziej wyraźny wskazują dane nietypowe. Jest to spowodowane faktem, że dalsze sąsiedztwo sprawia, że wektory wag neuronów nic dopasowują się ściśle do skupisk danych w przestrzeni wejściowej, w przeciwieństwie do metod o bliskim sąsiedztwie, które mają większą tendencje do popadania w minima lokalne. Rys . 5 ilustruje nietypowość danycII. Wizualizacji nietypowości danych dokonano wykorzystując wyniki eksperymentu oznaczonego identyfikatorem lA 13HG I . Z uwagi na objętość zbioru Irys (150 obserwacji) zaprezentowano jedynie obserwacje najbardziej nietypowe, tzn . te, których bląd kwantyzacji był większy od średniej tego blędu. Wartość ś redni'l blędu kwantyzacji określa dOl!l" linia równolegia do osi odciętych, linia górna jest narysowana na poziomic wartości średniej powi<;kszonej o odchylenie standardowe średniego blędu.

(9) Sieli Kohonena ~~m~e~t(~)d~(:..,~~~~'!1~.~.. _______________. 4.5 4. J.5 3. 25 2. 1.5 0.5 Ol......_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ __. -------Wzort.cc. XOI XXX. Rys . 3. Wykres. wartości błędów. kwantyzacji zbioru Irys dla wariantu SOM : XO I XXX. Źródło : opracowanie własne ,. o. -------Wzorzec. A IJIlG 1 Al JRG 1. Rys. 4 . Wykres. wartości błędów. Źródło: opracowanie wlasne .. NIJRBI NIJRIl2. kwantyzacji zbioru Irys wybranych wariantów SOM.

(10) Mariusz Crabow,\'ki. LL PL (N L[ [L. ,PI I, l tl 61 LI [t 66. ,8 t II 601 iti 6f. 0(1 ZZI ((. 6tl t6 Oli 80 1 8, (,. LEI 69 [l (9. >I. -. o. •. ""o. !f;n~"I.,(II1ł:M.~. plQn. o. -". i:' N. ~. --.o o. N. "O. >II 101 19. 00. ~. ~. 011 9( I. ~!. ~. o N. Pl tl. -"'-. II. "». ,fi 88. ....• ,.., o o. u. 901 LOI 91 lt [l i lU 81 I 611. .<:. u. '"". .<: u. ..... "-»8.. --" " --". - ~. N. 'E. .o '". -~. -. ~. c. '"" -'". ~. N. -"c-. N. ". '"u. -~. ---'" "" --.... ;;;. -. ~. '"o. ~ "'o ~. "vi. -:g >. .)..,. o- -. ""N.

(11) Siet.1 Kohonenll jako metoda. kwantyzacji pozostałych wektorów kształluje się poniiej waności średniej. Przebieg krzywej błędów przypomina funkcję hiperboliczn'l. Dane nietypowe znajdują się w pobliiu O na osi odciętych; w miarę przesuwania się w kierunku większych wartości na osi rzędnych, krzywa błędu odpowiada danym bardziej typowym . Kwestią do rozstrzygnięcia jest określenie wartości błędu kwantyzacji, powyżej której dane należałoby uznać za nietypowe i co za tym idzie wyeliminować je z dałszej analizy. Niewątpliwie konieczne do przeprowadzenia są badania rozkładu błędów kwantyzacji. W przypadku, gdyby rozkład ten okazał się np . rozkładem normalnym, to regułą pozwalaj'lcą na okrcślenie danych nietypowych mogłaby okazać się reguła trzech sigm . Wydaje się, że możliwe są tutaj do przyjęcia dwa przypadki: - badanie rozkładu na podstawie wszystkich błędów kwantyzacji bez względu na to, z jakiej grupy danych pochodzi określony błąd. W tym przypadku konieczne byłoby określenie parametrów rozkładu dła jednego przypadku; - badanie rozkładu na podstawie błędów kwantyzacji pochodzących z określonych grup. W tym przypadku konieczne byłoby określenie parametrów rozkładu błędów kwantyzacji dla tylu przypadków, ile grup zawiera badana ,biokwantyzacji.. Błąd. " row()sc.. 4. Pod,umowanle Sieci neuronowe z uwagi na swą nieliniowość i nieparametryczność zyskują sobie coraz większe uznanie jako narzędzie analizy danych, stanowiąc aIternatywę i uzupełnienie metod klasycznych. Obok takich typów sieci neuronowych jak sieci MLP czy RBF, coraz więcej uwagi poświęca się sieciom Kohonena (SOM). W niniejszym artykule zaprezentowano ideę wykorzystania SOM do identyfikacji i wizualizacji obserwacji nietypowych. Zastosowanie SOM do rozwiązania wyżej opisanych problemów wydaje się obiecujące. Pogłębionych badań wymagają studia nad rozkładem błędów kwantyzacji, co miałyby dl'Ć podstawę do uznania określonej obserwacji za nictypową..

(12) Marius::. Grahowski. Aneks Tabela A l. Warlosci. blędów. kwanlyzacj i zbioru Irys , dla wybranych warianlÓw SOM. Wzorzec. XOIXXX. ADHGI. A tJRG I. NI3RIlI. Nt3RIl2. I. 2. 3. 4. 5. <>. I. 2.69194. O.l29HII. 0. 108449. 0 .132797. 0 ,07583. 2. 2,7 1875. 0.258737. 0,225527. 0.087479. 0, 12 1816. 3. 2,88161. 0.190456. 0,155951. 0.0 18385. O.O'l:\! 22. 4. 2,75395. 0.289049. 0 .227056. 0 ,170627. O. t3418. 5. 2,7391 1. 0.187272. O, I 68906. 0.11 1401. O,OS1659. 6. 2,393 37. 0.285877. 0 ,244019. 0.24 1543. 0,215029. 7. 2,8230 1. 0 ,27'1638. 0 ,280869. 0 .186539. 0 .156869. 8. 2,62044. 0.067388. 0,087095. 0.103437. 0 ,122827. 9. 2 ,9D 18. 0559894. 0,497157. 0.176427. 0,t(X~J45. 10. 2.67 194. 0.204009. 0, 1927J4. 0 ,128845. 0,1 14436. II. 257861. 0,23018. 0,189438. 0,093481. 0,176592. 12. 2,60828. 0.198743. O,2(XI3 37. 0 .19882. 0,089375. t3. 2,79262. 0.2911168. 0,243225. 0.104944. 0.1455 18. 14. 3,25387. 0,683 839. 0,635254. 0,32462. 0,313068. 15. 2,893 19. 0 ,7 91159. 0,734974. 0.30 1577. 0,:158(K)3. 16. 2,7394. 0,878826. 0 ,824(8)9. 0.277498. 0,39483. 17. 2 ,74348. 0,44 151. 0,402013. 0,268345. 0.220542. 18. 2,65659. 0 .11 4521. 0,10 10 17. 0 ,108523. 0,111392. 19. 2,35903. 0,43007. 0,366904. O,3211197. 0,254883. 20. 2,63674. 0.232948. 0,222514. 0. 143222. 0 ,047733. 21. 2.14423. 0.279382. 0.283089. 0.235069. 0 .21889. 22. 2,57782. 0 .19291 2. O,I9IJ263. 0.171037. 0,125091. 23. 3,22076. 0,591 607. 0,6(X)388. 0,41 7341. 0,379946. 24. 2,2987 1. 0 .1765 14. 0 ,198485. 0.233564. O,I.W338. 25. 2,367 34. O,33S46~. 0,3577%. 0.321924. 0 ,2803 17. 26. 2,512 84. 0 .2 59977. O,242(X)3. 0,155865. 0.221597. 27. 2,4635.1. 0.104333. 0 .11 93 18. 0, 168138. (1.110548. 28. 257854. 0.107354. 0,110345. 0.129683. 0 ,11 2937. 29. 2,65147. 0. 1%547. 0 ,18711M. 0. 194792. 0 ,123452. 30. 2 ,6315. 0. 188m8. 0 ,169362. 0,1198981. 0 ,22659. 31. 2,5 8623. 0.1605 14. 0,11 3928. 0,138347. O,I.IK95. 32. 2 ,44878. 0.296383. 0.296946. 0 .214 146. 0 ,141132. 33. 2,783)6. (5)16 11. 0,497062. 0.329915. 0 ,129152. 34. 2.X1456. 0 ,672 38 7. 0,614 383. 0, 179M1 9. 0,1 55 125. 35. 2.63253. O. U777. 0 ,137046. 0 .03805 1. O,tl70 18.

(13) Siei: Ko}umellll .. metoda idelllyfikmji.... ~~~~~~~-----------------. cd. I.bel i A I Wzorl.cc. XOIXXX. AI3HGI. A L1RG 1. NI JRB 1. I. 2. J. 4. <;. .' (,. 2,8651 7. 0 .290557. O.2~9) 7~. 0.13055 1. O.26J166. 37. 2,7IX175 2,80888 3,0102 1. 0,407 I 5'1. OJ955:!~. 0,24224. ().22~462. 0,2681>03. O.14R202. 0,459041 0 ,10<;778. 0 ,10679'2. 0 ,1597114 0,150X04. 2.';9012. O.2W95 O.'; IM99 0,1052'19. 0, 119214. () •O'}?• •SlJ8. 41 42 43. 2,774 3,0277 ),0129). 0,188147 1,1X1816 0,450776. 0,1'15275 0,9<;5486. O.12Il:!2. 0,0871<;1 O,567lJ49. 44. 2,42261 2,26822 2,72114. OJOl688 0,337754 0,257852 0,248001. O.29K445. 0,637246 0,198637 0.327397. O.3294H<J. 0.311222. 0 ,209567 0,2 38828. 0 ,103421 0,129678 0,049974 0,102101. )8. 39 40. 45 46 47 48 4'1 50 51. 52 5) 54 55 56 57 58 59 60 61 62 63 M 65 66 67 68. 69 70 71. 72. 2,58879 2,83938 2,59754 2,69595 152091 0,'1957)8 1,59521 0,875356 1,14939 0,814263 1,157)2 1.24785 !, 15732 0,77(9)4 1J882 0,551453 0,93013 1,0202 0,340368 I ,0<)9(16 0 ,848112 0540835 1,23518 0,6)4:114. 0,23841 0,IM167 O,IIM97 0,417596 0 ,114192 0,321854 O,24m 12 0 ,258521 0,202285 0,198839 0.\44588 0 ,229397 0,401561 O,738(1)2 0,107855 0.\97143 0,2» 1X7 0,2078)2 0.207657 O.lm25 I OJ 1167. 0.409266. 0. 192049 0,121'1291. 0,110524 0,447872 0 ,120586 O..B6339 0 ,2660'i5 0,269837 0,20,1786 O,235OJ 050788 0 ,2202 0 ,408008 0 ,74665 1 0,11 3(148 0,59 3 144 0,214 37 O,204X 19 0,1 74794. ". •. 0,25293. 0,147341 tI ,058448 0 ,15759 0 ,124Ln 0,130987 ().11664~. 0,093433 0,135284 0,(9) 197. 0,106529 0,11'1684. 0 ,121659 0,1 16676 0,15454 O,OMO) 1 0,246791 0,141918 0,159(14. 0 ,05661 0,147364 0 ,1 140M 0 ,1)7 <;79. n ,2(H~694. OJ46111 0,14)549. 0 .191922. 0,154) 16 0,1 5)<»). 0 ,13239. O,37705X. 0,179836. 0.1 JlX)24. 0,272979. 0.41'16IX. 0,062673. (1 .067lJR6. 0,311838 0,140248. O,2.1R29 1. 0,315563 0 ,., 15)23. 0 ,1.101.1 0,174746. 0.56862X O, 137X48. 0,5 )7074. 0,180661 II ,11760 16. 1,222<J2. 0,325588. 0,457227. 0,.'\59363. OJ4tJ745 0 ,J44041. 0.14991.)5. N I .' RB:!. 0,159447 0, 142565 0 ,2 15 141. 0,107269. 0.134804 0.07573., O,IX'XIXI. 0,17315'. (1,209394.

(14) Mllr;us;. Grahowski cd . tabeli Al Wzorzec. XOIXXX. A I3ljG I. A I3RG I. NI3RBI. I. 2. .1. 4. 5. 1,3941 7 1,02017 0,808892. OA07.116. 0,4 J 2956. ()J04199. O,09Y)24. OJ953 .1~. 0.403048. 0,1 19311. 0 ,109199. O.20XY:\7. 0 ,199105. O.106X59. 0 .14941 OJ26138 0.109795. 0,lm5 14 OJ71717 0.13446 0,069571 0,296818. (1 ,079595. 0 .15551 4 0 .11 757. 0,029679. 0,096223. O.12X506. O,")472S. 0,08733 0.296458. 0,149124. 0.174696. n,12()6S9. 0.236619 0 .209726. 0.115789 0.12.1913. 0,190659. 0,2(15479. 0.138084 O.II7H27 0.141129 0,2455.1. 0,469292. O.20J769. O.I02~56. OJ78097 0,126409. 0.2 14414 0.112148. 0.176461 0 .13 1042. 0.60002 0,194118 0. 11 297 1 0,26 1209 0 ,202799. 0,203126 0.120775 0!l943; 0,228706 0,087108. 0 .1298. 0,20066 OM5066 OM6M96 0 ,1 91 128 (l,()79845. 0 ,086777 0,101422. 0 ,095388. OM." 81. 0 .0566 14 0.101448 0 .067035. 73 74 75 76 77. n 79 80 81 82 83 84 85 86 87 88 89 9<). I .0236 1.4618 1.60 15 0,8420) 2 0,574526 0 .749541 0.76844 UJ91947 I ,46487 0 .92484; 0.933217 IJI909 1.1061; 0,442627. 0,097679. 0303382 0. 187387 0.263(X)7 0.2 1052 1 0.198354 0 .477.H3 OJ45221 0.098255 0.634133 O,I9<XH 7 0.092342 0.265545. 91 92 93 94. 0.70896 0.866822 0,915764 0.525176 1.23326. 95. O,633K22. 0,122305. 96 97. 0.476798 0,509985 0.685821 1,19544 0.470<>59. 0 .189<)22 0,082458 0.287217 0.455783. 101 lO:! lO). 2.6538 1 1.56(,74. 0.71 6271 O•.1355 Is. 2.65~27. 104 105 lOr,. 9~. 99 I()(). 0 .188875 0.213201 0.535696. 0.!~iH602. 0,278062 0,453748 O.10651J 0.722425. 0,102316. 0.052539 0,096181 0 ,21394 0 .11 8957. NIlRB2. ". 0.291 ~27. 0.1 6459 0.07400 I 0.1 86()92 0,12 5357 O,OJ9299. O, I'lR796 OJ64J99 0 .098093 0,453284. O,307'JIJ. 0.3461 0.0865.\6. (1,C1974Wl. 0,12205. O,IJ95lJl). OJ ~467. 0.180559. 2,00796. () .-. 117P)4. 0.241976. 0 .166655. n.I64945. ()J(IX6Ih. O.2 l )744X. O.15J716. 0 .11.)1)61)1). O.X364lJ2. 0.804J27. 0 .225 679. 0 ,22203. 107 108. 2..17877 3.47165 1,4 1999 3 ,(K)S 71. O.X6 1516. O,42X29. 0 ,577 145. 0519D(). 0,199 129. 0,21 75.19. 109. 23723. O.K 77066 0,5.17685 (l5029<)'J. 0.5.17985. 0,3 15952. 0,347886. '.

(15) Siec' KohoJ/{.'flll. . metoda. ••. ~=--'--'=. cd. tabeli Al W zorzec:. I IlU II I 112 11.1 114 115 11 6 I 17 118 119 120 121 122. 123 124 125 126. 127 128. 129 130 131 132 133 134. 135 136 137 1:18 JJ9. 14(1 141 142 143 144 145 146. XO IXXX. ,-. 3.06194 1.71184 1.82956 2. 19372 1,5959 1.82963 1.9'X147 1.968 16 3.70556 3.85027 1.55679 2.48463 1.44883 3,5899 1.42579. 2.32932 2.70292 1.29 179 1,32797 2. 151 39 2.49535 2.92032 3.53159 2.1 9532 1.48291 1.9364 3. 19599 2.2822 1.9:1646 1.2252 1 2.1615:1 2,37 103 2.04278 1.56674 2.60618 251 187 2.0 1771. A IJIlGI. A I3RG I. N I3RB I. NI3 RB~. 3. 4. 5. (,. O,67')()27. 0 .661302 0 .1 46<XI5 0.206869 0.141366 0.468953. 0 ..127098 0. 1427 0. 14 1323. 0 .4(XI 125 O.I03U04 0.296045 0.151063 0.177035. 0.139565 0.17976 0,153266. 0.486031 0.705486 0,332886. 0.161803 1,20633. 1.25095 0,536555 0.218678 0 ,522 198 1.01 977 0 ,257383 0 .196855 0.341847 0.217725 0.139867 0.255891 0,519754 0,507694. O,682 73X. 0.345929 0.184856 1.1 7478 I .22377 0517532 0.210365 0,509209 0.990809 0,261508. 1.18417 0.326956 0.316781 0.617505 0 .6%27 0,563422. 0.21432 1 0.33328 1 O.2IlXl44 0.126328 0.265076 0,545019 0.491988 1.15411 0.322675 0.32276 0.628062 0 .667958 0,571588. 0.222299 0.1 74()45. 0 .226552 0 .168478. 0.220935 0.289769 0.421859 0.335518 0.231673 0.417488 0.332898. 0.191 396. 0.297889 0.429357 O,30791J 0.240:186 0.43491J 0,34OJ 17. 0 .173"6 0.178056 0.197596 0.120873 0.096509 0.3184 39 0.192666 0 .37974 0 .11 89 12 0.224392 0.310008 0 .072616 0 .2389 19 0 .230322 0.135392 0.084716 0.042641 0.324124 0. 162973 0.375887 0.107276 0 .1 60703 0.347213 0.456829 0.142595 0 .1002 1 0 .068621 0. 1.'7374 0 .255355 0.191637 0.086556 0 .182132. 0.446879 0.277309 0.12812 0,356652. 0.348986 0..115647 0.1079 0 .1.l2396 0 .125137 0 .058797 0 .213044 0 .187898 0.075775 0.071508 0.118772 0.344635 0.196288 0.192502 O.IlB811 0.153509 0.1 70139 0.163246 0,091382 0 .176785 0.1027'19 0 ,212932. 0.223781 0.237262 0,097496. 0.13185. 0.224219. 0,243055. 0 .1475'1. 0,174797.

(16) Mariusz Grahowski. cd. tabeli A I Wzorzec I. 147 148 149 ISO. SBK. XOI XXX. II UHG I. II URG I. N 13RIlI. N 13RB2. .1. 4. 5. (,. 0,.14.1012. 0.181364 0.194(8)3. 11.195927. 2114812 1.48334. 0 .l.13611 05.14608 0.296536. 0.347.187 11.14.1409 0549169 0,297218. O.15612Ó 0.209082. 0 .1185828 11.20512 0.231053. 1.946105. 0347906. OJ39349. 0.181512. 0.1 79828. , -. 1.60867 I ,7H729. Źródło ; opracow;mic włas ne.. Literatura. Cherkassky v. . Lari ~Najafi ł-I. 119911 , Cmlstra;lIed Topological Mappin): for Nonparametric Regres.\·;oll Ana/ysis, Neural Nelworks, vol. 4. Grabowski M. 11997]. Sil'ci " t! lIro,WWf' Ul analizie danych spolecz"o-ekonomicz nych. niepubJikow;ma praca doklorska. AE w Krakowie. Kraków. Grabowski M . [1999 J. Sie(~ KO/UJ/lOUl jako metoda szacowania brakujących da1lych, Zeszyty Naukowe AE w Krakowie, Kraków, nr 522 . Hartiga n J.A. 1197 5J, CllIsterin;: Algor;fhms. Wilcy & Sons, New York . Haykin S.11994]. Nl'tm" Nl,twork.\". A COf1lJm:hcnJive FOulldatiofl, Macmillan College PhI. , Inc. ., New York. Jajuga K. t ł 9901. Starystyc::" lll teo ria rm:po::.nawania obrazów, PWN, Warszawa . Jajugn K . I 19931 . Statystyallll flllahza wielowymiarowa. PWN . WarszaW~L Kangas J. 119941 , On the Analysis (~l Pattem Scqul'lIces hy SeltOr;:anilinx Mops, Helsinki University ot" Tehnology, Doctoral Thesis. Espoo . Kohonen T. 11 995 1. Self-Orgalli:ill& Map" . Springcr-Vcrlag . Berlin . Korbicz J .• Obuchowicz A .. Ucillski D . 119941, Sztuczne sieci neumIIowe , Akademicka Oficyna Wydawnicza PU. Warszawa. Lippmann R.P. ["1987[, Anllltroduct;ol! (O Computing wilh Neural NetJ, lEEE ASSP Mag ., Apri)' LVQ_PAK Th e Learllifll{ Vector QlUlIItization Program pll(.'kage \Ii:'rsion 3 . 1. 119951. T. Kohonen. J. Hynnincn, J. Kangas, J . Laaksonen, Helsinki Universily ot" Technology, ft p:l/coch lea .hut .filpubll vq_pak Metody wk.wJf!omi!'z.ne h' hadaniach JpO/t'ClIO-l'kollom;cZIIych 1/9881, J . Poc iecha , n. Pooolec. A. Sokołowski, K, Zajqc, PWN. Wars7.<lw<ł. Merody takSO/1 0m;, 1!/llllerycznej IV n/( Nil'/uwa"i /I zjmvisk. spo/ecZ1lo-gl,,\"/)(Jdllrc:.ych I ł 9891, red . A. Zclias .. PWN , Warsz~lwa . Munagh F. 119941. New'lIl Netlw"k.<; wul Re/aled " Massivdy Paral/d" Methods for StaI/sties: Ali Overvit'w,lnlcrnational Slalistical Review, 62 . M urlagh F. 11 99 Sa I. COllli;: lIily-COI1Jtraif/t'd /I ;erarchica/ C/ustering, In Cox I. J ., P. H anscn, B. Julesz. Partitioning Dala SclS , DIMACS. AMS . Munagh El199Sbl,/lIl('fprdillg Kolumell S('U~ ()rgani:.ing Map lhing Comi;:uity-Co IIJtra il/(,(/ ('luSTerilIg. Patiem Recogni tion Lctters, 16 ..

(17) Sh!(,: Koholll'lIa jako metoda idem yjikacji .. .. Murtagh F. 1I995c). Un.w l'ervised catalox da:uification.ln Shaw D .. Payne J .• llayes J ., Eds .. Astronomkal Data Analysis Software and Systems IV. ASP. Murtagh F., Hernandez-PajeraI'.I1995J, CluMering Moderately-Sized [)attl.H' H Usin,!; 1he Kohmu:1/ Map Approach . Statistics in Transition - Journal nf the Polish SI;tlisti cal Association. Oja E. 11995J, PCXA, ICA alld NOlllinear Ilebbian Learning , Proc.lnt. Conf. On Artificial Neur"1 Networks ICANN -95. Otc . 9~13. France . Osowski S .. 119961. Sieci lI t'uronowe w uj('ÓU a/gorylmia.IlY"' , WNT. Warszawa . Sarlc W.S. 11994]. Neuml Nelworks (md SIaI;Slkał MoJels . Procccdings ol' thc Ninctccnth Annual SAS Users Group International Conference. April . SOM_PAK Th" Sel[-Or}!tlf/izillg Map Program Paclwf:t! Versio!l 3./11995]. T . Kohonen. J . Hynninen. J. Kangas. J. Laaksonen, Helsinki lJnivcrsity ot" Technology. ft p:Ilcuch lea .hut Ji/pub/som_pak. Tadeusiewicz R., [ 1993]. Sieci tI(~urrmowe. Akademicka Olicyna Wydawnicza RM . Warszawa.. Kohonen Network as a Melhod of Idenlitlcallon and Vlsuallsallon ot Oullylng Observallons One of the key issues of statistical mullivariate analysis is the fulfilment ol' homogencity requircmcnt for the set ol' observations. This problem is underestimated by many researchers. Many methods ot" statistical multivariatc analysis assume the normal distribution for analysed featurcs . In reality, this condition is very rarely met. Consequently therc is a nccessity to sClIrch for data analysis mClhods (h.11 can dctermine the degree of data homogcncity and idenlify possible out1ying observations . It seems that Kohonen network may turn out to be such J method . Thc anicie prcscnts (he general oUlline uf Ihe considered mcthod and Ihe suggcstion ol' ils ;'Ipplicalion to identification and visualisation of oullying dala ..

(18)

Cytaty

Powiązane dokumenty

1964.. Słynny ten utwór parafrazował G.. Poeta często jedne m yśli powtarza, których ani dowcipem , ani sposobem w yrażenia nie uprzyjemnia. K om pozycja L...]

2.9 Iloma sposobami można przydzielić 3 pokoje różnej kategorii 5 uczestnikom wy- cieczki tak, aby żaden pokój nie był wolny i w każdym z nich nie było więcej niż 2

Utworzenie wspólnego segmentu pamięci shm_open() Ustalenie rozmiaru segmentu ftruncate() Ustalenie odwzorowanie segmentu mmap().. Cofnięcie odwzorowania segmentu

Utworzenie wspólnego segmentu pamięci shm_open() Ustalenie rozmiaru segmentu ftruncate() Ustalenie odwzorowanie segmentu map().. Cofnięcie odwzorowania segmentu

Obszary perspektywiczne o ograniczonym zasięgu występujące w centralnej i zachodniej części oraz w niektórych partiach części NW, zostały skorelowane z intruzjami

5 Dane dotyczące analizowanego przykładu opisują 4 instancje procesu zapłaty za zrealizowane zamówienia (ów rodzaj instancji procesu jest pochodną wyboru zamówienia jako

Metoda identyfikacji podejść do strategii 19 Ważnym elementem badania jest również przedstawienie wyników z perspekty- wy branży, w jakiej działa dane przedsiębiorstwa. Ze

Program zamieszczony poniżej demonstruje jak zmieniają się wagi sieci w kolejnych epokach uczenia2. Punkty uczące oznaczono kółkami na wykresach utworzonych