• Nie Znaleziono Wyników

= Możliwości modelu

4.3.7. Wykorzystanie sieci IncNet w klasyfikacji

d∈D

φ(x, t¯ i)dx (4.117)

Pj =



d∈D

φ(x, t¯ j)dx. (4.118)

Pozostaje pytanie, kiedy próbować, czy kryterium będzie spełnione, i dla ja-kich par neuronów sprawdzać, czy kryterium jest spełnione. Jednym ze sposo-bów jest sprawdzanie kryterium co epokę dla każdego neuronu i (i = 1, . . . , M) i neuronu j, wybranego w następujący sposób:

j = arg max

k φ(tk, ti). (4.119)

Innym, kosztowniejszym sposobem jest próba łączenia jednej pary neuronów podczas każdej (p-tej) iteracji algorytmu adaptacji. W tym przypadku wybiera się pierwszy neuron i:

i = arg max

k φ(xp, tk), (4.120)

gdzie xpjest wektorem wejściowym prezentowanym w p-tej iteracji algorytmu.

Następnie wyznacza się drugi neuron j:

j = arg max

k=i φ(xp, tk), (4.121) po czym bada się, czy jest spełnione kryterium łączenia neuronów dla neuronów i i j.

Gdy, dla pewnej pary neuronów kryterium łączenia będzie spełnione (nie-zależnie od tego czy sprawdzanie następuje co iterację, czy co epokę), następuje zastąpienie owej pary neuronów nowym neuronem o parametrach opisanych wzorami (4.108–4.113).

Powyżej zaproponowany sposób kontroli złożoności umożliwia zmniejsze-nie struktury sieci neuronowej poprzez unifikację jej fragmentów, w oparciu o analizę neuronów, które wcale nie muszą być nieprzydatne. Wręcz przeciwnie, nierzadko da się zastąpić dwa neurony, które odgrywają istotną rolę. Tak zde-finiowaną metodę łączenia neuronów można stosować praktycznie do każdej sieci typu RBF, jak do innych modeli opartych o ciągłe i zlokalizowane funkcje transferu.

4.3.7. Wykorzystanie sieci IncNet w klasyfikacji

Sieć IncNet, w której adaptacji podlegają nie tylko wagi wyjściowe, może mieć tylko jedno wyjście. Gdyby pozostać jedynie przy adaptacji wag pomiędzy war-stwą ukrytą i wyjściową, wtedy łatwo można sformułować sposób uczenia sieci z wieloma wyjściami (zrobił to Kadirkamanathan w pracy [148]). Jednakże rezy-gnacja z adaptacji położeń funkcji bazowych, rozmyć czy skosów i ewentualnie

innych parametrów dla funkcji bicentralnych, znacząco zubaża całość modelu i zmniejsza jego potencjalne możliwości. Jeszcze gorszym rozwiązaniem (wręcz niedopuszczalnym) jest, aby sieć wykorzystywała jedno wyjście, a wartość tego wyjścia dla pewnej danej, po zaokrągleniu, byłaby interpretowana jako numer klasy, do której owa dana zostałaby przypisana. Liniowy układ wyjścia (kla-sa 1, 2, . . . , K) nie odzwierciedla w żaden sposób rzeczywistych zależności po-między klasami, a raczej wprowadza wręcz arbitralne, nie istniejące i niestety niedopuszczalne zależności.

Z powyższych powodów najciekawszym rozwiązaniem wydaje się pomysł zbudowania klastra niezależnych sieci IncNet, a zadaniem każdej z podsieci byłoby wyspecjalizowanie się w rozpoznawaniu jednej (k-tej) klasy.

W tym celu ze zbioru par uczących:

S = { x1, y1 , x2, y2 , . . . xN, yN }, (4.122) produkujemy K zbiorów, po jednym dla każdej klasy:

Sk={ x1, yk1 , x2, yk2 , . . . xN, ykN } k = 1, 2, . . . , K, (4.123) gdzie yki przyjmuje wartości 1 lub 0:

yki =

1 yi=k

0 yi= k i = 1, 2, . . . , N. (4.124) Tak zdefiniowane zbiory Sk są zbiorami uczącymi dla poszczególnych sieci IncNet, które razem tworzą komitet. Schemat tak zdefiniowanego komitetu sieci IncNet przedstawiono na rysunku 4.12.

(x, y1) IncNet 1

(x, y) ... ... Moduł decyzyjny

C1(x), . . . , CK(x) C(x) (x, yK) IncNet K

Rysunek 4.12: Komitet sieci IncNet w zastosowaniu do problemów klasyfika-cyjnych.

Dla danej obserwacji x każda z sieci produkuje wartość wyjściową Ci(x)(dla i = 1, 2, . . . , K). Wartość Ci(x) zbliżona do zera oznacza, iż obserwacja x nie odpowiada klasie i. Natomiast wartość Ci(x) zbliżona do jedynki oznacza, iż obserwacja x odpowiada klasie i.

Moduł decyzyjny, widoczny na rysunku 4.12, podejmuje ostateczną decyzję i przypisuje pewien wektor x do jednej klasy C(x). Podejmowanie takiej decyzji

może przebiegać zgodnie z poniższą definicją:

C(x) = arg max

i Ci(x). (4.125)

Tym samym moduł decyzyjny wybiera sieć, której aktywacja była największa, tj. najbardziej odpowiadająca danej obserwacji.

Jednakże przydatność takiego klastra podsieci IncNet wcale nie musi spro-wadzać się do obserwacji jedynie wartości C(x). Bardzo przydatne jest wpro-wadzenie następującej renormalizacji:

p(Ci|x) = σ(Ci(x)12)

Kj=1σ(Cj(x)12), (4.126) gdzie σ(x) = 1/(1 + exp(−γx)), a γ jest stałą (np. około 10). Prowadzi to do aproksymacji prawdopodobieństwa przynależności wektora x do klasy i.

Można zdefiniować pmax:

pmax(x) =max

i p(Ci|x), (4.127)

jako prawdopodobieństwo najbardziej prawdopodobnej klasy.

Natomiast C(x) zdefiniowane poprzez C(x) = arg max

i p(Ci|x) (4.128)

wyznacza po prostu najbardziej prawdopodobną klasę dla danej obserwacji x.

Warto jednak pamiętać o fakcie, iż mamy do dyspozycji wszystkie wartości p(Ci|x) dla i = 1, 2, . . . , K, a nie tylko wartość prawdopodobieństwa najbardziej prawdopodobnej klasy. Choć z pewnością najważniejsze jest wyznaczenie klasy, dla której prawdopodobieństwo jest największe, jednak warto także przyjrzeć się klasie (może nawet więcej niż jednej), która może stanowić istotną alter-natywę. Jeśli wartości tak wyselekcjonowanych prawdopodobieństw są zbliżone oznacza to, że klasyfikacja nie jest jednoznaczna. Obserwując wszystkie wartości prawdopodobieństw p(Ci|x), z pewnością łatwo stwierdzić, które spośród klas można uznać za nieprawdopodobne, następnie można je wykluczyć z dalszej analizy (porównaj analizę rezultatów przedstawioną w podrozdziale 7.2.1).

4.3.8. Charakterystyka parametrów kontroli procesu adaptacji sie-ci IncNet

Powyżej opisane główne moduły sieci IncNet, na które składają się algorytm uczenia, funkcje transferu i metody kontroli złożoności sieci, posiadają różne pa-rametry umożliwiające wpływanie na proces adaptacji. Do takich parametrów należą: współczynnik określający poziom szumu, funkcja Q(n), która regulu-je szybkość zbieżności filtra Kalmana, początkowe parametry funkcji transferu,

współczynniki określające stopnie ufności kryteriów wystarczalności i niewy-starczalności struktury.

Większość z tych parametrów jest stała lub zdeterminowana danymi uczą-cymi lub charakterystykami procesu uczenia. Na przykład poziom wariancji szumu pomiarów Rn powinien być znany ze względu na sposób dokonanych pomiarów lub, jeśli nie jest znany można (czy też trzeba) dokonać jego oszaco-wania (filtr Kalmana nie jest zbyt wrażliwy na poziom wariancji; dzięki temu (ewentualne) oszacowanie wariancji szumu wcale nie ma krytycznego wpływu na proces estymacji).

Początkowe parametry funkcji transferu określają niejako rozdzielczość mode-lu, ale i początkową gładkość estymacji (poprzez dobór skosu funkcji transferu

— jest to szczególnie widoczne dla funkcji bicentralnych). Rozdzielczość jest po-chodną wielkości obszaru aktywnego dla zlokalizowanej funkcji transferu. Gdy obszar ten jest bardzo mały, mamy do czynienia z dużą rozdzielczością, lecz wtedy potrzeba wielu neuronów w warstwie ukrytej, by docelowy obszar prze-strzeni wielowymiarowej został odpowiednio pokryty, lub też potrzeba by wię-cej czasu, aby funkcje mogły zostać odpowiednio rozciągnięte. I odwrotnie gdy obszar pokrywany przez funkcję jest bardzo duży, zbyt szybko może dojść do znacznego nakrywania się różnych funkcji transferu. Wtedy neurony zamiast kooperować zaczynają wręcz walczyć ze sobą. Dlatego też dobór parametrów, określających początkowe wartości parametrów funkcji transferu dobrze powią-zać z analizą danych i wszelką dostępną wiedzą a priori, jak i próbą użycia różnych wartości dla sprawdzenia jakości działania procesu adaptacji.

Parametry kryteriów kontroli złożoności struktury mogą być niemal nie-zmienne, ze względu na różne aplikacje, albo wyznaczanie wartości tychże pa-rametrów może być powiązane (liniowo) z poziomem wariancji danych.

Powyżej opisane fakty pokazują, iż przy zrozumieniu znaczenia odpowied-nich współczynników, ich dobór nie jest trudny, a z pewnością korzystnie może wpłynąć na proces adaptacji — im lepsza wiedza a priori wszczepiona w począt-kowy model, tym większe prawdopodobieństwo uzyskania lepszego poziomu generalizacji.

Sieć IncNet rozbudowano o jeszcze kilka mechanizmów kontroli. Do waż-niejszych z pewnością należy stopniowe chłodzenie dynamiki zmiany architek-tury. Polega to na wyostrzaniu kryteriów, przy jakich sieć może zmieniać swoją architekturę wraz z upływem procesu uczenia, zmuszając sieć do większej sta-bilizacji. Taki mechanizm może być przydatny, gdy dane, na których system jest poddawany uczeniu, są mocno zdyskretyzowane (np. realne wartości są ciągłe, natomiast w danych znajdują się wartości poddane dyskretyzacji, w wyniku której uzyskuje się jedynie kilka różnych wartości) lub mocno zaszumione.

Innym mechanizmem, przydatnym na przykład w wyżej opisanych sytu-acjach, jest zapamiętywanie najefektywniejszych wersji sieci (architektura i war-tości wszelkich parametrów adaptacyjnych) podczas prowadzenia procesu ad-aptacji. W tym celu, co pewną liczbę iteracji, dokonuje się testu na podstawie którego ocenia się bieżący model i porównuje z aktualnie najlepszym modelem,

po czym lepszy zostaje zapamiętany. Zapamiętywaniu podlegają wszelkie para-metry modelu wraz ze strukturą sieci. Oczywiście przy ocenie wykorzystywane są jedynie dane treningowe.

Przy korzystaniu z dość dużych zbiorów danych uczących okazuje się, iż war-to, w miarę prowadzenia procesu uczenia, zmniejszać początkowy obszar (dys-persje) zlokalizowanych funkcji transferu. Dzięki takiemu zabiegowi w pierwszej fazie adaptacji system dysponuje funkcjami o mniejszej rozdzielczości, natomiast w dalszej części ma do dyspozycji funkcje o większej rozdzielczości, które w już istniejącej strukturze mogą pokryć mniejsze obszary w bardziej precyzyjny spo-sób.

Poza opisanymi metodami kontroli zaimplementowano jeszcze parę mniej istotnych. Na koniec wspomnę o możliwości określenia maksymalnej liczby neu-ronów w warstwie ukrytej. Ten mechanizm, jak i inne nie wspomniane w pracy, są przydatne raczej na poziomie wstępnej oceny samych danych niż we właści-wym procesie uczenia.

Powiązane dokumenty