Rozszerzenia sieci RBF - jest macierzą jednostkową

gdzie I jest macierzą jednostkową

2.5. Rozszerzenia sieci RBF

Sieci z radialnymi funkcjami bazowymi, podobnie jak i inne modele sieci neu-ronowych, doczekały się licznych rozszerzeń. Nie sposób wymienić wszystkie z nich, ale mam nadzieję wspomnieć te najciekawsze i częściej spotykane. Bazując już na tym, co do tej pory przedstawiono w tym rozdziale, można skonstruować bardzo wiele różnych sieci. Mogły by się one różnić metodami inicjalizacji i/lub dalszym postępowaniem. Dołączając do tego możliwość skorzystania z różnych funkcji transferu, przedstawionych w rozdziale 1, klasa możliwych sieci neuro-nowych coraz bardziej się rozszerza i zmienia swoje własności.

2.5.1. Rozszerzenia głównego równania sieci RBF

Dość standardowymi już rozszerzeniami są różne rozszerzenia głównego rów-nania sieci RBF (2.2), czyli liniowej kombinacji aktywacji funkcji transferu. Pierw-szym przykładem niech będzie prosty, choć bardzo użyteczny dodatek w postaci współczynnika adaptacyjnego w₀

f (x; w, p) =

∑

M i=1

wiGi(x, pi) +w₀, (2.63)

którego celem jest uwolnienie samej sieci od średniej wartości wyjścia (por. [13]

rozdział 3.4.3). Częściej spotyka się bardziej radykalne rozszerzenia takie jak

f (x; w, p) =

∑

M i=1

wiGi(x, pi) +

∑

m i=1

dip(x) m≤ N, (2.64)

gdzie p(x) jest wielomianem pewnego stopnia k z przestrzeniR^N [208].

Do typowych rozszerzeń zalicza się również użycie macierzy wag C w nor-mie|| · ||C [209]

f (x; w, p) =

∑

M i=1

w_iG_i(||x − ti||C_i), (2.65)

gdzie|| · ||C jest zdeﬁniowana jako

||x − ti||C_i = (x− ti)^TC^T_iC_i(x− ti). (2.66) Jednakże taka macierz jest trudna do adaptacji ze względu na liczbę para-metrów adaptacyjnych, która rośnie kwadratowo z rozmiarem przestrzeni wej-ściowej.

Inne, ciekawe i dość proste rozszerzenie, to użycie niejednorodnych miar odległości [258], które zostały już opisane w rozdziale 1.2.1.2.

2.5.2. Regularyzacja

Niezwykle ważną częścią rozważań nad sieciami RBF (jak i innymi sieciami), jest regularyzacja tych modeli, która w dużym stopniu wpływa na stabilizację procesu uczenia sieci i jest głównym narzędziem wspomagającym uzyskanie możliwie maksymalnej generalizacji i tym samym pozwala unikać przeuczenia się podczas adaptacji. Regularyzacja sieci RBF była już wspomniana na początku rozdziału, jednakże opis ten nie wyczerpał całego tematu, szczególnie różnych innych, ciekawych podejść do regularyzacji.

Najczęściej regularyzacja sprowadza się do dodania pewnego czynnika do funkcji błędu modelu E₀(f ) (2.14). Należy wspomnieć, że można jako podsta-wowego członu funkcji błędu używać nie tylko funkcji E₀(f ), ale również jej

ogólniejszej formy w postaci funkcji błędu Minkowskiego, przechodząc do

Jednym z najbardziej znanych czynników regularyzacyjnych jest rozpad wag (ang. weight decay). Wtedy do miary błędu modelu E₀(f ) (2.14) zostaje dodany czynnik regularyzacyjny:

E_wd(f , w) = E₀(f ) +λ

∑

i=1

w²_i. (2.68)

W aproksymacji i statystyce ten typ regularyzacji nazywany jest regresją grzbietową (ang. ridge regression). Uwzględnienie takiego czynnika w funkcji błędu znacznie poprawia uzyskiwane wyniki [120]. Breiman [24] twierdzi, iż taka regularyzacja sprawia, że proces uczenia jest stabilny, natomiast nie jest tak gdy do wyznaczania niektórych parametrów uczenia stosuje się techniki uczenia na podzbiorach (patrz też niżej). Przykład zastosowania regularyzacji można zobaczyć na rysunku 2.5.

Lokalna regresja grzbietowa (ang. local ridge regression) jest uogólnieniem po-przedniej wersji regularyzacji:

E_lrr(f , w) = E₀(f ) +

∑

M i=1

λiw²_i. (2.69)

W przypadku takiej regresji dla lokalnych funkcji, takich, jak większość funk-cji RBF, gładkość regresji nie jest kontrolowana jednym współczynnikiem, lecz każda z funkcji jest kontrolowana niezależnie. To prowadzi do lokalnej adaptacji gładkości w zależności od stanu w lokalnej części przestrzeni. Regresja nielokal-na dla problemów, w których gładkość funkcji w różnych częściach przestrzeni powinna być różna, często nie daje pożądanych rezultatów [197]. Do wyznacza-nia parametrów regularyzacyjnych stosuje się często uczenie poprzez walidację skośną (ang. cross-validation, co można przetłumaczyć także jako kroswalidację, walidację krzyżową lub rotacyjną, ale nie ma powszechnie przyjętego terminu w języku polski) [197, 109] i różne ich odmiany. Metoda polega na podziale zbioru uczącego na k części, a następnie usuwaniu po jednej z nich, uczeniu sieci na pozostałych i testowaniu na usuniętej części. Zebrane informacje o jakości klasy-ﬁkacji lub aproksymacji na kolejno usuwanych częściach zbioru uczącego dają obraz działania algorytmu dla wcześniej ustalonych parametrów regresji (oczy-wiście metodę tę można wykorzystywać do wyznaczania i innych parametrów, jak i innych modeli adaptacyjnych).

Bishop w [11] zaproponował jeszcze inny człon regularyzacyjny:

E_r2=E₀(f ) + 1

(a) (b)

Rysunek 2.5:Zastosowanie regularyzacji do aproksymacji funkcji 10^sin(|xy|)_|xy| . Ry-sunek a) pokazuje oryginalną funkcję. Kolejne rysunki pokazują aproksymację z regularyzacją dla b)λ = 1, c) λ = 10⁻⁴, d)λ = 100. Patrz równanie (2.68).

Powyższy człon regularyzacyjny nie wymaga aby funkcjami bazowymi rów-nania sieci RBF (2.2) była pewna funkcja Green’a. Nie wymaga się również, aby liczba funkcji bazowych była równa liczbie wektorów zbioru treningowego (porównaj podrozdział 2.1).

Bardzo ciekawym wynikiem było udowodnienie przez Bishopa, iż uczenie z regularyzacją Tikhonova jest równoważne uczeniu z szumem [12]. Poprzez ucze-nie z szumem rozumie się dodaucze-nie losowego szumu do wejściowego wektora uczącego przed użyciem go do procesu adaptacji.

Inne metody regularyzacji zostały przedstawione w rozdziale 4.

2.5.3. Inne metody uczenia sieci RBF

Warto tu również wspomnieć o metodzie ortogonalizacji najmniejszych kwadra-tów (ang. ortogonal least squares) Chen’a (i. in.) [43, 44] do uczenia i konstrukcji sieci z radialnymi funkcjami bazowymi. Metoda najczęściej wykorzystuje algo-rytm ortogonalizacji Grama-Schmidta.

Rozszerzenie tej metody o regularyzację zaproponował Orr [197].

Z kolei Bishop proponuje używanie algorytmu EM (ang. expectation maximi-zation) [14] do uczenia sieci RBF.

Lowe w [175] opisał specjalną wersję sieci RBF, przeznaczoną do klasyﬁka-cji danych poprzez estymacje prawdopodobieństw rozkładów. Metoda polega na estymacji prawdopodobieństw a posteriori p(c|x), czyli prawdopodobieństw, że dany wektor x przynależy do klasy c. Takie prawdopodobieństwo a poste-riori można zrekonstruować z prawdopodobieństw cząstkowych, korzystając z twierdzenia Bayesa

p(ci|x) = p(ci)p(x|ci)

p(x) . (2.71)

Ponieważ raczej nie zdarza się, aby za pomocą pojedynczego rozkładu gaus-sowskiego można było estymować rozkład danych w klastrach danej klasy, uży-wa się mieszanki rozkładów uży-warunkowych q(x|s) z różnymi współczynnikami mieszania

p(x) =

∑

p(s)q(x|s), (2.72)

p(x|ci) =

∑

p(s; i)q(x|s), (2.73)

wtedy wykorzystując (2.72) i (2.73), równanie (2.71) przyjmuje postać p(c_i|x) =

∑

p(ci)p(s; i)

p(s) · p(s)q(x|s)

∑sp(s)q(x|s) ≡

∑

w_ijG(x|j), (2.74)

współczynniki wij = p(ci)p(s; i)/p(s) są wagami warstwy wyjściowej, opisują-cymi istotność j-tego węzła-podrozkładu dla i-tej klasy, a funkcjami bazowymi są znormalizowane funkcje G(x|j) (porównaj z równaniem (1.80)).

Jeszcze innym sposobem uczenia sieci RBF może być algorytm uczenia sto-sowany do Support Vector Machines (SVM), który dokładniej zostanie opisany w rozdziale 3.

Wilson i Martinez [258] pokazują używając sieci RBF, iż kiedy atrybuty da-nych są różda-nych typów (ciągłe, dyskretne, nominalne), należy wtedy dobrać od-powiednią miarę odległości, aby uzyskać możliwie najlepsze rezultaty. Różne miary odległości zostały już przedstawione w podrozdziale 1.2.1.

W dokumencie N o r b e r t J a n k o w s k i Ontogeniczne sieci neuronowe O sieciach zmieniających swoją strukturę (Stron 96-100)