Algorytmy konstruktywistyczne

(1)

Sieci o zmiennej strukturze

Wykład 9’

Włodzisław Duch

Katedra Informatyki Stosowanej UMK

Google: W. Duch

(2)

Co będzie

• _{Uwagi na temat MLP}

• _{Sieci o zmiennej strukturze}

• _{Algorytmy konstruktywistyczne}

• _{Przykłady zastosowań sieci MLP}

(3)

Sieci z 1 warstwą ukrytą.

Uczenie warstwy wyjściowej można uprościć odwracając:

1 ( ( ))

;

1 exp(

( ))

( ) ln

;

( )

1 o o H X

H X

o

Y X

H X W Y

o













_

_











Mając wartości dochodzące do warstwy wyjściowej można obliczyć wartości W na wybranym zbiorze uczącym w sensie metody najmniejszych kwadratów.

Można też nie uczyć warstwy wejściowej tylko użyć jej do rzutowania danych w wysokowymiarową przestrzeń (biorąc

dostatecznie dużo neuronów) – znane jest to pod szumną nazwą „Extreme Learning Machines”.

H(X) sygnał z warstwy ukrytej

Y(X) aktywacja w. wyjściowej

(4)

Uwagi praktyczne 1

Ile neuronów?

Zwykle niewiele, zacząć od 1 i zwiększać robiąc kroswalidację; reguły heurystyczne są mało przydatne bo wszystko zależy od rozkładu

(5)

Uwagi praktyczne 2

Trudności w uczeniu?

Można dodać dodatkowe wyjścia pomocnicze (hints), np. dzielące hierarchicznie na grupy kilku kategorii.

Ogólnie: co ciekawego mogą wykryć pośrednie warstwy? Może warto zmienić cel uczenia?

(6)

Uwagi praktyczne 3

System dobrze się nauczył ale

słabo generalizuje?

• _{Zbyt duża złożoność sieci.} • _{Dodać regularyzację.}

• _{Stosować kroswalidację do}

oceny błędu.

• _{Zatrzymać uczenie zanim się}

przetrenuje.

• _{Dane treningowe nie są}

(7)

Algorytmy konstruktywistyczne

Złożoność sieci należy dopasować do złożoności danych: niezbyt prosta ale i niezbyt dopasowana – zajmuje się tym dziedzina

zwana wyborem modelu.

Utwórz wiele sieci; wybierz najlepszą;

używaj algorytmów ewolucyjnych - ale czy warto? używaj komitetów sieci - nie marnuj modeli.

Algorytmy sieciowe:

•_{upraszczające, usuwające połączenia i zbędne neurony;} •_{konstruktywne, dodające nowe zasoby w miarę potrzeb;} •_{ontogeniczne: rosnące i kurczące.}

(8)

AK: upraszczanie

Zwykle:

•_{mała sieć - prosty model, dobre wyniki;}

•_{duża sieć - zła generalizacja, za duża złożoność modelu.}

Regularyzacja: duża sieć, elastyczna, ale efektywnie ma mało swobodnych parametrów, zależnie od siły regularyzacji.

1. Utwórz dużą sieć.

2. Trenuj ją z członem regularyzującym.

Metody Bayesowskie pozwalają automatycznie określić parametry regularyzacji (Bishop), ale są rzadko stosowane.

Statystyczne kryteria przydatności neuronów można stosować zamiast regularyzacji. 2 ij i j

W







(9)

Korelacja kaskadowa

Fahlman i Labiere, 1991

Zacznij od zera, dodawaj neurony do warstwy ukrytej. Maksymalizuj korelacje nowego neuronu i z błędem

wykazywanym przez neuron wyjściowy.



( )p





( )p



( )p

_;





( )p



( )p

_;



i i

p

o

Y

F X

W

Y

F X

W











_





_

Dodaj kilka neuronów - kandydatów; trenuj maksymalizując korelację;

(10)

KK - schemat

kandydaci

Warstwa wyjściowa

Uczenie: jakąś wersją

metody BP (np. Quickprop). Po dodaniu kandydata stare neurony ukryte mają

ustalone wagi wejściowe. Nowy neuron łączy się ze wszystkimi istniejącymi. CasCor 2 - minimalizuje różnicę |E(sieć)-E(kand)|

(11)

CasPer

Cascade Correlation with Progressive RPROP (1997) Architektura kaskadowa;

3 typy połączeń z różnymi szybkościami uczenia: L₁, wejście kandydata z neuronów

ukrytych i wejściowych;

L₂ wyjście kandydata do neuronów wyjściowych.

L₃ istniejące neurony L₁>> L₂>> L₃

(12)

FlexNet

Mohraz, Protzel 1996.

0. Startuj bez warstw ukrytych, tylko In/Out. Powtarzać 1 i 2: 1. Uczyć aż błąd zacznie spadać powoli.

2. Dodać nową jednostkę w różnych miejscach sieci, zostawić taką, która najbardziej pomaga w uczeniu.

(13)

Algorytm wieżowy

Dodaj neuron tworząc nową warstwę;

trenuj aż się nauczy;

zamroź wagi, dodaj kolejny neuron.

Zbiega się po skończonej liczbie kroków dla wypukłych danych.

Każda warstw usuwa przynajmniej

jeden błąd, ale generalizacja może być kiepska.

(14)

Algorytm piramidowy

Jeden neuron/warstwę.

Dodaje połączenia pomiędzy odległymi warstwami.

Uczenie - podobnie jak w algorytmie wieżowym.

Używany w programie TDL (Transdimensional Learning)

(15)

Algorytm kieszonkowy

Algorytm kieszonkowy uczenia sieci (Gallant 1990) Próbuje wykorzystać sukcesy, nie tylko błędy.

Stosowany do wzorców binarnych:

1. Przypadkowa inicjalizacja wag.

2. Przypadkowo wybieraj wektory do uczenia. 3. Policz, po ilu wektorach N(p)_{pojawia się błąd,}

zapamiętaj ostatnie wagi W(p) _{w „kieszonce”}

dokonaj korekty W= W(p)+ W(p)_.

4. Przypadkowo wybieraj wektory do uczenia i licz, kiedy

pojawi się błąd; jeśli N<N(p)_{to weź}_W=W(p)_{(krok wstecz)}

5. Powtarzaj aż do skutku ...

(16)

Algorytm kafelkowy

Hierarchia warstw o malejącej liczbie

neuronów (Mezard, Nadal 1989).

Nowe warstwy - wierna reprezentacja, tj. R(X)R(Y) jeśli C(X) C(Y), dla

wektorów binarnych.

Jednostka nadrzędna trenowana jest na dużej liczbie wzorców tak, by wytworzyć możliwie najdłuższy ciąg poprawnych odpowiedzi.

Jednostki pomocnicze uczą się na

(17)

Algorytm upstart

Frean, 1990: neuron wyjściowy

połączony z wejściowymi, wzorce są binarne.

Błędne odpowiedzi typu 0 i 1.

Dodaj 2 neurony, te same wejście, duże W_+/-, koryguj błędy typu 0 i 1.

Każdy neuron koryguje  1 błąd. Algorytm uczenia - kieszonkowy.

Poprawny wynik w skończonej liczbie kroków dla wypukłych danych (każdy wektor można odseparować

płaszczyzną).

Binarne drzewo z perceptronem w każdym węźle, dobre wyniki.

Algorytm "upstart"

1

2

2 +

(18)

-IncNet

IncNet

Incremental Network, sieć ontogeniczna, rośnie i maleje (N. Jankowski, 2003).

Jedyna sieć w pełni ontogeniczna: rośnie, kruczy się, i łączy neurony.

Sieć jednowarstwowa, różne f. transferu, model 1-z-N. Statystyczne kryteria wzrostu i kurczenia sieci.

Algorytm uczenia w oparciu o rozszerzony filtr Kalmana, EKF (estymator błędu i parametrów modelu).

(19)

Onto - podsumowanie

Inne sieci ontogeniczne: RAN, FSM - po RBF-ie.

Zalety algorytmów ontogenicznych:

• _{automatyczna konstrukcja} • _{zwykle dobre wyniki}

• _{zwykle małe sieci, niewiele połączeń}

• _{zwykle duża szybkość - trenowane są pojedyncze neurony}

Wady:

• _{czasami mogą się przetrenować}

• _{algorytmy rosnące nie gwarantują najprostszych sieci} • _{niektóre tworzą specyficzne architektury}

• _{niewiele dobrych programów}

• _{homogeniczne – lepiej czasem użyć różnych funkcji transferu dla}

(20)

Kilka zastosowań

Typowe problemy: diagnoza, wykrywanie anomalii prognozowanie, aproksymacja funkcji w nD, kontrola. Dobre benchmarki: XOR, parzystość, kompresja.

NETtalk (Sejnowski i Rosenberg 1987):

7 liter (wybranych z 29 znaków) tekstu w ruchomym okienku, na wyjściu kod fonemu, 7x29=203 wejścia, 80 jednostek ukrytych i 26 wyjściowych.

1024 słowa, korelacja litera/fonem, gaworzenie, po 50 epokach sieć 95% dokładności, 78% poprawnie na nowym tekście.

Zastosowania przemysłowe - strona Boba Marksa. EANN - International Conference on