MLP - perceptrony wielowarstwowe

(1)

Perceptrony wielowarstwowe,

wsteczna propagacja błędów

Wykład 9

Włodzisław Duch

Katedra Informatyki Stosowanej UMK

Google: W. Duch

(2)

Co było

• Perceptron jednowarstwowy.

• Uczenie się perceptronów

• Nieliniowa reguła delta

(3)

Co będzie

• Perceptrony wielowarstwowe.

• Algorytm wstecznej propagacji błędów (BP)

• Metody minimalizacji

• Ulepszenia BP

Problem: perceptrony radzą sobie tylko z problemami,

które są liniowo separowalne, nie można więc rozwiązać

prostego zagadnienia typu XOR, a więc prawie żadnego

zagadnienia w wysokowymiarowych przypadkach.

(4)

XOR – rozwiązanie najprostsze

1 +1 +1 +1 +1 +1 0.5 

Najprostsze rozwiązanie, ale jak to uczyć? Co można zrobić? Najpierw utworzyć jakąś reprezentację wewnętrzną za pomocą

perceptronów, ale jaką?

• _{Założyć reprezentację wewnętrzną a priori -}

zgadywaną dla każdego problemu niezależnie.

• _{Zastosować konkurencyjne uczenie się bez}

nadzoru; użyteczne elementy same się uaktywnią, chociaż nie ma na to gwarancji.

• _{Uczyć odpowiedniej reprezentacji}

wewnętrznej dla danej klasy problemów – trzeba znaleźć efektywny algorytm uczenia.

(5)

XOR z warstwą ukrytą rozwiązuje XOR

(6)

Warstwa ukryta i granice decyzji

(7)

Sieć MLP 2-4-1

(8)

MLP = Multilayer Perceptron.

X X X X X 1 2 3 4 5 (1) (1) (1) (1) (1) X 1 (2) _X 2 (2) _X 3 (2) X 1 (3) X 2 (3) o₁(2) o₂(2) o 3 (2) o₁(3) _o 2 (3) W 11 (2) W 51 (2) W 43 (2) W 11 (3) W 32 (3) W 53 (2)

Perceptron 3-warstwowy z warstwą wejściową, ukrytą i wyjściową - oznaczenia.

(9)

MLP - oznaczenia

Liczba warstw M=3

X

i(l)

- całkowity sygnał dochodzący do elementu i należącego do

warstwy l

o

_i(l) _{- sygnał wychodzący z elementu}_i_{należącego do warstwy}_l

W

_ij(l)_{- wagi łączące element i należący do warstwy}_l-1_{oraz element}

j z warstwy l

X

j(l)

=



i

W

ij(l)

o

i(l-1) aktywacja neuronu j w warstwie l.

o

j(l)

=



(X

j(l)

)

sygnał wysyłany z tego neuronu

F

i

(X;W) = o

i(M)

funkcja realizowana przez MLP

(10)

BP-1

Algorytm wstecznej propagacji błędów (1974, 1986) Miara błędu dla wzorca p i No wyjść









2 ( ) ( ) ( ) ( ) 1 1 1 1 ( ) ; 2 2 o o N N p p p p i i i i i E Y F X E   



 



W W





1 ( ) ( ; ) ( ; ) o N k ij k k k ij ij E W F X W W Y F X W W W



        









( ) ( ) ( ; ) M M k k k F X W  o 



X





( ) ( ) ( ) ( 1) ( ) ( ; ) ( ) ' M M M M k k k k j M kj k kj F X W X X X o W X W



_

        

Gradientowa reguła minimalizacji błędu równoważna jest regule delta.

(11)

Funkcja błędu w 2D

(12)

BP-2

Błąd „lokalny” dla warstwy M

Zmiana wag w warstwie wyjściowej:

Wagi łączące neuron j i neuron k w warstwie M-1:

Gradient:









(M)

_'

(M)

_;

i

X

i

Y

i

F X W

i

















(M)

_'

(M)

_{( ; )}

(M 1) (M) (M 1) ij i i i j i j

W



X

Y

F X W o





o















( 1) ( 1) ( 1) 1

( )

( ; )

o N M _i jk _M i i _M i jk jk

E W

F X W

W

Y

F X W

W



   





 















( 1) ( ) ( ) ( ) ( 1) ( 1) ( ) ( 1) ( 1)

( ; )

(

)

'

M M M j M M i i i i ij M M M M jk i jk jk

o

F X W

X

W

X

W



_

_    







(13)

BP-3

Ponieważ

to gradient:

a zmiana wag:

Struktura wzoru dla kolejnych warstw jest taka sama.





(M 1) (M 1) (M 1) (M 2) j j jk k k

o







X









_

W



o





_









( )



( 1)



( 1)



( 2) ( 1)

( ; )

'

M M

'

M M i i ij j k M jk

F X W

X

W

X

o

W



   











(M 1) (M) (M 1)

_'

(M 1) (M 2) (M 1) (M 2) jk i ij j k j k i

W



 

W





X



o







o











(14)

BP- podsumowanie

Funkcja realizowana przez sieć:

Inicjalizacja: przypadkowe małe wartości wag. Propagacja sygnałów od wejścia do wyjścia.

Propagacja korekcji błędów wstecz: rekursywne obliczanie Wij.









(M) (M) (M) (M 1)

_;

(M)

_;

i i ij j i i j

o





X







_

W

o





_

o



F X W









_;



(M) (M 1) (M 2)_... (2) i ij jk kl mn n j k l n F X W 



__ W



_ W 



_ W 



_ W X ______       













(M) _' (M) _; i Xi Yi F X Wi













( )l ( 1)l ( )l _' ( )l j i ij j i W X



_









( )l ( )l ( 1)l ij i j W



o   

(15)

Sigmoidy

Logistyczna funkcja aktywacji:

Próg , nachylenie T

Pochodna ma max dla o=0.5:

Błąd wyjściowego elementu:

Często stosowane: rectified linear unit (ReLU)

 







1 exp 1 /



_

1

_

1 exp / i i i i i i ij j i i j o X X T W o T          _  _        _ _  _ _ 





 





' i 1 i i i i o X o o X      













( ) ( ) ( 1) ( )

1 ;

1

M i i i i i l l l j j j i ij i

o

o Y

F X W

o

W















(16)

XOR – dynamika uczenia

(17)

Funkcja błędu w 2D z PCA

Patrząc w kierunku największej wariancji wag możemy zrobić projekcję funkcji błędu – dla XOR jest ona dość skomplikowana.

(18)

Własności MLP

MLP jest uniwersalnym aproksymatorem: • 1 warstwa – f. ciągłe

• 2 warstwy – f. nieciągłe (dowód via tw. Stone’a- Weierstrassa) Szybkość zbieżności z sigmoidami: O(1/n);

z wielomianami O(1/n1/d)

W niektórych problemach inne funkcje dają szybsza zbieżność. Parametry sieci:

architektura, liczba warstw, liczba neuronów. Końcowa warstwa: perceptron.

Neurony ukryte: transformacja nieliniowa do przestrzeni

odwzorowań, tworząca nowe cechy za pomocą nieliniowych kombinacji.

(19)

Przykłady zbieżności dla XOR

Architektura 2-2-2, rozmyte klastry XOR.

W p-ni wyjściowej w warstwie ukrytej

2 2

1

 

2

 

[ 7.0, 7.7, 7.7] 7[ 1, 1, 1]





   

(20)

Przykłady

Presentation:

Visualization of the hidden node activity, or hidden secrets of neural networks.

ConvNetJS is a Javascript library for training Deep Learning models (Neural Networks) entirely in your browser.

http://cs.stanford.edu/people/karpathy/convnetjs/

Simple 2D classification example:

https://cs.stanford.edu/people/karpathy/convnetjs/demo/classify2d. html

(21)

Uczenie MLP

Parametry uczenia:

• szybkość uczenia

• bezwładność

Pozwala usunąć szybkie oscylacje, zmienia efektywną stałą uczenia:

dla małych zmian wag.

• sposób prezentacji danych

Losowa prezentacja – element stochastyczny, uczenie on-line. Ustalona kolejność.

Poprawki po całej epoce – po kilku prezentacjach też warto.



1 

( )

ij i j ij ij ij

E

W t

o

W t

W













 

 

 

 



1

ij ij

E

W









 

 

(22)

Problemy i ulepszenia

• Niewłaściwie dobrana architektura sieci.

• Minima lokalne i plateau, wąskie „rynny”.

• Wpływ nowych wzorców na już nauczone – zapominanie.

• Szybkość uczenia – zagadnienie jest NP-trudne.

• Schematy adaptacji dla stałej uczenia:

zwiększać  o a=const dla malejącego błędu, zmniejszać o b dla rosnącego błędu.

Duże kroki na powierzchni gładkiej, drobne kroki na skomplikowanej.

(23)

Ulepszenia MLP

• Szybsze procedury minimalizacji błędu.

• Modyfikacje schematu wstecznej propagacji.

• Unikanie minimów lokalnych – różne możliwości. • Funkcje kosztu, niekoniecznie MSE.

• Inicjalizacja parametrów, lepszy start.

• Regularyzacja i zwiększenie zdolność do generalizacji sieci - wybór modelu o odpowiedniej złożoności.

• Sieci konstruktywistyczne/ontogeniczne, dostosowujące złożoność do danych.

(24)

Co dalej?

• Perceptrony wielowarstwowe: ulepszenia, algorytmy konstruktywistyczne. • Sieci Hopfielda

• Sieci Hebbowskie i modele mózgu

• Samoorganizacja

(25)

Koniec wykładu