Inteligencja Obliczeniowa Inteligencja Obliczeniowa

(1)

Inteligencja Obliczeniowa Inteligencja Obliczeniowa

Perceptrony Perceptrony

Wykład 10

Włodzisław Duch

Katedra Informatyki Stosowanej UMK

Google: W. Duch

(2)

Co było Co było

• Learnmatrix.

• Adeline.

• Madeline.

• Aproksymacja elementami liniowymi

• Demo w Matlabie

(3)

Co będzie Co będzie

• Perceptron jednowarstwowy.

• Uczenie się perceptronów

• Nieliniowa reguła delta

• Adatron

Nature 26.04.2016: AI Talent Grab

(4)

Perceptron Perceptron

• Rosenblatt (Cornell Univ.) 1960, klasyfikator neuronowy Mark I wzorowany na biologicznej percepcji.

• Trzy warstwy, elementy:

• wejściowe (S-units), np. fotokomórki 20 x 20

• asocjacyjne (A-units), zbierające dane z większych obszarów, 512

• wyjściowe (R-units), 8

• Identyfikacja figur, znaków, eksperymenty psychologiczne, szybkość uczenia, błędy.

• Jakich klasyfikacji dokonać może perceptron?

• Jak można go uczyć?

(5)

Perceptron - schemat Perceptron - schemat

• Perceptron jednowarstwowy.

A1 A 2

A3 A 4 A5 A6

A7 A8

S -elem en ty A -elem enty R -elem en ty

(6)

Działanie

Działanie perceptronów perceptronów

Sygnał błędu obliczany jest po przepuszczeniu przez element progowy.

S

_j

= –1, +1 sygnały docierające do elementów sensorycznych;

Połączenia C

_ij

= 0, ±1 elementów S

_j

i A

_i

(przypadkowo rozrzucone w pewnym obszarze, nie ulegają zmianom).

Pary treningowe (S

^m

,Y

^m

), Y

^m

= ±1; sygnał wyjściowy R

^m

= +1 dla  > 0 próg wyjściowy

i ij j i

j

A  g ^  C S    ^

  

1 dla

0 w pozostałych przypadkach

ij j j

R I W A N

R

  





    

 

    

 

 





g( ) – funkcja bipolarna

daje A

_i

=  powyżej progu, A

_i

= –1 poniżej.

(7)

Czego można je nauczyć?

Przy aktywacji A

_k^m

dla sygnału wejściowego S

^m

prawidłowa odpowiedź:

Kiedy istnieje rozwiązanie?

Wystarczy, by dla każdego obszaru asocjacji A(S

_i

) istniał element A

_i^

należący tylko do tego obszaru.

Kładąc wszystkie W

_k

= 0 oprócz mamy rozwiązanie;

ale tylko dla problemów liniowo separowalnych.

Zwykle przez „perceptron” rozumie się teraz jeden neuron z wieloma wejściami (bez jednostek S, bo tu nie ma adaptacji).

k k

k

Y I ^{ }  Y ^  W A ^  N 

 ¹ 

W i   N  Y ^

(8)

Uczenie perceptronów Uczenie perceptronów

Jeśli rozwiązanie istnieje to korekcja błędów (reguła uczenia) je znajdzie:

( ) ( 1) ;

2 dla 1

k k k

k k

W t W t W

W  Y A ^ ^ Y ^ R ^

   

    

 ¹   

k k k

W  Y R Y A ^ ^ ^ ^  Y ^ R A ^ ^

    

 

k k

W  N  Y I Y A ^{ } ^ ^

    gdzie (x)= ^{0 dla} ⁰

1 dla 0 x x

 

   

k k k

Y I ^{ }  Y ^  W A ^  N 

Chcemy by:

Reguła delta

(9)

Uczenie perceptronów

Uczenie perceptronów cd cd

Ocena trudności uczenia: zdefiniujmy

Jeśli D(W) > 0 to można nauczyć bez błędu.

Najlepsza separacja, perceptron optymalny, gdy

bo może być największe.

Liczba kroków uczenia nie przekracza:

1 1

( ) min min

_k _k

k

D

_

Y I

^{ }

Y

^

W A

^

N



    

W W W W

max max ( )

D  D

W W

 ^{1 2 /}  ^/ ² _max

M  N    D

(10)

Perceptron dla

Perceptron dla M M klas klas

Reguła uczenia perceptronu:

• skończona liczba kroków

• sensowna generalizacja

Granice decyzji perceptronu: dla klasy C

i

wyjście g

i

(X) Decyzja: max

_i

g

_i

(X), więc na granicy g

_i

(X)=g

_j

(X)

Dla M klas jest M(M – 1)/2 granic; część jest redundantna.

Obszary decyzyjne – zawsze wypukłe.

Klasa C

i

, wymagane g

i

(X)= 1, g

j

(X)= 0 Niektóre obszary – niesklasyfikowane bo wszystkie g

_i

(X)= 0 lub kilka g

_i

(X)=1

Przykład: granice decyzji perceptronu dla 3 klas.

(11)

Elementy progowe Elementy progowe

Hiperpowierzchnia decyzyjna dla różnych neuronów:

net – aktywacja; f(net) – funkcja wyjścia zależna od aktywacji.

Typowe nieliniowości: bipolarne [-1,+1] i unipolarne [0,1]

funkcje sigmoidalne.

 

i i

   

i

f I  f   W X    f   f net

   ^{W X}

(12)

Inteligencja Obliczeniowa Inteligencja Obliczeniowa

Inteligencja Obliczeniowa Inteligencja Obliczeniowa

Perceptrony Perceptrony

Wykład 10

Włodzisław Duch

Katedra Informatyki Stosowanej UMK

Google: W. Duch

Co było Co było

• Learnmatrix.

• Adeline.

• Madeline.

• Aproksymacja elementami liniowymi

• Demo w Matlabie

Co będzie Co będzie

• Perceptron jednowarstwowy.

• Uczenie się perceptronów

• Nieliniowa reguła delta

• Adatron

Nature 26.04.2016: AI Talent Grab

Perceptron Perceptron

• Rosenblatt (Cornell Univ.) 1960, klasyfikator neuronowy Mark I wzorowany na biologicznej percepcji.

• Trzy warstwy, elementy:

• wejściowe (S-units), np. fotokomórki 20 x 20

• asocjacyjne (A-units), zbierające dane z większych obszarów, 512

• wyjściowe (R-units), 8

• Identyfikacja figur, znaków, eksperymenty psychologiczne, szybkość uczenia, błędy.

• Jakich klasyfikacji dokonać może perceptron?

• Jak można go uczyć?

Perceptron - schemat Perceptron - schemat

• Perceptron jednowarstwowy.

S -elem en ty A -elem enty R -elem en ty

Działanie

Działanie perceptronów perceptronów

Sygnał błędu obliczany jest po przepuszczeniu przez element progowy.

S

= –1, +1 sygnały docierające do elementów sensorycznych;

Połączenia C

= 0, ±1 elementów S

i A

(przypadkowo rozrzucone w pewnym obszarze, nie ulegają zmianom).

Pary treningowe (S

,Y

), Y

= ±1; sygnał wyjściowy R

= +1 dla  > 0 próg wyjściowy

A  g   C S    

  

1 dla

1 dla

0 w pozostałych przypadkach

R I W A N

R I W A N

R





    

 

    

 

 







g( ) – funkcja bipolarna

daje A

=  powyżej progu, A

= –1 poniżej.

Czego można je nauczyć?

Czego można je nauczyć?

Przy aktywacji A

dla sygnału wejściowego S

prawidłowa odpowiedź:

Kiedy istnieje rozwiązanie?

Wystarczy, by dla każdego obszaru asocjacji A(S

) istniał element A

należący tylko do tego obszaru.

Kładąc wszystkie W

= 0 oprócz mamy rozwiązanie;

ale tylko dla problemów liniowo separowalnych.

Zwykle przez „perceptron” rozumie się teraz jeden neuron z wieloma wejściami (bez jednostek S, bo tu nie ma adaptacji).

A  g ^  C S    ^

Y I ^{ }  Y ^  W A ^  N 

 ¹ 

W i   N  Y ^

W  Y A ^ ^ Y ^ R ^

 ¹   

W  Y R Y A ^ ^ ^ ^  Y ^ R A ^ ^

W  N  Y I Y A ^{ } ^ ^

    gdzie (x)= ^{0 dla} ⁰

Y I ^{ }  Y ^  W A ^  N 

 ^{1 2 /}  ^/ ² _max