Wstęp do sieci neuronowych, wykład 01 Neuron biologiczny. Model perceptronu prostego.

(1)

Wstęp do sieci neuronowych, wykład 01 Neuron biologiczny. Model perceptronu prostego.

M. Czoków, J. Piersa

Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika

2013-10-08

Projekt pn. „Wzmocnienie potencjału dydaktycznego UMK w Toruniu w dziedzinach matematyczno-przyrodniczych”

realizowany w ramach Poddziałania 4.1.1 Programu Operacyjnego Kapitał Ludzki

(2)

In memoriam

prof. dr hab. Tomasz Schreiber (1975-2010)

M. Czoków, J. Piersa WSN 2013/2014 Wykład 01

(3)

Podziękowania

Podziękowania dla Mai Czoków, która jest współautorką materiałów do poniższego wykładu.

(4)

1 Organizacja przedmiotu Organizacja przedmiotu

2 Neuron biologiczny Komórka neuronowa

3 Zagadnienia klasyfikacyjne: perceptron prosty Model perceptronu prostego

Postacie funkcji aktywującej Interpretacja geometryczna Przykłady

4 Uczenie perceptronu Zagadnienie uczenia Algorytmy uczenia Dowód algorytmu Interpretacja

(5)

Zaliczenie

Zaliczenie wykładu:

egzamin pisemny — pytania opisowe egzamin ustny — pytania otwarte

wymagane jest laboratoriów przed podejściem do egzaminu

(6)

Zaliczenie

Zaliczenie laboratoriów:

implementacja programów (ok. 3 – 6 programów) ocena BDB+ z laboratorium zwalnia z egzaminu

(7)

Program przedmiotu

1 Biologiczny model neuronu

2 Model perceptronu prostego

3 Inne modele pojedynczego neuronu: maszyna liniowa, Adaline

4 Sieci skierowane. Algorytm Wstecznej propagacji błędu

5 Uczenie bez nauczyciela, samoorganizacja topologiczna

6 Analiza składowych głównych PCA

7 Sieci rekurencyjne, Sieć Hopfielda, Maszyny Boltzmanna i symulowane wyżarzanie

8 (?) Wielowartościowe sieci neuronowe, sieci zespolone

9 (?) Algorytmy genetyczne

10 (?) Maszyny Wektorów Wspierających (SVM — Support Vektor Machines)

(8)

Literatura

R. Rojas Neural Networks, A Systematic Introduction, Springer 1996,

P. Peretto, Introduction to Modeling Neural Networks, Cambridge University Press 1994,

(9)

Literatura uzupełniająca

T. Schreiber, Notatki do wykładu WSN,

E. Izhikevich, Dynamical Systems in Neuroscience, 2007 Massachusetts Institute of Technology

C. Bishop, Neural Networks for Pattern Recognition, Oxford University Press 1995.

(10)

(11)

Mózg

Płat czołowy (Frontal lobe)

Płat ciemieniowy (Parietal lobe)

Płat skroniowy (Temporal lobe)

Płat potyliczny (Occipal lobe)

Móżdżek (Cerebellum) Rdzeń kręgowy

(Spinal cord)

Rysunek za http://en.wikipedia.org/wiki/Cerebral_cortex, autor Henry Gray, public domain.

(12)

Komórka neuronowa

Komórka Schwanna Przewężenie Ranviera

Akson Dendryty

Zakończenia aksonów Jądro neuronu Ciało komórki

Otoczka mielinowa

Rysunek za http://pl.wikipedia.org/w/index.php?title=Plik:Neuron-figure_PL.svg, Nicolas Rougier, 2007.

(13)

Możliwości obliczeniowe

komputer grid¹ mózg

CPU 1—16 CPU 10⁶ 10¹¹ neuronów

Pojemność 10⁹B RAM, 10¹⁵B RAM 10¹¹ neuronów, 10¹²B HDD 10¹⁸B ?? 10¹⁴ synaps Czas 1 cyklu 10⁻⁹s 10⁻⁹s 10⁻³s

FLOPS 10⁹ 3.4 · 10¹⁶ ∼ 10¹⁸ ??

moc 1000W 10⁷W < 100W

1http://www.top500.org/, 2013-06

(14)

(15)

Model perceptronu

(16)

Model perceptronu

out

(17)

Model perceptronu

Perceptron — układ składający się z

n wejść x1, .., xn (argumenty do funkcji)

n wag stowarzyszonych z wejściami w1, .., wn∈ R funkcji aktywacji f : R → R.

(18)

Dynamika perceptronu

Na wejściu x = (x₁, .., x_n) perceptron zwróci wartość:

O(x₁, ..., x_n) = f (

n

X

i =1

w_ix_i) = f (w^t· x)

(19)

Postacie funkcji aktywującej

Funkcja progowa

f (x ) =

−1 x < θ +1 x ≥ θ

-1.5 -1 -0.5 0 0.5 1 1.5

-3 -2 -1 0 1 2 3

(20)

Dynamika perceptronu progowego

Na wejściu x = (x₁, .., x_n) perceptron progowy zwróci wartość:

O(x1, ..., xn) =

−1 Pn

i =1wixi < θ

+1 Pn

i =1wixi ≥ θ

(21)

Postacie funkcji aktywującej

Funkcja znakowa

f (x ) =

−1 x < 0 +1 x ≥ 0

-1.5 -1 -0.5 0 0.5 1 1.5

-3 -2 -1 0 1 2 3

(22)

Postacie funkcji aktywującej

Funkcja bipolarna (binarna)

f (x ) =

0 x < 0 +1 x ≥ 0

-1.5 -1 -0.5 0 0.5 1 1.5

-3 -2 -1 0 1 2 3

(23)

Postacie funkcji aktywującej

Sigmoida

f (x ) = σ(x ) = 1 1 + exp(−βx )

-0.5 0 0.5 1 1.5

-3 -2 -1 0 1 2 3

=1

=2

=5

=10

(24)

Postacie funkcji aktywującej

tangens hiperboliczny (symetryczna sigmoida) f (x ) = tanh(1

2βx ) = 1 − exp(−βx ) 1 + exp(−βx )

-1.5 -1 -0.5 0 0.5 1 1.5

-4 -2 0 2 4

y

x

beta = 1 beta = 3 beta = 10

(25)

Postacie funkcji aktywującej

Funkcja identycznościowa

f (x ) = x

-3 -2 -1 0 1 2 3

(26)

Postacie funkcji aktywującej

Funkcja afiniczna

f (x ) = ax + b

-3 -2 -1 0 1 2 3

(27)

Perceptron z biasem (obciążeniem)

n wejść x₁, ..., x_n, n + 1 wag w₀, w₁, ..., x_n,

przyjmuje się dodatkowe zawsze włączone wejście x₀ = +1 zwracana wartość

O(x₁, ..., x_n) =

−1 [1, x_i]w^t=P_n

i =0w_ix_i < 0 +1 [1, x_i]w^t=Pn

i =0w_ix_i ≥ 0, perceptron z biasem jest równoważny jednostce z progową funkcją aktywującą

(28)

Perceptron z biasem

out

(29)

Przykład

Filtry graficzne (liniowe):

wejście — piksel,

waga — wartość na masce filtru.

.60 .60

.60 .60 1.0 .37

.37 .37

.37

(30)

Dynamika perceptronu

plik YouTube

(31)

Przykład

Rozpoznawanie znaku:

Każdy piksel jest jednym wejściem,

Perceptron rozpoznaje czy piksele układają się w symbol.

click

(32)

Interpretacja geometryczna

Rozważamy jednostkę z funkcją progową tj.

O(x1, ..., xn) =

−1 Pn

i =1wixi < θ

+1 Pn

i =1wixi ≥ θ

Jak wygląda brzeg rozdzielający obszary o różnych aktywacjach?

(33)

Interpretacja geometryczna

Prosty przypadek 1d — jedno wejście x1, jedna waga w1 i próg θ

O(x1) =

−1 w1x1 < θ ⇐⇒ x1< θ/w1

+1 w1x1 ≥ θ ⇐⇒ x1≥ θ/w₁

„Brzeg rozdzielający” jest punktem, który dzieli prostą rzeczywistą na dwie półproste.

(34)

Interpretacja geometryczna

W przypadku 1d brzeg rozdzielający jest punktem dzielącym prostą.

-3 -2 -1 0 1 2 3

(35)

Organizacja przedmiotu Neuron biologiczny Zagadnienia klasyfikacyjne: perceptron prosty Uczenie perceptronu

Model perceptronu prostego Postacie funkcji aktywującej Interpretacja geometryczna Przykłady

Interpretacja geometryczna

Prosty przypadek 2d — dwa wejścia x₁, x₂, dwie wagi w₁, w₂ i próg θ

O(x1) =







−1 w₁x₁+ w₂x₂ < θ ⇐⇒ x₂< ^−w_w¹

2 x₁+ _w^θ

2

+1 w1x1+ w2x2 ≥ θ ⇐⇒ x2≥ ^−w_w¹

2 x1+ _w^θ

2

Wygląda znajomo?

A teraz?

(36)

Interpretacja geometryczna

Prosty przypadek 2d — dwa wejścia x₁, x₂, dwie wagi w₁, w₂ i próg θ

O(x1) =







−1 w₁x₁+ w₂x₂ < θ ⇐⇒ x₂< ^−w_w¹

2 x₁+ _w^θ

2

+1 w1x1+ w2x2 ≥ θ ⇐⇒ x2≥ ^−w_w¹

2 x1+ _w^θ

2

Wygląda znajomo?

ax + by = c ⇐⇒ y = −a bx + c

b A teraz?

(37)

Interpretacja geometryczna

W przypadku 2d brzeg rozdzielający jest prostą dzielącą płaszczyznę.

-6 -4 -2 0 2 4 6

(38)

Interpretacja geometryczna

W przypadku 3d — trzy wejścia x₁, x₂, x₃, trzy wagi w₁, w₂, w₃ i próg θ

O(x1) =

−1 w₁x₁+ w₂x₂+ w₃x₃ < θ +1 w1x1+ w2x2+ w3x3 ≥ θ Równanie ogólne płaszczyzny

ax + by + cz + d = 0

Równanie kierunkowe

z = −a c x − b

cy −d c

(39)

Interpretacja geometryczna

W przypadku 3d jest to płaszczyzna rozdzielająca przestrzeń.

-10 -5 0 5 10

-6 -4 -2 0 2 4 6 -10

-5 0 5 10 15

(40)

Problem XOR

Prosty przykład dla którego pojedynczy perceptron nie będzie wstanie zwrócić stuprocentowej klasyfikacji

-1.5 -1 -0.5 0 0.5 1 1.5

(41)

(42)

Problem uczenia perceptronu

Daną mamy reprezentatywną próbkę danych z odpowiadającymi im klasami (binarnymi: tak lub nie)

Chcemy znaleźć nieskomplikowaną regułę klasyfikacyjną, według której dane zostały poprzydzielane do klas

Dodatkowo chcemy aby reguła „sensownie” działała na danych podobnych do próbki uczącej, ale których w trakcie uczenia nie widziała

(43)

Problem uczenia perceptronu

Bardziej formalnie:

Dane:

perceptron progowy o n wejściach, n nieznanych wagach w₁, .., w_n i progu θ,

zbiór k przykładów uczących Eⁱ = (E₁^{(i )}, ..., .E_N^{(i )}), i = 1..k, poprawne odpowiedzi (+1, −1) odpowiadające przykładom uczącym T⁽¹⁾, ..., T^(k),

Cel:

znaleźć zestaw wag w1, .., wn i próg θ takie aby perceptron klasyfikował poprawnie wszystkie (możliwie najwięcej) przykłady uczące

(44)

Simple Perceptron Learning Algorithm (SPLA)

Podstawowy algorytm uczenia:

1 Losujemy wagi w_i małe, blisko 0.

2 Wybieramy kolejny (lub losowy — zalecane) przykład E^j i odpowiadającą mu poprawną odpowiedź T^j,

3 Obliczamy O — wynik działania sieci na E^j

4 Obliczamy ERR = T^j − O

5 Jeżeli ERR = 0 (klasyfikacja jest poprawna), to wróć do 2,

6 W przeciwnym wypadku uaktualniamy wszystkie wagi zgodnie ze wzorem

w_i = w_i+ η · ERR · E_i^j θ = θ − ERR η > 0 jest stałą uczenia.

7 Jeżeli sieć klasyfikuje poprawnie wszystkie przykłady, to kończymy, wpw wracamy do 2.

(45)

Simple Perceptron Learning Algorithm (SPLA)

Uwagi do algorytmu:

dla nieseparowalnych danych zapętla się,

wymuszenie zakończenia nie daje żadnej gwarancji jakości zwracanych wag.

(46)

Pocket Learning Algorithm (PLA)

Algorytm uczenia z kieszonką Idea:

Z każdym poprawnie klasyfikowanym przykładem zwiększamy wagom czas życia,

Najlepszy (tj. najbardziej żywotny) zestaw wag przechowywany jest w kieszonce, aby nie został nadpisany przez przypadkowe zmiany,

Po zakończeniu algorytmu zwracany jest rekordowy zestaw, Przy odpowiednio długim działaniu prawdopodobieństwo, że nieoptymalny zestaw przeżyje najdłużej zanika do zera.

(47)

Pocket Learning Algorithm (PLA)

1 Losujemy wagi i próg wokół 0, przypisujemy układowi wag zerowy czas życia i zapisujemy go w kieszonce jako rekordzistę,

2 Przebiegamy przykłady losując z listy,

3 Dla wybranego przykładu E^j sprawdzamy, czy E^j jest dobrze klasyfikowany (ERR = T^j − O = 0),

Jeśli tak, zwiększamy mu czas życia o jeden. Jeżeli jest to wynik lepszy niż u rekordzisty, zapominamy starego rekordzistę i zapisujemy w kieszonce nowy układ wag. Wracamy do 2.

Jeśli nie, to korygujemy wagi i próg:

w_i = w_i+ η · ERR · E_i^j

θ = θ − ERR

Nowemu układowi wag przypisujemy zerowy czas życia. Wracamy do 2.

4 Algorytm kończymy po przebiegnięciu odpowiedniej liczby iteracji. Zwracamy najbardziej żywotny zestaw wag.

(48)

Pocket Learning Algorithm with Ratchet

Algorytm uczenia z zapadką Idea:

Podobnie jak w algorytmie kieszonkowym zapamiętujemy rekordowe wagi,

Przed zapomnieniem poprzedniego zestawu wag sprawdzamy czy nowy zestaw klasyfikuje poprawnie więcej przykładów

Po zakończeniu algorytmu zwracany jest rekordowy zestaw, Każdorazowe sprawdzanie wymaga więcej obliczeń, ale zmniejsza prawdopodobieństwo zwrócenia nieoptymalnego wyniku,

(49)

Pocket Learning Algorithm with Ratchet

1 Losujemy wagi i próg wokół 0, przypisujemy układowi wag zerowy czas życia i zapisujemy go jako rekordzistę,

2 Przebiegamy przykłady losując z listy, oznaczmy go E^j,

3 Sprawdzamy czy E^j jest dobrze klasyfikowany (ERR = T^j− O), Jeśli tak, zwiększamy mu czas życia o jeden. Jeżeli jest to wynik lepszy niż u rekordzisty i klasyfikuje on więcej przykładów niż rekordzista, to zapominamy starego rekordzistę i zapisujemy nowy układ wag. Wracamy do 2.

Jeśli nie, to korygujemy wagi i próg:

w_i := w_i+ η · ERR · E_i^j

θ := θ − ERR

Nowemu układowi wag przypisujemy zerowy czas życia. Wracamy do 2.

4 Algorytm kończymy po przebiegnięciu odpowiedniej liczby iteracji. Zwracamy najbardziej żywotny zestaw wag.

(50)

Twierdzenie

Rozważmy separowalny zbiór (Eⁱ, Tⁱ),

niech istnieje zestaw wag w^∗ i próg θ^∗, takie że hw^∗, Eⁱi − θ^∗> δ (pewna stała),

niech wszystkie przykłady wspólnie będą ograniczone |Eⁱ| ≤ K , wówczas SPLA znajdzie poprawny wynik,

przy czym wykona co najwyżej K²(|w^∗|²+ θ^∗2)/δ² kroków.

(51)

Dowód algorytmu

Z powodu własnego lenistwa dowodu na slajdach nie zamieszczę, Jeśli bym zamieścił, to na wykładzie przekliałbym się przez tenże dowód,

A tak, nie mam wyjścia jak przeprowadzić go na tablicy.

(52)

Organizacja przedmiotu Neuron biologiczny Zagadnienia klasyfikacyjne: perceptron prosty Uczenie perceptronu

Zagadnienie uczenia Algorytmy uczenia Dowód algorytmu Interpretacja

Dowód algorytmu

Dla tych, którzy wolą uczyć się ze slajdów...

Dodatkowo zamieniając znaki przypisujemy Tⁱ = +1, Teraz perceptron zwraca znak hw , E i,

w^∗ — wagi optymalne, w^t — wagi w kroku t,

(53)

Dowód algorytmu

Dla tych, którzy wolą uczyć się ze slajdów...

za próg θ podstawiamy −w₀ stowarzyszone z dodatkowym wejściem x0= +1,

Dodatkowo zamieniając znaki przypisujemy Tⁱ = +1, Teraz perceptron zwraca znak hw , E i,

w^∗ — wagi optymalne, w^t — wagi w kroku t,

(54)

Dowód algorytmu

Obliczmy hw^∗, w^t+1i (im większy tym „bliższe” wagi):

hw^∗, w^t+1i = hw^∗, w^t+ Eⁱi ≥ hw^∗, w^ti + δ Jeżeli w⁰ były zerowe, to po t krokach będzie:

hw^∗, w^ti ≥ tδ (∗)

(55)

Dowód algorytmu

Z drugiej strony policzmy:

|w^t+1|² = hw^t+1, w^t+1i = hw^t+ Eⁱ, w^t+ Eⁱi =

= |w^t|² + 2hw^t, E^ki + |E |²

zauważmy, że hw^t, E^ki < 0, inaczej E^k byłby poprawnie klasyfikowany, więc nie zmienialibyśmy wag

|w^t|² + 2hw^t, E^ki + |E |² ≤ |w^t|²+ K² Czyli po t krokach wagi wzrosną o co najwyżej:

|w^t|² ≤ tK² (∗∗)

(56)

Dowód algorytmu

Mamy (∗):

hw^∗, w^ti ≥ tδ (∗) i (∗∗):

|w^t|² ≤ tK² (∗∗) Łączymy (∗) i (∗∗):

tδ ≤ |w^∗| · |w^t| ≤ |w^∗|K√ t

Po przeniesieniu t na LHS:

t ≤ |w^∗|²K²/δ² Co kończy uzasadnienie.

(57)

Interpretacja wektora wag

Prosta oddzielająca jest prostopadła do wektora wag i przesunięta o _{|w |}^θ

-6 -4 -2 0 2 4 6

(58)

Interpretacja

Zdefiniujmy funkcję błędu:

ERR(w , θ) := |{E^j : O_{w ,θ}(E^j) 6= T^j}|

= liczba błędnie sklasyfikowanych przykładów W tej sytuacji uczenie jest zagadnieniem minimalizacji błędu na przestrzeni wag i progu

(59)

Interpretacja

Problem OR:

-1.5 -1 -0.5 0 0.5 1 1.5

-2 -4 2 0

4

w1 -4

-2 0

2 4 w2

0 0.5 1 1.5 2 2.5 3 3.5 4

ERR

theta = -0.78

(60)

Interpretacja

Problem OR:

click

(61)

Interpretacja

Problem AND:

-1.5 -1 -0.5 0 0.5 1 1.5

-4 -2

0 2

4

w1 -4

-2 0

2 4

w2 0

0.5 1 1.5 2 2.5 3 3.5 4

ERR

theta = 3.62

(62)

Interpretacja

Problem AND:

click

(63)

Interpretacja

Problem XOR:

-1.5 -1 -0.5 0 0.5 1 1.5

-4 -2

0 2

4

w1 -4

-2 0

2 4

w2 0

0.5 1 1.5 2 2.5 3 3.5 4

ERR

theta = 3.62

(64)

Interpretacja

Problem XOR:

click

(65)

Po zajęciach powinienem umieć / wiedzieć:

podać definicję oraz dynamikę perceptronu

zaimplementować perceptron, dla mniejszych danych również przeprowadzić obliczenia na kartce

sformułować problem uczenia perceptronu, zaimplementować algorytmy PLA lub RLA

zastosować perceptron w praktycznych problemach obliczeniowych

znać ograniczenia perceptronu, sformułować przykładowy problem przekraczający jego możliwości

(66)

Pytania kontrolne

Co to jest perceptron, jakie są jego wewnętrzne i zewnętrzne parametry?

Jaką odpowiedź da perceptron znakowy o wagach (w₀ = −1.5, w₁ = +1, w₂= −1) na wejściu (x1= −1, x2 = +1)?

Dane są dwa przykłady uczące

(−1, −1) → −1, (+1, +1) → +1. Startowe wagi perceptronu wynoszą (w₀ = −θ = +4, w₁ = −3, w₂= −1). Przeprowadź kilka kroków algorytmu uczącego (może być SPLA).

Podaj zestaw trzech danych na R², który nie jest liniowo separowalny.