Sieci neuronowe

(1)

Sieci neuronowe

Marcin Orchel

1 Wstęp

1.1 Model neuronu

n - liczba wejść w neuronie wektor wejściowy x = [x₁, . . . , x_n]^T, wagi neuronu w = [w₀, . . . , wn]^T. Zauważmy, że rozmiar wektora wagowego jest identyczny jak rozmiar wektora wejściowego, y - wartość wyjściowa neuronu, w₀ - wartość progowa neuronu, f - funkcja aktywacji. Mamy

y = f (s) (1)

gdzie

s =

n

X

i=0

xiwi (2)

Zakładamy, że wartość sygnału x₀ jest równa 1. Jest to przydatne do tego aby otrzymać wyraz wolny b. Waga w₀, czyli wyraz wolny nazywamy progiem.

1.1.1 Perceptron

W perceptronie funkcja f ma szczególną postać

f (s) = 1 (3)

gdy s > 0 oraz

f (s) = −1 (4)

gdy s ≤ 0. Powyższy opis to nic innego jak ogólny opis klasyfikatora liniowego.

Częścią modelu perceptronu jest jego uczenie, czyli znalezienie wag w. Wybieramy losowo wagi początkowe perceptronu. Podajemy na wejście wektor uczący x, oblicza- my wartość wyjściową y, porównujemy wartość wyjściową ze wzorcową. Dokonujemy modyfikacji wag, jeżeli y(x(t)) 6= d(x(t)) to

wi(t + 1) = w_i(t) + d (x (t)) x_i(t) (5) jeżeli y(x(t)) = d(x(t)) to

wi(t + 1) = w_i(t) (6)

(2)

Alg. 1 Perceptron k = 0

powtórz

for i = 1 to l

jeśli y_i( ~w_k· ~xi+ b_k) ≤ 0

~

w_k+1= ~w_k+ ηy_i~x_i bk+1 = b_k+ ηy_iR²

dopóki nie będzie żadnych błędów w pętli zwróć (w_k, b_k)

Alg. 2 Perceptron w postaci dualnej k = 0

powtórz

for i = 1 to l jeśli y_i ^P^l

j=1

α_jy_j~x_j· ~x_i+ b_k

!

≤ 0 α_i= α_i+ 1

bk+1 = b_k+ y_iR²

dopóki nie będzie żadnych błędów w pętli zwróć (~α, b_k)

Wracamy do podawania na wejściu wektora uczącego. Przechodzimy w ten sposób przez cały zbiór uczący (epoka). Obliczamy błąd dla całego zbioru uczącego, jeśli jest mniej- szy od założonej tolerancji wychodzimy. Można pokazać, że dla danych separowalnych liniowo ten algorytm jest zbieżny.

Mamy parametr η ∈ R⁺, które jest nazywany współczynnikiem uczenia, a także R = max_1≤i≤lkx_ik, k to liczba błędów. Algorytm pokazany jest w Alg. 1.

W postaci dualnej wektor wagowy może być zapisany jako:

~ w =

l

X

i=1

α_iy_i~x_i

Algorytm pokazany jest w Alg. 2. Wartość α dla konkretnego punktu treningowego oznacza jak często ten punkt był błędnie klasyfikowany.

1.1.2 Model Adaline

Porównujemy sygnał wzorcowy d z sygnałem s na wyjściu części liniowej neuronu. A więc neuron zwraca jako odpowiedź s, dlatego możemy go użyć do metod regresji. Można go również użyć do metod klasyfikacji, ale podczas testowania należy użyć funkcji f takiej jak w perceptronie. Możemy wyobrazić sobie ten przypadek, tak że mamy funkcje wielowymiarową której wartościami mogą być -1 lub 1, i naszym celem jest regresja tej funkcji funkcją liniową. Błąd dany jest wzorem d − s, zadanie minimalizacji sprowadza

(3)

się do minimalizacji kwadratu błędu Q (w) = 1

2ε² = 1 2 d −

n

X

i=0

wixi

!2

(7) Jest to funkcja różniczkowalna i możemy użyć metody największego spadku. Wagi mo- dyfkuje się następująco

w_i(t + 1) = w_i(t) − η∂Q (wi)

∂w_i (8)

gdzie η to współczynnik uczenia. Mamy

∂Q (wi)

∂wi

= ∂Q (wi)

∂s

∂wi

(9) Mamy także

∂s

∂wi

= x_i (10)

oraz

∂Q (wi)

∂s = − (d − s) (11)

Otrzymujemy

w_i(t + 1) = w_i(t) + ηδx_i (12)

gdzie δ = d − s. Powyższa reguła nazywana jest regułą delta.

1.1.3 Model neuronu sigmoidalnego

Możemy zauważyć, że w przypadku klasyfikacji dla modelu Adaline lepszym dopaso- waniem do funkcji klasyfikacji niż funkcja liniowa będzie funkcja która jest ograniczona w przedziale -1, 1, np. tgh(x)http://www.wolframalpha.com/input/?i=tanh%28x%29.

Funkcja aktywacji jest unipolarna lub bipolarna odpowiednio f (x) = 1

1 + e^−βx (13)

oraz

f (x) = tgh (βx) = 1 − e^βx

1 + e^−βx (14)

Funkcja aktywacji jest różniczkowalna pochodne wynoszą odpowiednio

f⁰(x) = βf (x) (1 − f (x)) (15)

f⁰(x) = β1 − f²(x) (16)

Sygnał wyjściowy dany jest wzorem y (t) = f

n

X

i=0

wi(t) x_i(t)

!

(17)

(4)

Miara błędu jest zdefiniowana

Q (w) = 1

2 d − f

n

X

i=0

w_ix_i

!!2

(18) Wyprowadzenie

w_i(t + 1) = w_i(t) − η∂Q (w_i)

∂w_i (19)

∂Q (w_i)

∂wi

= ∂Q (w_i)

∂s

∂wi

(20)

∂s

∂wi

= x_i (21)

∂Q (wi)

∂s = − (d − f (s)) f⁰(s) (22)

Oznaczmy

δ = − (d − f (s)) f⁰(s) (23)

Otrzymujemy

wi(t + 1) = w_i(t) − ηδx_i= w_i(t) + η (d − f (s)) f⁰(s) x_i (24) Model neuronu Hebba. Modyfikacja wag

w_i(t + 1) = w_i(t) + ∆w_i (25)

gdzie ∆w_i = ηyx_i. Nie ma tutaj wartości wzorcowej, więc jest to uczenie bez nauczyciela.

Wersja z nauczycielem ∆w_i= ηx_id

2 Sieci jednokierunkowe wielowarstwowe

Mamy co najmniej dwie warstwy: wejściową i wyjściową. Między nimi znajdują się warstwy ukryte. Sygnały przekazywane są między neuronami z różnych warstw, nie mogą być przekazywane między neuronami z tej samej warstwy. Sygnały przekazywane są w kierunku warstwy wyjściowej (sieć jednokierunkowa).

2.1 Wsteczna propagacja błędów

Gdy mamy warstwę ukrytą problem jest taki, że nie znamy prawidłowej wartości na wyjściu neuronów z warstwy ukrytej, więc nie wiemy jak wyliczyć modyfikacje wag.

Algorytm wstecznej propagacji błędów. Tworzymy wektor wszystkich wartości wagowych ze wszystkich neuronów, funkcja błędu to Q(w). Będziemy minimalizować funkcję Q.

Rozwijamy funkcję Q w szereg Taylora

Q (w + p) = Q (w) + [g (w)]^T p + 0, 5p^TH (w) p + . . . (26)

(5)

gdzie g (w) to wektor gradientu, czyli g (w) =

∂Q

∂w1

, . . . , ∂Q

∂wn

T

(27) H (w) to hesjan

H (w) =







∂²Q

∂w1∂w1 . . . _∂w^∂²^Q

1∂wn

... ...

∂²Q

∂wn∂w1 . . . _∂w^∂²^Q

n∂wn







(28)

Wagi modyfikujemy następująco:

w (t + 1) = w (t) + η (t) p (t) (29) Jak wyznaczyć wektor w tak aby błąd Q malał czyli Q(w(t+1)) < Q(w(t)). Ograniczymy się do dwóch pierwszych składników Q(w+p). Wartość Q(w+p) traktujemy jako wartość Q w kolejnym kroku, a więc Q(w + p) ma być mniejsze od Q(w). Czyli

g (w (t))^T p (t) < 0 (30)

Warunek ten jest spełniony przykładowo dla

p (t) = −g (w (t)) (31)

Po podstawieniu otrzymujemy

w (t + 1) = w (t) − ηg (w (t)) (32)

Jest to reguła największego spadku.

Mamy daną sieć neuronową wielowarstwową. Mamy L warstw. W każdej warstwie znajduje się N_k neuronów, gdzie k = 1, . . . , L. Sieć ma N₀ wejść, to znaczy wektor danymi ma wymiar N₀, i zapisywany jest jako

x = [x₁(t) , . . . , x_N₀(t)]^T (33) Sygnał wyjściowy i-tego neuronu w k-tej warstwie to y^(k)_i (t). Do tego neuronu i każdego z tej samej warstwy podawany jest wektor wejściowy

x^(k)(t) =^hx^(k)₀ (t) , . . . , x^(k)_N

k−1(t)ⁱ^T (34)

gdzie x^(k)₀ (t) = 1. Wektor wagowy i-tego neuronu w warstwie k oznaczamy jako w_i^(k)(t) =^hw_i,0^(k)(t) , . . . , w_i,N^(k)

k−1(t)ⁱ^T (35)

Możemy rozwinąć zapis sygnału wyjściowego i-tego neuronu w warstwie k jako y_i^(k)= fs^(k)_i (t) (36)

(6)

gdzie

s^(k)_i (t) =

Nk−1

X

j=0

w_i,j^(k)(t) x^(k)_j (t) (37) Cała sieć ma N_l sygnałów wyjściowych. Porównujemy je z sygnałami wzorcowymi d.

Błąd na wyjściu sieci Q definiujemy jako

Q (t) =

NL

X

i=1

ε^(L)_i ²(t) =

NL

X

i=1

d^(L)_i (t) − y_i^(L)(t)² (38)

Teraz wyliczamy zmianę wag

w_ij^(k)(t + 1) = w_ij^(k)− η ∂Q (t)

∂w_ij^(k)(t)

(39)

Możemy zapisać

∂Q (t)

∂w^(k)_ij (t)

= ∂Q (t)

∂s^(k)_i (t)

∂w_ij^(k)(t)

= ∂Q (t)

∂s^(k)_i (t)

x^(k)_j (t) (40)

Oznaczamy

δ_i^(k)(t) = −1 2

∂Q (t)

∂s^(k)_i (t)

(41) otrzymujemy zatem

∂Q (t)

∂w_ij^(k)(t)

= −2δ_i^(k)(t) x^(k)_j (t) (42) i zmiana wag wygląda następująco

w^(k)_ij (t + 1) = w^(k)_ij (t) + 2ηδ_i^(k)(t) x^(k)_j (t) (43) Sposób wyliczenia δ_i^(k). Dla warstwy ostatniej

δ_i^(L)(t) = −1 2

∂Q (t)

∂s^(L)_i (t)

= −1 2

∂^P^N_m=1^L Q^(L)

2

m (t)

∂s^(L)_i (t)

= −1 2

∂Q^(L)

2

i (t)

∂s^(L)_i (t)

= (44)

−1 2

∂d^(L)_i (t) − y_i^(L)(t)²

∂s^(L)_i (t)

= Q^(L)_i (t)∂y^(L)_i (t)

∂s^(L)_i (t)

= Q^(L)_i (t) f⁰s^(L)_i (t) (45) Dla dowolnej warstwy k 6= L otrzymujemy

δ_i^(L)(t) = −1 2

∂Q (t)

∂s^(k)_i (t)

= −1 2

Nk+1

X

m=1

∂Q (t)

∂s^(k+1)m (t)

∂s^(k)_i (t)

= (46)

(7)

Nk+1

X

m=1

δ^(k+1)_m (t) w^(k+1)_mi (t) f⁰s^(k)_i (t)= f⁰s^(k)_i (t)

Nk+1

X

m=1

δ^(k+1)_m (t) w_mi^(k+1)(t) (47) Definiujemy błąd w wersji k bez ostatniej jako

ε^(k)_i (t) =

Nk+1

X

m=1

δ_m^(k+1)(t) w_mi^(k+1)(t) (48)

dla k = 1, . . . , L − 1. Otrzymujemy

δ_i^(L)(t) = ε^(k)_i (t) f⁰s^(k)_i (t) (49) Zauważmy, że wartość δ w warstwie k zależy od tej wartości w warstwie k + 1 dlatego błąd najpierw obliczany jest w ostatniej warstwie i propagowany z powrotem.

Wyróżniamy przyrostowe uaktualnianie wag oraz kumulacyjne uaktualnianie wag. W tym drugim błędy są sumowane dla wszystkich punktów i dopiero do obliczeniu błędów dla wszystkich punktów zmieniane są wagi.

Algorytm wstecznej propagacji błędów z członem momentum. Modyfikujemy zmianę wag

w^(k)_ij (t + 1) = w_ij^(k)(t) + 2ηδ^(k)_i (t) x^(k)_j (t) + αw_ij^(k)(t) − w_ij^(k)(t − 1) (50) 2.2 Autoencoder

Składa się z enkodera i dekodera. Służy m.in. do kompresji danych. Liczba neuronów w warstwie ukrytej enkodera jest mniejsza niż wymiarowość wejścia. A liczba neuronów w dekoderze jest identyczna jak wymiarowość wektora wejściowego. Zadaniem jak takie wytrenowanie sieci aby uzyskać jak najbardziej zbliżony wektor x^∗na wyjściu do wektora wejściowego x. Wyjście z warstwy ukrytej jest skompresowanym wejściem. Dekompresja polega na podaniu skompresowanych danych na wejście tylko do warstwy wyjściowej.

Gdy warstwa ukryta ma r neuronów, to zdjęcie jest kompresowane do r liczb.

3 Zadania

3.1 Zadania na 3.0

Napisać skrypt w R. W skrypcie

• wykonać aproksymację funkcji sin(x) na przedziale [0, 2π]

• wyświetlić sieć neuronową

• wykonać klasyfikację na wybranych danych rzeczywistych siecią neuronową wielo- warstową z wsteczną propagacją błędów

• wykonać kompresję obrazów za pomocą autoenkoderów

(8)

• przetestowanie różnej liczby warstw sieci oraz różnej liczby neuronów

• sprawdzić na wolframalpha.com jaka jest wartość przewidywana dla sieci z jednym neuronem dla x = 1

• wyświetlić na wolframalpha.com funkcję predykcji dla 1 neuronu, a także dla 3 neuronów

Wskazówki do R

• w poleceniu neuralnet można testować również sieci z wieloma warstwami ukrytymi

• aby była brana pod uwagę funkcja aktywacji w poleceniu neuralnet należy ustawić parametr linear.output na false, w przeciwnym razie na wyjściu otrzymujemy tylko iloczyn skalarny

• wyraz wolny jest dodawany do iloczynu skalarnego

• http://search.r-project.org/library/neuralnet/html/neuralnet.html

• https://www.rdocumentation.org/packages/autoencoder/versions/1.1/topics/

autoencode Wskazówki

• http://www.mathworks.com/help/nnet/gs/fit-data-with-a-neural-network.

html

• przykładowe zbiory danychhttp://www.mathworks.com/help/nnet/gs/neural- network-toolbox-sample-data-sets.html

• http://www.mathworks.com/matlabcentral/fileexchange/35364-fast-multilayer- neural-network-training/content/demo.m

• http://www.mathworks.com/help/nnet/gs/classify-patterns-with-a-neural- network.html

• http://www.mathworks.com/help/nnet/ug/adaptive-neural-network-filters.

html

3.2 Zadania na 4.0

• wykonać klasyfikację na wybranych danych rzeczywistych siecią neuronową wielo- warstową z członem momentum

Wskazówki:

• http://www.mathworks.com/help/nnet/examples/training-a-deep-neural-network- for-digit-classification.html

(9)

3.3 Zadania na 5.0

• przetestować sieć konwolucyjną

• przetestować algorytm Levenberga-Marquardta Wskazówki:

• http://www.mathworks.com/help/nnet/ref/trainlm.html

• http://yann.lecun.com/exdb/mnist/

• http://www.mathworks.com/matlabcentral/fileexchange/24291-cnn-convolutional- neural-network-class