Sieci neuronowe, cz. 2

(1)

Trening jednokierunkowych sieci

neuronowych

Inteligentne systemy decyzyjne:

Uczenie maszynowe

–

_–

sztuczne sieci neuronowe

wyk

ł

ad 2.

dr inż. Paweł Żwan

Katedra Systemów Multimedialnych Politechnika Gdańska

(2)

Model matematyczny sztucznego

neuronu

Wartość wyjściowa neuronu o jest określana w oparciu o wzór: o=f(net),

gdzie: w – wektor wag połączeń wejściowych

x – wektor wartości sygnałów wejściowych

f – funkcja aktywacji

Dodatkową wagą jest waga progowa, dlatego wektory w i x określone są jako:

w=[w₁,w₂,...,w_n,w_n+1], x=[x₁,x₂,....,x_n,-1]

(3)

Topologia sieci jednokierunkowej

--

sieci jednokierunkowe

x=[x₁,x₂,...,x_N,-1] – wektor wejściowy

y=[y₁,y₂,...,y_I,-1] – wektor wyjściowy pierwszej warstwy ukrytej

z=[z₁,z₂,...,z_J,-1] – wektor wyjściowy drugiej warstwy ukrytej

o=[o₁,o₂,...,o_K,-1] – wektor wyjściowy Macierze U,V,W zawierają

Współczynniki wagowe dla wszystkich Połączeń synaptycznych

(4)

Metoda treningu sieci

jednokierunkowej

trening z nadzorem

(5)

Regu

ł

_ł

a delta

_{a delta}

Rozwa

ż

my jednokierunkow

ą

sie

ć

neuronow

ą

sk

ł

adaj

ą

c

ą

si

ę

z dw

ó

ch warstw: ukrytej, zawieraj

ą

cej

J

neuron

ó

w

oraz wyj

ś

ciowej, zawieraj

ą

cej

K

neuron

ó

w

x = [x₁, ... , x_I-1, -1]T

y = [y₁, ... , y_J-1, -1] T

o = [o₁, ... , o_K] T

macierze wag warstw:

f_y’ = [f₁’(net₁), f₂’(net₂),..., f_J’(net_J)] T

f_o’ = [f₁’(net₁), f₂’(net₂),..., f_K’(net_J)] T

(6)

Regu

ł

_ł

a delta

_{a delta}

–

_–

cd

_cd

.

_.

Metoda uczenia jest metod

ą

nadzorowan

ą

, dlatego

mo

ż

na okre

ś

li

ć

miar

ę

mi

ę

dzy wskazaniem sieci

o

, a

oczekiwan

ą

odpowiedzi

ą

sieci

d

, czyli tzw.

funkcj

ę

b

ł

ę

du

.

Najczęściej stosuje się odl.średniokwadratową:

gdzie p jest liczbą wektorów w zb. uczącym Błąd ten liczony jest dla wszystkich wektorów ze zbioru uczącego – błąd skumulowany.

Podczas treningu prezentowane są kolejno wektory uczące, wówczas funkcja błędu dla

(7)

Regu

ł

_ł

a delta

_{a delta}

–

_–

cd

_cd

.

_.

W dalszej cz

ęś

ci przyj

ę

to,

ż

e rozwa

ż

ania dotycz

ą

pojedynczego

p

-

tego

wektora ze zbioru ucz

ą

cego.

Niech zdefiniowany zostanie operator:

wtedy:

Funkcja błędu:

przyjmuje postać:

- warstwa wyjściowa

(8)

Regu

ł

_ł

a delta

_{a delta}

–

_–

cd

_cd

.

_.

wtedy:

gdzie wprowadzono pomocniczy operator:

Takie określenie błędu nakłada ograniczenia na postać funkcji aktywacji, która musi być

ciągła i różniczkowalna.

Reguła DELTA mówi, że aktualizacja macierzy wag V i W następuje wg zależności:

(9)

Regu

ł

_ł

a delta

_{a delta}

–

_–

cd

_cd

.

_.

W wyniku podstawienia wcześniejszych wyników otrzymujemy:

Wagi w kolejnym kroku nauki są równe

wagom w poprzednim kroku powiększonym proporcjonalnie do iloczynów wektorów

wejściowych warstw i wektorów błędu działania sieci.

Minimalizacja funkcji błędu jest oparta o metody gradientowe i

(10)

Zbie

ż

_ż

no

ść

_ść

procesu nauki

Mo

ż

liwo

ść

zatrzymania w minimum lokalnym funkcji

b

ł

ę

du

Mo

ż

liwo

ść

zatrzymania nauki w p

ł

askim obszarze funkcji

b

ł

ę

du przy zbyt ma

ł

ej warto

ś

ci wsp

ó

ł

czynnika nauki

Aby poprawi

ć

w

ł

a

ś

ciwo

ś

ci nauki stosuje si

ę

dodatkowy

sk

ł

adnik

MOMENTU

, uzale

ż

niaj

ą

cy przyrost wag od

przyrostu wag w poprzednim kroku nauki

Po uwzgl

ę

dnieniu sk

ł

adnika momentu, wzory warto

ś

ci

macierzy wag w kroku

n

+1 wygl

ą

daj

ą

nast

ę

puj

ą

co:

(11)

Dodatkowe w

ł

_ł

a

_a

ś

_ś

ciwo

ś

ci momentu

składnik momentu

Moment wprowadza do algorytmu element

bezw

ł

adno

ś

ci, kt

ó

ry zmniejsza chwilowe i

gwa

ł

towne zmiany kierunku wskazywanego

przez gradient funkcji b

ł

ę

dy

Uczenie nie wchodzi w p

ł

ytkie minima lokalne

Zdolno

ść

do znacznego przyspieszania nauki

dla p

(12)

W

ł

_ł

a

_a

ś

_ś

ciwy dob

ó

r wsp

ó

ł

czynnik

ó

w

nauki

W

ł

a

ś

ciwy dob

ó

r wsp

ó

ł

czynnik

ó

w nauki

umo

ż

liwia wyj

ś

cie z minim

ó

w lokalnych

funkcji b

ł

ę

du i szybkie osi

ą

gni

ę

cie warto

ś

ci

bliskich jej minimum globalnego.

(13)

Algorytm wstecznej propagacji b

ł

ę

du

KROK 1:

• Inicjalizacja macierzy wag V i W małymi losowyim wartościami z zakresu (-1,1)

• Ustawianie parametrów nauki sieci:

- funkcji aktywacji neuronów (razem z λ) - parametrów nauki - ɳ i

αααα

KROK 2:

• Ustawienie wartości błędu

skumulowanego na E=0 dla każdego

nowego cyklu treningowego

KROK 3:

• Wybór dowolnego wektora ze zbioru uczącego, najlepiej wybór losowy.

Ustawienie oczekiwanej odpowiedzi sieci d.

(14)

Algorytm wstecznej propagacji b

ł

ę

du

KROK 4:

• Wyznaczanie odpowiedzi warstw sieci y, o (przetwarzanie wektora wejściowego przez

sieć)

KROK 5:

• Obliczanie sygnałów błędów dla kolejnych

warstw

KROK 6:

• Obliczanie nowych wartości wag,

z uwzględnieniem momentu lub bez (w

zależności od wyboru)

KROK 7:

• Obliczana jest wartość funkcji błędu dla wektora x. Wartość ta dodawana jest do

(15)

Algorytm wstecznej propagacji b

ł

ę

du

KROK 8:

• Jeśli wektor x nie jest ostatnim wykorzystywanym wzorcem, to sterowanie wraca do kroku 3. Jeśli

wektor x jest ostatnim wektorem uczącym to sterowanie przechodzi

kroku 9.

KROK 9:

• Sprawdzany jest warunek czy wartość

błędu skumulowanego jest większa od zadanej progowej wartości E_MAX. Jeśli tak to trening się zatrzymuje.

Jeśli warunek ten nie jest spełniony

to następuje kolejny cykl treningowy i powrót do kroku 2.

(16)

W

ł

a

ś

_ś

ciwo

ś

ci

generalizacyjne

Sie

ć

mo

ż

na przeuczy

ć

, gdy algorytm powtarza si

ę

w

zbyt wielu krokach

Sie

ć

przeuczona posiada bardzo dobre w

ł

a

ś

ciwo

ś

ci

reagowania na obiekty ze zbioru treningowego ale nie

umie sobie dobrze radzi

ć

z przyk

ł

adami spoza zbioru

ucz

ą

cego

Metoda przeciwdzia

ł

ania

–

sprawdzanie dzia

ł

ania sieci

dla danych walidacyjnych

Sieć

neuronowa

dane treningowe (X,Y) dane walidacyjne (X,Y) obserwacja wartości błędu walidacyjnego