Sztuczna Inteligencja Temat projektu – Sieć Neuronowa

(1)

PB, 2009–2010

Sztuczna Inteligencja

Temat projektu – Sieć Neuronowa

Ilość osób w grupie: 3

Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia opartym na wstecznej propagacji błędów z wykorzystaniem metody największego spadku (metoda gradientowa).

Sieć powinna umożliwiać:

• definiowanie współczynnika uczenia,

• konfigurację ilości warstw ukrytych,

• ustalenie ilości neuronów w poszczególnych warstwach,

• odczyt danych treningowych i testujących ze zbiorów .tab oraz .arff,

• wizualizację błędów w trakcie procesu uczenia,

• ustalenie warunku zatrzymania procesu uczenia (maksymalny błąd lub ilość iteracji),

• wybór metody największego spadku z członem momentum,

• wykorzystanie innych funkcji aktywacji neuronów (unipolarna, bipolarna).

1

(2)

Pomoc do projektu

Działanie algorytmu dla pojedynczej epoki rozpoczyna się od podania pierwszego wzorca uczącego na wejście sieci. Najpierw jest on przetwarzany przez pierwszą, następnie przez kolejną k-tą warstwę neuronów, gdzie przetworzenie przez pojedynczy i-ty neuron w tej warstwie dane jest zależnością:

y _i ^k = f  s _i ^k t= f  ∑

j=0 N

k−1

w _ij ^k t x _j ^k t

Otrzymane w ten sposób sygnały z warstwy poprzedniej (k-tej) stają się sygnałami wejściowymi dla warstwy kolejnej (k+1). Znając sygnały wyjściowe warstwy ostatniej (L) oraz sygnał wzorcowy d i

(pożądany sygnał warstwy wyjściowej dla danej próbki), można obliczyć błąd na wyjściu sieci zgodnie z zależnością:

Q _i ^L t=d _i ^L t− y _i ^L t

Teraz można zmodyfikować wagi neuronów warstwy ostatniej korzystając z reguły delta.

Modyfikacja wagi j-tej neuronu i-tego przebiega zgodnie z wzorem:

w _ij ^L t1=w _ij ^L t2  _i ^L t x _j ^L t  , gdzie η – współczynnik uczenia (0,1)

 _i ^L =Q _i ^L t f '  s _i ^L  t , gdzie f ' – pochodna przyjętej funkcji aktywacji

Po tym kroku następuje modyfikacja wag neuronów warstw poprzednich (wsteczna propagacja błędów) zgodnie z zależnościami:

w _ij ^k t1=w _ij ^k t2   _i ^k t x _j ^k t

 _i ^k =Q _i ^k t  f ' s _i ^k t

Q _i ^k t= ∑

m=1 N

k 1

 _m ^k1 t w _mi ^k1 t 

Po modyfikacji wag neuronów w warstwie pierwszej, na wejście sieci podawana jest kolejna próbka.

2

(3)

Dodanie członu momentum polega na przebudowaniu wzoru do modyfikacji wag:

w _ij ^k t1=w _ij ^k t 2   _i ^k t x _j ^k t [w _ij ^k t−w _ij ^k t−1] , gdzie α – momentum (0,1)

Jak łatwo zauważyć, człon momentum modyfikuje daną wagę w zależności od wielkości jej zmiany w poprzednim kroku.

Funkcje unipolarna i bipolarna neuronu sigmoidalnego dane są wzorami:

• unipolarna: f  x = 1 1e ^− ^x

• bipolarna: f  x = 1−e ^ ^x 1e ^− ^x

Pierwsze pochodne tych funkcji dane są wzorami:

• unipolarna: f '  x= f  x1− f  x

• bipolarna: f '  x=1− f ²  x

Podsumowanie wykorzystywanych oznaczeń:

• i, m – numer neuronu,

• j – numer wagi neuronu,

• k – numer warstwy,

• L – warstwa wyjściowa (numer ostatniej warstwy),

• t – iteracja w epoce, numer próbki uczącej,

• x – wartość wejściowa neuronu.

3

Sztuczna Inteligencja Temat projektu – Sieć Neuronowa

PB, 2009–2010

Sztuczna Inteligencja

Temat projektu – Sieć Neuronowa

Ilość osób w grupie: 3

Stwórz projekt implementujący jednokierunkową sztuczną neuronową złożoną z neuronów typu sigmoidalnego z algorytmem uczenia opartym na wstecznej propagacji błędów z wykorzystaniem metody największego spadku (metoda gradientowa).

Sieć powinna umożliwiać:

• definiowanie współczynnika uczenia,

• konfigurację ilości warstw ukrytych,

• ustalenie ilości neuronów w poszczególnych warstwach,

• odczyt danych treningowych i testujących ze zbiorów *.tab oraz *.arff,

• wizualizację błędów w trakcie procesu uczenia,

• ustalenie warunku zatrzymania procesu uczenia (maksymalny błąd lub ilość iteracji),

• wybór metody największego spadku z członem momentum,

• wykorzystanie innych funkcji aktywacji neuronów (unipolarna, bipolarna).

1

Pomoc do projektu

y i k = f  s i k t= f  ∑

j=0 N

w ij k t x j k t

Otrzymane w ten sposób sygnały z warstwy poprzedniej (k-tej) stają się sygnałami wejściowymi dla warstwy kolejnej (k+1). Znając sygnały wyjściowe warstwy ostatniej (L) oraz sygnał wzorcowy d i

(pożądany sygnał warstwy wyjściowej dla danej próbki), można obliczyć błąd na wyjściu sieci zgodnie z zależnością:

Q i L t=d i L t− y i L t

Teraz można zmodyfikować wagi neuronów warstwy ostatniej korzystając z reguły delta.

Modyfikacja wagi j-tej neuronu i-tego przebiega zgodnie z wzorem:

w ij L t1=w ij L t2  i L t x j L t  , gdzie η – współczynnik uczenia (0,1)

 i L =Q i L t f '  s i L  t , gdzie f ' – pochodna przyjętej funkcji aktywacji

Po tym kroku następuje modyfikacja wag neuronów warstw poprzednich (wsteczna propagacja błędów) zgodnie z zależnościami:

w ij k t1=w ij k t2   i k t x j k t

 i k =Q i k t  f ' s i k t

Q i k t= ∑

m=1 N

 m k1 t w mi k1 t 

Po modyfikacji wag neuronów w warstwie pierwszej, na wejście sieci podawana jest kolejna próbka.

2

Dodanie członu momentum polega na przebudowaniu wzoru do modyfikacji wag:

w ij k t1=w ij k t 2   i k t x j k t [w ij k t−w ij k t−1] , gdzie α – momentum (0,1)

Jak łatwo zauważyć, człon momentum modyfikuje daną wagę w zależności od wielkości jej zmiany w poprzednim kroku.

Funkcje unipolarna i bipolarna neuronu sigmoidalnego dane są wzorami:

• unipolarna: f  x = 1 1e − x

• bipolarna: f  x = 1−e  x 1e − x

Pierwsze pochodne tych funkcji dane są wzorami:

• unipolarna: f '  x= f  x1− f  x

• bipolarna: f '  x=1− f 2  x

Podsumowanie wykorzystywanych oznaczeń:

• i, m – numer neuronu,

• j – numer wagi neuronu,

• k – numer warstwy,

• L – warstwa wyjściowa (numer ostatniej warstwy),

• t – iteracja w epoce, numer próbki uczącej,

• x – wartość wejściowa neuronu.

3

• odczyt danych treningowych i testujących ze zbiorów .tab oraz .arff,

y _i ^k = f  s _i ^k t= f  ∑

w _ij ^k t x _j ^k t

Q _i ^L t=d _i ^L t− y _i ^L t

w _ij ^L t1=w _ij ^L t2  _i ^L t x _j ^L t  , gdzie η – współczynnik uczenia (0,1)

 _i ^L =Q _i ^L t f '  s _i ^L  t , gdzie f ' – pochodna przyjętej funkcji aktywacji

w _ij ^k t1=w _ij ^k t2   _i ^k t x _j ^k t

 _i ^k =Q _i ^k t  f ' s _i ^k t

Q _i ^k t= ∑

 _m ^k1 t w _mi ^k1 t 

w _ij ^k t1=w _ij ^k t 2   _i ^k t x _j ^k t [w _ij ^k t−w _ij ^k t−1] , gdzie α – momentum (0,1)

• unipolarna: f  x = 1 1e ^− ^x

• bipolarna: f  x = 1−e ^ ^x 1e ^− ^x

• bipolarna: f '  x=1− f ²  x