Sieci dynamiczne Sieci dynamiczne

(1)

Sieci dynamiczne Sieci dynamiczne

Sieci Neuronowe Wykład 10

Włodzisław Duch

Uniwersytet Mikołaja Kopernika

(2)

Co było

• MLP w różnych wersjach

• Głębokie uczenie

(3)

Co będzie

• Sieci dynamiczne: sprzężenia zwrotne

• Model Hopfielda

• Modele pamięci asocjacyjnej

(4)

Sieci dynamiczne Sieci dynamiczne

W układach biologicznych neurony mają silne sprzężenia zwrotne.

Dotychczas tylko model BAM wykorzystywał sprzężenia zwrotne.

Najprostsze modele sieci z rekurencją:

•

sieci Hopfielda,

•

sieci uczone regułą Hebba,

•

sieć Hamminga.

Modele złożone:

•

RTRN - Real Time Recurrent Network, przetwarzająca sygnały w czasie rzeczywistym;

•

sieć Elmana i inne o uproszczonej strukturze rekurencji

•

RCC - Recurrent Cascade Correlation

•

LSTM, Long Short Term Memory

(5)

Reguła Hebba Reguła Hebba

“Kiedy akson komórki A jest dostatecznie blisko by pobudzić komórkę B i wielokrotnie w sposób trwały bierze udział w jej pobudzaniu, procesy wzrostu lub zmian metabolicznych zachodzą w obu komórkach tak, że sprawność neuronu A jako jednej z komórek pobudzających B, wzrasta.”

D. O. Hebb, 1949

(6)

6

Model Hopfielda Model Hopfielda

John Hopfield (1982, 1984), model pamięci autoasocjacyjnej.

Założenia:

• Wszystkie neurony są ze sobą połączone (fully connected network) z wagami synaps Wij.

• Macierz wag połączeń jest symetryczna, W_i,i=0, Wij = W_ji. Symetria jest wygodna z teoretycznego p. widzenia,

pozwala wprowadzić f. energii;

jest nierealistyczna z biologicznego p. widzenia.

Dyskretny stan neuronu - potencjał Vi = ±1 = sgn (I(V)) W późniejszych modelach stany rzeczywiste.

(7)

Model Hopfielda - dynamika Model Hopfielda - dynamika

Wektor potencjałów wejściowych V(0)=V_ini , czyli wejście = wyjście.

Dynamika (iteracje) 

sieć Hopfielda osiąga stany stacjonarne = odpowiedzi sieci (wektory aktywacji elementów) na zadane pytanie V_ini (autoasocjacja).

t - czas dyskretny (numer iteracji).

Stany stacjonarne = atraktory punktowe.

 ¹  ^sgn   ¹   ^sgn

i i ij j j

V t   I t   ^   W V   ^ 

(8)

8

Minimalizacja energii Minimalizacja energii

Dla sieci o symetrycznych wagach taka dynamika prowadzi do

minimalizacji funkcji typu energii, a więc do atraktorów punktowych.

W teorii układów dynamicznych - funkcji Lapunova, w fizyce

statystycznej funkcji Hamiltona, w teorii optymalizacji funkcji celu lub kosztu, w obliczeniach ewolucyjnych funkcji przystosowania ...

  ¹ ^| ¹

2 2

_{i j} ^{ij i} ^j

E W V V W V V



  ^W   

i ij j i i

j

E V W V V I

     

Zmiana energii w czasie iteracji jest 0

Jeśli I

_i

 0 to V

_i

nie może zmaleć, więc energia zmaleje;

Jeśli I

_i

< 0 to  V

_i

< 0, energia również zmaleje.

(9)

Atraktory Atraktory

Dynamika: ruch po hiperpowierzchni energii, zależnej od potencjałów neuronów, aż do osiągnięcia lokalnego minimum na takiej powierzchni.

Jeśli V

i

dyskretne to ruch po rogach hipersześcianu.

(10)

10

3 neurony

(11)

Stopniowe studzenie Stopniowe studzenie

Atraktory punktowe - tylko dla symetrycznych połączeń.

Stany stabilne: minima lokalne E(W) odpowiadające pamiętanym wzorcom V

i

- pamięć asocjacyjna.

Prawdopodobieństwo aktywacji: sigmoidalne.



i

  ^{1 |} ^,  

i

^{ }  ¹ ^{1 e}

^j ^{W V}^{ij j} ⁱ ^/^T

p V t T I V





 

 

 

 

 

  

 

       

 

W

W wysokiej T przypadkowe błądzenie, stopniowe studzenie pozwala unikać płytkich minimów lokalnych.

Duża aktywacja i niska temperatura prawie na pewno da V

_i

=1

(12)

12

S.A. - wykres E

(13)

S.A. - wykres P

(14)

14

Uczenie Uczenie

Warunek stabilności korzystając z reguły Hebba:

1

sgn

^N

i ij j

j

V W V



 

  

  

~ ; np. 1

ij i j ij i j

W V V W V V

 N Wystarczy zażądać by:

Dla wielu wzorców korzystamy z reguły Hebba uśredniając:

1

^p

ij i j

W V V

N

 



 

(15)

Uczenie cd.

Warunek stabilności prowadzi do wydzielenia przesłuchu:

sgn 1 sgn

1 sgn

i ij j i j j

j j

i i j j

j

h W V V V V

N

V V V V

N

    



   

 

   

     

   

 

   

 

 



 

^¹

Jeśli korelacja pomiędzy wzorcami jest słaba to zbieżność.

Lepsze rezultaty: metoda pseudoinwersji:

(16)

16

Pojemność modelu H Pojemność modelu H

Odwracania macierzy V można uniknąć iteracyjną metodą rzutowania:

 ^V ^V    ^V

^T

N

  

    

W W W

2

^N

możliwych stanów sieci binarnej złożonej z N neuronów.

Zbyt wiele wzorców  chaos, zapominanie.

L. poprawnie pamiętanych wzorców:

dla p. błędów 0.37% wynosi /N= 0.138

Około 7 neuronów/N-bitowy wzorzec lub 7 połączeń/bit.

W praktyce gorzej, ale różnie dla różnych algorytmów!

Liczba dobrze pamiętanych wzorców = f()

(17)

Diagramy fazowe Diagramy fazowe

Dla  = p

wzorców

/N i różnych temperatur

(18)

18

Sprytna modyfikacja Sprytna modyfikacja

Co zrobić jeśli wzorce b. duże, np. dla obrazów N10⁶?

Faktoryzacja macierzy wag W na m<N wektorów własnych S

 

^{( )}

 

^{( )}

1

m

S S

^ ^ T m m T



  

W S S

Zamiast mnożenia wag przez wektory O(N

²

) wystarczy 2Nxm.

Szybka zbieżność dla dużych rozmiarów.

Jeśli f=I to warunek stabilności oznacza, że V to wektory własne.

   

     

( ) ( ) ( 1) ( 1) ( )

( ) ( )

, / 1

m m T m m m

m m T

U S U U

V t f V t

 

  

 

S S 1 S S

S S

S - macierze N x m

Ortogonalizacja

nowego wektora

(19)

Realizacja sprzętowa

(20)

20

Równania - sprzętowo Równania - sprzętowo

Prosta realizacja sprzętowa, elektroniczna lub optyczna.

W stanie stacjonarnym wejście=wyjście.

Równania na sygnały wejściowe:

 

¹

 

¹

 

1 i N

ij j i i i

j

C dU t R V t R U t I dt

 



   

Ui - napięcie wejściowe i-tego wzmacniacza V_i - napięcie wyjściowe i-tego wzmacniacza C - pojemność wejściowa

Ii - zewnętrzny prąd i-tego wzmacniacza

     

¹ ¹

1

;

^N

i i i ij

j

V t f U t R

^

R

^



  

(21)

CAM, pamięć adresowalna kontekstowo CAM, pamięć adresowalna kontekstowo

Sieć Hopfielda może służyć jako pamięć adresowalna kontekstowo.

Fragment epizodu pozwala odtworzyć całość.

  ^{{ }} ¹ ₂ 

ⁱ^T

 

ⁱ



²

i

E V    P V P

Dla ortogonalnych prototypów i idealnej zgodności:

Zbiór wzorców {P

_i

}, i=1..m

Funkcja kosztu: korelacja wzorców z osiąganymi minimami:

Energia używając reg. Hebba

   

²

1

1 1

{ } 2 2

m T

i i

i

E P P P mN



    

 

²

1 1  

^m

 1 

^m

(22)

22

Optymalizacja Optymalizacja

Zagadnienia NP-trudne: jak zastosować sieć Hopfielda?

Przykład: najkrótsza droga pomiędzy N miastami.

 

,

1

2

_{i k} ^{i k} ⁱ ^k

E n W

_{  }

n n

_

 

 

 

Funkcja kosztów: min. droga + 1 w wierszu + 1 w kolumnie Macierz n

_i_

i=1,2..N, nr. miasta

 - kolejność

1 3

6

4

5

2

1 2 3 4 5 6 1 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1

2 3 4 5 6

Kolejność

M i a s t o

Jak dobrać W?

(23)

Dobór wag Dobór wag

Zagadnienia NP-trudne: jak zastosować sieć Hopfielda?

Przykład: najkrótsza droga pomiędzy N miastami.

  

1 1



2

,

1 2 2

2

ik i k k

i k

i i

i

i k

i k

i i

E n d n n n

A n n

B n n

C n N

  



 

 



 

 



 



 

   

 





+ 1 w wierszu Odległość

N miast

+ 1 w kolumnie

(24)

Spełnianie ograniczeń Spełnianie ograniczeń

Rozwiązania mogą nie spełniać ograniczeń, obliczanie odbywa się wewnątrz hiperkostki, ma końcu osiągany jest stan poprawny.

Metody optymalizacji - operacje dyskretne, zawsze poprawne.

Zagadnienia wymagające spełniania ograniczeń i optymalizacji:

Problem N królowych: umieścić je na szachownicy NxN tak, by się nie szachowały.

Problem ustawienia skoczków, problem plecakowy ...

Problem rutowania pakietów w sieciach pakietowych.

Dobór funkcji kosztu, metody minimalizacji - intensywnie badane.

Metody wyspecjalizowane radzą sobie lepiej ale wyrafinowane wersje metod pola średniego dają doskonałe rezultaty.

Książka: J. Mandziuk, Sieci neuronowe typu Hopfielda. Teoria i przykłady

zastosowań. Exit 2000.

(25)

Model Hopfielda i percepcja Model Hopfielda i percepcja

Interpretacja sygnałów dochodzących do mózgu nie jest jednoznaczna.

Interpretacja musi spełniać ograniczenia:

Tylko jedna litera na danej KOT

pozycji.

Obecność danej litery aktywizuje rozpoznanie słowa.

Cecha na danej pozycji

aktywizuje rozpoznanie

(26)

3 słowa 3 słowa

K.. Ą.. .A. ..T ..P

KAT KĄT KAP

(27)

Faza snu Faza snu

Sen może być okresem, w którym mózg prowadzi optymalizację zużycia swoich zasobów, utrwalając pewne zdarzenia/fakty i usuwając z pamięci pozostałe.

W modelu CAM Hopfielda szybkość ostatnio poznane są szybciej przypominane.

Wzorce odpowiadające fałszywym minimom można wyeliminować pokazując antywzorce, związane z fałszywymi, płytkimi minimami.

Przypadkowe błądzenie wśród zniekształconych wzorców - sen?

Niektóre neurochipy do prawidłowej pracy muszą działać przez pewien

czas bez żadnych sygnałów wejściowych - okres kalibracji.

(28)

Zaburzenia pamięci Zaburzenia pamięci

Są eksperymentalne dowody na to, że za pamięć biologiczną odpowiedzialne są sieci atraktorowe.

Degeneracja pamięci, np. w chorobie Alzheimera, może być związana z utratą słabych synaps.

Jak wpłynie taka utrata na pojemność pamięci?

Kompensacja - pozostałe synapsy mogą się zaadoptować do nowej sytuacji. Jaka kompensacja jest najlepsza?

1 1

n o

ij ij

W W dk

d

 

      

d - stopień uszkodzenia k=k(d) funkcja kompensacji

Silne synapsy ulegają dalszemu wzmocnieniu.

Samo d nie świadczy jeszcze o stopniu uszkodzenia pamięci.

(29)

Kompensacja

(30)

30

Model amnezji Model amnezji

Pamięć trwała jest rezultatem stanów atraktorowych

minikolumn kory mózgu, zapisana jest więc w synapasch.

Układ neuromodulacji reguluje plastyczność hipokampa i kory.

Pamięć średnioterminowa

zapisana jest w sieciach

hipokampa.

(31)

Powstawanie trwałej pamięci

(32)

32

Amnezja wsteczna Amnezja wsteczna

Główna przyczyna:

utrata łączy do kory.

Objawy:

gradienty Ribota czyli im

starsze wspomnienia

tym lepiej pamiętane.

(33)

Amnezja następcza Amnezja następcza

Główna przyczyna:

uszkodzenie systemu neuromodulacji.

Wtórnie: utrata łączy z korą.

Objawy:

Brak możliwości

zapamiętania nowych

(34)

34

Amnezja semantyczna

Główna przyczyna: uszkodzenie łączy wewnątrzkorowych.

Objawy: Trudności w znajdowaniu słów, rozumieniu,

zapamiętanie nowych faktów wymaga ciągłego powtarzania.

(35)

Model Leabra (Emergent)

Leabra = Learning in an Error-driven and Associative, Biologically Realistic

Algorithm.

Architektura kognitywna, pozwalająca na symulację złożonych funkcji

psychologicznych.

Opiera się na 6 zasadach.

1. Model punktowego neuronu: całkuj i strzelaj (integrate & fire).

2. kWTA, czyli k zwycięzców bierze

wszystko (hamowanie/konkurencja).

3. Rzadkie rozproszone reprezentacje.

(36)

Neurobiologiczne symulacje Neurobiologiczne symulacje

Książka on-line: Randall C. O'Reilly and Yuko Munakata,

Computational Explorations in Cognitive Neuroscience. Understanding the Mind by Simulating the Brain. MIT Press.

Przykłady wykorzystania symulatora Emergent są w moim wykładzie:

Neuropsychologia komputerowa:

http://www.is.umk.pl/~duch/Wyklady/Npsych_plan.html Tutoriale (symulacje) do kolejnych rozdziałów książki.

Porównanie symulatorów sieci neuronowych.

The Virtual Brain – model populacyjny całego mózgu!

LSTM tutorial

(37)

Systemy neuromorficzne

(38)

Neuromorficzne komputery Neuromorficzne komputery

Projekt Synapse 2015:

IBM TrueNorth 1 chip ok 5.4 mld tranzystorów, 1 mln neuronów i 1/4 mld synaps, 70 mW!

NS16e module = 16 chipów

16 mln neuronów, 4 mld synaps, potrzebuje ok 1.1 wata.

Skalowanie: 256 modułów NS16e to 4 mld neuronów, ok.

1 bld = 10

¹²

synaps, < 300 Wat.

To ~1/20 ludzkiego mózgu …

IBM Neuromorphic System może osiągnąć złożoność ludzkiego mózgu.

IBM Synaptic University – czyli jak to programować?

Intel Lohti neuromorphic chip – przyszłość?

(39)

Koniec wykładu 10

(40)

Neurodynamika

Spoczynkowa aktywność neuronów (1-5 impulsów/sek)

Ok. 10.000 impulsów/sek dochodzi do neuronu w pobliżu progu.

1. Stabilna sieć z aktywnością spoczynkową: globalny atraktor.

2. Uczenie się przez tworzenie nowych atraktorów.

Model Amit, Brunel 1995

Aktywność tła ma charakter stochastyczny.

Jednorodność: neurony w identycznym środowisku.

Impulsy wysyłane przez różne neurony nie są skorelowane.

Aktywacja neuronu jest sumą wkładów synaptycznych.

Gaussowski rozkład wkładów synaptycznych.

Wystarczy aktywność neuronu = liczbie impulsów na sekundę.

(41)

Schemat kolumny

Ogólny schemat sieci: model kolumny, 10

⁵

neuronów.

Kolumna ma około 1 mm

²

, 10

⁵

neuronów.

Połączenia: pobudzające i hamujące wewnątrz modułu, pobudzające

Inne obszary

kory Lokalna podsieć

Lokalna podsieć pobudzająca

hamująca

wyjście

(42)

Struktura sieci

Sieć złożona z lokalnych modułów.

Uczenie: początkowo moduł biorący udział w rozpoznawaniu zwiększa w nieselektywny sposób częstość impulsacji dla wszystkich sygnałów.

Powyżej krytycznej wartości wzmocnienia LTP pojawiają się lokalne atraktory na tle globalnej aktywności - struktura sygnału uczącego.

Aktywność spoczynkowa rośnie do około 20 Hz, utrzymuje się po zniknięciu bodźca - aktywna reprezentacja bodźca w pamięci.

Pobudzenia wewnętrzne silniejsze niż zewnętrzne, utrzymują spontaniczną aktywność, modelowane przez rozkład Poissona.

50-80% impulsów z lokalnych obwodów pobudzających o modyfikowalnych synapsach.

Depolaryzacja membrany V(t) o 10ms opisana jest równaniem:

( ) ( ) ( )

V t V t I t

    

(43)

Działanie modelu

Symulacja modułu z 2000 neuronów:

spontaniczna aktywność jest stabilna w czasie lokalnego uczenia się, moduł uczący się ma podwyższoną częstość impulsacji wśród neuronów biorących udział w kodowaniu wzorca i obniżoną wśród pozostałych.

Sieci dynamiczne Sieci dynamiczne

Sieci dynamiczne Sieci dynamiczne

Sieci Neuronowe Wykład 10

Włodzisław Duch

Uniwersytet Mikołaja Kopernika

Co było

• MLP w różnych wersjach

• Głębokie uczenie

Co będzie

• Sieci dynamiczne: sprzężenia zwrotne

• Model Hopfielda

• Modele pamięci asocjacyjnej

Sieci dynamiczne Sieci dynamiczne

W układach biologicznych neurony mają silne sprzężenia zwrotne.

Dotychczas tylko model BAM wykorzystywał sprzężenia zwrotne.

Najprostsze modele sieci z rekurencją:

sieci Hopfielda,

sieci uczone regułą Hebba,

sieć Hamminga.

Modele złożone:

RTRN - Real Time Recurrent Network, przetwarzająca sygnały w czasie rzeczywistym;

sieć Elmana i inne o uproszczonej strukturze rekurencji

RCC - Recurrent Cascade Correlation

LSTM, Long Short Term Memory

Reguła Hebba Reguła Hebba

“Kiedy akson komórki A jest dostatecznie blisko by pobudzić komórkę B i wielokrotnie w sposób trwały bierze udział w jej pobudzaniu, procesy wzrostu lub zmian metabolicznych zachodzą w obu komórkach tak, że sprawność neuronu A jako jednej z komórek pobudzających B, wzrasta.”

D. O. Hebb, 1949

Model Hopfielda Model Hopfielda

Model Hopfielda - dynamika Model Hopfielda - dynamika

 1  sgn   1   sgn

V t   I t      W V    

Minimalizacja energii Minimalizacja energii

Dla sieci o symetrycznych wagach taka dynamika prowadzi do

minimalizacji funkcji typu energii, a więc do atraktorów punktowych.

W teorii układów dynamicznych - funkcji Lapunova, w fizyce

statystycznej funkcji Hamiltona, w teorii optymalizacji funkcji celu lub kosztu, w obliczeniach ewolucyjnych funkcji przystosowania ...

  1 | 1

2 2

E W V V W V V

  W   

E V W V V I

     

Zmiana energii w czasie iteracji jest 0

Jeśli I

 0 to V

nie może zmaleć, więc energia zmaleje;

Jeśli I

< 0 to  V

< 0, energia również zmaleje.

Atraktory Atraktory

Dynamika: ruch po hiperpowierzchni energii, zależnej od potencjałów neuronów, aż do osiągnięcia lokalnego minimum na takiej powierzchni.

Jeśli V

dyskretne to ruch po rogach hipersześcianu.

3 neurony

3 neurony

Stopniowe studzenie Stopniowe studzenie

Atraktory punktowe - tylko dla symetrycznych połączeń.

Stany stabilne: minima lokalne E(W) odpowiadające pamiętanym wzorcom V

- pamięć asocjacyjna.

Prawdopodobieństwo aktywacji: sigmoidalne.



  1 | ,  

   1 1 e

p V t T I V



  

 

       

 

W

W wysokiej T przypadkowe błądzenie, stopniowe studzenie pozwala unikać płytkich minimów lokalnych.

Duża aktywacja i niska temperatura prawie na pewno da V

=1

S.A. - wykres E

S.A. - wykres E

S.A. - wykres P

S.A. - wykres P

Uczenie Uczenie

Warunek stabilności korzystając z reguły Hebba:

sgn

 ¹  ^sgn   ¹   ^sgn

V t   I t   ^   W V   ^ 

  ¹ ^| ¹

  ^W   

  ^{1 |} ^,  

^{ }  ¹ ^{1 e}

 ^V ^V    ^V