Sieci dynamiczne Sieci dynamiczne
Sieci Neuronowe Wykład 10
Włodzisław Duch
Uniwersytet Mikołaja Kopernika
Co było
• MLP w różnych wersjach
• Głębokie uczenie
Co będzie
• Sieci dynamiczne: sprzężenia zwrotne
• Model Hopfielda
• Modele pamięci asocjacyjnej
Sieci dynamiczne Sieci dynamiczne
W układach biologicznych neurony mają silne sprzężenia zwrotne.
Dotychczas tylko model BAM wykorzystywał sprzężenia zwrotne.
Najprostsze modele sieci z rekurencją:
•
sieci Hopfielda,
•
sieci uczone regułą Hebba,
•
sieć Hamminga.
Modele złożone:
•
RTRN - Real Time Recurrent Network, przetwarzająca sygnały w czasie rzeczywistym;
•
sieć Elmana i inne o uproszczonej strukturze rekurencji
•
RCC - Recurrent Cascade Correlation
•
LSTM, Long Short Term Memory
Reguła Hebba Reguła Hebba
“Kiedy akson komórki A jest dostatecznie blisko by pobudzić komórkę B i wielokrotnie w sposób trwały bierze udział w jej pobudzaniu, procesy wzrostu lub zmian metabolicznych zachodzą w obu komórkach tak, że sprawność neuronu A jako jednej z komórek pobudzających B, wzrasta.”
D. O. Hebb, 1949
6
Model Hopfielda Model Hopfielda
John Hopfield (1982, 1984), model pamięci autoasocjacyjnej.
Założenia:
• Wszystkie neurony są ze sobą połączone (fully connected network) z wagami synaps Wij.
• Macierz wag połączeń jest symetryczna, Wi,i=0, Wij = Wji. Symetria jest wygodna z teoretycznego p. widzenia,
pozwala wprowadzić f. energii;
jest nierealistyczna z biologicznego p. widzenia.
Dyskretny stan neuronu - potencjał Vi = ±1 = sgn (I(V)) W późniejszych modelach stany rzeczywiste.
Model Hopfielda - dynamika Model Hopfielda - dynamika
Wektor potencjałów wejściowych V(0)=Vini , czyli wejście = wyjście.
Dynamika (iteracje)
sieć Hopfielda osiąga stany stacjonarne = odpowiedzi sieci (wektory aktywacji elementów) na zadane pytanie Vini (autoasocjacja).
t - czas dyskretny (numer iteracji).
Stany stacjonarne = atraktory punktowe.
1 sgn 1 sgn
i i ij j j
V t I t W V
8
Minimalizacja energii Minimalizacja energii
Dla sieci o symetrycznych wagach taka dynamika prowadzi do
minimalizacji funkcji typu energii, a więc do atraktorów punktowych.
W teorii układów dynamicznych - funkcji Lapunova, w fizyce
statystycznej funkcji Hamiltona, w teorii optymalizacji funkcji celu lub kosztu, w obliczeniach ewolucyjnych funkcji przystosowania ...
1 | 1
2 2
i j ij i jE W V V W V V
W
i ij j i i
j
E V W V V I
Zmiana energii w czasie iteracji jest 0
Jeśli I
i 0 to V
inie może zmaleć, więc energia zmaleje;
Jeśli I
i< 0 to V
i< 0, energia również zmaleje.
Atraktory Atraktory
Dynamika: ruch po hiperpowierzchni energii, zależnej od potencjałów neuronów, aż do osiągnięcia lokalnego minimum na takiej powierzchni.
Jeśli V
idyskretne to ruch po rogach hipersześcianu.
10
3 neurony
3 neurony
Stopniowe studzenie Stopniowe studzenie
Atraktory punktowe - tylko dla symetrycznych połączeń.
Stany stabilne: minima lokalne E(W) odpowiadające pamiętanym wzorcom V
i- pamięć asocjacyjna.
Prawdopodobieństwo aktywacji: sigmoidalne.
i 1 | ,
i 1 1 e
j W Vij j i /Tp V t T I V
W
W wysokiej T przypadkowe błądzenie, stopniowe studzenie pozwala unikać płytkich minimów lokalnych.
Duża aktywacja i niska temperatura prawie na pewno da V
i=1
12
S.A. - wykres E
S.A. - wykres E
S.A. - wykres P
S.A. - wykres P
14
Uczenie Uczenie
Warunek stabilności korzystając z reguły Hebba:
1
sgn
Ni ij j
j
V W V
~ ; np. 1
ij i j ij i j
W V V W V V
N Wystarczy zażądać by:
Dla wielu wzorców korzystamy z reguły Hebba uśredniając:
1
1
pij i j
W V V
N
Uczenie cd.
Uczenie cd.
Warunek stabilności prowadzi do wydzielenia przesłuchu:
sgn 1 sgn
1 sgn
i ij j i j j
j j
i i j j
j
h W V V V V
N
V V V V
N
1Jeśli korelacja pomiędzy wzorcami jest słaba to zbieżność.
Lepsze rezultaty: metoda pseudoinwersji:
16
Pojemność modelu H Pojemność modelu H
Odwracania macierzy V można uniknąć iteracyjną metodą rzutowania:
V V V
TN
W W W
2
Nmożliwych stanów sieci binarnej złożonej z N neuronów.
Zbyt wiele wzorców chaos, zapominanie.
L. poprawnie pamiętanych wzorców:
dla p. błędów 0.37% wynosi /N= 0.138
Około 7 neuronów/N-bitowy wzorzec lub 7 połączeń/bit.
W praktyce gorzej, ale różnie dla różnych algorytmów!
Liczba dobrze pamiętanych wzorców = f()
Diagramy fazowe Diagramy fazowe
Dla = p
wzorców/N i różnych temperatur
18
Sprytna modyfikacja Sprytna modyfikacja
Co zrobić jeśli wzorce b. duże, np. dla obrazów N106 ?
Faktoryzacja macierzy wag W na m<N wektorów własnych S
( )
( )1
m
S S
T m m T
W S S
Zamiast mnożenia wag przez wektory O(N
2) wystarczy 2Nxm.
Szybka zbieżność dla dużych rozmiarów.
Jeśli f=I to warunek stabilności oznacza, że V to wektory własne.
( ) ( ) ( 1) ( 1) ( )
( ) ( )
, / 1
m m T m m m
m m T
U S U U
V t f V t
S S 1 S S
S S
S - macierze N x m
Ortogonalizacja
nowego wektora
Realizacja sprzętowa
Realizacja sprzętowa
20
Równania - sprzętowo Równania - sprzętowo
Prosta realizacja sprzętowa, elektroniczna lub optyczna.
W stanie stacjonarnym wejście=wyjście.
Równania na sygnały wejściowe:
1
1
1 i N
ij j i i i
j
C dU t R V t R U t I dt
Ui - napięcie wejściowe i-tego wzmacniacza Vi - napięcie wyjściowe i-tego wzmacniacza C - pojemność wejściowa
Ii - zewnętrzny prąd i-tego wzmacniacza
1 11
;
Ni i i ij
j
V t f U t R
R
CAM, pamięć adresowalna kontekstowo CAM, pamięć adresowalna kontekstowo
Sieć Hopfielda może służyć jako pamięć adresowalna kontekstowo.
Fragment epizodu pozwala odtworzyć całość.
{ } 1 2
iT
i
2i
E V P V P
Dla ortogonalnych prototypów i idealnej zgodności:
Zbiór wzorców {P
i}, i=1..m
Funkcja kosztu: korelacja wzorców z osiąganymi minimami:
Energia używając reg. Hebba
21
1 1
{ } 2 2
m T
i i
i
E P P P mN
21 1
m 1
m22
Optymalizacja Optymalizacja
Zagadnienia NP-trudne: jak zastosować sieć Hopfielda?
Przykład: najkrótsza droga pomiędzy N miastami.
,1
2
i k i k i kE n W
n n
Funkcja kosztów: min. droga + 1 w wierszu + 1 w kolumnie Macierz n
ii=1,2..N, nr. miasta
- kolejność
1 3
6
4
5
2
1 2 3 4 5 6 1 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1
2 3 4 5 6
Kolejność
M i a s t o
Jak dobrać W?
Dobór wag Dobór wag
Zagadnienia NP-trudne: jak zastosować sieć Hopfielda?
Przykład: najkrótsza droga pomiędzy N miastami.
1 1
2
,
1 2 2
2
2
ik i k k
i k
i i
i
i k
i k
i i
E n d n n n
A n n
B n n
C n N
+ 1 w wierszu Odległość
N miast
+ 1 w kolumnie
Spełnianie ograniczeń Spełnianie ograniczeń
Rozwiązania mogą nie spełniać ograniczeń, obliczanie odbywa się wewnątrz hiperkostki, ma końcu osiągany jest stan poprawny.
Metody optymalizacji - operacje dyskretne, zawsze poprawne.
Zagadnienia wymagające spełniania ograniczeń i optymalizacji:
Problem N królowych: umieścić je na szachownicy NxN tak, by się nie szachowały.
Problem ustawienia skoczków, problem plecakowy ...
Problem rutowania pakietów w sieciach pakietowych.
Dobór funkcji kosztu, metody minimalizacji - intensywnie badane.
Metody wyspecjalizowane radzą sobie lepiej ale wyrafinowane wersje metod pola średniego dają doskonałe rezultaty.
Książka: J. Mandziuk, Sieci neuronowe typu Hopfielda. Teoria i przykłady
zastosowań. Exit 2000.
Model Hopfielda i percepcja Model Hopfielda i percepcja
Interpretacja sygnałów dochodzących do mózgu nie jest jednoznaczna.
Interpretacja musi spełniać ograniczenia:
Tylko jedna litera na danej KOT
pozycji.
Obecność danej litery aktywizuje rozpoznanie słowa.
Cecha na danej pozycji
aktywizuje rozpoznanie
3 słowa 3 słowa
K.. Ą.. .A. ..T ..P
KAT KĄT KAP
Faza snu Faza snu
Sen może być okresem, w którym mózg prowadzi optymalizację zużycia swoich zasobów, utrwalając pewne zdarzenia/fakty i usuwając z pamięci pozostałe.
W modelu CAM Hopfielda szybkość ostatnio poznane są szybciej przypominane.
Wzorce odpowiadające fałszywym minimom można wyeliminować pokazując antywzorce, związane z fałszywymi, płytkimi minimami.
Przypadkowe błądzenie wśród zniekształconych wzorców - sen?
Niektóre neurochipy do prawidłowej pracy muszą działać przez pewien
czas bez żadnych sygnałów wejściowych - okres kalibracji.
Zaburzenia pamięci Zaburzenia pamięci
Są eksperymentalne dowody na to, że za pamięć biologiczną odpowiedzialne są sieci atraktorowe.
Degeneracja pamięci, np. w chorobie Alzheimera, może być związana z utratą słabych synaps.
Jak wpłynie taka utrata na pojemność pamięci?
Kompensacja - pozostałe synapsy mogą się zaadoptować do nowej sytuacji. Jaka kompensacja jest najlepsza?
1 1
n o
ij ij
W W dk
d
d - stopień uszkodzenia k=k(d) funkcja kompensacji
Silne synapsy ulegają dalszemu wzmocnieniu.
Samo d nie świadczy jeszcze o stopniu uszkodzenia pamięci.
Kompensacja
Kompensacja
30
Model amnezji Model amnezji
Pamięć trwała jest rezultatem stanów atraktorowych
minikolumn kory mózgu, zapisana jest więc w synapasch.
Układ neuromodulacji reguluje plastyczność hipokampa i kory.
Pamięć średnioterminowa
zapisana jest w sieciach
hipokampa.
Powstawanie trwałej pamięci
Powstawanie trwałej pamięci
32
Amnezja wsteczna Amnezja wsteczna
Główna przyczyna:
utrata łączy do kory.
Objawy:
gradienty Ribota czyli im
starsze wspomnienia
tym lepiej pamiętane.
Amnezja następcza Amnezja następcza
Główna przyczyna:
uszkodzenie systemu neuromodulacji.
Wtórnie: utrata łączy z korą.
Objawy:
Brak możliwości
zapamiętania nowych
34
Amnezja semantyczna
Główna przyczyna: uszkodzenie łączy wewnątrzkorowych.
Objawy: Trudności w znajdowaniu słów, rozumieniu,
zapamiętanie nowych faktów wymaga ciągłego powtarzania.
Model Leabra (Emergent)
Leabra = Learning in an Error-driven and Associative, Biologically Realistic
Algorithm.
Architektura kognitywna, pozwalająca na symulację złożonych funkcji
psychologicznych.
Opiera się na 6 zasadach.
1. Model punktowego neuronu: całkuj i strzelaj (integrate & fire).
2. kWTA, czyli k zwycięzców bierze
wszystko (hamowanie/konkurencja).
3. Rzadkie rozproszone reprezentacje.
Neurobiologiczne symulacje Neurobiologiczne symulacje
Książka on-line: Randall C. O'Reilly and Yuko Munakata,
Computational Explorations in Cognitive Neuroscience. Understanding the Mind by Simulating the Brain. MIT Press.
Przykłady wykorzystania symulatora Emergent są w moim wykładzie:
Neuropsychologia komputerowa:
http://www.is.umk.pl/~duch/Wyklady/Npsych_plan.html Tutoriale (symulacje) do kolejnych rozdziałów książki.
Porównanie symulatorów sieci neuronowych.
The Virtual Brain – model populacyjny całego mózgu!
LSTM tutorial
Systemy neuromorficzne
Systemy neuromorficzne
Neuromorficzne komputery Neuromorficzne komputery
Projekt Synapse 2015:
IBM TrueNorth 1 chip ok 5.4 mld tranzystorów, 1 mln neuronów i 1/4 mld synaps, 70 mW!
NS16e module = 16 chipów
16 mln neuronów, 4 mld synaps, potrzebuje ok 1.1 wata.
Skalowanie: 256 modułów NS16e to 4 mld neuronów, ok.
1 bld = 10
12synaps, < 300 Wat.
To ~1/20 ludzkiego mózgu …
IBM Neuromorphic System może osiągnąć złożoność ludzkiego mózgu.
IBM Synaptic University – czyli jak to programować?
Intel Lohti neuromorphic chip – przyszłość?
Koniec wykładu 10
Neurodynamika
Spoczynkowa aktywność neuronów (1-5 impulsów/sek)
Ok. 10.000 impulsów/sek dochodzi do neuronu w pobliżu progu.
1. Stabilna sieć z aktywnością spoczynkową: globalny atraktor.
2. Uczenie się przez tworzenie nowych atraktorów.
Model Amit, Brunel 1995
Aktywność tła ma charakter stochastyczny.
Jednorodność: neurony w identycznym środowisku.
Impulsy wysyłane przez różne neurony nie są skorelowane.
Aktywacja neuronu jest sumą wkładów synaptycznych.
Gaussowski rozkład wkładów synaptycznych.
Wystarczy aktywność neuronu = liczbie impulsów na sekundę.
Schemat kolumny
Ogólny schemat sieci: model kolumny, 10
5neuronów.
Kolumna ma około 1 mm
2, 10
5neuronów.
Połączenia: pobudzające i hamujące wewnątrz modułu, pobudzające
Inne obszary
kory Lokalna podsieć
Lokalna podsieć pobudzająca
hamująca
wyjście