12. Sieci rekurencyjne

(1)

Home Page Title Page JJ II J I Page1of17 Go Back Full Screen Close Quit

Wykład 12

Sieci rekurencyjne

Kazimierz Grygiel

(2)

Pamięć asocjacyjna

• Zadanie:

Zapamiętaj zbiór p wzorców (prototypów) ξµ w taki spo-sób, aby po zaprezentowaniu nowego wzorca ζ reakcją sieci było wytworzenie tego spośród zapamiętanych wzor-ców, który jest najbardziej podobny do ζ

• Jest to koncepcja pamięci adresowanej treścią, zwanej też pa-mięcią asocjacyjną

• Przykładowe zastosowania:

– rozpoznawanie i rekonstrukcja obrazów

– wyszukiwanie informacji bibliograficznych na podstawie

(3)

Architektura i działanie sieci

rekuren-cyjnej

• Dowolna topologia - brak uwarstwienia

• Każda jednostka może być traktowana jako wejściowa i

wyjścio-wa jednocześnie

• Wzorzec wejściowy określa stan początkowy jednostek sieci • Jednostki sieci zmieniają stan zgodnie z regułą aktualizacji

-synchronicznie lub a-synchronicznie

• Jeśli sieć osiągnie stan stacjonarny (ustabilizuje się), to określa

on odpowiedź sieci (wzorzec wyjściowy)

• Formalnie:

(4)

(5)

(6)

Warunki stabilności (1)

• Rozważamy model dyskretny, bipolarny

• Najprostszy przypadek: dwie jednostki i, j (bez „pętli”) • Analiza

Warunek stabilności dla jednostki i

Si(t+1) = Si(t)

Równanie reakcji

Si = sgn(wijSj) = sgn(wij)Sj

Stąd

SiSj = sgn(wij)Sj2 = sgn(wij)

Analogicznie dla jednostki j

SjSi = sgn(wji)

Oba te warunki można spełnić przyjmując

(7)

Warunki stabilności (2)

• Powyższy wynik można uogólnić na przypadek N jednostek (dla

jednego wzorca ξ długości N )

• Równania punktu stałego (warunki stabilności wzorca) ξi = sgn(

X

j

wijξj)

• Dla wij = αξiξj (gdzie α > 0, i, j – dowolne) równanie jest

spełnione, bo wtedy X j wijξj = α X j ξiξ_j2 = αN ξi,

więc po prawej stronie mamy sgn(αN ξ_i) = ξ_i

• Wariant znormalizowany: α = 1/N ; wtedy po prostu

X

j

(8)

Korygowanie błędów

• Niech ζ będzie dowolnym wzorcem N -wymiarowym różniącym

się na k pozycjach od zapamiętanego wzorca ξ: (ζ | ξ) = X j ζjξj = N − 2k • Mamy wówczas Si = sgn( X j ξiξjζj) = ξisgn((ζ | ξ)) = ξisgn(N − 2k) • Zatem S = ξ, gdy k ¬ N/2 S = −ξ, gdy k > N/2

• Istnieją więc dwa atraktory: ξ i −ξ (ten drugi zwany też stanem odbitym)

(9)

Reguła Hebba

• Jak dobierać wagi w celu zapamiętania wielu wzorców? • Najprostsze ugólnienie (zwane regułą Hebba):

wij = 1 N p X µ=1 ξ_iµξ_jµ

• Zbadajmy stabilność wzorca ξν

hν_i =X j wijξjν = 1 N X j X µ ξ_iµξ_jµξ_jν = 1 N X j (ξ_iν + X µ6=ν ξ_iµξ_jµξ_jν) = ξ_iν+ 1 N X µ6=ν ξ_iµξ_jµξ_jν = ξ_iν + przesłuch

• Zatem jeśli | przesłuch |< 1, to wzorzec jest stabilny

• Tak będzie, jeśli liczba wzorców p jest dostatecznie mała

• Własność korygowania nadal występuje (układ zmierza w

kie-runku najbliższego wzorca)

(10)

Metody aktualizacji stanów

• Lokalna reguła aktualizacji

S_i := sgn(X

j

w_ijS_j)

• Dynamika synchroniczna: czas centralnie taktowany, stan

wszyst-kich jednostek zmienia się jednocześnie

• Dynamika asynchroniczna: czas lokalny dla jednostki

– realizacja sekwencyjna: w każdej chwili wybieramy losowo

jednostkę i-tą i aktualizujemy jej stan

– realizacja równoległa: każda jednostka aktualizuje swój stan

niezależnie od innych, z pewnym stałym (dostatecznie ma-łym) prawdopodobieństwem na jednostkę czasu

• Model Hopfielda: dyskretna bipolarna sieć rekurencyjna z

wa-gami określonymi za pomocą reguły Hebba i asynchroniczną dynamiką

(11)

Jeszcze o dynamice

S₁0 = sgn(S2) = S2; S 0 2 = sgn(S1) = S1 –/– +/+ –/+ +/– 6 ? Dynamika synchroniczna –/– +/+ –/+ +/– 9 X X X X X X X X X y Dynamika asynchroniczna

(12)

Funkcja energii dla sieci

rekurencyj-nych

• Koncepcja: J.J. Hopfield (1982)

• Idea: energia maleje (lub pozostaje stała), gdy układ ewoluuje

zgodnie z regułą dynamiczną

• Stanom stabilnym odpowiadają minima lokalne funkcji energii • Silne narzędzie do badania dynamiki sieci

• Ogólny warunek istnienia funkcji energii dla sieci

rozpatrywane-go typu: symetryczność wag (w_ij = w_ji), nieujemne sprzężenia zwrotne (wii  0)

• Postać funkcji energii

H = −1

2

X

ij

(13)

Ewolucja sieci Hopfielda

• Dla wag symetrycznych możemy zapisać

H = C − X

{i,j}

wijSiSj, gdzie C - pewna stała

• Układ ewoluuje asynchronicznie zgodnie z regułą lokalną S_k0 = sgn(X

j

w_kjS_j)

• Jeśli S_k0 = S_k, to energia nie zmienia się

• Jeśli S_k0 = −Sk, to mamy H0− H = − X j6=k wkjS 0 kSj + X j6=k wkjSkSj = 2Sk X j6=k wkjSj = 2Sk X j wkjSj − 2wkk < 0

bo SkPjwkjSj ¬ 0, a wkk = p/N zgodnie z regułą Hebba

(14)

Uwagi i uzupełnienia

• Dla dowodu warunek wii > 0 jest istotny – może się bowiem

zdarzyć, że X

j

w_kjS_j = 0, mimo że S_kS_k0 < 0 (bo sgn(0) = 1) i

przy w_ii = 0 energia nie zmniejszyłaby się mimo zmiany stanu. Jednak przejścia bez zmiany energii są jednokierunkowe (−1 → 1), więc może ich być co najwyżej N i (jakiś) stan stabilny w końcu zostaje osiągnięty

• Okazuje się, że dodatnie wagi wii dla dużych N nie wnoszą

istotnej różnicy do stabilności wzorców, natomiast silnie wpły-wają na dynamikę i liczbę stanów fałszywych, więc zaleca się je pomijać

• Widać to ze wzoru

S_i := sgn(w_iiS_i + X

j6=i

w_ijS_j)

– gdyby wii było większe niż

X

j6=i

wijSj, to oba stany Si = +1 i Si = −1

(15)

Pojemność pamięci w sieci Hopfielda

• Wiemy już, że skuteczność odtwarzania zapamiętanych wzorców

zależy od ich liczby p

• Dla jakich wartości p sieć zachowuje się zadowalająco?

• Kryteria poprawności (dla wzorców wybranych losowo i

nieza-leżnie)

(a) błąd na dowolnie wybranej pozycji dowolnie wybranego wzorca

α = P {ξ_iν jest niestabilny } < 0.01

(b) jakikolwiek błąd na dowolnie wybranym wzorcu (długości N ) (1 − α)N > 0.99 ⇒ α < 0.01

N

(c) jakikolwiek błąd na jakimkolwiek wzorcu

(1 − α)N p > 0.99 ⇒ α < 0.01 N p

(16)

Oszacowania teoretyczne

• Podstawowe oszacowanie dla przypadku (a): pmax = 0.185N • Przełączenie się 1% neuronów może wywołać ”kaskadę”

dal-szych przełączeń; uwzględnienie tego zjawiska prowadzi do kon-serwatywnego oszacowania dla (a):

pmax = 0.138N • Oszacowanie dla przypadku (b)

pmax = N

2 log N

• Oszacowanie dla przypadku (c):

pmax = N

(17)

Ćwiczenia

1. Pokaż, że stany (-1,1,-1) i (1,-1,1) są punktami stałymi sieci przedstawionej na slajdzie nr 4 (tutaj).

2. Wyzeruj wagi na przekątnej i pokaż, że tak otrzymana sieć (a) błędnie klasyfikuje wzorzec (-1 -1 -1) przy dynamice

syn-chronicznej

(b) zachowuje się niederministycznie (osiąga różne stany finalne dla tego samego wzorca) przy dynamice asynchronicznej 3. Narysuj diagramy przejść dla powyższej sieci w obu wariantach