• Nie Znaleziono Wyników

12. Sieci rekurencyjne

N/A
N/A
Protected

Academic year: 2021

Share "12. Sieci rekurencyjne"

Copied!
17
0
0

Pełen tekst

(1)

Home Page Title Page JJ II J I Page1of17 Go Back Full Screen Close Quit

Wykład 12

Sieci rekurencyjne

Kazimierz Grygiel

(2)

Home Page Title Page JJ II J I Page2of17 Go Back Full Screen Close Quit

Pamięć asocjacyjna

• Zadanie:

Zapamiętaj zbiór p wzorców (prototypów) ξµ w taki spo-sób, aby po zaprezentowaniu nowego wzorca ζ reakcją sieci było wytworzenie tego spośród zapamiętanych wzor-ców, który jest najbardziej podobny do ζ

• Jest to koncepcja pamięci adresowanej treścią, zwanej też pa-mięcią asocjacyjną

• Przykładowe zastosowania:

– rozpoznawanie i rekonstrukcja obrazów

– wyszukiwanie informacji bibliograficznych na podstawie

(3)

Home Page Title Page JJ II J I Page3of17 Go Back Full Screen Close Quit

Architektura i działanie sieci

rekuren-cyjnej

• Dowolna topologia - brak uwarstwienia

• Każda jednostka może być traktowana jako wejściowa i

wyjścio-wa jednocześnie

• Wzorzec wejściowy określa stan początkowy jednostek sieci • Jednostki sieci zmieniają stan zgodnie z regułą aktualizacji

-synchronicznie lub a-synchronicznie

• Jeśli sieć osiągnie stan stacjonarny (ustabilizuje się), to określa

on odpowiedź sieci (wzorzec wyjściowy)

• Formalnie:

(4)

Home Page Title Page JJ II J I Page4of17 Go Back Full Screen Close Quit

(5)

Home Page Title Page JJ II J I Page5of17 Go Back Full Screen Close Quit

(6)

Home Page Title Page JJ II J I Page6of17 Go Back Full Screen Close Quit

Warunki stabilności (1)

• Rozważamy model dyskretny, bipolarny

• Najprostszy przypadek: dwie jednostki i, j (bez „pętli”) • Analiza

Warunek stabilności dla jednostki i

Si(t+1) = Si(t)

Równanie reakcji

Si = sgn(wijSj) = sgn(wij)Sj

Stąd

SiSj = sgn(wij)Sj2 = sgn(wij)

Analogicznie dla jednostki j

SjSi = sgn(wji)

Oba te warunki można spełnić przyjmując

(7)

Home Page Title Page JJ II J I Page7of17 Go Back Full Screen Close Quit

Warunki stabilności (2)

• Powyższy wynik można uogólnić na przypadek N jednostek (dla

jednego wzorca ξ długości N )

• Równania punktu stałego (warunki stabilności wzorca) ξi = sgn(

X

j

wijξj)

• Dla wij = αξiξj (gdzie α > 0, i, j – dowolne) równanie jest

spełnione, bo wtedy X j wijξj = α X j ξiξj2 = αN ξi,

więc po prawej stronie mamy sgn(αN ξi) = ξi

• Wariant znormalizowany: α = 1/N ; wtedy po prostu

X

j

(8)

Home Page Title Page JJ II J I Page8of17 Go Back Full Screen Close Quit

Korygowanie błędów

• Niech ζ będzie dowolnym wzorcem N -wymiarowym różniącym

się na k pozycjach od zapamiętanego wzorca ξ: (ζ | ξ) = X j ζjξj = N − 2k • Mamy wówczas Si = sgn( X j ξiξjζj) = ξisgn((ζ | ξ)) = ξisgn(N − 2k) • Zatem S = ξ, gdy k ¬ N/2 S = −ξ, gdy k > N/2

• Istnieją więc dwa atraktory: ξ i −ξ (ten drugi zwany też stanem odbitym)

(9)

Home Page Title Page JJ II J I Page9of17 Go Back Full Screen Close Quit

Reguła Hebba

• Jak dobierać wagi w celu zapamiętania wielu wzorców? • Najprostsze ugólnienie (zwane regułą Hebba):

wij = 1 N p X µ=1 ξiµξjµ

• Zbadajmy stabilność wzorca ξν

i =X j wijξjν = 1 N X j X µ ξiµξjµξjν = 1 N X j iν + X µ6=ν ξiµξjµξjν) = ξiν+ 1 N X µ6=ν ξiµξjµξjν = ξiν + przesłuch

Zatem jeśli | przesłuch |< 1, to wzorzec jest stabilny

• Tak będzie, jeśli liczba wzorców p jest dostatecznie mała

• Własność korygowania nadal występuje (układ zmierza w

kie-runku najbliższego wzorca)

(10)

Home Page Title Page JJ II J I Page10of17 Go Back Full Screen Close Quit

Metody aktualizacji stanów

• Lokalna reguła aktualizacji

Si := sgn(X

j

wijSj)

• Dynamika synchroniczna: czas centralnie taktowany, stan

wszyst-kich jednostek zmienia się jednocześnie

• Dynamika asynchroniczna: czas lokalny dla jednostki

– realizacja sekwencyjna: w każdej chwili wybieramy losowo

jednostkę i-tą i aktualizujemy jej stan

– realizacja równoległa: każda jednostka aktualizuje swój stan

niezależnie od innych, z pewnym stałym (dostatecznie ma-łym) prawdopodobieństwem na jednostkę czasu

• Model Hopfielda: dyskretna bipolarna sieć rekurencyjna z

wa-gami określonymi za pomocą reguły Hebba i asynchroniczną dynamiką

(11)

Home Page Title Page JJ II J I Page11of17 Go Back Full Screen Close Quit

Jeszcze o dynamice

S10 = sgn(S2) = S2; S 0 2 = sgn(S1) = S1   –/–   +/+       –/+   +/– 6 ? Dynamika synchroniczna   –/–   +/+       –/+   +/–            9 X X X X X X X X X y Dynamika asynchroniczna

(12)

Home Page Title Page JJ II J I Page12of17 Go Back Full Screen Close Quit

Funkcja energii dla sieci

rekurencyj-nych

• Koncepcja: J.J. Hopfield (1982)

• Idea: energia maleje (lub pozostaje stała), gdy układ ewoluuje

zgodnie z regułą dynamiczną

• Stanom stabilnym odpowiadają minima lokalne funkcji energii • Silne narzędzie do badania dynamiki sieci

• Ogólny warunek istnienia funkcji energii dla sieci

rozpatrywane-go typu: symetryczność wag (wij = wji), nieujemne sprzężenia zwrotne (wii ­ 0)

• Postać funkcji energii

H = −1

2

X

ij

(13)

Home Page Title Page JJ II J I Page13of17 Go Back Full Screen Close Quit

Ewolucja sieci Hopfielda

• Dla wag symetrycznych możemy zapisać

H = C − X

{i,j}

wijSiSj, gdzie C - pewna stała

• Układ ewoluuje asynchronicznie zgodnie z regułą lokalną Sk0 = sgn(X

j

wkjSj)

• Jeśli Sk0 = Sk, to energia nie zmienia się

• Jeśli Sk0 = −Sk, to mamy H0− H = − X j6=k wkjS 0 kSj + X j6=k wkjSkSj = 2Sk X j6=k wkjSj = 2Sk X j wkjSj − 2wkk < 0

bo SkPjwkjSj ¬ 0, a wkk = p/N zgodnie z regułą Hebba

(14)

Home Page Title Page JJ II J I Page14of17 Go Back Full Screen Close Quit

Uwagi i uzupełnienia

• Dla dowodu warunek wii > 0 jest istotny – może się bowiem

zdarzyć, że X

j

wkjSj = 0, mimo że SkSk0 < 0 (bo sgn(0) = 1) i

przy wii = 0 energia nie zmniejszyłaby się mimo zmiany stanu. Jednak przejścia bez zmiany energii są jednokierunkowe (−1 → 1), więc może ich być co najwyżej N i (jakiś) stan stabilny w końcu zostaje osiągnięty

• Okazuje się, że dodatnie wagi wii dla dużych N nie wnoszą

istotnej różnicy do stabilności wzorców, natomiast silnie wpły-wają na dynamikę i liczbę stanów fałszywych, więc zaleca się je pomijać

• Widać to ze wzoru

Si := sgn(wiiSi + X

j6=i

wijSj)

– gdyby wii było większe niż

X

j6=i

wijSj, to oba stany Si = +1 i Si = −1

(15)

Home Page Title Page JJ II J I Page15of17 Go Back Full Screen Close Quit

Pojemność pamięci w sieci Hopfielda

• Wiemy już, że skuteczność odtwarzania zapamiętanych wzorców

zależy od ich liczby p

• Dla jakich wartości p sieć zachowuje się zadowalająco?

• Kryteria poprawności (dla wzorców wybranych losowo i

nieza-leżnie)

(a) błąd na dowolnie wybranej pozycji dowolnie wybranego wzorca

α = P {ξiν jest niestabilny } < 0.01

(b) jakikolwiek błąd na dowolnie wybranym wzorcu (długości N ) (1 − α)N > 0.99 ⇒ α < 0.01

N

(c) jakikolwiek błąd na jakimkolwiek wzorcu

(1 − α)N p > 0.99 ⇒ α < 0.01 N p

(16)

Home Page Title Page JJ II J I Page16of17 Go Back Full Screen Close Quit

Oszacowania teoretyczne

• Podstawowe oszacowanie dla przypadku (a): pmax = 0.185N • Przełączenie się 1% neuronów może wywołać ”kaskadę”

dal-szych przełączeń; uwzględnienie tego zjawiska prowadzi do kon-serwatywnego oszacowania dla (a):

pmax = 0.138N • Oszacowanie dla przypadku (b)

pmax = N

2 log N

• Oszacowanie dla przypadku (c):

pmax = N

(17)

Home Page Title Page JJ II J I Page17of17 Go Back Full Screen Close Quit

Ćwiczenia

1. Pokaż, że stany (-1,1,-1) i (1,-1,1) są punktami stałymi sieci przedstawionej na slajdzie nr 4 (tutaj).

2. Wyzeruj wagi na przekątnej i pokaż, że tak otrzymana sieć (a) błędnie klasyfikuje wzorzec (-1 -1 -1) przy dynamice

syn-chronicznej

(b) zachowuje się niederministycznie (osiąga różne stany finalne dla tego samego wzorca) przy dynamice asynchronicznej 3. Narysuj diagramy przejść dla powyższej sieci w obu wariantach

Cytaty

Powiązane dokumenty

Żeby w informatyce wykorzystać potencjał funkcjonalny neuronu oraz całej ich sieci (grafu), zwanych często sieciami neuronowymi, trzeba opracować uproszczony model działania

Przy p wektorach w warstwie pierwszej pojemność pamieci Hamminga jest równa p, gdyż każdy neuron..

Ułóż jadłospis na cały dzień uwzględniając warzywa i owoce w każdym

podczas dynamiki osiągane jest minimum (być może lokalne!) funkcji energetycznej w skończonym czasie. Wykorzystamy dynamikę asynchroniczną sieci do znajdowania rozwiązania

12-1 Gradienty dla sieci dwuwarstwowej: graf wpływów 12-2 Gradienty dla sieci dwuwarstwowej: warstwa wyjściowa 12-3 Gradienty dla sieci dwuwarstwowej: warstwa ukryta 12-4 BP

∙ metoda treningu sekwencji, gdy nie ma dostępnego dopasowania ramek (aligement), długość sekwencji wejściowej jest dłuższa od sekwencji wyjściowej, np.. Connectionist

Masz do dyspozycji jeden router typu Router-PT-Empty, cztery przełączniki typu Switch- PT-Empty, komputery PC-PT, adres sieci głównej 75.112.0.0/16oraz następującą liczbę

spontaniczna aktywność jest stabilna w czasie lokalnego uczenia się, moduł uczący się ma podwyższoną częstość impulsacji wśród neuronów biorących udział w kodowaniu wzorca