13. Sieci stochastyczne

(1)

Home Page Title Page JJ II J I Page1of18 Go Back Full Screen Close Quit

Wykład 13

Sieci stochastyczne

Kazimierz Grygiel

(2)

Jednostki stochastyczne

• Model bipolarny

• Probabilistyczna reguła aktywacji: dla każdej jednostki określone jest warunkowe prawdopodobieństwo przejścia do nowego stanu

P {S_i0 = +1 | S} = pi(S)

P {S_i0 = −1 | S} = q_i(S) gdzie p_i(S) + q_i(S) = 1

• W stochastycznych sieciach Hopfielda przyjmuje się pi(S) = σβ(hi(S)) = 1 1 + e−2βhi(S)) • Wtedy q_i(S) = 1 − σ_β(h_i(S)) = 1 1 + e2βhi(S)) = σβ(−hi(S))

(3)

Pseudotemperatura

• Parametr β można potraktować jako odwrotność „temperatu-ry”: β = 1/T

• Zbadajmy zachowanie jednostki przy T → 0 (dla wygody opusz-czamy zapis warunkowy)

(a) P {S_i0 = +1} = 1 1 + e−2βhi(S)) →      1 gdy hi(S) > 0 0 gdy hi(S) < 0 1/2 gdy hi(S) = 0 (b) P {S_i0 = −1} = 1 1 + e+2βhi(S)) →      1 gdy hi(S) < 0 0 gdy hi(S) > 0 1/2 gdy hi(S) = 0

• Zatem S_i0 = sgn(h_i(S)) gdy β → +∞, z wyjątkiem przypadku, gdy hi(S) = 0 (wtedy ma wartość losową)

(4)

Modele Isinga

• Dziedzina: mechanika statystyczna układów magnetycznych • Rozpatrujemy zbiór atomowych magnesów (zwanych spinami)

rozmieszczonych na regularnej siatce (struktura krystaliczna) • Każdy spin przyjmuje jeden z dwóch możliwych „kierunków”,

(5)

Pole magnetyczne

• W modelu Isinga pole magnetyczne działające na spin i jest dane wzorem

hi =

X

j

wijSj + hzewn

• Współczynniki wij określają siły oddziaływania wymiany i są

zawsze symetryczne

• W niskiej temperaturze spin dąży do ustawienia się równolegle do pola lokalnego h_i – tak, żeby S_i = sgn(hi)

• Fluktuacje termiczne dążą do odwrócenia spinów; w dostatecz-nie wysokiej temperaturze fluktuacje dominują i uporządkowadostatecz-nie spinów zanika

• Ze względu na podobieństwo obydwu modeli, jakościowe przewi-dywania dotyczące modelu Isinga mogą dać wgląd w zachowanie stochastycznej sieci Hopfielda

(6)

Dynamika Glaubera

• Aby uwzględnić wpływ fluktuacji termicznych Glauber wprowa-dził stochastyczną regułę zmiany stanu:

S_i0 :=    +1 z prawdopodobieństwem σ_β(h_i) −1 z prawdopodobieństwem 1 − σβ(hi) gdzie:

h_i – lokalne pole magnetyczne w spinie i β = _k1

BT (T – temp. bezwzględna, kB – stała Boltzmanna)

• Mamy więc teraz

P {S_i0 = ±1} = σ_β(±h_i)

• W niskiej temperaturze sprowadza się to do reguły determini-stycznej:

(7)

Pojedynczy spin w polu zewnętrznym

• Niech S – stan spinu, h – zewnętrzne pole magnetyczne

• Średnia magnetyzacja < S > dla spinu wynosi wtedy < S >= (+1)P {S = +1} + (−1)P {S = −1} = (+1)σ_β(h(S)) + (−1)σ_β(−h(S)) = 1 1 + e−2βh − 1 1 + e2βh = eβh eβh _{+ e}−βh − e−βh e−βh_{+ e}βh = = tgh βh

• Tak samo jest w przypadku, gdy mamy do czynienia z układem wielu spinów, które nie oddziaływują ze sobą (w_ij = 0), czyli z paramagnetykiem

(8)

Ferromagnetyk

• Wszystkie wagi wij są dodatnie, spiny mają tendencję do

usta-wień zgodnych

• Powyżej temperatury krytycznej Tc fluktuacje termiczne

prze-ważają, co powoduje, że < S >= 0 w każdym węźle siatki kry-stalicznej

• Poniżej temperatury krytycznej przeważają oddziaływania i < S >6= 0 i ma tę samą wartość we wszystkich węzłach

• Układ podlega więc przemianie fazowej w temperaturze Tc (np.

dla żelaza Tc = 770oC)

• Spróbujemy zbadać ten efekt w modelu Isinga (i pokazać jego konsekwencje dla sieci Hopfielda)

• W najprostszym modelu przyjmujemy wij = K/N (gdzie K –

stała dodatnia, N – liczba spinów) oraz zaniedbujemy zewnętrz-ne pole magzewnętrz-netyczzewnętrz-ne (hzewn = 0)

(9)

Teoria pola średniego

• Niech S = (S1, . . . , SN) – bieżący stan układu. Wtedy

< S_i0| S >= σβ(hi(S)) − σβ(−hi(S)) = tgh βhi(S)

• Stąd średnia bezwarunkowa magnetyzacja dla i jest równa1

< Si>= X s < S 0 i| S = s > P {S = s} = X s tgh βhi(s)P {S = s} =< tgh βhi(S) >

• Nie umiemy rozwiązać dokładnie tego układu równań, ale mo-żemy (dla dużego N ) zastosować przybliżenie oparte na cen-tralnym twierdzeniu granicznym (dające niekiedy zupełnie po-prawny opis jakościowy zjawiska):

< tgh βhi(S) >≈ tgh(β < hi(S) >) = tgh(β

X

j

wij< Sj>)

1 _{Wykonujemy sumowanie po wszystkich możliwych wartościach stanu S z}

(10)

Rozwiązania jednorodne

• Kładąc < Sj>= M dla wszystkich j otrzymujemy stąd (przy wij = K/N )

równanie

M = tgh(βKM )

• Można je rozwiązać graficznie (na wykresie pokazane przypadki βK ¬ 1 i βK > 1)

Wykresy funkcji y = tgh x oraz y = x/βK dla różnych wartości βK. (Wska-zówka: _dxd tgh(ax) |

(11)

Dyskusja

• W zależności od wartości βK = K/T równanie ma jedno roz-wiązanie M = 0 (gdy T /K 1) lub trzy rozwiązania (gdy T /K < 1), z których dwa są symetryczne i różne od zera • „Temperatura krytyczna” jest tu równa Tc = K

• Dla T < Tc istnieją dwa stabilne wobec małych zakłóceń

roz-wiązania odpowiadające przeciwnym wartościom średniej ma-gnetyzacji spontanicznej i jedno niestabilne rozwiązanie trywial-ne

• Dla T Tc istnieje tylko jedno trywialne rozwiązanie

odpowia-dające utracie magnetyzacji

(12)

Zależność od temperatury

(13)

Równoważność modeli

• W modelu Isinga dla ferromagnetyku mamy (przy K = 1) h_i = 1 N X j S_j • Kładąc Si = ξiS˜i dostajemy h_i = 1 N X j ξ_jS˜_j czyli ξ_ih_i = 1 N X j ξ_iξ_jS˜_j = X j w_ijS˜_j = ˜h_i

• Zatem przechodząc od zmiennych Si do zmiennych ˜Si = Si/ξi

otrzymujemy model stochastycznej sieci Hopfielda z jednym za-pamiętanym wzorcem ξ

(14)

Przejścia fazowe w sieci Hopfielda

• Przez bezpośrednią analogię, równania pola średniego dla sieci Hopfielda

będą miały postać < ˜Si>= tgh(β 1 N X j ξiξj < ˜Sj>)

• W przypadku, gdy < ˜Sj >= M ξj dla pewnego M oraz j = 1, . . . , N

otrzymujemy stąd równanie

ξiM = tgh(βξiM )

a ponieważ ξi = ±1 oraz tgh(−x) = − tgh(x), to

ξiM = ξitgh(βM )

czyli M spełnia to samo równanie, co w modelu Isinga (przy K = 1):

M = tgh(βM ) • Wobec tego

(15)

Wnioski końcowe

• Oznaczmy r = const = P { ˜Si = ξi}. Wtedy średnią liczbę N r

poprawnie odtworzonych pozycji wzorca ξ możemy wyznaczyć z równania

N (r − (1 − r)) = N M skąd N r = N₂ (1 + M )

• Powyżej temperatury krytycznej Tc wartość M jest równa zeru,

czyli N r = N/2

• Powyższe rozumowanie można uogólnić na przypadek wielu za-pamiętanych wzorców (przy założeniu, że p N )

• Zmiana zachowania sieci w pobliżu temperatury krytycznej jest gwałtowna: sieć nagle przestaje działać

• Wprowadzenie jednostek stochastycznych daje praktyczną ko-rzyść, gdyż w odpowiedniej temperaturze zanika stabilność więk-szości stanów fałszywych (każdy typ stanów mieszanych ma swoją temperaturę krytyczną)

(16)

Liczba odtwarzanych pozycji

Średnia liczba poprawnie odtwarzanych pozycji wzorca jako funkcja tem-peratury

(17)

Wiele zapamiętanych wzorców

• Wnioski z powyższej analizy pozostają słuszne w przypadku p wzorców, gdy p N ; w szczególności stany odpowiadające zapamiętanym wzorcom pozostają stabilne w niskich tempera-turach

• Nadal występują stany fałszywe, jednak każdy z nich ma swoją temperaturę krytyczną, powyżej której przestaje być stabilny • Najwyższa z tych temperatur (z wyjątkiem przypadku stanów

odbitych) jest równa ok. 0.46, tak więc wprowadzenie szumu może poprawić działanie sieci

• Analiza zachowania sieci w przypadku większej liczby zapamięta-nych wzorców jest trudna; przybliżone oszacowanie daje wartość krytyczną p/N ≈ 0.138, powyżej której zdolność odtwarzania wzorców załamuje się w sposób nagły

(18)

Co dalej?

• Maszyny Boltzmanna (uogólnione sieci Hopfielda z podziałem jednostek na widzialne i ukryte)

• Teoria generalizacji • Inne schematy uczenia

– uczenie z krytykiem (ze wzmocnieniem), modelowanie

śro-dowiska

– uczenie bez nadzoru

– konkurencyjne uczenie bez nadzoru – uczenie hybrydowe

• Odwzorowanie cech znaczących (mapa topograficzna), algorytm Kohonena