Home Page Title Page JJ II J I Page1of18 Go Back Full Screen Close Quit
Wykład 13
Sieci stochastyczne
Kazimierz GrygielHome Page Title Page JJ II J I Page2of18 Go Back Full Screen Close Quit
Jednostki stochastyczne
• Model bipolarny• Probabilistyczna reguła aktywacji: dla każdej jednostki określone jest warunkowe prawdopodobieństwo przejścia do nowego stanu
P {Si0 = +1 | S} = pi(S)
P {Si0 = −1 | S} = qi(S) gdzie pi(S) + qi(S) = 1
• W stochastycznych sieciach Hopfielda przyjmuje się pi(S) = σβ(hi(S)) = 1 1 + e−2βhi(S)) • Wtedy qi(S) = 1 − σβ(hi(S)) = 1 1 + e2βhi(S)) = σβ(−hi(S))
Home Page Title Page JJ II J I Page3of18 Go Back Full Screen Close Quit
Pseudotemperatura
• Parametr β można potraktować jako odwrotność „temperatu-ry”: β = 1/T
• Zbadajmy zachowanie jednostki przy T → 0 (dla wygody opusz-czamy zapis warunkowy)
(a) P {Si0 = +1} = 1 1 + e−2βhi(S)) → 1 gdy hi(S) > 0 0 gdy hi(S) < 0 1/2 gdy hi(S) = 0 (b) P {Si0 = −1} = 1 1 + e+2βhi(S)) → 1 gdy hi(S) < 0 0 gdy hi(S) > 0 1/2 gdy hi(S) = 0
• Zatem Si0 = sgn(hi(S)) gdy β → +∞, z wyjątkiem przypadku, gdy hi(S) = 0 (wtedy ma wartość losową)
Home Page Title Page JJ II J I Page4of18 Go Back Full Screen Close Quit
Modele Isinga
• Dziedzina: mechanika statystyczna układów magnetycznych • Rozpatrujemy zbiór atomowych magnesów (zwanych spinami)
rozmieszczonych na regularnej siatce (struktura krystaliczna) • Każdy spin przyjmuje jeden z dwóch możliwych „kierunków”,
Home Page Title Page JJ II J I Page5of18 Go Back Full Screen Close Quit
Pole magnetyczne
• W modelu Isinga pole magnetyczne działające na spin i jest dane wzorem
hi =
X
j
wijSj + hzewn
• Współczynniki wij określają siły oddziaływania wymiany i są
zawsze symetryczne
• W niskiej temperaturze spin dąży do ustawienia się równolegle do pola lokalnego hi – tak, żeby Si = sgn(hi)
• Fluktuacje termiczne dążą do odwrócenia spinów; w dostatecz-nie wysokiej temperaturze fluktuacje dominują i uporządkowadostatecz-nie spinów zanika
• Ze względu na podobieństwo obydwu modeli, jakościowe przewi-dywania dotyczące modelu Isinga mogą dać wgląd w zachowanie stochastycznej sieci Hopfielda
Home Page Title Page JJ II J I Page6of18 Go Back Full Screen Close Quit
Dynamika Glaubera
• Aby uwzględnić wpływ fluktuacji termicznych Glauber wprowa-dził stochastyczną regułę zmiany stanu:
Si0 := +1 z prawdopodobieństwem σβ(hi) −1 z prawdopodobieństwem 1 − σβ(hi) gdzie:
hi – lokalne pole magnetyczne w spinie i β = k1
BT (T – temp. bezwzględna, kB – stała Boltzmanna)
• Mamy więc teraz
P {Si0 = ±1} = σβ(±hi)
• W niskiej temperaturze sprowadza się to do reguły determini-stycznej:
Home Page Title Page JJ II J I Page7of18 Go Back Full Screen Close Quit
Pojedynczy spin w polu zewnętrznym
• Niech S – stan spinu, h – zewnętrzne pole magnetyczne• Średnia magnetyzacja < S > dla spinu wynosi wtedy < S >= (+1)P {S = +1} + (−1)P {S = −1} = (+1)σβ(h(S)) + (−1)σβ(−h(S)) = 1 1 + e−2βh − 1 1 + e2βh = eβh eβh + e−βh − e−βh e−βh+ eβh = = tgh βh
• Tak samo jest w przypadku, gdy mamy do czynienia z układem wielu spinów, które nie oddziaływują ze sobą (wij = 0), czyli z paramagnetykiem
Home Page Title Page JJ II J I Page8of18 Go Back Full Screen Close Quit
Ferromagnetyk
• Wszystkie wagi wij są dodatnie, spiny mają tendencję do
usta-wień zgodnych
• Powyżej temperatury krytycznej Tc fluktuacje termiczne
prze-ważają, co powoduje, że < S >= 0 w każdym węźle siatki kry-stalicznej
• Poniżej temperatury krytycznej przeważają oddziaływania i < S >6= 0 i ma tę samą wartość we wszystkich węzłach
• Układ podlega więc przemianie fazowej w temperaturze Tc (np.
dla żelaza Tc = 770oC)
• Spróbujemy zbadać ten efekt w modelu Isinga (i pokazać jego konsekwencje dla sieci Hopfielda)
• W najprostszym modelu przyjmujemy wij = K/N (gdzie K –
stała dodatnia, N – liczba spinów) oraz zaniedbujemy zewnętrz-ne pole magzewnętrz-netyczzewnętrz-ne (hzewn = 0)
Home Page Title Page JJ II J I Page9of18 Go Back Full Screen Close Quit
Teoria pola średniego
• Niech S = (S1, . . . , SN) – bieżący stan układu. Wtedy
< Si0| S >= σβ(hi(S)) − σβ(−hi(S)) = tgh βhi(S)
• Stąd średnia bezwarunkowa magnetyzacja dla i jest równa1
< Si>= X s < S 0 i| S = s > P {S = s} = X s tgh βhi(s)P {S = s} =< tgh βhi(S) >
• Nie umiemy rozwiązać dokładnie tego układu równań, ale mo-żemy (dla dużego N ) zastosować przybliżenie oparte na cen-tralnym twierdzeniu granicznym (dające niekiedy zupełnie po-prawny opis jakościowy zjawiska):
< tgh βhi(S) >≈ tgh(β < hi(S) >) = tgh(β
X
j
wij< Sj>)
1 Wykonujemy sumowanie po wszystkich możliwych wartościach stanu S z
Home Page Title Page JJ II J I Page10of18 Go Back Full Screen Close Quit
Rozwiązania jednorodne
• Kładąc < Sj>= M dla wszystkich j otrzymujemy stąd (przy wij = K/N )
równanie
M = tgh(βKM )
• Można je rozwiązać graficznie (na wykresie pokazane przypadki βK ¬ 1 i βK > 1)
Wykresy funkcji y = tgh x oraz y = x/βK dla różnych wartości βK. (Wska-zówka: dxd tgh(ax) |
Home Page Title Page JJ II J I Page11of18 Go Back Full Screen Close Quit
Dyskusja
• W zależności od wartości βK = K/T równanie ma jedno roz-wiązanie M = 0 (gdy T /K 1) lub trzy rozwiązania (gdy T /K < 1), z których dwa są symetryczne i różne od zera • „Temperatura krytyczna” jest tu równa Tc = K
• Dla T < Tc istnieją dwa stabilne wobec małych zakłóceń
roz-wiązania odpowiadające przeciwnym wartościom średniej ma-gnetyzacji spontanicznej i jedno niestabilne rozwiązanie trywial-ne
• Dla T Tc istnieje tylko jedno trywialne rozwiązanie
odpowia-dające utracie magnetyzacji
Home Page Title Page JJ II J I Page12of18 Go Back Full Screen Close Quit
Zależność od temperatury
Home Page Title Page JJ II J I Page13of18 Go Back Full Screen Close Quit
Równoważność modeli
• W modelu Isinga dla ferromagnetyku mamy (przy K = 1) hi = 1 N X j Sj • Kładąc Si = ξiS˜i dostajemy hi = 1 N X j ξjS˜j czyli ξihi = 1 N X j ξiξjS˜j = X j wijS˜j = ˜hi
• Zatem przechodząc od zmiennych Si do zmiennych ˜Si = Si/ξi
otrzymujemy model stochastycznej sieci Hopfielda z jednym za-pamiętanym wzorcem ξ
Home Page Title Page JJ II J I Page14of18 Go Back Full Screen Close Quit
Przejścia fazowe w sieci Hopfielda
• Przez bezpośrednią analogię, równania pola średniego dla sieci Hopfielda
będą miały postać < ˜Si>= tgh(β 1 N X j ξiξj < ˜Sj>)
• W przypadku, gdy < ˜Sj >= M ξj dla pewnego M oraz j = 1, . . . , N
otrzymujemy stąd równanie
ξiM = tgh(βξiM )
a ponieważ ξi = ±1 oraz tgh(−x) = − tgh(x), to
ξiM = ξitgh(βM )
czyli M spełnia to samo równanie, co w modelu Isinga (przy K = 1):
M = tgh(βM ) • Wobec tego
Home Page Title Page JJ II J I Page15of18 Go Back Full Screen Close Quit
Wnioski końcowe
• Oznaczmy r = const = P { ˜Si = ξi}. Wtedy średnią liczbę N r
poprawnie odtworzonych pozycji wzorca ξ możemy wyznaczyć z równania
N (r − (1 − r)) = N M skąd N r = N2 (1 + M )
• Powyżej temperatury krytycznej Tc wartość M jest równa zeru,
czyli N r = N/2
• Powyższe rozumowanie można uogólnić na przypadek wielu za-pamiętanych wzorców (przy założeniu, że p N )
• Zmiana zachowania sieci w pobliżu temperatury krytycznej jest gwałtowna: sieć nagle przestaje działać
• Wprowadzenie jednostek stochastycznych daje praktyczną ko-rzyść, gdyż w odpowiedniej temperaturze zanika stabilność więk-szości stanów fałszywych (każdy typ stanów mieszanych ma swoją temperaturę krytyczną)
Home Page Title Page JJ II J I Page16of18 Go Back Full Screen Close Quit
Liczba odtwarzanych pozycji
Średnia liczba poprawnie odtwarzanych pozycji wzorca jako funkcja tem-peratury
Home Page Title Page JJ II J I Page17of18 Go Back Full Screen Close Quit
Wiele zapamiętanych wzorców
• Wnioski z powyższej analizy pozostają słuszne w przypadku p wzorców, gdy p N ; w szczególności stany odpowiadające zapamiętanym wzorcom pozostają stabilne w niskich tempera-turach
• Nadal występują stany fałszywe, jednak każdy z nich ma swoją temperaturę krytyczną, powyżej której przestaje być stabilny • Najwyższa z tych temperatur (z wyjątkiem przypadku stanów
odbitych) jest równa ok. 0.46, tak więc wprowadzenie szumu może poprawić działanie sieci
• Analiza zachowania sieci w przypadku większej liczby zapamięta-nych wzorców jest trudna; przybliżone oszacowanie daje wartość krytyczną p/N ≈ 0.138, powyżej której zdolność odtwarzania wzorców załamuje się w sposób nagły
Home Page Title Page JJ II J I Page18of18 Go Back Full Screen Close Quit
Co dalej?
• Maszyny Boltzmanna (uogólnione sieci Hopfielda z podziałem jednostek na widzialne i ukryte)
• Teoria generalizacji • Inne schematy uczenia
– uczenie z krytykiem (ze wzmocnieniem), modelowanie
śro-dowiska
– uczenie bez nadzoru
– konkurencyjne uczenie bez nadzoru – uczenie hybrydowe
• Odwzorowanie cech znaczących (mapa topograficzna), algorytm Kohonena