2012-01-17 M.Czoków,J.Piersa Wst¦pdosiecineuronowych,wykªad14MaszynaBoltzmanna

(1)

Algorytm Metropolisa Symulowane wy»arzanie Uczenie maszyn Boltzmanna Maszyna Boltzmanna w analizie obrazów

Wst¦p do sieci neuronowych, wykªad 14 Maszyna Boltzmanna

M. Czoków, J. Piersa

Wydziaª Matematyki i Informatyki, Uniwersytet Mikoªaja Kopernika w Toruniu

2012-01-17

(2)

Wst¦p Idea algorytmu Maszyna Boltzmanna

Stacjonarno±¢ stanów maszyny Boltzmanna

Problemy z sieci¡ Hoplda

Najwi¦ksz¡ przeszkod¡ w osiaganiu przez sieci Hopelda dobrych rozwiaza« zadanych problemów jest podatno±¢ na popadania w minima lokalne. Jest to istotna okoliczno±¢, gdy» okazuje si¦, »e w skomplikowanych problemach sie¢ praktycznie zawsze ko«czy dziaªanie w lepszym lub gorszym minimum lokalnym. Aby temu zaradzi¢ trzeba wprowadzi¢ mechanizm pozwalaj¡cy wyj±¢ z lokalnych basenów atrakcji. Na tym wykªadzie przeanalizujemy stochastyczne metody radzenia sobie z tym problemem.

(3)

Nicolas Metropolis (1915-1999)

czªonek zespoªu badawczego Projektu Manhattan

wspóªtwórca komputerów MANIAC (1952) i MANIAC II (1957) jeden z autorów metod Monte Carlo (wraz z S. Ulamem i J.

von Neumannem)

algorytm Metropolisa (1953) zaliczony do czoªowych 10 algorytmów, które wywarªy najwi¦kszy wpªyw na rozwój

i praktyk¦ nauki i techniki w XX wieku (wg Computing Science and Engineering)

(4)

Algorytm Metropolisa wersja oryginalna

Mamy dany otwarty ukªad termodynamiczny: Ei energia i-tego stanu.

Problem: znale¹¢ stan o minimalnej energii.

Wykonujemy wielokrotnie: dla danego stanu i-tego wykonujemy statystyczny ruch cz¡stki, otrzymuj¡c stan j-ty. Je»eli

E_j −E_i ≤0, przechodzimy do stanu j-tego bezwarunkowo, w p.p.

przechodzimy do stanu j z prawdopodobie«stwem exp(−(E_j −E_i)

k_b·T ),

gdzie k_b staªa Boltzmanna, T temperatura bezwzgl¦dna.

(5)

Adaptacja algorytmu Metropolisa

Jak dostosowa¢ ten algorytm do dziedziny problemów

optymalizacyjnych? Wystarczy dokona¢ nast¦puj¡cych uto»samie«:

rozwi¡zanie ↔ stan ukªadu termodynamicznego funkcja oceny ↔ energia ukªadu

przeksztaªcenie lokalne ↔ ruch cz¡stki

optimum globalne ↔ stan o minimalnej energii parametr T ↔ temperatura i staªa Boltzmanna

(6)

Maszyna Boltzmanna denicja

Maszyny Boltzmanna to stochastyczna wersja sieci Hopelda zaproponowana przez Hintona i Sejnowskiego w 1985.

Modykacja polega na tym, »e dynamika zadana jest przez algorytm Metropolisa.

(7)

Dynamika Glaubera przypomnienie

Dynamika asynchroniczna.

wylosuj neuron σ_i

je±li spin jest niezgodny z lokalnym polem wypadkowym M_i, zmieniamy go na zgodny z polem wypadkowym Mi

σ_i =sign(M_i) Przypomnienie pole wypadkowe M_i =P

jw_ijσ_j+h_i powtarzamy, a» do ustabilizowania si¦ sytuacji

(8)

Maszyna Boltzmanna podstawowe zaªo»enia

Rozwa»my sie¢ rekurencyjn¡ z dynamik¡ asynchroniczn¡ oraz z mechanizmem przej±¢ zgodnym z algorytmem Metropolisa. Przestrze«

konguracji tej sieci stanowi przestrze« stanów ªa«cucha Markowa.

(9)

Maszyna Boltzmanna dynamika

wylosuj neuron σi

je±li spin jest niezgodny z lokalnym polem wypadkowym M_i, zmieniamy go na zgodny z polem wypadkowym M_i

σ_i =sign(Mi)

je±li jest zgodny, zmieniamy go z prawdopodobie«stwem exp(−(E(¯σ⁰) −E(¯σ))/T ), lub pozostawiamy

z komplementarnym prawdopodobie«stwem Przypomnienie E(¯σ) = −¹₂P

i6=jw_ijσ_iσ_j −P

ih_iσ_i

(10)

Uwagi

Rozwa»my dwie konguracje ¯σ i ¯σ⁰ ró»ni¡ce si¦ na i-tym miejscu.

Niech ¯σ b¦dzie zgodna z lokalnym polem wypadkowym M_i, a ¯σ⁰ nie.

Wtedy zachodzi:

E(¯σ⁰) −E(¯σ) = 2|M_i|.

Zatem: exp(−(E(¯σ⁰) −E(¯σ))/T ) = exp(−2|M_i|/T ).

(11)

Uwagi

Obie strony równania:

E(¯σ⁰) −E(¯σ) = 2|Mi| s¡ dodatnie. Zatem 0 < exp(−2|M_i|/T ) < 1.

(12)

Uwagi

0.2 0.4 0.6 0.8

1

e

^-x

(13)

Algorytmu Metropolisa rola temperatury

Jaka jest rola temperatury w algorytmie Metropolisa?

Rozwa»my funkcj¦ g(x) = e⁻^x/T dla x > 0:

T → +∞, wtedy x/T → 0, wi¦c e⁻^x/T →1 ka»de rozwi¡zanie jest akceptowane,

T → 0, wtedy x/T → +∞, wi¦c e⁻^x/T →0 akceptowane s¡

tylko lepsze rozwi¡zania.

Dobieraj¡c warto±¢ parametru T > 0 ustalamy zakres tolerancji

dla rozwi¡za« o wi¦kszej energii ukªady w stosunku do poprzedniego rozwi¡zania.

Algorytm Metropolisa dobrze jest startowa¢ wiele razy, na ko«cu wybiera si¦ najlepsze rozwi¡zanie; dziaªa to jak wzmacniacz

(14)

Stacjonarno±¢ stanów maszyny Boltzmanna

Twierdzenie. Rozkªad stacjonarny dla ªa«cucha Markowa zadanego przez stany maszyny Boltzmanna ma posta¢:

P(¯σ) = exp(−E(¯σ)/T ) P

¯

σ⁰exp(−E(¯σ⁰)/T ) = exp(−E(¯σ)/T ) Z(T ) , gdzie Z(T ) jest czynnikiem normalizuj¡cym znanym jako funkcja rozdziaªu. Dzi¦ki tej funkcji mamy do czynienia z prawdziwym prawdopodobie«stwem. Rozkªad ten jest zwany miar¡ Gibbsa.

(15)

Dowód stacjonarno±ci

Udowodnijmy stacjonarno±¢ zadanego ªa«cucha Markowa. Niech A i B b¦d¡ dowolnymi stanami nale»¡cymi do tego ªa«cucha. π jest rozkªadem stacjonarnym zadanego ªa«cucha Markowa o macierzy przej±cia P. Wtedy:

P_AB p-stwo przej±cia ze stanu A do B w jednym kroku π_A p-stwo znalezienia si¦ w stanie A

π_A·PAB p-stwo wychodz¡ce z A do B π_A· (P

BP_AB) = π_A p-stwo wychodz¡ce z A PBπ_BP_BA p-stwo wchodz¡ce do A

(16)

Dowód stacjonarno±ci

Twierdzenie. a«cuch jest stacjonarny ⇔ p-stwo wchodz¡ce = p-stwo wychodz¡ce dla ka»dego stanu, czyli:

∀_A(X

B

π_BP_BA= π_A· (X

B

P_AB) = π_A)

Powy»sza równo±¢ zachodzi zawsze, je±li speªniony jest warunek:

∀_A,B(π_BP_BA= π_AP_AB), poniewa»:

∀_A(X

B

π_BP_BA =X

B

π_AP_AB).

(17)

Dowód stacjonarno±ci

Poka»emy teraz, »e dla naszego ªa«cucha zachodzi:

∀_A,B(π_BP_BA= π_AP_AB), czym udowodnimy jego stacjonarno±¢.

(18)

Dowód stacjonarno±ci

Rozwa»my dwie konguracje ¯σ i ¯σ⁰ ró»ni¡ce si¦ na i-tym miejscu.

Niech ¯σ b¦dzie zgodna z lokalnym polem wypadkowym Mi, a ¯σ⁰ nie.

Wówczas przepªyw z ¯σ⁰ do ¯σ wynosi P(¯σ⁰) · 1

N ·1 = exp(−E(¯σ⁰)/T ) NZ(T ) ,

gdzie N to dªugo±¢ wektora reprezentuj¡cego konguracj¦ sieci.

(19)

Dowód stacjonarno±ci

Z drugiej strony, przepªyw z ¯σ do ¯σ⁰ wynosi:

P(¯σ)·1

N·exp(−2|M_i|/T ) = exp(−E(¯σ)/T ) Z(T )

exp(−(E(¯σ⁰) −E(¯σ))/T ) N

= exp(−E(¯σ⁰)/T ) NZ(T )

Zatem przepªyw z ¯σ do ¯σ⁰ wynosi tyle samo, co przepªyw z ¯σ⁰ do ¯σ, co ko«czy dowód.

(20)

Wst¦p

Algorytm symulowanego wy»arzania

Motywacja

W procesie minimalizacji energii tak jak na pocz¡tku dziaªania algorytmu dopuszczalne jest chaotyczne zachowanie, które mo»e umo»liwi¢ znalezienie odpowiedniego obszaru przestrzeni

energetycznej (takiej o du»ym spadku, która sugeruje blisko±¢

minimum globalnego), tak w okolicach globalnego minimum nie opªaca si¦ ju» skakanie do wy»szych terenów, bo opó¹nia to tylko osi¡gni¦cie owego minimum.

Dla maszyn Boltzmanna stosuje si¦ dwa popularne algorytmy regulacji temperatury - symulowane wy»arzanie (simulated annealing) i symulowane studzenie (simulated tempering).

(21)

Wst¦p

Wy»arzanie w termodynamice

Wy»arzanie jest operacj¡ ciepln¡ polegaj¡c¡ na nagrzaniu elementu stalowego (lub szkªa) do odpowiedniej temperatury, przetrzymaniu w tej temperaturze jaki± czas, a nast¦pnie powolnym schªodzeniu.

Ma gªównie ono na celu doprowadzenie stali do równowagi termodynamicznej w stosunku do stanu wyj±ciowego, który jest znacznie odchylony od stanu równowagowego.

(22)

Wst¦p

Wy»arzanie w termodynamice

W wysokiej temperaturze cz¡steczki cieczy poruszaj¡ si¦

swobodnie, lecz gdy zaczniemy obni»a¢ temperatur¦, cz¡steczki zaczynaj¡ porusza¢ si¦ coraz wolniej tworz¡c stopniowo

uporz¡dkowan¡ struktur¦ krysztaª.

Stan ten cechuj¦ si¦ minimaln¡ mo»liw¡ energi¡ (regularn¡

struktur¡).

Warunkiem koniecznym, aby ciecz utworzyªa struktur¦

krystaliczn¡, jest powolne ochªadzanie ukªadu, w przeciwnym wypadku otrzymamay struktur¦, której energia jest wy»sza.

(23)

Wst¦p

(24)

Wst¦p

Symulowane wy»arzanie

Poª¡czenie dwóch heurystyk:

algorytm Metropolisa schemat chªodzenia

W istocie symulowane wy»arzanie jest to algorytm Metropolisa ze zmienn¡ temperatur¡.

(25)

Wst¦p

Dynamika MB z symulowanym wy»arzaniem

przypisz numer bie»¡cej iteracji k = 1 oraz temperatur¦

T = cτ(k), gdzie c jest to dodatni parametr wylosuj neuron σ_i

je±li spin jest niezgodny z lokalnym polem wypadkowym M_i, zmie« go

σ_i =sign(X

j

w_ijσ_j +h_i) je±li jest zgodny, zmie« go z prawdopodobie«stwem exp(−2|M_i|/T )

zwi¦ksz k o jeden oraz zaktualizuj warto±¢ temperatury T = cτ(k)

(26)

Wst¦p

Schematy chªodzenia

schemat logarytmiczny (Boltzmanna): τ(k) = 1/ log k schemat liniowy (Cauchy'ego) τ(k) = 1/k

schemat geometryczny τ(k) = a^k, gdzie 0 < a < 1

schemat logarytmiczny (w przeciwie«stwie do pozostaªych) gwarantuje (przy pewnych naturalnych zaªo»eniach) znalezienie optimum globalnego z prawdopodobie«stwem 1, jednak ±redni czas potrzebny do jego osi¡gni¦cia jest porównywalny

z rozmiarem przestrzeni rozwi¡za«

badania empiryczne sugeruj¡, »e najwi¦ksz¡ przydatno±¢

praktyczn¡ ma schemat geometryczny (najszybszy)

(27)

Wst¦p

-10 -5

0 0

5 -2.5 10

-2 -1.5 -1 -0.5 0

(28)

Wprowadzenie

Algorytm zaªo»enia ogólne Dywergencja Kullbacka-Leiblera Algorytm

Problem przeszukiwania przestrzeni

Maszyny Boltzmanna s¡ zasadniczo u»ywane do rozwi¡zywania dwóch ró»ni¡cych si¦ obliczeniowo problemów. Pierwszy z nich to problem przeszukiwania przestrzeni stanów, w którym wagi dla poª¡cze« s¡

staªe i s¡ wykorzystywane do reprezentacji energii. Natomiast

stochastyczna dynamika maszyny Botzmanna umo»liwia próbkowanie wektorów stanów, dla których funkcja energetyczna ma maªe warto±ci.

(29)

Wprowadzenie

Problem uczenia maszyn Boltzmanna

W problemie uczenia maszyny Boltzmanna dany jest zbiór przykªadów, który zadaje miar¦ probabilistyczn¡ (empiryczn¡).

Maszyna Boltzmanna jest uczona tak, »eby rozkªad stacjonarny ªa«cucha Markowa zadanego przez t¦ maszyn¦ byª jak najbardziej zbli»ony do rozkªadu miary empirycznej. W tym celu poszukiwane s¡

odpowiednie wagi poª¡cze«. W trakcie nauki maszyna Boltzmanna wykonuje wiele maªych uaktualnie« swoich wag.

(30)

Wprowadzenie

Architektura maszyny Boltzmanna

Mamy zadan¡ sie¢ skªadaj¡c¡ si¦ z warstwy wej±ciowej, warstwy wyj±ciowej i jednostek ukrytych.

Konguracj¦ warstwy wej±ciowej opisujemy za pomoc¡ wektora αⁱ, warstwy wyj±ciowej za pomoc¡ wektora α⁰, przez wektor α b¦dziemy opisywa¢ konguracj¦ obu widocznych warstw, tzn.

wektor α powstaje w wyniku scalenia wektorów αⁱ i α⁰.

Konguracj¦ jednostek ukrytych opisujemy za pomoc¡ wektora β.

(31)

Wprowadzenie

Architektura maszyny Boltzmanna

Tak jak w sieci Hopelda mo»emy mie¢ do czynienia ze

struktur¡, w której ka»da para jednostek jest ze sob¡ poª¡czona.

Niestety uczenie sieci o takiej strukturze poª¡cze« jest bardzo czasochªonne. Dlatego struktury z mniejsz¡ ilo±ci¡ poª¡cze« s¡

po»¡dane.

Nie wyró»niamy »adnej konkretnej struktury poª¡cze« mi¦dzy jednostkami, ró»ne problemy ró»ne struktury.

(32)

Wprowadzenie

Architektura maszyny Boltzmanna

wyjście

i j w_ij

{ {

i 0

Maszyna Boltzmanna z dowoln¡ struktur¡

poª¡cze«.

(33)

Wprowadzenie

Ograniczona maszyna Boltzmanna

Ograniczona maszyna Boltzmanna jest to wersja maszyny Boltzmanna, w której:

ka»da jednostka, ukryta jest poª¡czona z ka»d¡ jednostk¡

widoczn¡

nie ma poª¡cze« mi¦dzy jednostkami widocznymi nie ma poª¡cze« mi¦dzy jednostkami ukrytymi

(34)

Wprowadzenie

Ograniczona maszyna Boltzmanna

wyjście

i 0

{

Architektura

ograniczonej maszyna Boltzmanna.

(35)

Wprowadzenie

Architektura maszyny Boltzmanna

Ukryte neurony s¡ to jednostki, których stan nie jest brany pod uwag¦

jako cz¦±¢ wzorca zapami¦tywanego w procesie uczenia. Jednostki ukryte pozwalaj¡ zwi¦kszy¢ moc obliczeniow¡ sieci.

(36)

Wprowadzenie

Zaªo»enia ogólne

Niech Q(α) oznacza rozkªad empiryczny po zbiorze danych, a P(α) rozkªad stacjonarny w maszynie Boltzmanna zale»ny jedynie od wag i temperatury T (temperatura jest staªa w trakcie uczenia).

Prawdopodobie«stwo konguracji widocznych jednostek jest to suma po wszystkich konguracjach ukrytych jednostek:

P(α) =X

β

P(α, β) = P

βexp(−Eαβ/T )

Z(T ) ,

gdzie Eαβ jest to energia systemu w konguracji zdeniowanej przez widoczne i ukryte jednostki, natomiast Z(T ) tak jak poprzednio jest to funkcja rozdziaªu.

(37)

Wprowadzenie

Denicja

Dywergencja Kullbacka-Leiblera (rozbie»no±¢ Kullbacka-Lieblera, entropia wzgl¦dna) jest miar¡ stosowan¡ w statystyce i teorii informacji do okre±lenia rozbie»no±ci mi¦dzy dwoma rozkªadami prawdopodobie«stwa p i q. Czasem zwana jest te» odlegªo±ci¡

Kullbacka-Leiblera, w rzeczywisto±ci nie jest to jednak prawdziwa metryka, gdy» nie jest symetryczna ani nie speªnia nierówno±ci trójk¡ta. Entropia wzgl¦dna przyjmuje zawsze warto±ci nieujemne, przy czym 0 wtedy i tylko wtedy, gdy porównywane rozkªady s¡

identyczne.

(38)

Wprowadzenie

Denicja

Dywergencja Kullbacka-Leiblera dla rozkªadów dyskretnych dana jest wzorem:

D_KL(q, p) =X

i

q(i) log₂ q(i) p(i)

W powy»szej denicji przyjmuje si¦, »e q reprezentuje dane rzeczywiste, za± p teoretyczny model.

(39)

Wprowadzenie

Dywergencja Kullbacka-Leiblera

Naszym celem jest znalezienie takiego zestawu wag, który

minimalizuje rozbie»no±¢ Kullbacka-Lieblera rozkªadów Q(α) i P(α):

DKL(Q(α), P(α)) =X

α

Q(α)logQ(α) P(α).

(40)

Wprowadzenie

Uczenie maszyny Boltzmanna

Uczenie opiera si¦ na metodzie spadku gradientowego. Dla zbioru wzorców ucz¡cych Q(α) poszukujemy wag takich, »e w pewnej temperaturze T aktualny rozkªad P(α) (rozkªad stacjonarny ªa«cucha Markowa generowanego przez kolejne stany maszyny Boltzmanna) pasuje do Q(α) tak bardzo, jak to jest tylko mo»liwe.

(41)

Wprowadzenie

Uwagi

Pracujemy w kodowaniu {0, 1} lub {−1, 1}. Entropia wzgl¦dna dla kodowa« binarnych jest funkcj¡ wypukª¡, zatem posiada dokªadnie jedno minimum, do którego w wyniku dziaªania metody spadku gradientowego zbiega.

Nie dopuszczamy pól zewn¦trznych, ale za to dopuszczamy wagi wychodz¡ce i wchodz¡ce do tej samej jednostki wii.

(42)

Wprowadzenie

Uczenie maszyny Boltzmanna

Wagi s¡ modykowane za pomoc¡ wyra»enia:

∆w_ij = −η∂D_kl

∂w_ij = −η ∂

∂w_ij(X

α

Q(α)logQ(α) P(α))

= −ηX

α

(∂Q(α)

∂w_ij logQ(α)

P(α) +Q(α) ∂

∂w_ij(logQ(α) P(α)))

= −ηX

α

Q(α)(∂logQ(α)

∂w_ij −∂logP(α)

∂w_ij )

= ηX

α

Q(α) 1 P(α)ln2

∂P(α)

∂w_ij = ηX

α

Q(α) P(α)

∂P(α)

∂w_ij ,

(43)

Wprowadzenie

Uczenie maszyny Boltzmanna

Prawdopodobie«stwo Q(·) nie zale»y od wag zatem ∂Q(α)/∂wij =0.

W powy»szym wzorze na aktualizacj¦ wag wyra»enie, w którym

∂Q(α)/∂w_ij =0 byªo czynnikiem zostaªo ju» pomini¦te.

(44)

Wprowadzenie

Uczenie maszyny Boltzmanna

∆wij = ηX

α

Q(α) P(α)

∂P(α)

∂w_ij ,

∂P(α)

∂w_ij = ∂(

P

βe⁻^Eαβ/T Z(T ) )

∂w_ij

=

∂(P

βe⁻^Eαβ/T)

∂wij Z(T ) −^∂(_∂^{Z(T ))}_w_ij P

βe⁻^E^αβ^/^T Z(T )²

=

∂(P

βe⁻^Eαβ/T)

∂wij

Z(T ) −

∂(Z(T ))

∂wij

P

(45)

Wprowadzenie

Uczenie maszyny Boltzmanna

=

∂(P

βe⁻^Eαβ/T)

∂wij

Z(T ) −

∂(Z(T ))

∂wij

P

= P

βe⁻^E^αβ^/^{T ∂(−E}_∂_w^αβ_ij^/^{T )}

Z(T ) −

∂(P

αβe⁻^Eαβ/T)

∂wij

P

= P

βe⁻Ê^αβ^/^{T ∂(−(−}¹²^P_∂_wî,j_ij^wîj^σⁱ^σ^j⁾⁾

TZ(T ) −

∂(P

αβe⁻^Eαβ/T)

∂wij

P

(46)

Wprowadzenie

Uczenie maszyny Boltzmanna

= P

βe⁻^E^αβ^/^Tσ_iσ_j TZ(T ) − (P

αβe⁻^E^αβ^/^Tσ_iσ_j)(P

βe⁻^E^αβ^/^T) TZ(T )²

= P

βP(α, β)σ_iσ_j

T −(P

αβP(α, β)σ_iσ_j)(P

βP(α, β)) T

= 1 T[X

β

σ_iσ_jP(α, β) − hσ_iσ_ji_PP(α)]

(47)

Wprowadzenie

Uczenie maszyny Boltzmanna

Z wyra»e«:

∆w_ij = ηX

α

Q(α) P(α)

∂P(α)

∂w_ij ,

∂P(α)

∂wij = 1 T(X

β

σ_iσ_jP(α, β) − P(α)hσiσ_ji_P] wynika:

∆w_ij = η T[X

α

Q(α) P(α)(X

β

σ_iσ_jP(α, β) − P(α)hσ_iσ_ji_P)]

= η T[X

Q(α)P(β|α)σ_iσ_j−X

Q(α)hσ_iσ_ji_P]

(48)

Wprowadzenie

Modykacja wag

∆w_ij = [hσ_iσ_ji_Q− hσ_iσ_ji_P], gdzie:

hσ_iσ_ji_Q =X

αβ

Q(α)P(β|α)σ_iσ_j

hσ_iσ_ji_P =X

αβ

P(α, β)σ_iσ_j

(49)

Wprowadzenie

Obliczanie hσ

i

σ

_j

i

_Q

metod¡ Monte-Carlo

hσ_iσ_ji_Q =X

αβ

Q(α)P(β|α)σ_iσ_j

1 hσ_iσ_ji_Q =0.

2 Dla ka»dego α wykonujemy:

1 Spiny jednostek ukrytych ustawiamy w sposób losowy.

2 Po kolei ustawiamy jednostki widoczne zgodnie z warto±ci¡ α.

3 Jednostki widocznie zamra»amy (w wyniku dynamiki maszyny Boltzmanna swoje spiny mog¡ zmienia¢ tylko jednostki ukryte).

4 Symulujemy dynamik¦ maszyny Boltzmanna.

Próbkujemy σ .

(50)

Wprowadzenie

Obliczanie hσ

i

σ

_j

i

_P

metod¡ Monte-Carlo

hσ_iσ_ji_P =X

αβ

P(α, β)σ_iσ_j

1 hσ_iσ_ji_P =0.

2 Wykonujemy k-krotnie:

1 Spiny wszystkich jednostek ustawiamy w sposób losowy.

2 Symulujemy dynamik¦ maszyny Boltzmanna.

3 Próbkujemy σiσ_j.

4 hσ_iσ_ji_P = hσ_iσ_ji_P + σ_iσ_j.

3 hσ_iσ_ji_P = ¹_khσ_iσ_ji_P.

(51)

Wprowadzenie

Modykacja wag

Je±li mamy do czynienia z funkcj¡ bez jednostek ukrytych, wtedy:

∆wij = [hσ_iσ_ji_Q− hσ_iσ_ji_P], gdzie:

hσ_iσ_ji_Q =X

α

Q(α)σ_iσ_j

hσ_iσ_ji_P =X

α

P(α)σ_iσ_j

hσ_iσ_ji_Q liczymy bezpo±rednio z danych

(52)

Wprowadzenie

Tryb odtwarzania wzorca

Gdy sie¢ zostanie ju» nauczona i dla danego wektora wej±¢ chcemy znale¹¢ odpowiadaj¡cy mu wektor wyj±¢, jednostki wej±ciowe ustawiamy zgodnie z warto±ciami wektora wej±ciowego, nast¦pnie je zamra»amy. Pozostaªe jednostki modykujemy zgodnie z dynamik¡

symulowanego wy»arzania.

(53)

Algorytm Wyniki

Specykacja problemu

Niech ¯y = [y₁,y₂, ...,y_n]b¦dzie zaszumionym obrazem, który chcemy odszumi¢ przy pomocy maszyny Boltzmanna.

Niech ¯x = [x₁,x₂, ...,x_n]b¦dzie obrazem reprezentowanym przez bie»¡cy stan sieci.

Przed odszumianiam obrazu przez maszyn¦ Boltzmanna, stany neuronów/jednostek wej±ciowych musz¡ by¢ zdeterminowane przez obraz zaszumiony ¯x = ¯y.

Po zako«czeniu dziaªania maszyny Boltzmana zwracany jest stan

¯x, który reprezentuje obraz odszumiony.

(54)

Algorytm Wyniki

Hamiltonian

Okre±lamy hamiltonian (funkcj¦ energetyczn¡):

H(¯x|¯y) = βX

i∼j

(x_i−x_j)²+ 1 2σ²

X

i

(x_i−y_i)².

Znak ∼ oznacza relacj¦ s¡siedztwa pikseli. Pierwszy wyraz

hamiltonianu karze za niegªadko±¢ obrazu, drugi za± za odlegªo±¢ od danych wej±ciowych (reprezentuj¡cych obraz zaszumiony).

(55)

Algorytm Wyniki

S¡siedztwo

Piksel ma za s¡siadów piksele, Piksel ma za s¡siadów piksele, które stykaj¡ si¦ z nim bokiem lub

(56)

Algorytm Wyniki

Likidacja niegªadko±ci

Piksel zielony ró»ni si¦ od swoich s¡siadów. W wyniku dziaªania pierwszego wyrazu hamiltonianu zostanie mu przypisany taki kolor, jaki maj¡ jego s¡siedzi.

(57)

Algorytm Wyniki

Hamiltonian

Powy»sza posta¢ hamiltonianu niszczy du»e kontrasty! By temu zapobiec modykujemy jej pierwszy wyraz:

H(¯x|¯y) = βX

i∼j

ψ(xi −xj) + 1 2σ²

X

i

(xi −yi)², gdzie na przykªad:

ψ(u) = −1

1 + |u|/σ, ψ(u) = −1 1 + (|u|/σ)².

(58)

Algorytm Wyniki

Hamiltonian

-1 -0.5 0 0.5 1

0 0.2 0.4 0.6 0.8 1

x*x -1/(1+x) -1/(1+x*x)

(59)

Algorytm Wyniki

Hamiltonian

-0.9 -0.8 -0.7 -0.6 -0.5 -0.4

-1/(1+x*x) -1/(1+x*x/4) -1/(1+x*x/9) -1

-0.9 -0.8 -0.7 -0.6 -0.5 -0.4

0 0.2 0.4 0.6 0.8 1

-1/(1+x) -1/(1+x/2) -1/(1+x/3)

(60)

Algorytm Wyniki

Algorytm

zapami¦tujemy wej±ciowy obraz ¯x = ¯y, wektor ¯x b¦dzie reprezentowaª stan ukªadu ↔ b¦dzie podlegaª modykacjom poni»sze kroki wykonujemy wielokrotnie

wylosuj piksel do zmiany wylosuj zmian¦

je±li w wyniku zastosowania zmiany zmniejszy si¦ energia, przejd¹ od ¯x do ¯x⁰

je±li si¦ nie zmniejszy, to te» przejd¹ ale z prawdopodobie«stwem exp(−(H(¯x⁰|¯y) − H(¯x|¯y)))

(61)

Algorytm Wyniki

Uwagi do algorytmu

parametry σ oraz β s¡ to dodanie staªe, które nale»y dobra¢

eksperymentalnie

licz¡c hamiltonian w danej iteracji algorytmu bierzemy pod uwag¦ tylko warto±ci wylosowanego piksela oraz jego s¡siadów mo»na zastosowa¢ symulowane wy»arzanie

(62)

Algorytm Wyniki

Uwagi do algorytmu

mo»na zastosowa¢ inn¡ posta¢ hamiltonianu np. dla wyrazu karz¡cego niegªadko±¢ obrazu:

βX

i∼j

|xi−xj|,

lub dla wyrazu karz¡cego za odlegªo±¢ od danych wej±ciowych:

1 2σ²

X

i

|x_i −y_i|

(63)

Algorytm Wyniki

Pierwszy przykªad

Obraz oryginalny.

Obraz zaszumiony.

(64)

Algorytm Wyniki

Pierwszy przykªad

Obraz oryginalny.

Obraz odszumiony

pierwszy przykªad.

(65)

Algorytm Wyniki

Pierwszy przykªad

Obraz oryginalny.

Obraz odszumiony

drugi przykªad.

(66)

Algorytm Wyniki

Drugi przykªad

(67)

Algorytm Wyniki

2012-01-17 M.Czoków,J.Piersa Wst¦pdosiecineuronowych,wykªad14MaszynaBoltzmanna

Wst¦p do sieci neuronowych, wykªad 14 Maszyna Boltzmanna

Problemy z sieci¡ Hoplda

Nicolas Metropolis (1915-1999)

Algorytm Metropolisa  wersja oryginalna

Adaptacja algorytmu Metropolisa

Maszyna Boltzmanna  denicja

Dynamika Glaubera  przypomnienie

Maszyna Boltzmanna  podstawowe zaªo»enia

Maszyna Boltzmanna  dynamika

Uwagi

Uwagi

Uwagi

e

Algorytmu Metropolisa  rola temperatury

Stacjonarno±¢ stanów maszyny Boltzmanna

Dowód stacjonarno±ci

Dowód stacjonarno±ci

Dowód stacjonarno±ci

Dowód stacjonarno±ci

Dowód stacjonarno±ci

Motywacja

Wy»arzanie w termodynamice

Wy»arzanie w termodynamice

Symulowane wy»arzanie

Dynamika MB z symulowanym wy»arzaniem

Schematy chªodzenia

Problem przeszukiwania przestrzeni

Problem uczenia maszyn Boltzmanna

Architektura maszyny Boltzmanna

Architektura maszyny Boltzmanna

Architektura maszyny Boltzmanna

{ {

Ograniczona maszyna Boltzmanna

Ograniczona maszyna Boltzmanna

{

Architektura maszyny Boltzmanna

Zaªo»enia ogólne

Denicja

Denicja

Dywergencja Kullbacka-Leiblera

Uczenie maszyny Boltzmanna

Uwagi

Uczenie maszyny Boltzmanna

Uczenie maszyny Boltzmanna

Uczenie maszyny Boltzmanna

Uczenie maszyny Boltzmanna

Uczenie maszyny Boltzmanna

Uczenie maszyny Boltzmanna

Modykacja wag

Obliczanie hσ

σ

i

metod¡ Monte-Carlo

Obliczanie hσ

σ

i

metod¡ Monte-Carlo

Modykacja wag

Tryb odtwarzania wzorca

Specykacja problemu

Hamiltonian

S¡siedztwo

Likidacja niegªadko±ci

Hamiltonian

Hamiltonian

Hamiltonian

Algorytm

Uwagi do algorytmu

Uwagi do algorytmu

Pierwszy przykªad

Pierwszy przykªad

Pierwszy przykªad

Drugi przykªad

Drugi przykªad

Problemy z sieci¡ Hoplda

Algorytm Metropolisa wersja oryginalna

Maszyna Boltzmanna denicja

Dynamika Glaubera przypomnienie

Maszyna Boltzmanna podstawowe zaªo»enia

Maszyna Boltzmanna dynamika

Algorytmu Metropolisa rola temperatury

Denicja

Denicja

Modykacja wag

Modykacja wag

Specykacja problemu