11. Sieci wielowarstwowe

(1)

Home Page Title Page JJ II J I Page1of18 Go Back Full Screen Close Quit

Wykład 11

Sieci wielowarstwowe

Kazimierz Grygiel

(2)

(3)

Moc obliczeniowa

• Obliczanie funkcji boolowskich

– dobra wiadomość: jedna warstwa ukryta wystarczy, żeby

ob-liczać dowolną funkcję boolowską!

– zła wiadomość: w ogólnym przypadku liczba jednostek w

warstwie ukrytej zależy wykładniczo od liczby argumentów

funkcji (wejść)

• Aproksymacja funkcji ciągłych: analogicznie

• Aproksymacja dowolnego zadanego zbioru funkcji z zadaną

(4)

Idea dowodu dla funkcji boolowskiej

F (x

₁

, . . . , x

_n

)

• Rozważamy dyskretny model bipolarny sieci z n wejściami i pojedynczym

wyjściem (−1, +1) oraz funkcją aktywacji sgn(·)

• Warstwa ukryta składa się z 2n _{jednostek o numerach j = 0, . . . , 2}n _{− 1}

• Każda jednostka ukryta reprezentuje jeden zestaw argumentów (wzorzec

wejściowy)

• Waga wjk połączenia wejścia k z jednostką j warstwy ukrytej jest równa

±1 w zależności od k-tej cyfry rozwinięcia dwójkowego j (+1 dla 1, -1 dla

0)

• Progi jednostek ukrytych są równe n − 1

• Waga w0j połączenia j-tej jednostki ukrytej z jednostką wyjściową jest

równa wartości (±1) funkcji F dla wzorca kodowanego przez j

• Próg jednostki wyjściowej jest równy minus sumie wag połączeń

wchodzą-cych

• Obserwacja: dokładnie jedna jednostka warstwy ukrytej odpala dla

dane-go wzorca wejściowedane-go. Wartość argumentu funkcji aktywacji dla jednostki wyjściowej (H0− θ0) jest równa ±2

(5)

Objaśnienia

• Niech j - numer jednostki ukrytej odpowiadającej wzorcowi wejściowemu

ξ oraz j0, . . . , jn−1 — przekodowane „bipolarnie” rozwinięcie dwójkowe j.

Wtedy ξk = jk = wjk dla k = 0, . . . , n − 1

• Zatem dla wzorca ξ na wejściu

Hj = n−1 X k=0 wjkξk = n−1 X k=0 1 = n,

a dla dowolnej innej jednostki ukrytej i, i 6= j

Hi =

n−1

X

k=0

wikξk ¬ (n − 1) + (−1) = n − 2

• Niech θ0 = −PxF (x) = −(d − u) = u − d, gdzie d – liczba wartości

dodatnich, a u – liczba wartości ujemnych przyjmowanych przez F (i odp. dodatnich i ujemnych wag w0i). Wówczas dla wzorca ξ jednostka wyjściowa

dostaje sygnał

(a) H0 = +1 + (−1)((d − 1) − u) = +2 + (u − d), jeśli F (ξ) = +1

(6)

(7)

Uogólnienie - przypadek ciągły

• Funkcja aktywacji dla jednostek ukrytych: g(u) = tgh(u)

• Funkcja aktywacji dla jednostki wyjściowej: g(u) = sgn(u)

• Wagi połączeń warstwy wejściowej z warstwą ukrytą: w

jk

= ±q,

gdzie q jest dostatecznie dużą liczbą rzeczywistą

• Progi jednostek ukrytych: (n − 1)q

• Wagi połączeń warstwy ukrytej z jednostką wyjściową: ±c

• Wartość argumentu funkcji aktywacji dla jednostki wyjściowej

(8)

Funkcje NERF

• Jakie funkcje boolowskie można obliczać przy użyciu sieci, w

których liczba jednostek zależy wielomianowo od liczby wejść?

• Taką klasę funkcji nazwano Network Efficiently Representable

Functions (NERF)

(9)

DODATEK:

Algorytm

wstecznej propagacji

(10)

Oznaczenia i definicje

Numeracja warstw: m = 0, 1, . . . M

(0: warstwa wejściowa, M : warstwa wyjściowa) Numeracja wzorców: µ = 1, . . . p

Wzorce wejściowe: ξµ Wzorce wynikowe: ηµ

w_ijm: wagi na połączeniach warstw m − 1 i m (m = 1, . . . M )

hm,µ_i = X

j

w_ijmV_jm−1,µ: sygnały pobudzenia dla jednostek w warstwie m

g: funkcja aktywacji — w zależności od modelu:

g(h) = σβ(h) = 1 1 + e−2βh g(h) = tgh βh = e βh_{− e}−βh eβh_{+ e}−βh

V_im,µ = g(hm,µ_i ): stany jednostek w warstwie m (m = 1, . . . M )

V_i0,µ = ξ_iµ: sygnały wejściowe (= stany jednostek wejściowych)

(11)

Minimalizacja błędu

• Funkcja błędu sieci dla zadanego zestawu wzorców treningowych:

E(w) = X µ Eµ(w) gdzie Eµ(w) = 1 2 X a (η_aµ− O_aµ(w))2

(sygnały wyjściowe O_aµ traktujemy tu jako funkcje wektora wag w)

• Metoda antygradientu: iteracyjne poprawianie wag wg wzoru

w := w − γ∂E

∂w

gdzie γ – stała dodatnia (rzędu 1)

• Rozpisując to na współrzędne mamy (m = 1, . . . M ) wm_ij := wm_ij +X µ ∆µw_ijm gdzie ∆µwm_ij = −γ∂E µ ∂wm ij

(12)

Co to jest gradient?

• Gradient – w analizie matematycznej operator różniczkowy,

któ-ry polu skalarnemu (np. temperatura w pokoju)

przyporządko-wuje pole wektorowe (które wskazuje kierunek wektorów

naj-większego wzrostu funkcji, a których długość jest

proporcjonal-na do szybkości wzrostu)

(13)

Poprawki i odchylenia

• Obliczenia poprawek dla ustalonego wzorca µ będziemy przeprowadzać

„war-stwami”, od najwyższej do najniższej, zaniedbując (uwaga!) indeks µ we wszystkich wyrazach • Lemat (i) ∂E ∂wm ij = −δ_imV_jm−1 (ii) ∂E ∂Vm−1 a = −X b δ_bmw_bam gdzie δ_bM = g0(hM_b )(ηb− Ob) oraz δ_bm = g0(hm_b )X c δ_cm+1w_cbm+1 dla m = M −1, . . . , 1 Wielkości δ_im będziemy nazywać odchyleniami dla warstwy m

• Wniosek

Dla ustalonego wzorca µ

(14)

Dowód lematu (1)

• Dowód przeprowadzimy za pomocą indukcji „w dół” wględem m • Dla warstwy wyjściowej (m = M ) mamy:

E = 1 2 X a (ηa− g(hMa )) 2 ₌ 1 2 X a (ηa− g( X b w_abMV_bM −1))2

• W tej sumie tylko składnik (ηi− g(hMi ))2 zależy od zmiennej wijM. Zatem

∂E ∂w_ijM = 1 2· 2 · (ηi− g(h M i ))(−g0(h M i )) ∂hM_i ∂wM_ij = −(ηi− Oi)g 0_(hM i ) ∂hM_i ∂w_ijM

• Ponieważ funkcje V_bM −1 nie zależą od zmiennych wM_ij , więc

∂hM_i ∂wM_ij = ∂ ∂wM_ij X b w_ibMV_bM −1 = V_jM −1 • Ostatecznie ∂E ∂wM_ij = −(ηi− Oi)g 0_(hM i )V M −1 j = −δ M i V M −1 j

(15)

Dowód lematu (2)

• Podobnie, zapisując E = 1 2 X b (ηb− g(hMb ))2, otrzymamy ∂E ∂VM −1 a = −X b (ηb− Ob)g0(hMb ) ∂hM_b ∂VM −1 a ∂hM_b ∂VM −1 a = ∂ ∂VM −1 a X c w_bcMV_cM −1 = w_baM • Ostatecznie ∂E ∂VM −1 a = −X b g0(hM_b )(ηb− Ob)wbaM = − X b δ_bMwM_ba

co kończy dowód dla podstawy indukcji

• W kroku indukcyjnym wykorzystamy następujący wzór na różniczkowanie

cząstkowe superpozycji funkcji:

∂φ ∂xi = k X j=1 ∂φ ∂yj · ∂yj ∂xi gdzie φ(x) = φ(y1(x), . . . , yk(x))

(16)

Dowód lematu (3)

• Załóżmy, że lemat jest prawdziwy dla pewnego m ¬ M . Korzystając ze

wzoru na różniczkowanie mamy:

∂E ∂wm−1_ij = X b ∂E ∂V_bm−1 · ∂V_bm−1 ∂w_ijm−1 • Następnie ∂V_bm−1 ∂w_ijm−1 = ∂ ∂wm−1_ij g(h m−1 b ) = g 0_(hm−1 b ) ∂ ∂wm−1_ij X c wm−1_bc V_cm−2

• Widzimy, że lewa strona jest różna od zera tylko dla b = i i wtedy pochodna

sumy po prawej stronie redukuje się do V_jm−2. Stąd

∂E ∂wm−1_ij = ∂E ∂V_im−1 · g 0_(hm−1 i )V m−2 j

• Korzystając z założenia indukcyjnego otrzymujemy ostatecznie ∂E

∂w_ijm−1 = (−

X

a

(17)

Dowód lematu (4)

• Podobnie ∂E ∂Vm−2 a =X b ∂E ∂V_bm−1 · ∂V_bm−1 ∂Vm−2 a • Mamy V_bm−1 = g(hm−1_b ) = g(X c w_bcm−1V_cm−2) skąd ∂V_bm−1 ∂Vm−2 a = g0(hm−1_b )wm−1_ba • Z założenia indukcyjnego ∂E ∂V_bm−1 = − X c δm_c w_cbm zatem ∂E ∂Vm−2 a =X b (−X c δ_cmwm_cb)g0(hm−1_b )w_bam−1 = −X b δ_bm−1w_bam−1