12. Propagacja zwrotna w perceptronie wielowarstwowym
12-1 Gradienty dla sieci dwuwarstwowej: graf wpływów 12-2 Gradienty dla sieci dwuwarstwowej: warstwa wyjściowa 12-3 Gradienty dla sieci dwuwarstwowej: warstwa ukryta 12-4 BP gradientu dla sieci dwuwarstwowej
12-5 Przykład: BP gradientu dla standardowej sieci dwuwarstwowej 12-6 Gradienty dla sieci wielowarstwowej
12-7 BP gradientu dla sieci wielowarstwowej 12-8 Operator BP
12-9 Propagacja zwrotna przez sieć
12-10 Drugie pochodne
Gradienty dla sieci dwuwarstwowej: graf wpływów
• równania warstw
warstwa ukryta x
i= γ
i(z
i), z
i= X
n j=0v
i,ju
j, i = 1, . . . , h
warstwa wyjściowa y
k= g
k(z
k), z
k= X
h j=0w
k,jx
j, k = 1, . . . , m koszt chwilowy q = f (y
1, . . . , y
m)
• grafy wpływów dla v i w
z
1z
i γix
iz
kgk
y
kf
q
v
i,jw
k,jz
mwarstwa ukryta
|
warstwa wyjściowa|
koszt|
• grafy dla v i w mają część wspólną
Gradienty dla sieci dwuwarstwowej: warstwa wyjściowa
w
k,jz
k gky
kf
q
dq dw
k,j= dq dz
kx
jdq dz
k= dq dy
kg
k′(z
k)
BP od wyjścia warstwy do wag
dq dy
k= f
k′(y)
wskaźnik kosztu
r
k= f
k′(y) g
k′(z
k), dq dw
k,j= r
kx
jGradienty dla sieci dwuwarstwowej: warstwa ukryta
z1
vi,j zi γi xi zk gk yk f q zm
warstwa ukryta | warstwa wyjściowa | koszt | dq
dvi,j = dq dzi uj
dq
dzi = dq
dxi γi′(zi)
BP w warstwie do wag
dq
dxi = Pm
k=1
dq
dzk wk,i dq
dzk = dq
dyk gk′(zk)
BP przez warstwę
dq
dyk = ∂f(y)
∂yk = fk′(y)
wskaźnik kosztu
rk = fk′(y) gk′(zk), ̺i = Xm k=1
rk wk,i γi′(zi), dq
dvi,j = ̺iuj
BP gradientu dla sieci dwuwarstwowej
(warstwa wyjściowa)
r
i= f
i′(y) g
i′(z
i) dq
dw
i,j= r
ix
j(warstwa ukryta)
̺
i= X
mk=1
r
kw
k,iγ
i′(z
i) dq
dv
i,j= ̺
iu
j(warstwa wyjściowa)
r = f
′(y) ⊙ g
′(z) dq
dW = r x
T(warstwa ukryta)
̺ = (W
Tr ) ⊙ γ
′(z) dq
dV = ̺ u
TPrzykład: BP gradientu dla standardowej sieci dwuwarstwowej
warstwa wyjściowa liniowa, chwilowy koszt kwadratowy q =
12ky − y
ok
2, funkcje aktywacji γ
i(z) = 1/(1 + exp(−αz), [γ
i′(z) = α x(1 − x)]
(warstwa wyjściowa)
r
i= y
i− y
iodq
dw
i,j= r
ix
j(warstwa ukryta)
̺
i= α X
mk=1
r
kw
k,ix
i(1 − x
i)
dq dv
i,j= ̺
iu
j(warstwa wyjściowa) r = y − y
odq
dW = r x
T(warstwa ukryta)
̺ = α (W
Tr ) ⊙ x ⊙ (1 − x) dq
dV = ̺ u
TGradienty dla sieci wielowarstwowej
warstwa ℓ, ℓ = 1, . . . , L z
iℓ=
nℓ
X
j=0
w
i,jℓy
jℓ−1, y
iℓ= g
iℓ(z
iℓ), i = 1, . . . , m
ℓkoszt q = f (y
1L, . . . , y
mL)
z
1ℓz
1Lz
iℓ−1giℓ−1
y
iℓ−1z
kℓgkℓ
y
ℓky
pL−1z
pLgpL
y
pL fq
w
i,jℓ−1z
mℓ ℓz
mLLwarstwaℓ − 1
|
warstwa ℓ| |
warstwa wyjściowa L|
koszt|
dq
dw
i,jℓ−1= dq
dz
iℓ−1u
ℓ−1jdq
dz
iℓ−1= dq
dy
iℓ−1g
iℓ−1′(z
iℓ−1)
BP w warstwie ℓ − 1 do wag
dq
dy
iℓ−1= P
mℓ k=1dq
dz
kℓw
ℓk,idq
dz
kℓ= dq
dy
kℓg
kℓ′(z
kℓ)
BP przez warstwę ℓ dq
dy
pL= ∂f (y)
∂y
Lp= f
p′(y)
wskaźnik kosztu
BP gradientu dla sieci wielowarstwowej
dq dy
p= ∂f (y)
∂y
p= f
p′(y) dq
dy
iℓ−1=
mℓ
X
k=1