12-5 Przykład: BP gradientu dla standardowej sieci dwuwarstwowej 12-6 Gradienty dla sieci wielowarstwowej

(1)

12. Propagacja zwrotna w perceptronie wielowarstwowym

12-1 Gradienty dla sieci dwuwarstwowej: graf wpływów 12-2 Gradienty dla sieci dwuwarstwowej: warstwa wyjściowa 12-3 Gradienty dla sieci dwuwarstwowej: warstwa ukryta 12-4 BP gradientu dla sieci dwuwarstwowej

12-5 Przykład: BP gradientu dla standardowej sieci dwuwarstwowej 12-6 Gradienty dla sieci wielowarstwowej

12-7 BP gradientu dla sieci wielowarstwowej 12-8 Operator BP

12-9 Propagacja zwrotna przez sieć

12-10 Drugie pochodne

(2)

Gradienty dla sieci dwuwarstwowej: graf wpływów

• równania warstw

warstwa ukryta x

i

= γ

i

(z

i

), z

i

= X

n j=0

v

i,j

u

j

, i = 1, . . . , h

warstwa wyjściowa y

k

= g

k

(z

k

), z

k

= X

h j=0

w

k,j

x

j

, k = 1, . . . , m koszt chwilowy q = f (y

¹

, . . . , y

m

)

• grafy wpływów dla v i w

z

¹

z

i γ_i

x

i

z

k

g_k

y

k

f

q

v

i,j

w

k,j

z

m

warstwa ukryta

|

warstwa wyjściowa

|

^koszt

|

• grafy dla v i w mają część wspólną

(3)

Gradienty dla sieci dwuwarstwowej: warstwa wyjściowa

w

k,j

z

k g_k

y

k

f

q

dq dw

k,j

= dq dz

k

x

j

dq dz

k

= dq dy

k

g

k′

(z

k

)

 



 

BP od wyjścia warstwy do wag

dq dy

k

= f

_k^′

(y)

wskaźnik kosztu

r

k

= f

_k^′

(y) g

k′

(z

k

), dq dw

k,j

= r

k

x

j

(4)

Gradienty dla sieci dwuwarstwowej: warstwa ukryta

z1

v_i,j z_i ^γⁱ x_i z_k ^g^k y_k ^f q zm

warstwa ukryta | warstwa wyjściowa | ^koszt | dq

dv_i,j = dq dz_i u_j

dq

dz_i = dq

dx_i γ_i^′(zi)









BP w warstwie do wag

dq

dx_i = P_m

k=1

dq

dz_k w_k,i dq

dz_k = dq

dy_k g_k^′(zk)





BP przez warstwę

dq

dy_k = ∂f(y)

∂y_k = f_k^′(y)

wskaźnik kosztu

r_k = f_k^′(y) gk′(zk), ̺_i = Xm k=1

r_k w_k,i γ_i^′(zi), dq

dv_i,j = ̺iu_j

(5)

BP gradientu dla sieci dwuwarstwowej

(warstwa wyjściowa)

r

i

= f

_i^′

(y) g

i′

(z

i

) dq

dw

i,j

= r

i

x

j

(warstwa ukryta)

̺

i

= X

m

k=1

r

k

w

k,i

γ

i′

(z

i

) dq

dv

i,j

= ̺

i

u

j

(warstwa wyjściowa)

r = f

^′

(y) ⊙ g

^′

(z) dq

dW = r x

^T

(warstwa ukryta)

̺ = (W

^T

r ) ⊙ γ

^′

(z) dq

dV = ̺ u

^T

(6)

Przykład: BP gradientu dla standardowej sieci dwuwarstwowej

warstwa wyjściowa liniowa, chwilowy koszt kwadratowy q =

¹₂

ky − y

^o

k

²

, funkcje aktywacji γ

i

(z) = 1/(1 + exp(−αz), [γ

_i^′

(z) = α x(1 − x)]

(warstwa wyjściowa)

r

i

= y

i

− y

_i^o

dq

dw

i,j

= r

i

x

j

(warstwa ukryta)

̺

i

= α X

m

k=1

r

k

w

k,i

x

i

(1 − x

i

)

dq dv

i,j

= ̺

i

u

j

(warstwa wyjściowa) r = y − y

^o

dq

dW = r x

^T

(warstwa ukryta)

̺ = α (W

^T

r ) ⊙ x ⊙ (1 − x) dq

dV = ̺ u

^T

(7)

Gradienty dla sieci wielowarstwowej

warstwa ℓ, ℓ = 1, . . . , L z

_i^ℓ

=

n^ℓ

X

j=0

w

_i,j^ℓ

y

_j^ℓ−1

, y

_i^ℓ

= g

_i^ℓ

(z

_i^ℓ

), i = 1, . . . , m

^ℓ

koszt q = f (y

1^L

, . . . , y

_m^L

)

z

1^ℓ

z

1^L

z

_i^ℓ−1

g_i^ℓ−1

y

_i^ℓ−1

z

_k^ℓ

g_k^ℓ

y

^ℓ_k

y

_p^L−1

z

_p^L

g_p^L

y

_p^L ^f

q

w

_i,j^ℓ−1

z

_m^ℓ ℓ

z

_m^LL

warstwaℓ − 1

|

^warstwa ^ℓ

| |

warstwa wyjściowa L

|

^koszt

|

dq

dw

_i,j^ℓ−1

= dq

dz

_i^ℓ−1

u

^ℓ−1_j

dq

dz

_i^ℓ−1

= dq

dy

_i^ℓ−1

g

_i^ℓ−1^′

(z

_i^ℓ−1

)

 

 

 



BP w warstwie ℓ − 1 do wag

dq

dy

_i^ℓ−1

= P

m^ℓ k=1

dq

dz

_k^ℓ

w

^ℓ_k,i

dq

dz

_k^ℓ

= dq

dy

_k^ℓ

g

_k^ℓ^′

(z

_k^ℓ

)

 

 

 



BP przez warstwę ℓ dq

dy

p^L

= ∂f (y)

∂y

^Lp

= f

_p^′

(y)

wskaźnik kosztu

(8)

BP gradientu dla sieci wielowarstwowej

dq dy

p

= ∂f (y)

∂y

p

= f

_p^′

(y) dq

dy

_i^ℓ−1

=

m^ℓ

X

k=1

dq

dy

_k^ℓ

g

^ℓ_k^′

(z

_k^ℓ

) w

_k,i^ℓ

ℓ = L, . . . , p + 1

dq

dw

^p_i,j

= dq

dy

_i^p

g

_i^p^′

(z

_i^p

) u

^p_j

wskaźnik jakości

BP przez warstwę ℓ = L, . . . , p + 1 BP w warstwie p

do wag

dq

dy = ∂f (y)

∂y = f

^′

(y) dq

dy

^ℓ−1

= W

^ℓ^T

dq

dy

^ℓ

⊙ g

^ℓ′

(z

^ℓ

) ℓ = L, . . . , p + 1

dq

dW

^p

= dq

dy

^p

⊙ g

^p′

(z

^p

)

u

^p^T

(9)

Operator BP

BP do wag warstwy

∇

W

= B

W

(∇

y

) =

∇

y

⊙ g

^′

(z) u

^T

∇

W

= d · dW

∇

y

= d · dy

∇

u

= d · du

BP przez warstwę

∇

u

= B

u

(∇

y

) = W

^T

∇

y

⊙ g

^′

(z)

moduł BP dla warstwy (∇

W

, ∇

u

) = B(∇

y

)

r = ∇

y

⊙ g

^′

(z)

∇

W

= r u

^T

∇

u

= W

^T

r

(10)

Propagacja zwrotna przez sieć

BP w sieci do wag

∇

_W^ℓ

= B

_W^ℓ

B

_u^ℓ+1

. . . B

_u^L

∇

_y^L

BP przez sieć

∇

u¹

= B

u¹

B

u²

. . . B

_u^L

∇

_y^L

(11)

Drugie pochodne

• y

^o

= f (u) jest wielkością pożądaną dla sieci N o wejściu u

• N aproksymuje funkcję f : N(u) = b f (u)

• BP przez sieć N oblicza wartości gradientu funkcji b f : b f

^′

(u) = dN(u)

du ≈ f

^′

(u)

• b f

^′

(u) są wielkościami pożądanymi dla sieci N

¹

o wejściu u

• N

¹

aproksymuje funkcję b f

^′

: N

¹

(u) = b f b

^′

• BP przez sieć N

¹

aproksymuje wartości aproksymowanego hessianu c f b

^′′

12-5 Przykład: BP gradientu dla standardowej sieci dwuwarstwowej 12-6 Gradienty dla sieci wielowarstwowej

12. Propagacja zwrotna w perceptronie wielowarstwowym

12-1 Gradienty dla sieci dwuwarstwowej: graf wpływów 12-2 Gradienty dla sieci dwuwarstwowej: warstwa wyjściowa 12-3 Gradienty dla sieci dwuwarstwowej: warstwa ukryta 12-4 BP gradientu dla sieci dwuwarstwowej