• Nie Znaleziono Wyników

12-5 Przykład: BP gradientu dla standardowej sieci dwuwarstwowej 12-6 Gradienty dla sieci wielowarstwowej

N/A
N/A
Protected

Academic year: 2021

Share "12-5 Przykład: BP gradientu dla standardowej sieci dwuwarstwowej 12-6 Gradienty dla sieci wielowarstwowej"

Copied!
11
0
0

Pełen tekst

(1)

12. Propagacja zwrotna w perceptronie wielowarstwowym

12-1 Gradienty dla sieci dwuwarstwowej: graf wpływów 12-2 Gradienty dla sieci dwuwarstwowej: warstwa wyjściowa 12-3 Gradienty dla sieci dwuwarstwowej: warstwa ukryta 12-4 BP gradientu dla sieci dwuwarstwowej

12-5 Przykład: BP gradientu dla standardowej sieci dwuwarstwowej 12-6 Gradienty dla sieci wielowarstwowej

12-7 BP gradientu dla sieci wielowarstwowej 12-8 Operator BP

12-9 Propagacja zwrotna przez sieć

12-10 Drugie pochodne

(2)

Gradienty dla sieci dwuwarstwowej: graf wpływów

• równania warstw

warstwa ukryta x

i

= γ

i

(z

i

), z

i

= X

n j=0

v

i,j

u

j

, i = 1, . . . , h

warstwa wyjściowa y

k

= g

k

(z

k

), z

k

= X

h j=0

w

k,j

x

j

, k = 1, . . . , m koszt chwilowy q = f (y

1

, . . . , y

m

)

• grafy wpływów dla v i w

z

1

z

i γi

x

i

z

k

gk

y

k

f

q

v

i,j

w

k,j

z

m

warstwa ukryta

|

warstwa wyjściowa

|

koszt

|

grafy dla v i w mają część wspólną

(3)

Gradienty dla sieci dwuwarstwowej: warstwa wyjściowa

w

k,j

z

k gk

y

k

f

q

dq dw

k,j

= dq dz

k

x

j

dq dz

k

= dq dy

k

g

k

(z

k

)

 

 

BP od wyjścia warstwy do wag

dq dy

k

= f

k

(y)



wskaźnik kosztu

r

k

= f

k

(y) g

k

(z

k

), dq dw

k,j

= r

k

x

j

(4)

Gradienty dla sieci dwuwarstwowej: warstwa ukryta

z1

vi,j zi γi xi zk gk yk f q zm

warstwa ukryta | warstwa wyjściowa | koszt | dq

dvi,j = dq dzi uj

dq

dzi = dq

dxi γi(zi)







BP w warstwie do wag

dq

dxi = Pm

k=1

dq

dzk wk,i dq

dzk = dq

dyk gk(zk)



BP przez warstwę

dq

dyk = ∂f(y)

∂yk = fk(y)



wskaźnik kosztu

rk = fk(y) gk(zk), ̺i = Xm k=1

rk wk,i γi(zi), dq

dvi,j = ̺iuj

(5)

BP gradientu dla sieci dwuwarstwowej

(warstwa wyjściowa)

r

i

= f

i

(y) g

i

(z

i

) dq

dw

i,j

= r

i

x

j

(warstwa ukryta)

̺

i

= X

m

k=1

r

k

w

k,i

γ

i

(z

i

) dq

dv

i,j

= ̺

i

u

j

(warstwa wyjściowa)

r = f

(y) ⊙ g

(z) dq

dW = r x

T

(warstwa ukryta)

̺ = (W

T

r ) ⊙ γ

(z) dq

dV = ̺ u

T

(6)

Przykład: BP gradientu dla standardowej sieci dwuwarstwowej

warstwa wyjściowa liniowa, chwilowy koszt kwadratowy q =

12

ky − y

o

k

2

, funkcje aktywacji γ

i

(z) = 1/(1 + exp(−αz), [γ

i

(z) = α x(1 − x)]

(warstwa wyjściowa)

r

i

= y

i

− y

io

dq

dw

i,j

= r

i

x

j

(warstwa ukryta)

̺

i

= α X

m

k=1

r

k

w

k,i

x

i

(1 − x

i

)

dq dv

i,j

= ̺

i

u

j

(warstwa wyjściowa) r = y − y

o

dq

dW = r x

T

(warstwa ukryta)

̺ = α (W

T

r ) ⊙ x ⊙ (1 − x) dq

dV = ̺ u

T

(7)

Gradienty dla sieci wielowarstwowej

warstwa ℓ, ℓ = 1, . . . , L z

i

=

n

X

j=0

w

i,j

y

jℓ−1

, y

i

= g

i

(z

i

), i = 1, . . . , m

koszt q = f (y

1L

, . . . , y

mL

)

z

1

z

1L

z

iℓ−1

giℓ−1

y

iℓ−1

z

k

gk

y

k

y

pL−1

z

pL

gpL

y

pL f

q

w

i,jℓ−1

z

m

z

mLL

warstwaℓ − 1

|

warstwa

| |

warstwa wyjściowa L

|

koszt

|

dq

dw

i,jℓ−1

= dq

dz

iℓ−1

u

ℓ−1j

dq

dz

iℓ−1

= dq

dy

iℓ−1

g

iℓ−1

(z

iℓ−1

)

 

 

 

BP w warstwie − 1 do wag

dq

dy

iℓ−1

= P

m k=1

dq

dz

k

w

k,i

dq

dz

k

= dq

dy

k

g

k

(z

k

)

 

 

 

BP przez warstwę dq

dy

pL

= ∂f (y)

∂y

Lp

= f

p

(y)



wskaźnik kosztu

(8)

BP gradientu dla sieci wielowarstwowej

dq dy

p

= ∂f (y)

∂y

p

= f

p

(y) dq

dy

iℓ−1

=

m

X

k=1

dq

dy

k

g

k

(z

k

) w

k,i

= L, . . . , p + 1

dq

dw

pi,j

= dq

dy

ip

g

ip

(z

ip

) u

pj

wskaźnik jakości

BP przez warstwę = L, . . . , p + 1 BP w warstwie p

do wag

dq

dy = ∂f (y)

∂y = f

(y) dq

dy

ℓ−1

= W

T

 dq

dy

⊙ g

ℓ′

(z

)  = L, . . . , p + 1

dq

dW

p

=  dq

dy

p

⊙ g

p′

(z

p

) 

u

pT

(9)

Operator BP

BP do wag warstwy

W

= B

W

(∇

y

) = 

y

⊙ g

(z)  u

T

W

= d · dW

y

= d · dy

u

= d · du

BP przez warstwę

u

= B

u

(∇

y

) = W

T



y

⊙ g

(z) 

moduł BP dla warstwy (∇

W

,

u

) = B(∇

y

)

r = ∇

y

⊙ g

(z)

W

= r u

T

u

= W

T

r

(10)

Propagacja zwrotna przez sieć

BP w sieci do wag

W

= B

W

B

uℓ+1

. . . B

uL

yL

BP przez sieć

u1

= B

u1

B

u2

. . . B

uL

yL

(11)

Drugie pochodne

• y

o

= f (u) jest wielkością pożądaną dla sieci N o wejściu u

• N aproksymuje funkcję f : N(u) = b f (u)

• BP przez sieć N oblicza wartości gradientu funkcji b f : b f

(u) = dN(u)

du ≈ f

(u)

• b f

(u) są wielkościami pożądanymi dla sieci N

1

o wejściu u

• N

1

aproksymuje funkcję b f

: N

1

(u) = b f b

• BP przez sieć N

1

aproksymuje wartości aproksymowanego hessianu c f b

′′

Cytaty

Powiązane dokumenty

Realizm – styl w malarstwie europejskim drugiej połowy XIX wieku; zapoczątkowany we Francji, szybko został podchwycony na całym kontynencie.. Obrazy realistyczne to głównie

Sztuka publiczna – to trwałe dzieła sztuki współczesnej przeznaczone do ekspozycji nie w muzeach, lecz na miejskich ulicach, placach, w publicznych miejscach, wśród

[r]

[r]

organizuje strajk robotników w dokach londyńskich skierow any przeciwko 6-dniowemu tygodniow i

O służbie sy gnalizacyjno pow odziow ej stacyj opadow ych 36 Z estaw enie sym boli m iędzynarodow ych..

Jak dalece głośna ta swego czasu sprawa i udział w niej Der- dowskiego poszły w niepamięć, dowodzi najobszerniejszy dotąd.. t; nadto objaśnia, że „skoro

Podpadło nam, że żaden z tych kandydatów, którzy się starają o mandat poselski na Kaszubach, nie pytał się wcale o to, czy przekonania jego