Propagacja gradientu

(1)

11-1 System warstwowy

11-2 Pochodne dla systemu warstwowego 11-3 Propagacja gradientu

11-4 Propagacja zwrotna gradientu 11-5 Ilustracja (jednowymiarowa) 11-6 Ilustracja (wielowymiarowa) 11-7 Porównanie

11-8 System uporządkowany

11-9 Pochodne dla systemów uporządkowanych 11-10 Propagacja gradientu - postać lokalna

11-11 Propagacja zwrotna gradientu - postać lokalna 11-12 Ilustracja

(2)

System warstwowy

f₁ : X₀ 7→ X1, x₁ = f₁(x₀) . . .

fk : X^k−1 7→ X^k, xk = f^k(x^k−1) . . .

fⁿ : Xⁿ₋₁ 7→ Xⁿ xⁿ = fⁿ(xⁿ₋₁) xⁿ = fⁿ(fⁿ₋₁(. . . (f₁(x₀))))

(3)

Pochodne dla systemu warstwowego

xn = fⁿ(fⁿ₋₁(. . . (f₁(x₀))))

• notacja

fk^′ = dfk

dxk−1

dla i = 1, . . . , n x^′k|ℓ = dxk

dxℓ

dla ustalonych x0, . . . x^ℓ₋₁, ℓ < k

• obliczenie pochodnej dxn

dx₀ = fn^′(xⁿ₋₁) fn^′−1(xⁿ₋₂) . . . f₂^′(x₁) f₁^′(x₀) gdzie

xk = f^k(f^k₋₁ · · · f1(x₀)), k = 1, . . . , n

(4)

Propagacja gradientu

• grupowanie “od wejścia do wyjścia”

x^′n|0 = dxn

dx₀ = fn^′(xⁿ−1) fn^′−1(xⁿ−2) . . . f₂^′(x1) f₁^′(x0)

| {z }

x^′

1|0

| {z }

x^′

2|0

| {z }

x^′

n−1|0

• algorytm propagacji gradientu x^′_0|0 = 1

x^′_k_|0 = fk^′(x^k₋₁) x^′k−1|0

xk = f^k(x^k₋₁) k = 1, . . . , n

• pochodne i wartości funkcji obliczane są w jednym kroku rekurencyjnym, dla k = 1, . . . , n.

(5)

Propagacja zwrotna gradientu

• grupowanie “od wyjścia do wejścia”

x^′_n|0 = dx_n dx0

= fn^′(xn−1)

| {z }

x^′

n|n−1

f_n^′₋₁(xn−2)

| {z }

x^′

n|n−2

. . . f₂^′(x1)

| {z }

x^′

n|1

f₁^′(x0)

• algorytm propagacji zwrotnej

– przejście “do przodu”: wartości zmiennych

xk = fk(xk−1), k = 1, . . . , n – powrót: wartości pochodnych

x^′_n|n = 1

x^′_n|ℓ = x^′_n|ℓ+1f_ℓ+1^′ (xℓ), ℓ = n − 1, . . . , 0

(6)

Ilustracja (jednowymiarowa)

y = sin(exp(x³cos(x³)))

System warstwowy (x0 = x, x4 = y)

x1 = x³0

x2 = x1 cos(x1) x3 = exp(x2) x4 = sin(x3) propagacja

x^′_4|0 = cos(x3) x^′_3|0 x^′_3|0 = exp(x2) x^′_2|0

x^′_2|0 = cos(x1) − x1 sin(x1) x^′_1|0 x^′_1|0 = 3 x²0 x^′_0|0

x^′_0|0 = 1

propagacja zwrotna x^′_4|0 = 3 x^′_4|1x²₀

x^′_4|1 = cos(x1) − x1 sin(x1) x^′_4|2 x^′_4|2 = x^′_4|3 exp(x2)

x^′_4|3 = x^′_4|4 cos(x3) x^′_4|4 = 1

(7)

Ilustracja (wielowymiarowa)

y = sin exp(x³) + 4 cos(x³)

system warstwowy (x0 = x, x3 = y)

x1 = x³

x21 = exp(x1) x22 = cos(x1)

x3 = sin(x21 + 4x22) propagacja gradientu

x^′_3|0 = cos(x21+4x22) x^′_21|0 + 4x^′_22|0 x^′_21|0 = exp(x1) x^′_1|0

x^′_22|0 = − sin(x1) x^′_1|0 x^′_1|0 = 3 x²

propagacja zwrotna gradientu x^′_3|0 = 3 x^′_3|1x²

x^′_3|1 = x^′_3|22 exp(x1) − x^′_3|21 sin(x1) x^′_3|21 = cos(x21 + x22)

x^′_3|22 = 4 cos(x21 + x22)

(8)

Porównanie

• propagacja gradientu (FP): pochodne zmiennych pośrednich względem docelowej zmiennej niezależnej

• propagacja zwrotna gradientu (BP): po- chodne docelowej zmiennej niezależnej względem zmiennych pośrednich

• obliczenia w sieci: potrzebne pochodne wskaźnika błędu względem różnych zmiennych.

(9)

System uporządkowany

f₁ : X₀ 7→ X1 x₁ = f₁(x₀)

. . .

f^k : X0 × · · · × X^k−1 7→ X^k x^k = f^k(x0, . . . , x^k₋₁) . . .

fn : X₀ × · · · × Xⁿ−1 7→ Xⁿ xn = fⁿ(x₀, . . . , xn−1)

(10)

Pochodne dla systemów uporządkowanych

• oznaczenia (tutaj xk∈ R)

f_k|ℓ^′ (x0, . . . , xk−1) = ∂

∂xℓ

fk(x0, . . . , xk−1), 0 ≤ ℓ < k

• Dla pierwszych ℓ zmiennych x0, . . . , x_ℓ−1, ℓ < k, ustalonych, deﬁniujemy x^′_k|ℓ = dx_k

dxℓ

• zależności równoważne x^′_k|ℓ = f_k|ℓ^′ +

k−1X

i=ℓ+1

f_k|i^′ x^′_i|ℓ 0 ≤ ℓ < k ≤ n (FP)

x^′_k|ℓ = f_k|ℓ^′ +

k−1X

j=ℓ+1

x^′_k|j f_j|ℓ^′ 0 ≤ ℓ < k ≤ n (BP)

(11)

Propagacja gradientu - postać lokalna

• dla dowolnych dwóch zmiennych u = x^k, z = x^ℓ, ℓ < k dz

du = ∂fz

∂u + X

x

∂fz

∂x dx du

gdzie f^z = f^ℓ jest funkcją deﬁniującą z, a sumowanie rozciąga się na wszystkie zmienne x które bezpośrednio wpływają na z (tzn. argumenty f^z)

(12)

Propagacja zwrotna gradientu - postać lokalna

• dla dowolnych dwóch zmiennych u = x^k, z = x^ℓ, ℓ < k dz

du = ∂f^z

∂u + X

x

dz dx

df^x du

gdzie f^x oznacza funkcję która deﬁniuje x, a sumowanie rozciąga się na wszystkie zmienne x na które bezpośrednio wpływa u (wszystkie funkcje, dla których u jest jednym z argumentów.)

(13)

Ilustracja

system uporządkowany

Q = x₃ = f₃(x₀, x₁, x₂) x₂ = f₂(x₀, x₁)

x₁ = f1(x0) propagacja gradientu

x^′_3|0 = f_3|0^′ + f_3|1^′ x^′_1|0 + f_3|2^′ x^′_2|0 x^′_2|0 = f_2|0^′ + f_2|1^′ x^′_1|0

x^′_1|0 = f_1|0^′

propagacja zwrotna gradientu

x^′_3|0 = f_3|0^′ + x^′_3|2f_2|0^′ + x^′_3|1f_1|0^′ x^′_3|1 = f_3|1^′ + x^′_3|2f_2|1^′

x^′_3|2 = f_3|2^′

dla obu algorytmów

x^′_3|0 = f_3|0^′ + f_3|1^′ f_1|0^′ + f_3|2^′ f_2|0^′ + f_3|2^′ f_2|1^′ f_1|0^′

(14)

F^′ = {f_i|j^′ }i=0,...,n j=0,...,n

=





 0

f_1|0^′ 0

... ... . ..

f_n|0^′ f_n|1^′ · · · f_n|n−1^′ 0







, X^′ = {x^′_i|j}j=0,...,n i=0,...,n

=





 1

x^′_1|0 1

... ... . ..

x^′_n|0 x^′_n|1 · · · x^′_n|n−1 1







dla systemów warstwowych

F^′ =





 0

f₁^′ 0

. .. . ..

f_n^′ 0







propagacja gradientu (F^′ − I) X^′ = −I