• Nie Znaleziono Wyników

10-4 Metoda największego spadku 10-5 Gradient sprzężony

N/A
N/A
Protected

Academic year: 2021

Share "10-4 Metoda największego spadku 10-5 Gradient sprzężony"

Copied!
12
0
0

Pełen tekst

(1)

10. Techniki minimalizacji a sieci neuronowe

10-1 Błąd aproksymacji 10-2 Minimalizacja kosztu 10-3 Tryby minimalizacji

10-4 Metoda największego spadku 10-5 Gradient sprzężony

10-6 Metoda Newtona

10-7 Metody zmiennej metryki

10-8 Metoda Levenberga-Marquardta 10-9 Specyficzne techniki neuronowe:

Wygładzanie inercyjne wag

10-10 Specyficzne techniki neuronowe: Reguła delta-delta

10-11 Specyficzne techniki neuronowe: Reguła delta-bar-delta

(2)

Błąd aproksymacji

• skończony zbiór obrazów U = {u

1

, . . . , u

N

}, U

L

= U Q = 1

2

i

k

2

• U dowolny, U

L

losowany zgodnie ze znanym rozkładem na U Q

0

= 1

2 Ekεk

2

• U dowolny, U

L

losowany zgodnie z pewnym rozkładem na U Q b

N

(t) = 1

2 A

N

kε(t)k

2

≈ Q

0

(3)

Minimalizacja kosztu

• Funkcja błędu

Q b

N

(w) = 1 N

X

k t=k−N+1

q(y(t; w) − y

o

(t)) = 1 N

X

k t=k−N+1

ky(t; w) − y

o

(t)k

2

• Metody gradientowe

w

(k + 1) = w(k) + η r(δ(k)) gdzie

w

wektor wszystkich wag sieci

δ

(k) = b Q

N

(w(k)) gradient b Q

N

w k-tym kroku minimalizacji r wektorowa funkcja gradientu określająca nowy kierunek η krok minimalizacji

k indeks kroku minimalizacji

(4)

Tryby minimalizacji

(N, M, L): długość okna (przedział uśredniania) N , przesunięcie okna po wykonaniu kroków minimalizacji M , liczba kroków minimalizacji dla jednej estymaty gradientu

tryb natychmiastowy (1, 1, 1)

koszt oczekiwany estymowany jest przez koszt chwilowy (1-elementowe uśrednianie kosztu), minimalizacja po każdej prezentacji

tryb wsadowy (N, N, 1)

uśrednienie N > 1 kosztów chwilowych przed każdą minimalizacją; dla skończonego U

L

przyjmuje się N = |U

L

| (epoka)

wielokrotne użycie gradientu (N, N, L)

prezentacja N nowych wejść, L > 1 kroków minimalizacji ruchome okno (N, M, L)

przesunięcie okna o długości N o M < N chwil (usunięcie M najstarszych i

prezentacja M nowych wejść), uśrednianie w oknie o długości N , wykonanie L ≥ 1

kroków minimalizacji

(5)

Metoda największego spadku

• wzór Taylora 1 rzędu

Q(w + µ r) = Q(w) + µ r

T

Q

(w) + o(µ)

• dla r = −Q

(w)

Q(w + µ r) = Q(w) − µ kQ

(w)k

2

< Q(w)

• algorytm korekcji wag

w(k + 1) = w(k) − µ δ(k)

• algorytm jest zwykle połączony z obliczaniem gradientu metodą propagacji

zwrotnej

(6)

Gradient sprzężony

• funkcja kwadratowa w R

, minimalizacja w kierunku

minimalizacja(r) ∗ minimalizacja(s) 6= minimalizacja(r, s)

zmiana gradientu o µ Q

′′

(w) r(k),

r(k + 1) ⊥ r(k)

kierunki r, s sprzężone: r

T

Q

′′ s

= 0

metoda gradientu sprzężonego

r(k)T

H (k) s(s) = 0 dla s = 1, . . . , k − 1

• r(k) = −δ(k) + β(k − 1) r(k − 1),

r

(0) = −δ(0) β(k) = kδ(k + 1)k

2

kδ(k)k

2

Fletcher-Reeves

β(k) = (δ(k + 1) − δ(k))

T δ

(k + 1)

kδ(k)k

2

Polak-Ribi`ere

restart po ℓ krokach

• zbieżne superliniowo; praktycznie: liniowo

• dla funkcji kwadratowej: F-R, P-R identyczne, zbieżność w ℓ krokach

(7)

Metoda Newtona

• wzór Newtona 2 rzędu

Q(w + µ r) = Q(w) + µ r

T

Q

(w) + 1

2 µ

2 rT

Q

′′

(w) r + o(µ

2

)

• gradient Q jako funkcja r

µ Q

(w + µ r) = µ Q

(w) + µ

2

Q

′′

(w) r + o(µ

2

)

• kierunek poprawy

r

= −Q

′′

(w)

−1

Q

(w)

algorytm Newtona

w

(k + 1) = w(k) − µ H

−1

(k) δ(k)

• zbieżny w ℓ krokach dla funkcji kwadratowej przy minimalizacji w kierunku;

problem: Hessian

(8)

Metody zmiennej metryki

• aproksymacja Q

′′

powinna spełniać

Q b

′′

(w)(w − w

) = Q

(w) − Q

(w

)

• metoda Davidona-Fletchera-Powella (DFP)

∆P (k) = ∆w(k) ∆w(k)

T

∆w(k)

T

∆δ(k) P (k) ∆δ(k) ∆δ(k)

T

P (k)

∆δ(k)

T

P (k) ∆δ(k)

• metoda Broydena-Fletchera-Goldfarba-Shanno (BFGS)

∆P (k) = ∆P (k)

DFP

+ ∆δ(k)

T

P (k)∆δ(k) z z

T

gdzie z = ∆w(k)

∆w(k)

T

∆δ(k) P (k) ∆δ(k)

∆δ(k)

T

P (k) ∆δ(k) gdzie P (k) = b H

−1

(k), ∆x(k) = x(k + 1) − x(k)

• warunki początkowe: P (0) = 1, P (1) – metoda największego spadku

(9)

Metoda Levenberga-Marquardta

• kwadratowa funkcja błędu Q(w) = 1

2 X

m

i=1

(y

i

(w) − y

io

)

2

= 1 2

X

m i=1

ε

2i

(w)

Q

(w) = X

m

i=1

y

i

(w) ε

i

(w)

Q

′′

(w) = X

m

i=1

y

i′′

(w) ε

i

(w) + y

i

(w) y

i

T

(w)

• wokół minimum ε

i

jest bliskie 0 (v — parametr Marquardta) Q b

′′

(w) = v 1 +

X

m i=1

y

i

(w) y

i

T

(w)

• dla v “dużych” (względem wartości własnych macierzy P

m

i=1

y

i

(w) y

i

T

(w)) Q b

′′

(w) ≈ v 1 — metoda największego spadku

• dla v “małych” b Q

′′

(w) ≈ P

m

y

(w) y

T

(w) — metoda Newtona

(10)

Specyficzne techniki neuronowe:

Wygładzanie inercyjne wag

człon inercyjny (ang. momentum term) α∆w(k − 1)

∆w(k) = −µ δ(k) + α∆w(k − 1), 0 < α < 1

• człon inercyjny kumuluje efekt δ(k) w kierunku spadku gradientu i redukuje efekt zmian gradientu

• dla zadanego ciągu gradientów {δ(1), . . . , δ(k)}

∆w(k) = −µ

1 − αq1 δ(k) (q1operator opóźnienia jednostkowego)

= −µ (1 + αq1 + α2q2 + . . .) δ(k)

= −µ δ(k) + αδ(k − 1) + α2δ(k − 2) + . . .

czyli gradient δ(k) zastąpiony przez sumę ważoną gradientów ze współczynnikiem wygładzania α

∆w(k) = −µ F (q) δ(k), F(q) = X

i=0

αiqi

(11)

Specyficzne techniki neuronowe: Reguła delta-delta

• pochodna kosztu względem współczynnika uczenia µ

i

dla algorytmu w

i

(k + 1) = w

i

(k) − µ

i

(k) δ

i

(k)

dQ

i

(k) = −δ

i

(k) δ

i

(k − 1)

• korekcja współczynnika uczenia

µ

i

(k + 1) = µ

i

(k) + γ δ

i

(k) δ

i

(k − 1)

• duża wrażliwość na wybór γ; wzrost µ

i

gdy dwie kolejne pochodne δ

i

(k) są tego samego znaku

nazwa delta-delta wywodzi się z oznaczenia gradientu przez δ

(12)

Specyficzne techniki neuronowe: Reguła delta-bar-delta

• wygładzanie gradientu

δ(k) = ξ δ

i

(k − 1) + (1 − ξ) δ

i

(k), 0 < ξ < 1 µ

i

(k + 1) = µ

i

(k) + γ δ

i

(k) δ

i

(k − 1)

• dodatkowe zabezpieczenia: µ liniowo rośnie gdy znak gradientu stały, maleje wykładniczo gdy zmienny

µ

i

(k + 1) = µ

i

(k) +

 

 

 

κ gdy δ

i

(k) δ

i

(k − 1) > 0

−βµ

i

(k) gdy δ(k) δ(k − 1) < 0

0 w pozostałych przypadkach

0 < κ < 0.05, 0.1 < β < 0.3

Cytaty

Powiązane dokumenty

W celu zbadania zależności stażu pracy od wydajności pracownika w dużym przedsiębiorstwie wylosowano w sposób niezależny stu pracowników.. Jak należy pociąć rury, aby odpad

[r]

а) повідомленвя КураторН Вол.. в Вишневці для р&lt;&gt;- гульоваввя сирав інствтуців, що ыістяться на територи замву комісію що свладалась з керовавків

Redukcja wymiaru polega na wybraniu tylko tych składowych głównych (k składowych z n), dla których zmienno´s´c danych var (4) jest nie mniejsza od zało˙zonego procentu

Tytuł zawodowy absolwenta: magister gospodarki przestrzennej Graduate's title: master in spatial management.. Forma

nie będzie możliwości uzyskania zaliczenia i uzyskanie wpisu do indeksu

Please register to remove this message.... Please register to remove

[r]