błąd średniokwadratowy (MSE) sieci (dla jednowymiarowego wyjścia) Q(t) =b 1 2 AN|y∗(t

(1)

8. Adaline

8-1 Adaline

8-2 Minimalizacja kosztu

8-3 Rekurencyjny algorytm LS (ﬁltr Kalmana)

8-4 Algorytm µ-najmniejszych średnich kwadratów (µ-LMS) 8-5 Algorytm rzutowania Kaczmarza

8-6 Normalizowane Najmniejsze Średnie Kwadraty (NLMS) 8-7 Algorytm α-Najmniejszych Średnich Kwadratów (α-LMS)

(2)

Adaline

• ADAptive LInear NEuron

• ADAptive LINear Element

• współczesne perceptrony wielowarstwowe

perceptron Rosenblatta −→ struktura sieci Adaline −→ algorytmy uczenia

liniowe wyjście sieci (trening wag) y(t) = w(t)^Tu(t)

binarne wyjście sieci (klasyﬁkacja) y^B(t) = sign w(t)^Tu(t)

odchyłka ε(t) = y^∗(t) − y(t) = y^∗(t) − w(t)^Tu(t)

(3)

• średnia Ax = x = _N _i=1 x_i

średnia w chwili t za ostatnich N chwil ANx(t) = _N¹ Pt

j=t−N +1 x(j)

• błąd średniokwadratowy (MSE) sieci (dla jednowymiarowego wyjścia) Q(t) =b 1

2 AN|y^∗(t) − w^Tu(t)|²

= 1

2 ANy^∗2(t) − w^TAN u(t) y^∗(t) + 1

2 w^TAN u(t) u^T(t) w

• gradient i hessian d bQ(t)

dw = −AN u(t) y^∗(t)

+ AN u(t) u(t)^T

w = −AN u(t) ε(t) d²Q(t)b

dw dw^T = AN u(t) u(t)^T

• wagi optymalne minimalizują błąd średniokwadratowy w^∗ =

A u(t) u(t)^T⁻¹

A u(t) y^∗(t)

= bR (t)⁻¹ Rb (t)

(4)

Rekurencyjny algorytm LS (ﬁltr Kalmana)

• aktualizacja wag

w(t) = w(t − 1) + P(t) u(t) ε(t)

• aktualizacja wzmocnień

P(t) = P(t − 1) − P(t − 1) u(t) u^T(t) P(t − 1) 1 + u^T(t) P(t − 1) u(t)

• warunki początkowe w(0) = 0

P(0) = σ²I, σ² dostatecznie duże

(5)

(µ-LMS)

• metoda największego spadku

w(t) = w(t − 1) − µ d bQ(t)

dw = w(t − 1) + µ AN u(t) ε(t)

• µ-LMS: długość okna N = 1

w(t) = w(t − 1) + µ u(t) ε(t)

• jeśli obrazy są niezależne o macierzy kowariancji Ru to – średnie wagi Ew(t) zbieżne jeżeli

0 < µ ≤ 2

max(eig(Ru))

– błąd średniokwadratowy E|ε(t)|² zbieżny (warunek silniejszy) jeśli

(6)

Algorytm rzutowania Kaczmarza

• w(t) = w^ref — dotychczasowa waga, w(t + 1) = w, y^∗ – pożądane wyjście

• minimalizować Q = ¹₂ kw − w^refk² przy ograniczeniach y^∗ = w^Tu

• funkcja Lagrange’a

L(w, β) = Q(w) + β (y^∗ − w^Tu)

• warunek konieczny optymalności dL

dw = w − w^ref − β u = 0 dL

dβ = y^∗ − w^Tu = 0

=⇒ βkuk² = y^∗ − wref^T u = ε

• algorytm Kaczmarza

∆w(t) = w − w^ref =





1

ku(t)k² u(t) ε(t) jeśli ku(t)k 6= 0

0 w przeciwnym przypadku

(7)

Normalizowane Najmniejsze Średnie Kwadraty (NLMS)

• modyﬁkacja algorytmu Kaczmarza w(t + 1) = w(t) + 1

c + ku(t)k² u(t) ε(t)

• suma normalizowana Xn

t=1

|ε(t)|²

c + ku(t)k² → a, a < ∞

• błąd średniokwadratowy wag

kw(t) − w^∗(t)k → b, b ≥ 0

(8)

Algorytm α-Najmniejszych Średnich Kwadratów (α-LMS)

• korekcja wag

w(t + 1) − w(t) = α 1

ku(t)k² u(t) ε(t)

• zmiana wyjścia

y₊(t) − y(t) = w(t+) − w(t)^T

u(t) = α ε(t)

• zmiana odchyłki wyjścia

ε₊(t) − ε(t) = −α ε(t)

• współczynnik kroku α ∈ (0, 2); sugerowane [0.1, 1]

• skalowanie u^′ = _kukû , y^′ = _kuk^y , yô′ = _kuk^yô prowadzi do µ-LMS

• dla symetrycznych sygnałów binarnych algorytmy LMS identyczne