7-3 Optymalna hiperpłaszczyzna decyzyjna 7-4 Minimalizacja z ograniczeniami (1) 7-5 Minimalizacja z ograniczeniami (2):

(1)

7. Maszyny wektorów podpierających

7-1 Postać dualna perceptronu Rosenblatta 7-2 Region separujący

7-3 Optymalna hiperpłaszczyzna decyzyjna 7-4 Minimalizacja z ograniczeniami (1) 7-5 Minimalizacja z ograniczeniami (2):

Problem dualny

7-6 Minimalizacja z ograniczeniami (3):

Warunki Kuhna-Tuckera

7-7 Optymalizacja dla hiperpłaszczyzny decyzyjnej 7-8 Zadanie dualne

7-9 Warunki Kuhna-Tuckera

7-10 Wyznaczenie obciążenia

(2)

7-13 SVM maksymalizujące margines 7-14 Przykłady SVM

7-15 Przykład: Maszyna wielomianowa dla problemu XOR 7-16 Klasy liniowo nierozdzielne

7-17 Liniowa kara za naruszenie ograniczeń 7-18 SVM dla liniowej kary

7-19 SVM dla liniowej kary – problem skalowania

(3)

Postać dualna perceptronu Rosenblatta

• optymalne wagi są liniową kombinacją obrazów treningowych

w

=

N

X

i=1

α

i u_i

ℓ(u

i

)

α

i

— (dla jednostkowej szybkości uczenia) liczba błędnych klasyﬁkacji i-tego obrazu (siła obrazu)

• reprezentacja ta nie jest jednoznaczna

• perceptron — postać dualna

N

(u) = sign b + u

^T

N

X

i=1

α

i u_i

ℓ(u

i

)

= sign b +

N

X α

i

(u

^T_i u

) ℓ(u

i

)

(4)

Region separujący

• H(w, b) klasyﬁkuje poprawnie, jeśli dla pewnego ∆ > 0 u_i∈ UL+ ⇒ b + w^Tu_i ≥ ∆

u_i∈ UL− ⇒ b + w^Tu_i ≤ −∆

czyli b+ w^Tu_i ℓ(ui) ≥ ∆ dla ui ∈ UL

• margines funkcjonalny ∆f: największe możliwe ∆, tzn.

dla co najmniej jednego ui ∈ UL (obrazy podpierające US) b + w^Tu_i ℓ(ui) = ∆f

• region separujący {u ∈ Rⁿ : |b + w^Tu| < ∆f}

• przypomnienie: odległość punktu u0 od hiperpłaszczyzny H(w, b) jest równa ^|w^T_kwk^u⁰^+b|, odległość hiperpłaszczyzn H(w, b1), H(w, b2) jest równa ^|b¹_kwk^−b²^|

• szerokość regionu separującego ^2∆_kwk^f

• postać kanoniczna ∆f = 1 (usunięta niejednoznaczność)

(5)

Optymalna hiperpłaszczyzna decyzyjna

• optymalna hiperpłaszczyzna decyzyjna H(w

^∗

, b

^∗

):

a. bezbłędnie klasyﬁkuje obrazy uczące ui

∈ U

^L w^∗^Tu_i

+ b

^∗

ℓ(u

i

) ≥ 1 dla u

i

∈ U

^L

b. maksymalizuje

margines geometryczny tzn. odległość d(U

^L

, H(w, b))

∆

g

= d(U

^L

, H(w

^∗

, b

^∗

)) =

_kw¹^∗_k

• klasyﬁkator maksymalizujący margines geometryczny

N(u) = sign(w

^∗^Tu

+ b

^∗

)

(6)

Minimalizacja z ograniczeniami (1)

• problem pierwotny znaleźć ϑ

^∗

minimalizujące funkcję f (ϑ), ϑ ∈ Θ ⊂ R

ⁿ

, przy ograniczeniach

g

i

(ϑ) ≤ 0, i = 1, . . . , k (g(ϑ) ≤ 0) h

j

(ϑ) = 0, j = 1, . . . , m (h(ϑ) = 0)

• obszar dopuszczalny D = {ϑ ∈ Θ : g(ϑ) ≤ 0, h(ϑ) = 0}

• rozwiązanie (globalne) problemu pierwotnego ϑ

^∗

f (ϑ

^∗

) < f (ϑ) dla każdego

ϑ

∈ D, ϑ 6= ϑ

^∗

• ograniczenie aktywne: g

i

(ϑ

^∗

) = 0, ograniczenie nieaktywne: g

i

(ϑ

^∗

) < 0

• funkcja Lagrange’a, mnożniki Lagrange’a

L(ϑ, α, β) = f (ϑ) +

k

X

i=1

α

i

g

i

(ϑ) +

m

X

j=1

β

j

h

j

(ϑ)

(7)

Minimalizacja z ograniczeniami (2):

Problem dualny

• problem dualny: znaleźć α

^∗

, β

^∗

maksymalizujące funkcję L

^∗

(α, β) = inf

ϑ∈Θ

L(ϑ, α, β) przy ograniczeniach α ≥ 0

• luka dualności: L = inf

ϑ∈D

f (ϑ) − sup

α≥0, β

L

^∗

(α, β)

• jeśli L = 0, to ϑ

^∗

, α

^∗

, β

^∗

są rozwiązaniami problemu pierwotnego i dualnego

• punkt siodłowy: luka dualności jest zerowa wtedy i tylko wtedy gdy (ϑ

^∗

, α

^∗

, β

^∗

) jest punktem siodłowym funkcji Lagrange’a tzn. dla każdego ϑ ∈ Θ, α ≥ 0, β

L(ϑ

^∗

, α, β) ≤ L(ϑ

^∗

, α

^∗

, β

^∗

) ≤ L(ϑ, α

^∗

, β

^∗

)

(8)

Minimalizacja z ograniczeniami (3):

Warunki Kuhna-Tuckera

• warunki Kuhna-Tuckera dla funkcji f wypukłej i ciągłej wraz z pochodnymi na zbiorze wypukłym Θ i aﬁnicznych funkcji g

i

, h

j

:

ϑ^∗

jest rozwiązaniem problemu pierwotnego wtedy i tylko wtedy, gdy istnieją

α^∗

, β

^∗

takie, że

∂L

∂ϑ

ϑ^∗,α^∗,β^∗

= 0 (K-T 1)

∂L

∂β

ϑ^∗,α^∗,β^∗

= 0 (K-T 2)

α

^∗_i

g

i

(ϑ

^∗

) = 0, i = 1, . . . , k (K-T 3a)

g

i

(ϑ

^∗

) ≤ 0, i = 1, . . . , k (K-T 3b)

α

^∗_i

≥ 0, i = 1, . . . , k (K-T 3c)

• dla ograniczeń aktywnych α

^∗i

≥ 0, dla ograniczeń nieaktywnych α

^∗i

= 0

(9)

Optymalizacja dla hiperpłaszczyzny decyzyjnej

• problem optymalizacji

minimalizować Q(w, b) =

¹₂

kwk

²

funkcja wypukła na zbiorze R

ⁿ⁺¹

przy ograniczeniach ℓ(u

i

) w

^Tu_i

+ b ≥ 1, i = 1, . . . , N aﬁniczne

• funkcja Lagrange’a

L(w, b ; α) =

¹₂ w^Tw

+

N

X

i=1

α

i

1 − ℓ(u

ⁱ

) w

^Tu_i

+ b

• zadanie dualne: programowanie kwadratowe, rozwiązanie numeryczne

=⇒

• warunki Kuhna-Tuckera nie dają rozwiązania w postaci analitycznej, ale pozwalają

na określenie jego właściwości

=⇒

(10)

Zadanie dualne

• funkcja dualna: ∂L

∂w = ∂L

∂b = 0 (K-T 1) czyli w^∗ =

N

X

i=1

αiu^∗_i ℓ(ui) podstawiamy do funkcji Lagrange’a

N

X

i=1

αi ℓ(ui) = 0 ograniczenie w problemie dualnym czyli L^∗(α) = −¹₂ w^∗^Tw^∗ +

N

X

i=1

αi =

N

X

i=1

αi − 1 2

N

X

i=1 N

X

j=1

αiαjℓ(ui) ℓ(uj) u^T_i u_j

zadanie dualne: maksymalizować L^∗(α) =

N

X

i=1

αi − 1 2

N

X

i=1 N

X

j=1

αi αjℓ(ui) ℓ(uj) u^T_i u_j

przy ograniczeniach PN

i=1αiℓ(ui) = 0 αi ≥ 0, i = 1, . . . , N

• α^∗ zależy od u_i tylko poprzez iloczyny skalarne u^T_i u_j k(ui, uj) = u^T_i u_j

(11)

Warunki Kuhna-Tuckera

• warunki Kuhna-Tuckera

w^∗

=

N

X

i=1

α

i u^∗_i

ℓ(u

i

),

N

X

i=1

α

i

ℓ(u

i

) = 0 K-T 1

α

i

1 − ℓ(u

ⁱ

) w

^∗^Tu_i

+ b

^∗

= 0, i = 1, . . . , N K-T 3a

ℓ(u

i

) w

^∗^Tu_i

+ b

^∗

≥ 1, i = 1, . . . , N K-T 3b

α

^∗_i

≥ 0, i = 1, . . . , N K-T 3c

• dla obrazów innych niż podpierające α

^∗_i

= 0 (K-T 3a) czyli

w^∗

= X

u_i∈US

α

^∗_i u_i

ℓ(u

i

)

• numeryczne rozwiązanie problemu dualnego: programowanie kwadratowe

• optymalny margines geometryczny kw

^∗

k

²

= w

^∗^T

P

α

^∗

ℓ(u

i

) u

i

= P

α

^∗

1 − ℓ(u

ⁱ

) b = P α

^∗

czyli

(12)

Wyznaczenie obciążenia

• b

^∗

można wyznaczyć z ograniczeń pierwotnych

1 − min

^ui:ℓ(ui)=1 w^∗^Tu_i

≤ b

^∗

≤ −1 − max

^ui:ℓ(ui)=−1 w^∗^Tu_i

, b

^∗

= −1

2 min

ℓ(ui)=1w^∗^Tu_i

+ max

ℓ(ui)=−1w^∗^Tu_i

• dla obrazów podpierających ℓ(u

ⁱ

) w

^∗^Tu_i

+ b

^∗

= 1 czyli

b

^∗

= ℓ(u

i

) − w

^∗^Tu_i

,

u_i

∈ U

^S

(13)

Iloczyn skalarny w przestrzeni cech

• reguła klasyﬁkacji dla sieci jednowarstwowej, k(u

^′

, u

^′′

) = u

^′^Tu^′′

N(u) = sign

b

^∗

+ X

u_i∈US

α

^∗_i

ℓ(u

i

) u

^T_i u

• reguła klasyﬁkacji zastosowana dla cech

x

= ϕ(u) N(u) = sign

b

^∗

+ X

ϕ(xi)∈XS

α

^∗_i

ℓ(u

i

) ϕ(u

i

)

^Tϕ(u)

= sign

b

^∗

+ X

u_i∈US

α

^∗_i

ℓ(u

i

) k(u

i

, u)

• ϕ zadane pośrednio — tylko przez iloczyn skalarny k

•

przypomnienie: iloczyn skalarny

symetria: k(u^′, u^′′) = k(u^′′, u^′)

(14)

Warunek Mercera

• nie każdy iloczyn skalarny jest realizowany przez pewną przestrzeń cech

• warunek Mercera gwarantuje istnienie funkcji ϕ:

dla każdego skończonego podzbioru {u

¹

, . . . , u

N

} ⊂ U macierz {k(u

ⁱ

, u

j

)} jest dodatnio półokreślona

• przykłady: k(u

^′

, u

^′′

) = (u

^′^Tu^′′

+ 1)

^p

, k(u

^′

, u

^′′

) = exp

−1

2σ²

ku

^′

− u

^′′

k

²

• zwiększenie wymiaru przestrzeni cech zwiększa pojemność liniową klasyﬁkacji

(15)

SVM maksymalizujące margines

• α

^∗

: jest jednoznacznym rozwiązaniem problemu maksymalizacji funkcji

L

^∗

(α) =

N

X

i=1

α

i

− 1 2

N

X

i=1 N

X

j=1

α

i

α

j

ℓ(u

i

) ℓ(u

j

) k(u

i

, u

j

)

przy ograniczeniach P

N

i=1

α

i

ℓ(u

i

) = 0 α

i

≥ 0, i = 1, . . . , N

• reguła klasyﬁkacji w przestrzeni obrazów jest nieliniowa y(u) = sign

b

^∗

+ X

u_i∈Us

α

^∗_i

ℓ(u

i

) k u, u

i

• b

^∗

dobrane tak, by spełniać warunek b

^∗

= ℓ(u

j

) − X

u_i∈Us

α

^∗_i

ℓ(u

i

) k u

i

, u

j

, dla dowolnego u

j

∈ U

^S

(16)

Przykłady SVM

• maszyna wielomianowa

k(u

^′

, u

^′′

) = (u

^′^Tu^′′

+ 1)

^p

• maszyna radialna

k(u

^′

, u

^′′

) = exp −1

2σ

²

ku

^′

−u

^′′

k

²

• uogólnienie maszyny radialnej k(u

^′

, u

^′′

) = exp −1

2σ

²

d(u

^′

, u

^′′

) gdzie d jest miarą odległości obrazów, np.

d(u

^′

, u

^′′

) = χ

²

(u

^′

, u

^′′

) ≈

n

X

k=1

|u

^′k

− u

^′′k

|

²

u

^′_k

+ u

^′′_k

W.M. ?

d(u

^′

, u

^′′

) = ku

^′

− u

^′′

k

^p

=

^p

v u u t

n

X

k=1

|u

^′k

− u

^′′k

|

^p

W.M. spełniony dla p = 1, 2

(17)

Przykład: Maszyna wielomianowa dla problemu XOR

• uⁱ h

−1 −1 iT

, h

−1 1 iT

, h

1 −1 iT

, h 1 1

iT

ℓ(ui) -1, 1, 1, -1

• k(u^′, u^′′) = (1 + u^′^Tu^′′)²

• problem dualny: minimalizować L^∗(α) = α^Ti− ¹2 α^T ℓ ℓ^T⊙Kα (⊙ - produkt Schura) przy ograniczeniach α ≥ 0, ℓ^Tα ≥ 0

gdzie ℓ =

"₋₁

1 1

−1

#

, ℓ ℓ^T =

" ₁ _{−1 −1 1}

−1 1 1 −1

−1 1 1 −1 1 −1 −1 1

#

, K= {k(uⁱ, uj)} =

_{9 1 1 1}

1 9 1 1 1 1 9 1 1 1 1 9

• rozwiązanie dualne bez ograniczeń: α^∗ = ℓ ℓ^T⊙K₋₁

i = ₉₆¹

" ₁₁ ₁ ₁ ₋₁

1 11 −1 1 1 −1 11 1

−1 1 1 11

#

i = ¹₈ i, ograniczenia dualne spełnione, wszystkie ui są podpierające

• reguła klasyﬁkacji y(u) = sign

b^∗ +P

u_i∈U α^∗_i ℓ(ui) k u, ui

• b^∗ = ℓ(uj) −P

u_i∈U_s α^∗_i ℓ(ui) k ui, u_j

dla uj ∈ U^S czyli b^∗ = 0

• przestrzeń cech: poniewaź

k(u, u^′) = (1 + u^Tu^′)² = 1 + 2 u^Tu^′ + (u^Tu^′)²

′ ′ ′ ′

(18)

Klasy liniowo nierozdzielne

• przypadek liniowo rozdzielny

w^Tu_i

+ b ℓ(u

i

) ≥ 1 dla u

i

∈ U

^L

• miękki margines: możliwość naruszenia warunków poprawnej klasyﬁkacji dla i-tego obrazu

w^Tu_i

+ b ℓ(u

i

) ≥ 1 − ξ

ⁱ

, ξ

i

≥ 0, dla u

i

∈ U

^L

,

• ξ

ⁱ

- zmienne dopełniające (slack variables) 0 < ξ

i

< 1

naruszony region rozdzielający

ξ

i

> 1

brak separacji liniowej

(19)

Liniowa kara za naruszenie ograniczeń

• problem pierwotny (c kontroluje liczbę błędnych klasyﬁkacji) minimalizować funkcję Q(w, b, ξ) =

¹₂

kwk

²

+ c P

N

i=1

ξ

i

przy ograniczeniach ξ

i

≥ 0, ℓ(u

i

) w

^Tu_i

+b ≥1 − ξ

ⁱ

, i = 1,. . . ,N

• funkcja Lagrange’a L(w, b, ξ; α, λ)

=

¹₂ w^Tw

+ c

N

X

i=1

ξ

i

+

N

X

i=1

α

i

1 − ξ

ⁱ

− ℓ(u

ⁱ

) (w

^Tu_i

+ b) −

N

X

i=1

λ

i

ξ

i

• warunki Kuhna-Tuckera

w^∗ =

N

X

i=1

αiu_iℓ(ui),

N

X

i=1

αi ℓ(ui) = 0

µi + λi = c, i = 1, . . . , N (K-T 1)

αi

1 − ξi − ℓ(ui) w^Tu_i + b

= 0, λiξi = 0, i = 1, . . . , N (K-T 3a) ℓ(ui) w^Tu_i + b ≥ 1 − ξi, ξi ≥ 0, i = 1, . . . , N (K-T 3b)

α ≥ 0, λ ≥ 0, i = 1, . . . , N (K-T 3c)

(20)

SVM dla liniowej kary

• funkcja dualna

L

^∗

(α, λ) = −

¹₂ w^∗^Tw^∗

+

N

X

i=1

α

i

=

N

X

i=1

α

i

− 1 2

N

X

i=1 N

X

j=1

α

i

α

j

ℓ(u

i

) ℓ(u

j

) k(u

i

, u

j

)

• problem dualny: maksymalizować funkcję L

^∗

(α) = P

N

i=1

α

i

−

¹₂

P

N i=1

P

N

j=1

α

i

α

j

ℓ(u

i

) ℓ(u

j

) k(u

i

, u

j

) przy ograniczeniach P

N

i=1

α

i

ℓ(u

i

) = 0, 0 ≤ α

ⁱ

≤ c, i = 1, . . . , N

• α

ⁱ

> 0

u_i

— obraz (wektor) podpierający

α

i

< c

u_i

— obraz spełniający ograniczenia (poza regionem separującym)

• reguła klasyﬁkacji w przestrzeni obrazów y(u) = sign

b

^∗

+ X

u_i∈Us

α

^∗_i

ℓ(u

i

) k u, u

i

• b

^∗

dobrane tak, by spełniać warunek

ℓ(u

i

) y(u

i

) = 1 dla każdego i : 0 < α

^∗_i

< c

• margines geometryczny ∆

^g

=

q P ¹

ui ∈US

P

uj ∈US α^∗_i α^∗_jℓ(ui) ℓ(uj) k(ui,u_j)

(21)

SVM dla liniowej kary – problem skalowania

• zmodyﬁkowany problem dualny

maksymalizować funkcję L

^∗

(α) = −

¹₂

P

N i=1

P

N

j=1

α

i

α

j

ℓ(u

i

) ℓ(u

j

) k(u

i

, u

j

) przy ograniczeniach P

N

i=1

α

i

ℓ(u

i

) = 0, P

N

i=1

α

i

≥ c

⁰

, 0 ≤ α

ⁱ

≤ 1/N, i = 1, . . . , N

gdzie 0 ≤ c

⁰

≤ 1

• α

ⁱ

> 0

u_i

- wektor podpierający

α

i

<

_N¹ u_i

- wektor spełniający ograniczenia

• b

^∗

dobrane tak, by spełniać warunek

ℓ(u

i

) y(u

i

) = 1 dla każdego u

i

: 0 < α

^∗_i

< c