• Nie Znaleziono Wyników

7-3 Optymalna hiperpłaszczyzna decyzyjna 7-4 Minimalizacja z ograniczeniami (1) 7-5 Minimalizacja z ograniczeniami (2):

N/A
N/A
Protected

Academic year: 2021

Share "7-3 Optymalna hiperpłaszczyzna decyzyjna 7-4 Minimalizacja z ograniczeniami (1) 7-5 Minimalizacja z ograniczeniami (2):"

Copied!
21
0
0

Pełen tekst

(1)

7. Maszyny wektorów podpierających

7-1 Postać dualna perceptronu Rosenblatta 7-2 Region separujący

7-3 Optymalna hiperpłaszczyzna decyzyjna 7-4 Minimalizacja z ograniczeniami (1) 7-5 Minimalizacja z ograniczeniami (2):

Problem dualny

7-6 Minimalizacja z ograniczeniami (3):

Warunki Kuhna-Tuckera

7-7 Optymalizacja dla hiperpłaszczyzny decyzyjnej 7-8 Zadanie dualne

7-9 Warunki Kuhna-Tuckera

7-10 Wyznaczenie obciążenia

(2)

7-13 SVM maksymalizujące margines 7-14 Przykłady SVM

7-15 Przykład: Maszyna wielomianowa dla problemu XOR 7-16 Klasy liniowo nierozdzielne

7-17 Liniowa kara za naruszenie ograniczeń 7-18 SVM dla liniowej kary

7-19 SVM dla liniowej kary – problem skalowania

(3)

Postać dualna perceptronu Rosenblatta

• optymalne wagi są liniową kombinacją obrazów treningowych

w

=

N

X

i=1

α

i ui

ℓ(u

i

)

α

i

— (dla jednostkowej szybkości uczenia) liczba błędnych klasyfikacji i-tego obrazu (siła obrazu)

• reprezentacja ta nie jest jednoznaczna

• perceptron — postać dualna

N

(u) = sign b + u

T

N

X

i=1

α

i ui

ℓ(u

i

) 

= sign b +

N

X α

i

(u

Ti u

) ℓ(u

i

) 

(4)

Region separujący

• H(w, b) klasyfikuje poprawnie, jeśli dla pewnego ∆ > 0 ui∈ UL+ ⇒ b + wTui ≥ ∆

ui∈ UL− ⇒ b + wTui ≤ −∆

czyli b+ wTui ℓ(ui) ≥ ∆ dla ui ∈ UL

margines funkcjonalnyf: największe możliwe ∆, tzn.

dla co najmniej jednego ui ∈ UL (obrazy podpierające US) b + wTui ℓ(ui) = ∆f

region separujący {u ∈ Rn : |b + wTu| < ∆f}

• przypomnienie: odległość punktu u0 od hiperpłaszczyzny H(w, b) jest równa |wTkwku0+b|, odległość hiperpłaszczyzn H(w, b1), H(w, b2) jest równa |b1kwk−b2|

• szerokość regionu separującego 2∆kwkf

postać kanonicznaf = 1 (usunięta niejednoznaczność)

(5)

Optymalna hiperpłaszczyzna decyzyjna

• optymalna hiperpłaszczyzna decyzyjna H(w

, b

):

a. bezbłędnie klasyfikuje obrazy uczące ui

∈ U

L wTui

+ b

 ℓ(u

i

) ≥ 1 dla u

i

∈ U

L

b. maksymalizuje

margines geometryczny tzn. odległość d(U

L

, H(w, b))

g

= d(U

L

, H(w

, b

)) =

kw1k

• klasyfikator maksymalizujący margines geometryczny

N(u) = sign(w

Tu

+ b

)

(6)

Minimalizacja z ograniczeniami (1)

problem pierwotny znaleźć ϑ

minimalizujące funkcję f (ϑ), ϑ ∈ Θ ⊂ R

n

, przy ograniczeniach

g

i

(ϑ) ≤ 0, i = 1, . . . , k (g(ϑ) ≤ 0) h

j

(ϑ) = 0, j = 1, . . . , m (h(ϑ) = 0)

obszar dopuszczalny D = {ϑ ∈ Θ : g(ϑ) ≤ 0, h(ϑ) = 0}

• rozwiązanie (globalne) problemu pierwotnego ϑ

f (ϑ

) < f (ϑ) dla każdego

ϑ

∈ D, ϑ 6= ϑ

ograniczenie aktywne: g

i

) = 0, ograniczenie nieaktywne: g

i

) < 0

funkcja Lagrange’a, mnożniki Lagrange’a

L(ϑ, α, β) = f (ϑ) +

k

X

i=1

α

i

g

i

(ϑ) +

m

X

j=1

β

j

h

j

(ϑ)

(7)

Minimalizacja z ograniczeniami (2):

Problem dualny

problem dualny: znaleźć α

, β

maksymalizujące funkcję L

(α, β) = inf

ϑ∈Θ

L(ϑ, α, β) przy ograniczeniach α ≥ 0

luka dualności: L = inf

ϑ∈D

f (ϑ) − sup

α≥0, β

L

(α, β)

• jeśli L = 0, to ϑ

, α

, β

 są rozwiązaniami problemu pierwotnego i dualnego

punkt siodłowy: luka dualności jest zerowa wtedy i tylko wtedy gdy (ϑ

, α

, β

) jest punktem siodłowym funkcji Lagrange’a tzn. dla każdego ϑ ∈ Θ, α ≥ 0, β

L(ϑ

, α, β) ≤ L(ϑ

, α

, β

) ≤ L(ϑ, α

, β

)

(8)

Minimalizacja z ograniczeniami (3):

Warunki Kuhna-Tuckera

warunki Kuhna-Tuckera dla funkcji f wypukłej i ciągłej wraz z pochodnymi na zbiorze wypukłym Θ i afinicznych funkcji g

i

, h

j

:

ϑ

jest rozwiązaniem problemu pierwotnego wtedy i tylko wtedy, gdy istnieją

α

, β

takie, że

∂L

∂ϑ

ϑ

= 0 (K-T 1)

∂L

∂β

ϑ

= 0 (K-T 2)

α

i

g

i

) = 0, i = 1, . . . , k (K-T 3a)

g

i

) ≤ 0, i = 1, . . . , k (K-T 3b)

α

i

≥ 0, i = 1, . . . , k (K-T 3c)

• dla ograniczeń aktywnych α

i

≥ 0, dla ograniczeń nieaktywnych α

i

= 0

(9)

Optymalizacja dla hiperpłaszczyzny decyzyjnej

• problem optymalizacji

minimalizować Q(w, b) =

12

kwk

2

funkcja wypukła na zbiorze R

n+1

przy ograniczeniach ℓ(u

i

) w

Tui

+ b  ≥ 1, i = 1, . . . , N afiniczne

• funkcja Lagrange’a

L(w, b ; α) =

12 wTw

+

N

X

i=1

α

i

 1 − ℓ(u

i

) w

Tui

+ b  

• zadanie dualne: programowanie kwadratowe, rozwiązanie numeryczne

=⇒

• warunki Kuhna-Tuckera nie dają rozwiązania w postaci analitycznej, ale pozwalają

na określenie jego właściwości

=⇒

(10)

Zadanie dualne

• funkcja dualna: ∂L

∂w = ∂L

∂b = 0 (K-T 1) czyli w =

N

X

i=1

αiui ℓ(ui) podstawiamy do funkcji Lagrange’a

N

X

i=1

αi ℓ(ui) = 0 ograniczenie w problemie dualnym czyli L(α) = −12 wTw +

N

X

i=1

αi =

N

X

i=1

αi 1 2

N

X

i=1 N

X

j=1

αiαjℓ(ui) ℓ(uj) uTi uj

zadanie dualne: maksymalizować L(α) =

N

X

i=1

αi 1 2

N

X

i=1 N

X

j=1

αi αjℓ(ui) ℓ(uj) uTi uj

przy ograniczeniach PN

i=1αiℓ(ui) = 0 αi ≥ 0, i = 1, . . . , N

• α zależy od ui tylko poprzez iloczyny skalarne uTi uj k(ui, uj) = uTi uj

(11)

Warunki Kuhna-Tuckera

• warunki Kuhna-Tuckera

w

=

N

X

i=1

α

i ui

ℓ(u

i

),

N

X

i=1

α

i

ℓ(u

i

) = 0 K-T 1

α

i

 1 − ℓ(u

i

) w

Tui

+ b

 

= 0, i = 1, . . . , N K-T 3a

ℓ(u

i

) w

Tui

+ b

 ≥ 1, i = 1, . . . , N K-T 3b

α

i

≥ 0, i = 1, . . . , N K-T 3c

• dla obrazów innych niż podpierające α

i

= 0 (K-T 3a) czyli

w

= X

ui∈US

α

i ui

ℓ(u

i

)

• numeryczne rozwiązanie problemu dualnego: programowanie kwadratowe

• optymalny margines geometryczny kw

k

2

= w

T

P

α

ℓ(u

i

) u

i

= P

α

1 − ℓ(u

i

) b = P α

czyli

(12)

Wyznaczenie obciążenia

• b

można wyznaczyć z ograniczeń pierwotnych

1 − min

ui:ℓ(ui)=1 wTui

≤ b

≤ −1 − max

ui:ℓ(ui)=−1 wTui

, b

= −1

2 min

ℓ(ui)=1wTui

+ max

ℓ(ui)=−1wTui



• dla obrazów podpierających ℓ(u

i

) w

Tui

+ b

 = 1 czyli

b

= ℓ(u

i

) − w

Tui

,

ui

∈ U

S

(13)

Iloczyn skalarny w przestrzeni cech

• reguła klasyfikacji dla sieci jednowarstwowej, k(u

, u

′′

) = u

Tu′′

N(u) = sign 

b

+ X

ui∈US

α

i

ℓ(u

i

) u

Ti u



• reguła klasyfikacji zastosowana dla cech

x

= ϕ(u) N(u) = sign 

b

+ X

ϕ(xi)∈XS

α

i

ℓ(u

i

) ϕ(u

i

)

Tϕ(u)



= sign 

b

+ X

ui∈US

α

i

ℓ(u

i

) k(u

i

, u) 

• ϕ zadane pośrednio — tylko przez iloczyn skalarny k

przypomnienie: iloczyn skalarny

symetria: k(u, u′′) = k(u′′, u)

(14)

Warunek Mercera

nie każdy iloczyn skalarny jest realizowany przez pewną przestrzeń cech

warunek Mercera gwarantuje istnienie funkcji ϕ:

dla każdego skończonego podzbioru {u

1

, . . . , u

N

} ⊂ U macierz {k(u

i

, u

j

)} jest dodatnio półokreślona

• przykłady: k(u

, u

′′

) = (u

Tu′′

+ 1)

p

, k(u

, u

′′

) = exp 

−1

2

ku

− u

′′

k

2



• zwiększenie wymiaru przestrzeni cech zwiększa pojemność liniową klasyfikacji

(15)

SVM maksymalizujące margines

• α

: jest jednoznacznym rozwiązaniem problemu maksymalizacji funkcji

L

(α) =

N

X

i=1

α

i

1 2

N

X

i=1 N

X

j=1

α

i

α

j

ℓ(u

i

) ℓ(u

j

) k(u

i

, u

j

)

przy ograniczeniach P

N

i=1

α

i

ℓ(u

i

) = 0 α

i

≥ 0, i = 1, . . . , N

reguła klasyfikacji w przestrzeni obrazów jest nieliniowa y(u) = sign 

b

+ X

ui∈Us

α

i

ℓ(u

i

) k u, u

i

 

• b

dobrane tak, by spełniać warunek b

= ℓ(u

j

) − X

ui∈Us

α

i

ℓ(u

i

) k u

i

, u

j

, dla dowolnego u

j

∈ U

S

(16)

Przykłady SVM

maszyna wielomianowa

k(u

, u

′′

) = (u

Tu′′

+ 1)

p

maszyna radialna

k(u

, u

′′

) = exp  −1

2

ku

−u

′′

k

2



• uogólnienie maszyny radialnej k(u

, u

′′

) = exp  −1

2

d(u

, u

′′

)  gdzie d jest miarą odległości obrazów, np.

d(u

, u

′′

) = χ

2

(u

, u

′′

) ≈

n

X

k=1

|u

k

− u

′′k

|

2

u

k

+ u

′′k

W.M. ?

d(u

, u

′′

) = ku

− u

′′

k

p

=

p

v u u t

n

X

k=1

|u

k

− u

′′k

|

p

W.M. spełniony dla p = 1, 2

(17)

Przykład: Maszyna wielomianowa dla problemu XOR

• ui h

−1 −1 iT

, h

−1 1 iT

, h

1 −1 iT

, h 1 1

iT

ℓ(ui) -1, 1, 1, -1

• k(u, u′′) = (1 + uTu′′)2

• problem dualny: minimalizować L(α) = αTi 12 αT ℓ ℓT⊙K (⊙ - produkt Schura) przy ograniczeniach α ≥ 0, Tα ≥ 0

gdzie ℓ =

"−1

1 1

−1

#

, ℓ ℓT =

" 1 −1 −1 1

−1 1 1 −1

−1 1 1 −1 1 −1 −1 1

#

, K= {k(ui, uj)} =

9 1 1 1

1 9 1 1 1 1 9 1 1 1 1 9



• rozwiązanie dualne bez ograniczeń: α = ℓ ℓT⊙K−1

i = 961

" 11 1 1 −1

1 11 −1 1 1 −1 11 1

−1 1 1 11

#

i = 18 i, ograniczenia dualne spełnione, wszystkie ui są podpierające

• reguła klasyfikacji y(u) = sign

b +P

ui∈U αi ℓ(ui) k u, ui



• b = ℓ(uj) −P

ui∈Us αi ℓ(ui) k ui, uj

dla uj ∈ US czyli b = 0

• przestrzeń cech: poniewaź

k(u, u) = (1 + uTu)2 = 1 + 2 uTu + (uTu)2

(18)

Klasy liniowo nierozdzielne

• przypadek liniowo rozdzielny

wTui

+ b ℓ(u

i

) ≥ 1 dla u

i

∈ U

L

miękki margines: możliwość naruszenia warunków poprawnej klasyfikacji dla i-tego obrazu

wTui

+ b ℓ(u

i

) ≥ 1 − ξ

i

, ξ

i

≥ 0, dla u

i

∈ U

L

,

• ξ

i

- zmienne dopełniające (slack variables) 0 < ξ

i

< 1

naruszony region rozdzielający

ξ

i

> 1

brak separacji liniowej

(19)

Liniowa kara za naruszenie ograniczeń

• problem pierwotny (c kontroluje liczbę błędnych klasyfikacji) minimalizować funkcję Q(w, b, ξ) =

12

kwk

2

+ c P

N

i=1

ξ

i

przy ograniczeniach ξ

i

≥ 0, ℓ(u

i

) w

Tui

+b  ≥1 − ξ

i

, i = 1,. . . ,N

• funkcja Lagrange’a L(w, b, ξ; α, λ)

=

12 wTw

+ c

N

X

i=1

ξ

i

+

N

X

i=1

α

i

1 − ξ

i

− ℓ(u

i

) (w

Tui

+ b)  −

N

X

i=1

λ

i

ξ

i

• warunki Kuhna-Tuckera

w =

N

X

i=1

αiuiℓ(ui),

N

X

i=1

αi ℓ(ui) = 0

µi + λi = c, i = 1, . . . , N (K-T 1)

αi

1 − ξi − ℓ(ui) wTui + b

= 0, λiξi = 0, i = 1, . . . , N (K-T 3a) ℓ(ui) wTui + b ≥ 1 − ξi, ξi ≥ 0, i = 1, . . . , N (K-T 3b)

α ≥ 0, λ ≥ 0, i = 1, . . . , N (K-T 3c)

(20)

SVM dla liniowej kary

• funkcja dualna

L

(α, λ) = −

12 wTw

+

N

X

i=1

α

i

=

N

X

i=1

α

i

1 2

N

X

i=1 N

X

j=1

α

i

α

j

ℓ(u

i

) ℓ(u

j

) k(u

i

, u

j

)

• problem dualny: maksymalizować funkcję L

(α) = P

N

i=1

α

i

12

P

N i=1

P

N

j=1

α

i

α

j

ℓ(u

i

) ℓ(u

j

) k(u

i

, u

j

) przy ograniczeniach P

N

i=1

α

i

ℓ(u

i

) = 0, 0 ≤ α

i

≤ c, i = 1, . . . , N

• α

i

> 0

ui

— obraz (wektor) podpierający

α

i

< c

ui

— obraz spełniający ograniczenia (poza regionem separującym)

reguła klasyfikacji w przestrzeni obrazów y(u) = sign 

b

+ X

ui∈Us

α

i

ℓ(u

i

) k u, u

i

 

• b

dobrane tak, by spełniać warunek

ℓ(u

i

) y(u

i

) = 1 dla każdego i : 0 < α

i

< c

• margines geometryczny ∆

g

=

q P 1

ui ∈US

P

uj ∈US αi αjℓ(ui) ℓ(uj) k(ui,uj)

(21)

SVM dla liniowej kary – problem skalowania

• zmodyfikowany problem dualny

maksymalizować funkcję L

(α) = −

12

P

N i=1

P

N

j=1

α

i

α

j

ℓ(u

i

) ℓ(u

j

) k(u

i

, u

j

) przy ograniczeniach P

N

i=1

α

i

ℓ(u

i

) = 0, P

N

i=1

α

i

≥ c

0

, 0 ≤ α

i

≤ 1/N, i = 1, . . . , N

gdzie 0 ≤ c

0

≤ 1

• α

i

> 0

ui

- wektor podpierający

α

i

<

N1 ui

- wektor spełniający ograniczenia

• b

dobrane tak, by spełniać warunek

ℓ(u

i

) y(u

i

) = 1 dla każdego u

i

: 0 < α

i

< c

Cytaty

Powiązane dokumenty

Wykonaj obliczenia wpisując wyniki mnożenia w odpowiednie

Przedstaw liczbę 20 jako wynik dodawania.

Materiał edukacyjny wytworzony w ramach projektu „Scholaris – portal wiedzy dla nauczycieli&#34;1. współfinansowanego przez Unię Europejską w ramach Europejskiego

³uj¹ce siê odpowiednio do wyników nauk empirycznych i do teologicznych twierdzeñ uznaj¹cych Boga za Stwórcê œwiata – nie tylko jest mo¿liwy, ale tak¿e jest

Sprzeciwi³a siê temu grupa uczonych (w tym Jellinek) z Theodorem Mom- msenem na czele. autor równie¿ krytycznie odniós³ siê do projektu ustawy o szkolnictwie powszechnym, która

Wpływ kosztów ,które ponosimy corocznie w związku z zarządzaniem Twoimi inwestycjami oraz kosztów przedstawionych w dokumencie zawierającym kluczowe informacje w sekcji „Co to

Wpływ kosztów ,które ponosimy corocznie w związku z zarządzaniem Twoimi inwestycjami oraz kosztów przedstawionych w dokumencie zawierającym kluczowe informacje w sekcji „Co to

Możesz jednak skorzystać z systemu ochrony konsumentów (zob. sekcja „Co się stanie jeśli nie mamy możliwości wypłacenia ci pieniędzy?”). Ochrona ta nie jest uwzględniona we