7. Maszyny wektorów podpieraj ˛acych SVMs

(1)

Algorytmy rozpoznawania obrazów

7. Maszyny wektorów podpieraj ˛ acych SVMs

dr in˙z. Urszula Libal Politechnika Wrocławska

2015

(2)

1. Maszyny wektorów podpieraj ˛ acych - SVMs

Maszyny wektorów podpieraj ˛ acych (ang. Support Vector Mashines, SVMs) nale˙z ˛ a do grupy klasyfikatorów liniowych. Obiekt reprezentowany przez x jest klasyfikowany do jednej z dwóch klas 1 i − 1 za pomoc ˛ a liniowej funkcji dyskryminacyjna

δ (x) = w

^T

x + w

₀

w nast˛epuj ˛ acy sposób:

Ψ

SV M

(x) =



 

 

1, je˙zeli w

^T

x + w

₀

> 0

−1, je˙zeli w

^T

x + w

₀

< 0

. (1)

Wektor w = (w

₁

, w

₂

, . . . , w

_D

) oraz wyraz wolny w

0

s ˛ a tak dobierane, aby jak najszerzej

liniowo separowa´c klasy, je˙zeli jest to mo˙zliwe.

(3)

2 2.5 3 3.5 4 4.5 4

4.5 5 5.5 6 6.5 7 7.5 8

Makroklasa 1 Makroklasa 2 Wektory podpierajace

Rysunek 1. Wektory podpieraj ˛ ace dla liniowego klasyfikatora SVMs.

Zródło: opracowanie własne´

(4)

— Do treningu u˙zywamy ci ˛ agu ucz ˛ acego {(x

₁

, c

₁

), (x

₂

, c

₂

), . . . , , (x

_N

, c

_N

)}, gdzie x

_k

to D-wymiarowy wektor cech, a c

_k

to jego klasa pochodzenia.

— Dane musz ˛ a zosta´c unormowane, co oznacza, ˙ze indeksy klas przyjm ˛ a warto´sci 1 i −1.

— Klasyfikator SVM dany wzorem (1) klasyfikuje zgodnie ze znakiem funkcji dyskryminacyjnej δ (x) = w

^T

x + w

₀

.

— Wyznaczenie na podstawie ci ˛ agu ucz ˛ acego parametrów w

_i

, i = 0, 1, 2, . . . , D

stanowi zadanie optymalizacyjne.

(5)

2. Maksymalizacja marginesu

Rysunek 2. Hiperpłaszczyzna rozdzielaj ˛ aca o maksymalnym marginesie.

Zródło: [5]´

(6)

Maksymalizacja marginesu polega na maksymalizacji odległo´sci mi˛edzy wektorami podpieraj ˛ acymi a hiperpłaszczyzn ˛ a rozdzielaj ˛ ac ˛ a. Odległo´s´c mi˛edzy hiperpłaszczyzn ˛ a δ (x) = w

^T

x + w

₀

= 0 a pewnym wektorem x

n

z ci ˛ agu ucz ˛ acego (n ∈ {1, 2 . . . , N}) wynosi

|δ (x

_n

)|

||w|| . (2)

Maksymalizacj˛e wyra˙zenia (2) mo˙zna sprowadzi´c do minimalizacji ||w||, lub równowa˙znie minimalizacji

1 2 ||w||

²

. (3)

(7)

Bez zmniejszenia ogólno´sci rozwa˙za´n zakładamy, ˙ze marginesy b˛ed ˛ a postaci

w

^T

x + w

₀

= 1 i w

^T

x + w

₀

= −1. (4)

Wszystkie punkty z ci ˛ agu ucz ˛ acego musz ˛ a si˛e znale´z´c poza pasem mi˛edzy marginesami, ale tak aby wszystkie punkty z klasy 1 były po odpowiedniej stronie marginesu

w

^T

x + w

₀

= 1, a wszystkie punkty z klasy −1 po odpowiedniej stronie marginesu w

^T

x + w

₀

= −1 (patrz rys. 2). Sprowadzamy ten warunek do nierówno´sci

c

n

w

^T

x

_n

+ w

₀

≥ 1 (5)

dla ka˙zdego wektora x

_n

z ci ˛ agu ucz ˛ acego (n ∈ {1, 2 . . . , N}), gdzie c

_n

to jego klasa

pochodzenia.

(8)

Problem optymalizacyjny poszukiwania maksymalnego marginesu sprowadza si˛e do



 

 

min

_w,w₀ ¹₂

||w||

²

przy c

_n

w

^T

x

_n

+ w

₀

≥ 1.

(6)

Metoda mno˙zników Lagrange’a polega na minimalizacji funkcji L

L (w, w

₀

, λ ) = 1 2 ||w||

²

−

N n=1

∑

λ

n

c

n

w

^T

x

_n

+ w

₀

− 1 . (7)

Ka˙zdy mno˙znik λ

n

≥ 0 odpowiada jednemu wektorowi x

_n

z ci ˛ agu ucz ˛ acego

(n ∈ {1, 2 . . . , N}).

(9)

W celu minimalizacji funkcji L wyznaczamy jej pochodne i przyrównujemy je do zera



 



 



∂ L(w, w₀, λ )

∂ w

= 0,

∂ L(w, w₀, λ )

∂ w0

= 0,

∂ L(w, w₀, λ )

∂ λ

= 0.

(8)

[przykład numeryczny dla D2]

(10)

3. Nieliniowe SVMs

Niestety nie zawsze klasyfikacja za pomoc ˛ a maszyn wektorów podpieraj ˛ acych SVMs (1) jest mo˙zliwa do przeprowadzenia. Mo˙ze si˛e zdarzy´c, ˙ze klasy nie s ˛ a liniowo separowalne.

Rysunek 3. Liniowo separowalne oraz nieseparowalne klasy.

(11)

W przypadku nierozdzielnych liniowo klas stosujemy trik z zastosowaniem funkcji j ˛ adrowych φ (kernel trick).

Inn ˛ a posta´c przyjmuje funkcja dyskryminacyjna δ (x) = w

^T

φ (x) + w

0

.

Rysunek 4. Wektory podpieraj ˛ ace dla nieliniowego klasyfikatora SVMs.

Zródło: [2]´

(12)

Funkcja L w metodzie mno˙zników Lagrange’a równie˙z ulega zmianie

L (w, w

₀

, λ ) = 1 2 ||w||

²

−

N n=1

∑

λ

n

c

n

w

^T

φ (x

n

) + w

₀

− 1 . (9)

Minimalizacj˛e L sprowadzamy do problemu dualnego.

Maksymalizujemy teraz e L

e L (λ ) =

N

∑

n=1

λ

_n

− 1 2

N

∑

n=1 N

∑

m=1

λ

_n

λ

_m

c

_n

c

_m

κ (x

_n

, x

_m

) (10)

przy ograniczeniach

λ

n

≥ 0, n = 1, 2, . . . , N, (11)

N

(13)

gdzie j ˛ adro κ przyjmuje posta´c

κ (x

n

, x

_m

) = φ (x

n

)

^T

φ (x

m

) . (13)

Funkcja j ˛ adrowa Matematyczna forma κ (x, y) wielomianowa p-tego rz˛edu κ (x, y) = x

^T

y + r

p

gaussowska (Radial Basis Function) κ (x, y) = exp(−

^||x−y||

2

2σ²

)

sigmoidalna κ (x, y) = tanh(x

^T

y + r)

(14)

J ˛ adrowa (nieliniowa) wersja klasyfikatora SVM to wtedy

Ψ

kernel SV M

(x) =



 

 

1, je˙zeli ∑

^N_n=1

λ

n

c

n

κ (x

n

, x) + w

₀

> 0,

−1, je˙zeli ∑

^N_n=1

λ

n

c

_n

κ (x

n

, x) + w

₀

< 0.

(14)

(15)

a) b)

Rysunek 5. (a) Zbiór punktów nierozdzielny liniowo. (b) Ten sam zestaw danych przekształcony przez transformacj˛e [x

₁

, x

₂

] 7→ [x

₁

, x

₂

, x

²₁

+ x

²₂

].

Zródło: [6]´

(16)

a) b)

Rysunek 6. Hiperpłaszczyzna rozdzielaj ˛ aca: (a) liniowa w R

³

, (b) nieliniowa w R

²

.

Zródło: [6]´

(17)

Literatura

[1] A.R. Webb, K.D. Copsey, Statistical Pattern Recognition, 3rd ed., Wiley, (2011) [2] C.M. Bishop, Pattern Recognition and Machine Learning, Springer Series: Information Science and Statistics (2006)

[3] M. Krzy´sko, W. Woły´nski, T. Górecki, M. Skorzybut, Systemy ucz ˛ ace si˛e.

Rozpoznawanie wzorców, analiza skupie´n i redukcja wymiarowo´sci. WNT, Warszawa (2008)

[4] R.O. Duda, P.E. Hart, D.G. Stork, Pattern Classification, 2nd ed., Wiley, (2000) [5] http://en.wikipedia.org/wiki/Support_vector_machine

[6] http://www.eric-kim.net/eric-kim-net/posts/1/kernel_trick.html