• Nie Znaleziono Wyników

7. Maszyny wektorów podpieraj ˛acych SVMs

N/A
N/A
Protected

Academic year: 2021

Share "7. Maszyny wektorów podpieraj ˛acych SVMs"

Copied!
17
0
0

Pełen tekst

(1)

Algorytmy rozpoznawania obrazów

7. Maszyny wektorów podpieraj ˛ acych SVMs

dr in˙z. Urszula Libal Politechnika Wrocławska

2015

(2)

1. Maszyny wektorów podpieraj ˛ acych - SVMs

Maszyny wektorów podpieraj ˛ acych (ang. Support Vector Mashines, SVMs) nale˙z ˛ a do grupy klasyfikatorów liniowych. Obiekt reprezentowany przez x jest klasyfikowany do jednej z dwóch klas 1 i − 1 za pomoc ˛ a liniowej funkcji dyskryminacyjna

δ (x) = w

T

x + w

0

w nast˛epuj ˛ acy sposób:

Ψ

SV M

(x) =

 

 

1, je˙zeli w

T

x + w

0

> 0

−1, je˙zeli w

T

x + w

0

< 0

. (1)

Wektor w = (w

1

, w

2

, . . . , w

D

) oraz wyraz wolny w

0

s ˛ a tak dobierane, aby jak najszerzej

liniowo separowa´c klasy, je˙zeli jest to mo˙zliwe.

(3)

2 2.5 3 3.5 4 4.5 4

4.5 5 5.5 6 6.5 7 7.5 8

Makroklasa 1 Makroklasa 2 Wektory podpierajace

Rysunek 1. Wektory podpieraj ˛ ace dla liniowego klasyfikatora SVMs.

Zródło: opracowanie własne´

(4)

— Do treningu u˙zywamy ci ˛ agu ucz ˛ acego {(x

1

, c

1

), (x

2

, c

2

), . . . , , (x

N

, c

N

)}, gdzie x

k

to D-wymiarowy wektor cech, a c

k

to jego klasa pochodzenia.

— Dane musz ˛ a zosta´c unormowane, co oznacza, ˙ze indeksy klas przyjm ˛ a warto´sci 1 i −1.

— Klasyfikator SVM dany wzorem (1) klasyfikuje zgodnie ze znakiem funkcji dyskryminacyjnej δ (x) = w

T

x + w

0

.

— Wyznaczenie na podstawie ci ˛ agu ucz ˛ acego parametrów w

i

, i = 0, 1, 2, . . . , D

stanowi zadanie optymalizacyjne.

(5)

2. Maksymalizacja marginesu

Rysunek 2. Hiperpłaszczyzna rozdzielaj ˛ aca o maksymalnym marginesie.

Zródło: [5]´

(6)

Maksymalizacja marginesu polega na maksymalizacji odległo´sci mi˛edzy wektorami podpieraj ˛ acymi a hiperpłaszczyzn ˛ a rozdzielaj ˛ ac ˛ a. Odległo´s´c mi˛edzy hiperpłaszczyzn ˛ a δ (x) = w

T

x + w

0

= 0 a pewnym wektorem x

n

z ci ˛ agu ucz ˛ acego (n ∈ {1, 2 . . . , N}) wynosi

|δ (x

n

)|

||w|| . (2)

Maksymalizacj˛e wyra˙zenia (2) mo˙zna sprowadzi´c do minimalizacji ||w||, lub równowa˙znie minimalizacji

1

2 ||w||

2

. (3)

(7)

Bez zmniejszenia ogólno´sci rozwa˙za´n zakładamy, ˙ze marginesy b˛ed ˛ a postaci

w

T

x + w

0

= 1 i w

T

x + w

0

= −1. (4)

Wszystkie punkty z ci ˛ agu ucz ˛ acego musz ˛ a si˛e znale´z´c poza pasem mi˛edzy marginesami, ale tak aby wszystkie punkty z klasy 1 były po odpowiedniej stronie marginesu

w

T

x + w

0

= 1, a wszystkie punkty z klasy −1 po odpowiedniej stronie marginesu w

T

x + w

0

= −1 (patrz rys. 2). Sprowadzamy ten warunek do nierówno´sci

c

n

w

T

x

n

+ w

0

 ≥ 1 (5)

dla ka˙zdego wektora x

n

z ci ˛ agu ucz ˛ acego (n ∈ {1, 2 . . . , N}), gdzie c

n

to jego klasa

pochodzenia.

(8)

Problem optymalizacyjny poszukiwania maksymalnego marginesu sprowadza si˛e do

 

 

min

w,w0 12

||w||

2

przy c

n

w

T

x

n

+ w

0

 ≥ 1.

(6)

Metoda mno˙zników Lagrange’a polega na minimalizacji funkcji L

L (w, w

0

, λ ) = 1 2 ||w||

2

N n=1

λ

n

c

n

w

T

x

n

+ w

0

 − 1 . (7)

Ka˙zdy mno˙znik λ

n

≥ 0 odpowiada jednemu wektorowi x

n

z ci ˛ agu ucz ˛ acego

(n ∈ {1, 2 . . . , N}).

(9)

W celu minimalizacji funkcji L wyznaczamy jej pochodne i przyrównujemy je do zera

 

 

 

 

∂ L(w, w0, λ )

∂ w

= 0,

∂ L(w, w0, λ )

∂ w0

= 0,

∂ L(w, w0, λ )

∂ λ

= 0.

(8)

[przykład numeryczny dla D2]

(10)

3. Nieliniowe SVMs

Niestety nie zawsze klasyfikacja za pomoc ˛ a maszyn wektorów podpieraj ˛ acych SVMs (1) jest mo˙zliwa do przeprowadzenia. Mo˙ze si˛e zdarzy´c, ˙ze klasy nie s ˛ a liniowo separowalne.

Rysunek 3. Liniowo separowalne oraz nieseparowalne klasy.

(11)

W przypadku nierozdzielnych liniowo klas stosujemy trik z zastosowaniem funkcji j ˛ adrowych φ (kernel trick).

Inn ˛ a posta´c przyjmuje funkcja dyskryminacyjna δ (x) = w

T

φ (x) + w

0

.

Rysunek 4. Wektory podpieraj ˛ ace dla nieliniowego klasyfikatora SVMs.

Zródło: [2]´

(12)

Funkcja L w metodzie mno˙zników Lagrange’a równie˙z ulega zmianie

L (w, w

0

, λ ) = 1 2 ||w||

2

N n=1

λ

n

c

n

w

T

φ (x

n

) + w

0

 − 1 . (9)

Minimalizacj˛e L sprowadzamy do problemu dualnego.

Maksymalizujemy teraz e L

e L (λ ) =

N

n=1

λ

n

− 1 2

N

n=1 N

m=1

λ

n

λ

m

c

n

c

m

κ (x

n

, x

m

) (10)

przy ograniczeniach

λ

n

≥ 0, n = 1, 2, . . . , N, (11)

N

(13)

gdzie j ˛ adro κ przyjmuje posta´c

κ (x

n

, x

m

) = φ (x

n

)

T

φ (x

m

) . (13)

Funkcja j ˛ adrowa Matematyczna forma κ (x, y) wielomianowa p-tego rz˛edu κ (x, y) = x

T

y + r 

p

gaussowska (Radial Basis Function) κ (x, y) = exp(−

||x−y||

2

2

)

sigmoidalna κ (x, y) = tanh(x

T

y + r)

(14)

J ˛ adrowa (nieliniowa) wersja klasyfikatora SVM to wtedy

Ψ

kernel SV M

(x) =

 

 

1, je˙zeli ∑

Nn=1

λ

n

c

n

κ (x

n

, x) + w

0

> 0,

−1, je˙zeli ∑

Nn=1

λ

n

c

n

κ (x

n

, x) + w

0

< 0.

(14)

(15)

a) b)

Rysunek 5. (a) Zbiór punktów nierozdzielny liniowo. (b) Ten sam zestaw danych przekształcony przez transformacj˛e [x

1

, x

2

] 7→ [x

1

, x

2

, x

21

+ x

22

].

Zródło: [6]´

(16)

a) b)

Rysunek 6. Hiperpłaszczyzna rozdzielaj ˛ aca: (a) liniowa w R

3

, (b) nieliniowa w R

2

.

Zródło: [6]´

(17)

Literatura

[1] A.R. Webb, K.D. Copsey, Statistical Pattern Recognition, 3rd ed., Wiley, (2011) [2] C.M. Bishop, Pattern Recognition and Machine Learning, Springer Series: Information Science and Statistics (2006)

[3] M. Krzy´sko, W. Woły´nski, T. Górecki, M. Skorzybut, Systemy ucz ˛ ace si˛e.

Rozpoznawanie wzorców, analiza skupie´n i redukcja wymiarowo´sci. WNT, Warszawa (2008)

[4] R.O. Duda, P.E. Hart, D.G. Stork, Pattern Classification, 2nd ed., Wiley, (2000) [5] http://en.wikipedia.org/wiki/Support_vector_machine

[6] http://www.eric-kim.net/eric-kim-net/posts/1/kernel_trick.html

Cytaty

Powiązane dokumenty

Jeżeli dany zbiór wektorów nie jest liniowo niezależny, to mówimy, że jest liniowo zależny..

Kombinacje liniowe wektorów.... Nazywamy ją

Głównym celem artykułu jest porównanie skuteczności klasyfikacji cech dwóch algorytmów klasyfikujących wykorzystywanych w interfejsach mózg-komputer: SVM

Jeżeli B=(v 1 , ..., v n ) jest uporządkowaną bazą skończenie wymiarowej przestrzeni V, to każdy wektor tej przestrzeni da się jednoznacznie przedstawić w postaci liniowej

Wektorem zerowym nazywamy wektor, którego wszystkie współrzędne są równe zero... Algebra liniowa

Motywacją dla członu regularyzacyjnego jest zredukowanie zagrożenia przed- opasowania danych, okazuje się, że funkcje z H są bardziej dopasowane do danych gdy mają dużą normę.

• dla wygenerowanych danych dwuwymiarowych dwóch klas z rozkładów normalnych zaznacz na wykresie dane treningowe, klasyfikator svm, dla różnych wartości C oraz sigma, dla

Wykazać, że jeżeli n &gt; k, to jednorodny układ k rów- nań liniowych z n niewiadomymi ma niezerowe