Marcin Orchel
AGH University of Science and Technology in Poland
1 / 13
Agenda 3 / 13
zakładając przestrzeń R
2, mamy granicę decyzyjną y = x
2. Jeżeli dodamy trzecią współrzędną z, dane leżą teraz w przestrzeni (x , y , z).
Każdy punkt przekształcamy do przestrzeni R
3w ten sposób, że definiujemy współrzędną z jako x
2, to granicą będzie płaszczyzna y = z.
dla pewnych jąder pochodna przestrzeń ma nieskończenie wiele wymiarów
Iloczyny skalarne ϕ(~ x
j) · ϕ( ~ x
k) chcemy wyrazić jako funkcje jądra K K (~ x
j, ~ x
k) = ϕ (~ x
j) · ϕ ( ~ x
k) (1)
Metody jądrowe 5 / 13
Funkcje K , dla których istnieje co najmniej jedna para {E , ϕ}, taka, że zachodzi powyższa zależność muszą spełniać warunek Mercera.
Twierdzenie
Na to, by symetryczna funkcja K (u, v ) ∈ L
2, u, v ∈ R
pmiała rozwinięcie K (u, v ) =
∞
X
k=1
a
kα
k(u) α
k(v ) , a
k> 0 (2)
potrzeba i wystarcza, aby dla dowolnej funkcji 0 6≡ f ∈ L
2był spełniony warunek
Z Z
K (u, v ) f (u) f (v ) dudv > 0 (3)
Dla jądra postaci K (u, v ) = (1 + u · v )
2, gdzie u, v ∈ R
2otrzymujemy
K (u, v ) = (1 + u
1v
1+ u
2v
2)
2= 1+2u
1v
1+2u
2v
2+2u
1u
2v
1v
2+u
12v
12+u
22v
22= ϕ (u)·ϕ (v ) (4)
gdzie
ϕ (u) = 1, √ 2u
1, √
2u
2, √
2u
1u
2, u
12, u
22(5) Dla jądra wielomianowego stopnia q, K (u, v ) = (1 + u
0v )
qdocelowa przestrzeń ma wymiar
p + q q
!
− 1 . (6)
Metody jądrowe 7 / 13
Funkcje spełniające warunek Mercera: jądro wielomianowe
K (u, v ) = (1 + u · v )
q(7)
jądro normalne (Gaussa)
K (u, v ) = exp − ku − v k
22σ
2!
(8)
jądro sigmoidalne (tylko dla niektórych wartości κ i δ)
K (u, v ) = tgh (κu · v − δ) (9)
Nie ma potrzeby znajomości przekształcenia ϕ i obliczania wartości
ϕ(x ).
Jak wygląda funkcja ϕ dla jądra normalnego?
Wyprowadzenie
K (~ x , ~ y ) = exp − k~x − ~y k
22σ
2!
(10) Po rozpisaniu normy dla σ = 1
exp − ~ x
22
!
exp − ~ y
22
!
exp (~ x · ~ y ) (11)
= exp − ~ x
22
!
exp − ~ y
22
!
∞X
j=0
(~ x · ~ y )
jj! (12)
=
∞
X
j=0
exp − k~x k
2/2j
√ j!
1/jexp − k~y k
2/2j
√ j!
1/j~ x · ~ y
j
(13)
Metody jądrowe 9 / 13
Jak rozpiszemy iloczyn skalarny to otrzymujemy sumę, więc możemy rozpisać tą sumę za pomocą uogólnienia dwumianu Newtona na wiele składników
(x
1+ x
2+ . . . + x
m)
n= X
k1+k2+...+km=n
n k
1, k
2, . . . , k
m!
mY
t=1
x
tkt(14)
gdzie
n k
1, k
2, . . . , k
m!
= n!
k
1!k
2! . . . k
m! (15)
czyli
=
∞
X
j=0
X
k1+k2+...+km=j
exp − k~x k
2/2j
√ j!
1/jj k
1, k
2, . . . , k
m!
1/2 mY
t=1
x
tkt(16) exp − k~y k
2/2j
√ j!
1/jj k
1, k
2, . . . , k
m!
1/2 mY
t=1
y
tkt(17) A zatem widzimy, że mamy iloczyn skalarny, pierwsza część to będzie ϕ(~ x ) a druga ϕ(~ y ).
Metody jądrowe 11 / 13
Dlaczego maszyn wektorów wspierających (SVM) mogą zwracać granicę decyzyjną dla funkcji jądrowej RBF, która składa się z wielu części? Można to sobie wyobrazić jako przecięcie funkcji gęstości prawdopodobieństwa opartej na nieparametrycznej estymacji
estymator jądrowy gęstości (KDE) z płaszczyzną o kierunku zmiennej wyjaśnianej. Przecięcie to składa się z wielu części w zależności od funkcji bazowych. Im mniejsza rozpiętość poszczególnych funkcji bazowych (mniejsze σ), tym więcej może być tych części. W
poprzednim wykładzie jest związek estymacji gęstości z optymalizacją,
a stąd krok do SVM.
W jaki sposób przekształcić granicę decyzyjną liniową dla SVM w przestrzeni jądrowej na granicę decyzyjną nieliniową w oryginalnej przestrzeni? Można zauważyć, że to jest ta sama granica, a więc krzywa nieliniowa jest “rozciągana” do hiperpłaszczyzny i odwrotnie.
Równoległe hiperpłaszczyzny są przekształcane również do krzywych nieliniowych. Jeśli hiperpłaszczyzny nie przecinały się w przestrzeni jądrowej, to krzywe nieliniowe nie będą się przecinały w przestrzeni oryginalnej.
Metody jądrowe 13 / 13