Metody jądrowe

(1)

Marcin Orchel

AGH University of Science and Technology in Poland

1 / 13

(2)

(3)

Agenda 3 / 13

(4)

(5)

zakładając przestrzeń R

²

, mamy granicę decyzyjną y = x

²

. Jeżeli dodamy trzecią współrzędną z, dane leżą teraz w przestrzeni (x , y , z).

Każdy punkt przekształcamy do przestrzeni R

³

w ten sposób, że definiujemy współrzędną z jako x

²

, to granicą będzie płaszczyzna y = z.

dla pewnych jąder pochodna przestrzeń ma nieskończenie wiele wymiarów

Iloczyny skalarne ϕ(~ x

j

) · ϕ( ~ x

k

) chcemy wyrazić jako funkcje jądra K K (~ x

_j

, ~ x

_k

) = ϕ (~ x

_j

) · ϕ ( ~ x

_k

) (1)

Metody jądrowe 5 / 13

(6)

Funkcje K , dla których istnieje co najmniej jedna para {E , ϕ}, taka, że zachodzi powyższa zależność muszą spełniać warunek Mercera.

Twierdzenie

Na to, by symetryczna funkcja K (u, v ) ∈ L

2

, u, v ∈ R

^p

miała rozwinięcie K (u, v ) =

∞

X

k=1

a

k

α

k

(u) α

k

(v ) , a

k

> 0 (2)

potrzeba i wystarcza, aby dla dowolnej funkcji 0 6≡ f ∈ L

₂

był spełniony warunek

Z Z

K (u, v ) f (u) f (v ) dudv > 0 (3)

(7)

Dla jądra postaci K (u, v ) = (1 + u · v )

²

, gdzie u, v ∈ R

²

otrzymujemy

K (u, v ) = (1 + u

₁

v

₁

+ u

₂

v

₂

)

²

= 1+2u

₁

v

₁

+2u

₂

v

₂

+2u

₁

u

₂

v

₁

v

₂

+u

₁²

v

₁²

+u

²₂

v

₂²

= ϕ (u)·ϕ (v ) (4)

gdzie

ϕ (u) = 1, √ 2u

1

, √

2u

2

, √

2u

1

u

2

, u

₁²

, u

²₂

(5) Dla jądra wielomianowego stopnia q, K (u, v ) = (1 + u

⁰

v )

^q

docelowa przestrzeń ma wymiar

p + q q

!

− 1 . (6)

(8)

Funkcje spełniające warunek Mercera: jądro wielomianowe

K (u, v ) = (1 + u · v )

^q

(7)

jądro normalne (Gaussa)

K (u, v ) = exp − ku − v k

²

2σ

²

!

(8)

jądro sigmoidalne (tylko dla niektórych wartości κ i δ)

K (u, v ) = tgh (κu · v − δ) (9)

Nie ma potrzeby znajomości przekształcenia ϕ i obliczania wartości

ϕ(x ).

(9)

Jak wygląda funkcja ϕ dla jądra normalnego?

Wyprowadzenie

K (~ x , ~ y ) = exp − k~x − ~y k

²

2σ

²

!

(10) Po rozpisaniu normy dla σ = 1

exp − ~ x

²

2 !

exp − ~ y

²

2 !

exp (~ x · ~ y ) (11)

= exp − ~ x

²

2 !

exp − ~ y

²

2 !

_∞

X

j=0

(~ x · ~ y )

^j

j! (12)

=

∞

X

j=0





exp − k~x k

²

/2j

√ j!

^1/j

exp − k~y k

²

/2j

√ j!

^1/j

~ x · ~ y





j

(13)

(10)

Jak rozpiszemy iloczyn skalarny to otrzymujemy sumę, więc możemy rozpisać tą sumę za pomocą uogólnienia dwumianu Newtona na wiele składników

(x

1

+ x

2

+ . . . + x

m

)

ⁿ

= ^X

k1+k2+...+km=n

n k

₁

, k

₂

, . . . , k

_m

!

_m

Y

t=1

x

_t^k^t

(14)

gdzie

n k

1

, k

2

, . . . , k

m

!

= n!

k

1

!k

2

! . . . k

m

! (15)

(11)

czyli

=

∞

X

j=0

X

k1+k2+...+km=j

exp − k~x k

²

/2j

√ j!

^1/j

j k

1

, k

2

, . . . , k

m

!

_{1/2 m}

Y

t=1

x

_t^k^t

(16) exp − k~y k

²

/2j

√ j!

^1/j

j k

₁

, k

₂

, . . . , k

_m

!

_{1/2 m}

Y

t=1

y

_t^k^t

(17) A zatem widzimy, że mamy iloczyn skalarny, pierwsza część to będzie ϕ(~ x ) a druga ϕ(~ y ).

(12)

Dlaczego maszyn wektorów wspierających (SVM) mogą zwracać granicę decyzyjną dla funkcji jądrowej RBF, która składa się z wielu części? Można to sobie wyobrazić jako przecięcie funkcji gęstości prawdopodobieństwa opartej na nieparametrycznej estymacji

estymator jądrowy gęstości (KDE) z płaszczyzną o kierunku zmiennej wyjaśnianej. Przecięcie to składa się z wielu części w zależności od funkcji bazowych. Im mniejsza rozpiętość poszczególnych funkcji bazowych (mniejsze σ), tym więcej może być tych części. W

poprzednim wykładzie jest związek estymacji gęstości z optymalizacją,

a stąd krok do SVM.

(13)

W jaki sposób przekształcić granicę decyzyjną liniową dla SVM w przestrzeni jądrowej na granicę decyzyjną nieliniową w oryginalnej przestrzeni? Można zauważyć, że to jest ta sama granica, a więc krzywa nieliniowa jest “rozciągana” do hiperpłaszczyzny i odwrotnie.

Równoległe hiperpłaszczyzny są przekształcane również do krzywych nieliniowych. Jeśli hiperpłaszczyzny nie przecinały się w przestrzeni jądrowej, to krzywe nieliniowe nie będą się przecinały w przestrzeni oryginalnej.

Metody jądrowe

Marcin Orchel

zakładając przestrzeń R

, mamy granicę decyzyjną y = x

. Jeżeli dodamy trzecią współrzędną z, dane leżą teraz w przestrzeni (x , y , z).

Każdy punkt przekształcamy do przestrzeni R

w ten sposób, że definiujemy współrzędną z jako x

, to granicą będzie płaszczyzna y = z.

dla pewnych jąder pochodna przestrzeń ma nieskończenie wiele wymiarów

Iloczyny skalarne ϕ(~ x

) · ϕ( ~ x

) chcemy wyrazić jako funkcje jądra K K (~ x

, ~ x

) = ϕ (~ x

) · ϕ ( ~ x

) (1)

Funkcje K , dla których istnieje co najmniej jedna para {E , ϕ}, taka, że zachodzi powyższa zależność muszą spełniać warunek Mercera.

Twierdzenie

Na to, by symetryczna funkcja K (u, v ) ∈ L

, u, v ∈ R

miała rozwinięcie K (u, v ) =

X

a

α

(u) α

(v ) , a

> 0 (2)

potrzeba i wystarcza, aby dla dowolnej funkcji 0 6≡ f ∈ L

był spełniony warunek

Z Z

K (u, v ) f (u) f (v ) dudv > 0 (3)

Dla jądra postaci K (u, v ) = (1 + u · v )

, gdzie u, v ∈ R

otrzymujemy

K (u, v ) = (1 + u

v

+ u

v

)

= 1+2u

v

+2u

v

+2u

u

v

v

+u

v

+u

v

= ϕ (u)·ϕ (v ) (4)

gdzie

ϕ (u) =  1, √ 2u

, √

2u

, √

2u

u

, u

, u

 (5) Dla jądra wielomianowego stopnia q, K (u, v ) = (1 + u

v )

docelowa przestrzeń ma wymiar

p + q q

!

− 1 . (6)

Funkcje spełniające warunek Mercera: jądro wielomianowe

K (u, v ) = (1 + u · v )

(7)

jądro normalne (Gaussa)

K (u, v ) = exp − ku − v k

2σ

!

(8)

jądro sigmoidalne (tylko dla niektórych wartości κ i δ)

K (u, v ) = tgh (κu · v − δ) (9)

Nie ma potrzeby znajomości przekształcenia ϕ i obliczania wartości

ϕ(x ).

Jak wygląda funkcja ϕ dla jądra normalnego?

ϕ (u) = 1, √ 2u

(5) Dla jądra wielomianowego stopnia q, K (u, v ) = (1 + u

exp − k~x k

/2j

exp − k~y k

/2j

= ^X

exp − k~x k

/2j