• Nie Znaleziono Wyników

Metody jądrowe

N/A
N/A
Protected

Academic year: 2021

Share "Metody jądrowe"

Copied!
13
0
0

Pełen tekst

(1)

Marcin Orchel

AGH University of Science and Technology in Poland

1 / 13

(2)
(3)

Agenda 3 / 13

(4)
(5)

zakładając przestrzeń R

2

, mamy granicę decyzyjną y = x

2

. Jeżeli dodamy trzecią współrzędną z, dane leżą teraz w przestrzeni (x , y , z).

Każdy punkt przekształcamy do przestrzeni R

3

w ten sposób, że definiujemy współrzędną z jako x

2

, to granicą będzie płaszczyzna y = z.

dla pewnych jąder pochodna przestrzeń ma nieskończenie wiele wymiarów

Iloczyny skalarne ϕ(~ x

j

) · ϕ( ~ x

k

) chcemy wyrazić jako funkcje jądra K K (~ x

j

, ~ x

k

) = ϕ (~ x

j

) · ϕ ( ~ x

k

) (1)

Metody jądrowe 5 / 13

(6)

Funkcje K , dla których istnieje co najmniej jedna para {E , ϕ}, taka, że zachodzi powyższa zależność muszą spełniać warunek Mercera.

Twierdzenie

Na to, by symetryczna funkcja K (u, v ) ∈ L

2

, u, v ∈ R

p

miała rozwinięcie K (u, v ) =

X

k=1

a

k

α

k

(u) α

k

(v ) , a

k

> 0 (2)

potrzeba i wystarcza, aby dla dowolnej funkcji 0 6≡ f ∈ L

2

był spełniony warunek

Z Z

K (u, v ) f (u) f (v ) dudv > 0 (3)

(7)

Dla jądra postaci K (u, v ) = (1 + u · v )

2

, gdzie u, v ∈ R

2

otrzymujemy

K (u, v ) = (1 + u

1

v

1

+ u

2

v

2

)

2

= 1+2u

1

v

1

+2u

2

v

2

+2u

1

u

2

v

1

v

2

+u

12

v

12

+u

22

v

22

= ϕ (u)·ϕ (v ) (4)

gdzie

ϕ (u) =  1,2u

1

,

2u

2

,

2u

1

u

2

, u

12

, u

22

 (5) Dla jądra wielomianowego stopnia q, K (u, v ) = (1 + u

0

v )

q

docelowa przestrzeń ma wymiar

p + q q

!

− 1 . (6)

Metody jądrowe 7 / 13

(8)

Funkcje spełniające warunek Mercera: jądro wielomianowe

K (u, v ) = (1 + u · v )

q

(7)

jądro normalne (Gaussa)

K (u, v ) = expku − v k

2

2

!

(8)

jądro sigmoidalne (tylko dla niektórych wartości κ i δ)

K (u, v ) = tgh (κu · v − δ) (9)

Nie ma potrzeby znajomości przekształcenia ϕ i obliczania wartości

ϕ(x ).

(9)

Jak wygląda funkcja ϕ dla jądra normalnego?

Wyprowadzenie

K (~ x , ~ y ) = expk~x − ~y k

2

2

!

(10) Po rozpisaniu normy dla σ = 1

exp − ~ x

2

2

!

exp − ~ y

2

2

!

exp (~ x · ~ y ) (11)

= exp − ~ x

2

2

!

exp − ~ y

2

2

!

X

j=0

(~ x · ~ y )

j

j! (12)

=

X

j=0

exp  − k~x k

2

/2j 

j!

1/j

exp  − k~y k

2

/2j 

j!

1/j

~ x · ~ y

j

(13)

Metody jądrowe 9 / 13

(10)

Jak rozpiszemy iloczyn skalarny to otrzymujemy sumę, więc możemy rozpisać tą sumę za pomocą uogólnienia dwumianu Newtona na wiele składników

(x

1

+ x

2

+ . . . + x

m

)

n

= X

k1+k2+...+km=n

n k

1

, k

2

, . . . , k

m

!

m

Y

t=1

x

tkt

(14)

gdzie

n k

1

, k

2

, . . . , k

m

!

= n!

k

1

!k

2

! . . . k

m

! (15)

(11)

czyli

=

X

j=0

X

k1+k2+...+km=j

exp  − k~x k

2

/2j 

j!

1/j

j k

1

, k

2

, . . . , k

m

!

1/2 m

Y

t=1

x

tkt

(16) exp  − k~y k

2

/2j 

j!

1/j

j k

1

, k

2

, . . . , k

m

!

1/2 m

Y

t=1

y

tkt

(17) A zatem widzimy, że mamy iloczyn skalarny, pierwsza część to będzie ϕ(~ x ) a druga ϕ(~ y ).

Metody jądrowe 11 / 13

(12)

Dlaczego maszyn wektorów wspierających (SVM) mogą zwracać granicę decyzyjną dla funkcji jądrowej RBF, która składa się z wielu części? Można to sobie wyobrazić jako przecięcie funkcji gęstości prawdopodobieństwa opartej na nieparametrycznej estymacji

estymator jądrowy gęstości (KDE) z płaszczyzną o kierunku zmiennej wyjaśnianej. Przecięcie to składa się z wielu części w zależności od funkcji bazowych. Im mniejsza rozpiętość poszczególnych funkcji bazowych (mniejsze σ), tym więcej może być tych części. W

poprzednim wykładzie jest związek estymacji gęstości z optymalizacją,

a stąd krok do SVM.

(13)

W jaki sposób przekształcić granicę decyzyjną liniową dla SVM w przestrzeni jądrowej na granicę decyzyjną nieliniową w oryginalnej przestrzeni? Można zauważyć, że to jest ta sama granica, a więc krzywa nieliniowa jest “rozciągana” do hiperpłaszczyzny i odwrotnie.

Równoległe hiperpłaszczyzny są przekształcane również do krzywych nieliniowych. Jeśli hiperpłaszczyzny nie przecinały się w przestrzeni jądrowej, to krzywe nieliniowe nie będą się przecinały w przestrzeni oryginalnej.

Metody jądrowe 13 / 13

Cytaty

Powiązane dokumenty

Komunikowanie się za pomocą Internetu, który jest medium interaktywnym, pozwala internautom bezpośrednio współtworzyć sieć – przez umieszczanie własnego serwisu

Autorka jest pracownikiem Instytutu Stosunków Międzynarodowych UW oraz uznaną specjalistką w zakresie ochrony praw człowieka i funkcjonowania prawa hu- manitarnego

Osoba pisząca reportaż wybiera autentyczne zdarzenie i udaje się na miejsce aby zebrać materiał.. Rozmawia się ze świadkami, którzy widzieli

Motywacją dla członu regularyzacyjnego jest zredukowanie zagrożenia przed- opasowania danych, okazuje się, że funkcje z H są bardziej dopasowane do danych gdy mają dużą normę.

• dla wygenerowanych danych dwuwymiarowych dwóch klas z rozkładów normalnych zaznacz na wykresie dane treningowe, klasyfikator svm, dla różnych wartości C oraz sigma, dla

• dla wygenerowanych danych dwuwymiarowych dla dwóch okręgów z dodanym błę- dem normalnym wyświetlić na wykresie dane treningowe oraz na osobnym wykresie

[r]

Projekt wspóªnansowany przez Uni¦ Europejsk¡ w ramach Europejskiego