Uczenie maszynowe - wnioskowanie oparte na podobiestwie

(1)

U zenie maszynowe - wnioskowanie oparte na

(2)

K najblizszych sasiadow

Gªówny pomysª: Wszystkie przykªady ze zbioru treningowego

U

trn

s¡ bezpo±rednio zapamitane w bazie przykªadów

(3)

K najblizszych sasiadow

U

trn

Algorytm u z¡ y indukuje z bazy przykªadów miar odlegªo± i

ρ

: X

(4)

K najblizszych sasiadow

U

trn

q

ρ

: X

2 _{→ R}

(5)

K najblizszych sasiadow

U

trn

q

ρ

: X

2 _{→ R}

Algorytm klasyka yjny dla ka»dego obiektu testowego

q

:

(6)

K najblizszych sasiadow

U

trn

q

ρ

: X

2 _{→ R}

Algorytm klasyka yjny dla ka»dego obiektu testowego

q

:

wybiera

k

najbli»szy h s¡sia dów ze zbioru treningowego

U

trn

zwra a de yzj dla

q

na podstawie de yzji najbli»szy h s¡sia d ów

(7)

K najblizszych sasiadow:

k

= 1

Fakt: W przypadku

k

= 1

podziaª przestrzeni dany h

przez zbiór przykªadów treningowy h tworzy diagram Voronoi

Obiekt testowy

x

q

jest klasykowany z de yzj¡ tego obiektu treningowego, w którego obszar wpada

x

q

:

(8)

K najblizszych sasiadow:

k >

1 S(x

q

, k)

zbiór

k

najbli»szy h s¡sia d ów obiektu

x

q

Metody gªosowania:

♦

jednorodna

h(x

q

) = arg max

_d∈V

_d

|{x ∈ S(x

q

, k) : dec(x) = d}|

♦

wa»ona odlegªo± i¡

h(x

q

) = arg max

d

∈V

_d

X

x∈S(x

q

,k)

dec(x)=d

1 ρ(x

q

, x)

2

(9)

Miara odleglosci

Miara odlegªo± i to pseudometryka

ρ

: X

2 _{→ R}

deniuj¡ a odlegªo±¢ midzy obiektami w przestrzeni dany h

X

indukowana ze zbioru treningowego

U

trn

:

ρ(x, y) ≥ 0

ρ(x, x) = 0

ρ(x, y) = ρ(y, x)

(10)

Miara odleglosci: rodzaje metryk

A

zbiór atrybutów

ρ

_a

miara odlegªo± i dla pojedyn zego atrybutu

a

∈ A

Rodzaje metryk ze wzgldu na ª¡ zenie atrybutów:

Miejska Manhattan:

ρ(x, y) =

X

a

∈A

ρ

a

(a(x), a(y))

Euklidesowa:

ρ(x, y) =







X

a∈A

(ρ

a

(a(x), a(y)))

2 





1

2

Maksimum:

ρ(x, y) = max

(11)

Miara odleglosci: City-Hamming

Dla atrybutu symboli znego delta Krone kera:

ρ

_a

=











0

je±li

a(x) = a(y)

1

wpp.

Dla atrybutu numery znego ró»ni a warto± i:

ρ

a

(a(x), a(y)) = |a(x) − a(y)|

Lepiej stosowa¢ normalizowan¡ ró»ni :

ρ

a

(a(x), a(y)) =

|a(x) − a(y)|

a

_max

− a

_min

lub

ρ

_a

(a(x), a(y)) =

|a(x) − a(y)|

2σ(a)

a

_max

maksymalna warto±¢ atrybutu

a

w zbiorze obiektów treningowy h

a

_min

minimalna warto±¢ atrybutu

a

w zbiorze obiektów treningowy h

(12)

Miara odleglosci: City-SVD (Domingos 1996)

Dla atrybutu numery znego normalizowana ró»ni a warto± i jak w City-Hamming

Dla atrybutu symboli znego prosta ró»ni a warto± i (ang. SVD):

ρ

a

(a(x), a(y)) =

X

d∈V

_d

|P (dec = d|a = a(x)) − P (dec = d|a = a(y))|

(1,0,0)

(0,1,0)

(0,0,1)

P(dec=1|a=v)

P(dec=2|a=v)

P(dec=3|a=v)

a(x)

a(y)

(13)

Miara odleglosci: SVD

Uogólnienie prostej ró»ni y warto± i (SVD) dla atrybutu numery znego

ρ

_a

(a(x), a(y)) =

X

d∈V

_d

|P (dec = d|a ∈ vic(a(x))) − P (dec = d|a ∈ vic(a(y)))|

vic(a(y))

a

vic(a(x))

(1,0,0)

(0,1,0)

P(dec=1|a=v)

P(dec=2|a=v)

P(dec=3|a=v)

a(x)

a(y)

(0,0,1)

(14)

Miara odleglosci: IVD (Wilson, Martinez 1997)

Interpolowana ró»ni a warto± i (ang. IVD) dla atrybutu numery znego: zakres warto± i numery zny h jest dzielony na równe przedziaªy

dla ka»dego przedzia ªu wyli zan y jest rozkªad de yzji

dla ka»dej warto± i rozkªad de yzji jest interpolowany

pomidzy ±rodkami dwó h nabli»szy h przedziaªów

Attribute value

Decision distribution

(15)

Miara odleglosci: IVD (Wilson, Martinez 1997)

Interpolowana ró»ni a warto± i (ang. IVD) dla atrybutu numery znego: zakres warto± i numery zny h jest dzielony na równe przedziaªy

dla ka»dego przedzia ªu wyli zan y jest rozkªad de yzji

dla ka»dej warto± i rozkªad de yzji jest interpolowany

pomidzy ±rodkami dwó h nabli»szy h przedziaªów

(1,0,0)

(0,1,0)

(0,0,1)

P(dec=1|a=v)

P(dec=2|a=v)

P(dec=3|a=v)

a(x)

a(y)

(16)

Miara odleglosci: IVD (Wilson, Martinez 1997)

(17)

Miara odleglosci: metryka wazona

Metryka wa»ona jest wa»on¡ sum¡ odlegªo± i dla posz zególny h atybutów

ρ(x, y) =

X

a

∈A

w

a

ρ

a

(a(x), a(y))

A

zbiór atrybutów

ρ

a

miara odlegªo± i dla pojedyn zego atrybutu

a

∈ A

(18)

Miara odleglosci: metryka wazona

Algorytm wa»enia atrybutów na podstawie zbioru treningowego

U

trn

1.

w

a

:= 1

dla wszystki h atrybutów

a

∈ A

2.

t

:= 0

3. Powtarzaj, dopóki

temp(t) > 0

a.

t

:= t + 1

b.

x

:=

losowo wybrany obiekt treningowy z

U

trn

.

y

:=

najbli»szy s¡sia d

x

w

U

trn

d. Dla ka»dego atrybutu

a

∈ A

δw

a

:= w

a

temp(t)

ρ

_a

(a(x), a(y))

w

_a

=











w

a

+ δw

a

je±li

dec(y) = dec(x)

w

a

− δw

a

wpp.

(19)

Miara odleglosci: porownanie metryk

Atrybuty numery zne: letter, pendigits, satimage, segment

Atrybuty symboli zne: hess, nursery, spli e

Atrybuty numery zne + symboli zne: ensus94

0,00%

2,00%

4,00%

6,00%

8,00%

10,00%

12,00%

14,00%

16,00%

census94

chess

letter

nursery

pendigits

satimage

segment

splice

E

rr

o

r

City-Hamming

City-SVD

SVD

IVD-SVD

(20)

K najblizszych sasiadow: wybor najlepszgo k

Maj¡ ju» metryk mo»na klasykowa¢ ka»dy obiekt ze zbioru u z¡ ego

u»ywaj¡ tego samego zbioru, z wyª¡ zeniem klasykowanego obiektu

(tzw. test leave-one-out).

Pomysª:

Klasykowanie zbioru u z¡ ego dla ró»ny h warto± i

k

i wybór tej, która daje najlepsz¡ skute zno±¢

(21)

K najblizszych sasiadow: wybor najlepszgo k

Maj¡ ju» metryk mo»na klasykowa¢ ka»dy obiekt ze zbioru u z¡ ego

u»ywaj¡ tego samego zbioru, z wyª¡ zeniem klasykowanego obiektu

(tzw. test leave-one-out).

Pomysª:

Klasykowanie zbioru u z¡ ego dla ró»ny h warto± i

k

i wybór tej, która daje najlepsz¡ skute zno±¢

⇒

Jak to zrobi¢, »eby zajªo tyle samo zasu

(22)

K najblizszych sasiadow: wybor najlepszgo k

fun tion Find-Optimal-K(examples,maxk ) returns best

k

inputs : examples , a set of training examples

maxk , determines the range [1;maxk ℄ that is sear hed for the best k

for ea h x

∈

examples do

A

x

←

Get-Result-Ve tor(x,examples

− { x}

,maxk ) return

arg max

1≤ k≤ maxk

|{ x ∈ examples : A

x

[k] = dec(x)}|

fun tion Get-Result-Ve tor(x,examples,maxk ) returns results indexed by

k

n

₁

, . . . , n

maxk

←

sequen e of

maxk

nearest neighbors sorted

in the in reasing order of the distan e to

x

for ea h d

∈

V

d

do

votes[d] ←

0

urrent

←

most frequent de ision in examples for k from 1 to maxk

votes[dec(n

k

)] ← votes[dec(n

k

)] + 1

if

votes[dec(n

k

)] > votes[current]

then urrent

← dec(n

k

)

A

x

[k] ←

urrent return

A

x

(23)

K najblizszych sasiadow: wlasnosci

(24)

K najblizszych sasiadow: wlasnosci

Zalety??

(25)

K najblizszych sasiadow: wlasnosci

Zalety??

U zenie jest szybkie

(26)

K najblizszych sasiadow: wlasnosci

Zalety??

U zy si dowolny h funk ji

(27)

K najblizszych sasiadow: wlasnosci

Zalety??

Nie tra i informa ji

(28)

(29)

K najblizszych sasiadow: rosnacy zbior danych

??

(30)

K najblizszych sasiadow: rosnacy zbior danych

Nowy przykªad treningowy dodawany jest do aktualnej bazy przykªadów

(31)

K najblizszych sasiadow: wlasnosci

Zalety??

Naturaln ie stosuje si do dynami zny h (rosn¡ y h) zbiorów dany h

(32)

K najblizszych sasiadow: wlasnosci

Zalety??

Wady??

Niepra kty zny przy du»ej li zbie atrybutów

(33)

K najblizszych sasiadow: wlasnosci

Zalety??

Wady??

Niepra kty zny przy du»ej li zbie atrybutów

⇒

wymaga reduk ji li zby atrybutów Wolny pod zas klasyka ji

(34)

Wyszukiwanie k najblizszych sasiadow

Bez indeksowania:

Liniowe przegl¡dan ie zbioru przykªadów dla ka»dego zapytania

Zªo»ono±¢

O(mn)

m

li zba zapyta«

n

rozmiar zbioru przykªadów

(35)

Indeksowanie

Drzewo indeksuj¡ e jest konstruowane metod¡ top-down:

za zyna od korzenia zawieraj¡ ego aªy zbiór przykªadów

treningowy h i rekuren yjnie dzieli klastry na oraz mniejsze

database U

node splitting

(36)

Podzial klastra metoda k-srodkow

Do podziaªu klastrów dobra jest metoda

k

-±rodków (ang.

k

-means)

database U

k−means

(37)

Podzial klastra metoda k-srodkow

Algorytm wyboru

k

-±rodków:

fun tion KMeans(examples,k ) returns a set of lusters

for ea h

0 ≤

i

< k

do enter

i

←

a random example from examples repeat

for ea h

0 ≤

i

< k

do luster

i

← { }

for ea h example x

∈

examples do

nearest

← min arg

0≤ i<k

Distan e( enter

i

,x ) luster

nearest

←

luster

nearest

∪ {

x

}

for ea h

0 ≤

i

< k

do enter

i

←

the mean of luster

i

until no enter has hanged ( omparing with the last but one iteration)

(38)

Podzial klastra metoda k-srodkow: wlasnosci

(39)

Podzial klastra metoda k-srodkow: wlasnosci

Uniwersaln o±¢??

Indeksowanie z podziaªem klastrów metod¡

k

-±rodków u»ywa tylko poj¢ metryki

(40)

Podzial klastra metoda k-srodkow: wlasnosci

Uniwersaln o±¢??

k

±rodka zbioru obiektów

⇒

wyszukiwanie jest poprawne przy dowolnej deni ji ±rodka klastra,

wybór ±rodka ma istotne zna zenie dla efektywno± i wyszukiwania,

(41)

Podzial klastra metoda k-srodkow: wlasnosci

Uniwersaln o±¢??

k

±rodka zbioru obiektów

⇒

wyszukiwanie jest poprawne przy dowolnej deni ji ±rodka klastra,

wybór ±rodka ma istotne zna zenie dla efektywno± i wyszukiwania,

ale nie ma wpªywu na poprawno±¢

⇒

mo»na stosowa¢ nie tylko do przestrzeni

R

(42)

Podzial klastra metoda k-srodkow: wlasnosci

(43)

Podzial klastra metoda k-srodkow: wlasnosci

Optymalno±¢??

Twierdzenie (Savaresi, Boley, 2001)

Dla elipty znego modelu zbioru dany h metoda

2

-±rodków zbiega do podziaªu ortogonalnego wzgldem kierunku gªównego (tzn. takiego, wzdªu» którego

warian ja dany h jest najwiksza)

(44)

Wyszukiwanie najblizszych sasiadow

(45)

Wyszukiwanie najblizszych sasiadow: algorytm

nearest - kolejka priorytetowa doty h zas znaleziony h najbli»szy h s¡sia dów

fun tion KNN-Sear h(node,query,nearest) returns an updated nearest

if node is a leaf

then for ea h x

∈

node

if nearest is not full then nearest

←

nearest

∪ {

x

}

else

y

← max arg

z

∈ nearest

Distan e(query,z)

if Distan e(query,x )

<

Distan e(query,y ) then nearest

←

repla e y with x

elseif node has hild nodes

then for ea h hild

∈

hild nodes of node radius

← max

z

∈ nearest

Distan e(query,z)

if nearest is not full or

¬

Dis ard( hild,query,radius ) then nearest

←

KNN-Sear h( hild,query,nearest) return nearest

(46)

Kryteria odciecia wezla

♦

Ci ie kuliste

♦

Ci ie symetralne

(47)

Kryteria odciecia wezla: ciecie kuliste

query

zapytanie (testowany obiekt)

radius

promie« zapytania

center

±rodek wzªa (klastra)

R

promie« pokrywaj¡ y wzeª:

R

= max

x

∈node

dist(center, x)

radius

query

center

dist(query,center)

node

R

(48)

Kryteria odciecia wezla: ciecie symetralne

query

rad

promie« zapytania

node1

,

node2

wzªy bd¡ e dzie¢mi tego samego rodzi a w drzewie indeks.

c1

,

c2

±rodki wzªów

node1

node2

query

c1

c2

dist(query,c1)

dist(query,c2)

rad

(49)

Kryteria odciecia wezla: ciecie pierscieniowe

query

rad

promie« zapytania

node1

,

node2

wzªy bd¡ e dzie¢mi tego samego rodzi a w drzewie indeks.

c2

±rodek wzªa

node2

minr

= min

_x∈node1

dist(c2, x)

,

maxr

= max

x∈node1

dist(c2, x)

query

c2

dist(query,c2)

minr

node1

node2

maxr

rad

node1

jest pomijany

(50)

Wyszukiwanie najblizszych sasiadow

Przyspiszenie wyszukiwania dla ró»ny h wielko± i bazy przykªadów:

0,01%

0,10%

1,00%

10,00%

100,00%

1000

10000

Database size

100000

1000000

D

is

ta

n

c

e

s

1-nn search

100-nn search

(51)

Metody k-nn z lokalna adaptacja metryki

Atrybuty numery zne:

♦

lokalna adapta ja wag atrybutów

♦

gªosowanie przy u»y iu ma ierzy kowarian ji Atrybuty symboli zne:

(52)

Lokalna adaptacja wag atrybutow

Hastie, Tibshiran i, 1996

Atrybuty s¡ lokalnie wa»one na podstawie analizy najbli»szego s¡siedztwa

obiektu testowanego:

(53)

Lokalna adaptacja wag atrybutow

Hastie, Tibshiran i, 1996

Atrybuty s¡ lokalnie wa»one na podstawie analizy najbli»szego s¡siedztwa

obiektu testowanego:

(54)

Glosowanie przy uzyciu macierzy kowariancji

Problem:

Niektóre obiekty mog¡ dublowa¢ informa je w inny h obiekta h,

w zwi¡zku z tym nie powinny by¢ brane pod uwag przy gªosowaniu

(55)

Glosowanie przy uzyciu macierzy kowariancji

Rozwi¡zanie: Gªosowanie przy u»y iu ma ierzy kowarian ji

Dla ka»dej klasy de yzyjnej

d

w zbiorze treningowym

U

trn

tworzona jest ma- ierz kowarian ji midzy parami obiektów tej klasy

x

i

, x

j

∈ U

trn

:

C

d

= [C

i,j

]

C

i,j

= γ(ρ(x

i

, x

j

))

γ

funk ja monotoni zna Klasyka ja obiektu testowego

x

q

1. Dla ka»dej klasy de yzyjnej

d

tworzony jest wektor kowarian ji z obiektami nale»¡ ymi do tej klasy de yzyjnej: