Konwersatorium – Matematyczne Metody Ekonomii

(1)

Konwersatorium – Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych

Alorytmy klasyfikujące w oparciu o przykłady k-NN i jego rozszerzenia

Wykład 9 Marcin Szczuka

————

Plan wykładu

• Klasyfikacja oparta na podobieństwie.

• Algorytm k-NN.

• Usprawnienia k-NN.

• Aproksymacja funkcji z k-NN.

Notacja

T zbiór etykietowanych przykładów treningowych.

Delta Cronecker’a δ(a, b) = 1 iff a = b, 0 wpp.

d(x, y) - odległość między obiektami.

c(x) wartość decyzji dla x ze zbioru V _c . k− Nearest Neighbors

Odległość euklidesowa jest najczęściej, choć nie zawsze słusznie, stoso- wana. Dla przykładów x, y

d(x, y) =

v u u t

n

X

i=1

(a _i (x) − a _i (y)) ² Zakładamy (na razie), że decyzja jest dyskretna.

Algorytm k-NN k-NN(T, k, x ∗ )

N N := {x ₁ , . . . , x _k } = arg min ^k _x∈T d(x, x ∗ );

c(x ∗ ) := arg max v∈V

c

P k

i=1 δ(v, c(x i ));

return c(x ∗ );

Dyskusja nad prostym k-NN

• Gdy ustalimy sąsiadów przestajemy dbać o odległość, co jest potencjal- nie groźne.

1

(2)

• Wszystkie atrybuty traktujemy jednakowo.

• Rozmiar k sąsiedztwa musi być znany.

Rozszerzenia k-NN

• k-NN z wagami odległościowymi.

• Odległość z wagami.

• k-NN w predykcji numerycznej.

k-NN z wagami odległościowymi Przy poprzednich oznaczeniach:

c(x _∗ ) := arg max

v∈V

c

k

X

i=1

w _i δ(v, c(x _i )) gdzie

w _i = 1 d(x ∗ , x _i ) ² Odległość z wagami

d(x, y) =

v u u t

n

X

i=1

u _i (a _i (x) − a _i (y)) ² Jeden ze sposobów ustalania wagi:

u _i = 1

(max x∈T a _i (x) − min x∈T a _i (x)) ² k-NN w aproksymacji funkcji

Załóżmy, że mamy zbiór T etykietowanych przykładów postaci hx, f (x)i dla pewnej nieznanej funkcji f (.). Chcemy wyznaczyć (przybliżyć) wartość f (x ˆ ∗ ) dla poprzednio nie obserwowanego argumentu x ∗ . W najprostszym przypadku:

f (x ˆ ∗ ) =

P k

i=1 f (x _i ) k

Aproksymacja funkcji z wykorzystaniem odległości

2

(3)

Przy poprzednich oznaczeniach:

f (x ˆ ∗ ) =

P k

i=1 w i f (x i )

P k i=1 w _i

Zauważmy, że ta metoda łatwo uogólnia się do metody globalnej, jeśli przyj- miemy k = |T |.

Podsumowanie k-NN

• Prosty pomysł i implementacja.

• Dwa biegunowo różne typy wyników.

• Najprostsza z lokalnych metod aproksymacji.

• Wiele ogólniejszych metod używa podobnych podejść np. lokalna wa- żona regresja liniowa.

• Dla dużych i skomplikowanych danych konieczne są usprawnienia w implementacji.

3

Konwersatorium – Matematyczne Metody Ekonomii

Konwersatorium – Matematyczne Metody Ekonomii narzędzia matematyczne w eksploracji danych

Alorytmy klasyfikujące w oparciu o przykłady k-NN i jego rozszerzenia

Wykład 9 Marcin Szczuka

————

Plan wykładu

• Klasyfikacja oparta na podobieństwie.

• Algorytm k-NN.

• Usprawnienia k-NN.

• Aproksymacja funkcji z k-NN.

Notacja

T zbiór etykietowanych przykładów treningowych.

Delta Cronecker’a δ(a, b) = 1 iff a = b, 0 wpp.

d(x, y) - odległość między obiektami.

c(x) wartość decyzji dla x ze zbioru V c . k− Nearest Neighbors

Odległość euklidesowa jest najczęściej, choć nie zawsze słusznie, stoso- wana. Dla przykładów x, y

d(x, y) =

v u u t

n

X

i=1

(a i (x) − a i (y)) 2 Zakładamy (na razie), że decyzja jest dyskretna.

Algorytm k-NN k-NN(T, k, x ∗ )

N N := {x 1 , . . . , x k } = arg min k x∈T d(x, x ∗ );

c(x ∗ ) := arg max v∈V

P k

i=1 δ(v, c(x i ));

return c(x ∗ );

Dyskusja nad prostym k-NN

• Gdy ustalimy sąsiadów przestajemy dbać o odległość, co jest potencjal- nie groźne.

1

• Wszystkie atrybuty traktujemy jednakowo.

• Rozmiar k sąsiedztwa musi być znany.

Rozszerzenia k-NN

• k-NN z wagami odległościowymi.

• Odległość z wagami.

• k-NN w predykcji numerycznej.

k-NN z wagami odległościowymi Przy poprzednich oznaczeniach:

c(x ∗ ) := arg max

v∈V

k

X

i=1

w i δ(v, c(x i )) gdzie

w i = 1 d(x ∗ , x i ) 2 Odległość z wagami

d(x, y) =

v u u t

n

X

i=1

u i (a i (x) − a i (y)) 2 Jeden ze sposobów ustalania wagi:

u i = 1

(max x∈T a i (x) − min x∈T a i (x)) 2 k-NN w aproksymacji funkcji

Załóżmy, że mamy zbiór T etykietowanych przykładów postaci hx, f (x)i dla pewnej nieznanej funkcji f (.). Chcemy wyznaczyć (przybliżyć) wartość f (x ˆ ∗ ) dla poprzednio nie obserwowanego argumentu x ∗ . W najprostszym przypadku:

f (x ˆ ∗ ) =

P k

i=1 f (x i ) k

Aproksymacja funkcji z wykorzystaniem odległości

2

Przy poprzednich oznaczeniach:

f (x ˆ ∗ ) =

P k

i=1 w i f (x i )

P k i=1 w i

Zauważmy, że ta metoda łatwo uogólnia się do metody globalnej, jeśli przyj- miemy k = |T |.

Podsumowanie k-NN

• Prosty pomysł i implementacja.

• Dwa biegunowo różne typy wyników.

• Najprostsza z lokalnych metod aproksymacji.

• Wiele ogólniejszych metod używa podobnych podejść np. lokalna wa- żona regresja liniowa.

• Dla dużych i skomplikowanych danych konieczne są usprawnienia w implementacji.

3

c(x) wartość decyzji dla x ze zbioru V _c . k− Nearest Neighbors

(a _i (x) − a _i (y)) ² Zakładamy (na razie), że decyzja jest dyskretna.

N N := {x ₁ , . . . , x _k } = arg min ^k _x∈T d(x, x ∗ );

c(x _∗ ) := arg max

w _i δ(v, c(x _i )) gdzie

w _i = 1 d(x ∗ , x _i ) ² Odległość z wagami

u _i (a _i (x) − a _i (y)) ² Jeden ze sposobów ustalania wagi:

u _i = 1

(max x∈T a _i (x) − min x∈T a _i (x)) ² k-NN w aproksymacji funkcji

i=1 f (x _i ) k

P k i=1 w _i