• Nie Znaleziono Wyników

Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu

N/A
N/A
Protected

Academic year: 2021

Share "Klasyfikacja wielo-etykietowa z wykorzystaniem Boostingu"

Copied!
43
0
0

Pełen tekst

(1)

Boostingu

Seminarium Zakładu Inteligentnych Systemów Wspomagania

Decyzji Instytutu Informatyki Politechniki Poznańskiej

oraz

Sekcji ”Inteligentnych Systemów Wspomagania Decyzji oraz

Obliczeń Elastycznych Komitetu Informatyki PAN”

Tomasz Kajdanowicz

Instytut Informatyki,

Politechnika Wrocławska

(2)

Plan prezentacji

1

Klasyfikacja wielo-etykietowa

Wprowadzenie

Metody klasyfikacji wielo-etykietowej

2

Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq

Wprowadzenie do algorytmu

Analiza algorytmu

Eksperymenty

3

Podsumowanie

(3)

Plan prezentacji

1

Klasyfikacja wielo-etykietowa

Wprowadzenie

Metody klasyfikacji wielo-etykietowej

2

Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq

Wprowadzenie do algorytmu

Analiza algorytmu

Eksperymenty

(4)

Wprowadzenie

X = {x

1

, x

2

, . . . , x

n

} - przestrzeń obserwacji

L = {λ

1

, λ

2

, . . . , λ

m

} - skończony zbiór etykiet

(x, L

x

) ∈ X × 2

L

- krotka obserwacja-etykiety

Klasyfikacja jedno-etykietowa

obserwacja x ∈ X jest skojarzona z pojedynczą etykietą

l ∈ L

cel: nauka klasyfikatora H : X −→ L

Klasyfikacja wielo-etykietowa

obserwacja x ∈ X może być skojarzona z podzbiorem

etykiet L ∈ 2

L

(5)

Przykłady klasyfikacji wielo-etykietowej

Kategoryzacja emocjonalna muzyki

(6)

Przykłady klasyfikacji wielo-etykietowej

Typ

danych

Zadanie

Zasoby

Opis

tekst

kategoryzacja

artykuły

Reuters

topics

(agricul-ture, fishing)

tekst

kategoryzacja

strony www

Yahoo! directory (health,

science)

tekst

kategoryzacja

ulubione

Bibsonomy tags (sports,

science)

obrazy

annotacja

se-mantyczna

obrazy

pojęcie(drzewo,

zachód

słońca)

wideo

annotacja

se-mantyczna

klipy z

wia-domościami

(7)

Realizowane zadania

Dwa główne zadania w uczeniu nadzorowanym przy użyciu

danych wielo-etykietowych:

klasyfikacja wielo-etykietowa

odwzorowanie przypisujące obserwacji podzbiór etykiet

ranking etykiet

odwzorowanie przypisujące uporządkowaną według relewancji

listę etykiet

(8)

Taksonomia metod

Metody transformujące problem

niezależne od algorytmów

transformują zadanie uczenia do jednego lub więcej zadań

uczenia jedno-etykietowego

wspierają się szeroką gamą standardowych algorytmów

Metody adaptujące algorytmy

(9)

Metody transformujące problem

dane wielo-etykietowe są konwertowane do postaci

jedno-etykietowej

klasyfikator jedno-etykietowy zwraca rozkład

prawdopodobieństwa klas, który można wykorzystać do

rankowania etykiet

przykładowe dane:

L.p.

Obserwacja (X)

Etykiety(L)

1

x

1

{λ1, λ4}

2

x

2

{λ3, λ4}

3

x

3

{λ1}

4

x

4

{λ2, λ3, λ4}

(10)

Metody transformujące problem

Proste transformacje

kopiowanie

kopiowanie z wagami

selekcja najczęstszej etykiety

selekcja najrzadszej etykiety

selekcja losowa

(11)

Metody transformujące problem

Label powerset (zbiór potęgowy)

każdy istniejący unikatowy podzbiór etykiet stanowi jedną

nową etykietę

złożoność ograniczona przez min(n, 2

m

)

Przykład rankingu:

c

p(c|x)

λ1

λ2

λ3

λ4

λ1,4

0.7

1

0

0

1

λ

3,4

0.2

0

0

1

1

λ1

0.1

1

0

0

0

λ

2,3,4

0.0

0

1

1

1

P

c

p(c|x)λ

j

0.8

0.0

0.2

0.9

(12)

Metody transformujące problem

Pruned problem transformation[2]

rozszerzenie metody Label powerset (zbióru potęgowego)

odrzuca etykiety występujące rzadziej od zdefiniowanego

progu

Random k-labelsets (RAkEL)[3]

buduje rodzinę klasyfikatorów dla losowo wybranych

zbiorów k-elementowych podzbiorów potęgowych etykiet

(13)

Metody transformujące problem

Binarna relewancja

uczenie m binarnych klasyfikatorów, po jednym dla każdej

z etykiet w L

m zbiorów uczących postaci (x, I(λ

j

)), gdzie I(λ

j

)

pozytywne dla obserwacji posiadającej etykietę λ

j

oraz

negatywne wpp.

Ranking by pairwise comparison[4]

transformuje zbiór wielo-etykietowy do

m(m−1)

2

binarnych

zbiorów jedno-etykietowych, dla każdej pary

i

, λ

j

), 1 ¬ i ¬ j ¬ m

zbiory uczące zawierają obserwacje z etykietami λ

i

⊕ λ

j

(14)

Metody adaptujące algorytmy

Zmodyfikowany algorytm C4.5[6]

strategia próbkowania obserwacji wielo-etykietowych przy

użyciu m-estymacji (generalizacji estymacji Laplace’a),

biorącej pod uwagę prawdopodobieństwo a priori etykiet

wiele etykiet dozwolonych w liściach

entropia: −

Pm

j=1

(p(λ

j

)logp(λ

j

) + q(λ

j

)logq(λ

j

)), gdzie p(λ

j

)

(15)

Metody adaptujące algorytmy

Użycie podejścia CRF (warunkowych pól losowych)[7]

dwa modele graficzne parametryzujące współwystępowanie

etykiet przez oznacznie klik(czarne kwadraty)

(a)-parametryzacja jednej etykiety i jednej cechy,

(b)-dodatkowo parametryzacja par etykiet,

(c)-parametryzacja dla każdej etykiety, każdej cechy oraz

każdej pary etykiet

(16)

Metody adaptujące algorytmy

Back-propagation perceptron for multi-label learning

BP-MLL[8]

adaptacja popularnego algorytmu z pętlą zwrotną dla

klasyfikacji wielo-etykietowej

modyfikacja funkcji błędu, która bierze pod uwagę wiele

etykiet

Multi-class multi-label perceptron (MMP)[9]

rodzina algorytmów dla rankingów etykiet bazująca na

perceptronie

(17)

Metody adaptujące algorytmy

Multi-label kNN (ML-kNN)[10]

wyszukanie k najbliższych sąsiadów

agregacja podzbiorów etykiet zgodnie

(18)
(19)

Metody adaptujące algorytmy

AdaBoost.MH[11]

minimalizuje odległość Hamminga

AdaBoost.MR[11]

szuka hipotez, które prawidłowo umiejscawiają prawdziwe

etykiety na szczycie rankingu

(20)
(21)

Plan prezentacji

1

Klasyfikacja wielo-etykietowa

Wprowadzenie

Metody klasyfikacji wielo-etykietowej

2

Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq

Wprowadzenie do algorytmu

Analiza algorytmu

Eksperymenty

(22)

Algorytm AdaBoostSeq[13]

AdaBoostSeq

zmodyfikowany sposób ważenia obserwacji (schemat

próbkowania danych uczących)

modyfikacja funkcji kosztu

klasyfikacja wielo-etykietowa

Oznaczenia

y

µ

i

∈ {−1, 1}, dla i = 1, 2, . . . , n i µ = 1, 2, . . . , m

reprezentuje obecność etykiet: odpowiednio λ

1

, λ

2

, . . . , λ

m

(23)

AdaBoostSeq

Cel

Skonstruować m liniowych kombinacji rodziny K klasyfikatorów

postaci:

∀µ = 1, 2, . . . , m

F

µ

(x

P

µ

) =

K

X

k=1

α

µ

k

Φ(x

P

µ

, Θ

µ

k

)

(1)

F

µ

(x

P

µ

) to meta-klasyfikator dla µ-tej etykiety

Φ(x

P

µ

, Θ

µ

k

) reprezentuje k-ty klasyfikator bazowy z Θ

µ

k

parametrami klasyfikujący binarnie każdą obserwację x

α

µ

k

waga k-tego klasyfikatora

(24)

Nieznane wartości otrzymujemy z optymalizacji dla każdej

etykiety µ:

arg

min

α

µk

µk

,k:1,K

N

X

i=1

exp(−y

µ

i

F

µ

(x

P

µ

i

))

(2)

bezpośrednia optymalizacja bardzo skomplikowana

rozwiązanie z wykorzystaniem iteracyjnej minimalizacji

suma częściowa kroku s:

F

µ

s

(x

P

µ

) =

s

X

k=1

α

µ

k

Φ(x

P

µ

, Θ

µ

k

), s = 1, 2, . . . , K

(3)

(25)

Z równania 3 mamy naturalną rekursję:

F

µ

s

(x

P

µ

) = F

µ

s−1

(x

P

µ

) + α

s

Φ(x

P

µ

, Θ

µ

s

)

(4)

przed obliczeniem F

µ

s

(x

P

µ

), wartość F

µ

s−1

(x

P

µ

) musiała już

zostać obliczona

problem w kroku s to zatem obliczenie:

µ

m

, Θ

µ

m

) = arg min

α

µ

µ

J(α

µ

, Θ

µ

)

(5)

gdzie funkcja J to koszt

(26)

Funkcja kosztu

J(α

µ

, Θ

µ

) =

n

X

i=1

exp(−y

µ

i

(ξF

µ

s−1

(x

P

i

µ

)

+(1 − ξ)y

µ

i

R

ˆ

µ

s

(x

i

P

µ

) + α

µ

Φ(x

P

i

µ

, Θ

µ

)))

(6)

gdzie:

ˆ

R

µ

s

(x

P

µ

i

) - funkcja wpływająca na koszt, biorąca pod uwagę

jakość klasyfikacji poprzedzających etykiet

(27)

ˆ

R

µ

s

(x

P

µ

) =

s−1

X

i=1

α

µ

i

R

µ

(x

P

µ

)

(7)

R

µ

(x

P

µ

) =

P

µ−1

l=1

y

l F

l

(x

)

P

K k=1

α

l k

µ

(8)

gdzie:

R

µ

(x

P

µ

i

) oznacza średnią zgodność klasyfikacji między

(28)

Zakładają stałe α

µ

(z równania 5 i 6), funkcja kosztu J może

być obliczana względem klasyfikatora bazowego Φ(x

P

µ

i

, Θ

µ

):

Θ

µ

= arg min

Θ

µ

n

X

i=1

w

µ

i(s)

exp(−y

µ

i

α

µ

Φ(x

P

µ

i

, Θ

µ

))

(9)

gdzie:

w

µ

i

(

s)

= exp(−y

µ

i

(ξF

µ

s−1

(x

P

µ

i

) + (1 − ξ)y

µ

i

R

ˆ

µ

s

(x

P

µ

i

)))

(10)

(29)

w

µ

i

(

s)

nie zależy od α

µ

ani od Φ(x

P

µ

i

, Θ

µ

) dla każdej

obserwacji x

P

µ

i

w

µ

i

(

m)

może być zatem wagą obserwacji x

P

µ

i

Dla binarnych klasyfikatorów bazowych obliczenie Θ

µ

możemy

wykonać:

Θ

µ

= arg min

Θ

µ

(

P

µ

m

=

N

X

i=1

w

µ

i

(

m)

I(1 − y

µ

i

Φ(x

P

µ

i

, Θ

µ

))

)

(11)

gdzie:

I(x) =

(

0, if x = 0

1, if x > 0

(12)

(30)

Dla klasyfikatora bazowego w kroku s:

X

y

µi

Φ(x

i

µs

)<0)

w

µ

i

(

s)

= P

µ

s

(13)

X

y

µi

Φ(x

i

µs

)>0)

w

µ

i

(

s)

= 1 − P

µ

s

(14)

wartość α

s

otrzymujemy z:

α

µ

s

= arg min

α

µ

{exp(−α

µ

)(1 − P

µ

s

) + exp(α

µ

)P

µ

s

}

(15)

(31)

Po obliczeniu równania 15 mamy:

α

µ

s

=

1

2

ln

1 − P

µ

s

P

µ

s

(16)

Gdy klasyfikator Φ(x

P

µ

i

, Θ

µ

) oraz α

µ

m

są już obliczone, wagi w

kroku s + 1 wynoszą:

w

µ

i

(

s+1)

=

exp



−y

µ

i



ξ

P

µ

F

µ

s

(x

P

µ

i

) + (1 − ξ)y

µ

i

R

ˆ

µ

s

(x

P

µ

)



Z

s

=(17)

=

w

i

(

s)

exp



−y

µ

i

ξα

µ

s

Φ(x

P

i

µ

, Θ

µ

s

) − (1 − ξ)α

µ

s

R

µ

(x

P

µ

)



Z

s

gdzie Z

s

to czynnik normalizujący.

Z

s

=

N

X

i=1

w

µ

i

(

s)

exp



−y

µ

i

ξα

µ

s

Φ(x

P

µ

i

, Θ

µ

s

) − (1 − ξ)α

µ

s

R

µ

(x

P

µ

i

)



(18)

(32)
(33)

Eksperymenty

Tablica:

Zbiory danych wielo-etykietowych użyte w eksperymentach

Dane

Obserwacji

Atrybutów

Etykiet

1

scene

2407

294

6

2

yeast

2417

203

14

3

emotions

593

72

6

4

mediamill

12914

120

101

(34)

Miary ewaluacji

odległość Hamminga (Hamming Loss)

HL =

1

n

n

X

i=1

L

x

i

4F(x

i

)

|L

x

i

|

(19)

(4 to symetryczna różnica zbiorów)

dokładność klasyfikacji (Classification Accuracy)

CA =

1

n

n

X

i=1

I(L

x

i

= F(x

i

))

(20)

(35)

Rysunek:

Odległość Hamminga dla wybranych algorytmów

klasyfikacji wielo-etykietowej na zbiorach danych: tmc2007, mediamill,

scene, yeast oraz emotions

(36)
(37)

Rysunek:

Czas pracy wybranych algorytmów klasyfikacji

wielo-etykietowej na zbiorach danych: tmc2007, mediamill, scene,

yeast oraz emotions

(38)

Plan prezentacji

1

Klasyfikacja wielo-etykietowa

Wprowadzenie

Metody klasyfikacji wielo-etykietowej

2

Klasyfikacja wielo-etykietowa z wykorzystniem AdaBoostSeq

Wprowadzenie do algorytmu

Analiza algorytmu

Eksperymenty

3

Podsumowanie

(39)

Podsumowanie

AdaBoostSeq

klasyfikacja wielo-etykietowa

zmodyfikowany sposób ważenia obserwacji (schemat

próbkowania danych uczących)

klasyfikacja etykiet w ustalonej kolejności

kolejność uczenia ma znaczenie

Wyzwania

odzwierciedlenie rzeczywistych zależności występowania

etykiet

odpowiednie funkcje kosztu

złożoność obliczeniowa

(40)

[Tellegen et al., 1999] Tellegen, A., Watson, D., Clark, L.A.

On the dimensional and hierarchical structure of affect,

Psychological Science, Vol. 10, No. 4, 1999.

[Read, 2008] Read, J.

A pruned problem transformation method for multi-label

classification.

In: Proc. 2008 New Zealand Computer Science Research

Student Conference (NZCSRS 2008), pp. 143–150, 2008

[Tsoumakas et al., 2007] Tsoumakas, G., Vlahavas, I.

Random k-labelsets: An ensemble method for multilabel

classification.

In: Proc. of the 18th European Conference on Machine

Learning (ECML 2007), pp. 406–417, 2007

(41)

Label ranking by learning pairwise preferences.

Artificial Intelligence, Vol. 172, pp. 1897–1916, 2008

[Loza Mencia et al., 2008] Loza Mencia, E., Furnkranz, J.

Pairwise learning of multilabel classifications with

perceptrons.

In: Proc. of IEEE International Joint Conference on Neural

Networks (IJCNN-08), pp. 2900–2907, 2008

[Clare et al., 2001] Clare, A., King, R.

Knowledge discovery in multi-label phenotype data.

In: Proc. of the 5th European Conference on Principles of

Data Mining and Knowledge Discovery (PKDD 2001), pp.

42–53, 2001

[Ghamrawi et al., 2005] Ghamrawi, N., McCallum, A.

Collective multi-label classification.

(42)

In: Proc. of the ACM Conference on Information and

Knowledge Management (CIKM ’05), pp. 195–200, 2005

[Zhang et al., 2006] Zhang, M.L., Zhou, Z.H.

Multi-label neural networks with applications to functional

genomics and text categorization.

IEEE Transactions on Knowledge and Data Engineering,

Vol. 18, pp. 1338–1351, 2006

[Crammer et al., 2003] Crammer, K., Singer, Y.

A family of additive online algorithms for category ranking.

Journal of Machine Learning Research, Vol. 3, pp.

1025–1058, 2003

[Zhang et al., 2007] Zhang, M.L., Zhou, Z.H.

(43)

Boostexter: a boosting-based system for text categorization.

Machine Learning, Vol. 39, pp. 35–168, 2000

[Read et al., 2009] Read, J., Pfahringer, B., Holmes, G.,

Frank, E.

Classifier Chains for Multi-label Classification

In: Proc. of European Conference of Machine Learning and

Knowledge Discovery in Databases, pp. 254-269, 2009

[Kajdanowicz et al., 2011] Kajdanowicz T., Kazienko P.

Boosting-based Sequence Prediction

New Generation Computing, Vol. 29, No. 3, pp. 293-307,

2011

Cytaty

Powiązane dokumenty

(4) Granica f ciągu jednostajnie zbieżnego [Фпj en-podfunkcji funkcji F ciągłej i ^-wymiarowej jest funkcją (jednowartościową) ciągłą w punktach lokalnej

Teresa Cieślikowska, Warszawa 1965, Instytut Wydawniczy

Równocześnie brak zmian prędkości powietrza na wlocie oraz wylocie rejonu ściany dowodzi, że zaburzenia przepływu w ścianie wy- wołane ruchem kombajnu, mają jedynie

Obecnie przedstawimy analizę wpływu parametrów bazowych na wartość funkcji celu dla dwóch układów wielo-parametrycznych: sieci elektrycznej śred- niego napięcia z

Z drugiej strony, interesująca jest również jakościowa analiza równania (2.6) definiująca wpływ poszczególnych współczynników występujących w równaniu (2.6)

1947) is published ten times a year by RINA Ltd, The Royal Institution of Naval Architects (Registered Charity No. 211161) Is not as a body responsible for opinions expressed in

Die Bezeichnung der Behandlung der russischen Arbeiter durch die sowje­ tischen Behörden mit dem Begriff Die Peitsche über sowjetrussische Arbeiter lässt sich in der Kategorie

I chociaż można znaleźć fragmen­ ty Pisma, które stanowią jej poparcie, jednak okazała się ona niezgodna z nauką Kościoła, co potwierdził drugi Sobór w Konstantynopolu