23.04.2013 MarcinSzajek Rozszerzeniaklasyﬁkatorówzłożonychdladanychniezrównoważonych

(1)

Wstęp Rozszerzenia Podsumowanie

Rozszerzenia klasyfikatorów złożonych dla danych

niezrównoważonych

Marcin Szajek

(2)

Plan prezentacji

1 Wstęp 2 Rozszerzenia 3 Podsumowanie

(3)

Uczenie nadzorowane

Klasyfiaktor: dane uczące + algorytm uczący Zbiór par (xi, yi)

(4)

Dane niezrównoważone

Nierówne liczności klas

Klasyfikatory zwykle opierają się o globalną trafność – poprawna miara?

Przykładowe zastosowania:

wykrywanie awarii

wykrywanie rzadkich chorób wykrywanie „plam oleju”

(5)

Dane niezrównoważone

Nierówne liczności klas

Klasyfikatory zwykle opierają się o globalną trafność – poprawna miara?

Przykładowe zastosowania:

wykrywanie awarii

wykrywanie rzadkich chorób wykrywanie „plam oleju”

(6)

(7)

(8)

Klasyfikatory złożone

Zwane też rodzinami klasyfikatorów Wzorowane na ludzkich zachowaniach

Decyzje podejmuje komitet ekspertów, a nie jeden ekspert Eksperci muszą się różnić (weak learners)

Uzgadnianie decyzji – różne podejścia:

proste głosowanie ważenie decyzji metaklasyfikator

(9)

Klasyfikatory złożone

proste głosowanie ważenie decyzji metaklasyfikator

(10)

Klasyfikatory złożone

proste głosowanie ważenie decyzji metaklasyfikator

(11)

Klasyfikatory złożone - rodzaje

Heterogeniczne – różne klasyfikatory bazowe Homogeniczne – różne zbiory uczące

Główne rodziny:

bagging boosting

(12)

Klasyfikatory złożone - rodzaje

Heterogeniczne – różne klasyfikatory bazowe

Homogeniczne – różne zbiory uczące

Główne rodziny:

bagging boosting

(13)

Klasyfikatory złożone - rodzaje

Heterogeniczne – różne klasyfikatory bazowe

Homogeniczne – różne zbiory uczące

Główne rodziny:

bagging boosting

(14)

Bagging (L.Breiman, 1996)

Bootstrap aggregating

próbki uczące oparte o losowanie ze zwracaniem wielu całkowicie niezależnych ekspertów

(15)

Boosting (Schapire 1990)

Budowany sekwencyjnie Losowanie z wagami

Tworzenie „ekspertów” dla trudnych danych Najbardziej znany – AdaBoost

(16)

(17)

Exactly Balanced Bagging (Tao)

Wielkość próbki ustalana na 2*liczność klasy mniejszościowej Cała klasa mniejszościowa w próbce

Obiekty z klasy większościowej losowane

Efekt: każdy klasyfikator bazowy „umie” rozpoznawać klasę mniejszościową

(18)

Roughly Balanced Bagging (S Hido, H Kashima)

Zmienna wielkość próbki bootstrapowej dla każdej z klas Klasa losowana z ujemnego rozkładu dwumianowego (negative

binominal)

Obiekty z wylosowanej klasy losowane z rozkładu jednorodnego

(19)

Porównanie (G-mean)

Data set RBB RBB w/r EBB Bagging C4.5

Diabetes 76.2 77.2 74.7 71.2 67.6 Breast 95.7 95.7 95.1 95.4 94.1 German 70.1 69.9 67.9 60.4 56.3 E-Coli 89.3 88.9 88.3 74.1 69.5 Satimage 87.6 87.5 88.1 73.9 72.5 Flag 55.4 47.4 54.0 0.0 0.0 Glass 92.9 92.8 92.5 87.9 89.5 Letter-A 98.7 98.7 98.6 97.4 97.7 RealF 72.4 72.8 72.8 56.4 55.4

(20)

Local-and-Over-All Balanced Bagging (Błaszczyński,

Stefanowski, Idkowiak)

Rozszerzenie RBBag

Modyfikacja prawdopodobieństwa wylosowania przykładu Lokalne sąsiedztwo zamiast globalnego niezrównoważenia Wyniki porównywalne (a czasem lepsze) od RBB

(21)

Porównanie (G-mean)

data set RBBag L-O-ABBag abdominal pain 81.04 80.73 acl-m 88.97 88.65 breast-w 96.12 96.47 bupa 71.97 69.45 german credit 87.07 67.94 ecoli 71.84 89.04 flags 67.23 74.04 haberman 64.17 50.74 hepatitis 80.29 75.04 ionosphere 90.75 90.91 scrotal pain 74.43 74.16 vehicle 95.23 96.2

(22)

OverBagging

Zmiana na poziomie zbioru danych wejściowych nadlosowywanie (oversampling) + bagging Wada – łatwo dochodzi do przeuczenia

(23)

SMOTEBagging (Wang, Yao)

Odpowiedź na wadę OverBaggingu SMOTE zamiast nadlosowywania

(24)

Porównanie

Glass G-mean Overall Q-statistics

Over 0.927 0.664

SMOTE 0.960 0.621

Yeast G-mean Overall Q-statistics

Over 0.941 0.675

SMOTE 0.969 0.615

(25)

AdaCost (Fan, Stolfo, Zhang, Chan)

Rozszerzenie AdaBoost

Inna funkcja zmiany wag dla klasy mniejszościowej niż dla większościowej

Większy wzrost wag i mniejszy spadek dla klasy mniejszościowej

(26)

Porównanie (Percentage Cumulative Loss)

Data set cRIPPER AdaBoost AdaCost

hypothyroid 2.5 2.6 2.2 boolean 16.0 10.5 6.9 dis 5.8 6.0 4.9 crx 10.1 10.2 8.6 breast cancer 3.7 3.7 2.7 wpbc 32.0 30.8 25.4

(27)

SMOTEBoost (Chavla)

W każdej rundzie Boosting syntetyczne nadlosowywanie

(28)

SMOTEBoost (Chavla)

W każdej rundzie Boosting syntetyczne nadlosowywanie Wady: duża złożoność i syntetyczne dane

(29)

Porównanie (miara F)

Data set RIPPER SMOTE Boosting SMOTEBoost

KDDCup-99 68.42 84.17 84.83 88.8

mammography 58.11 61.31 66.89 68.36

Satimage 55.50 59.97 67.78 70.19

phoneme 65.15 68.89 76.55 77.37

(30)

RUSBoost (Seiffert, Khoshgoftaar)

Random UnderSampling Boosting

Odpowiedź na SMOTEBoost

(31)

RUSBoost (Seiffert, Khoshgoftaar)

Random UnderSampling Boosting

Odpowiedź na SMOTEBoost

(32)

DataBoost-IM (Guo, Viktor)

DataBoost for IMbalanced

Wyszkuwanie ”trudnych przykładów”

Synteza obiektów na podstawie trudnych przykładów (z obu klas)

(33)

Porównanie (G-mean)

Data set C4.5 AdaBoost SMOTEBoost DataBoost-IM

glass 85.9 89.4 91.1 92.3 satimage 72.7 77.0 75.6 80.4 vowel 95.8 97.6 98.7 99.3 sick 93.0 94.2 95.5 95.9 abalone 50.8 59.0 56.9 61.1 yeast 22.3 66.6 67.5 66.9 primary-tumor 0.00 37.5 37.3 52.6 oil 55.8 55.8 67.5 67.7

(34)

Imbalanced Ivotes (Błaszczyński, Deckert, Stefanowski,

Wilk)

Ivotes + SPIDER

Modyfikacja („czyszczenie”) próbki uczącej:

nadlosowywanie trudnych przykładów z klasy mniejszościowej usuwanie/przeetykietowanie trudnych przykładów z klasy większościowej

(35)

Imbalanced Ivotes (Błaszczyński, Deckert, Stefanowski,

Wilk)

Ivotes + SPIDER

Modyfikacja („czyszczenie”) próbki uczącej:

nadlosowywanie trudnych przykładów z klasy mniejszościowej usuwanie/przeetykietowanie trudnych przykładów z klasy większościowej

(36)

(37)

Wnioski z eksperymentów

SMOTEBagging i RUSBoost zachowują się najlepiej dla danych niezrównoważonych

Prostsze metody nie tracą w stosunku do metod bardziej złożonych

Bagging > Boosting

Liczba klasyfikatorów bazowych zależna od metody

Galar, M., Fernandez, A., Barrenechea, E.; Bustince, H., Herrera, F.: A Review on Ensembles for Class Imbalance Problem: Bagging, Boosting and Hybrid Based Approaches. IEEE Transactions on Systems, Man, and Cybernetics–Part C, vol. 42 (4), 463–484 (2011).

(38)

Podsumowanie

Dane niezrównoważone – ważny problem Wykorzystanie klasyfikatorów złożonych Wiele rozszerzeń (wady i zalety)