Wstęp Rozszerzenia Podsumowanie
Rozszerzenia klasyfikatorów złożonych dla danych
niezrównoważonych
Marcin Szajek
Wstęp Rozszerzenia Podsumowanie
Plan prezentacji
1 Wstęp 2 Rozszerzenia 3 PodsumowanieWstęp Rozszerzenia Podsumowanie
Uczenie nadzorowane
Klasyfiaktor: dane uczące + algorytm uczący Zbiór par (xi, yi)
Wstęp Rozszerzenia Podsumowanie
Dane niezrównoważone
Nierówne liczności klas
Klasyfikatory zwykle opierają się o globalną trafność – poprawna miara?
Przykładowe zastosowania:
wykrywanie awarii
wykrywanie rzadkich chorób wykrywanie „plam oleju”
Wstęp Rozszerzenia Podsumowanie
Dane niezrównoważone
Nierówne liczności klas
Klasyfikatory zwykle opierają się o globalną trafność – poprawna miara?
Przykładowe zastosowania:
wykrywanie awarii
wykrywanie rzadkich chorób wykrywanie „plam oleju”
Wstęp Rozszerzenia Podsumowanie
Wstęp Rozszerzenia Podsumowanie
Wstęp Rozszerzenia Podsumowanie
Klasyfikatory złożone
Zwane też rodzinami klasyfikatorów Wzorowane na ludzkich zachowaniach
Decyzje podejmuje komitet ekspertów, a nie jeden ekspert Eksperci muszą się różnić (weak learners)
Uzgadnianie decyzji – różne podejścia:
proste głosowanie ważenie decyzji metaklasyfikator
Wstęp Rozszerzenia Podsumowanie
Klasyfikatory złożone
Zwane też rodzinami klasyfikatorów Wzorowane na ludzkich zachowaniach
Decyzje podejmuje komitet ekspertów, a nie jeden ekspert Eksperci muszą się różnić (weak learners)
Uzgadnianie decyzji – różne podejścia:
proste głosowanie ważenie decyzji metaklasyfikator
Wstęp Rozszerzenia Podsumowanie
Klasyfikatory złożone
Zwane też rodzinami klasyfikatorów Wzorowane na ludzkich zachowaniach
Decyzje podejmuje komitet ekspertów, a nie jeden ekspert Eksperci muszą się różnić (weak learners)
Uzgadnianie decyzji – różne podejścia:
proste głosowanie ważenie decyzji metaklasyfikator
Wstęp Rozszerzenia Podsumowanie
Klasyfikatory złożone - rodzaje
Heterogeniczne – różne klasyfikatory bazowe Homogeniczne – różne zbiory uczące
Główne rodziny:
bagging boosting
Wstęp Rozszerzenia Podsumowanie
Klasyfikatory złożone - rodzaje
Heterogeniczne – różne klasyfikatory bazowe
Homogeniczne – różne zbiory uczące
Główne rodziny:
bagging boosting
Wstęp Rozszerzenia Podsumowanie
Klasyfikatory złożone - rodzaje
Heterogeniczne – różne klasyfikatory bazowe
Homogeniczne – różne zbiory uczące
Główne rodziny:
bagging boosting
Wstęp Rozszerzenia Podsumowanie
Bagging (L.Breiman, 1996)
Bootstrap aggregating
próbki uczące oparte o losowanie ze zwracaniem wielu całkowicie niezależnych ekspertów
Wstęp Rozszerzenia Podsumowanie
Boosting (Schapire 1990)
Budowany sekwencyjnie Losowanie z wagamiTworzenie „ekspertów” dla trudnych danych Najbardziej znany – AdaBoost
Wstęp Rozszerzenia Podsumowanie
Wstęp Rozszerzenia Podsumowanie
Exactly Balanced Bagging (Tao)
Wielkość próbki ustalana na 2*liczność klasy mniejszościowej Cała klasa mniejszościowa w próbce
Obiekty z klasy większościowej losowane
Efekt: każdy klasyfikator bazowy „umie” rozpoznawać klasę mniejszościową
Wstęp Rozszerzenia Podsumowanie
Roughly Balanced Bagging (S Hido, H Kashima)
Zmienna wielkość próbki bootstrapowej dla każdej z klas Klasa losowana z ujemnego rozkładu dwumianowego (negative
binominal)
Obiekty z wylosowanej klasy losowane z rozkładu jednorodnego
Wstęp Rozszerzenia Podsumowanie
Porównanie (G-mean)
Data set RBB RBB w/r EBB Bagging C4.5
Diabetes 76.2 77.2 74.7 71.2 67.6 Breast 95.7 95.7 95.1 95.4 94.1 German 70.1 69.9 67.9 60.4 56.3 E-Coli 89.3 88.9 88.3 74.1 69.5 Satimage 87.6 87.5 88.1 73.9 72.5 Flag 55.4 47.4 54.0 0.0 0.0 Glass 92.9 92.8 92.5 87.9 89.5 Letter-A 98.7 98.7 98.6 97.4 97.7 RealF 72.4 72.8 72.8 56.4 55.4
Wstęp Rozszerzenia Podsumowanie
Local-and-Over-All Balanced Bagging (Błaszczyński,
Stefanowski, Idkowiak)
Rozszerzenie RBBag
Modyfikacja prawdopodobieństwa wylosowania przykładu Lokalne sąsiedztwo zamiast globalnego niezrównoważenia Wyniki porównywalne (a czasem lepsze) od RBB
Wstęp Rozszerzenia Podsumowanie
Porównanie (G-mean)
data set RBBag L-O-ABBag abdominal pain 81.04 80.73 acl-m 88.97 88.65 breast-w 96.12 96.47 bupa 71.97 69.45 german credit 87.07 67.94 ecoli 71.84 89.04 flags 67.23 74.04 haberman 64.17 50.74 hepatitis 80.29 75.04 ionosphere 90.75 90.91 scrotal pain 74.43 74.16 vehicle 95.23 96.2
Wstęp Rozszerzenia Podsumowanie
OverBagging
Zmiana na poziomie zbioru danych wejściowych nadlosowywanie (oversampling) + bagging Wada – łatwo dochodzi do przeuczenia
Wstęp Rozszerzenia Podsumowanie
SMOTEBagging (Wang, Yao)
Odpowiedź na wadę OverBaggingu SMOTE zamiast nadlosowywania
Wstęp Rozszerzenia Podsumowanie
Porównanie
Glass G-mean Overall Q-statistics
Over 0.927 0.664
SMOTE 0.960 0.621
Yeast G-mean Overall Q-statistics
Over 0.941 0.675
SMOTE 0.969 0.615
Wstęp Rozszerzenia Podsumowanie
AdaCost (Fan, Stolfo, Zhang, Chan)
Rozszerzenie AdaBoost
Inna funkcja zmiany wag dla klasy mniejszościowej niż dla większościowej
Większy wzrost wag i mniejszy spadek dla klasy mniejszościowej
Wstęp Rozszerzenia Podsumowanie
Porównanie (Percentage Cumulative Loss)
Data set cRIPPER AdaBoost AdaCost
hypothyroid 2.5 2.6 2.2 boolean 16.0 10.5 6.9 dis 5.8 6.0 4.9 crx 10.1 10.2 8.6 breast cancer 3.7 3.7 2.7 wpbc 32.0 30.8 25.4
Wstęp Rozszerzenia Podsumowanie
SMOTEBoost (Chavla)
Rozszerzenie AdaBoost
W każdej rundzie Boosting syntetyczne nadlosowywanie
Wstęp Rozszerzenia Podsumowanie
SMOTEBoost (Chavla)
Rozszerzenie AdaBoost
W każdej rundzie Boosting syntetyczne nadlosowywanie Wady: duża złożoność i syntetyczne dane
Wstęp Rozszerzenia Podsumowanie
Porównanie (miara F)
Data set RIPPER SMOTE Boosting SMOTEBoost
KDDCup-99 68.42 84.17 84.83 88.8
mammography 58.11 61.31 66.89 68.36
Satimage 55.50 59.97 67.78 70.19
phoneme 65.15 68.89 76.55 77.37
Wstęp Rozszerzenia Podsumowanie
RUSBoost (Seiffert, Khoshgoftaar)
Random UnderSampling Boosting
Odpowiedź na SMOTEBoost
Wstęp Rozszerzenia Podsumowanie
RUSBoost (Seiffert, Khoshgoftaar)
Random UnderSampling Boosting
Odpowiedź na SMOTEBoost
Wstęp Rozszerzenia Podsumowanie
DataBoost-IM (Guo, Viktor)
DataBoost for IMbalanced
Wyszkuwanie ”trudnych przykładów”
Synteza obiektów na podstawie trudnych przykładów (z obu klas)
Wstęp Rozszerzenia Podsumowanie
Porównanie (G-mean)
Data set C4.5 AdaBoost SMOTEBoost DataBoost-IM
glass 85.9 89.4 91.1 92.3 satimage 72.7 77.0 75.6 80.4 vowel 95.8 97.6 98.7 99.3 sick 93.0 94.2 95.5 95.9 abalone 50.8 59.0 56.9 61.1 yeast 22.3 66.6 67.5 66.9 primary-tumor 0.00 37.5 37.3 52.6 oil 55.8 55.8 67.5 67.7
Wstęp Rozszerzenia Podsumowanie
Imbalanced Ivotes (Błaszczyński, Deckert, Stefanowski,
Wilk)
Ivotes + SPIDER
Modyfikacja („czyszczenie”) próbki uczącej:
nadlosowywanie trudnych przykładów z klasy mniejszościowej usuwanie/przeetykietowanie trudnych przykładów z klasy większościowej
Wstęp Rozszerzenia Podsumowanie
Imbalanced Ivotes (Błaszczyński, Deckert, Stefanowski,
Wilk)
Ivotes + SPIDER
Modyfikacja („czyszczenie”) próbki uczącej:
nadlosowywanie trudnych przykładów z klasy mniejszościowej usuwanie/przeetykietowanie trudnych przykładów z klasy większościowej
Wstęp Rozszerzenia Podsumowanie
Wstęp Rozszerzenia Podsumowanie
Wnioski z eksperymentów
SMOTEBagging i RUSBoost zachowują się najlepiej dla danych niezrównoważonych
Prostsze metody nie tracą w stosunku do metod bardziej złożonych
Bagging > Boosting
Liczba klasyfikatorów bazowych zależna od metody
Galar, M., Fernandez, A., Barrenechea, E.; Bustince, H., Herrera, F.: A Review on Ensembles for Class Imbalance Problem: Bagging, Boosting and Hybrid Based Approaches. IEEE Transactions on Systems, Man, and Cybernetics–Part C, vol. 42 (4), 463–484 (2011).
Wstęp Rozszerzenia Podsumowanie
Podsumowanie
Dane niezrównoważone – ważny problem Wykorzystanie klasyfikatorów złożonych Wiele rozszerzeń (wady i zalety)