• Nie Znaleziono Wyników

23.04.2013 MarcinSzajek Rozszerzeniaklasyfikatorówzłożonychdladanychniezrównoważonych

N/A
N/A
Protected

Academic year: 2021

Share "23.04.2013 MarcinSzajek Rozszerzeniaklasyfikatorówzłożonychdladanychniezrównoważonych"

Copied!
38
0
0

Pełen tekst

(1)

Wstęp Rozszerzenia Podsumowanie

Rozszerzenia klasyfikatorów złożonych dla danych

niezrównoważonych

Marcin Szajek

(2)

Wstęp Rozszerzenia Podsumowanie

Plan prezentacji

1 Wstęp 2 Rozszerzenia 3 Podsumowanie

(3)

Wstęp Rozszerzenia Podsumowanie

Uczenie nadzorowane

Klasyfiaktor: dane uczące + algorytm uczący Zbiór par (xi, yi)

(4)

Wstęp Rozszerzenia Podsumowanie

Dane niezrównoważone

Nierówne liczności klas

Klasyfikatory zwykle opierają się o globalną trafność – poprawna miara?

Przykładowe zastosowania:

wykrywanie awarii

wykrywanie rzadkich chorób wykrywanie „plam oleju”

(5)

Wstęp Rozszerzenia Podsumowanie

Dane niezrównoważone

Nierówne liczności klas

Klasyfikatory zwykle opierają się o globalną trafność – poprawna miara?

Przykładowe zastosowania:

wykrywanie awarii

wykrywanie rzadkich chorób wykrywanie „plam oleju”

(6)

Wstęp Rozszerzenia Podsumowanie

(7)

Wstęp Rozszerzenia Podsumowanie

(8)

Wstęp Rozszerzenia Podsumowanie

Klasyfikatory złożone

Zwane też rodzinami klasyfikatorów Wzorowane na ludzkich zachowaniach

Decyzje podejmuje komitet ekspertów, a nie jeden ekspert Eksperci muszą się różnić (weak learners)

Uzgadnianie decyzji – różne podejścia:

proste głosowanie ważenie decyzji metaklasyfikator

(9)

Wstęp Rozszerzenia Podsumowanie

Klasyfikatory złożone

Zwane też rodzinami klasyfikatorów Wzorowane na ludzkich zachowaniach

Decyzje podejmuje komitet ekspertów, a nie jeden ekspert Eksperci muszą się różnić (weak learners)

Uzgadnianie decyzji – różne podejścia:

proste głosowanie ważenie decyzji metaklasyfikator

(10)

Wstęp Rozszerzenia Podsumowanie

Klasyfikatory złożone

Zwane też rodzinami klasyfikatorów Wzorowane na ludzkich zachowaniach

Decyzje podejmuje komitet ekspertów, a nie jeden ekspert Eksperci muszą się różnić (weak learners)

Uzgadnianie decyzji – różne podejścia:

proste głosowanie ważenie decyzji metaklasyfikator

(11)

Wstęp Rozszerzenia Podsumowanie

Klasyfikatory złożone - rodzaje

Heterogeniczne – różne klasyfikatory bazowe Homogeniczne – różne zbiory uczące

Główne rodziny:

bagging boosting

(12)

Wstęp Rozszerzenia Podsumowanie

Klasyfikatory złożone - rodzaje

Heterogeniczne – różne klasyfikatory bazowe

Homogeniczne – różne zbiory uczące

Główne rodziny:

bagging boosting

(13)

Wstęp Rozszerzenia Podsumowanie

Klasyfikatory złożone - rodzaje

Heterogeniczne – różne klasyfikatory bazowe

Homogeniczne – różne zbiory uczące

Główne rodziny:

bagging boosting

(14)

Wstęp Rozszerzenia Podsumowanie

Bagging (L.Breiman, 1996)

Bootstrap aggregating

próbki uczące oparte o losowanie ze zwracaniem wielu całkowicie niezależnych ekspertów

(15)

Wstęp Rozszerzenia Podsumowanie

Boosting (Schapire 1990)

Budowany sekwencyjnie Losowanie z wagami

Tworzenie „ekspertów” dla trudnych danych Najbardziej znany – AdaBoost

(16)

Wstęp Rozszerzenia Podsumowanie

(17)

Wstęp Rozszerzenia Podsumowanie

Exactly Balanced Bagging (Tao)

Wielkość próbki ustalana na 2*liczność klasy mniejszościowej Cała klasa mniejszościowa w próbce

Obiekty z klasy większościowej losowane

Efekt: każdy klasyfikator bazowy „umie” rozpoznawać klasę mniejszościową

(18)

Wstęp Rozszerzenia Podsumowanie

Roughly Balanced Bagging (S Hido, H Kashima)

Zmienna wielkość próbki bootstrapowej dla każdej z klas Klasa losowana z ujemnego rozkładu dwumianowego (negative

binominal)

Obiekty z wylosowanej klasy losowane z rozkładu jednorodnego

(19)

Wstęp Rozszerzenia Podsumowanie

Porównanie (G-mean)

Data set RBB RBB w/r EBB Bagging C4.5

Diabetes 76.2 77.2 74.7 71.2 67.6 Breast 95.7 95.7 95.1 95.4 94.1 German 70.1 69.9 67.9 60.4 56.3 E-Coli 89.3 88.9 88.3 74.1 69.5 Satimage 87.6 87.5 88.1 73.9 72.5 Flag 55.4 47.4 54.0 0.0 0.0 Glass 92.9 92.8 92.5 87.9 89.5 Letter-A 98.7 98.7 98.6 97.4 97.7 RealF 72.4 72.8 72.8 56.4 55.4

(20)

Wstęp Rozszerzenia Podsumowanie

Local-and-Over-All Balanced Bagging (Błaszczyński,

Stefanowski, Idkowiak)

Rozszerzenie RBBag

Modyfikacja prawdopodobieństwa wylosowania przykładu Lokalne sąsiedztwo zamiast globalnego niezrównoważenia Wyniki porównywalne (a czasem lepsze) od RBB

(21)

Wstęp Rozszerzenia Podsumowanie

Porównanie (G-mean)

data set RBBag L-O-ABBag abdominal pain 81.04 80.73 acl-m 88.97 88.65 breast-w 96.12 96.47 bupa 71.97 69.45 german credit 87.07 67.94 ecoli 71.84 89.04 flags 67.23 74.04 haberman 64.17 50.74 hepatitis 80.29 75.04 ionosphere 90.75 90.91 scrotal pain 74.43 74.16 vehicle 95.23 96.2

(22)

Wstęp Rozszerzenia Podsumowanie

OverBagging

Zmiana na poziomie zbioru danych wejściowych nadlosowywanie (oversampling) + bagging Wada – łatwo dochodzi do przeuczenia

(23)

Wstęp Rozszerzenia Podsumowanie

SMOTEBagging (Wang, Yao)

Odpowiedź na wadę OverBaggingu SMOTE zamiast nadlosowywania

(24)

Wstęp Rozszerzenia Podsumowanie

Porównanie

Glass G-mean Overall Q-statistics

Over 0.927 0.664

SMOTE 0.960 0.621

Yeast G-mean Overall Q-statistics

Over 0.941 0.675

SMOTE 0.969 0.615

(25)

Wstęp Rozszerzenia Podsumowanie

AdaCost (Fan, Stolfo, Zhang, Chan)

Rozszerzenie AdaBoost

Inna funkcja zmiany wag dla klasy mniejszościowej niż dla większościowej

Większy wzrost wag i mniejszy spadek dla klasy mniejszościowej

(26)

Wstęp Rozszerzenia Podsumowanie

Porównanie (Percentage Cumulative Loss)

Data set cRIPPER AdaBoost AdaCost

hypothyroid 2.5 2.6 2.2 boolean 16.0 10.5 6.9 dis 5.8 6.0 4.9 crx 10.1 10.2 8.6 breast cancer 3.7 3.7 2.7 wpbc 32.0 30.8 25.4

(27)

Wstęp Rozszerzenia Podsumowanie

SMOTEBoost (Chavla)

Rozszerzenie AdaBoost

W każdej rundzie Boosting syntetyczne nadlosowywanie

(28)

Wstęp Rozszerzenia Podsumowanie

SMOTEBoost (Chavla)

Rozszerzenie AdaBoost

W każdej rundzie Boosting syntetyczne nadlosowywanie Wady: duża złożoność i syntetyczne dane

(29)

Wstęp Rozszerzenia Podsumowanie

Porównanie (miara F)

Data set RIPPER SMOTE Boosting SMOTEBoost

KDDCup-99 68.42 84.17 84.83 88.8

mammography 58.11 61.31 66.89 68.36

Satimage 55.50 59.97 67.78 70.19

phoneme 65.15 68.89 76.55 77.37

(30)

Wstęp Rozszerzenia Podsumowanie

RUSBoost (Seiffert, Khoshgoftaar)

Random UnderSampling Boosting

Odpowiedź na SMOTEBoost

(31)

Wstęp Rozszerzenia Podsumowanie

RUSBoost (Seiffert, Khoshgoftaar)

Random UnderSampling Boosting

Odpowiedź na SMOTEBoost

(32)

Wstęp Rozszerzenia Podsumowanie

DataBoost-IM (Guo, Viktor)

DataBoost for IMbalanced

Wyszkuwanie ”trudnych przykładów”

Synteza obiektów na podstawie trudnych przykładów (z obu klas)

(33)

Wstęp Rozszerzenia Podsumowanie

Porównanie (G-mean)

Data set C4.5 AdaBoost SMOTEBoost DataBoost-IM

glass 85.9 89.4 91.1 92.3 satimage 72.7 77.0 75.6 80.4 vowel 95.8 97.6 98.7 99.3 sick 93.0 94.2 95.5 95.9 abalone 50.8 59.0 56.9 61.1 yeast 22.3 66.6 67.5 66.9 primary-tumor 0.00 37.5 37.3 52.6 oil 55.8 55.8 67.5 67.7

(34)

Wstęp Rozszerzenia Podsumowanie

Imbalanced Ivotes (Błaszczyński, Deckert, Stefanowski,

Wilk)

Ivotes + SPIDER

Modyfikacja („czyszczenie”) próbki uczącej:

nadlosowywanie trudnych przykładów z klasy mniejszościowej usuwanie/przeetykietowanie trudnych przykładów z klasy większościowej

(35)

Wstęp Rozszerzenia Podsumowanie

Imbalanced Ivotes (Błaszczyński, Deckert, Stefanowski,

Wilk)

Ivotes + SPIDER

Modyfikacja („czyszczenie”) próbki uczącej:

nadlosowywanie trudnych przykładów z klasy mniejszościowej usuwanie/przeetykietowanie trudnych przykładów z klasy większościowej

(36)

Wstęp Rozszerzenia Podsumowanie

(37)

Wstęp Rozszerzenia Podsumowanie

Wnioski z eksperymentów

SMOTEBagging i RUSBoost zachowują się najlepiej dla danych niezrównoważonych

Prostsze metody nie tracą w stosunku do metod bardziej złożonych

Bagging > Boosting

Liczba klasyfikatorów bazowych zależna od metody

Galar, M., Fernandez, A., Barrenechea, E.; Bustince, H., Herrera, F.: A Review on Ensembles for Class Imbalance Problem: Bagging, Boosting and Hybrid Based Approaches. IEEE Transactions on Systems, Man, and Cybernetics–Part C, vol. 42 (4), 463–484 (2011).

(38)

Wstęp Rozszerzenia Podsumowanie

Podsumowanie

Dane niezrównoważone – ważny problem Wykorzystanie klasyfikatorów złożonych Wiele rozszerzeń (wady i zalety)

Cytaty

Powiązane dokumenty

Uczniu, przypomnij sobie jak wyglądało życie obu postaci – Ani Shirley oraz Maryli Cuthbert - zanim się spotkały.. Jak wyglądało pierwsze spotkanie bohaterek i jak doszło do

Tę zdolność człowieka do podpierania się autorytetami w doskonały sposób wykorzystują media, które od zawsze czerpały z dobrodziejstwa autorytetów wy- korzystując je

Niedawno spotkałem się z krytyką, gdy w gronie le- karzy stwierdziłem, że powinniśmy się domagać, aby system ochrony zdrowia był „bezkolejkowy”, czyli wy- dolny.. Zarzucono

Każdy, kto bliżej przyglą- dał się działaniom rządu w zakresie reformy opieki zdrowotnej, bez trudu zauważył, że przedstawiciele ministerstwa zdrowia poruszają się wyłącznie

„wodotryskami” i wolelibyśmy, aby przyrząd nie wykonał sam całego doświad- czenia za ucznia/studenta, wówczas świetną alternatywą dla zakupu chronogra- fu, może być

10 40 -11 25 (dyżur online, w tym czasie kontakt mailowy: jsetainfo@gmail.com, możliwość kontaktu na platformie hangout zarejestrowanym pod tym adresem, oraz Skype –

Kiedy zmierzaliśmy w stronę wyjścia, zegar wybił godzinę 12.00, a schody zaczęły się prószyć, w związku z czym szybko opuściliśmy budynek udając się do domu.. Następnego

Komitet gotował się (bo posiadane fundusze już się kończyły, a nowyCih nie było), do likwidacji swoich agend. Zawiodła caŁkowicie pomoc spo-. łeczeństwa, od