Uczenie się klasyfikatorów przy zmieniającej się definicji klas.
mgr inż. Magdalena Deckert Poznań, 01.06.2010r.
Plan prezentacji
Wstęp
Concept drift
Typy zmian
Podział algorytmów stosowanych w
uczeniu się ze zmiennych środowisk
Przykłady algorytmów Podsumowanie
Wstęp
Schemat tworzenia klasyfikatorów Dane
uczące
Wstęp
4
Wstęp
Tradycyjne DBMS – dane przechowywane w
skończonych, trwałych zbiorach danych
Strumienie danych – ciągłe, uporządkowane,
szybkie, zmieniające się, bardzo duże rozmiary
Charakterystyka strumieni danych:
Bardzo duże rozmiary danych, prawdopodobnie
nieskończone
Szybkie zmiany wymagają szybkiej reakcji
Wielokrotny dostęp do wszystkich danych jest
bardzo kosztowny – minimalizacja liczby zapamiętanych przykładów uczących
Wstęp
6
Trudności w uczeniu ze strumieni
danych:
Czy zapamiętywać przykłady uczące? ○ Full-instance memory
○ Partial-instance memory
○ No-instance memory
Kiedy i w jaki sposób douczać? ○ Uczenie przyrostowe (IIL)
Concept drift - definicja
Concept drift oznacza, że właściwości
klasy decyzyjnej, którą model próbuje przewidzieć, zmieniają się wraz z
upływem czasu w nieprzewidziany sposób.
Concept drift - zastosowania
8 Monitoring i kontrola Zindywidualizowane przetwarzanie informacji Wspomaganie decyzjiConcept drift - zastosowania
Monitoring i kontrola
monitorowanie w celu zapobiegania nieuprawnionym działaniom
○ wykrywanie włamań
○ wykrywanie defraudacji
Concept drift - zastosowania
10 Zindywidualizowane przetwarzanie informacji filtrowanie informacji profile klientów ○ marketing bezpośredniConcept drift - zastosowania
Wspomaganie decyzji
przewidywanie bankructwa
zastosowania biomedyczne - leczenie antybiotykami
Concept drift - zastosowania
12
AI i robotyka
concept drift = dynamiczne środowiska systemy „inteligentnych” domów
Rodzaje zmian
nagłe
Rodzaje zmian
Rodzaje zmian
Podczas wykrywania zmian napotkać
Algorytmy uczenia w zmiennych
środowiskach
Detektory zmian – triggers
Dane etykietowane Trafność klasyfikacji
DDM (ang. Drift Detection Method)
obliczanie prawdopodobieństwa popełnienia błędu w
momencie nadchodzenia przykładu
poziom ostrzegawczy oraz poziom zmiany
Algorytmy przyrostowe
18
Algorytmy przyrostowe powstały
znacznie wcześniej niż pojęcie concept
drift.
Najbardziej znanym algorytmem
dostosowanym do przetwarzania zmiennych środowisk jest FLORA zaproponowana przez Widmera i Kubata w 1996.
Algorytmy przyrostowe
Składowe algorytmu FLORA
okno czasowe z zapamiętanymi przykładami
uczącymi
wiedza – nieuporządkowany zbiór reguł z każdą hipotezą związane są 3 zbiory
Algorytmy przyrostowe
20
Algorytmy przyrostowe
Przykładowe wyniki algorytmu FLORA
Algorytmy przyrostowe
22
Rodzaje algorytmu FLORA
FLORA – stały rozmiar okna czasowego FLORA2 – dynamiczne dostosowywanie
rozmiaru okna czasowego
FLORA3 – rozpoznawanie powracających
opisów pojęć
Inne propozycje
Hiszpanie zaproponowali przyrostowy algorytm regułowy pamiętający
przykłady graniczne.
Maloof & Michalski zaproponowali
algorytm AQ11PM – WAH: przyrostowy algorytm AQ połączony z dynamicznym oknem czasowym
Klasyfikatory złożone
Klasyfikatory złożone
Horse Racing
Jest to grupa klasyfikatorów, w których
poszczególne klasyfikatory bazowe są tworzone z wyprzedzeniem, a dostosowywanie do zmian polega na modyfikacji reguły składania
Klasyfikatory złożone
26
Przykładowe wyniki algorytmu DWM dla
Klasyfikatory złożone
Replace-the-oldest
W przypadku wykrycia zmiany najstarszy z klasyfikatorów bazowych jest zastępowany klasyfikatorem zbudowanym na
najnowszych danych.
Replace-the-looser
W przypadku wykrycia zmiany każdy z
klasyfikatorów bazowych poddawany jest ponownej ocenie i najsłabszy z nich zostaje
Algorytmy oparte na selekcji
przykładów uczących
28
StreamMiner – podejście polegające na systematycznym wyborze starych oraz nowych przykładów uczących
W celu znalezienie optymalnego rozwiązania rozważane są 4 sytuacje:
Brak CD i nowe dane są wystarczające Wykryto CD i nowe dane są wystarczające Brak CD ale nowe dane nie są wystarczające Wykryto CD i nowe dane nie są wystarczające
W przypadku, gdy nowe dane nie są
wystarczające uwzględniane są historyczne przykłady, na których budowany był ostatni klasyfikator.
MOA – Massive Online Analysis
Moa – rdzenny ptak z Nowej Zelandii,
niestety już wymarły, podobnie jak Weka jest nielotem
Środowisko do przetwarzania
olbrzymich zbiorów danych w tym strumieni danych
Napisane w języku
Podsumowanie
Krótkie wprowadzenie do strumieni
danych
Definicja concept drift oraz
zastosowania problemu zmiany definicji klas.
Podział oraz przykłady algorytmów
uczących się w zmiennych środowiskach.