SeminariumISWD,21.05.2013 MagdalenaDeckert RILL-przyrostowyklasyﬁkatorregułowyuczącysięzezmiennychśrodowisk

(1)

RILL - przyrostowy klasyfikator regułowy uczący

się ze zmiennych środowisk

Magdalena Deckert

Politechnika Poznańska, Instytut Informatyki Seminarium ISWD, 21.05.2013

(2)

Plan prezentacji

1 Wprowadzenie

Concept drift i rodzaje zmian

Regułowe algorytmy przyrostowe dla zmiennych środowisk

FLORA AQ11-PM-WAH FACIL

VFDR

2 Przyrostowy algorytm regułowy RILL

Motywacje Założenia

Ogólny schemat działania algorytmu RILL

(3)

Statyczny schemat tworzenia klasyfikatorów

Klasyfikator Przykłady uczące Algorytm uczący

(4)

Strumienie danych

Strumienie danych charakteryzują się bardzo dużym rozmiarem danych (nawet nieskończonym).

Środowisko, a tym samym problem klasyfikacji, może zmieniać się wraz z upływem czasu.

(5)

Concept drift

Definicja

Concept Drift – właściwości klasy decyzyjnej, którą model próbuje przewidzieć, zmieniają się wraz z upływem czasu w nieprzewidziany sposób

Problem

(6)

Rodzaje zmian

Zmiana nagła stopniowa inne powracające pojęcia szum blips

(7)

Algorytmy przyrostowe

Przetwarzają dane etykietowane przykład po przykładzie. Powstały znacznie wcześniej niż pojęcie concept drift. Ich wiedza może mieć różne reprezentacje, m.in. reguły decyzyjne.

Zdaniem prof. Gamy przyrostowe generowanie reguł

decyzyjnych nie jest zbyt popularne w środowisku uczenia się ze zmiennych środowisk.

(8)

Regułowe algorytmy przyrostowe dla zmiennych środowisk

Istniejące algorytmy FLORA AQ11-PM-WAH FACIL VFDR

(9)

Algorytm FLORA

Składowe algorytmu FLORA

FLORA posiada okno czasowe z zapamiętanymi przykładami uczącymi.

Wiedza reprezentowana jest za pomocą nieuporządkowanego zbioru reguł.

(10)

Algorytm FLORA

Rodzaje algorytmu FLORA

FLORA ma stały rozmiar okna czasowego.

FLORA2 ma możliwość dynamicznego dostosowywania rozmiaru okna czasowego.

FLORA3 rozpoznaje powracające opisy pojęć. FLORA4 rozpoznaje zjawisko szumu.

(11)

Algorytm AQ11-PM-WAH

AQ11-PM-WAH zapamiętuje wybrane przykłady uczące (częściowa pamięć przykładów). Wyznaczają one lub wzmacniają wyindukowane granice opisów pojęć.

W każdej fazie uczenia nowe przykłady uczące, które są źle klasyfikowane, łączone są z przykładami przechowywanymi w pamięci i generowany jest aktualny model wiedzy.

Na koniec, za pomocą nowego zbioru reguł, uaktualniane są przykłady brzegowe w pamięci. Przykłady, które nie definiują już granic opisów pojęć są usuwane.

(12)

Algorytm FACIL

Algorytm FACIL posiada podobnie jak AQ11-PM-WAH częściową pamięć przykładów składającą się z przykładów granicznych (osobną dla każdej reguły).

Pozwala on na generowanie nieczystych reguł (pokrywają zarówno przykłady pozytywne jak i negatywne).

Zapamiętuje 2 przykłady pozytywne na każdy 1 negatywny pokryty przez regułę. Dzięki temu, po przekroczeniu minimalnego progu czystości, nowe reguły generowane są z obu typów przykładów.

(13)

Algorytm VFDR

Algorytm dedykowany przetwarzaniu strumieni o bardzo dużych rozmiarach, w których nowe przykłady pojawiają się bardzo szybko.

Ma on możliwość wygenerowania zarówno

nieuporządkowanego jak i uporządkowanego zbioru reguł. Nie ma pamięci przykładów, lecz utrzymuje strukturę danych zawierającą statystyki niezbędne do klasyfikacji nowych przykładów oraz aktualizacji reguł. Każda reguła decyzyjna ma swoją oddzielną strukturę danych.

(14)

Algorytm VFDR

Algorytm wykorzystuje ograniczenia Hoeffdinga, aby określić liczbę przykładów uczących, po których należy zaktualizować zbiór reguł decyzyjnych. Ponadto określają one także czy pojedyncza reguła wymaga rozszerzenia.

Rozszerzenie VFDR-MC pozwala na rozwiązywanie problemów wieloklasowych.

VFDR został także dostosowany do zmiennych środowisk. W rozszerzeniu AVFDR każdą regułę powiązano z jawnym detektorem zmian bazującym na detektorze DDM, który śledzi jakość klasyfikacji reguły.

(15)

Porównanie istniejących algorytmów

Kryterium FLORA AQ11-PM-WAH

typ danych nominalne nominalne i numeryczne problem klasyfikacji binarny wieloklasowy typ pamięci okno czasowe pamięć częściowa reprezentacja wiedzy ADES, NDES, PDES nieuporządkowana

dane testowe STAGGER

Kryterium FACIL VFDR

typ danych nominalne i numeryczne problem klasyfikacji wieloklasowy

typ pamięci pamięć częściowa brak

reprezentacja wiedzy nieuporządkowana nie- i uporządkowana

(16)

Motywacje

Eksperymenty związane z BWE i OBWE pokazały, że wprowadzenie elementu przyrostowości może poprawić trafność klasyfikacji.

Reguły decyzyjne mogą być łatwo dostosowane do zmian poprzez usunięcie lub modyfikację istniejących reguł. Poprzez pokrywanie fragmentów przestrzeni są bardziej elastyczne niż drzewa - nie ma konieczności przebudowy całego modelu.

Ponadto, w uczeniu przyrostowym, drzewo decyzyjne może wymagać większej liczby zmian.

(17)

Założenia 1

Nowy algorytm będzie przetwarzał strumienie danych, które zawierają atrybuty nominalne oraz numeryczne.

Nowy algorytm będzie rozwiązywał problemy wieloklasowe. Nowy algorytm będzie mógł działać samodzielnie oraz w połączeniu z klasyfikatorem złożonym OBWE.

(18)

Założenia 2

Wiedza klasyfikatora będzie reprezentowana w postaci nieuporządkowanego zbioru reguł decyzyjnych postaci: jeżeli atr-num w [d;g] oraz atr-nom = nominał to klasa. Z każdą regułą zapamiętywane są istotne statytstyki:

moment ostatniego użycia

liczba poprawnie sklasyfikowanych przykładów liczba niepoprawnie sklasyfikowanych przykładów

liczba pokrytych przykładów pozytywnych z okna czasowego liczba pokrytych przykładów negatywnych z okna czasowego

(19)

Założenia 3

Nowy algorytm powinien radzić sobie z dwoma głównymi typami zmian: nagłą i stopniową.

Nowy algorytm będzie ewaluowany samodzielnie na następujących miarach oceny: trafności klasyfikacji, czasie przetwarzania oraz zajętości pamięci - ma mieć sensowne wymagania wydajnościowe przy satysfakcjonującej trafności klasyfikacji.

(20)

Ogólny schemat działania algorytmu RILL

Dla każdego nowego przykładu możliwe są następujące sytuacje: sprawdzane są reguły wskazujące na klasę przykładu sprawdzane są reguły wskazujące na inną klasę decyzyjną jeśli przykład nie został pokryty przez żadną z reguł wskazujących na klasę przykładu, to sprawdzana jest możliwość generalizacji

jeśli przykład nie został pokryty przez żadną z reguł wskazujących na klasę przykładu oraz generalizacja nie powiodła się, to dodawany jest pełen opis przykładu jako nowa reguła decyzyjna

(21)

Generalizacja 1

Znajdź najbliższą regułę dla danego przykładu za pomocą miary odległości: odleglosc(x , y ) = v u u t m X a=1 d2 a(xa, ya) da=     

1 jeśli wartość jest nieznana 0 lub 1 dla nominalnego

(22)

Generalizacja 2

Wyszukaj wszystkie atrybuty, na których reguła nie jest dopasowana do przykładu uczącego i zmodyfikuj je wszystkie jednocześnie - możliwe akcje to: usunięcie atrybutu

nominalnego, rozszerzenie atrybutu numerycznego oraz usunięcie atrybutu numerycznego (aktualnie niedostępne). Oceń zmodyfikowaną regułę wykorzystując wybraną miarę oceny (połączenie zmiany wsparcia oraz ufności):

Ocena = |B

0_|

|B| ∗ (P(H|B

0_{) − P(H|B))}

Jeśli uogólniana reguła ma dodatnią wartość miary oceny, to zastąp starą najbliższą regułę jej zmodyfikowaną wersją.

(23)

Generalizacja 3

Zaktualizuj wszystkie statystyki nowo wstawionej reguły: moment ostatniego użycia

liczba poprawnie sklasyfikowanych przykładów liczba niepoprawnie sklasyfikowanych przykładów

liczba pokrytych przykładów pozytywnych z okna czasowego liczba pokrytych przykładów negatywnych z okna czasowego

(24)

Usuwanie reguł

Reguła jest usuwana, gdy:

jest stara - nie była używana przez zdefiniowany okres czasu (k ∗ okno, gdzie k-parametr)

czystość reguły spadła poniżej dopuszczalnego poziomu -minimalny próg czystości określany na podstawie przedziału ufności dla czystości reguł z klasy decyzyjnej wskazywanej przez daną regułę decyzyjną

żle klasyfikuje - trafność klasyfikacji spadła poniżej zdefiniowanego progu (aktualnie niedostępne)

(25)

Eksperymenty

Implementaje znanych przyrostowych algorytmów regułowych są niedostępne.

Przetestowano 4 różne klasyfikatory przyrostowe:

HoeffdingTree, NaiveBayes, HoeffdingTree z NaiveBayes oraz RILL.

Klasyfikatory zaimplementowane są w języku Java i włączone do środowiska Massive Online Analysis.

Mierzono następujące miary ewaluacji: trafność klasyfikacji, czas przetwarzania oraz rozmiar zbudowanego modelu wyrażone za pomocą użytego rozmiaru pamięci.

(26)

Zbiory danych

Zbiór danych Przykłady Atrybuty Klasy Typ zmiany

CovType 581012 54 7 nieznany Electricity 45312 8 2 nieznany Poker 829201 11 10 nieznany Hyperplane 100000 10 4 stopniowa RBFGradual 100000 20 4 stopniowa STAGGER 100000 3 2 nagła RBFSudden 100000 20 4 nagła RBFBlips 100000 20 4 blips RBFNoDrift 100000 10 2 N/A

(27)

(28)

(29)

(30)

(31)

(32)

(33)

Podsumowanie wyników dla trafności klasyfikacji

RILL całkiem dobrze radzi sobie z rzeczywistymi zbiorami danych. W 2/3 uzyskuje najwyższą trafność klasyfikacji. Dla zbioru RBF z nagłą zmianą RILL uzyskał najwyższą trafność klasyfikacji.

STAGGER jest trudnym zbiorem danych - zmiany są bardzo szybkie i żaden z testowanych klasyfikatorów nie dał dobrego wyniku.

Dla zbiorów z blipsami oraz bez zmian RILL uzyskał najwyższą trafność klasyfikacji.

RILL nie uzyskał satysfakcjonujących wyników na zbiorach danych ze stopniową zmianą.

(34)

(35)

(36)

Podsumowanie

Omówiono istniejące przyrostowe algorytmy indukcji reguł uczące się w zmiennych środowiskach: FLORA,

AQ11-PM-WAH, FACIL, VFDR.

Przedstawiono wstępną propozycję nowego algorytmu RILL oraz uzyskane wyniki eksperymentalne.

(37)

Dalsze prace

Analiza zachowania wstępnej propozycji RILL w szczególności dla zbiorów ze stopniową zmianą.

Poprawa zachowania RILL dla zbiorów ze stopniową zmianą. Znaczne zmniejszenie wymagań pamięciowych oraz czasowych algorytmu RILL.

Propozycja nowej miary oceny jakości generalizacji. Propozycja specjalizacji reguły.

Uwzględnienie jakości klasyfikacji reguły - przy generowaniu reguły oraz usuwaniu reguł.

(38)