4.3 Porównanie klasykatorów BWE i OBWE
5.1.4 Procedura generalizacji reguª
Procedura ta jest stosowana po zebraniu pocz¡tkowego okna przykªadów ucz¡-cych, tj. po wygenerowaniu pocz¡tkowego zbioru reguª decyzyjnych. Próbuje ona uogólni¢ najlepsz¡ z istniej¡cych reguª pozytywnych tak, aby pokry¢ aktualnie przetwarzany przykªad ucz¡cy e zgodnie z Algorytmem 21.
Algorytm 21: Procedura generalizacji Wej±cie: eiaktualny przykªad ucz¡cy;
swokno przesuwne z ostatnimi przykªadami ucz¡cymi;
drozkªad klas przykªadów przechowywanych w oknie przesuwnym
Wyj±cie: generalizacjaaga wskazuj¡ca na powodzenie generalizacji
1 rn= znajd¹ reguª¦ najbli»sz¡ do przykªadu ei;
2 ru = uogólnij rn, aby pokry¢ ei;
3 if (rozmiar reguªy ru > 0) then
4 miaranajbli»szej = oblicz miar¦ generalizacji dla reguªy rn;
5 miarauogólnionej = oblicz miar¦ generalizacji dla reguªy ru;
6 if ((miarauogólnionej− miaranajbli»szej > 0) then
7 neg = znajd¹ najbli»szy negatywny przykªad ucz¡cy niepokryty przez reguª¦ ru;
8 if (neg 6= null) then
9 rr = rozszerz ru na atrybutach liczbowych do poªowy odlegªo±ci do przykªadu neg;
10 RSc← {RSc\ {rn}} ∪ {rr};
11 else
12 RSc← {RSc\ {rn}} ∪ {ru};
13 generalizacja = prawda;
14 Return generalizacja
Procedura generalizacji reguª dziaªa w nast¦puj¡cy sposób. W pierwszej ko-lejno±ci poszukiwana jest reguªa najbli»sza rn do aktualnie przetwarzanego przy-kªadu ucz¡cego ei (Algorytm 21, linia 1). Reguª¦ najbli»sz¡ stanowi reguªa, dla której odlegªo±¢ cz¦±ci warunkowej reguªy do opisu przykªadu ei obliczona za pomoc¡ zmodykowanej miary HOEM (ang. Heterogeneous Euclidean-Overlap Metric) [94] jest najmniejsza. Miara ta deniowana jest nast¦puj¡co:
odlegªo±¢(e,r) = X
Formuªa 5.1 wyra»a odlegªo±¢ pomi¦dzy przykªadem ucz¡cym oraz warunkow¡
cz¦±ci¡ reguªy jako sum¦ odlegªo±ci ka»dego z atrybutów wyst¦puj¡cych w wa-runkach elementarnych reguªy. W przypadku gdy warunek elementarny reguªy pokrywa warto±¢ przykªadu na tym atrybucie (warto±¢a), to odlegªo±¢ wynosi 0.
Je±li natomiast reguªa nie pokrywa warto±ci przykªadu na danym atrybucie, to odlegªo±¢ zale»y od typu tego atrybutu. Dla atrybutów nominalnych, odlegªo±¢
przyjmowana jest jako 1. Dla atrybutów liczbowych, odlegªo±¢ obliczana jest do najbli»szej granicy warunku elementarnego tego atrybutu.
Po znalezieniu reguªy najbli»szej rn, jej cz¦±¢ warunkowa jest uogólniona, aby pokry¢ ei (Algorytm 21, linia 2). Odbywa si¦ to poprzez pomini¦cie warun-ków elementarnych na atrybutach nominalnych lub rozszerzanie granic atrybutów liczbowych ((gd=warto±¢a) ∨ (gg =warto±¢a)), aby pokry¢ warto±¢ danego atry-butu warto±¢a przykªadu ei. Po utworzeniu ogólnej reguªy ru jej statystyki s¡
tak»e aktualizowane. Reguªa uogólniona ru nie mo»e mie¢ pustej cz¦±ci warun-kowej. W tym celu sprawdzana jest liczba pozostaªych warunków elementarnych reguªypatrz Algorytm21, linia 3). Aby zdecydowa¢, czy przeprowadzona gene-ralizacja reguªy jest atrakcyjna, zdecydowano si¦ na wykorzystanie miary oceny reguªy oraz porównanie warto±ci uzyskanej dla reguªy uogólnionej ru z warto±ci¡
miary oceny dla wcze±niejszej reguªy rn (Algorytm 21, linie 45). W
ogólno-±ci, mo»liwe jest zastosowanie wielu ró»nych miar oceny reguªyprzegl¡d takich propozycji mo»na przykªadowo znale¹¢ w [3, 40, 48]. W aktualnej wersji algo-rytmu RILL zdecydowano si¦ na miar¦ Klösgena [52]. Miara ta agreguje dwie znane miary oceny reguª: pokrycie oraz przyrost precyzji. Oryginalnie Klösgen rozwa»aª 4 ró»ne warianty kombinacji tych dwóch miar, które ró»ni¡ si¦ kom-promisem mi¦dzy warto±ci¡ pokrycia a przyrostem precyzji. Zgodnie z dyskusj¡
zaprezentowan¡ w rozdziale 7.5.2. ksi¡»ki [32], zdecydowano si¦ na u»ycie wa»o-nej relatywwa»o-nej trafno±ci klasykacji, któr¡ dostosowano do ±rodowiska strumieni danych poprzez obliczanie jej warto±ci na oknie przesuwnym. Miara oceny jako±ci
generalizacji deniowana jest nast¦puj¡co:
miara Klösgena = P okrycie ∗ P rzyrostP recyzji =
= (pozytywneP okrycie+negatywneP okrycie
|sw| )∗
( pozytywneP okrycie
pozytywneP okrycie+negatywneP okrycie− d(c)|sw|),
(5.2)
gdzie |sw| jest liczb¡ przykªadów w oknie przesuwnym sw, d(c) jest liczb¡ przykªa-dów w sw z etykiet¡ klasy c wskazywanej przez reguª¦, pozytywneP okrycie jest liczb¡ pokrytych przykªadów z okna sw o etykiecie klasy c, negatywneP okrycie jest liczb¡ pokrytych przykªadów z okna sw o etykiecie klasy innej ni» c.
We wcze±niejszych badaniach autorki [25] jako miar¦ oceny generalizacji roz-wa»ano tak»e zwykªy przyrost precyzji, a tak»e inne kombinacje miar jednak dla miary Klösgena uzyskiwano najlepsze rezultaty. Dodatkowo motywacj¡ do wy-boru takiej kombinacji miar jest fakt, i» preferuje ona reguªy, które pokrywaj¡
du»o przykªadów, lecz dodatkowo musz¡ one by¢ tak»e stosunkowo czyste (ich precyzja jest wy»sza ni» rozkªad klas przykªadów ucz¡cych przechowywanych w oknie przesuwnym).
Je±li ró»nica pomi¦dzy warto±ciami miary oceny generalizacji uzyskanymi dla reguª ru oraz rn jest wi¦ksza od 0 (Algorytm 21, linia 6), to dalej poszukiwany jest najbli»szy przykªad negatywny neg niepokryty przez reguª¦ ru (Algorytm21, linia 7). Motywacj¡ do tego jest utworzenie jeszcze bardziej ogólnej reguªy de-cyzyjnej. Takie podej±cie byªo stosowane wcze±niej w algorytmie BRACID [70].
Je±li przykªad neg istnieje, to reguªa ru jest rozszerzana na atrybutach liczbowych do poªowy odlegªo±ci do przykªadu neg, a nast¦pnie tak wyindukowana reguªa rr zast¦puje star¡ reguª¦ rn w aktualnym zbiorze reguª RS (Algorytm 21, linie 8
10). W przeciwnym razie, gdy przykªad neg nie zostaª odnaleziony, to reguªa ru jest dodawana do aktualnego zbioru reguª RS w miejsce reguªy rn (Algorytm21, linia 12). W takiej sytuacji dalsza generalizacja reguªy ru nie jest wykonywana, aby nie rozszerzy¢ tej reguªy za bardzo. Mogªoby si¦ bowiem zdarzy¢, »e za chwil¦
pojawi si¦ przykªad negatywny pokrywany przez zbyt ogóln¡ reguª¦ i warto±¢ jej miary ufno±ci zostanie obni»ona.