• Nie Znaleziono Wyników

4.3 Porównanie klasykatorów BWE i OBWE

5.1.4 Procedura generalizacji reguª

Procedura ta jest stosowana po zebraniu pocz¡tkowego okna przykªadów ucz¡-cych, tj. po wygenerowaniu pocz¡tkowego zbioru reguª decyzyjnych. Próbuje ona uogólni¢ najlepsz¡ z istniej¡cych reguª pozytywnych tak, aby pokry¢ aktualnie przetwarzany przykªad ucz¡cy e zgodnie z Algorytmem 21.

Algorytm 21: Procedura generalizacji Wej±cie: eiaktualny przykªad ucz¡cy;

swokno przesuwne z ostatnimi przykªadami ucz¡cymi;

drozkªad klas przykªadów przechowywanych w oknie przesuwnym

Wyj±cie: generalizacjaaga wskazuj¡ca na powodzenie generalizacji

1 rn= znajd¹ reguª¦ najbli»sz¡ do przykªadu ei;

2 ru = uogólnij rn, aby pokry¢ ei;

3 if (rozmiar reguªy ru > 0) then

4 miaranajbli»szej = oblicz miar¦ generalizacji dla reguªy rn;

5 miarauogólnionej = oblicz miar¦ generalizacji dla reguªy ru;

6 if ((miarauogólnionej− miaranajbli»szej > 0) then

7 neg = znajd¹ najbli»szy negatywny przykªad ucz¡cy niepokryty przez reguª¦ ru;

8 if (neg 6= null) then

9 rr = rozszerz ru na atrybutach liczbowych do poªowy odlegªo±ci do przykªadu neg;

10 RSc← {RSc\ {rn}} ∪ {rr};

11 else

12 RSc← {RSc\ {rn}} ∪ {ru};

13 generalizacja = prawda;

14 Return generalizacja

Procedura generalizacji reguª dziaªa w nast¦puj¡cy sposób. W pierwszej ko-lejno±ci poszukiwana jest reguªa najbli»sza rn do aktualnie przetwarzanego przy-kªadu ucz¡cego ei (Algorytm 21, linia 1). Reguª¦ najbli»sz¡ stanowi reguªa, dla której odlegªo±¢ cz¦±ci warunkowej reguªy do opisu przykªadu ei obliczona za pomoc¡ zmodykowanej miary HOEM (ang. Heterogeneous Euclidean-Overlap Metric) [94] jest najmniejsza. Miara ta deniowana jest nast¦puj¡co:

odlegªo±¢(e,r) = X

Formuªa 5.1 wyra»a odlegªo±¢ pomi¦dzy przykªadem ucz¡cym oraz warunkow¡

cz¦±ci¡ reguªy jako sum¦ odlegªo±ci ka»dego z atrybutów wyst¦puj¡cych w wa-runkach elementarnych reguªy. W przypadku gdy warunek elementarny reguªy pokrywa warto±¢ przykªadu na tym atrybucie (warto±¢a), to odlegªo±¢ wynosi 0.

Je±li natomiast reguªa nie pokrywa warto±ci przykªadu na danym atrybucie, to odlegªo±¢ zale»y od typu tego atrybutu. Dla atrybutów nominalnych, odlegªo±¢

przyjmowana jest jako 1. Dla atrybutów liczbowych, odlegªo±¢ obliczana jest do najbli»szej granicy warunku elementarnego tego atrybutu.

Po znalezieniu reguªy najbli»szej rn, jej cz¦±¢ warunkowa jest uogólniona, aby pokry¢ ei (Algorytm 21, linia 2). Odbywa si¦ to poprzez pomini¦cie warun-ków elementarnych na atrybutach nominalnych lub rozszerzanie granic atrybutów liczbowych ((gd=warto±¢a) ∨ (gg =warto±¢a)), aby pokry¢ warto±¢ danego atry-butu warto±¢a przykªadu ei. Po utworzeniu ogólnej reguªy ru jej statystyki s¡

tak»e aktualizowane. Reguªa uogólniona ru nie mo»e mie¢ pustej cz¦±ci warun-kowej. W tym celu sprawdzana jest liczba pozostaªych warunków elementarnych reguªypatrz Algorytm21, linia 3). Aby zdecydowa¢, czy przeprowadzona gene-ralizacja reguªy jest atrakcyjna, zdecydowano si¦ na wykorzystanie miary oceny reguªy oraz porównanie warto±ci uzyskanej dla reguªy uogólnionej ru z warto±ci¡

miary oceny dla wcze±niejszej reguªy rn (Algorytm 21, linie 45). W

ogólno-±ci, mo»liwe jest zastosowanie wielu ró»nych miar oceny reguªyprzegl¡d takich propozycji mo»na przykªadowo znale¹¢ w [3, 40, 48]. W aktualnej wersji algo-rytmu RILL zdecydowano si¦ na miar¦ Klösgena [52]. Miara ta agreguje dwie znane miary oceny reguª: pokrycie oraz przyrost precyzji. Oryginalnie Klösgen rozwa»aª 4 ró»ne warianty kombinacji tych dwóch miar, które ró»ni¡ si¦ kom-promisem mi¦dzy warto±ci¡ pokrycia a przyrostem precyzji. Zgodnie z dyskusj¡

zaprezentowan¡ w rozdziale 7.5.2. ksi¡»ki [32], zdecydowano si¦ na u»ycie wa»o-nej relatywwa»o-nej trafno±ci klasykacji, któr¡ dostosowano do ±rodowiska strumieni danych poprzez obliczanie jej warto±ci na oknie przesuwnym. Miara oceny jako±ci

generalizacji deniowana jest nast¦puj¡co:

miara Klösgena = P okrycie ∗ P rzyrostP recyzji =

= (pozytywneP okrycie+negatywneP okrycie

|sw| )∗

( pozytywneP okrycie

pozytywneP okrycie+negatywneP okrycied(c)|sw|),

(5.2)

gdzie |sw| jest liczb¡ przykªadów w oknie przesuwnym sw, d(c) jest liczb¡ przykªa-dów w sw z etykiet¡ klasy c wskazywanej przez reguª¦, pozytywneP okrycie jest liczb¡ pokrytych przykªadów z okna sw o etykiecie klasy c, negatywneP okrycie jest liczb¡ pokrytych przykªadów z okna sw o etykiecie klasy innej ni» c.

We wcze±niejszych badaniach autorki [25] jako miar¦ oceny generalizacji roz-wa»ano tak»e zwykªy przyrost precyzji, a tak»e inne kombinacje miar jednak dla miary Klösgena uzyskiwano najlepsze rezultaty. Dodatkowo motywacj¡ do wy-boru takiej kombinacji miar jest fakt, i» preferuje ona reguªy, które pokrywaj¡

du»o przykªadów, lecz dodatkowo musz¡ one by¢ tak»e stosunkowo czyste (ich precyzja jest wy»sza ni» rozkªad klas przykªadów ucz¡cych przechowywanych w oknie przesuwnym).

Je±li ró»nica pomi¦dzy warto±ciami miary oceny generalizacji uzyskanymi dla reguª ru oraz rn jest wi¦ksza od 0 (Algorytm 21, linia 6), to dalej poszukiwany jest najbli»szy przykªad negatywny neg niepokryty przez reguª¦ ru (Algorytm21, linia 7). Motywacj¡ do tego jest utworzenie jeszcze bardziej ogólnej reguªy de-cyzyjnej. Takie podej±cie byªo stosowane wcze±niej w algorytmie BRACID [70].

Je±li przykªad neg istnieje, to reguªa ru jest rozszerzana na atrybutach liczbowych do poªowy odlegªo±ci do przykªadu neg, a nast¦pnie tak wyindukowana reguªa rr zast¦puje star¡ reguª¦ rn w aktualnym zbiorze reguª RS (Algorytm 21, linie 8

10). W przeciwnym razie, gdy przykªad neg nie zostaª odnaleziony, to reguªa ru jest dodawana do aktualnego zbioru reguª RS w miejsce reguªy rn (Algorytm21, linia 12). W takiej sytuacji dalsza generalizacja reguªy ru nie jest wykonywana, aby nie rozszerzy¢ tej reguªy za bardzo. Mogªoby si¦ bowiem zdarzy¢, »e za chwil¦

pojawi si¦ przykªad negatywny pokrywany przez zbyt ogóln¡ reguª¦ i warto±¢ jej miary ufno±ci zostanie obni»ona.