Konstruowanie drzewa decyzyjnego z ci¦ciami werykuj¡cymiwerykuj¡cymi

W dokumencie Metody stosowania wiedzy dziedzinowej do poprawiania jakości klasyfikatorów (Stron 95-98)

Metoda III: Ci¦cia werykuj¡ce jako realizacja idei ekspertów

6.2 Konstruowanie drzewa decyzyjnego z ci¦ciami werykuj¡cymiwerykuj¡cymi

W rozdziale przedstawiono algorytm tworzenia drzewa decyzyjnego, który forma-lizuje powy»sze rozwa»ania (Algorytm 6.2.1). Ze wzgl¦du na to, »e algorytm ten wykorzystuje podziaªy werykuj¡ce, drzewo decyzyjne, które utworzy ten algorytm b¦dzie nazywane drzewem decyzyjnym lub drzewem. Opisywane w pracy V-drzewa decyzyjne s¡ dychotomiczne ze wzgl¦du na ka»dy podziaª (optymalny i we-rykuj¡ce) stosowany przy ich budowie. Klasykator skonstruowany za pomoc¡

V-drzewa b¦dzie nazywany VTree klasykatorem.

W ka»dym w¦¹le drzewa (który nie jest li±ciem), po wyznaczeniu optymalnego podziaªu zbioru obiektów wybierana jest rodzina podziaªów podobnych do opty-malnego, a przy tym wykorzystuj¡ca inne atrybuty. Oczywi±cie poj¦cie podobie«-stwa zale»y od miary, która jest zastosowana do okre±lenia najlepszego podziaªu.

W przypadku miary DiscPairs podobie«stwo oznacza odró»nianie par obiektów z ró»nych klas decyzyjnych jak najbardziej zbli»onych do par odró»nianych przez optymalny podziaª [12, 11]. Natomiast w przypadku miar tworzonych na podsta-wie zysku informacji czy indeksu Giniego, podziaªy werykuj¡ce powinny dzieli¢

zbiór obiektów w mo»liwie podobny sposób jak gªówny (optymalny) podziaª.

Na wej±ciu Algorytmu 6.2.1 nale»y poda¢ tablic¦ decyzyjn¡ A = (U, A ∪ {d}) oraz parametr k nale»¡cy do liczb naturalnych oznaczaj¡cy maksymaln¡ liczb¦

podziaªów werykuj¡cych oraz próg t deniuj¡cy minimalny wymóg stawiany ka»-demu podziaªowi werykuj¡cemu. Wspomniany w powy»szym algorytmie warunek stopu jest taki sam, jak w algorytmie omawianym w Rozdziale 3.1.3.

Do wyznaczania V-drzewa zastosowano trzy miary opisane w Rozdziale 3.1.2:

miar¦ opart¡ na liczbie rozró»nianych par obiektów (DiscPairs), zysk informacji oraz indeks Giniego. W zale»no±ci od zastosowanej miary, optymalizowane s¡ na-st¦puj¡ce kryteria:

• DiscPairs (kryterium jest maksymalizowane):

QVDisc(p, pi) =

{0 dla Disc(p,pDisc(p)i) ≤ t

Disc(p,pi)

Disc(p) w przeciwnym wypadku (6.1) gdzie p jest ci¦ciem optymalnym, Disc(p) oznacza liczb¦ par obiektów z ró»-nych klas decyzyjró»-nych rozró»niaró»-nych przez ci¦cie p, natomiast Disc(p, pi) liczb¦ par obiektów z ró»nych klas decyzyjnych rozró»nianych jednocze±nie przez ci¦cie p jak i pi (dla i = 1, ..., k). W przeprowadzonych eksperymentach dotycz¡cych omawianej metody warto±¢ progu t ustawiono na 0.9.

• Miara oparta na entropii (kryterium jest minimalizowane): gdzie | . | oznacza warto±¢ bezwzgl¦dn¡ oraz

 W jest zbiorem obiektów, które nie pasuj¡ do wzorców Tp i Tpi jedno-cze±nie, jak równie» wzorców ¬Tp oraz ¬Tpi (dla i = 1, . . . , k),

 tw jest ustalonym progiem (tw wynosiª 0.1 oraz 0.05 w eksperymentach dla danych mikromacierzowych i pozostaªych, odpowiednio),

 ES(

• Miara oparta na indeksie Giniego (kryterium jest minimalizowane):

QVGini(p, pi) =

 tw jest ustalonym progiem (tw wynosiª 0.1 oraz 0.05 w eksperymentach dla danych mikromacierzowych i pozostaªych, odpowiednio),

 GS(

jest wa»on¡ sum¡ wspóªczynników Giniego ci¦cia p oraz pi, odpowiednio (q ∈ {p, p1, . . . , pk}).

Algorytm 6.2.1: Konstruowanie V-drzewa decyzyjnego

WEJ‘CIE: Tablica decyzyjna A = (U, A ∪ {d}), parametr k nale»¡cy do liczb naturalnych

WYJ‘CIE: V-drzewo decyzyjne wyznaczone dla tablicy A begin

1 Znajd¹ optymalne ci¦cie p w tablicy A i przypisz do wzorca Tp = T L(p) oraz ¬Tp = T R(p)

2 Znajd¹ kolekcj¦ binarnych ci¦¢ p1, . . . , pk w tablicy A, werykuj¡cych ci¦cie p, najlepszych w sensie wybranej miary jako±ci (wg procedury Algorytm 6.1.1, str. 92) oraz kolekcj¦ wzorców V T C(T ) = {T } ∪ {T1, ..., Tk} zwi¡zanych z ci¦ciami werykuj¡cymi (je»eli liczba wszystkich wzorców dla danego T jest mniejsza ni» k, zbiór mo»e by¢ mniejszy, ale niepusty, poniewa» T zawsze do niego nale»y)

3 Podziel tablic¦ A na dwie tablice A(Tp) i A(¬Tp)

4 Przypisz Al= A(Tp)oraz Ar= A(¬Tp)

5 Wyznacz wszystkie obiekty z tablicy A, które pasuj¡ do wzorca Tp i nie pasuj¡ do wzorca Tpi (dla i ∈ {1, ..., k}) lub pasuj¡ do wzorca ¬Tp i nie pasuj¡ do wzorca ¬Tpi (dla i ∈ {1, ..., k}) i doª¡cz te obiekty zarówno do tablicy Al jak i Ar (je±li jeszcze ich tam nie ma)

6 je»eli tablice Al i Ar speªniaj¡ warunki stopu to zako«cz tworzenie drzewa

inaczej

powtarzaj kroki 1-6 dla wszystkich tablic nie speªniaj¡cych warunku stopu

end end

Opis: Algorytm rozpoczyna dziaªanie w w¦¹le zawieraj¡cym obiekty wej±ciowej tablicy decyzyjnej. W kroku pierwszym wyznaczany jest najlepszy podziaª w¦zªa okre±lony przez ci¦cie p w sensie przyj¦tej miary jako±ci podziaªu (liczba par obiek-tów nale»¡cych do ró»nych klas decyzyjnych rozró»nianych przez ci¦cie, zysk in-formacji lub indeks Giniego, wyliczane wedªug wzorów podanych w Rozdz. 3.1.2).

Ci¦cie gªówne p = (b, t) deniuje w w¦¹le dwa wzorce Tp i ¬Tp. Do Tp przypi-sywany jest wzorzec lewy (T L(p) = {u ∈ U : b(u) < t} dla atrybutu nume-rycznego i T L(p) = {u ∈ U : b(u) = t} dla symbolicznego), natomiast do ¬Tp

wzorzec prawy (T R(p) = {u ∈ U : b(u) ≥ t} i T R(p) = {u ∈ U : b(u) ̸= t}

odpowiednio). W kroku drugim, przy ustalonym ci¦ciu gªównym p wyliczonym w kroku pierwszym, wyznaczane s¡ odpowiednio dobre ci¦cia werykuj¡ce to ci¦-cie, wedªug Algorytmu 6.1.1. Kolejny, trzeci krok polega na podzieleniu obiek-tów w¦zªa na dwie cz¦±ci, przy czym do pierwszej cz¦±ci traaj¡ obiekty pasuj¡ce do wzorca Tp (a wi¦c speªniaj¡ce warunek b(u) < t), do prawej za± - pasuj¡ce

do ¬Tp (speªniaj¡ce warunek b(u) ≥ t). Obiekty pierwszej cz¦±ci przypisywane s¡ w kroku czwartym do lewego poddrzewa, natomiast z drugiej cz¦±ci do pra-wego poddrzewa. W kroku pi¡tym, zarówno do lepra-wego jak i do prapra-wego pod-drzewa, dodawane s¡ obiekty, które pasuj¡ do cz¦±ci wzorców w¦zªa a nie pasuj¡

do reszty wzorców, o ile jeszcze ich tam nie ma. Je»eli np. do ci¦cia werykuj¡cego pi = (a, v) okre±lonego na atrybucie numerycznym zostaª przypisany w Algoryt-mie 6.1.1 wzorzec lewy, wówczas dodawanymi obiektami b¦d¡ te, które speªniaj¡

warunek {(b(u) < t ∧ a(u) ≥ v) ∨ (b(u) ≥ t ∧ a(u) < v)}. Natomiast je»eli do ci¦cia pi przypisany zostaª wzorzec prawy, wówczas dodawane b¦d¡ obiekty, które speªniaj¡ warunek: {(b(u) < t ∧ a(u) < v) ∨ (b(u) ≥ t ∧ a(u) ≥ v)}. Krok szósty sprawdza, czy lewe jak i prawe poddrzewo speªnia warunek zatrzymania podziaªu, którym mo»e by¢ obecno±¢ w w¦¹le obiektów nale»¡cych tylko do jednej klasy.

Je-»eli tak, budowa drzewa ko«czy si¦, w przeciwnym wypadku algorytm rozpoczyna prac¦ od pocz¡tku, przy czym dane poddrzewo traktowane jest teraz jako tablica wej±ciowa.

Zauwa»my, »e jedynym elementem powy»szego algorytmu, który mógªby pod-wy»szy¢ rz¡d zªo»ono±ci czasowej w stosunku do klasycznego algorytmu z Roz-dziaªu 3.1 jest krok 2, w którym wyszukiwana jest kolekcja k binarnych podziaªów werykuj¡cych podziaª p. Jak zostanie pokazane, krok ten daje si¦ zrealizowa¢

w czasie rz¦du O(n · log n · m), gdzie n jest liczb¡ obiektów, m liczb¡ atrybutów warunkowych, a zatem nie powoduje zwi¦kszenia zªo»ono±ci czasowej algorytmu w stosunku do algorytmu z Rozdziaªu 3.1.

Šatwo zauwa»y¢, »e dla atrybutów symbolicznych, które zwykle maj¡ maªo warto±ci, wyznaczenie najlepszego podziaªu werykuj¡cego mo»e by¢ wykonane w czasie O(n · l), gdzie l jest liczb¡ warto±ci danego atrybutu symbolicznego.

Klasykator skonstruowany za pomoc¡ V-drzewa decyzyjnego b¦dzie nazywany VTree klasykatorem. W zale»no±ci od przyj¦tej miary jako±ci podziaªów (QVDisc, QVEntropy, QVGini wyszczególnia si¦ takie jego rodzaje jak: Disc, VTree-Entropy, VTree-Gini.

W dokumencie Metody stosowania wiedzy dziedzinowej do poprawiania jakości klasyfikatorów (Stron 95-98)