Wyznaczanie ci¦¢ werykuj¡cych

W dokumencie Metody stosowania wiedzy dziedzinowej do poprawiania jakości klasyfikatorów (Stron 89-95)

Metoda III: Ci¦cia werykuj¡ce jako realizacja idei ekspertów

6.1 Wyznaczanie ci¦¢ werykuj¡cych

Dla przybli»enia idei werykacji podziaªów w w¦¹le drzewa przez inne podziaªy zostanie wyja±nione i zilustrowane poj¦cie jednoczesnego rozró»niania obiektów przez dwa ci¦cia. Para obiektów (u1, u2) ∈ U × U jest rozró»niana jednocze±nie przez ci¦cie c1 i c2 deniuj¡ce wzorce T 1 oraz T 2 odpowiednio, je»eli u1 pasuje do

wzorca T 1 oraz T 2, natomiast u2 nie pasuje ani do T 1 ani do T 2, lub odwrotnie, u2 pasuje do wzorca T 1 oraz T 2, a u1 nie. Na przykªad, para (o2, x4)z Rys. 6.1 jest rozró»niana jednocze±nie przez c1 = (a, v)oraz c2 = (b, t), natomiast pary (x1, o2) i (x3, x5) nie s¡ rozró»niane jednocze±nie przez ci¦cia c1 oraz c2.

Przez Disc(c1, c2) oznaczana b¦dzie liczba par obiektów z ró»nych klas de-cyzyjnych (dla danej tablicy decyzyjnej) rozró»nianych jednocze±nie przez ci¦cia c1 oraz c2. Celem przedstawienia sposobu wyliczania warto±ci Disc(c1, c2)

rozwa-»ony zostanie zbiór obiektów z Rys. 6.1. Wzorzec T (c1) zdeniowany przez ci¦cie c1 = (a, v)dzieli obiekty na podzbiory: {x1, x2, x3, o1, o2} oraz {x4, x5, o3, o4, o5, o6}.

Natomiast wzorzec T (c2) zdeniowany przez ci¦cie c2 = (b, t) dzieli zbiór obiek-tów na: {x1, x2, x4, o1, o3, o4} oraz {x3, x5, o2, o5, o6}. Celem wyliczenia warto±ci Disc(c1, c2), nale»y sprawdzi¢, czy wzorce T 1 i T 2 s¡ wzorcami prawymi czy le-wymi. Zakªadaj¡c, »e T (c1) = T L(c1)oraz T (c2) = T L(c2), czyli obydwa wzorce s¡

wzorcami lewymi, liczba obiektów pasuj¡cych jednocze±nie do wzorca T (c1)i T (c2) wynosi 2 i s¡ to obiekty: x3, o2 (jeden obiekt z klasy X i jeden z klasy O). Na-tomiast liczba obiektów niepasuj¡cych jednocze±nie do wzorca T (c1) ani do T (c2) wynosi 3 i s¡ to obiekty: x4, o3, o4 (jeden obiekt z klasy X i dwa z klasy O). Zatem liczba par obiektów z ró»nych klas decyzyjnych rozró»nianych jednocze±nie przez ci¦cie c1 oraz c2 jest dana wzorem: Disc(c1, c2) = 1· 2 + 1 · 1 = 3.

W przypadku natomiast, gdy np.: T (c1) = T L(c1), a T (c2) = T R(c2)(pierwszy wzorzec jest lewy, a drugi prawy), liczba obiektów pasuj¡cych jednocze±nie do wzorca T (c1) i T (c2) wynosi 3 i s¡ to obiekty: x1, x2, o1 (dwa obiekty z klasy X i jeden z klasy O). Z kolei liczba obiektów niepasuj¡cych jednocze±nie do wzorca T (c1) ani T (c2) wynosi 3 i s¡ to obiekty: x5, o5, o6 (jeden obiekt z klasy X i dwa z klasy O). Zatem liczba par obiektów z ró»nych klas decyzyjnych rozró»nianych jednocze±nie przez ci¦cie c1 oraz c2 wynosi teraz: Disc(c1, c2) = 2· 2 + 1 · 1 = 5.

Jest wi¦c ró»na od poprzedniego przypadku, gdy obydwa wzorce byªy uznane za lewe.

Rysunek 6.1: Wizualizacja ci¦¢ w przestrzeni dwuwymiarowej.

Podczas konstrukcji drzew z ci¦ciami werykuj¡cymi, dodatkowe ci¦cia s¡ wy-znaczane na podstawie wybranej miary jako±ci (porównaj Sekcja 3.1.2, s. 55) [50].

Algorytm 6.1.1 wyznacza ci¦cia werykuj¡ce u»ywaj¡c trzech zaprezentowanych miar jako±ci dla wyznaczonego wcze±niej ci¦cia optymalnego p = (b, w), przy

zaªo-»eniu, »e ci¦cia werykuj¡ce s¡ wyznaczane na atrybutach numerycznych innych ni» b. Dla uªatwienia rozwa»a« zaªó»my, »e w danych s¡ tylko dwie klasy decyzyjne C0i C1. Podej±cie mo»na oczywi±cie ªatwo uogólni¢ na przypadek wi¦cej ni» dwóch klas decyzyjnych.

Algorytm 6.1.1: Wyznaczanie ci¦¢ werykuj¡cych na atrybutach numerycz-nych

WEJ‘CIE: Tablica decyzyjna A = (U, A ∪ {d}) z klasami decyzyjnymi C0

i C1, ci¦cie p = (b, w), parametr t lub tw (zale»nie od przyj¦tej miary; porównaj wzory 6.1-6.3)

WYJ‘CIE: Kolekcja ci¦¢ werykuj¡cych dla ci¦cia p z wyselekcjonowaniem dla ka»dego ci¦cia werykuj¡cego c = (a, v) wªa±ciwego

prawego lub lewego wzorca T L(c) lub T R(c) begin

dla ka»dego atrybutu a ∈ A, takiego »e a ̸= b wykonaj

1 Posortuj warto±ci atrybutu a, je±li jest atrybutem o warto±ciach co najmniej ze skali porz¡dkowej

2 Przegl¡daj¡c warto±ci atrybutu a wyznacz dla ka»dego

pojawiaj¡cego si¦ ci¦cia c nast¦puj¡ce liczby oraz umie±¢ je w pami¦ci o ci¦ciach M:

VL(a, c, C0) - liczba obiektów klasy decyzyjnej C0 o warto±ciach atrybutu a mniejszych od v,

VL(a, c, C1) - liczba obiektów klasy decyzyjnej C1 o warto±ciach atrybutu a mniejszych od v,

L(a, c, C0)- liczba obiektów klasy decyzyjnej C0 o warto±ciach atrybutu a mniejszych od v i jednocze±nie pasuj¡cych do wzorca Tp

L(a, c, C1)- liczba obiektów klasy decyzyjnej C1 o warto±ciach atrybutu a mniejszych od v i jednocze±nie pasuj¡cych do wzorca Tp.

VH(a, c, C0) - liczba obiektów klasy decyzyjnej C0 o warto±ciach atrybutu a wi¦kszych lub równych v,

VH(a, c, C1) - liczba obiektów klasy decyzyjnej C1 o warto±ciach atrybutu a wi¦kszych lub równych v,

H(a, c, C0)- liczba obiektów klasy decyzyjnej C0 o warto±ciach atrybutu a wi¦kszych lub równych v i jednocze±nie

pasuj¡cych do wzorca ¬Tp,

H(a, c, C1)- liczba obiektów klasy decyzyjnej C1 o warto±ciach atrybutu a wi¦kszych lub równych v i jednocze±nie

pasuj¡cych do wzorca ¬Tp.

3 Przegl¡daj¡c pami¦¢ M wyznacz jako±ci zapami¦tanych ci¦¢

w sposób odpowiedni dla wybranej miary jako±ci:

Algorytm 6.1.1: Wyznaczanie ci¦¢ werykuj¡cych na atrybutach numerycz-nych - cd.

:

3 DiscPairs:

1. Wyznacz liczb¦ par obiektów rozró»nianych jednocze±nie przez c i p:

Disc(p, c) = max{QL(c), QR(c)}, gdzie:

2. Wylicz jako±¢ ci¦cia dla a na podstawie wzoru 6.1.

3. Wyznacz najlepsze ci¦cie, takie »e warto±¢ QVDisc(p, c) jest najwi¦ksza i wi¦ksza od 0.

Entropia:

1. Wyznacz moc zbioru W: |W | = min{|WL|, |WR|}, gdzie:

|WL| = L(a, c, C0) + L(a, c, C1) + H(a, c, C0) + H(a, c, C1),

|WR| = |A| − |WL|

oraz przypisz T (c) = T L(c), je»eli |WL| > |WR|, wpw T (c) = T R(c).

2. Wyznacz nast¦puj¡ce moce uniwersów podtablic tablicy A okre±lonych przez ci¦cie c:

|A(Tc)| = VL(a, c, C0) + VL(a, c, C1),

|A(¬Tc)| = VH(a, c, C0) + VH(a, c, C1). 3. Wylicz jako±¢ ci¦cia c wg wzoru 6.2.

4. Wyznacz najlepsze ci¦cie wedªug miary QVEntropy(p, c). Gini:

1. Wyznacz moc zbioru W: |W | = min{|WL|, |WR|}, gdzie:

|WL| = L(a, c, C0) + L(a, c, C1) + H(a, c, C0) + H(a, c, C1),

|WR| = |A| − |WL|

oraz przypisz T (c) = T L(c), je»eli |WL| > |WR|, wpw T (c) = T R(c).

2. Wyznacz nast¦puj¡ce moce uniwersów podtablic tablicy A okre±lonych przez ci¦cie c:

|A(Tc)| = VL(a, c, C0) + VL(a, c, C1),

|A(¬Tc)| = VH(a, c, C0) + VH(a, c, C1). 3. Wylicz jako±¢ ci¦cia c wg wzoru 6.3.

4. Wyznacz najlepsze ci¦cie wedªug miary QVGini(p, c). endfch

end

Opis algorytmu: W kroku pierwszym warto±ci atrybutu a, dla którego poszuki-wane s¡ ci¦cia werykuj¡ce, s¡ sortoposzuki-wane. Drugi krok, dla kolejnych potencjalnych ci¦¢ c = (a, v) przy ustalonym ci¦ciu gªównym p = (b, w) na atrybucie b wyznacza liczebno±¢ nast¦puj¡cych grup obiektów: {u ∈ U : a(u) < v ∧ dec(u) = C0}, {u ∈ U : a(u) < v∧ dec(u) = C1}, {u ∈ U : a(u) < v ∧ (u pasuje do Tp)∧ dec(u) = C0}, {u ∈ U : a(u) < v ∧ (u pasuje do Tp)∧ dec(u) = C1}, {u ∈ U : a(u) ≥ v ∧ dec(u) = C0}, {u ∈ U : a(u) ≥ v ∧ dec(u) = C1}, {u ∈ U : a(u) ≥ v ∧ (u pasuje do ¬Tp) dec(u) = C0}, {u ∈ U : a(u) ≥ v ∧ (u pasuje do ¬Tp)∧ dec(u) = C1}. Nast¦p-nie, w kroku trzecim wyliczana jest jako±¢ wszystkich potencjalnych ci¦¢

wery-kuj¡cych i na tej podstawie wybierane s¡ najlepsze, speªniaj¡ce warunek po-siadania odpowiednio dobrej jako±ci, zale»nie od ustawie« parametrów. W przy-padku miary DiscPairs, jako±¢ ci¦cia werykuj¡cego musi wynosi¢ co najmniej t procent jako±ci ci¦cia gªównego. Jako±¢ ci¦cia werykuj¡cego c jest deniowana jako liczba par obiektów z ró»nych klas decyzyjnych rozró»nianych jednocze±nie przez ci¦cie gªówne i werykuj¡ce, a wi¦c mi¦dzy nast¦puj¡cymi dwiema grupami obiektów: mi¦dzy {u ∈ U : a(u) < v ∧ (u pasuje do Tp)} a {u ∈ U : a(u) ≥ v ∧ (u pasuje do ¬Tp)} lub mi¦dzy {u ∈ U : a(u) < v ∧ (u pasuje do ¬Tp)} a {u ∈ U : a(u) ≥ v ∧ (u pasuje do Tp)}. Wi¦ksza z tych dwóch warto±ci sta-nowi o jako±ci ci¦cia werykuj¡cego. Je»eli wi¦ksza liczba obiektów z ró»nych klas jest rozró»niania w pierwszej parze grup obiektów, wówczas do wzorca ci¦cia we-rykuj¡cego T (c) przypisywany jest lewy wzorzec, inaczej wzorzec prawy. Dla po-zostaªych miar, wybierane s¡ ci¦cia o najmniejszej ró»nicy wa»onych sum entropii czy wspóªczynników Giniego mi¦dzy zbiorami wyznaczonymi przez ci¦cia p oraz c. Odrzucane s¡ natomiast ci¦cia, dla których liczebno±¢ zbioru W jest zbyt du»a (jej odsetek w caªym zbiorze A jest wi¦kszy od tw). Wielko±¢ tego zbioru wska-zuje bowiem na odmienny podziaª obiektów w¦zªa przez obydwa ci¦cia: gªówne i werykuj¡ce.

Zakªadaj¡c, »e pami¦¢ M dotycz¡ca ci¦¢ i ich parametrów jest pami¦ci¡ o do-st¦pie w czasie staªym, Algorytm 6.1.1 dziaªa w czasie O(m · n · log n) (ze wzgl¦du na sortowanie obiektów wzgl¦dem warto±ci atrybutu a), gdzie m jest liczb¡ atry-butów, n jest liczb¡ obiektów.

Do ustalonego ci¦cia gªównego mo»e by¢ te» dobrane ci¦cie werykuj¡ce na atrybucie symbolicznym. Algorytm wyszukuj¡cy takie ci¦cie dla ustalonego atry-butu polegaªby na przegl¡daniu wszystkich warto±ci tego atryatry-butu i ustaleniu ka»-dej z tych warto±ci jako ci¦cia werykuj¡cego. Dla ka»dego takiego ci¦cia nale»a-ªoby przegl¡da¢ warto±ci atrybutu wszystkich obiektów celem wyznaczenia jako±ci ci¦cia. Zªo»ono±¢ takiego wyznaczania ci¦cia werykuj¡cego byªaby zale»na jedynie od iloczynu liczby warto±ci tego atrybutu i liczby wszystkich obiektów.

6.2 Konstruowanie drzewa decyzyjnego z ci¦ciami

W dokumencie Metody stosowania wiedzy dziedzinowej do poprawiania jakości klasyfikatorów (Stron 89-95)