slajdy w PDF

(1)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Wyk lad 6: Drzewa decyzyjne

(2)

Data mining

Nguyen Hung Son

Outline

1 _Wprowadzenie Definicje Funkcje testu Optymalne drzewo

2 Konstrukcja drzew decyzyjnych Og´olny schemat

Kryterium wyboru testu Przycinanie drzew

Problem brakujacych warto´sci_, 3 Soft cuts and soft Decision tree

(3)

Data mining

Nguyen Hung Son

Co to jest drzewo decyzyjne

Jest to struktura drzewiasta, w kt´orej

wez ly wewn_, etrzne zawieraj_, a testy na warto´sciach_, atrybut´ow

z ka˙zdego wez la wewn_, etrznego wychodzi tyle ga l_, ezi, ile_, jest mo˙zliwych wynik´ow testu w tym wezle;_,

li´scie zawieraja decyzje o klasyfikacji obiekt´_, ow

Drzewo decyzyjne koduje program zawierajacy_, same instrukcje warunkowe

(4)

Data mining

Nguyen Hung Son

Przyk lad tablicy decyzyjnej

x outlook Temperature humidity wind play(x) 1 sunny hot high weak no 2 sunny hot high strong no 3 overcast hot high weak yes 4 rain mild high weak yes 5 rain cold normal weak yes 6 rain cold normal strong no 7 overcast cold normal strong yes 8 sunny mild high weak no 9 sunny cold normal weak yes 10 rain mild normal weak yes 11 sunny mild normal strong yes 12 overcast mild high strong yes 13 overcast hot normal weak yes 14 rain mild high strong no

(5)

Data mining

Nguyen Hung Son

(6)

Data mining

Nguyen Hung Son

Klasyfikacja drzewem decyzyjnym

x outlook Temperature humidity wind play(x) 15 rainy hot high weak ???

(7)

Data mining

Nguyen Hung Son

Outline

(8)

Data mining

Nguyen Hung Son

Rodzaje test´

ow

Wyr´o˙zniamy 2 klasy funkcji test´ow

Testy operuja si_, e na warto´sciach pojedy´_, nczego atrybutu (univariate tree):

t : Va→ Rt

Testy bed_, ace kombinacj_, a warto´sci kilku atrybut´_, ow (multivariate tree).

t : Va1 × Va2× ... × Vak → Rt

gdzie

Va : dziedzina atrybutu a

(9)

Data mining

Nguyen Hung Son

Przyk lady funkcji testu

Dla atrybut´ow nominalnych ai oraz obiekt x: test to˙zsamo´sciowy: t(x) → ai(x) test r´owno´sciowy: t(x) = ( 1 if (ai(x) = v) 0 otherwise test przynale˙zno´sciowy: t(x) = ( 1 if (ai(x) ∈ V ) 0 otherwise

Dla atrybut´ow o warto´sciach ciag lych:_,

test nier´owno´sciowy: t(x) =

(

1 if (ai(x) > c)

0 otherwise, i.e., (ai(x) ≤ c)

gdzie c jest warto´scia progow_, a lub ci_, eciem_,

(10)

Data mining

Nguyen Hung Son

Outline

(11)

Data mining

Nguyen Hung Son

Ocena jako´

sci drzewa

Jako´s´c drzewa ocenia sie_,

rozmiarem: im drzewo jest mniejsze, tym lepsze ma la liczba wez l´_, ow,

ma la wysoko´s´c, lub ma la liczba li´sci;

dok ladno´scia klasyfikacji na zbiorze treningowym_, dok ladno´scia klasyfikacji na zbiorze testowym_,

Na przyk lad:

Q(T ) = α · size(T ) + β · accuracy(T, P )

gdzie α, β sa liczbami rzeczywistymi_, size(.) jest rozmiarem drzewa

(12)

Data mining

Nguyen Hung Son

Problem konstrukcji drzew optymalnych:

Dane sa:_,

tablica decyzyjna S

zbi´or funkcji test´ow TEST, kryterium jako´sci Q

Szukane: drzewo decyzyjne T o najwy˙zszej jako´sci Q(T).

Dla wiekszo´sci parametr´_, ow, problem szukania optymalnego drzewa jest NP-trudny !

Wnioski:

Trudno znale´z´c optymalne drzewo w czasie wielomianowym;

Konieczno´s´c projektowania heurystyk.

(13)

Data mining

Nguyen Hung Son

(14)

Data mining

Nguyen Hung Son

Outline

1 Wprowadzenie Definicje Funkcje testu Optymalne drzewo

2 _{Konstrukcja drzew decyzyjnych}

Og´olny schemat

(15)

Data mining

Nguyen Hung Son

Funkcja rekurencyjna buduj drzewo(U, dec, T):

1: if (kryterium stopu(U, dec)= true) then

2: T.etykieta =kategoria(U, dec);

3: return;

4: end if

5: t :=wybierz test(U, TEST);

6: T.test := t;

7: for v ∈ Rt do

8: Uv := {x ∈ U : t(x) = v};

9: utw´orz nowe poddrzewo T0;

10: T.ga la´_,z(v) = T0;

11: buduj drzewo(Uv, dec, T0)

(16)

Data mining

Nguyen Hung Son

Funkcje pomocnicze

Kryterium stopu: Zatrzymamy konstrukcji drzewa, gdy aktualny zbi´or obiekt´ow:

jest pusty lub

zawiera obiekty wy lacznie jednej klasy decyzyjnej lub_, nie ulega podziale przez ˙zaden test

Wyznaczenie etykiety zasada wi_, ekszo´sciow_, a:_,

kategoria(P, dec) = arg max

c∈Vdec

|P_[dec=c]|

tzn., etykieta dla danego zbioru obiekt´_, ow jest klasa decyzyjna najliczniej reprezentowana w tym zbiorze.

Kryterium wyboru testu: heurytyczna funkcja oceniajaca testy._,

(17)

Data mining

Nguyen Hung Son

Outline

Og´olny schemat

Kryterium wyboru testu

Przycinanie drzew

(18)

Data mining

Nguyen Hung Son

Miary r´

o ˙znorodno´

sci zbioru

Ka˙zdy zbi´or obiekt´ow X ulega podziale na klasy decyzyjne:

X = C1∪ C2∪ ... ∪ Cd

gdzie Ci = {u ∈ X : dec(u) = i}.

Wektor (p1, ..., pr), gdzie pi = |Ci|

|X|, nazywamyrozk ladem

klas decyzyjnych w X. Conf lict(X) =X i<j |C_i| × |C_j| = 1 2 |X|2₋X |C_i|2 Entropy(X) = −X|Ci| |X| · log |C_i| |X| = −Xpilog pi

(19)

Data mining

Nguyen Hung Son

W lasno´

sci miar r´

oznorodno´

sci

Funkcja conf lict(X) oraz Ent(X) przyjmuja_,

najwieksz_, a warto´s´_, c, gdy rozk lad klas decyzyjnych w zbiorze X jest r´ownomierny.

najmniejsza warto´s´_, c, gdy wszystkie obiekty w X sa_, jednej kategorii (X jest jednorodny)

W przypadku 2 klas decyzyjnych:

Conf lict(p, 1 − p) = |X|2· p(1 − p)

(20)

Data mining

Nguyen Hung Son

Kryteria wyboru testu

Niech t definiuje podzia l X na podzbiory: X1∪ ... ∪ Xr.

Mo˙zemy stosować nastepuj_, ace miary do oceniania test´_, ow: liczba par obiektów rozró˙znionych przez test t.

disc(t, X) = conf lict(X) −Xconf lict(Xi)

kryterium przyrostu informacji (ang. Inf. gain).

Gain(t, X) = Entropy(X) −X

i

pi· Entropy(Xi)

(21)

Data mining

Nguyen Hung Son

Miara Entropii dla ci

e´

,

c

N ×X

i

(22)

Data mining

Nguyen Hung Son

(23)

Data mining

Nguyen Hung Son

W lasno´

sci funkcji ocen:

Monotoniczno´s´c: Je´sli t0 definiuje drobniejszy podzia l ni˙z t to

Gain(t0, X) ≥ Gain(t, X)

(analogiczna sytuacj_, e mamy dla miary conf lict()._, Funkcje ocen testu t przyjmuja ma le warto´sci je´sli_, rozk lady decyzyjne w podzbiorach wyznaczanych przez t sa zbli˙zone._,

(24)

Data mining

Nguyen Hung Son

Uniwersalne oceny

Zamiast bezwzglednego przyrostu informacji, stosujemy_, wsp´o lczynnik przyrostu informacji

Gain ratio = Gain(t, X) iv(t, X)

gdzie iv(t, X), zwana warto´scia informacyjn_, a testu t_, (information value), jest definiowana jak nast.:

iv(t, X) = − r X i=1 |Xi| |X| · log |Xi| |X|

(25)

Data mining

Nguyen Hung Son

Ocena funkcji testu

Rozr´o˙znialno´s´c:

disc(t, X) = conf lict(X) −Xconf lict(Xi)

Przyrostu informacji (Information gain).

Gain(t, X) = Entropy(X) −X

i

pi· Entropy(Xi)

Wsp´o lczynnik przyrostu informacji (gain ratio)

Gain ratio = Gain(t, X) −Pr i=1 |Xi| |X| · log |Xi| |X|

(26)

Data mining

Nguyen Hung Son

Outline

Og´olny schemat Kryterium wyboru testu

Przycinanie drzew

(27)

Data mining

Nguyen Hung Son

Przycinanie drzew

Problem nadmiernego dopasowania do danych trenujacych (prob. przeuczenia si_, e)._,

Rozwiazanie:_,

zasada kr´otkiego opisu: skracamy opis kosztem dok ladno´sci klasyfikacji w zbiorze treningowym zastapienie podrzewa nowym li´sciem (przycinanie) lub_, mniejszym podrzewem.

Podstawowe pytania:

Q: Kiedy poddrzewo mo˙ze by´c zastapione li´sciem?,

A: je´sli nowy li´s´c jest niegorszy ni˙z istniejace poddrzewo dla,

nowych obiekt´ow (nienale˙zacych do zbioru_, treningowego).

Q: Jak to sprawdzi´c?

(28)

Data mining

Nguyen Hung Son

Og´

olny schemat algorytmu

przycinania

Funkcja przytnij(T, P )

1: for all n ∈ T do

2: utw´orz nowy li´s´c l etykietowany kategoria dominuj_, ac_, a_, w zbiorze Pn

3: if (li´s´c l jest niegorszy od poddrzewa o korzeniu w n pod wzgledem zbioru P ) then_,

4: zastap poddrzewo o korzeniu w n li´sciem l;_,

5: end if 6: end for

(29)

Data mining

Nguyen Hung Son

Kryterium przycinania

Niech

eT(l) - b lad klasyfikacji kandyduj_, acego li´scia l,_, eT(n) - b lad klasyfikacji poddrzewa o korzeniu w n., Przycinanie ma miejsce, gdy

eT(l) ≤ eT(n) + µ s

eT(n)(1 − eT(n)) |PT,n| na og´o l przyjmujemy µ = 1.

(30)

Data mining

Nguyen Hung Son

(31)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT Soft Decision Tree Searching for soft cuts Discernibility measure:

Outline

Og´olny schemat Kryterium wyboru testu Przycinanie drzew

Problem brakujacych warto´sci_,

3 Soft cuts and soft Decision tree Soft Decision Tree

Searching for soft cuts Discernibility measure:

(32)

Data mining

Nguyen Hung Son

Brakuje danych podczas uczenia si

e

,

Mo˙zliwe sa nast_, epuj_, ace rozwi_, azania:_,

Zredukowanie warto´sci kryterium wyboru testu (np. przyrostu informacji) dla danego testu o wsp´o lczynnik r´owny:

liczba obiekt´ow z nieznanymi warto´sciami liczba wszystkich obiekt´ow

Wype lnienie nieznanych warto´sci atrybutu najcze´sciej_, wystepuj_, ac_, a warto´sci_, a w zbiorze obiekt´_, ow zwiazanych z_, aktualnym wez lem_,

Wype lnienie nieznanych warto´sci atrybutu ´srednia_, wa˙zona wyznaczon_, a na jego zbiorze warto´sci._,

(33)

Data mining

Nguyen Hung Son

Brakuje danych podczas

klasyfikowania

Mo˙zliwe rozwiazania:_,

Zatrzymanie procesu klasyfikacji w aktualnym we´_,zle i zwr´ocenie wiekszo´sciowej etykiety dla tego w_, ez la_, (etykiety, jaka ma najwi_, eksz_, a liczb_, e obiekt´_, ow trenujacych w tym w_, e´_,zle)

Wype lnienie nieznanej warto´sci wed lug jednej z

heurystyk podanych wy˙zej dla przypadku konstruowania drzewa

Uwzglednienie wszystkich ga l_, ezi (wszystkich mo˙zliwych_, wynik´ow testu) i po laczenie odpowiednio zwa˙zonych_, probabilistycznie rezultatat´ow w rozk lad

prawdopodobie´nstwa na zbiorze mo˙zliwych klas decyzyjnych dla obiektu testowego.

(34)

Data mining

Nguyen Hung Son

Soft cuts

A soft cut is any triple p = ha, l, ri, where a ∈ A is an attribute,

l, r ∈ < are called the left and right bounds of p ; the value ε = r−l₂ is called the uncertain radius of p. We say that a soft cut p discerns a pair of objects x1, x2 if a (x1) < l and a (x2) > r.

(35)

Data mining

Nguyen Hung Son

Some interpretations of p = ha, l, ri:

there is a real cut somewhere between l and r. for any value v ∈ [l, r] we are not able to check if v is either on the left side or on the right side of the real cut. [l, r] is an uncertain interval of the soft cut p.

normal cut can be treated as soft cut of radius 0.

(36)

Data mining

Nguyen Hung Son

Soft Decision Tree

Outline

3 _{Soft cuts and soft Decision tree}

Soft Decision Tree

(37)

Data mining

Nguyen Hung Son

Soft Decision Tree

Soft Decision tree

The test functions can be defined by soft cuts

Here we propose two strategies using described above soft cuts:

fuzzy decision tree: any new object u can be classified as follows:

For every internal node, compute the probability that u turns left and u turns right;

For every leave L compute the probability that u is reaching L;

The decision for u is equal to decision labeling the leaf with largest probability.

rough decision tree: in case of uncertainty

Use both left and right subtrees to classify the new object;

Put together their answer and return the answer vector; Vote for the best decision class.

(38)

Data mining

Nguyen Hung Son

Soft Decision Tree

Searching for soft cuts

Discernibility measure:

Outline

Soft Decision Tree

(39)

Data mining

Nguyen Hung Son

Soft Decision Tree

STANDARD ALGORITHM FOR BEST CUT

For a given attribute a and a set of candidate cuts {c₁, ..., cN}, the best cut (a, ci) with respect to given

heuristic measure

F : {c1, ..., cN} → R+

can be founded in time Ω(N ).

The minimal number of simple SQL queries of form SELECT COUNT

FROM data table

WHERE (a BETWEEN cL AND cR) GROUPED BY dec.

(40)

Data mining

Nguyen Hung Son

Soft Decision Tree

OUR PROPOSITIONS FOR SOFT CUTS

Tail cuts can be eliminated Divide and Conquer Technique

(41)

Data mining

Nguyen Hung Son

Soft Decision Tree

Divide and Conquer Technique

The algorithm outline:

1. Divide the set of possible cuts into k intervals

2. Chose the interval to which the best cut may belong

with the highest probability.

3. If the considered interval is not STABLE enough then

Go to Step 1

4. Return the current interval as a result.

The number of SQL queries is O(d · k log_kn) and is minimum for k = 3;

How to define the measure evaluating the quality of the interval [cL; cR]?

This measure should estimate the quality of the best cut from [cL; cR].

(42)

Data mining

Nguyen Hung Son

Soft Decision Tree

We construct estimation measures for intervals in four cases:

Discernibility measure Entropy Measure Independency as-sumption ? ? Dependency assumption ? ?

(43)

Data mining

Nguyen Hung Son

Soft Decision Tree Searching for soft cuts

Outline

(44)

Data mining

Nguyen Hung Son

Under dependency assumption, i.e. x1 M1 ' x2 M2 ' ... ' xd Md ' x1+ ... + xd M1+ ... + Md = x M =: t ∈ [0, 1] discernibility measure for [cL; cR] can be estimated by:

W (cL) + W (cR) + conf lict(cL; cR)

2 +

[W (cR) − W (cL)]2

(45)

Data mining

Nguyen Hung Son

Under dependency assumption, i.e. x1, ..., xd are

independent random variables with uniform distribution over sets {0, ..., M1}, ..., {0, ..., Md}, respectively.

The mean E(W (c)) for any cut c ∈ [cL; cR] satisfies

E(W (c)) = W (cL) + W (cR) + conf lict(cL; cR) 2

and for the standard deviation of W (c) we have

D2(W (c)) = n X i=1   Mi(Mi+ 2) 12   X j6=i (Rj− Lj)   2 

One can construct the measure estimating quality of the best cut in [cL; cR] by

(46)

Data mining

Nguyen Hung Son

(47)

Data mining

Nguyen Hung Son