• Nie Znaleziono Wyników

slajdy w PDF

N/A
N/A
Protected

Academic year: 2021

Share "slajdy w PDF"

Copied!
47
0
0

Pełen tekst

(1)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Wyk lad 6: Drzewa decyzyjne

(2)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Outline

1 Wprowadzenie Definicje Funkcje testu Optymalne drzewo

2 Konstrukcja drzew decyzyjnych Og´olny schemat

Kryterium wyboru testu Przycinanie drzew

Problem brakujacych warto´sci, 3 Soft cuts and soft Decision tree

Soft Decision Tree Searching for soft cuts Discernibility measure:

(3)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Co to jest drzewo decyzyjne

Jest to struktura drzewiasta, w kt´orej

wez ly wewn, etrzne zawieraj, a testy na warto´sciach, atrybut´ow

z ka˙zdego wez la wewn, etrznego wychodzi tyle ga l, ezi, ile, jest mo˙zliwych wynik´ow testu w tym wezle;,

li´scie zawieraja decyzje o klasyfikacji obiekt´, ow

Drzewo decyzyjne koduje program zawierajacy, same instrukcje warunkowe

(4)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Przyk lad tablicy decyzyjnej

x outlook Temperature humidity wind play(x) 1 sunny hot high weak no 2 sunny hot high strong no 3 overcast hot high weak yes 4 rain mild high weak yes 5 rain cold normal weak yes 6 rain cold normal strong no 7 overcast cold normal strong yes 8 sunny mild high weak no 9 sunny cold normal weak yes 10 rain mild normal weak yes 11 sunny mild normal strong yes 12 overcast mild high strong yes 13 overcast hot normal weak yes 14 rain mild high strong no

(5)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

(6)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Klasyfikacja drzewem decyzyjnym

x outlook Temperature humidity wind play(x) 15 rainy hot high weak ???

(7)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Outline

1 Wprowadzenie Definicje Funkcje testu Optymalne drzewo

2 Konstrukcja drzew decyzyjnych Og´olny schemat

Kryterium wyboru testu Przycinanie drzew

Problem brakujacych warto´sci, 3 Soft cuts and soft Decision tree

Soft Decision Tree Searching for soft cuts Discernibility measure:

(8)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Rodzaje test´

ow

Wyr´o˙zniamy 2 klasy funkcji test´ow

Testy operuja si, e na warto´sciach pojedy´, nczego atrybutu (univariate tree):

t : Va→ Rt

Testy bed, ace kombinacj, a warto´sci kilku atrybut´, ow (multivariate tree).

t : Va1 × Va2× ... × Vak → Rt

gdzie

Va : dziedzina atrybutu a

(9)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Przyk lady funkcji testu

Dla atrybut´ow nominalnych ai oraz obiekt x: test to˙zsamo´sciowy: t(x) → ai(x) test r´owno´sciowy: t(x) = ( 1 if (ai(x) = v) 0 otherwise test przynale˙zno´sciowy: t(x) = ( 1 if (ai(x) ∈ V ) 0 otherwise

Dla atrybut´ow o warto´sciach ciag lych:,

test nier´owno´sciowy: t(x) =

(

1 if (ai(x) > c)

0 otherwise, i.e., (ai(x) ≤ c)

gdzie c jest warto´scia progow, a lub ci, eciem,

(10)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Outline

1 Wprowadzenie Definicje Funkcje testu Optymalne drzewo

2 Konstrukcja drzew decyzyjnych Og´olny schemat

Kryterium wyboru testu Przycinanie drzew

Problem brakujacych warto´sci, 3 Soft cuts and soft Decision tree

Soft Decision Tree Searching for soft cuts Discernibility measure:

(11)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Ocena jako´

sci drzewa

Jako´s´c drzewa ocenia sie,

rozmiarem: im drzewo jest mniejsze, tym lepsze ma la liczba wez l´, ow,

ma la wysoko´s´c, lub ma la liczba li´sci;

dok ladno´scia klasyfikacji na zbiorze treningowym, dok ladno´scia klasyfikacji na zbiorze testowym,

Na przyk lad:

Q(T ) = α · size(T ) + β · accuracy(T, P )

gdzie α, β sa liczbami rzeczywistymi, size(.) jest rozmiarem drzewa

(12)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Problem konstrukcji drzew optymalnych:

Dane sa:,

tablica decyzyjna S

zbi´or funkcji test´ow TEST, kryterium jako´sci Q

Szukane: drzewo decyzyjne T o najwy˙zszej jako´sci Q(T).

Dla wiekszo´sci parametr´, ow, problem szukania optymalnego drzewa jest NP-trudny !

Wnioski:

Trudno znale´z´c optymalne drzewo w czasie wielomianowym;

Konieczno´s´c projektowania heurystyk.

(13)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

(14)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Outline

1 Wprowadzenie Definicje Funkcje testu Optymalne drzewo

2 Konstrukcja drzew decyzyjnych

Og´olny schemat

Kryterium wyboru testu Przycinanie drzew

Problem brakujacych warto´sci, 3 Soft cuts and soft Decision tree

Soft Decision Tree Searching for soft cuts Discernibility measure:

(15)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Funkcja rekurencyjna buduj drzewo(U, dec, T):

1: if (kryterium stopu(U, dec)= true) then

2: T.etykieta =kategoria(U, dec);

3: return;

4: end if

5: t :=wybierz test(U, TEST);

6: T.test := t;

7: for v ∈ Rt do

8: Uv := {x ∈ U : t(x) = v};

9: utw´orz nowe poddrzewo T0;

10: T.ga la´,z(v) = T0;

11: buduj drzewo(Uv, dec, T0)

(16)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Funkcje pomocnicze

Kryterium stopu: Zatrzymamy konstrukcji drzewa, gdy aktualny zbi´or obiekt´ow:

jest pusty lub

zawiera obiekty wy lacznie jednej klasy decyzyjnej lub, nie ulega podziale przez ˙zaden test

Wyznaczenie etykiety zasada wi, ekszo´sciow, a:,

kategoria(P, dec) = arg max

c∈Vdec

|P[dec=c]|

tzn., etykieta dla danego zbioru obiekt´, ow jest klasa decyzyjna najliczniej reprezentowana w tym zbiorze.

Kryterium wyboru testu: heurytyczna funkcja oceniajaca testy.,

(17)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Outline

1 Wprowadzenie Definicje Funkcje testu Optymalne drzewo

2 Konstrukcja drzew decyzyjnych

Og´olny schemat

Kryterium wyboru testu

Przycinanie drzew

Problem brakujacych warto´sci, 3 Soft cuts and soft Decision tree

Soft Decision Tree Searching for soft cuts Discernibility measure:

(18)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Miary r´

o ˙znorodno´

sci zbioru

Ka˙zdy zbi´or obiekt´ow X ulega podziale na klasy decyzyjne:

X = C1∪ C2∪ ... ∪ Cd

gdzie Ci = {u ∈ X : dec(u) = i}.

Wektor (p1, ..., pr), gdzie pi = |Ci|

|X|, nazywamyrozk ladem

klas decyzyjnych w X. Conf lict(X) =X i<j |Ci| × |Cj| = 1 2  |X|2X |Ci|2 Entropy(X) = −X|Ci| |X| · log |Ci| |X| = −Xpilog pi

(19)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

W lasno´

sci miar r´

oznorodno´

sci

Funkcja conf lict(X) oraz Ent(X) przyjmuja,

najwieksz, a warto´s´, c, gdy rozk lad klas decyzyjnych w zbiorze X jest r´ownomierny.

najmniejsza warto´s´, c, gdy wszystkie obiekty w X sa, jednej kategorii (X jest jednorodny)

W przypadku 2 klas decyzyjnych:

Conf lict(p, 1 − p) = |X|2· p(1 − p)

(20)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Kryteria wyboru testu

Niech t definiuje podzia l X na podzbiory: X1∪ ... ∪ Xr.

Mo˙zemy stosowa´c nastepuj, ace miary do oceniania test´, ow: liczba par obiekt´ow rozr´o˙znionych przez test t.

disc(t, X) = conf lict(X) −Xconf lict(Xi)

kryterium przyrostu informacji (ang. Inf. gain).

Gain(t, X) = Entropy(X) −X

i

pi· Entropy(Xi)

(21)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Miara Entropii dla ci

,

c

N ×X

i

(22)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

(23)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

W lasno´

sci funkcji ocen:

Monotoniczno´s´c: Je´sli t0 definiuje drobniejszy podzia l ni˙z t to

Gain(t0, X) ≥ Gain(t, X)

(analogiczna sytuacj, e mamy dla miary conf lict()., Funkcje ocen testu t przyjmuja ma le warto´sci je´sli, rozk lady decyzyjne w podzbiorach wyznaczanych przez t sa zbli˙zone.,

(24)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Uniwersalne oceny

Zamiast bezwzglednego przyrostu informacji, stosujemy, wsp´o lczynnik przyrostu informacji

Gain ratio = Gain(t, X) iv(t, X)

gdzie iv(t, X), zwana warto´scia informacyjn, a testu t, (information value), jest definiowana jak nast.:

iv(t, X) = − r X i=1 |Xi| |X| · log |Xi| |X|

(25)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Ocena funkcji testu

Rozr´o˙znialno´s´c:

disc(t, X) = conf lict(X) −Xconf lict(Xi)

Przyrostu informacji (Information gain).

Gain(t, X) = Entropy(X) −X

i

pi· Entropy(Xi)

Wsp´o lczynnik przyrostu informacji (gain ratio)

Gain ratio = Gain(t, X) −Pr i=1 |Xi| |X| · log |Xi| |X|

(26)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Outline

1 Wprowadzenie Definicje Funkcje testu Optymalne drzewo

2 Konstrukcja drzew decyzyjnych

Og´olny schemat Kryterium wyboru testu

Przycinanie drzew

Problem brakujacych warto´sci, 3 Soft cuts and soft Decision tree

Soft Decision Tree Searching for soft cuts Discernibility measure:

(27)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Przycinanie drzew

Problem nadmiernego dopasowania do danych trenujacych (prob. przeuczenia si, e).,

Rozwiazanie:,

zasada kr´otkiego opisu: skracamy opis kosztem dok ladno´sci klasyfikacji w zbiorze treningowym zastapienie podrzewa nowym li´sciem (przycinanie) lub, mniejszym podrzewem.

Podstawowe pytania:

Q: Kiedy poddrzewo mo˙ze by´c zastapione li´sciem?,

A: je´sli nowy li´s´c jest niegorszy ni˙z istniejace poddrzewo dla,

nowych obiekt´ow (nienale˙zacych do zbioru, treningowego).

Q: Jak to sprawdzi´c?

(28)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Og´

olny schemat algorytmu

przycinania

Funkcja przytnij(T, P )

1: for all n ∈ T do

2: utw´orz nowy li´s´c l etykietowany kategoria dominuj, ac, a, w zbiorze Pn

3: if (li´s´c l jest niegorszy od poddrzewa o korzeniu w n pod wzgledem zbioru P ) then,

4: zastap poddrzewo o korzeniu w n li´sciem l;,

5: end if 6: end for

(29)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Kryterium przycinania

Niech

eT(l) - b lad klasyfikacji kandyduj, acego li´scia l,, eT(n) - b lad klasyfikacji poddrzewa o korzeniu w n., Przycinanie ma miejsce, gdy

eT(l) ≤ eT(n) + µ s

eT(n)(1 − eT(n)) |PT,n| na og´o l przyjmujemy µ = 1.

(30)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

(31)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT Soft Decision Tree Searching for soft cuts Discernibility measure:

Outline

1 Wprowadzenie Definicje Funkcje testu Optymalne drzewo

2 Konstrukcja drzew decyzyjnych

Og´olny schemat Kryterium wyboru testu Przycinanie drzew

Problem brakujacych warto´sci,

3 Soft cuts and soft Decision tree Soft Decision Tree

Searching for soft cuts Discernibility measure:

(32)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT Soft Decision Tree Searching for soft cuts Discernibility measure:

Brakuje danych podczas uczenia si

e

,

Mo˙zliwe sa nast, epuj, ace rozwi, azania:,

Zredukowanie warto´sci kryterium wyboru testu (np. przyrostu informacji) dla danego testu o wsp´o lczynnik r´owny:

liczba obiekt´ow z nieznanymi warto´sciami liczba wszystkich obiekt´ow

Wype lnienie nieznanych warto´sci atrybutu najcze´sciej, wystepuj, ac, a warto´sci, a w zbiorze obiekt´, ow zwiazanych z, aktualnym wez lem,

Wype lnienie nieznanych warto´sci atrybutu ´srednia, wa˙zona wyznaczon, a na jego zbiorze warto´sci.,

(33)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT Soft Decision Tree Searching for soft cuts Discernibility measure:

Brakuje danych podczas

klasyfikowania

Mo˙zliwe rozwiazania:,

Zatrzymanie procesu klasyfikacji w aktualnym we´,zle i zwr´ocenie wiekszo´sciowej etykiety dla tego w, ez la, (etykiety, jaka ma najwi, eksz, a liczb, e obiekt´, ow trenujacych w tym w,,zle)

Wype lnienie nieznanej warto´sci wed lug jednej z

heurystyk podanych wy˙zej dla przypadku konstruowania drzewa

Uwzglednienie wszystkich ga l, ezi (wszystkich mo˙zliwych, wynik´ow testu) i po laczenie odpowiednio zwa˙zonych, probabilistycznie rezultatat´ow w rozk lad

prawdopodobie´nstwa na zbiorze mo˙zliwych klas decyzyjnych dla obiektu testowego.

(34)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Soft cuts

A soft cut is any triple p = ha, l, ri, where a ∈ A is an attribute,

l, r ∈ < are called the left and right bounds of p ; the value ε = r−l2 is called the uncertain radius of p. We say that a soft cut p discerns a pair of objects x1, x2 if a (x1) < l and a (x2) > r.

(35)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts Discernibility measure:

Some interpretations of p = ha, l, ri:

there is a real cut somewhere between l and r. for any value v ∈ [l, r] we are not able to check if v is either on the left side or on the right side of the real cut. [l, r] is an uncertain interval of the soft cut p.

normal cut can be treated as soft cut of radius 0.

(36)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree

Searching for soft cuts Discernibility measure:

Outline

1 Wprowadzenie Definicje Funkcje testu Optymalne drzewo

2 Konstrukcja drzew decyzyjnych Og´olny schemat

Kryterium wyboru testu Przycinanie drzew

Problem brakujacych warto´sci,

3 Soft cuts and soft Decision tree

Soft Decision Tree

Searching for soft cuts Discernibility measure:

(37)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree

Searching for soft cuts Discernibility measure:

Soft Decision tree

The test functions can be defined by soft cuts

Here we propose two strategies using described above soft cuts:

fuzzy decision tree: any new object u can be classified as follows:

For every internal node, compute the probability that u turns left and u turns right;

For every leave L compute the probability that u is reaching L;

The decision for u is equal to decision labeling the leaf with largest probability.

rough decision tree: in case of uncertainty

Use both left and right subtrees to classify the new object;

Put together their answer and return the answer vector; Vote for the best decision class.

(38)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree

Searching for soft cuts

Discernibility measure:

Outline

1 Wprowadzenie Definicje Funkcje testu Optymalne drzewo

2 Konstrukcja drzew decyzyjnych Og´olny schemat

Kryterium wyboru testu Przycinanie drzew

Problem brakujacych warto´sci,

3 Soft cuts and soft Decision tree

Soft Decision Tree

Searching for soft cuts

(39)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree

Searching for soft cuts

Discernibility measure:

STANDARD ALGORITHM FOR BEST CUT

For a given attribute a and a set of candidate cuts {c1, ..., cN}, the best cut (a, ci) with respect to given

heuristic measure

F : {c1, ..., cN} → R+

can be founded in time Ω(N ).

The minimal number of simple SQL queries of form SELECT COUNT

FROM data table

WHERE (a BETWEEN cL AND cR) GROUPED BY dec.

(40)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree

Searching for soft cuts

Discernibility measure:

OUR PROPOSITIONS FOR SOFT CUTS

Tail cuts can be eliminated Divide and Conquer Technique

(41)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree

Searching for soft cuts

Discernibility measure:

Divide and Conquer Technique

The algorithm outline:

1. Divide the set of possible cuts into k intervals

2. Chose the interval to which the best cut may belong

with the highest probability.

3. If the considered interval is not STABLE enough then

Go to Step 1

4. Return the current interval as a result.

The number of SQL queries is O(d · k logkn) and is minimum for k = 3;

How to define the measure evaluating the quality of the interval [cL; cR]?

This measure should estimate the quality of the best cut from [cL; cR].

(42)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree

Searching for soft cuts

Discernibility measure:

We construct estimation measures for intervals in four cases:

Discernibility measure Entropy Measure Independency as-sumption ? ? Dependency assumption ? ?

(43)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts

Discernibility measure:

Outline

1 Wprowadzenie Definicje Funkcje testu Optymalne drzewo

2 Konstrukcja drzew decyzyjnych Og´olny schemat

Kryterium wyboru testu Przycinanie drzew

Problem brakujacych warto´sci,

3 Soft cuts and soft Decision tree

Soft Decision Tree Searching for soft cuts

(44)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts

Discernibility measure:

Under dependency assumption, i.e. x1 M1 ' x2 M2 ' ... ' xd Md ' x1+ ... + xd M1+ ... + Md = x M =: t ∈ [0, 1] discernibility measure for [cL; cR] can be estimated by:

W (cL) + W (cR) + conf lict(cL; cR)

2 +

[W (cR) − W (cL)]2

(45)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts

Discernibility measure:

Under dependency assumption, i.e. x1, ..., xd are

independent random variables with uniform distribution over sets {0, ..., M1}, ..., {0, ..., Md}, respectively.

The mean E(W (c)) for any cut c ∈ [cL; cR] satisfies

E(W (c)) = W (cL) + W (cR) + conf lict(cL; cR) 2

and for the standard deviation of W (c) we have

D2(W (c)) = n X i=1   Mi(Mi+ 2) 12   X j6=i (Rj− Lj)   2 

One can construct the measure estimating quality of the best cut in [cL; cR] by

(46)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts

Discernibility measure:

(47)

Data mining

Nguyen Hung Son

Wprowadzenie Definicje Funkcje testu Optymalne drzewo Algorytm schemat wyb´or testu prunning null-values Soft DT

Soft Decision Tree Searching for soft cuts

Discernibility measure:

Cytaty

Powiązane dokumenty

The main design goal is to collapse multiple complex arith- metic operations into a single, universal arithmetic unit, aiming at the highest possible reutilization of shared

4 Patch coverage (dark red active patches A and light orange mobility patches M) leading to the desired types of motion: (A) pure translation in the z-direction, (B) pure rotation

7 Comparison of experimental data (full circles) obtained from ASM470 (R H = 98 nm, f = 0.1) and ASM540 (R H = 144 nm) suspensions, virial calculations (full line, the dashed

Lett., 2012, 109, 098305] by providing a suitable theoretical framework for the derivation of exact expressions for the first cumulant (initial decay rate) of the correlation

Tested algorithms: univariate Global Regression Tree (uGRT), oblique Global Regression Tree (oGRT), univariate Global Model Tree (uGMT), oblique Global Model Tree (oGMT), and

What speaks in favor of India including the component of soft power in their foreign policy is the nation’s lack of traditions of conquest in their relations with territories

Features as underload and overload, two stopping options, by inertia or deceleration ramp and its compact size and multiple protections make this soft starter the optimum solution

Soft starter VS65 jest podzielony na cztery sekcje, które izolują szafę średniego napięcia od szafy niskiego napięcia.. Rysunek poniższy pokazuje