• Nie Znaleziono Wyników

Drzewa decyzyjne Drzewa decyzyjne

N/A
N/A
Protected

Academic year: 2021

Share "Drzewa decyzyjne Drzewa decyzyjne"

Copied!
16
0
0

Pełen tekst

(1)

Drzewa decyzyjne Drzewa decyzyjne

Marcin S. Szczuka Marcin S. Szczuka Wykład 3

Wykład 3 część 1część 1

(2)

W teorii nie ma różnicy W teorii nie ma różnicy między teorią, a praktyką.

między teorią, a praktyką.

W praktyce jest.

W praktyce jest.

(3)

Drzewa decyzyjne Drzewa decyzyjne

II Drzewo Drzewo skierowany, acykliczny graf skierowany, acykliczny graf planarny.

planarny.

II Liść Liść wierzchołek bez wychodzących wierzchołek bez wychodzących krawędzi.

krawędzi.

II Wierzchołki wewnętrzne (nie liście) Wierzchołki wewnętrzne (nie liście) reprezentują testy.

reprezentują testy.

II Każda krawędź odpowiada wynikowi Każda krawędź odpowiada wynikowi odpowiedniego testu.

odpowiedniego testu.

II Liście odpowiadają decyzjom (wg. hipotezy).Liście odpowiadają decyzjom (wg. hipotezy).

(4)

A A

BB CC

(5)

Wzrost Uśmiech Kolor Trzyma

AA BB CC

Balon

Flaga Miecz

Wysoki Niski Tak Nie

AA

CC AA CC

Zieleń

BB

Czerw. Niebieski

Żółty

(6)

Wzrost Uśmiech Kolor Trzyma

AA BB CC

Balon

Flaga Miecz

Wysoki Niski Tak Nie

AA

CC AA CC

Zieleń

BB

Czerw. Niebieski

Żółty

(7)

Zadanie Zadanie

Mając zbiór etykietowanych Mając zbiór etykietowanych

przykładów skonstruuj drzewo, przykładów skonstruuj drzewo, które najlepiej przybliża proces które najlepiej przybliża proces podejmowania decyzji dla tych podejmowania decyzji dla tych

przykładów.

przykładów.

(8)

Notacja Notacja

Każdy przykład jest opisany przez zbiór Każdy przykład jest opisany przez zbiór

atrybutów:

atrybutów:

((aa11((x),...,x),...,aann((x)) x)) gdzie

gdzie xxXX i i aa11,...,,...,aann są atrybutami (cechami) są atrybutami (cechami) takimi że:

takimi że:

AAii::XXVVii

VVi i nazywamy przestrzenią (wartości) atrybutu.nazywamy przestrzenią (wartości) atrybutu.

Np. atrybut

Np. atrybut KolorKolor ma przestrzeń ma przestrzeń {Czerwony, Zielony, Niebieski, Żółty}

{Czerwony, Zielony, Niebieski, Żółty}

(9)

Przykład tablicy decyzyjnej Przykład tablicy decyzyjnej

Trzyma Trzyma

aa11

Uśmiech Uśmiech

aa22

Wzrost Wzrost

aa33

Kolor Kolor

aa44

KlubKlub dd

Flaga

Flaga NieNie NiskiNiski NiebieskiNiebieski AA Miecz

Miecz NieNie WysokiWysoki ZielonyZielony BB Flaga

Flaga TakTak WysokiWysoki ŻŻółtyółty CC

(10)

Budowanie drzewa

Budowanie drzewa –– ogólna ideaogólna idea

Podejście „dziel i rządź”.

Podejście „dziel i rządź”.

II Wybierz „najlepszy” atrybut i ustaw jako Wybierz „najlepszy” atrybut i ustaw jako test w korzeniu.

test w korzeniu.

II Stwórz gałąź dla każdej wartości atrybutu. Stwórz gałąź dla każdej wartości atrybutu.

Usuń atrybut z dalszych rozważań.

Usuń atrybut z dalszych rozważań.

II Na końcu każdej gałęzi konstruuj Na końcu każdej gałęzi konstruuj

(rekurencyjnie) drzewo z przykładów (rekurencyjnie) drzewo z przykładów

odpowiadających tej gałęzi.

odpowiadających tej gałęzi.

(11)

Wzrost Uśmiech Trzyma

AA BB

Balon

Flaga Miecz

Wysoki Niski

AA CC

Tak Nie

Kolor

CC AA CC

Zielony

BB

Czerw. Niebieski

Żółty

(12)

ID3 ID3 - - Notacja Notacja

SS próbka treningowa, zbiór przykładówpróbka treningowa, zbiór przykładów

SSaa=v=v podzbiór przykładów mających podzbiór przykładów mających vv jako jako wartość na atrybucie

wartość na atrybucie aa

ddll decyzja dla liścia decyzja dla liścia ll w drzewiew drzewie

aann test w wierzchołku wewnętrznym drzewa test w wierzchołku wewnętrznym drzewa n n AA zbiór dostępnych atrybutów (testów)zbiór dostępnych atrybutów (testów)

dec(dec(S,d)S,d) zwraca najczęstszą decyzję w zwraca najczęstszą decyzję w SS lub lub wartość domyślną

wartość domyślną d, d, gdy gdy SS pusty.pusty.

(13)

ID3 ID3 - - algorytm algorytm

ID3(ID3(S,A,dS,A,d)) create

create root;root;

ifif ((SS pustypusty) ) oror ((wszystkie przykłady z tą samą decyzjawszystkie przykłady z tą samą decyzja) ) oror ((A pusty) A pusty) thenthen

create

create-leaf-leaf l;l; ddll:=:=dec(dec(S,dS,d););

return(

return(drzewo z pojedynczym liściemdrzewo z pojedynczym liściem l);l);

endif;

endif;

create node

create node nn; ;

anan :=:=choosechoose--attribute(attribute(S,A); S,A); root:=nroot:=n;; d:=d:=dec(dec(S,dS,d););

forall

forall v∈v∈VVanan dodo

add-add-subtree ID3(subtree ID3(SSanan==vv, , A-A-{{anan}}, , dd););

end;end;

return(

return(treetree); );

(14)

ID3 ID3 – – wybór atrybutu wybór atrybutu

choose

choose--attribute(attribute(S,AS,A); );

Zwraca atrybut z

Zwraca atrybut z AA, który prowadzi do , który prowadzi do najlepszego podziału

najlepszego podziału SS tj. atrybut tj. atrybut

będący najlepszym dyskryminatorem ze będący najlepszym dyskryminatorem ze

względu na decyzję.

względu na decyzję.

(15)

ID3 ID3 - - dyskusja dyskusja

II Prosty ID3 jest zwykle za prosty. W Prosty ID3 jest zwykle za prosty. W rzeczywistości korzysta się z jego rzeczywistości korzysta się z jego

rozszerzeń np. C4.5 i C5 . rozszerzeń np. C4.5 i C5 .

II Złożoność jest rozsądna Złożoność jest rozsądna OO(|(|SS||nnloglognn).).

II Algorytm jest dokładny (kompletny). Algorytm jest dokładny (kompletny).

Każda hipoteza może być skonstruowana.

Każda hipoteza może być skonstruowana.

(16)

Drzewa

Drzewa – – co dalej co dalej

Na następnym wykładzie:

Na następnym wykładzie:

II Wybieranie atrybutu dla drzewa na Wybieranie atrybutu dla drzewa na podstawie miary entropijnej.

podstawie miary entropijnej.

II Rozszerzenia i uzupełnienia algorytmu Rozszerzenia i uzupełnienia algorytmu konstrukcji drzewa.

konstrukcji drzewa.

II Więcej o złożoności i rozwiązywaniu Więcej o złożoności i rozwiązywaniu problemów związanych z nią.

problemów związanych z nią.

Cytaty

Powiązane dokumenty

Walda: kryterium MaxMin, asekuranta, pesymisty, Hurwicza: ważone kryteria MaxMax i MaxMin, Laplace’a: maksymalizacja oczekiwanego zysku, Savage’a: minimalizacja makasymalnego

Analiza literatury 47 pozwala stwierdzić, że ocena wariantów i podjęcie decyzji stanowi niejako wynikową uprzednio realizowanych czynności, po- cząwszy od

Schlesisches und mongolisches Heer im Vergleich” (s. 87—108), cechuje się , owszem, szerokością porównawczego ujęcia, specjalnie odkrywczych momentów jednak nie

pacjent wybierze bardziej potrzebny produkt z punktu widzenia użyteczności. Drugi rodzaj konfliktu występuje, gdy zakup związany jest z negatywnymi i pozytywnymi

Badania użyteczności niektórych produktów doprowadziły do stworzenia zasady ma- lejącej użyteczności marginalnej, która mówi, że wraz ze wzrostem liczby konsumowa-

Dla potrzeb niniejszej pracy przyjęto, że proces podejmowania decyzji składa się następujących faz: identyfikacja problemu decyzyjnego, rozwiązanie problemu decyzyjnego,

• wykonać klasyfikację dla wybranych danych wielowymiarowych ze strony uci za pomocą metody drzewa klasyfikacyjnego, porównać jakość klasyfikacji na danych testowych z

Ad. 4) Co się tyczy naszej dalszej egzystencji, to deklarujemy chęć dzia­ łania hic e t nunc, jednak trzeźwe spojrzenie na rzeczywistość podpowiada: tak długo, jak tym starszym