• Nie Znaleziono Wyników

Drzewa decyzyjne Marcin S. Szczuka Wyk

N/A
N/A
Protected

Academic year: 2021

Share "Drzewa decyzyjne Marcin S. Szczuka Wyk"

Copied!
4
0
0

Pełen tekst

(1)

1 Drzewa decyzyjne

Marcin S. Szczuka Wykład 3 – część 1

W teorii nie ma różnicy między teorią, a praktyką.

W praktyce jest.

Drzewa decyzyjne

• Drzewo – skierowany, acykliczny graf planarny.

• Liść – wierzchołek bez wychodzących krawędzi.

• Wierzchołki wewnętrzne (nie liście) reprezentują testy.

• Każda krawędź odpowiada wynikowi odpowiedniego testu.

• Liście odpowiadają decyzjom (wg. hipotezy).

A A

B B

C C

(2)

2

Wzrost Uśmiech Kolor

Trzyma

A A B B C C Balon

Flaga Miecz

Wysoki Niski Tak Nie

A A

C

C A A

C C

Zieleń

B B

Czerw. Niebieski Żółty

Wzrost Uśmiech Kolor

Trzyma

A A B B C C Balon

Flaga Miecz

Wysoki Niski Tak Nie

A A

C

C A A C

C

Zieleń

B B

Czerw. Niebieski Żółty

Zadanie

Mając zbiór etykietowanych przykładów skonstruuj drzewo, które najlepiej przybliża proces podejmowania decyzji dla tych przykładów.

Notacja

Każdy przykład jest opisany przez zbiór atrybutów:

(a 1 (x),...,a

n

(x))

gdzie x∈X i a 1 ,...,a

n

są atrybutami (cechami) takimi że:

A

i

:XV

i

V

i

nazywamy przestrzenią (wartości) atrybutu.

Np. atrybut Kolor ma przestrzeń

{Czerwony, Zielony, Niebieski, Żółty}

(3)

3 Przykład tablicy decyzyjnej

C Żółty Wysoki

Tak Flaga

B Zielony Wysoki

Nie Miecz

A Niebieski Niski

Nie Flaga

Klub

d

Kolor

a4

Wzrost

a3

Uśmiech

a2

Trzyma

a1

Budowanie drzewa – ogólna idea

Podejście „dziel i rządź”.

• Wybierz „najlepszy” atrybut i ustaw jako test w korzeniu.

• Stwórz gałąź dla każdej wartości atrybutu.

Usuń atrybut z dalszych rozważań.

• Na końcu każdej gałęzi konstruuj (rekurencyjnie) drzewo z przykładów odpowiadających tej gałęzi.

Wzrost Uśmiech

Trzyma

A A B B Balon

Flaga Miecz

Wysoki Niski

A A C C

Tak Nie

Kolor

C

C A A

C C

Zielony

B B

Czerw. Niebieski Żółty

ID3 - Notacja

S – próbka treningowa, zbiór przykładów S

a=v

– podzbiór przykładów mających v jako

wartość na atrybucie a d l – decyzja dla liścia l w drzewie

an – test w wierzchołku wewnętrznym drzewa n A – zbiór dostępnych atrybutów (testów) dec(S,d) – zwraca najczęstszą decyzję w S lub

wartość domyślną d, gdy S pusty.

(4)

4 ID3 - algorytm

ID3(S,A,d) create root;

if (S pusty) or (wszystkie przykłady z tą samą decyzja) or (A pusty) then

create-leaf l; d

l

:=dec(S,d);

return(drzewo z pojedynczym liściem l);

endif;

create node n;

an :=choose-attribute(S,A); root:=n;

d:=dec(S,d);

forall v∈V

an

do

add-subtree ID3(S

an=v

, A-{an}, d);

end;

return(tree);

ID3 – wybór atrybutu

choose-attribute(S,A);

Zwraca atrybut z A, który prowadzi do najlepszego podziału S tj. atrybut będący najlepszym dyskryminatorem ze względu na decyzję.

ID3 - dyskusja

• Prosty ID3 jest zwykle za prosty. W rzeczywistości korzysta się z jego rozszerzeń np. C4.5 i C5 .

• Złożoność jest rozsądna – O(|S|nlogn).

• Algorytm jest dokładny (kompletny).

Każda hipoteza może być skonstruowana.

Drzewa – co dalej

Na następnym wykładzie:

• Wybieranie atrybutu dla drzewa na podstawie miary entropijnej.

• Rozszerzenia i uzupełnienia algorytmu konstrukcji drzewa.

• Więcej o złożoności i rozwiązywaniu

problemów związanych z nią.

Cytaty

Powiązane dokumenty

Stąd wzywał i zachęcał duszpasterzy, aby w swoich w spólnotach parafialnych w okresie Wielkiego Postu organizowali misje i rekolekcje oraz nabożeństwa adoracyjne

Znacznik <input type= „submit” > - przycisk ten informuje przeglądarkę, aby wysłała dane z formularza do serwera, atrybut opcjonalny type. oznacza typ elementu

Jak podają specjaliści amerykańscy, na współczesnym rynku znajduje się obecnie ponad 1200 różnych rodzajów pochodnych, które ułatwiają bankom, firmom i inwestorom

Schlesisches und mongolisches Heer im Vergleich” (s. 87—108), cechuje się , owszem, szerokością porównawczego ujęcia, specjalnie odkrywczych momentów jednak nie

• wykonać klasyfikację dla wybranych danych wielowymiarowych ze strony uci za pomocą metody drzewa klasyfikacyjnego, porównać jakość klasyfikacji na danych testowych z

przykładów skonstruuj drzewo, przykładów skonstruuj drzewo, które najlepiej przybliża proces które najlepiej przybliża proces podejmowania decyzji dla tych podejmowania

• Badamy o ile lepiej na wybranej części danych klasyfikujemy, w porównaniu z losowym

Dzień Pogoda Temperatura Wilgotność Wiatr Tenis D9 Słonecznie Zimno Normalna Słaby Tak D11 Słonecznie Przyjemnie Normalna Silny Tak D1 Słonecznie Gorąco Wysoka Słaby Nie