Drzewa decyzyjne
Marcin Orchel
1 Wstęp
1.1 Drzewa klasyfikacyjne
W każdym węźle pośrednim drzewa binarnego znajduje się warunek na zmienne, np.
x
1< 7, z każdego węzła mamy dwie krawędzie lewa kiedy warunek jest spełniony, prawa kiedy nie jest spełniony. W liściach znajduje się informacja o klasie do której należy punkt spełniający wszystkie warunki od korzenia do liścia. Jeśli warunek dotyczy jednej cechy, to podział nazywamy jednowymiarowym, w przeciwnym razie wielowymiarowym.
Jak już mamy zbudowane drzewo to możemy oszacować prawdopodobieństwo każdej klasy dla każdego liścia, wybór klasy dla danego liścia jest następujący:
ind (t) = arg max
i=1,2
p (i|t) ˆ (1)
gdzie t to węzeł. Oszacowanie prawdopodobieństwa jest równe p (i|t) = ˆ n
i(t)
n (t) (2)
gdzie n (t) to liczba punktów w węźle t, a n
i(t) to liczba punktów w węźle t z klasą i.
1.1.1 Konstrukcja drzewa za pomocą metody CART
Rozważmy podziały jednowymiarowe. Idea polega na wzięciu pod uwagę wszystkich możliwych podziałów, w punktach będącymi środkami odcinków między kolejnymi po- sortowanymi wartości x
ji x
j+1. Optymalny podział będzie polegał na takim wyborze punktu podziału aby podzbiory były możliwie jednorodne. Musimy dla każdego węzła określić miarę niejednorodności elementów w tym węźle, i (t). Zmianę niejednorodności w węźle t przy podziale s określamy jako
∆i (s, t) = i (t) − p
Li (t
L) − p
Ri (t
R) (3) gdzie
p
L= P (X ∈ t
L|X ∈ t) (4)
p
R= P (X ∈ t
R|X ∈ t) (5)
Wówczas optymalny podział s
∗to
∆i (s
∗, t) = max
s
∆i (s, t) (6)
Zastanówmy się jak może wyglądać ta funkcja niejednorodności, będzie bazowała na prawdopodobieństwie każdej z klas. Jak prawdopodobieństwo jednej z klas jest 1 w węźle t, to oznacza maksymalną jednorodność, czyli funkcja niejednorodności będzie minimalna wtedy, jeśli prawdopodobieństwa są po 0.5 to funkcja niejednorodności będzie maksymalna. Dodatkowo zauważmy, że funkcja niejednorodności powinna mieć tą samą wartość dla zamienionych prawd, a więc będzie symetryczna względem argumentów.
Zdefiniujmy funkcję φ dla wszystkich dwuelementowych ciągów prawd. (p
1, p
2), takich, że p
1+ p
2= 1, p
i≥ 0 spełniającą warunki
1. maksimum w punkcie (1/2, 1/2) 2. minimum w punkcie (1, 0) lub (0, 1) 3. funkcja symetryczna swoich argumentów Miara niejednorodności i (t) jest zdefiniowana jako
i (t) = φ (p (1|t) , p (2|t)) (7)
Przykładowe postaci funkcji φ
1. błąd klasyfikacji φ (p
1, p
2) = 1−max {p
1, p
2} = 1−max {p
1, 1 − p
1} = min {p
1, 1 − p
1} 2. funkcja entropii φ (p
1, p
2) = −p
1log p
1− p
2log p
2= −p
1log p
1− (1 − p) log (1 − p) 3. indeks Giniego φ (p
1, p
2) = 1 − p
21− p
22= 2p
1(1 − p
1)
Przy konstrukcji drzewa wybierany jest optymalny podział po wszystkich aktualnych węzłach. Miara niejednorodności dla drzewa to
I (T ) =
Xt∈Tl