Wykład 06 – Drzewa decyzyjne i lasy losowe

(1)

Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie

Podstawy uczenia maszynowego

Jarosław Miszczak

07/04/2021

(2)

1 Podejmowanie decyzji

2 Automatyczne hodowanie drzew

3 Metody zespołowe

4 Losowe hodowanie drzew

(3)

Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Jak działa SVM? ?... ?... ?... 3 / 68

(4)

Jak działa SVM? ?...

?...

(5)

Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Jak działa SVM? ?... ?... ?... 3 / 68

(6)

Jak działa SVM?

Co to jest twardy margines?

Co to jest miękki margines? Co to jest i do czego służy kernel?

(7)

Jak działa SVM?

Co to jest twardy margines? Co to jest miękki margines?

Co to jest i do czego służy kernel?

(8)

Jak działa SVM?

Co to jest twardy margines? Co to jest miękki margines? Co to jest i do czego służy kernel?

(9)

Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków

Podejmowanie decyzji

5 / 68

(10)

Podejmowanie decyzji

Ludzie vs algorytmy/maszyny

Czemu służy uczenie maszynowe?

Naśladowaniu procesu uczenia się człowieka. . .

. . . poprzez dostarczanie metod, które mogą automatycznie

wykrywać wzorcew danych,. . .

. . . a następnie wykorzystywać odkryte wzorce do przewidywania przyszłych danych

(11)

Podejmowanie decyzji

[Kevin P. Murphy, Machine Learning. A Probabilistic Perspective]

(12)

Podejmowanie decyzji

(13)

Podejmowanie decyzji

[Kevin P. Murphy, Machine Learning. A Probabilistic Perspective]

(14)

Podejmowanie decyzji

(15)

Podejmowanie decyzji

Budowaniu modelu rzeczywistości!...

Większość metod, które pojawiły się dotychczas na wykładzie zakładało, że istnieje prosty model rzeczywistości, taki jak

funkcja liniowa/wielomian opisujące dane, prosta/hiperpłaszczyzna oddzielająca przykłady.

Umożliwiało to opis algorytmu/modelu w języku operacji matematycznych.

Algorytmy uczenia maszynowego miały za zadanie dobrać parametry modelu.

(16)

Podejmowanie decyzji

(17)

Podejmowanie decyzji

funkcja liniowa/wielomian opisujące dane,

prosta/hiperpłaszczyzna oddzielająca przykłady.

(18)

Podejmowanie decyzji

(19)

Podejmowanie decyzji

(20)

Podejmowanie decyzji

(21)

Podejmowanie decyzji

...żeby zautomatyzować podejmowanie decyzji!

Stworzony model służył do podjęcia decyzji – zaklasyfikowania przykładu lub obliczenia wartości.

Ale nie braliśmy pod uwagę sposobu w jaki decyzje podejmują ludzie. . .

. . . z drobnym wyjątkiem metody

kNN, która podejmuje decyzje na bazie opinii otoczenia.

(22)

Podejmowanie decyzji

(23)

Podejmowanie decyzji

(24)

Podejmowanie decyzji

(25)

Podejmowanie decyzji

. . . z drobnym wyjątkiem metody kNN, która podejmuje decyzje na bazie opinii otoczenia.

(26)

Podejmowanie decyzji

Reprezentacja wiedzy

Załóżmy, że detektyw zna wzrost i wagę poszukiwanej osoby.

W jaki sposób zadecyduje jakiej płci jest ta osoba?

(27)

Podejmowanie decyzji

Załóżmy, że detektyw zna wzrost i wagę poszukiwanej osoby. W jaki sposób zadecyduje jakiej płci jest ta osoba?

Za pomocą algorytmu. . .

(28)

Podejmowanie decyzji

Załóżmy, że detektyw zna wzrost i wagę poszukiwanej osoby. W jaki sposób zadecyduje jakiej płci jest ta osoba?

(29)

Podejmowanie decyzji

Reprezentacja wiedzy d e f j a k a p l e c ( wzrost , waga ) : i f w z r o s t > 1 8 0 : r e t u r n ”M” e l s e: i f waga > 8 0 : r e t u r n ”M” e l s e: r e t u r n ”K”

(1) sprawdź jaki jest wzrost:

7→ osoby powyżej 180 cm

wzrostu to najczęściej mężczyźni

(2) dla osoby o niższym wzroście oceniamy wagę

7→ osoby o wadze powyżej

80 kg to raczej mężczyźni

7→ osoby o wadze poniżej

80 kg to zazwyczaj kobiety

(30)

Podejmowanie decyzji

(31)

Podejmowanie decyzji

(32)

Podejmowanie decyzji

(33)

Podejmowanie decyzji

(34)

Podejmowanie decyzji

dane poszukiwnej osoby

wzrost > 180 mężczyzna tak waga > 80 mężczyzna tak kobieta nie nie

(35)

Podejmowanie decyzji

wzrost > 180 mężczyzna tak waga > 80 mężczyzna tak kobieta nie nie testowanie 11 / 68

(36)

Podejmowanie decyzji

wzrost > 180 mężczyzna tak waga > 80 mężczyzna tak kobieta nie nie testowanie

(37)

Podejmowanie decyzji

Wyciąganie wniosków

Wiedza jest reprezentowana w postaci drzewa.

Węzły drzewa określają sposób podziału przestrzeni cech na obszary/klasy.

Liście drzewa określają klasę, do której należy klasyfikowany obiekt.

Proces klasyfikacji polega na przejściu od korzenia drzewa do liści.

(38)

Podejmowanie decyzji

(39)

Podejmowanie decyzji

(40)

Podejmowanie decyzji

(41)

Podejmowanie decyzji

Wyciąganie wniosków Budowa drzewa

Na jakiej podstawie policja zbudowała schemat określania płci?

Wykorzystane zostało do tego doświadczenie w postaci informacji na temat występowania cech w populacji.

Doświadczenie zostało zapisane jako drzewo.

Jeżeli moglibyśmy stworzyć takie drzewo automatycznie, to nasz model rzeczywistości byłby podobny to tego tworzonego przez ludzi.

(42)

Podejmowanie decyzji

Na jakiej podstawie policja zbudowała schemat określania płci? Wykorzystane zostało do tego doświadczenie w postaci informacji na temat występowania cech w populacji.

(43)

Podejmowanie decyzji

(44)

Podejmowanie decyzji

(45)

Algorytm CART Przykład zastosowania Porównanie z SVM Wady i zalety

Automatyczne hodowanie drzew

(46)

Algorytm CART Przykład zastosowania Porównanie z SVM Wady i zalety

Automatyczne hodowanie drzew

Zastosowanie uczenia maszynowego do generowania drzew decyzyjnych to automatyczne wykrywanie wzorców w danych i tworzenie na ich podstawie schematów podejmowania decyzji.

(47)

Algorytm CART

Przykład zastosowania Porównanie z SVM Wady i zalety

Automatyczne hodowanie drzew

Algorytm CART

CART

Algorytm CART (ang. Classification and Regression Trees) bazuje na wykorzystaniu struktury drzewa binarnego do predykcji – zarówno klasyfikacji, jak i regresji.

(48)

Algorytm CART

Automatyczne hodowanie drzew

Algorytm CART

Zasada działania

Algorytm CART tworzy węzeł, a następnie

dokonuje podziału zbioru treningowego na dwa podzbiory

względem odpowiednio dobranych cechy k oraz progu tk,

sprawdza czy dany węzeł spełnia warunek stopu,

jeżeli tak, to węzeł staje się liściem,

jeżeli nie, to algorytm wywołuje się rekurencyjnie dla obu podzbiorów.

(49)

Algorytm CART

Automatyczne hodowanie drzew

Algorytm CART

Zasada działania

(50)

Algorytm CART

Automatyczne hodowanie drzew

Algorytm CART

Zasada działania

(51)

Algorytm CART

Automatyczne hodowanie drzew

Algorytm CART

Zasada działania

(52)

Algorytm CART

Automatyczne hodowanie drzew

Algorytm CART

wzrost > 180 mężczyzna tak waga > 80 mężczyzna tak kobieta nie nie węzły

(53)

Algorytm CART

Automatyczne hodowanie drzew

Algorytm CART

Podział zbioru uczącego

Algorytm CART dokonuje podziału zbioru uczącego według cechy k tak, że X< (X>) to zbiór elementów dla których wartość cechy k

jest mniejsza (większa) od tk.

(54)

Algorytm CART

Automatyczne hodowanie drzew

Algorytm CART

Funkcja kosztu

Podział na podzbiory ma minimalizować funkcję kosztu określoną dla cechy k oraz progu tk jako

J(k, tk) = m<

m G<+ m>

m G>

gdzie G< (G>) to miara zanieczyszczenia lewego (prawego)

podzbioru, a m< (m>) to liczność elementów dla lewego (prawego)

(55)

Algorytm CART

Automatyczne hodowanie drzew

Algorytm CART

Warunek stopu

Algorytm CART zatrzymuje się jeżeli

nie może znaleźć podziału zmniejszającego zanieczyszczenie, lub osiągnie maksymalną dopuszczalną głębokość drzewa.

(56)

Algorytm CART

Automatyczne hodowanie drzew

Algorytm CART

Warunek stopu

nie może znaleźć podziału zmniejszającego zanieczyszczenie,

(57)

Algorytm CART

Automatyczne hodowanie drzew

Algorytm CART

Warunek stopu

nie może znaleźć podziału zmniejszającego zanieczyszczenie, lub osiągnie maksymalną dopuszczalną głębokość drzewa.

(58)

Algorytm CART

Automatyczne hodowanie drzew

Algorytm CART

Miara zanieczyszczenia

Najczęściej wykorzystywane miary zanieczyszczenia to indeks

Giniego G (pk) = n X k=1 pk(1 − pk) =1 − n X k=1 p_k2 oraz entropia H(pk) =− n X k=1 pklog pk.

Liczby pk,Pnk=1pk =1, określają częstość występowania elementów klasy k.

(59)

Algorytm CART

Automatyczne hodowanie drzew

Algorytm CART

Indeks Giniego

Indeks lub współczynnik Giniego to także pojęcie z

ekonometrii, gdzie służy on do określani poziomu nierówności w populacji.

Indeks Giniego to szczególny przypadek entropii Tsallisa.

(60)

Algorytm CART

Automatyczne hodowanie drzew

Algorytm CART 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 G(p, 1 − p) oraz H(p, 1 − p) dla p ∈ [0, 1] Entropia Gini

(61)

Algorytm CART

Automatyczne hodowanie drzew

Algorytm CART

Węzły czyste

Entropia oraz indeks Giniego są równe zero jedynie wówczas, gdy węzeł jest czysty, tzn. gdy w węźle występują tylko elementy jednej klasy.

(62)

Algorytm CART

Automatyczne hodowanie drzew

Algorytm CART

Algorytm CART jest algorytmem zachłannym.

Znalezienie optymalnego drzewa wymaga czasu, który rośnie jako O(exp(m)) względem rozmiaru zbioru uczącego i jest problemem NP-zupełnym.

Algorytm CART bazuje na drzewach binarnych, ale inne algorytmy (np. ID3) mogą mieć więcej rozgałęzień na każdym poziomie.

(63)

Algorytm CART

Automatyczne hodowanie drzew

Algorytm CART

(64)

Algorytm CART

Automatyczne hodowanie drzew

Algorytm CART

(65)

Algorytm CART

Przykład zastosowania

Porównanie z SVM Wady i zalety

Automatyczne hodowanie drzew

Zastosowanie

Przykład zastosowania DecisionTreeClassifier dla zbioru iris. (dt-iris-ex.py)

(66)

Algorytm CART

Automatyczne hodowanie drzew

Przykład zastosowania (wynik działania dla zbioru iris)

0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm) max depth=1

(67)

Algorytm CART

Automatyczne hodowanie drzew

0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm) max depth=2

DecisionTreeClassifierdla iris

(68)

Algorytm CART

Automatyczne hodowanie drzew

(69)

Algorytm CART

Automatyczne hodowanie drzew

0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm) max depth=4

DecisionTreeClassifierdla iris

(70)

Algorytm CART

Automatyczne hodowanie drzew

(71)

Algorytm CART

Automatyczne hodowanie drzew

Przykład zastosowania (drzewo wyhodowane dla zbioru iris)

petal length (cm) <= 2.45 gini = 0.667 samples = 150 value = [50, 50, 50] class = setosa gini = 0.0 samples = 50 value = [50, 0, 0] class = setosa True gini = 0.5 samples = 100 value = [0, 50, 50] class = versicolor False max depth=1 29 / 68

(72)

Algorytm CART

Automatyczne hodowanie drzew

petal length (cm) <= 2.45 gini = 0.667 samples = 150 value = [50, 50, 50] class = setosa gini = 0.0 samples = 50 value = [50, 0, 0] class = setosa True petal width (cm) <= 1.75 gini = 0.5 samples = 100 value = [0, 50, 50] class = versicolor False gini = 0.168 samples = 54 value = [0, 49, 5] class = versicolor gini = 0.043 samples = 46 value = [0, 1, 45] class = virginica

(73)

Algorytm CART

Automatyczne hodowanie drzew

petal width (cm) <= 0.8 gini = 0.667 samples = 150 value = [50, 50, 50] class = setosa gini = 0.0 samples = 50 value = [50, 0, 0] class = setosa True petal width (cm) <= 1.75 gini = 0.5 samples = 100 value = [0, 50, 50] class = versicolor False petal length (cm) <= 4.95 gini = 0.168 samples = 54 value = [0, 49, 5] class = versicolor petal length (cm) <= 4.85 gini = 0.043 samples = 46 value = [0, 1, 45] class = virginica gini = 0.041 samples = 48 value = [0, 47, 1] class = versicolor gini = 0.444 samples = 6 value = [0, 2, 4] class = virginica gini = 0.444 samples = 3 value = [0, 1, 2] class = virginica gini = 0.0 samples = 43 value = [0, 0, 43] class = virginica max depth=3 29 / 68

(74)

Algorytm CART

Automatyczne hodowanie drzew

petal length (cm) <= 2.45 gini = 0.667 samples = 150 value = [50, 50, 50] class = setosa gini = 0.0 samples = 50 value = [50, 0, 0] class = setosa True petal width (cm) <= 1.75 gini = 0.5 samples = 100 value = [0, 50, 50] class = versicolor False petal length (cm) <= 4.95 gini = 0.168 samples = 54 value = [0, 49, 5] class = versicolor petal length (cm) <= 4.85 gini = 0.043 samples = 46 value = [0, 1, 45] class = virginica petal width (cm) <= 1.65 gini = 0.041 samples = 48 value = [0, 47, 1] class = versicolor petal width (cm) <= 1.55 gini = 0.444 samples = 6 value = [0, 2, 4] class = virginica gini = 0.0 samples = 47 value = [0, 47, 0] class = versicolor gini = 0.0 samples = 1 value = [0, 0, 1] class = virginica gini = 0.0 samples = 3 value = [0, 0, 3] class = virginica gini = 0.444 samples = 3 value = [0, 2, 1] class = versicolor gini = 0.444 samples = 3 value = [0, 1, 2] class = virginica gini = 0.0 samples = 43 value = [0, 0, 43] class = virginica

(75)

Algorytm CART

Automatyczne hodowanie drzew

petal width (cm) <= 0.8 gini = 0.667 samples = 150 value = [50, 50, 50] class = setosa gini = 0.0 samples = 50 value = [50, 0, 0] class = setosa True petal width (cm) <= 1.75 gini = 0.5 samples = 100 value = [0, 50, 50] class = versicolor False petal length (cm) <= 4.95 gini = 0.168 samples = 54 value = [0, 49, 5] class = versicolor petal length (cm) <= 4.85 gini = 0.043 samples = 46 value = [0, 1, 45] class = virginica petal width (cm) <= 1.65 gini = 0.041 samples = 48 value = [0, 47, 1] class = versicolor petal width (cm) <= 1.55 gini = 0.444 samples = 6 value = [0, 2, 4] class = virginica gini = 0.0 samples = 47 value = [0, 47, 0] class = versicolor gini = 0.0 samples = 1 value = [0, 0, 1] class = virginica gini = 0.0 samples = 3 value = [0, 0, 3] class = virginica petal length (cm) <= 5.45 gini = 0.444 samples = 3 value = [0, 2, 1] class = versicolor gini = 0.0 samples = 2 value = [0, 2, 0] class = versicolor gini = 0.0 samples = 1 value = [0, 0, 1] class = virginica gini = 0.444 samples = 3 value = [0, 1, 2] class = virginica gini = 0.0 samples = 43 value = [0, 0, 43] class = virginica max depth=5 29 / 68

(76)

Algorytm CART

Automatyczne hodowanie drzew

Regularyzacja drzew

Dla iris ten model jest przetrenowany dlamax depth> 3.

Hiperparametr max depthokreśla maksymalną głębokość

(77)

Algorytm CART

Automatyczne hodowanie drzew

Regularyzacja drzew

drzewa.

(78)

Algorytm CART

Automatyczne hodowanie drzew

Regularyzacja drzew

(79)

Algorytm CART Przykład zastosowania

Porównanie z SVM

Wady i zalety

Automatyczne hodowanie drzew

Porównanie z SVM

Porównanie

Porównanie drzew decyzyjnych oraz SVM dla zbioru iris. (dt-svm-iris-ex.py)

(80)

Porównanie z SVM

Wady i zalety

Automatyczne hodowanie drzew

Porównanie z SVM

SVM – podział płaszczyzną z maksymalnym marginesem CART – podział na obszary względem poszczególnych cech

(81)

Porównanie z SVM

Wady i zalety

Automatyczne hodowanie drzew

Porównanie z SVM (dla zbioru iris)

0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)

DecisionTreeClassifier(max depth=3)

(82)

Porównanie z SVM

Wady i zalety

Automatyczne hodowanie drzew

0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm) SVC(kernel=’poly’, degree=3)

(83)

Porównanie z SVM

Wady i zalety

Automatyczne hodowanie drzew

0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm) DecisionTreeClassifieri SVC 33 / 68

(84)

Algorytm CART Przykład zastosowania Porównanie z SVM

Wady i zalety

Automatyczne hodowanie drzew

Wady i zalety

Zalety drzew decyzyjnych

uniwersalność – brak założeń co do rozkładu oraz postaci

danych, możliwość działania zarówno z danymi ciągłymi jak i z dyskretnymi

interpretowalność – są algorytmami typu white box – wynik

ich działania jest bezpośrednio określony przez strukturę drzewa i może być prześledzony oraz zinterpretowany

łatwość wykorzystania – mało parametrów, brak

(85)

Wady i zalety

Automatyczne hodowanie drzew

Wady i zalety

konieczności normalizacji

(86)

Wady i zalety

Automatyczne hodowanie drzew

Wady i zalety

(87)

Wady i zalety

Automatyczne hodowanie drzew

Wady i zalety

konieczności normalizacji

(88)

Wady i zalety

Automatyczne hodowanie drzew

Wady i zalety

Wady drzew decyzyjnych

wrażliwość na małe zmiany w danych podatność na przetrenowanie

Rozwiązaniem tych problemów są lasy losowe, które są przykładem metody zespołowej!

(89)

Wady i zalety

Automatyczne hodowanie drzew

Wady i zalety

wrażliwość na małe zmiany w danych

podatność na przetrenowanie

(90)

Wady i zalety

Automatyczne hodowanie drzew

Wady i zalety

(91)

Wady i zalety

Automatyczne hodowanie drzew

Wady i zalety

(92)

Głosowanie klasyfikatorów

(93)

Metody zespołowe

Dotychczas poznaliśmy kilka metod budowania klasyfikatorów: kNN, regresja logistyczna, SVM, drzewa decyzyjne.

Każdy z tych klasyfikatorów podejmował decyzje w inny sposób.

Każdy z tych klasyfikatorów miał swoje słabe strony. Jeżeli chcemy ograniczyć ilość pomyłek w klasyfikacji, to możemy wykorzystać jednocześnie kilka klasyfikatorów i podjąć decyzję bazując na wszystkich wynikach.

Najprościej można to zrobić na zasadzie głosowania

większościowego.

(94)

Metody zespołowe

(95)

Metody zespołowe

Każdy z tych klasyfikatorów miał swoje słabe strony.

Jeżeli chcemy ograniczyć ilość pomyłek w klasyfikacji, to możemy wykorzystać jednocześnie kilka klasyfikatorów i podjąć decyzję bazując na wszystkich wynikach.

(96)

Metody zespołowe

(97)

Metody zespołowe

(98)

Metody zespołowe

Jeżeli klasyfikacja ma być podjęta na zasadzie głosowania większościowego, to zestawienie klasyfikatorów które są niewiele lepsze niż losowy wybór, daje znaczną poprawę skuteczności.

(99)

Metody zespołowe

Przypomina to trochę rzut (nieuczciwą) monetą

Załóżmy, że nasz proces daje 1 z prawdopodobieństwem p > 1

2 Jakie będzie prawdopodobieństwo, że w wyniku realizacji n powtórzeń procesu otrzymamy więcej wyników 1 niż 0?

(100)

Metody zespołowe

...czyli mamy proces Bernouliego

W wyniku n realizacji mamy prawdopodobieństwo uzyskania k wyników 0 równe pn−k₍_{1 − p)}k

Taki proces można zrealizować na n

k

= _k!(n−k)!n! sposobów.

Chcemy mieć więcej 1 niż 0, czyli interesują nas sytuacje gdy liczby 0 jest równa 0, 1, . . . ,n

2 Wszystko składa się na wzór

n/2 X k=0 n k ! pn−k(1 − p)k

określający jakie jest prawdopodobieństwo uzyskania 1 w wyniku głosowania większościowego.

(101)

Metody zespołowe

k

n/2 X k=0 n k ! pn−k(1 − p)k

(102)

Metody zespołowe

k

n/2 X k=0 n k ! pn−k(1 − p)k

(103)

Metody zespołowe

k

2

Wszystko składa się na wzór n/2 X k=0 n k ! pn−k(1 − p)k

(104)

Metody zespołowe

k

n/2 X k=0 n k ! pn−k(1 − p)k

(105)

Metody zespołowe

Prawdopodobieństwo poprawnej klasyfikacji poprzez głosowanie większościowe n klasyfikatorów dających poprawną klasyfikację z prawdopodobieństwem p. 1 50 100 150 200 250 300 350 400 450 500 n 0.0 0.2 0.4 0.6 0.8 1.0 Pra wdop odobieńst w o p =0.51 41 / 68

(106)

Metody zespołowe

Prawdopodobieństwo poprawnej klasyfikacji poprzez głosowanie większościowe n klasyfikatorów dających poprawną klasyfikację z prawdopodobieństwem p. 0.2 0.4 0.6 0.8 1.0 Pra wdop odobieńst w o p =0.53

(107)

Metody zespołowe

(108)

Metody zespołowe

Prawdopodobieństwo poprawnej klasyfikacji poprzez głosowanie większościowe n klasyfikatorów dających poprawną klasyfikację z prawdopodobieństwem p. 0.2 0.4 0.6 0.8 1.0 Pra wdop odobieńst w o p =0.57

(109)

Metody zespołowe

(110)

Metody zespołowe

Niezależność klasyfikatorów

Takie wzmacnianie klasyfikatorów działa pod warunkiem, że są one niezależne.

Dlaczego?...

Ale skoro klasyfikatory są trenowane na tych samych danych, to nie mogą być one niezależne...

(111)

Metody zespołowe

Dlaczego?...

(112)

Metody zespołowe

Dlaczego?...

(113)

Metody zespołowe

Zespoły klasyfikatorów

Wykorzystanie do klasyfikacji kilku klasyfikatorów nazywamy tworzeniem zespołu klasyfikatorów. Metody uczenia maszynowego wykorzystujące zespoły algorytmów do poprawienia predykcji nazywane są metodami zespołowymi (ang. ensemble methods).

(114)

Metody zespołowe

Ensamble

Za wykorzystanie francuskiego słowa ensamble w uczeniu maszynowym i statystyce odpowiedzialny jest J. Willard Gibbs (1839-1903), który wprowadził do fizyki statystycznej pojęcie

zespołu statystycznego(ang. statistical ensamble) określając w ten

sposób abstrakcyjną kolekcję identycznych kopii układu. Zobacz: https://en.wikipedia.org/wiki/Josiah Willard Gibbs,

(115)

Metody zespołowe

Metody zespołowe działają najlepiej gdy wykorzystane klasyfikatory są jak najbardziej niezależne.

Zastosowanie różnych algorytmów zapewnia, że klasyfikatory będą popełniały błędy różnego rodzaju.

Innym sposobem dywersyfikacji jest korzystanie z różnych danych treningowych.

(116)

Metody zespołowe

(117)

Metody zespołowe

(118)

Bagging vs pasting Lasy losowe Boosting

(119)

Losowe hodowanie drzew

Spróbujemy tereza zastosować takie podejście....

Jak zwykle wejściowy zbiór treningowy zawiera elementy

(x1, y1), (x2, y2), . . . , (xm, ym),

czyli wektory cech xi wraz z etykietami yi. Wybieranie podzbiorów do treningu

W celu zróżnicowania klasyfikatorów poprzez trenowanie ich na różnych podzbiorach możemy próbkować zbiór treningowy.

(120)

Losowe hodowanie drzew

Spróbujemy tereza zastosować takie podejście.... Jak zwykle wejściowy zbiór treningowy zawiera elementy

(x1, y1), (x2, y2), . . . , (xm, ym),

czyli wektory cech xi wraz z etykietami yi.

Wybieranie podzbiorów do treningu

W celu zróżnicowania klasyfikatorów poprzez trenowanie ich na różnych podzbiorach możemy próbkować zbiór treningowy.