Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Podstawy uczenia maszynowego
Wykład 06 – Drzewa decyzyjne i lasy losoweJarosław Miszczak
07/04/2021
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
1 Podejmowanie decyzji
2 Automatyczne hodowanie drzew
3 Metody zespołowe
4 Losowe hodowanie drzew
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Jak działa SVM? ?... ?... ?... 3 / 68
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Jak działa SVM? ?...
?...
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Jak działa SVM? ?... ?... ?... 3 / 68
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Jak działa SVM?
Co to jest twardy margines?
Co to jest miękki margines? Co to jest i do czego służy kernel?
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Jak działa SVM?
Co to jest twardy margines? Co to jest miękki margines?
Co to jest i do czego służy kernel?
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Jak działa SVM?
Co to jest twardy margines? Co to jest miękki margines? Co to jest i do czego służy kernel?
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
5 / 68Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Ludzie vs algorytmy/maszynyCzemu służy uczenie maszynowe?
Naśladowaniu procesu uczenia się człowieka. . .
. . . poprzez dostarczanie metod, które mogą automatycznie
wykrywać wzorcew danych,. . .
. . . a następnie wykorzystywać odkryte wzorce do przewidywania przyszłych danych
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Ludzie vs algorytmy/maszynyCzemu służy uczenie maszynowe?
Naśladowaniu procesu uczenia się człowieka. . .
. . . poprzez dostarczanie metod, które mogą automatycznie
wykrywać wzorcew danych,. . .
. . . a następnie wykorzystywać odkryte wzorce do przewidywania przyszłych danych
[Kevin P. Murphy, Machine Learning. A Probabilistic Perspective]
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Ludzie vs algorytmy/maszynyCzemu służy uczenie maszynowe?
Naśladowaniu procesu uczenia się człowieka. . .
. . . poprzez dostarczanie metod, które mogą automatycznie
wykrywać wzorcew danych,. . .
. . . a następnie wykorzystywać odkryte wzorce do przewidywania przyszłych danych
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Ludzie vs algorytmy/maszynyCzemu służy uczenie maszynowe?
Naśladowaniu procesu uczenia się człowieka. . .
. . . poprzez dostarczanie metod, które mogą automatycznie
wykrywać wzorcew danych,. . .
. . . a następnie wykorzystywać odkryte wzorce do przewidywania przyszłych danych
[Kevin P. Murphy, Machine Learning. A Probabilistic Perspective]
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Ludzie vs algorytmy/maszynyCzemu służy uczenie maszynowe?
Naśladowaniu procesu uczenia się człowieka. . .
. . . poprzez dostarczanie metod, które mogą automatycznie
wykrywać wzorcew danych,. . .
. . . a następnie wykorzystywać odkryte wzorce do przewidywania przyszłych danych
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Ludzie vs algorytmy/maszynyBudowaniu modelu rzeczywistości!...
Większość metod, które pojawiły się dotychczas na wykładzie zakładało, że istnieje prosty model rzeczywistości, taki jak
funkcja liniowa/wielomian opisujące dane, prosta/hiperpłaszczyzna oddzielająca przykłady.
Umożliwiało to opis algorytmu/modelu w języku operacji matematycznych.
Algorytmy uczenia maszynowego miały za zadanie dobrać parametry modelu.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Ludzie vs algorytmy/maszynyBudowaniu modelu rzeczywistości!...
Większość metod, które pojawiły się dotychczas na wykładzie zakładało, że istnieje prosty model rzeczywistości, taki jak
funkcja liniowa/wielomian opisujące dane, prosta/hiperpłaszczyzna oddzielająca przykłady.
Umożliwiało to opis algorytmu/modelu w języku operacji matematycznych.
Algorytmy uczenia maszynowego miały za zadanie dobrać parametry modelu.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Ludzie vs algorytmy/maszynyBudowaniu modelu rzeczywistości!...
Większość metod, które pojawiły się dotychczas na wykładzie zakładało, że istnieje prosty model rzeczywistości, taki jak
funkcja liniowa/wielomian opisujące dane,
prosta/hiperpłaszczyzna oddzielająca przykłady.
Umożliwiało to opis algorytmu/modelu w języku operacji matematycznych.
Algorytmy uczenia maszynowego miały za zadanie dobrać parametry modelu.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Ludzie vs algorytmy/maszynyBudowaniu modelu rzeczywistości!...
Większość metod, które pojawiły się dotychczas na wykładzie zakładało, że istnieje prosty model rzeczywistości, taki jak
funkcja liniowa/wielomian opisujące dane, prosta/hiperpłaszczyzna oddzielająca przykłady.
Umożliwiało to opis algorytmu/modelu w języku operacji matematycznych.
Algorytmy uczenia maszynowego miały za zadanie dobrać parametry modelu.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Ludzie vs algorytmy/maszynyBudowaniu modelu rzeczywistości!...
Większość metod, które pojawiły się dotychczas na wykładzie zakładało, że istnieje prosty model rzeczywistości, taki jak
funkcja liniowa/wielomian opisujące dane, prosta/hiperpłaszczyzna oddzielająca przykłady.
Umożliwiało to opis algorytmu/modelu w języku operacji matematycznych.
Algorytmy uczenia maszynowego miały za zadanie dobrać parametry modelu.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Ludzie vs algorytmy/maszynyBudowaniu modelu rzeczywistości!...
Większość metod, które pojawiły się dotychczas na wykładzie zakładało, że istnieje prosty model rzeczywistości, taki jak
funkcja liniowa/wielomian opisujące dane, prosta/hiperpłaszczyzna oddzielająca przykłady.
Umożliwiało to opis algorytmu/modelu w języku operacji matematycznych.
Algorytmy uczenia maszynowego miały za zadanie dobrać parametry modelu.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Ludzie vs algorytmy/maszyny...żeby zautomatyzować podejmowanie decyzji!
Stworzony model służył do podjęcia decyzji – zaklasyfikowania przykładu lub obliczenia wartości.
Ale nie braliśmy pod uwagę sposobu w jaki decyzje podejmują ludzie. . .
. . . z drobnym wyjątkiem metody
kNN, która podejmuje decyzje na bazie opinii otoczenia.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Ludzie vs algorytmy/maszyny...żeby zautomatyzować podejmowanie decyzji!
Stworzony model służył do podjęcia decyzji – zaklasyfikowania przykładu lub obliczenia wartości.
Ale nie braliśmy pod uwagę sposobu w jaki decyzje podejmują ludzie. . .
. . . z drobnym wyjątkiem metody
kNN, która podejmuje decyzje na bazie opinii otoczenia.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Ludzie vs algorytmy/maszyny...żeby zautomatyzować podejmowanie decyzji!
Stworzony model służył do podjęcia decyzji – zaklasyfikowania przykładu lub obliczenia wartości.
Ale nie braliśmy pod uwagę sposobu w jaki decyzje podejmują ludzie. . .
. . . z drobnym wyjątkiem metody
kNN, która podejmuje decyzje na bazie opinii otoczenia.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Ludzie vs algorytmy/maszyny...żeby zautomatyzować podejmowanie decyzji!
Stworzony model służył do podjęcia decyzji – zaklasyfikowania przykładu lub obliczenia wartości.
Ale nie braliśmy pod uwagę sposobu w jaki decyzje podejmują ludzie. . .
. . . z drobnym wyjątkiem metody
kNN, która podejmuje decyzje na bazie opinii otoczenia.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Ludzie vs algorytmy/maszyny...żeby zautomatyzować podejmowanie decyzji!
Stworzony model służył do podjęcia decyzji – zaklasyfikowania przykładu lub obliczenia wartości.
Ale nie braliśmy pod uwagę sposobu w jaki decyzje podejmują ludzie. . .
. . . z drobnym wyjątkiem metody kNN, która podejmuje decyzje na bazie opinii otoczenia.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Reprezentacja wiedzyZałóżmy, że detektyw zna wzrost i wagę poszukiwanej osoby.
W jaki sposób zadecyduje jakiej płci jest ta osoba?
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Reprezentacja wiedzyZałóżmy, że detektyw zna wzrost i wagę poszukiwanej osoby. W jaki sposób zadecyduje jakiej płci jest ta osoba?
Za pomocą algorytmu. . .
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Reprezentacja wiedzyZałóżmy, że detektyw zna wzrost i wagę poszukiwanej osoby. W jaki sposób zadecyduje jakiej płci jest ta osoba?
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Reprezentacja wiedzy d e f j a k a p l e c ( wzrost , waga ) : i f w z r o s t > 1 8 0 : r e t u r n ”M” e l s e: i f waga > 8 0 : r e t u r n ”M” e l s e: r e t u r n ”K”(1) sprawdź jaki jest wzrost:
7→ osoby powyżej 180 cm
wzrostu to najczęściej mężczyźni
(2) dla osoby o niższym wzroście oceniamy wagę
7→ osoby o wadze powyżej
80 kg to raczej mężczyźni
7→ osoby o wadze poniżej
80 kg to zazwyczaj kobiety
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Reprezentacja wiedzy d e f j a k a p l e c ( wzrost , waga ) : i f w z r o s t > 1 8 0 : r e t u r n ”M” e l s e: i f waga > 8 0 : r e t u r n ”M” e l s e: r e t u r n ”K”(1) sprawdź jaki jest wzrost:
7→ osoby powyżej 180 cm
wzrostu to najczęściej mężczyźni
(2) dla osoby o niższym wzroście oceniamy wagę
7→ osoby o wadze powyżej
80 kg to raczej mężczyźni
7→ osoby o wadze poniżej
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Reprezentacja wiedzy d e f j a k a p l e c ( wzrost , waga ) : i f w z r o s t > 1 8 0 : r e t u r n ”M” e l s e: i f waga > 8 0 : r e t u r n ”M” e l s e: r e t u r n ”K”(1) sprawdź jaki jest wzrost:
7→ osoby powyżej 180 cm
wzrostu to najczęściej mężczyźni
(2) dla osoby o niższym wzroście oceniamy wagę
7→ osoby o wadze powyżej
80 kg to raczej mężczyźni
7→ osoby o wadze poniżej
80 kg to zazwyczaj kobiety
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Reprezentacja wiedzy d e f j a k a p l e c ( wzrost , waga ) : i f w z r o s t > 1 8 0 : r e t u r n ”M” e l s e: i f waga > 8 0 : r e t u r n ”M” e l s e: r e t u r n ”K”(1) sprawdź jaki jest wzrost:
7→ osoby powyżej 180 cm
wzrostu to najczęściej mężczyźni
(2) dla osoby o niższym wzroście oceniamy wagę
7→ osoby o wadze powyżej
80 kg to raczej mężczyźni
7→ osoby o wadze poniżej
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Reprezentacja wiedzy d e f j a k a p l e c ( wzrost , waga ) : i f w z r o s t > 1 8 0 : r e t u r n ”M” e l s e: i f waga > 8 0 : r e t u r n ”M” e l s e: r e t u r n ”K”(1) sprawdź jaki jest wzrost:
7→ osoby powyżej 180 cm
wzrostu to najczęściej mężczyźni
(2) dla osoby o niższym wzroście oceniamy wagę
7→ osoby o wadze powyżej
80 kg to raczej mężczyźni
7→ osoby o wadze poniżej
80 kg to zazwyczaj kobiety
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Reprezentacja wiedzydane poszukiwnej osoby
wzrost > 180 mężczyzna tak waga > 80 mężczyzna tak kobieta nie nie
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Reprezentacja wiedzydane poszukiwnej osoby
wzrost > 180 mężczyzna tak waga > 80 mężczyzna tak kobieta nie nie testowanie 11 / 68
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Reprezentacja wiedzydane poszukiwnej osoby
wzrost > 180 mężczyzna tak waga > 80 mężczyzna tak kobieta nie nie testowanie
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Wyciąganie wnioskówWiedza jest reprezentowana w postaci drzewa.
Węzły drzewa określają sposób podziału przestrzeni cech na obszary/klasy.
Liście drzewa określają klasę, do której należy klasyfikowany obiekt.
Proces klasyfikacji polega na przejściu od korzenia drzewa do liści.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Wyciąganie wnioskówWiedza jest reprezentowana w postaci drzewa.
Węzły drzewa określają sposób podziału przestrzeni cech na obszary/klasy.
Liście drzewa określają klasę, do której należy klasyfikowany obiekt.
Proces klasyfikacji polega na przejściu od korzenia drzewa do liści.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Wyciąganie wnioskówWiedza jest reprezentowana w postaci drzewa.
Węzły drzewa określają sposób podziału przestrzeni cech na obszary/klasy.
Liście drzewa określają klasę, do której należy klasyfikowany obiekt.
Proces klasyfikacji polega na przejściu od korzenia drzewa do liści.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Wyciąganie wnioskówWiedza jest reprezentowana w postaci drzewa.
Węzły drzewa określają sposób podziału przestrzeni cech na obszary/klasy.
Liście drzewa określają klasę, do której należy klasyfikowany obiekt.
Proces klasyfikacji polega na przejściu od korzenia drzewa do liści.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Wyciąganie wniosków Budowa drzewaNa jakiej podstawie policja zbudowała schemat określania płci?
Wykorzystane zostało do tego doświadczenie w postaci informacji na temat występowania cech w populacji.
Doświadczenie zostało zapisane jako drzewo.
Jeżeli moglibyśmy stworzyć takie drzewo automatycznie, to nasz model rzeczywistości byłby podobny to tego tworzonego przez ludzi.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Wyciąganie wniosków Budowa drzewaNa jakiej podstawie policja zbudowała schemat określania płci? Wykorzystane zostało do tego doświadczenie w postaci informacji na temat występowania cech w populacji.
Doświadczenie zostało zapisane jako drzewo.
Jeżeli moglibyśmy stworzyć takie drzewo automatycznie, to nasz model rzeczywistości byłby podobny to tego tworzonego przez ludzi.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Wyciąganie wniosków Budowa drzewaNa jakiej podstawie policja zbudowała schemat określania płci? Wykorzystane zostało do tego doświadczenie w postaci informacji na temat występowania cech w populacji.
Doświadczenie zostało zapisane jako drzewo.
Jeżeli moglibyśmy stworzyć takie drzewo automatycznie, to nasz model rzeczywistości byłby podobny to tego tworzonego przez ludzi.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie Ludzie vs algorytmy/maszyny Reprezentacja wiedzy Wyciąganie wniosków
Podejmowanie decyzji
Wyciąganie wniosków Budowa drzewaNa jakiej podstawie policja zbudowała schemat określania płci? Wykorzystane zostało do tego doświadczenie w postaci informacji na temat występowania cech w populacji.
Doświadczenie zostało zapisane jako drzewo.
Jeżeli moglibyśmy stworzyć takie drzewo automatycznie, to nasz model rzeczywistości byłby podobny to tego tworzonego przez ludzi.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART Przykład zastosowania Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART Przykład zastosowania Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Automatyczne hodowanie drzew
Zastosowanie uczenia maszynowego do generowania drzew decyzyjnych to automatyczne wykrywanie wzorców w danych i tworzenie na ich podstawie schematów podejmowania decyzji.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Algorytm CART
CART
Algorytm CART (ang. Classification and Regression Trees) bazuje na wykorzystaniu struktury drzewa binarnego do predykcji – zarówno klasyfikacji, jak i regresji.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Algorytm CART
Zasada działania
Algorytm CART tworzy węzeł, a następnie
dokonuje podziału zbioru treningowego na dwa podzbiory
względem odpowiednio dobranych cechy k oraz progu tk,
sprawdza czy dany węzeł spełnia warunek stopu,
jeżeli tak, to węzeł staje się liściem,
jeżeli nie, to algorytm wywołuje się rekurencyjnie dla obu podzbiorów.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Algorytm CART
Zasada działania
Algorytm CART tworzy węzeł, a następnie
dokonuje podziału zbioru treningowego na dwa podzbiory
względem odpowiednio dobranych cechy k oraz progu tk,
sprawdza czy dany węzeł spełnia warunek stopu,
jeżeli tak, to węzeł staje się liściem,
jeżeli nie, to algorytm wywołuje się rekurencyjnie dla obu podzbiorów.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Algorytm CART
Zasada działania
Algorytm CART tworzy węzeł, a następnie
dokonuje podziału zbioru treningowego na dwa podzbiory
względem odpowiednio dobranych cechy k oraz progu tk,
sprawdza czy dany węzeł spełnia warunek stopu,
jeżeli tak, to węzeł staje się liściem,
jeżeli nie, to algorytm wywołuje się rekurencyjnie dla obu podzbiorów.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Algorytm CART
Zasada działania
Algorytm CART tworzy węzeł, a następnie
dokonuje podziału zbioru treningowego na dwa podzbiory
względem odpowiednio dobranych cechy k oraz progu tk,
sprawdza czy dany węzeł spełnia warunek stopu,
jeżeli tak, to węzeł staje się liściem,
jeżeli nie, to algorytm wywołuje się rekurencyjnie dla obu podzbiorów.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Algorytm CART
dane poszukiwnej osoby
wzrost > 180 mężczyzna tak waga > 80 mężczyzna tak kobieta nie nie węzły
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Algorytm CART
Podział zbioru uczącego
Algorytm CART dokonuje podziału zbioru uczącego według cechy k tak, że X< (X>) to zbiór elementów dla których wartość cechy k
jest mniejsza (większa) od tk.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Algorytm CART
Funkcja kosztu
Podział na podzbiory ma minimalizować funkcję kosztu określoną dla cechy k oraz progu tk jako
J(k, tk) = m<
m G<+ m>
m G>
gdzie G< (G>) to miara zanieczyszczenia lewego (prawego)
podzbioru, a m< (m>) to liczność elementów dla lewego (prawego)
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Algorytm CART
Warunek stopu
Algorytm CART zatrzymuje się jeżeli
nie może znaleźć podziału zmniejszającego zanieczyszczenie, lub osiągnie maksymalną dopuszczalną głębokość drzewa.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Algorytm CART
Warunek stopu
Algorytm CART zatrzymuje się jeżeli
nie może znaleźć podziału zmniejszającego zanieczyszczenie,
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Algorytm CART
Warunek stopu
Algorytm CART zatrzymuje się jeżeli
nie może znaleźć podziału zmniejszającego zanieczyszczenie, lub osiągnie maksymalną dopuszczalną głębokość drzewa.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Algorytm CART
Miara zanieczyszczenia
Najczęściej wykorzystywane miary zanieczyszczenia to indeks
Giniego G (pk) = n X k=1 pk(1 − pk) =1 − n X k=1 pk2 oraz entropia H(pk) =− n X k=1 pklog pk.
Liczby pk,Pnk=1pk =1, określają częstość występowania elementów klasy k.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Algorytm CART
Indeks Giniego
Indeks lub współczynnik Giniego to także pojęcie z
ekonometrii, gdzie służy on do określani poziomu nierówności w populacji.
Indeks Giniego to szczególny przypadek entropii Tsallisa.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Algorytm CART 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 G(p, 1 − p) oraz H(p, 1 − p) dla p ∈ [0, 1] Entropia Gini
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Algorytm CART
Węzły czyste
Entropia oraz indeks Giniego są równe zero jedynie wówczas, gdy węzeł jest czysty, tzn. gdy w węźle występują tylko elementy jednej klasy.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Algorytm CART
Algorytm CART jest algorytmem zachłannym.
Znalezienie optymalnego drzewa wymaga czasu, który rośnie jako O(exp(m)) względem rozmiaru zbioru uczącego i jest problemem NP-zupełnym.
Algorytm CART bazuje na drzewach binarnych, ale inne algorytmy (np. ID3) mogą mieć więcej rozgałęzień na każdym poziomie.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Algorytm CART
Algorytm CART jest algorytmem zachłannym.
Znalezienie optymalnego drzewa wymaga czasu, który rośnie jako O(exp(m)) względem rozmiaru zbioru uczącego i jest problemem NP-zupełnym.
Algorytm CART bazuje na drzewach binarnych, ale inne algorytmy (np. ID3) mogą mieć więcej rozgałęzień na każdym poziomie.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Algorytm CART
Algorytm CART jest algorytmem zachłannym.
Znalezienie optymalnego drzewa wymaga czasu, który rośnie jako O(exp(m)) względem rozmiaru zbioru uczącego i jest problemem NP-zupełnym.
Algorytm CART bazuje na drzewach binarnych, ale inne algorytmy (np. ID3) mogą mieć więcej rozgałęzień na każdym poziomie.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania
Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Przykład zastosowania
Zastosowanie
Przykład zastosowania DecisionTreeClassifier dla zbioru iris. (dt-iris-ex.py)
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania
Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Przykład zastosowania (wynik działania dla zbioru iris)
0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm) max depth=1
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania
Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Przykład zastosowania (wynik działania dla zbioru iris)
0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm) max depth=2
DecisionTreeClassifierdla iris
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania
Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Przykład zastosowania (wynik działania dla zbioru iris)
0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm) max depth=3
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania
Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Przykład zastosowania (wynik działania dla zbioru iris)
0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm) max depth=4
DecisionTreeClassifierdla iris
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania
Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Przykład zastosowania (wynik działania dla zbioru iris)
0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm) max depth=5
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania
Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Przykład zastosowania (drzewo wyhodowane dla zbioru iris)
petal length (cm) <= 2.45 gini = 0.667 samples = 150 value = [50, 50, 50] class = setosa gini = 0.0 samples = 50 value = [50, 0, 0] class = setosa True gini = 0.5 samples = 100 value = [0, 50, 50] class = versicolor False max depth=1 29 / 68
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania
Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Przykład zastosowania (drzewo wyhodowane dla zbioru iris)
petal length (cm) <= 2.45 gini = 0.667 samples = 150 value = [50, 50, 50] class = setosa gini = 0.0 samples = 50 value = [50, 0, 0] class = setosa True petal width (cm) <= 1.75 gini = 0.5 samples = 100 value = [0, 50, 50] class = versicolor False gini = 0.168 samples = 54 value = [0, 49, 5] class = versicolor gini = 0.043 samples = 46 value = [0, 1, 45] class = virginica
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania
Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Przykład zastosowania (drzewo wyhodowane dla zbioru iris)
petal width (cm) <= 0.8 gini = 0.667 samples = 150 value = [50, 50, 50] class = setosa gini = 0.0 samples = 50 value = [50, 0, 0] class = setosa True petal width (cm) <= 1.75 gini = 0.5 samples = 100 value = [0, 50, 50] class = versicolor False petal length (cm) <= 4.95 gini = 0.168 samples = 54 value = [0, 49, 5] class = versicolor petal length (cm) <= 4.85 gini = 0.043 samples = 46 value = [0, 1, 45] class = virginica gini = 0.041 samples = 48 value = [0, 47, 1] class = versicolor gini = 0.444 samples = 6 value = [0, 2, 4] class = virginica gini = 0.444 samples = 3 value = [0, 1, 2] class = virginica gini = 0.0 samples = 43 value = [0, 0, 43] class = virginica max depth=3 29 / 68
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania
Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Przykład zastosowania (drzewo wyhodowane dla zbioru iris)
petal length (cm) <= 2.45 gini = 0.667 samples = 150 value = [50, 50, 50] class = setosa gini = 0.0 samples = 50 value = [50, 0, 0] class = setosa True petal width (cm) <= 1.75 gini = 0.5 samples = 100 value = [0, 50, 50] class = versicolor False petal length (cm) <= 4.95 gini = 0.168 samples = 54 value = [0, 49, 5] class = versicolor petal length (cm) <= 4.85 gini = 0.043 samples = 46 value = [0, 1, 45] class = virginica petal width (cm) <= 1.65 gini = 0.041 samples = 48 value = [0, 47, 1] class = versicolor petal width (cm) <= 1.55 gini = 0.444 samples = 6 value = [0, 2, 4] class = virginica gini = 0.0 samples = 47 value = [0, 47, 0] class = versicolor gini = 0.0 samples = 1 value = [0, 0, 1] class = virginica gini = 0.0 samples = 3 value = [0, 0, 3] class = virginica gini = 0.444 samples = 3 value = [0, 2, 1] class = versicolor gini = 0.444 samples = 3 value = [0, 1, 2] class = virginica gini = 0.0 samples = 43 value = [0, 0, 43] class = virginica
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania
Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Przykład zastosowania (drzewo wyhodowane dla zbioru iris)
petal width (cm) <= 0.8 gini = 0.667 samples = 150 value = [50, 50, 50] class = setosa gini = 0.0 samples = 50 value = [50, 0, 0] class = setosa True petal width (cm) <= 1.75 gini = 0.5 samples = 100 value = [0, 50, 50] class = versicolor False petal length (cm) <= 4.95 gini = 0.168 samples = 54 value = [0, 49, 5] class = versicolor petal length (cm) <= 4.85 gini = 0.043 samples = 46 value = [0, 1, 45] class = virginica petal width (cm) <= 1.65 gini = 0.041 samples = 48 value = [0, 47, 1] class = versicolor petal width (cm) <= 1.55 gini = 0.444 samples = 6 value = [0, 2, 4] class = virginica gini = 0.0 samples = 47 value = [0, 47, 0] class = versicolor gini = 0.0 samples = 1 value = [0, 0, 1] class = virginica gini = 0.0 samples = 3 value = [0, 0, 3] class = virginica petal length (cm) <= 5.45 gini = 0.444 samples = 3 value = [0, 2, 1] class = versicolor gini = 0.0 samples = 2 value = [0, 2, 0] class = versicolor gini = 0.0 samples = 1 value = [0, 0, 1] class = virginica gini = 0.444 samples = 3 value = [0, 1, 2] class = virginica gini = 0.0 samples = 43 value = [0, 0, 43] class = virginica max depth=5 29 / 68
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania
Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Przykład zastosowania
Regularyzacja drzew
Dla iris ten model jest przetrenowany dlamax depth> 3.
Hiperparametr max depthokreśla maksymalną głębokość
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania
Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Przykład zastosowania
Regularyzacja drzew
Dla iris ten model jest przetrenowany dlamax depth> 3.
Hiperparametr max depthokreśla maksymalną głębokość
drzewa.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART
Przykład zastosowania
Porównanie z SVM Wady i zalety
Automatyczne hodowanie drzew
Przykład zastosowania
Regularyzacja drzew
Dla iris ten model jest przetrenowany dlamax depth> 3.
Hiperparametr max depthokreśla maksymalną głębokość
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART Przykład zastosowania
Porównanie z SVM
Wady i zalety
Automatyczne hodowanie drzew
Porównanie z SVM
Porównanie
Porównanie drzew decyzyjnych oraz SVM dla zbioru iris. (dt-svm-iris-ex.py)
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART Przykład zastosowania
Porównanie z SVM
Wady i zalety
Automatyczne hodowanie drzew
Porównanie z SVM
SVM – podział płaszczyzną z maksymalnym marginesem CART – podział na obszary względem poszczególnych cech
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART Przykład zastosowania
Porównanie z SVM
Wady i zalety
Automatyczne hodowanie drzew
Porównanie z SVM (dla zbioru iris)
0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)
DecisionTreeClassifier(max depth=3)
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART Przykład zastosowania
Porównanie z SVM
Wady i zalety
Automatyczne hodowanie drzew
Porównanie z SVM (dla zbioru iris)
0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm) SVC(kernel=’poly’, degree=3)
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART Przykład zastosowania
Porównanie z SVM
Wady i zalety
Automatyczne hodowanie drzew
Porównanie z SVM (dla zbioru iris)
0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm) DecisionTreeClassifieri SVC 33 / 68
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART Przykład zastosowania Porównanie z SVM
Wady i zalety
Automatyczne hodowanie drzew
Wady i zalety
Zalety drzew decyzyjnych
uniwersalność – brak założeń co do rozkładu oraz postaci
danych, możliwość działania zarówno z danymi ciągłymi jak i z dyskretnymi
interpretowalność – są algorytmami typu white box – wynik
ich działania jest bezpośrednio określony przez strukturę drzewa i może być prześledzony oraz zinterpretowany
łatwość wykorzystania – mało parametrów, brak
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART Przykład zastosowania Porównanie z SVM
Wady i zalety
Automatyczne hodowanie drzew
Wady i zalety
Zalety drzew decyzyjnych
uniwersalność – brak założeń co do rozkładu oraz postaci
danych, możliwość działania zarówno z danymi ciągłymi jak i z dyskretnymi
interpretowalność – są algorytmami typu white box – wynik
ich działania jest bezpośrednio określony przez strukturę drzewa i może być prześledzony oraz zinterpretowany
łatwość wykorzystania – mało parametrów, brak
konieczności normalizacji
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART Przykład zastosowania Porównanie z SVM
Wady i zalety
Automatyczne hodowanie drzew
Wady i zalety
Zalety drzew decyzyjnych
uniwersalność – brak założeń co do rozkładu oraz postaci
danych, możliwość działania zarówno z danymi ciągłymi jak i z dyskretnymi
interpretowalność – są algorytmami typu white box – wynik
ich działania jest bezpośrednio określony przez strukturę drzewa i może być prześledzony oraz zinterpretowany
łatwość wykorzystania – mało parametrów, brak
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART Przykład zastosowania Porównanie z SVM
Wady i zalety
Automatyczne hodowanie drzew
Wady i zalety
Zalety drzew decyzyjnych
uniwersalność – brak założeń co do rozkładu oraz postaci
danych, możliwość działania zarówno z danymi ciągłymi jak i z dyskretnymi
interpretowalność – są algorytmami typu white box – wynik
ich działania jest bezpośrednio określony przez strukturę drzewa i może być prześledzony oraz zinterpretowany
łatwość wykorzystania – mało parametrów, brak
konieczności normalizacji
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART Przykład zastosowania Porównanie z SVM
Wady i zalety
Automatyczne hodowanie drzew
Wady i zalety
Wady drzew decyzyjnych
wrażliwość na małe zmiany w danych podatność na przetrenowanie
Rozwiązaniem tych problemów są lasy losowe, które są przykładem metody zespołowej!
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART Przykład zastosowania Porównanie z SVM
Wady i zalety
Automatyczne hodowanie drzew
Wady i zalety
Wady drzew decyzyjnych
wrażliwość na małe zmiany w danych
podatność na przetrenowanie
Rozwiązaniem tych problemów są lasy losowe, które są przykładem metody zespołowej!
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART Przykład zastosowania Porównanie z SVM
Wady i zalety
Automatyczne hodowanie drzew
Wady i zalety
Wady drzew decyzyjnych
wrażliwość na małe zmiany w danych podatność na przetrenowanie
Rozwiązaniem tych problemów są lasy losowe, które są przykładem metody zespołowej!
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Algorytm CART Przykład zastosowania Porównanie z SVM
Wady i zalety
Automatyczne hodowanie drzew
Wady i zalety
Wady drzew decyzyjnych
wrażliwość na małe zmiany w danych podatność na przetrenowanie
Rozwiązaniem tych problemów są lasy losowe, które są przykładem metody zespołowej!
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
Głosowanie klasyfikatorów
Dotychczas poznaliśmy kilka metod budowania klasyfikatorów: kNN, regresja logistyczna, SVM, drzewa decyzyjne.
Każdy z tych klasyfikatorów podejmował decyzje w inny sposób.
Każdy z tych klasyfikatorów miał swoje słabe strony. Jeżeli chcemy ograniczyć ilość pomyłek w klasyfikacji, to możemy wykorzystać jednocześnie kilka klasyfikatorów i podjąć decyzję bazując na wszystkich wynikach.
Najprościej można to zrobić na zasadzie głosowania
większościowego.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
Głosowanie klasyfikatorów
Dotychczas poznaliśmy kilka metod budowania klasyfikatorów: kNN, regresja logistyczna, SVM, drzewa decyzyjne.
Każdy z tych klasyfikatorów podejmował decyzje w inny sposób.
Każdy z tych klasyfikatorów miał swoje słabe strony. Jeżeli chcemy ograniczyć ilość pomyłek w klasyfikacji, to możemy wykorzystać jednocześnie kilka klasyfikatorów i podjąć decyzję bazując na wszystkich wynikach.
Najprościej można to zrobić na zasadzie głosowania
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
Głosowanie klasyfikatorów
Dotychczas poznaliśmy kilka metod budowania klasyfikatorów: kNN, regresja logistyczna, SVM, drzewa decyzyjne.
Każdy z tych klasyfikatorów podejmował decyzje w inny sposób.
Każdy z tych klasyfikatorów miał swoje słabe strony.
Jeżeli chcemy ograniczyć ilość pomyłek w klasyfikacji, to możemy wykorzystać jednocześnie kilka klasyfikatorów i podjąć decyzję bazując na wszystkich wynikach.
Najprościej można to zrobić na zasadzie głosowania
większościowego.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
Głosowanie klasyfikatorów
Dotychczas poznaliśmy kilka metod budowania klasyfikatorów: kNN, regresja logistyczna, SVM, drzewa decyzyjne.
Każdy z tych klasyfikatorów podejmował decyzje w inny sposób.
Każdy z tych klasyfikatorów miał swoje słabe strony. Jeżeli chcemy ograniczyć ilość pomyłek w klasyfikacji, to możemy wykorzystać jednocześnie kilka klasyfikatorów i podjąć decyzję bazując na wszystkich wynikach.
Najprościej można to zrobić na zasadzie głosowania
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
Głosowanie klasyfikatorów
Dotychczas poznaliśmy kilka metod budowania klasyfikatorów: kNN, regresja logistyczna, SVM, drzewa decyzyjne.
Każdy z tych klasyfikatorów podejmował decyzje w inny sposób.
Każdy z tych klasyfikatorów miał swoje słabe strony. Jeżeli chcemy ograniczyć ilość pomyłek w klasyfikacji, to możemy wykorzystać jednocześnie kilka klasyfikatorów i podjąć decyzję bazując na wszystkich wynikach.
Najprościej można to zrobić na zasadzie głosowania
większościowego.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
Głosowanie klasyfikatorów
Jeżeli klasyfikacja ma być podjęta na zasadzie głosowania większościowego, to zestawienie klasyfikatorów które są niewiele lepsze niż losowy wybór, daje znaczną poprawę skuteczności.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
Przypomina to trochę rzut (nieuczciwą) monetą
Załóżmy, że nasz proces daje 1 z prawdopodobieństwem p > 1
2 Jakie będzie prawdopodobieństwo, że w wyniku realizacji n powtórzeń procesu otrzymamy więcej wyników 1 niż 0?
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
...czyli mamy proces Bernouliego
W wyniku n realizacji mamy prawdopodobieństwo uzyskania k wyników 0 równe pn−k(1 − p)k
Taki proces można zrealizować na n
k
= k!(n−k)!n! sposobów.
Chcemy mieć więcej 1 niż 0, czyli interesują nas sytuacje gdy liczby 0 jest równa 0, 1, . . . ,n
2 Wszystko składa się na wzór
n/2 X k=0 n k ! pn−k(1 − p)k
określający jakie jest prawdopodobieństwo uzyskania 1 w wyniku głosowania większościowego.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
...czyli mamy proces Bernouliego
W wyniku n realizacji mamy prawdopodobieństwo uzyskania k wyników 0 równe pn−k(1 − p)k
Taki proces można zrealizować na n
k
= k!(n−k)!n! sposobów.
Chcemy mieć więcej 1 niż 0, czyli interesują nas sytuacje gdy liczby 0 jest równa 0, 1, . . . ,n
2 Wszystko składa się na wzór
n/2 X k=0 n k ! pn−k(1 − p)k
określający jakie jest prawdopodobieństwo uzyskania 1 w wyniku głosowania większościowego.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
...czyli mamy proces Bernouliego
W wyniku n realizacji mamy prawdopodobieństwo uzyskania k wyników 0 równe pn−k(1 − p)k
Taki proces można zrealizować na n
k
= k!(n−k)!n! sposobów.
Chcemy mieć więcej 1 niż 0, czyli interesują nas sytuacje gdy liczby 0 jest równa 0, 1, . . . ,n
2 Wszystko składa się na wzór
n/2 X k=0 n k ! pn−k(1 − p)k
określający jakie jest prawdopodobieństwo uzyskania 1 w wyniku głosowania większościowego.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
...czyli mamy proces Bernouliego
W wyniku n realizacji mamy prawdopodobieństwo uzyskania k wyników 0 równe pn−k(1 − p)k
Taki proces można zrealizować na n
k
= k!(n−k)!n! sposobów.
Chcemy mieć więcej 1 niż 0, czyli interesują nas sytuacje gdy liczby 0 jest równa 0, 1, . . . ,n
2
Wszystko składa się na wzór n/2 X k=0 n k ! pn−k(1 − p)k
określający jakie jest prawdopodobieństwo uzyskania 1 w wyniku głosowania większościowego.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
...czyli mamy proces Bernouliego
W wyniku n realizacji mamy prawdopodobieństwo uzyskania k wyników 0 równe pn−k(1 − p)k
Taki proces można zrealizować na n
k
= k!(n−k)!n! sposobów.
Chcemy mieć więcej 1 niż 0, czyli interesują nas sytuacje gdy liczby 0 jest równa 0, 1, . . . ,n
2 Wszystko składa się na wzór
n/2 X k=0 n k ! pn−k(1 − p)k
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
Prawdopodobieństwo poprawnej klasyfikacji poprzez głosowanie większościowe n klasyfikatorów dających poprawną klasyfikację z prawdopodobieństwem p. 1 50 100 150 200 250 300 350 400 450 500 n 0.0 0.2 0.4 0.6 0.8 1.0 Pra wdop odobieńst w o p =0.51 41 / 68
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
Prawdopodobieństwo poprawnej klasyfikacji poprzez głosowanie większościowe n klasyfikatorów dających poprawną klasyfikację z prawdopodobieństwem p. 0.2 0.4 0.6 0.8 1.0 Pra wdop odobieńst w o p =0.53
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
Prawdopodobieństwo poprawnej klasyfikacji poprzez głosowanie większościowe n klasyfikatorów dających poprawną klasyfikację z prawdopodobieństwem p. 1 50 100 150 200 250 300 350 400 450 500 n 0.0 0.2 0.4 0.6 0.8 1.0 Pra wdop odobieńst w o p =0.55 41 / 68
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
Prawdopodobieństwo poprawnej klasyfikacji poprzez głosowanie większościowe n klasyfikatorów dających poprawną klasyfikację z prawdopodobieństwem p. 0.2 0.4 0.6 0.8 1.0 Pra wdop odobieńst w o p =0.57
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
Prawdopodobieństwo poprawnej klasyfikacji poprzez głosowanie większościowe n klasyfikatorów dających poprawną klasyfikację z prawdopodobieństwem p. 1 50 100 150 200 250 300 350 400 450 500 n 0.0 0.2 0.4 0.6 0.8 1.0 Pra wdop odobieńst w o p =0.6 41 / 68
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
Niezależność klasyfikatorów
Takie wzmacnianie klasyfikatorów działa pod warunkiem, że są one niezależne.
Dlaczego?...
Ale skoro klasyfikatory są trenowane na tych samych danych, to nie mogą być one niezależne...
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
Niezależność klasyfikatorów
Takie wzmacnianie klasyfikatorów działa pod warunkiem, że są one niezależne.
Dlaczego?...
Ale skoro klasyfikatory są trenowane na tych samych danych, to nie mogą być one niezależne...
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
Niezależność klasyfikatorów
Takie wzmacnianie klasyfikatorów działa pod warunkiem, że są one niezależne.
Dlaczego?...
Ale skoro klasyfikatory są trenowane na tych samych danych, to nie mogą być one niezależne...
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
Zespoły klasyfikatorów
Wykorzystanie do klasyfikacji kilku klasyfikatorów nazywamy tworzeniem zespołu klasyfikatorów. Metody uczenia maszynowego wykorzystujące zespoły algorytmów do poprawienia predykcji nazywane są metodami zespołowymi (ang. ensemble methods).
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
Ensamble
Za wykorzystanie francuskiego słowa ensamble w uczeniu maszynowym i statystyce odpowiedzialny jest J. Willard Gibbs (1839-1903), który wprowadził do fizyki statystycznej pojęcie
zespołu statystycznego(ang. statistical ensamble) określając w ten
sposób abstrakcyjną kolekcję identycznych kopii układu. Zobacz: https://en.wikipedia.org/wiki/Josiah Willard Gibbs,
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
Niezależność klasyfikatorów
Metody zespołowe działają najlepiej gdy wykorzystane klasyfikatory są jak najbardziej niezależne.
Zastosowanie różnych algorytmów zapewnia, że klasyfikatory będą popełniały błędy różnego rodzaju.
Innym sposobem dywersyfikacji jest korzystanie z różnych danych treningowych.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
Niezależność klasyfikatorów
Metody zespołowe działają najlepiej gdy wykorzystane klasyfikatory są jak najbardziej niezależne.
Zastosowanie różnych algorytmów zapewnia, że klasyfikatory będą popełniały błędy różnego rodzaju.
Innym sposobem dywersyfikacji jest korzystanie z różnych danych treningowych.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Głosowanie klasyfikatorów
Metody zespołowe
Głosowanie klasyfikatorów
Niezależność klasyfikatorów
Metody zespołowe działają najlepiej gdy wykorzystane klasyfikatory są jak najbardziej niezależne.
Zastosowanie różnych algorytmów zapewnia, że klasyfikatory będą popełniały błędy różnego rodzaju.
Innym sposobem dywersyfikacji jest korzystanie z różnych danych treningowych.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Bagging vs pasting Lasy losowe Boosting
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Bagging vs pasting Lasy losowe Boosting
Losowe hodowanie drzew
Spróbujemy tereza zastosować takie podejście....
Jak zwykle wejściowy zbiór treningowy zawiera elementy
(x1, y1), (x2, y2), . . . , (xm, ym),
czyli wektory cech xi wraz z etykietami yi. Wybieranie podzbiorów do treningu
W celu zróżnicowania klasyfikatorów poprzez trenowanie ich na różnych podzbiorach możemy próbkować zbiór treningowy.
Podejmowanie decyzji Automatyczne hodowanie drzew Metody zespołowe Losowe hodowanie drzew Podsumowanie
Bagging vs pasting Lasy losowe Boosting
Losowe hodowanie drzew
Spróbujemy tereza zastosować takie podejście.... Jak zwykle wejściowy zbiór treningowy zawiera elementy
(x1, y1), (x2, y2), . . . , (xm, ym),
czyli wektory cech xi wraz z etykietami yi.
Wybieranie podzbiorów do treningu
W celu zróżnicowania klasyfikatorów poprzez trenowanie ich na różnych podzbiorach możemy próbkować zbiór treningowy.