• Nie Znaleziono Wyników

Wykład 09 – Analiza skupień

N/A
N/A
Protected

Academic year: 2021

Share "Wykład 09 – Analiza skupień"

Copied!
142
0
0

Pełen tekst

(1)

Uczenie nienadzorowane Analiza skupień Podsumowanie

Podstawy uczenia maszynowego

Wykład 09 – Analiza skupień

Jarosław Miszczak

(2)

Uczenie nienadzorowane Analiza skupień Podsumowanie 1 Uczenie nienadzorowane 2 Analiza skupień 3 Podsumowanie

(3)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane Metody uczenia nienadzorowanego

(4)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

Algorytmy które pojawiały się dotychczas na wykładzie należały do grupy algorytmów uczenia nadzorowanego.

Zakładaliśmy, że na początku mamy do dyspozycji zbiór uczący postaci

(x1, y1), (x2, y2), . . . , (xm, ym),

złożony z wektorów cech xi wraz z etykietami yi.

Naszym zadaniem było zaproponowanie pewnego modelu ˆF,

który pozwoliłby nam przybliżyć zależność F między cechami a etykietami w zbiorze uczącym

(5)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

Algorytmy które pojawiały się dotychczas na wykładzie należały do grupy algorytmów uczenia nadzorowanego. Zakładaliśmy, że na początku mamy do dyspozycji zbiór uczący postaci

(x1, y1), (x2, y2), . . . , (xm, ym),

złożony z wektorów cech xi wraz z etykietami yi.

Naszym zadaniem było zaproponowanie pewnego modelu ˆF,

który pozwoliłby nam przybliżyć zależność F między cechami a etykietami w zbiorze uczącym

(6)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

Algorytmy które pojawiały się dotychczas na wykładzie należały do grupy algorytmów uczenia nadzorowanego. Zakładaliśmy, że na początku mamy do dyspozycji zbiór uczący postaci

(x1, y1), (x2, y2), . . . , (xm, ym),

złożony z wektorów cech xi wraz z etykietami yi.

Naszym zadaniem było zaproponowanie pewnego modelu ˆF,

który pozwoliłby nam przybliżyć zależność F między cechami a etykietami w zbiorze uczącym

(7)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

W zbiorze iris, etykiety zawierają wiedzę o przynależności do klas.

1.5 2.5 3.5 4.5 5.5 6.5 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm)

(8)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

W tym wypadku kolory to określone przez specjalistę gatunki.

1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm)

(9)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

(10)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

Dane iris pozbawione etykiet tracą interesującą nas informację.

1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm)

(11)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

Brak informacji o etykiecie oznacza, że mamy do dyspozycji zbiór postaci

x1, x2, . . . , xm,

złożony z wektorów cech xi i pozbawiony etykiet.

Ponieważ dodanie etykiet wymaga ingerencji człowieka, w większości przypadków, dane są ich pozbawione.

Dane są ich pozbawione pozbawione etykiet, bo ich uzyskanie jest czasochłonne i drogie.

Google Crowdsource

Amazon MTurk – artificial artificial intelligence

(12)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

Brak informacji o etykiecie oznacza, że mamy do dyspozycji zbiór postaci

x1, x2, . . . , xm,

złożony z wektorów cech xi i pozbawiony etykiet.

Ponieważ dodanie etykiet wymaga ingerencji człowieka, w większości przypadków, dane są ich pozbawione.

Dane są ich pozbawione pozbawione etykiet, bo ich uzyskanie jest czasochłonne i drogie.

Google Crowdsource

Amazon MTurk – artificial artificial intelligence

(13)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

Brak informacji o etykiecie oznacza, że mamy do dyspozycji zbiór postaci

x1, x2, . . . , xm,

złożony z wektorów cech xi i pozbawiony etykiet.

Ponieważ dodanie etykiet wymaga ingerencji człowieka, w większości przypadków, dane są ich pozbawione.

Dane są ich pozbawione pozbawione etykiet, bo ich uzyskanie jest czasochłonne i drogie.

Google Crowdsource

Amazon MTurk – artificial artificial intelligence

(14)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

Brak informacji o etykiecie oznacza, że mamy do dyspozycji zbiór postaci

x1, x2, . . . , xm,

złożony z wektorów cech xi i pozbawiony etykiet.

Ponieważ dodanie etykiet wymaga ingerencji człowieka, w większości przypadków, dane są ich pozbawione.

Dane są ich pozbawione pozbawione etykiet, bo ich uzyskanie jest czasochłonne i drogie.

Google Crowdsource

Amazon MTurk – artificial artificial intelligence

(15)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

Brak informacji o etykiecie oznacza, że mamy do dyspozycji zbiór postaci

x1, x2, . . . , xm,

złożony z wektorów cech xi i pozbawiony etykiet.

Ponieważ dodanie etykiet wymaga ingerencji człowieka, w większości przypadków, dane są ich pozbawione.

Dane są ich pozbawione pozbawione etykiet, bo ich uzyskanie jest czasochłonne i drogie.

Google Crowdsource

Amazon MTurk – artificial artificial intelligence

(16)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

Brak informacji o etykiecie oznacza, że mamy do dyspozycji zbiór postaci

x1, x2, . . . , xm,

złożony z wektorów cech xi i pozbawiony etykiet.

Ponieważ dodanie etykiet wymaga ingerencji człowieka, w większości przypadków, dane są ich pozbawione.

Dane są ich pozbawione pozbawione etykiet, bo ich uzyskanie jest czasochłonne i drogie.

Google Crowdsource

Amazon MTurk – artificial artificial intelligence

(17)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

Nadzorowane vs nienadzorowane

W ramach uczenia nienadzorowanego naszym zadaniem jest

odkrycieinteresującej informacji/wiedzy zawartej w danych.

W uczeniu nadzorowanym naszym celem było zmaksymalizowanie pθ(yi|xi).

W uczeniu nienadzorowanym naszym celem jest zbudowanie modelu pθ(xi).

(18)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

Nadzorowane vs nienadzorowane

W ramach uczenia nienadzorowanego naszym zadaniem jest

odkrycieinteresującej informacji/wiedzy zawartej w danych.

W uczeniu nadzorowanym naszym celem było zmaksymalizowanie pθ(yi|xi).

W uczeniu nienadzorowanym naszym celem jest zbudowanie modelu pθ(xi).

(19)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

Nadzorowane vs nienadzorowane

W ramach uczenia nienadzorowanego naszym zadaniem jest

odkrycieinteresującej informacji/wiedzy zawartej w danych.

W uczeniu nadzorowanym naszym celem było zmaksymalizowanie pθ(yi|xi).

W uczeniu nienadzorowanym naszym celem jest zbudowanie modelu pθ(xi).

(20)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

Uczenie się ludzi

Uczenie nienadzorowane jest bardziej niż uczenie nadzorowane naśladuje proces uczenia typowy dla ludzi.

Dostając informację ’to jest pies’ dostajemy mało informacji. Część mózgu odpowiedzialna za przetwarzanie danych

wizualnych ma 1014połączeń.

Człowiek żyje 109 sekund,

zatem do odpowiedniego

ukształtowanie tych połączeń człowiek potrzebuj 105 bitów na

sekundę.

P.F. Gorder, Neural Networks Show New Promise for Machine Vision, Computing in Science & Engineering, Vol. 8, No. 6, 2006.

(21)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

Uczenie się ludzi

Uczenie nienadzorowane jest bardziej niż uczenie nadzorowane naśladuje proces uczenia typowy dla ludzi.

Dostając informację ’to jest pies’ dostajemy mało informacji. Część mózgu odpowiedzialna za przetwarzanie danych

wizualnych ma 1014połączeń.

Człowiek żyje 109 sekund,

zatem do odpowiedniego

ukształtowanie tych połączeń człowiek potrzebuj 105 bitów na

sekundę.

P.F. Gorder, Neural Networks Show New Promise for Machine Vision, Computing in Science & Engineering, Vol. 8, No. 6, 2006.

(22)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

Uczenie się ludzi

Uczenie nienadzorowane jest bardziej niż uczenie nadzorowane naśladuje proces uczenia typowy dla ludzi.

Dostając informację ’to jest pies’ dostajemy mało informacji.

Część mózgu odpowiedzialna za przetwarzanie danych

wizualnych ma 1014połączeń.

Człowiek żyje 109 sekund,

zatem do odpowiedniego

ukształtowanie tych połączeń człowiek potrzebuj 105 bitów na

sekundę.

P.F. Gorder, Neural Networks Show New Promise for Machine Vision, Computing in Science & Engineering, Vol. 8, No. 6, 2006.

(23)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

Uczenie się ludzi

Uczenie nienadzorowane jest bardziej niż uczenie nadzorowane naśladuje proces uczenia typowy dla ludzi.

Dostając informację ’to jest pies’ dostajemy mało informacji. Część mózgu odpowiedzialna za przetwarzanie danych

wizualnych ma 1014połączeń.

Człowiek żyje 109 sekund,

zatem do odpowiedniego

ukształtowanie tych połączeń człowiek potrzebuj 105 bitów na

sekundę.

P.F. Gorder, Neural Networks Show New Promise for Machine Vision, Computing in Science & Engineering, Vol. 8, No. 6, 2006.

(24)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

Uczenie się ludzi

Uczenie nienadzorowane jest bardziej niż uczenie nadzorowane naśladuje proces uczenia typowy dla ludzi.

Dostając informację ’to jest pies’ dostajemy mało informacji. Część mózgu odpowiedzialna za przetwarzanie danych

wizualnych ma 1014połączeń.

Człowiek żyje 109 sekund,

zatem do odpowiedniego

ukształtowanie tych połączeń człowiek potrzebuj 105 bitów na

sekundę.

P.F. Gorder, Neural Networks Show New Promise for Machine Vision, Computing in Science & Engineering, Vol. 8, No. 6, 2006.

(25)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

Uczenie się ludzi

Uczenie nienadzorowane jest bardziej niż uczenie nadzorowane naśladuje proces uczenia typowy dla ludzi.

Dostając informację ’to jest pies’ dostajemy mało informacji. Część mózgu odpowiedzialna za przetwarzanie danych

wizualnych ma 1014połączeń.

Człowiek żyje 109 sekund, zatem do odpowiedniego

ukształtowanie tych połączeń człowiek potrzebuj 105 bitów na

sekundę.

P.F. Gorder, Neural Networks Show New Promise for Machine Vision, Computing in Science & Engineering, Vol. 8, No. 6, 2006.

(26)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Nadzorowane vs nienadzorowane

Uczenie się ludzi

Uczenie nienadzorowane jest bardziej niż uczenie nadzorowane naśladuje proces uczenia typowy dla ludzi.

Dostając informację ’to jest pies’ dostajemy mało informacji. Część mózgu odpowiedzialna za przetwarzanie danych

wizualnych ma 1014połączeń.

Człowiek żyje 109 sekund, zatem do odpowiedniego

ukształtowanie tych połączeń człowiek potrzebuj 105 bitów na

sekundę.

P.F. Gorder, Neural Networks Show New Promise for Machine Vision, Computing in Science & Engineering, Vol. 8, No. 6, 2006.

(27)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Metody uczenia nienadzorowanego

Podstawową metodą uczenia nienadzorowanego jest analiza

skupień, nazywana również klasteryzacją.

Jej celem jest odkrywanie grup elementów o wspólnych cechach i łączenie ich w grupy zwane klastrami – stąd też inna nazwa tej metody: klasteryzacja lub grupowanie.

(28)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Metody uczenia nienadzorowanego

Podstawową metodą uczenia nienadzorowanego jest analiza

skupień, nazywana również klasteryzacją.

Jej celem jest odkrywanie grup elementów o wspólnych cechach i łączenie ich w grupy zwane klastrami – stąd też inna nazwa tej metody: klasteryzacja lub grupowanie.

(29)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Metody uczenia nienadzorowanego

Jeżeli w naszych danych występują cechy, które nie są ważne, to ich usunięcie jest możliwe poprzez zastosowanie redukcji

wymiarowości.

Do tego typu zadania służy analiza składowych głównych (ang. principle component analysis).

(30)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Metody uczenia nienadzorowanego

Jeżeli w naszych danych występują cechy, które nie są ważne, to ich usunięcie jest możliwe poprzez zastosowanie redukcji

wymiarowości.

Do tego typu zadania służy analiza składowych głównych (ang. principle component analysis).

(31)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

(32)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów

Najprostszym algorytmem grupowania jest algorytm grupowania k-średnich (ang. k-means).

Metoda ta łączy elementy w grupy na podstawie ich

podobieństwa, rozumianego jako odległość między wektorami

cech.

Algorytm minimalizuje sumę kwadratów odległości między wektorami klastra a centrum klastra, określonego jako średnia wektorów w klastrze.

(33)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów

Najprostszym algorytmem grupowania jest algorytm grupowania k-średnich (ang. k-means).

Metoda ta łączy elementy w grupy na podstawie ich

podobieństwa, rozumianego jako odległość między wektorami

cech.

Algorytm minimalizuje sumę kwadratów odległości między wektorami klastra a centrum klastra, określonego jako średnia wektorów w klastrze.

(34)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów

Najprostszym algorytmem grupowania jest algorytm grupowania k-średnich (ang. k-means).

Metoda ta łączy elementy w grupy na podstawie ich

podobieństwa, rozumianego jako odległość między wektorami

cech.

Algorytm minimalizuje sumę kwadratów odległości między wektorami klastra a centrum klastra, określonego jako średnia wektorów w klastrze.

(35)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów Algorytm Lloyda-Forgyego

Algorytm k-means został wymyślony w 1965 roku przez Stuarta Lloyda pracującego w Bell Laboratories.

Praca Lloyda opublikowana została jednak dopiero w 1982 roku. Ponieważ w 1965 roku taki sam algorytm opublikował Edward W. Forgy, algorytm k-means jest nazywany czasem algorytmem

Lloyda-Forgyego.

S. Lloyd, Least squares quantization in PCM, IEEE Transactions on Information Theory 28.2 (1982): 129-137.

(36)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów Algorytm Lloyda-Forgyego

Algorytm k-means został wymyślony w 1965 roku przez Stuarta Lloyda pracującego w Bell Laboratories.

Praca Lloyda opublikowana została jednak dopiero w 1982 roku.

Ponieważ w 1965 roku taki sam algorytm opublikował Edward W. Forgy, algorytm k-means jest nazywany czasem algorytmem

Lloyda-Forgyego.

S. Lloyd, Least squares quantization in PCM, IEEE Transactions on Information Theory 28.2 (1982): 129-137.

(37)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów Algorytm Lloyda-Forgyego

Algorytm k-means został wymyślony w 1965 roku przez Stuarta Lloyda pracującego w Bell Laboratories.

Praca Lloyda opublikowana została jednak dopiero w 1982 roku. Ponieważ w 1965 roku taki sam algorytm opublikował Edward W. Forgy, algorytm k-means jest nazywany czasem algorytmem

Lloyda-Forgyego.

S. Lloyd, Least squares quantization in PCM, IEEE Transactions on Information Theory 28.2 (1982): 129-137.

(38)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów

Metoda k-means dobrze sprawdza się jeżeli nasze dane układają się wyraźnie w grupy o podobnym rozproszeniu.

W zbiorze iris tak nie jest, ale zobaczmy jak k-means sobie z tym poradzi.

(39)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów

Metoda k-means dobrze sprawdza się jeżeli nasze dane układają się wyraźnie w grupy o podobnym rozproszeniu. W zbiorze iris tak nie jest, ale zobaczmy jak k-means sobie z tym poradzi.

(40)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów 1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm) n clusters=9

(41)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów 1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm) n clusters=8

(42)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów 1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm) n clusters=7

(43)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów 1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm) n clusters=6

(44)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów 1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm) n clusters=5

(45)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów 1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm) n clusters=4

(46)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów 1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm) n clusters=3

(47)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów 1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm) n clusters=2

(48)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów 1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm) n clusters=1

(49)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów

Podział zbioru na klastry jest zależny od hiperparametru k (w klasie KMeans modułu sklearn.cluster kontroluje go

parametr n clusters).

Dla k = 1 wszystko wpada do jednej grupy.

Dla k = 3 odtwarzany jest podział na klasy odpowiadające gatunkom.

W przypadku klasteryzacji wynikowe kolory nie oznaczają klas, a jedynie przynależność do klastrów.

Otrzymane przypisanie do klas jest różne dla każdego wywołania procedury.

(50)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów

Podział zbioru na klastry jest zależny od hiperparametru k (w klasie KMeans modułu sklearn.cluster kontroluje go

parametr n clusters).

Dla k = 1 wszystko wpada do jednej grupy.

Dla k = 3 odtwarzany jest podział na klasy odpowiadające gatunkom.

W przypadku klasteryzacji wynikowe kolory nie oznaczają klas, a jedynie przynależność do klastrów.

Otrzymane przypisanie do klas jest różne dla każdego wywołania procedury.

(51)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów

Podział zbioru na klastry jest zależny od hiperparametru k (w klasie KMeans modułu sklearn.cluster kontroluje go

parametr n clusters).

Dla k = 1 wszystko wpada do jednej grupy.

Dla k = 3 odtwarzany jest podział na klasy odpowiadające gatunkom.

W przypadku klasteryzacji wynikowe kolory nie oznaczają klas, a jedynie przynależność do klastrów.

Otrzymane przypisanie do klas jest różne dla każdego wywołania procedury.

(52)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów

Podział zbioru na klastry jest zależny od hiperparametru k (w klasie KMeans modułu sklearn.cluster kontroluje go

parametr n clusters).

Dla k = 1 wszystko wpada do jednej grupy.

Dla k = 3 odtwarzany jest podział na klasy odpowiadające gatunkom.

W przypadku klasteryzacji wynikowe kolory nie oznaczają klas, a jedynie przynależność do klastrów.

Otrzymane przypisanie do klas jest różne dla każdego wywołania procedury.

(53)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów

Podział zbioru na klastry jest zależny od hiperparametru k (w klasie KMeans modułu sklearn.cluster kontroluje go

parametr n clusters).

Dla k = 1 wszystko wpada do jednej grupy.

Dla k = 3 odtwarzany jest podział na klasy odpowiadające gatunkom.

W przypadku klasteryzacji wynikowe kolory nie oznaczają klas, a jedynie przynależność do klastrów.

Otrzymane przypisanie do klas jest różne dla każdego wywołania procedury.

(54)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów Diagram Woronoja

Podział danych metodą k-means prowadzi do podziału płaszczyzny na komórki Woronoja według klastrów.

Punkt wpada do komórki Woronoja dla klastra do którego jego odległość jest najmniejsza. Taki podział jest nazywany diagramem Woronoja.

(55)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów Diagram Woronoja

Podział danych metodą k-means prowadzi do podziału płaszczyzny na komórki Woronoja według klastrów. Punkt wpada do komórki Woronoja dla klastra do którego jego odległość jest najmniejsza.

(56)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów Diagram Woronoja

Podział danych metodą k-means prowadzi do podziału płaszczyzny na komórki Woronoja według klastrów. Punkt wpada do komórki Woronoja dla klastra do którego jego odległość jest najmniejsza. Taki podział jest nazywany diagramem Woronoja.

(57)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)

(58)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)

(59)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)

(60)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)

(61)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)

(62)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)

(63)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)

(64)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)

(65)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)

(66)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów Liczba klastrów?

W jaki sposób dobrać liczbę klastrów, żeby uzyskać dobrą

klasteryzację?

Na to pytanie odpowiedź daje inercja, czyli suma kwadratów odległości elementów zbioru wejściowego od centrów klastrów (centroidów).

Algorytm k-means dąży do klastrów Cj z centroidami µj,

j =1, . . . , k, dla których suma inercji w obrębie klastrów jest najmniejsza min µj∈Cj k X j =1 X xi∈Cj kµj − xik2 2.

Jeżeli zwiększanie k zmniejsza inercję, to oznacza, iż można wyróżnić w zbiorze kolejną dobrze oddzieloną grupę.

(67)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów Liczba klastrów?

W jaki sposób dobrać liczbę klastrów, żeby uzyskać dobrą

klasteryzację?

Na to pytanie odpowiedź daje inercja, czyli suma kwadratów odległości elementów zbioru wejściowego od centrów klastrów (centroidów).

Algorytm k-means dąży do klastrów Cj z centroidami µj,

j =1, . . . , k, dla których suma inercji w obrębie klastrów jest najmniejsza min µj∈Cj k X j =1 X xi∈Cj kµj − xik2 2.

Jeżeli zwiększanie k zmniejsza inercję, to oznacza, iż można wyróżnić w zbiorze kolejną dobrze oddzieloną grupę.

(68)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów Liczba klastrów?

W jaki sposób dobrać liczbę klastrów, żeby uzyskać dobrą

klasteryzację?

Na to pytanie odpowiedź daje inercja, czyli suma kwadratów odległości elementów zbioru wejściowego od centrów klastrów (centroidów).

Algorytm k-means dąży do klastrów Cj z centroidami µj,

j =1, . . . , k, dla których suma inercji w obrębie klastrów jest najmniejsza min µj∈Cj k X j =1 X xi∈Cj kµj − xik2 2.

Jeżeli zwiększanie k zmniejsza inercję, to oznacza, iż można wyróżnić w zbiorze kolejną dobrze oddzieloną grupę.

(69)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów Liczba klastrów?

W jaki sposób dobrać liczbę klastrów, żeby uzyskać dobrą

klasteryzację?

Na to pytanie odpowiedź daje inercja, czyli suma kwadratów odległości elementów zbioru wejściowego od centrów klastrów (centroidów).

Algorytm k-means dąży do klastrów Cj z centroidami µj,

j =1, . . . , k, dla których suma inercji w obrębie klastrów jest najmniejsza min µj∈Cj k X j =1 X xi∈Cj kµj − xik2 2.

(70)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów 1 2 3 4 5 6 7 8 9 liczba klastrów 0 50 100 150 200 250 300 350 400 450 500 550 inercja

Inercja w funkcji liczby klastrów

W tym wypadku największy spadek inercji jest dla k = 2, co sugeruje, że w naszych danych są dwie wyraźnie oddzielne klasy.

(71)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów 1 2 3 4 5 6 7 8 9 liczba klastrów 0 50 100 150 200 250 300 350 400 450 500 550 inercja

Inercja w funkcji liczby klastrów

(72)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów Warunki początkowe

Celem metody k-means jest minimalizacja inercji.

Ale do obliczenia inercji konieczne jest wyznaczenie klastrów i ich centroidów.

Jeżeli już mamy wyznaczone k punktów reprezentujących klastry, to kolejne kroki algorytmu są proste.

Sprowadzają się one do iteracyjnego powtarzania dwóch kroków.

Przypisanie punktów klastrów poprzez wyliczenie ich odległości od centroidów.

Wyznaczenie nowych centroidów poprzez wyliczenie średniej z wektorów w klastrze.

Algorytm zatrzymuje się, gdy inercja w kolejnym kroku zmienia się mniej niż zadany próg.

(73)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów Warunki początkowe

Celem metody k-means jest minimalizacja inercji. Ale do obliczenia inercji konieczne jest wyznaczenie klastrów i ich centroidów.

Jeżeli już mamy wyznaczone k punktów reprezentujących klastry, to kolejne kroki algorytmu są proste.

Sprowadzają się one do iteracyjnego powtarzania dwóch kroków.

Przypisanie punktów klastrów poprzez wyliczenie ich odległości od centroidów.

Wyznaczenie nowych centroidów poprzez wyliczenie średniej z wektorów w klastrze.

Algorytm zatrzymuje się, gdy inercja w kolejnym kroku zmienia się mniej niż zadany próg.

(74)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów Warunki początkowe

Celem metody k-means jest minimalizacja inercji. Ale do obliczenia inercji konieczne jest wyznaczenie klastrów i ich centroidów.

Jeżeli już mamy wyznaczone k punktów reprezentujących klastry, to kolejne kroki algorytmu są proste.

Sprowadzają się one do iteracyjnego powtarzania dwóch kroków.

Przypisanie punktów klastrów poprzez wyliczenie ich odległości od centroidów.

Wyznaczenie nowych centroidów poprzez wyliczenie średniej z wektorów w klastrze.

Algorytm zatrzymuje się, gdy inercja w kolejnym kroku zmienia się mniej niż zadany próg.

(75)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów Warunki początkowe

Celem metody k-means jest minimalizacja inercji. Ale do obliczenia inercji konieczne jest wyznaczenie klastrów i ich centroidów.

Jeżeli już mamy wyznaczone k punktów reprezentujących klastry, to kolejne kroki algorytmu są proste.

Sprowadzają się one do iteracyjnego powtarzania dwóch kroków.

Przypisanie punktów klastrów poprzez wyliczenie ich odległości od centroidów.

Wyznaczenie nowych centroidów poprzez wyliczenie średniej z wektorów w klastrze.

Algorytm zatrzymuje się, gdy inercja w kolejnym kroku zmienia się mniej niż zadany próg.

(76)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów Warunki początkowe

Celem metody k-means jest minimalizacja inercji. Ale do obliczenia inercji konieczne jest wyznaczenie klastrów i ich centroidów.

Jeżeli już mamy wyznaczone k punktów reprezentujących klastry, to kolejne kroki algorytmu są proste.

Sprowadzają się one do iteracyjnego powtarzania dwóch kroków.

Przypisanie punktów klastrów poprzez wyliczenie ich odległości od centroidów.

Wyznaczenie nowych centroidów poprzez wyliczenie średniej z wektorów w klastrze.

Algorytm zatrzymuje się, gdy inercja w kolejnym kroku zmienia się mniej niż zadany próg.

(77)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów Warunki początkowe

Celem metody k-means jest minimalizacja inercji. Ale do obliczenia inercji konieczne jest wyznaczenie klastrów i ich centroidów.

Jeżeli już mamy wyznaczone k punktów reprezentujących klastry, to kolejne kroki algorytmu są proste.

Sprowadzają się one do iteracyjnego powtarzania dwóch kroków.

Przypisanie punktów klastrów poprzez wyliczenie ich odległości od centroidów.

Wyznaczenie nowych centroidów poprzez wyliczenie średniej z wektorów w klastrze.

Algorytm zatrzymuje się, gdy inercja w kolejnym kroku zmienia się mniej niż zadany próg.

(78)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów Warunki początkowe

Celem metody k-means jest minimalizacja inercji. Ale do obliczenia inercji konieczne jest wyznaczenie klastrów i ich centroidów.

Jeżeli już mamy wyznaczone k punktów reprezentujących klastry, to kolejne kroki algorytmu są proste.

Sprowadzają się one do iteracyjnego powtarzania dwóch kroków.

Przypisanie punktów klastrów poprzez wyliczenie ich odległości od centroidów.

Wyznaczenie nowych centroidów poprzez wyliczenie średniej z wektorów w klastrze.

Algorytm zatrzymuje się, gdy inercja w kolejnym kroku zmienia się mniej niż zadany próg.

(79)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów

Najprostszym sposobem wyboru centroidów jest wybranie k losowych elementów ze zbioru wejściowego.

(80)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów

Najprostszym sposobem wyboru centroidów jest wybranie k losowych elementów ze zbioru wejściowego.

(81)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów

Problem inicjalizacji centroidów można rozwiązać na kilka sposobów.

Najprostszą metodą jest powtórzenie procedury i wylosowanie różnych punktów początkowych.

Jeżeli znamy przybliżone położenie centroidów, to możemy wykorzystać je do inicjalizacji algorytmu.

Możemy też wybrać początkowe centroidy wychodząc z założenia, że nasze klastry stanowią wyraźnie oddzielone zgrupowania.

(82)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów

Problem inicjalizacji centroidów można rozwiązać na kilka sposobów.

Najprostszą metodą jest powtórzenie procedury i wylosowanie różnych punktów początkowych.

Jeżeli znamy przybliżone położenie centroidów, to możemy wykorzystać je do inicjalizacji algorytmu.

Możemy też wybrać początkowe centroidy wychodząc z założenia, że nasze klastry stanowią wyraźnie oddzielone zgrupowania.

(83)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów

Problem inicjalizacji centroidów można rozwiązać na kilka sposobów.

Najprostszą metodą jest powtórzenie procedury i wylosowanie różnych punktów początkowych.

Jeżeli znamy przybliżone położenie centroidów, to możemy wykorzystać je do inicjalizacji algorytmu.

Możemy też wybrać początkowe centroidy wychodząc z założenia, że nasze klastry stanowią wyraźnie oddzielone zgrupowania.

(84)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów

Problem inicjalizacji centroidów można rozwiązać na kilka sposobów.

Najprostszą metodą jest powtórzenie procedury i wylosowanie różnych punktów początkowych.

Jeżeli znamy przybliżone położenie centroidów, to możemy wykorzystać je do inicjalizacji algorytmu.

Możemy też wybrać początkowe centroidy wychodząc z założenia, że nasze klastry stanowią wyraźnie oddzielone zgrupowania.

(85)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów

Metodę inicjalizacji klastrów wykorzystującą założenie, że są one od siebie wyraźnie oddzielone zaproponowano w 2006 r.

Kolejne centroidy są wybierane z elementów zbioru wejściowego zależnie od ich odległości od centroidów już wybranych.

Element xi jest wybierany jako kolejny centroid z

prawdopodobieństwem

D(xi)2

Pm

j =1D(xj)2

,

gdzie D(xi)to odległość elementu xi od najbliższego

centroidu.

Pierwszy centroid musi zostać wybrany jednorodnie ze zbioru wejściowego.

(86)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów

Metodę inicjalizacji klastrów wykorzystującą założenie, że są one od siebie wyraźnie oddzielone zaproponowano w 2006 r. Kolejne centroidy są wybierane z elementów zbioru

wejściowego zależnie od ich odległości od centroidów już wybranych.

Element xi jest wybierany jako kolejny centroid z

prawdopodobieństwem

D(xi)2

Pm

j =1D(xj)2

,

gdzie D(xi)to odległość elementu xi od najbliższego

centroidu.

Pierwszy centroid musi zostać wybrany jednorodnie ze zbioru wejściowego.

(87)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów

Metodę inicjalizacji klastrów wykorzystującą założenie, że są one od siebie wyraźnie oddzielone zaproponowano w 2006 r. Kolejne centroidy są wybierane z elementów zbioru

wejściowego zależnie od ich odległości od centroidów już wybranych.

Element xi jest wybierany jako kolejny centroid z

prawdopodobieństwem

D(xi)2

Pm

j =1D(xj)2

,

gdzie D(xi)to odległość elementu xi od najbliższego

centroidu.

Pierwszy centroid musi zostać wybrany jednorodnie ze zbioru wejściowego.

(88)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Metody k klastrów

Metodę inicjalizacji klastrów wykorzystującą założenie, że są one od siebie wyraźnie oddzielone zaproponowano w 2006 r. Kolejne centroidy są wybierane z elementów zbioru

wejściowego zależnie od ich odległości od centroidów już wybranych.

Element xi jest wybierany jako kolejny centroid z

prawdopodobieństwem

D(xi)2

Pm

j =1D(xj)2

,

gdzie D(xi)to odległość elementu xi od najbliższego

centroidu.

Pierwszy centroid musi zostać wybrany jednorodnie ze zbioru wejściowego.

(89)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN

Sprytna inicjalizacja klastrów poprawia zbieżność metody k-means. . .

. . . ale nie uwalnia nas od założenia, że klastry są jednorodne i wypukłe.

Minimalizacja inercji nie sprawdza się, gdy klastry mają nieregularne kształty.

(90)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN

Sprytna inicjalizacja klastrów poprawia zbieżność metody k-means. . .

. . . ale nie uwalnia nas od założenia, że klastry są jednorodne i wypukłe.

Minimalizacja inercji nie sprawdza się, gdy klastry mają nieregularne kształty.

(91)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN

Sprytna inicjalizacja klastrów poprawia zbieżność metody k-means. . .

. . . ale nie uwalnia nas od założenia, że klastry są jednorodne i wypukłe.

Minimalizacja inercji nie sprawdza się, gdy klastry mają nieregularne kształty.

(92)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN

Sprytna inicjalizacja klastrów poprawia zbieżność metody k-means. . .

. . . ale nie uwalnia nas od założenia, że klastry są jednorodne i wypukłe.

Minimalizacja inercji nie sprawdza się, gdy klastry mają nieregularne kształty.

(93)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN

Przykład ze zbiorem moons

Przykład działania k-means oraz DBSCAN na danych moons. (clustering-moons-ex.py)

(94)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0

(95)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0

(96)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0

(97)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0

(98)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0

(99)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0

(100)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0

(101)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0

(102)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN

Wyraźnie widać, że k-means stara się podzielić zbiór na jednorodne podzbiory.

(103)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN

Wyraźnie widać, że k-means stara się podzielić zbiór na jednorodne podzbiory.

(104)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN

Rozwiązaniem problemu wybierania klastrów na podstawie własności geometrycznych jest dobieranie ich na podstawie

gęstości występowania elementów.

Na takim podejściu oparty jest algorytm DBSCAN (ang.

Density-Based Spatial Clustering of Applications with Noise)

DBSCAN sprawdza otoczenia wszystkich elementów zbioru wejściowego o zadanym promieniu.

Jeżeli otoczenie elementu zawiera pewną minimalną liczbę sąsiadów, to element ten staje się jądrem klastra.

Wszystkie elementy w otoczeniu jądra klastra należą do tego samego klastra.

Otoczenie jądra klastra może zawierać inne jądra i w ten sposób formuje się klaster.

Elementy nie mające w pobliżu jąder klastra są uznawane za szum.

(105)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN

Rozwiązaniem problemu wybierania klastrów na podstawie własności geometrycznych jest dobieranie ich na podstawie

gęstości występowania elementów.

Na takim podejściu oparty jest algorytm DBSCAN (ang.

Density-Based Spatial Clustering of Applications with Noise)

DBSCAN sprawdza otoczenia wszystkich elementów zbioru wejściowego o zadanym promieniu.

Jeżeli otoczenie elementu zawiera pewną minimalną liczbę sąsiadów, to element ten staje się jądrem klastra.

Wszystkie elementy w otoczeniu jądra klastra należą do tego samego klastra.

Otoczenie jądra klastra może zawierać inne jądra i w ten sposób formuje się klaster.

Elementy nie mające w pobliżu jąder klastra są uznawane za szum.

(106)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN

Rozwiązaniem problemu wybierania klastrów na podstawie własności geometrycznych jest dobieranie ich na podstawie

gęstości występowania elementów.

Na takim podejściu oparty jest algorytm DBSCAN (ang.

Density-Based Spatial Clustering of Applications with Noise)

DBSCAN sprawdza otoczenia wszystkich elementów zbioru wejściowego o zadanym promieniu.

Jeżeli otoczenie elementu zawiera pewną minimalną liczbę sąsiadów, to element ten staje się jądrem klastra.

Wszystkie elementy w otoczeniu jądra klastra należą do tego samego klastra.

Otoczenie jądra klastra może zawierać inne jądra i w ten sposób formuje się klaster.

Elementy nie mające w pobliżu jąder klastra są uznawane za szum.

(107)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN

Rozwiązaniem problemu wybierania klastrów na podstawie własności geometrycznych jest dobieranie ich na podstawie

gęstości występowania elementów.

Na takim podejściu oparty jest algorytm DBSCAN (ang.

Density-Based Spatial Clustering of Applications with Noise)

DBSCAN sprawdza otoczenia wszystkich elementów zbioru wejściowego o zadanym promieniu.

Jeżeli otoczenie elementu zawiera pewną minimalną liczbę sąsiadów, to element ten staje się jądrem klastra.

Wszystkie elementy w otoczeniu jądra klastra należą do tego samego klastra.

Otoczenie jądra klastra może zawierać inne jądra i w ten sposób formuje się klaster.

Elementy nie mające w pobliżu jąder klastra są uznawane za szum.

(108)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN

Rozwiązaniem problemu wybierania klastrów na podstawie własności geometrycznych jest dobieranie ich na podstawie

gęstości występowania elementów.

Na takim podejściu oparty jest algorytm DBSCAN (ang.

Density-Based Spatial Clustering of Applications with Noise)

DBSCAN sprawdza otoczenia wszystkich elementów zbioru wejściowego o zadanym promieniu.

Jeżeli otoczenie elementu zawiera pewną minimalną liczbę sąsiadów, to element ten staje się jądrem klastra.

Wszystkie elementy w otoczeniu jądra klastra należą do tego samego klastra.

Otoczenie jądra klastra może zawierać inne jądra i w ten sposób formuje się klaster.

Elementy nie mające w pobliżu jąder klastra są uznawane za szum.

(109)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN

Rozwiązaniem problemu wybierania klastrów na podstawie własności geometrycznych jest dobieranie ich na podstawie

gęstości występowania elementów.

Na takim podejściu oparty jest algorytm DBSCAN (ang.

Density-Based Spatial Clustering of Applications with Noise)

DBSCAN sprawdza otoczenia wszystkich elementów zbioru wejściowego o zadanym promieniu.

Jeżeli otoczenie elementu zawiera pewną minimalną liczbę sąsiadów, to element ten staje się jądrem klastra.

Wszystkie elementy w otoczeniu jądra klastra należą do tego samego klastra.

Otoczenie jądra klastra może zawierać inne jądra i w ten sposób formuje się klaster.

Elementy nie mające w pobliżu jąder klastra są uznawane za szum.

(110)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN

Rozwiązaniem problemu wybierania klastrów na podstawie własności geometrycznych jest dobieranie ich na podstawie

gęstości występowania elementów.

Na takim podejściu oparty jest algorytm DBSCAN (ang.

Density-Based Spatial Clustering of Applications with Noise)

DBSCAN sprawdza otoczenia wszystkich elementów zbioru wejściowego o zadanym promieniu.

Jeżeli otoczenie elementu zawiera pewną minimalną liczbę sąsiadów, to element ten staje się jądrem klastra.

Wszystkie elementy w otoczeniu jądra klastra należą do tego samego klastra.

Otoczenie jądra klastra może zawierać inne jądra i w ten sposób formuje się klaster.

Elementy nie mające w pobliżu jąder klastra są uznawane za szum.

(111)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0

(112)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN

DBSCAN jest kontrolowany przez dwa hiperparametry

eps – promień otoczenia elementu w którym powinny znaleźć się elementy sąsiednie żeby utworzyć jądro klastra

min samples – minimalna liczba sąsiadów konieczna do utworzenia jądra

Większe min samples oraz mniejsze eps oznaczają, że do formowania klastrów konieczna jest większa gęstość elementów.

DBSCAN nie wymaga ustalenia na wejściu liczby klastrów – jest ona dobierana przez algorytm.

(113)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN

DBSCAN jest kontrolowany przez dwa hiperparametry

eps – promień otoczenia elementu w którym powinny znaleźć się elementy sąsiednie żeby utworzyć jądro klastra

min samples – minimalna liczba sąsiadów konieczna do utworzenia jądra

Większe min samples oraz mniejsze eps oznaczają, że do formowania klastrów konieczna jest większa gęstość elementów.

DBSCAN nie wymaga ustalenia na wejściu liczby klastrów – jest ona dobierana przez algorytm.

(114)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN

DBSCAN jest kontrolowany przez dwa hiperparametry

eps – promień otoczenia elementu w którym powinny znaleźć się elementy sąsiednie żeby utworzyć jądro klastra

min samples – minimalna liczba sąsiadów konieczna do utworzenia jądra

Większe min samples oraz mniejsze eps oznaczają, że do formowania klastrów konieczna jest większa gęstość elementów.

DBSCAN nie wymaga ustalenia na wejściu liczby klastrów – jest ona dobierana przez algorytm.

(115)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN

DBSCAN jest kontrolowany przez dwa hiperparametry

eps – promień otoczenia elementu w którym powinny znaleźć się elementy sąsiednie żeby utworzyć jądro klastra

min samples – minimalna liczba sąsiadów konieczna do utworzenia jądra

Większe min samples oraz mniejsze eps oznaczają, że do formowania klastrów konieczna jest większa gęstość elementów.

DBSCAN nie wymaga ustalenia na wejściu liczby klastrów – jest ona dobierana przez algorytm.

(116)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN

DBSCAN jest kontrolowany przez dwa hiperparametry

eps – promień otoczenia elementu w którym powinny znaleźć się elementy sąsiednie żeby utworzyć jądro klastra

min samples – minimalna liczba sąsiadów konieczna do utworzenia jądra

Większe min samples oraz mniejsze eps oznaczają, że do formowania klastrów konieczna jest większa gęstość elementów.

DBSCAN nie wymaga ustalenia na wejściu liczby klastrów – jest ona dobierana przez algorytm.

(117)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0 1.5 eps=0.25

(118)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0 1.5 eps=0.2

(119)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0 1.5 eps=0.15

(120)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0 1.5 eps=0.1

(121)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0 1.5 eps=0.08

(122)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Inne algorytmy – klasteryzacja hierarchiczna

W przypadku dużych ilości danych problemem jest przeglądanie wszystkich punktów/klastrów.

BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)

Algorytm zaprojektowany dla dużych baz danych.

Procedura bazuje na obserwacji, że przestrzeń atrybutów nie jest obsadzona jednorodnie i nie wszystkie punkty są tak samo ważne.

Jest to metoda hierarchiczna – tworzy hierarchię klasyfikacji. Algorytm buduje drzewo pozwalające na szybkie określenie przynależności do klastra.

(123)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Inne algorytmy – klasteryzacja hierarchiczna

W przypadku dużych ilości danych problemem jest przeglądanie wszystkich punktów/klastrów.

BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)

Algorytm zaprojektowany dla dużych baz danych.

Procedura bazuje na obserwacji, że przestrzeń atrybutów nie jest obsadzona jednorodnie i nie wszystkie punkty są tak samo ważne.

Jest to metoda hierarchiczna – tworzy hierarchię klasyfikacji. Algorytm buduje drzewo pozwalające na szybkie określenie przynależności do klastra.

(124)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

Inne algorytmy – klasteryzacja hierarchiczna

W przypadku dużych ilości danych problemem jest przeglądanie wszystkich punktów/klastrów.

BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)

Algorytm zaprojektowany dla dużych baz danych.

Procedura bazuje na obserwacji, że przestrzeń atrybutów nie jest obsadzona jednorodnie i nie wszystkie punkty są tak samo ważne.

Jest to metoda hierarchiczna – tworzy hierarchię klasyfikacji. Algorytm buduje drzewo pozwalające na szybkie określenie przynależności do klastra.

Cytaty

Powiązane dokumenty

Przygotować krótką prezentację o trzech popularnych algorytmach w analizie skupień: metoda k-means, metoda grupowania wokół centroidów (pariEoning around medoids) oraz

Drzewa decyzyjne oraz analiza skupień w środowisku Rattle.. Wczytanie

Grupowanie (ang. Podstawowym założeniem doty- czącym wynikowego podziału jest homogeniczność obiektów wchodzących w skład jednej grupy oraz heterogeniczność samych grup –

 diss logical flag: if TRUE (default for dist or dissimilarity objects), then x is assumed to be a dissimilarity matrix. If FALSE, then x is treated as a matrix of observations by

Problem z przykładu 1.2.1, w przykładzie 1.2.2 zapisany w postaci

zwala to analizowaæ polimorficzne komunikaty jako przekazy wielokodowe uformowane niekoniecznie zgodnie z konwencj¹ typow¹ dla sfery religijnej. W ramach tak interpretowanej

Profilaktyką alkoholową zajmują się instytucje, takie jak: Miejskie i Gminne Ośrodki Pomocy Rodzinie, Gminne Komisje do Spraw Rozwiązywania Proble‑ mów Alkoholowych i

I tak typ 6 (grupa jednostek najbardziej charakterystycznych dla rolnictwa Wielkopolski) to klasy I i II oprócz powiatu Poznań, który w analizie skupień został wyłączony