Uczenie nienadzorowane Analiza skupień Podsumowanie
Podstawy uczenia maszynowego
Wykład 09 – Analiza skupień
Jarosław Miszczak
Uczenie nienadzorowane Analiza skupień Podsumowanie 1 Uczenie nienadzorowane 2 Analiza skupień 3 Podsumowanie
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneAlgorytmy które pojawiały się dotychczas na wykładzie należały do grupy algorytmów uczenia nadzorowanego.
Zakładaliśmy, że na początku mamy do dyspozycji zbiór uczący postaci
(x1, y1), (x2, y2), . . . , (xm, ym),
złożony z wektorów cech xi wraz z etykietami yi.
Naszym zadaniem było zaproponowanie pewnego modelu ˆF,
który pozwoliłby nam przybliżyć zależność F między cechami a etykietami w zbiorze uczącym
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneAlgorytmy które pojawiały się dotychczas na wykładzie należały do grupy algorytmów uczenia nadzorowanego. Zakładaliśmy, że na początku mamy do dyspozycji zbiór uczący postaci
(x1, y1), (x2, y2), . . . , (xm, ym),
złożony z wektorów cech xi wraz z etykietami yi.
Naszym zadaniem było zaproponowanie pewnego modelu ˆF,
który pozwoliłby nam przybliżyć zależność F między cechami a etykietami w zbiorze uczącym
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneAlgorytmy które pojawiały się dotychczas na wykładzie należały do grupy algorytmów uczenia nadzorowanego. Zakładaliśmy, że na początku mamy do dyspozycji zbiór uczący postaci
(x1, y1), (x2, y2), . . . , (xm, ym),
złożony z wektorów cech xi wraz z etykietami yi.
Naszym zadaniem było zaproponowanie pewnego modelu ˆF,
który pozwoliłby nam przybliżyć zależność F między cechami a etykietami w zbiorze uczącym
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneW zbiorze iris, etykiety zawierają wiedzę o przynależności do klas.
1.5 2.5 3.5 4.5 5.5 6.5 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm)
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneW tym wypadku kolory to określone przez specjalistę gatunki.
1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm)
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneUczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneDane iris pozbawione etykiet tracą interesującą nas informację.
1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm)
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneBrak informacji o etykiecie oznacza, że mamy do dyspozycji zbiór postaci
x1, x2, . . . , xm,
złożony z wektorów cech xi i pozbawiony etykiet.
Ponieważ dodanie etykiet wymaga ingerencji człowieka, w większości przypadków, dane są ich pozbawione.
Dane są ich pozbawione pozbawione etykiet, bo ich uzyskanie jest czasochłonne i drogie.
Google Crowdsource
Amazon MTurk – artificial artificial intelligence
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneBrak informacji o etykiecie oznacza, że mamy do dyspozycji zbiór postaci
x1, x2, . . . , xm,
złożony z wektorów cech xi i pozbawiony etykiet.
Ponieważ dodanie etykiet wymaga ingerencji człowieka, w większości przypadków, dane są ich pozbawione.
Dane są ich pozbawione pozbawione etykiet, bo ich uzyskanie jest czasochłonne i drogie.
Google Crowdsource
Amazon MTurk – artificial artificial intelligence
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneBrak informacji o etykiecie oznacza, że mamy do dyspozycji zbiór postaci
x1, x2, . . . , xm,
złożony z wektorów cech xi i pozbawiony etykiet.
Ponieważ dodanie etykiet wymaga ingerencji człowieka, w większości przypadków, dane są ich pozbawione.
Dane są ich pozbawione pozbawione etykiet, bo ich uzyskanie jest czasochłonne i drogie.
Google Crowdsource
Amazon MTurk – artificial artificial intelligence
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneBrak informacji o etykiecie oznacza, że mamy do dyspozycji zbiór postaci
x1, x2, . . . , xm,
złożony z wektorów cech xi i pozbawiony etykiet.
Ponieważ dodanie etykiet wymaga ingerencji człowieka, w większości przypadków, dane są ich pozbawione.
Dane są ich pozbawione pozbawione etykiet, bo ich uzyskanie jest czasochłonne i drogie.
Google Crowdsource
Amazon MTurk – artificial artificial intelligence
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneBrak informacji o etykiecie oznacza, że mamy do dyspozycji zbiór postaci
x1, x2, . . . , xm,
złożony z wektorów cech xi i pozbawiony etykiet.
Ponieważ dodanie etykiet wymaga ingerencji człowieka, w większości przypadków, dane są ich pozbawione.
Dane są ich pozbawione pozbawione etykiet, bo ich uzyskanie jest czasochłonne i drogie.
Google Crowdsource
Amazon MTurk – artificial artificial intelligence
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneBrak informacji o etykiecie oznacza, że mamy do dyspozycji zbiór postaci
x1, x2, . . . , xm,
złożony z wektorów cech xi i pozbawiony etykiet.
Ponieważ dodanie etykiet wymaga ingerencji człowieka, w większości przypadków, dane są ich pozbawione.
Dane są ich pozbawione pozbawione etykiet, bo ich uzyskanie jest czasochłonne i drogie.
Google Crowdsource
Amazon MTurk – artificial artificial intelligence
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneNadzorowane vs nienadzorowane
W ramach uczenia nienadzorowanego naszym zadaniem jest
odkrycieinteresującej informacji/wiedzy zawartej w danych.
W uczeniu nadzorowanym naszym celem było zmaksymalizowanie pθ(yi|xi).
W uczeniu nienadzorowanym naszym celem jest zbudowanie modelu pθ(xi).
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneNadzorowane vs nienadzorowane
W ramach uczenia nienadzorowanego naszym zadaniem jest
odkrycieinteresującej informacji/wiedzy zawartej w danych.
W uczeniu nadzorowanym naszym celem było zmaksymalizowanie pθ(yi|xi).
W uczeniu nienadzorowanym naszym celem jest zbudowanie modelu pθ(xi).
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneNadzorowane vs nienadzorowane
W ramach uczenia nienadzorowanego naszym zadaniem jest
odkrycieinteresującej informacji/wiedzy zawartej w danych.
W uczeniu nadzorowanym naszym celem było zmaksymalizowanie pθ(yi|xi).
W uczeniu nienadzorowanym naszym celem jest zbudowanie modelu pθ(xi).
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneUczenie się ludzi
Uczenie nienadzorowane jest bardziej niż uczenie nadzorowane naśladuje proces uczenia typowy dla ludzi.
Dostając informację ’to jest pies’ dostajemy mało informacji. Część mózgu odpowiedzialna za przetwarzanie danych
wizualnych ma 1014połączeń.
Człowiek żyje 109 sekund,
zatem do odpowiedniego
ukształtowanie tych połączeń człowiek potrzebuj 105 bitów na
sekundę.
P.F. Gorder, Neural Networks Show New Promise for Machine Vision, Computing in Science & Engineering, Vol. 8, No. 6, 2006.
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneUczenie się ludzi
Uczenie nienadzorowane jest bardziej niż uczenie nadzorowane naśladuje proces uczenia typowy dla ludzi.
Dostając informację ’to jest pies’ dostajemy mało informacji. Część mózgu odpowiedzialna za przetwarzanie danych
wizualnych ma 1014połączeń.
Człowiek żyje 109 sekund,
zatem do odpowiedniego
ukształtowanie tych połączeń człowiek potrzebuj 105 bitów na
sekundę.
P.F. Gorder, Neural Networks Show New Promise for Machine Vision, Computing in Science & Engineering, Vol. 8, No. 6, 2006.
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneUczenie się ludzi
Uczenie nienadzorowane jest bardziej niż uczenie nadzorowane naśladuje proces uczenia typowy dla ludzi.
Dostając informację ’to jest pies’ dostajemy mało informacji.
Część mózgu odpowiedzialna za przetwarzanie danych
wizualnych ma 1014połączeń.
Człowiek żyje 109 sekund,
zatem do odpowiedniego
ukształtowanie tych połączeń człowiek potrzebuj 105 bitów na
sekundę.
P.F. Gorder, Neural Networks Show New Promise for Machine Vision, Computing in Science & Engineering, Vol. 8, No. 6, 2006.
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneUczenie się ludzi
Uczenie nienadzorowane jest bardziej niż uczenie nadzorowane naśladuje proces uczenia typowy dla ludzi.
Dostając informację ’to jest pies’ dostajemy mało informacji. Część mózgu odpowiedzialna za przetwarzanie danych
wizualnych ma 1014połączeń.
Człowiek żyje 109 sekund,
zatem do odpowiedniego
ukształtowanie tych połączeń człowiek potrzebuj 105 bitów na
sekundę.
P.F. Gorder, Neural Networks Show New Promise for Machine Vision, Computing in Science & Engineering, Vol. 8, No. 6, 2006.
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneUczenie się ludzi
Uczenie nienadzorowane jest bardziej niż uczenie nadzorowane naśladuje proces uczenia typowy dla ludzi.
Dostając informację ’to jest pies’ dostajemy mało informacji. Część mózgu odpowiedzialna za przetwarzanie danych
wizualnych ma 1014połączeń.
Człowiek żyje 109 sekund,
zatem do odpowiedniego
ukształtowanie tych połączeń człowiek potrzebuj 105 bitów na
sekundę.
P.F. Gorder, Neural Networks Show New Promise for Machine Vision, Computing in Science & Engineering, Vol. 8, No. 6, 2006.
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneUczenie się ludzi
Uczenie nienadzorowane jest bardziej niż uczenie nadzorowane naśladuje proces uczenia typowy dla ludzi.
Dostając informację ’to jest pies’ dostajemy mało informacji. Część mózgu odpowiedzialna za przetwarzanie danych
wizualnych ma 1014połączeń.
Człowiek żyje 109 sekund, zatem do odpowiedniego
ukształtowanie tych połączeń człowiek potrzebuj 105 bitów na
sekundę.
P.F. Gorder, Neural Networks Show New Promise for Machine Vision, Computing in Science & Engineering, Vol. 8, No. 6, 2006.
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Nadzorowane vs nienadzorowaneUczenie się ludzi
Uczenie nienadzorowane jest bardziej niż uczenie nadzorowane naśladuje proces uczenia typowy dla ludzi.
Dostając informację ’to jest pies’ dostajemy mało informacji. Część mózgu odpowiedzialna za przetwarzanie danych
wizualnych ma 1014połączeń.
Człowiek żyje 109 sekund, zatem do odpowiedniego
ukształtowanie tych połączeń człowiek potrzebuj 105 bitów na
sekundę.
P.F. Gorder, Neural Networks Show New Promise for Machine Vision, Computing in Science & Engineering, Vol. 8, No. 6, 2006.
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Metody uczenia nienadzorowanegoPodstawową metodą uczenia nienadzorowanego jest analiza
skupień, nazywana również klasteryzacją.
Jej celem jest odkrywanie grup elementów o wspólnych cechach i łączenie ich w grupy zwane klastrami – stąd też inna nazwa tej metody: klasteryzacja lub grupowanie.
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Metody uczenia nienadzorowanegoPodstawową metodą uczenia nienadzorowanego jest analiza
skupień, nazywana również klasteryzacją.
Jej celem jest odkrywanie grup elementów o wspólnych cechach i łączenie ich w grupy zwane klastrami – stąd też inna nazwa tej metody: klasteryzacja lub grupowanie.
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Metody uczenia nienadzorowanegoJeżeli w naszych danych występują cechy, które nie są ważne, to ich usunięcie jest możliwe poprzez zastosowanie redukcji
wymiarowości.
Do tego typu zadania służy analiza składowych głównych (ang. principle component analysis).
Uczenie nienadzorowane
Analiza skupień Podsumowanie
Nadzorowane vs nienadzorowane
Metody uczenia nienadzorowanego
Uczenie nienadzorowane
Metody uczenia nienadzorowanegoJeżeli w naszych danych występują cechy, które nie są ważne, to ich usunięcie jest możliwe poprzez zastosowanie redukcji
wymiarowości.
Do tego typu zadania służy analiza składowych głównych (ang. principle component analysis).
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrówNajprostszym algorytmem grupowania jest algorytm grupowania k-średnich (ang. k-means).
Metoda ta łączy elementy w grupy na podstawie ich
podobieństwa, rozumianego jako odległość między wektorami
cech.
Algorytm minimalizuje sumę kwadratów odległości między wektorami klastra a centrum klastra, określonego jako średnia wektorów w klastrze.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrówNajprostszym algorytmem grupowania jest algorytm grupowania k-średnich (ang. k-means).
Metoda ta łączy elementy w grupy na podstawie ich
podobieństwa, rozumianego jako odległość między wektorami
cech.
Algorytm minimalizuje sumę kwadratów odległości między wektorami klastra a centrum klastra, określonego jako średnia wektorów w klastrze.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrówNajprostszym algorytmem grupowania jest algorytm grupowania k-średnich (ang. k-means).
Metoda ta łączy elementy w grupy na podstawie ich
podobieństwa, rozumianego jako odległość między wektorami
cech.
Algorytm minimalizuje sumę kwadratów odległości między wektorami klastra a centrum klastra, określonego jako średnia wektorów w klastrze.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów Algorytm Lloyda-ForgyegoAlgorytm k-means został wymyślony w 1965 roku przez Stuarta Lloyda pracującego w Bell Laboratories.
Praca Lloyda opublikowana została jednak dopiero w 1982 roku. Ponieważ w 1965 roku taki sam algorytm opublikował Edward W. Forgy, algorytm k-means jest nazywany czasem algorytmem
Lloyda-Forgyego.
S. Lloyd, Least squares quantization in PCM, IEEE Transactions on Information Theory 28.2 (1982): 129-137.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów Algorytm Lloyda-ForgyegoAlgorytm k-means został wymyślony w 1965 roku przez Stuarta Lloyda pracującego w Bell Laboratories.
Praca Lloyda opublikowana została jednak dopiero w 1982 roku.
Ponieważ w 1965 roku taki sam algorytm opublikował Edward W. Forgy, algorytm k-means jest nazywany czasem algorytmem
Lloyda-Forgyego.
S. Lloyd, Least squares quantization in PCM, IEEE Transactions on Information Theory 28.2 (1982): 129-137.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów Algorytm Lloyda-ForgyegoAlgorytm k-means został wymyślony w 1965 roku przez Stuarta Lloyda pracującego w Bell Laboratories.
Praca Lloyda opublikowana została jednak dopiero w 1982 roku. Ponieważ w 1965 roku taki sam algorytm opublikował Edward W. Forgy, algorytm k-means jest nazywany czasem algorytmem
Lloyda-Forgyego.
S. Lloyd, Least squares quantization in PCM, IEEE Transactions on Information Theory 28.2 (1982): 129-137.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrówMetoda k-means dobrze sprawdza się jeżeli nasze dane układają się wyraźnie w grupy o podobnym rozproszeniu.
W zbiorze iris tak nie jest, ale zobaczmy jak k-means sobie z tym poradzi.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrówMetoda k-means dobrze sprawdza się jeżeli nasze dane układają się wyraźnie w grupy o podobnym rozproszeniu. W zbiorze iris tak nie jest, ale zobaczmy jak k-means sobie z tym poradzi.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów 1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm) n clusters=9Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów 1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm) n clusters=8Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów 1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm) n clusters=7Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów 1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm) n clusters=6Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów 1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm) n clusters=5Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów 1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm) n clusters=4Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów 1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm) n clusters=3Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów 1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm) n clusters=2Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów 1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm) n clusters=1Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrówPodział zbioru na klastry jest zależny od hiperparametru k (w klasie KMeans modułu sklearn.cluster kontroluje go
parametr n clusters).
Dla k = 1 wszystko wpada do jednej grupy.
Dla k = 3 odtwarzany jest podział na klasy odpowiadające gatunkom.
W przypadku klasteryzacji wynikowe kolory nie oznaczają klas, a jedynie przynależność do klastrów.
Otrzymane przypisanie do klas jest różne dla każdego wywołania procedury.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrówPodział zbioru na klastry jest zależny od hiperparametru k (w klasie KMeans modułu sklearn.cluster kontroluje go
parametr n clusters).
Dla k = 1 wszystko wpada do jednej grupy.
Dla k = 3 odtwarzany jest podział na klasy odpowiadające gatunkom.
W przypadku klasteryzacji wynikowe kolory nie oznaczają klas, a jedynie przynależność do klastrów.
Otrzymane przypisanie do klas jest różne dla każdego wywołania procedury.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrówPodział zbioru na klastry jest zależny od hiperparametru k (w klasie KMeans modułu sklearn.cluster kontroluje go
parametr n clusters).
Dla k = 1 wszystko wpada do jednej grupy.
Dla k = 3 odtwarzany jest podział na klasy odpowiadające gatunkom.
W przypadku klasteryzacji wynikowe kolory nie oznaczają klas, a jedynie przynależność do klastrów.
Otrzymane przypisanie do klas jest różne dla każdego wywołania procedury.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrówPodział zbioru na klastry jest zależny od hiperparametru k (w klasie KMeans modułu sklearn.cluster kontroluje go
parametr n clusters).
Dla k = 1 wszystko wpada do jednej grupy.
Dla k = 3 odtwarzany jest podział na klasy odpowiadające gatunkom.
W przypadku klasteryzacji wynikowe kolory nie oznaczają klas, a jedynie przynależność do klastrów.
Otrzymane przypisanie do klas jest różne dla każdego wywołania procedury.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrówPodział zbioru na klastry jest zależny od hiperparametru k (w klasie KMeans modułu sklearn.cluster kontroluje go
parametr n clusters).
Dla k = 1 wszystko wpada do jednej grupy.
Dla k = 3 odtwarzany jest podział na klasy odpowiadające gatunkom.
W przypadku klasteryzacji wynikowe kolory nie oznaczają klas, a jedynie przynależność do klastrów.
Otrzymane przypisanie do klas jest różne dla każdego wywołania procedury.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów Diagram WoronojaPodział danych metodą k-means prowadzi do podziału płaszczyzny na komórki Woronoja według klastrów.
Punkt wpada do komórki Woronoja dla klastra do którego jego odległość jest najmniejsza. Taki podział jest nazywany diagramem Woronoja.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów Diagram WoronojaPodział danych metodą k-means prowadzi do podziału płaszczyzny na komórki Woronoja według klastrów. Punkt wpada do komórki Woronoja dla klastra do którego jego odległość jest najmniejsza.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów Diagram WoronojaPodział danych metodą k-means prowadzi do podziału płaszczyzny na komórki Woronoja według klastrów. Punkt wpada do komórki Woronoja dla klastra do którego jego odległość jest najmniejsza. Taki podział jest nazywany diagramem Woronoja.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów Liczba klastrów?W jaki sposób dobrać liczbę klastrów, żeby uzyskać dobrą
klasteryzację?
Na to pytanie odpowiedź daje inercja, czyli suma kwadratów odległości elementów zbioru wejściowego od centrów klastrów (centroidów).
Algorytm k-means dąży do klastrów Cj z centroidami µj,
j =1, . . . , k, dla których suma inercji w obrębie klastrów jest najmniejsza min µj∈Cj k X j =1 X xi∈Cj kµj − xik2 2.
Jeżeli zwiększanie k zmniejsza inercję, to oznacza, iż można wyróżnić w zbiorze kolejną dobrze oddzieloną grupę.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów Liczba klastrów?W jaki sposób dobrać liczbę klastrów, żeby uzyskać dobrą
klasteryzację?
Na to pytanie odpowiedź daje inercja, czyli suma kwadratów odległości elementów zbioru wejściowego od centrów klastrów (centroidów).
Algorytm k-means dąży do klastrów Cj z centroidami µj,
j =1, . . . , k, dla których suma inercji w obrębie klastrów jest najmniejsza min µj∈Cj k X j =1 X xi∈Cj kµj − xik2 2.
Jeżeli zwiększanie k zmniejsza inercję, to oznacza, iż można wyróżnić w zbiorze kolejną dobrze oddzieloną grupę.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów Liczba klastrów?W jaki sposób dobrać liczbę klastrów, żeby uzyskać dobrą
klasteryzację?
Na to pytanie odpowiedź daje inercja, czyli suma kwadratów odległości elementów zbioru wejściowego od centrów klastrów (centroidów).
Algorytm k-means dąży do klastrów Cj z centroidami µj,
j =1, . . . , k, dla których suma inercji w obrębie klastrów jest najmniejsza min µj∈Cj k X j =1 X xi∈Cj kµj − xik2 2.
Jeżeli zwiększanie k zmniejsza inercję, to oznacza, iż można wyróżnić w zbiorze kolejną dobrze oddzieloną grupę.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów Liczba klastrów?W jaki sposób dobrać liczbę klastrów, żeby uzyskać dobrą
klasteryzację?
Na to pytanie odpowiedź daje inercja, czyli suma kwadratów odległości elementów zbioru wejściowego od centrów klastrów (centroidów).
Algorytm k-means dąży do klastrów Cj z centroidami µj,
j =1, . . . , k, dla których suma inercji w obrębie klastrów jest najmniejsza min µj∈Cj k X j =1 X xi∈Cj kµj − xik2 2.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów 1 2 3 4 5 6 7 8 9 liczba klastrów 0 50 100 150 200 250 300 350 400 450 500 550 inercjaInercja w funkcji liczby klastrów
W tym wypadku największy spadek inercji jest dla k = 2, co sugeruje, że w naszych danych są dwie wyraźnie oddzielne klasy.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów 1 2 3 4 5 6 7 8 9 liczba klastrów 0 50 100 150 200 250 300 350 400 450 500 550 inercjaInercja w funkcji liczby klastrów
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów Warunki początkoweCelem metody k-means jest minimalizacja inercji.
Ale do obliczenia inercji konieczne jest wyznaczenie klastrów i ich centroidów.
Jeżeli już mamy wyznaczone k punktów reprezentujących klastry, to kolejne kroki algorytmu są proste.
Sprowadzają się one do iteracyjnego powtarzania dwóch kroków.
Przypisanie punktów klastrów poprzez wyliczenie ich odległości od centroidów.
Wyznaczenie nowych centroidów poprzez wyliczenie średniej z wektorów w klastrze.
Algorytm zatrzymuje się, gdy inercja w kolejnym kroku zmienia się mniej niż zadany próg.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów Warunki początkoweCelem metody k-means jest minimalizacja inercji. Ale do obliczenia inercji konieczne jest wyznaczenie klastrów i ich centroidów.
Jeżeli już mamy wyznaczone k punktów reprezentujących klastry, to kolejne kroki algorytmu są proste.
Sprowadzają się one do iteracyjnego powtarzania dwóch kroków.
Przypisanie punktów klastrów poprzez wyliczenie ich odległości od centroidów.
Wyznaczenie nowych centroidów poprzez wyliczenie średniej z wektorów w klastrze.
Algorytm zatrzymuje się, gdy inercja w kolejnym kroku zmienia się mniej niż zadany próg.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów Warunki początkoweCelem metody k-means jest minimalizacja inercji. Ale do obliczenia inercji konieczne jest wyznaczenie klastrów i ich centroidów.
Jeżeli już mamy wyznaczone k punktów reprezentujących klastry, to kolejne kroki algorytmu są proste.
Sprowadzają się one do iteracyjnego powtarzania dwóch kroków.
Przypisanie punktów klastrów poprzez wyliczenie ich odległości od centroidów.
Wyznaczenie nowych centroidów poprzez wyliczenie średniej z wektorów w klastrze.
Algorytm zatrzymuje się, gdy inercja w kolejnym kroku zmienia się mniej niż zadany próg.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów Warunki początkoweCelem metody k-means jest minimalizacja inercji. Ale do obliczenia inercji konieczne jest wyznaczenie klastrów i ich centroidów.
Jeżeli już mamy wyznaczone k punktów reprezentujących klastry, to kolejne kroki algorytmu są proste.
Sprowadzają się one do iteracyjnego powtarzania dwóch kroków.
Przypisanie punktów klastrów poprzez wyliczenie ich odległości od centroidów.
Wyznaczenie nowych centroidów poprzez wyliczenie średniej z wektorów w klastrze.
Algorytm zatrzymuje się, gdy inercja w kolejnym kroku zmienia się mniej niż zadany próg.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów Warunki początkoweCelem metody k-means jest minimalizacja inercji. Ale do obliczenia inercji konieczne jest wyznaczenie klastrów i ich centroidów.
Jeżeli już mamy wyznaczone k punktów reprezentujących klastry, to kolejne kroki algorytmu są proste.
Sprowadzają się one do iteracyjnego powtarzania dwóch kroków.
Przypisanie punktów klastrów poprzez wyliczenie ich odległości od centroidów.
Wyznaczenie nowych centroidów poprzez wyliczenie średniej z wektorów w klastrze.
Algorytm zatrzymuje się, gdy inercja w kolejnym kroku zmienia się mniej niż zadany próg.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów Warunki początkoweCelem metody k-means jest minimalizacja inercji. Ale do obliczenia inercji konieczne jest wyznaczenie klastrów i ich centroidów.
Jeżeli już mamy wyznaczone k punktów reprezentujących klastry, to kolejne kroki algorytmu są proste.
Sprowadzają się one do iteracyjnego powtarzania dwóch kroków.
Przypisanie punktów klastrów poprzez wyliczenie ich odległości od centroidów.
Wyznaczenie nowych centroidów poprzez wyliczenie średniej z wektorów w klastrze.
Algorytm zatrzymuje się, gdy inercja w kolejnym kroku zmienia się mniej niż zadany próg.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrów Warunki początkoweCelem metody k-means jest minimalizacja inercji. Ale do obliczenia inercji konieczne jest wyznaczenie klastrów i ich centroidów.
Jeżeli już mamy wyznaczone k punktów reprezentujących klastry, to kolejne kroki algorytmu są proste.
Sprowadzają się one do iteracyjnego powtarzania dwóch kroków.
Przypisanie punktów klastrów poprzez wyliczenie ich odległości od centroidów.
Wyznaczenie nowych centroidów poprzez wyliczenie średniej z wektorów w klastrze.
Algorytm zatrzymuje się, gdy inercja w kolejnym kroku zmienia się mniej niż zadany próg.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrówNajprostszym sposobem wyboru centroidów jest wybranie k losowych elementów ze zbioru wejściowego.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrówNajprostszym sposobem wyboru centroidów jest wybranie k losowych elementów ze zbioru wejściowego.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrówProblem inicjalizacji centroidów można rozwiązać na kilka sposobów.
Najprostszą metodą jest powtórzenie procedury i wylosowanie różnych punktów początkowych.
Jeżeli znamy przybliżone położenie centroidów, to możemy wykorzystać je do inicjalizacji algorytmu.
Możemy też wybrać początkowe centroidy wychodząc z założenia, że nasze klastry stanowią wyraźnie oddzielone zgrupowania.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrówProblem inicjalizacji centroidów można rozwiązać na kilka sposobów.
Najprostszą metodą jest powtórzenie procedury i wylosowanie różnych punktów początkowych.
Jeżeli znamy przybliżone położenie centroidów, to możemy wykorzystać je do inicjalizacji algorytmu.
Możemy też wybrać początkowe centroidy wychodząc z założenia, że nasze klastry stanowią wyraźnie oddzielone zgrupowania.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrówProblem inicjalizacji centroidów można rozwiązać na kilka sposobów.
Najprostszą metodą jest powtórzenie procedury i wylosowanie różnych punktów początkowych.
Jeżeli znamy przybliżone położenie centroidów, to możemy wykorzystać je do inicjalizacji algorytmu.
Możemy też wybrać początkowe centroidy wychodząc z założenia, że nasze klastry stanowią wyraźnie oddzielone zgrupowania.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrówProblem inicjalizacji centroidów można rozwiązać na kilka sposobów.
Najprostszą metodą jest powtórzenie procedury i wylosowanie różnych punktów początkowych.
Jeżeli znamy przybliżone położenie centroidów, to możemy wykorzystać je do inicjalizacji algorytmu.
Możemy też wybrać początkowe centroidy wychodząc z założenia, że nasze klastry stanowią wyraźnie oddzielone zgrupowania.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrówMetodę inicjalizacji klastrów wykorzystującą założenie, że są one od siebie wyraźnie oddzielone zaproponowano w 2006 r.
Kolejne centroidy są wybierane z elementów zbioru wejściowego zależnie od ich odległości od centroidów już wybranych.
Element xi jest wybierany jako kolejny centroid z
prawdopodobieństwem
D(xi)2
Pm
j =1D(xj)2
,
gdzie D(xi)to odległość elementu xi od najbliższego
centroidu.
Pierwszy centroid musi zostać wybrany jednorodnie ze zbioru wejściowego.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrówMetodę inicjalizacji klastrów wykorzystującą założenie, że są one od siebie wyraźnie oddzielone zaproponowano w 2006 r. Kolejne centroidy są wybierane z elementów zbioru
wejściowego zależnie od ich odległości od centroidów już wybranych.
Element xi jest wybierany jako kolejny centroid z
prawdopodobieństwem
D(xi)2
Pm
j =1D(xj)2
,
gdzie D(xi)to odległość elementu xi od najbliższego
centroidu.
Pierwszy centroid musi zostać wybrany jednorodnie ze zbioru wejściowego.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrówMetodę inicjalizacji klastrów wykorzystującą założenie, że są one od siebie wyraźnie oddzielone zaproponowano w 2006 r. Kolejne centroidy są wybierane z elementów zbioru
wejściowego zależnie od ich odległości od centroidów już wybranych.
Element xi jest wybierany jako kolejny centroid z
prawdopodobieństwem
D(xi)2
Pm
j =1D(xj)2
,
gdzie D(xi)to odległość elementu xi od najbliższego
centroidu.
Pierwszy centroid musi zostać wybrany jednorodnie ze zbioru wejściowego.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Metody k klastrówMetodę inicjalizacji klastrów wykorzystującą założenie, że są one od siebie wyraźnie oddzielone zaproponowano w 2006 r. Kolejne centroidy są wybierane z elementów zbioru
wejściowego zależnie od ich odległości od centroidów już wybranych.
Element xi jest wybierany jako kolejny centroid z
prawdopodobieństwem
D(xi)2
Pm
j =1D(xj)2
,
gdzie D(xi)to odległość elementu xi od najbliższego
centroidu.
Pierwszy centroid musi zostać wybrany jednorodnie ze zbioru wejściowego.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCANSprytna inicjalizacja klastrów poprawia zbieżność metody k-means. . .
. . . ale nie uwalnia nas od założenia, że klastry są jednorodne i wypukłe.
Minimalizacja inercji nie sprawdza się, gdy klastry mają nieregularne kształty.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCANSprytna inicjalizacja klastrów poprawia zbieżność metody k-means. . .
. . . ale nie uwalnia nas od założenia, że klastry są jednorodne i wypukłe.
Minimalizacja inercji nie sprawdza się, gdy klastry mają nieregularne kształty.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCANSprytna inicjalizacja klastrów poprawia zbieżność metody k-means. . .
. . . ale nie uwalnia nas od założenia, że klastry są jednorodne i wypukłe.
Minimalizacja inercji nie sprawdza się, gdy klastry mają nieregularne kształty.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCANSprytna inicjalizacja klastrów poprawia zbieżność metody k-means. . .
. . . ale nie uwalnia nas od założenia, że klastry są jednorodne i wypukłe.
Minimalizacja inercji nie sprawdza się, gdy klastry mają nieregularne kształty.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCANPrzykład ze zbiorem moons
Przykład działania k-means oraz DBSCAN na danych moons. (clustering-moons-ex.py)
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCANWyraźnie widać, że k-means stara się podzielić zbiór na jednorodne podzbiory.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCANWyraźnie widać, że k-means stara się podzielić zbiór na jednorodne podzbiory.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCANRozwiązaniem problemu wybierania klastrów na podstawie własności geometrycznych jest dobieranie ich na podstawie
gęstości występowania elementów.
Na takim podejściu oparty jest algorytm DBSCAN (ang.
Density-Based Spatial Clustering of Applications with Noise)
DBSCAN sprawdza otoczenia wszystkich elementów zbioru wejściowego o zadanym promieniu.
Jeżeli otoczenie elementu zawiera pewną minimalną liczbę sąsiadów, to element ten staje się jądrem klastra.
Wszystkie elementy w otoczeniu jądra klastra należą do tego samego klastra.
Otoczenie jądra klastra może zawierać inne jądra i w ten sposób formuje się klaster.
Elementy nie mające w pobliżu jąder klastra są uznawane za szum.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCANRozwiązaniem problemu wybierania klastrów na podstawie własności geometrycznych jest dobieranie ich na podstawie
gęstości występowania elementów.
Na takim podejściu oparty jest algorytm DBSCAN (ang.
Density-Based Spatial Clustering of Applications with Noise)
DBSCAN sprawdza otoczenia wszystkich elementów zbioru wejściowego o zadanym promieniu.
Jeżeli otoczenie elementu zawiera pewną minimalną liczbę sąsiadów, to element ten staje się jądrem klastra.
Wszystkie elementy w otoczeniu jądra klastra należą do tego samego klastra.
Otoczenie jądra klastra może zawierać inne jądra i w ten sposób formuje się klaster.
Elementy nie mające w pobliżu jąder klastra są uznawane za szum.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCANRozwiązaniem problemu wybierania klastrów na podstawie własności geometrycznych jest dobieranie ich na podstawie
gęstości występowania elementów.
Na takim podejściu oparty jest algorytm DBSCAN (ang.
Density-Based Spatial Clustering of Applications with Noise)
DBSCAN sprawdza otoczenia wszystkich elementów zbioru wejściowego o zadanym promieniu.
Jeżeli otoczenie elementu zawiera pewną minimalną liczbę sąsiadów, to element ten staje się jądrem klastra.
Wszystkie elementy w otoczeniu jądra klastra należą do tego samego klastra.
Otoczenie jądra klastra może zawierać inne jądra i w ten sposób formuje się klaster.
Elementy nie mające w pobliżu jąder klastra są uznawane za szum.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCANRozwiązaniem problemu wybierania klastrów na podstawie własności geometrycznych jest dobieranie ich na podstawie
gęstości występowania elementów.
Na takim podejściu oparty jest algorytm DBSCAN (ang.
Density-Based Spatial Clustering of Applications with Noise)
DBSCAN sprawdza otoczenia wszystkich elementów zbioru wejściowego o zadanym promieniu.
Jeżeli otoczenie elementu zawiera pewną minimalną liczbę sąsiadów, to element ten staje się jądrem klastra.
Wszystkie elementy w otoczeniu jądra klastra należą do tego samego klastra.
Otoczenie jądra klastra może zawierać inne jądra i w ten sposób formuje się klaster.
Elementy nie mające w pobliżu jąder klastra są uznawane za szum.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCANRozwiązaniem problemu wybierania klastrów na podstawie własności geometrycznych jest dobieranie ich na podstawie
gęstości występowania elementów.
Na takim podejściu oparty jest algorytm DBSCAN (ang.
Density-Based Spatial Clustering of Applications with Noise)
DBSCAN sprawdza otoczenia wszystkich elementów zbioru wejściowego o zadanym promieniu.
Jeżeli otoczenie elementu zawiera pewną minimalną liczbę sąsiadów, to element ten staje się jądrem klastra.
Wszystkie elementy w otoczeniu jądra klastra należą do tego samego klastra.
Otoczenie jądra klastra może zawierać inne jądra i w ten sposób formuje się klaster.
Elementy nie mające w pobliżu jąder klastra są uznawane za szum.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCANRozwiązaniem problemu wybierania klastrów na podstawie własności geometrycznych jest dobieranie ich na podstawie
gęstości występowania elementów.
Na takim podejściu oparty jest algorytm DBSCAN (ang.
Density-Based Spatial Clustering of Applications with Noise)
DBSCAN sprawdza otoczenia wszystkich elementów zbioru wejściowego o zadanym promieniu.
Jeżeli otoczenie elementu zawiera pewną minimalną liczbę sąsiadów, to element ten staje się jądrem klastra.
Wszystkie elementy w otoczeniu jądra klastra należą do tego samego klastra.
Otoczenie jądra klastra może zawierać inne jądra i w ten sposób formuje się klaster.
Elementy nie mające w pobliżu jąder klastra są uznawane za szum.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCANRozwiązaniem problemu wybierania klastrów na podstawie własności geometrycznych jest dobieranie ich na podstawie
gęstości występowania elementów.
Na takim podejściu oparty jest algorytm DBSCAN (ang.
Density-Based Spatial Clustering of Applications with Noise)
DBSCAN sprawdza otoczenia wszystkich elementów zbioru wejściowego o zadanym promieniu.
Jeżeli otoczenie elementu zawiera pewną minimalną liczbę sąsiadów, to element ten staje się jądrem klastra.
Wszystkie elementy w otoczeniu jądra klastra należą do tego samego klastra.
Otoczenie jądra klastra może zawierać inne jądra i w ten sposób formuje się klaster.
Elementy nie mające w pobliżu jąder klastra są uznawane za szum.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCANDBSCAN jest kontrolowany przez dwa hiperparametry
eps – promień otoczenia elementu w którym powinny znaleźć się elementy sąsiednie żeby utworzyć jądro klastra
min samples – minimalna liczba sąsiadów konieczna do utworzenia jądra
Większe min samples oraz mniejsze eps oznaczają, że do formowania klastrów konieczna jest większa gęstość elementów.
DBSCAN nie wymaga ustalenia na wejściu liczby klastrów – jest ona dobierana przez algorytm.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCANDBSCAN jest kontrolowany przez dwa hiperparametry
eps – promień otoczenia elementu w którym powinny znaleźć się elementy sąsiednie żeby utworzyć jądro klastra
min samples – minimalna liczba sąsiadów konieczna do utworzenia jądra
Większe min samples oraz mniejsze eps oznaczają, że do formowania klastrów konieczna jest większa gęstość elementów.
DBSCAN nie wymaga ustalenia na wejściu liczby klastrów – jest ona dobierana przez algorytm.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCANDBSCAN jest kontrolowany przez dwa hiperparametry
eps – promień otoczenia elementu w którym powinny znaleźć się elementy sąsiednie żeby utworzyć jądro klastra
min samples – minimalna liczba sąsiadów konieczna do utworzenia jądra
Większe min samples oraz mniejsze eps oznaczają, że do formowania klastrów konieczna jest większa gęstość elementów.
DBSCAN nie wymaga ustalenia na wejściu liczby klastrów – jest ona dobierana przez algorytm.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCANDBSCAN jest kontrolowany przez dwa hiperparametry
eps – promień otoczenia elementu w którym powinny znaleźć się elementy sąsiednie żeby utworzyć jądro klastra
min samples – minimalna liczba sąsiadów konieczna do utworzenia jądra
Większe min samples oraz mniejsze eps oznaczają, że do formowania klastrów konieczna jest większa gęstość elementów.
DBSCAN nie wymaga ustalenia na wejściu liczby klastrów – jest ona dobierana przez algorytm.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCANDBSCAN jest kontrolowany przez dwa hiperparametry
eps – promień otoczenia elementu w którym powinny znaleźć się elementy sąsiednie żeby utworzyć jądro klastra
min samples – minimalna liczba sąsiadów konieczna do utworzenia jądra
Większe min samples oraz mniejsze eps oznaczają, że do formowania klastrów konieczna jest większa gęstość elementów.
DBSCAN nie wymaga ustalenia na wejściu liczby klastrów – jest ona dobierana przez algorytm.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0 1.5 eps=0.25Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0 1.5 eps=0.2Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0 1.5 eps=0.15Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0 1.5 eps=0.1Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0 1.5 eps=0.08Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Inne algorytmy – klasteryzacja hierarchiczna
W przypadku dużych ilości danych problemem jest przeglądanie wszystkich punktów/klastrów.
BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)
Algorytm zaprojektowany dla dużych baz danych.
Procedura bazuje na obserwacji, że przestrzeń atrybutów nie jest obsadzona jednorodnie i nie wszystkie punkty są tak samo ważne.
Jest to metoda hierarchiczna – tworzy hierarchię klasyfikacji. Algorytm buduje drzewo pozwalające na szybkie określenie przynależności do klastra.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Inne algorytmy – klasteryzacja hierarchiczna
W przypadku dużych ilości danych problemem jest przeglądanie wszystkich punktów/klastrów.
BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)
Algorytm zaprojektowany dla dużych baz danych.
Procedura bazuje na obserwacji, że przestrzeń atrybutów nie jest obsadzona jednorodnie i nie wszystkie punkty są tak samo ważne.
Jest to metoda hierarchiczna – tworzy hierarchię klasyfikacji. Algorytm buduje drzewo pozwalające na szybkie określenie przynależności do klastra.
Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów
Analiza skupień
Inne algorytmy – klasteryzacja hierarchiczna
W przypadku dużych ilości danych problemem jest przeglądanie wszystkich punktów/klastrów.
BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)
Algorytm zaprojektowany dla dużych baz danych.
Procedura bazuje na obserwacji, że przestrzeń atrybutów nie jest obsadzona jednorodnie i nie wszystkie punkty są tak samo ważne.
Jest to metoda hierarchiczna – tworzy hierarchię klasyfikacji. Algorytm buduje drzewo pozwalające na szybkie określenie przynależności do klastra.