Wykład 09 – Analiza skupień

(1)

Uczenie nienadzorowane Analiza skupień Podsumowanie

Podstawy uczenia maszynowego

Jarosław Miszczak

(2)

Uczenie nienadzorowane Analiza skupień Podsumowanie 1 Uczenie nienadzorowane 2 Analiza skupień 3 Podsumowanie

(3)

Uczenie nienadzorowane

Analiza skupień Podsumowanie

Nadzorowane vs nienadzorowane Metody uczenia nienadzorowanego

(4)

Nadzorowane vs nienadzorowane

Metody uczenia nienadzorowanego

Uczenie nienadzorowane

Algorytmy które pojawiały się dotychczas na wykładzie należały do grupy algorytmów uczenia nadzorowanego.

Zakładaliśmy, że na początku mamy do dyspozycji zbiór uczący postaci

(x1, y1), (x2, y2), . . . , (xm, ym),

złożony z wektorów cech xi wraz z etykietami yi.

Naszym zadaniem było zaproponowanie pewnego modelu ˆF,

który pozwoliłby nam przybliżyć zależność F między cechami a etykietami w zbiorze uczącym

(5)

Uczenie nienadzorowane

Algorytmy które pojawiały się dotychczas na wykładzie należały do grupy algorytmów uczenia nadzorowanego. Zakładaliśmy, że na początku mamy do dyspozycji zbiór uczący postaci

(x1, y1), (x2, y2), . . . , (xm, ym),

(6)

Uczenie nienadzorowane

Algorytmy które pojawiały się dotychczas na wykładzie należały do grupy algorytmów uczenia nadzorowanego. Zakładaliśmy, że na początku mamy do dyspozycji zbiór uczący postaci

(x1, y1), (x2, y2), . . . , (xm, ym),

(7)

Uczenie nienadzorowane

W zbiorze iris, etykiety zawierają wiedzę o przynależności do klas.

1.5 2.5 3.5 4.5 5.5 6.5 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm)

(8)

Uczenie nienadzorowane

W tym wypadku kolory to określone przez specjalistę gatunki.

1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm)

(9)

Uczenie nienadzorowane

(10)

Uczenie nienadzorowane

Dane iris pozbawione etykiet tracą interesującą nas informację.

1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm)

(11)

Uczenie nienadzorowane

Brak informacji o etykiecie oznacza, że mamy do dyspozycji zbiór postaci

x1, x2, . . . , xm,

złożony z wektorów cech xi i pozbawiony etykiet.

Ponieważ dodanie etykiet wymaga ingerencji człowieka, w większości przypadków, dane są ich pozbawione.

Dane są ich pozbawione pozbawione etykiet, bo ich uzyskanie jest czasochłonne i drogie.

Google Crowdsource

Amazon MTurk – artificial artificial intelligence

(12)

Uczenie nienadzorowane

x1, x2, . . . , xm,

Google Crowdsource

(13)

Uczenie nienadzorowane

x1, x2, . . . , xm,

Google Crowdsource

(14)

Uczenie nienadzorowane

x1, x2, . . . , xm,

Google Crowdsource

(15)

Uczenie nienadzorowane

x1, x2, . . . , xm,

Google Crowdsource

(16)

Uczenie nienadzorowane

x1, x2, . . . , xm,

Google Crowdsource

(17)

Uczenie nienadzorowane

W ramach uczenia nienadzorowanego naszym zadaniem jest

odkrycieinteresującej informacji/wiedzy zawartej w danych.

W uczeniu nadzorowanym naszym celem było zmaksymalizowanie pθ(yi|xi).

W uczeniu nienadzorowanym naszym celem jest zbudowanie modelu pθ(xi).

(18)

Uczenie nienadzorowane

(19)

Uczenie nienadzorowane

(20)

Uczenie nienadzorowane

Uczenie się ludzi

Uczenie nienadzorowane jest bardziej niż uczenie nadzorowane naśladuje proces uczenia typowy dla ludzi.

Dostając informację ’to jest pies’ dostajemy mało informacji. Część mózgu odpowiedzialna za przetwarzanie danych

wizualnych ma 1014_połączeń.

Człowiek żyje 109 _sekund,

zatem do odpowiedniego

ukształtowanie tych połączeń człowiek potrzebuj 105 _{bitów na}

sekundę.

P.F. Gorder, Neural Networks Show New Promise for Machine Vision, Computing in Science & Engineering, Vol. 8, No. 6, 2006.

(21)

Uczenie nienadzorowane

Uczenie się ludzi

sekundę.

(22)

Uczenie nienadzorowane

Uczenie się ludzi

Dostając informację ’to jest pies’ dostajemy mało informacji.

Część mózgu odpowiedzialna za przetwarzanie danych

sekundę.

(23)

Uczenie nienadzorowane

Uczenie się ludzi

sekundę.

(24)

Uczenie nienadzorowane

Uczenie się ludzi

sekundę.

(25)

Uczenie nienadzorowane

Uczenie się ludzi

Człowiek żyje 109 _{sekund, zatem do odpowiedniego}

sekundę.

(26)

Uczenie nienadzorowane

Uczenie się ludzi

Człowiek żyje 109 _{sekund, zatem do odpowiedniego}

sekundę.

(27)

Uczenie nienadzorowane

Podstawową metodą uczenia nienadzorowanego jest analiza

skupień, nazywana również klasteryzacją.

Jej celem jest odkrywanie grup elementów o wspólnych cechach i łączenie ich w grupy zwane klastrami – stąd też inna nazwa tej metody: klasteryzacja lub grupowanie.

(28)

Uczenie nienadzorowane

Podstawową metodą uczenia nienadzorowanego jest analiza

skupień, nazywana również klasteryzacją.

Jej celem jest odkrywanie grup elementów o wspólnych cechach i łączenie ich w grupy zwane klastrami – stąd też inna nazwa tej metody: klasteryzacja lub grupowanie.

(29)

Uczenie nienadzorowane

Jeżeli w naszych danych występują cechy, które nie są ważne, to ich usunięcie jest możliwe poprzez zastosowanie redukcji

wymiarowości.

Do tego typu zadania służy analiza składowych głównych (ang. principle component analysis).

(30)

Uczenie nienadzorowane

Jeżeli w naszych danych występują cechy, które nie są ważne, to ich usunięcie jest możliwe poprzez zastosowanie redukcji

wymiarowości.

Do tego typu zadania służy analiza składowych głównych (ang. principle component analysis).

(31)

Uczenie nienadzorowane Analiza skupień Podsumowanie Metody k klastrów DBSCAN Inne algorytmy Kilka przykładów

Analiza skupień

(32)

Analiza skupień

Metody k klastrów

Najprostszym algorytmem grupowania jest algorytm grupowania k-średnich (ang. k-means).

Metoda ta łączy elementy w grupy na podstawie ich

podobieństwa, rozumianego jako odległość między wektorami

cech.

Algorytm minimalizuje sumę kwadratów odległości między wektorami klastra a centrum klastra, określonego jako średnia wektorów w klastrze.

(33)

Analiza skupień

Metody k klastrów

cech.

(34)

Analiza skupień

Metody k klastrów

cech.

(35)

Analiza skupień

Metody k klastrów Algorytm Lloyda-Forgyego

Algorytm k-means został wymyślony w 1965 roku przez Stuarta Lloyda pracującego w Bell Laboratories.

Praca Lloyda opublikowana została jednak dopiero w 1982 roku. Ponieważ w 1965 roku taki sam algorytm opublikował Edward W. Forgy, algorytm k-means jest nazywany czasem algorytmem

Lloyda-Forgyego.

S. Lloyd, Least squares quantization in PCM, IEEE Transactions on Information Theory 28.2 (1982): 129-137.

(36)

Analiza skupień

Praca Lloyda opublikowana została jednak dopiero w 1982 roku.

Ponieważ w 1965 roku taki sam algorytm opublikował Edward W. Forgy, algorytm k-means jest nazywany czasem algorytmem

Lloyda-Forgyego.

(37)

Analiza skupień

Praca Lloyda opublikowana została jednak dopiero w 1982 roku. Ponieważ w 1965 roku taki sam algorytm opublikował Edward W. Forgy, algorytm k-means jest nazywany czasem algorytmem

Lloyda-Forgyego.

(38)

Analiza skupień

Metody k klastrów

Metoda k-means dobrze sprawdza się jeżeli nasze dane układają się wyraźnie w grupy o podobnym rozproszeniu.

W zbiorze iris tak nie jest, ale zobaczmy jak k-means sobie z tym poradzi.

(39)

Analiza skupień

Metody k klastrów

Metoda k-means dobrze sprawdza się jeżeli nasze dane układają się wyraźnie w grupy o podobnym rozproszeniu. W zbiorze iris tak nie jest, ale zobaczmy jak k-means sobie z tym poradzi.

(40)

Analiza skupień

Metody k klastrów 1.5 2.5 3.5 4.5 5.5 6.5 petal length (cm) 0.0 0.5 1.0 1.5 2.0 2.5 petal width (cm) n clusters=9

(41)

Analiza skupień

(42)

Analiza skupień

(43)

Analiza skupień

(44)

Analiza skupień

(45)

Analiza skupień

(46)

Analiza skupień

(47)

Analiza skupień

(48)

Analiza skupień

(49)

Analiza skupień

Metody k klastrów

Podział zbioru na klastry jest zależny od hiperparametru k (w klasie KMeans modułu sklearn.cluster kontroluje go

parametr n clusters).

Dla k = 1 wszystko wpada do jednej grupy.

Dla k = 3 odtwarzany jest podział na klasy odpowiadające gatunkom.

W przypadku klasteryzacji wynikowe kolory nie oznaczają klas, a jedynie przynależność do klastrów.

Otrzymane przypisanie do klas jest różne dla każdego wywołania procedury.

(50)

Analiza skupień

Metody k klastrów

(51)

Analiza skupień

Metody k klastrów

(52)

Analiza skupień

Metody k klastrów

(53)

Analiza skupień

Metody k klastrów

(54)

Analiza skupień

Metody k klastrów Diagram Woronoja

Podział danych metodą k-means prowadzi do podziału płaszczyzny na komórki Woronoja według klastrów.

Punkt wpada do komórki Woronoja dla klastra do którego jego odległość jest najmniejsza. Taki podział jest nazywany diagramem Woronoja.

(55)

Analiza skupień

Podział danych metodą k-means prowadzi do podziału płaszczyzny na komórki Woronoja według klastrów. Punkt wpada do komórki Woronoja dla klastra do którego jego odległość jest najmniejsza.

(56)

Analiza skupień

Podział danych metodą k-means prowadzi do podziału płaszczyzny na komórki Woronoja według klastrów. Punkt wpada do komórki Woronoja dla klastra do którego jego odległość jest najmniejsza. Taki podział jest nazywany diagramem Woronoja.

(57)

Analiza skupień

Metody k klastrów 0.5 1.5 2.5 3.5 4.5 5.5 6.5 7.5 petal length (cm) −0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 petal width (cm)

(58)

Analiza skupień

(59)

Analiza skupień

(60)

Analiza skupień

(61)

Analiza skupień

(62)

Analiza skupień

(63)

Analiza skupień

(64)

Analiza skupień

(65)

Analiza skupień

(66)

Analiza skupień

Metody k klastrów Liczba klastrów?

W jaki sposób dobrać liczbę klastrów, żeby uzyskać dobrą

klasteryzację?

Na to pytanie odpowiedź daje inercja, czyli suma kwadratów odległości elementów zbioru wejściowego od centrów klastrów (centroidów).

Algorytm k-means dąży do klastrów Cj z centroidami µj,

j =1, . . . , k, dla których suma inercji w obrębie klastrów jest najmniejsza min µj∈Cj k X j =1 X xi∈Cj kµj − xik2 2.

Jeżeli zwiększanie k zmniejsza inercję, to oznacza, iż można wyróżnić w zbiorze kolejną dobrze oddzieloną grupę.

(67)

Analiza skupień

klasteryzację?

(68)

Analiza skupień

klasteryzację?

(69)

Analiza skupień

klasteryzację?

(70)

Analiza skupień

Metody k klastrów 1 2 3 4 5 6 7 8 9 liczba klastrów 0 50 100 150 200 250 300 350 400 450 500 550 inercja

Inercja w funkcji liczby klastrów

W tym wypadku największy spadek inercji jest dla k = 2, co sugeruje, że w naszych danych są dwie wyraźnie oddzielne klasy.

(71)

Analiza skupień

Metody k klastrów 1 2 3 4 5 6 7 8 9 liczba klastrów 0 50 100 150 200 250 300 350 400 450 500 550 inercja

Inercja w funkcji liczby klastrów

(72)

Analiza skupień

Metody k klastrów Warunki początkowe

Celem metody k-means jest minimalizacja inercji.

Ale do obliczenia inercji konieczne jest wyznaczenie klastrów i ich centroidów.

Jeżeli już mamy wyznaczone k punktów reprezentujących klastry, to kolejne kroki algorytmu są proste.

Sprowadzają się one do iteracyjnego powtarzania dwóch kroków.

Przypisanie punktów klastrów poprzez wyliczenie ich odległości od centroidów.

Wyznaczenie nowych centroidów poprzez wyliczenie średniej z wektorów w klastrze.

Algorytm zatrzymuje się, gdy inercja w kolejnym kroku zmienia się mniej niż zadany próg.

(73)

Analiza skupień

Celem metody k-means jest minimalizacja inercji. Ale do obliczenia inercji konieczne jest wyznaczenie klastrów i ich centroidów.

(74)

Analiza skupień

(75)

Analiza skupień

(76)

Analiza skupień

(77)

Analiza skupień

(78)

Analiza skupień

(79)

Analiza skupień

Metody k klastrów

Najprostszym sposobem wyboru centroidów jest wybranie k losowych elementów ze zbioru wejściowego.

(80)

Analiza skupień

Metody k klastrów

Najprostszym sposobem wyboru centroidów jest wybranie k losowych elementów ze zbioru wejściowego.

(81)

Analiza skupień

Metody k klastrów

Problem inicjalizacji centroidów można rozwiązać na kilka sposobów.

Najprostszą metodą jest powtórzenie procedury i wylosowanie różnych punktów początkowych.

Jeżeli znamy przybliżone położenie centroidów, to możemy wykorzystać je do inicjalizacji algorytmu.

Możemy też wybrać początkowe centroidy wychodząc z założenia, że nasze klastry stanowią wyraźnie oddzielone zgrupowania.

(82)

Analiza skupień

Metody k klastrów

(83)

Analiza skupień

Metody k klastrów

(84)

Analiza skupień

Metody k klastrów

(85)

Analiza skupień

Metody k klastrów

Metodę inicjalizacji klastrów wykorzystującą założenie, że są one od siebie wyraźnie oddzielone zaproponowano w 2006 r.

Kolejne centroidy są wybierane z elementów zbioru wejściowego zależnie od ich odległości od centroidów już wybranych.

Element xi jest wybierany jako kolejny centroid z

prawdopodobieństwem

D(xi)2

Pm

j =1D(xj)2

,

gdzie D(xi)to odległość elementu xi od najbliższego

centroidu.

Pierwszy centroid musi zostać wybrany jednorodnie ze zbioru wejściowego.

(86)

Analiza skupień

Metody k klastrów

Metodę inicjalizacji klastrów wykorzystującą założenie, że są one od siebie wyraźnie oddzielone zaproponowano w 2006 r. Kolejne centroidy są wybierane z elementów zbioru

wejściowego zależnie od ich odległości od centroidów już wybranych.

D(xi)2

Pm

j =1D(xj)2

,

centroidu.

(87)

Analiza skupień

Metody k klastrów

D(xi)2

Pm

j =1D(xj)2

,

centroidu.

(88)

Analiza skupień

Metody k klastrów

D(xi)2

Pm

j =1D(xj)2

,

centroidu.

(89)

Analiza skupień

DBSCAN

Sprytna inicjalizacja klastrów poprawia zbieżność metody k-means. . .

. . . ale nie uwalnia nas od założenia, że klastry są jednorodne i wypukłe.

Minimalizacja inercji nie sprawdza się, gdy klastry mają nieregularne kształty.

(90)

Analiza skupień

DBSCAN

(91)

Analiza skupień

DBSCAN

(92)

Analiza skupień

DBSCAN

(93)

Analiza skupień

DBSCAN

Przykład ze zbiorem moons

Przykład działania k-means oraz DBSCAN na danych moons. (clustering-moons-ex.py)

(94)

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0

(95)

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0

(96)

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0

(97)

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0

(98)

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0

(99)

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0

(100)

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0

(101)

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0

(102)

Analiza skupień

DBSCAN

Wyraźnie widać, że k-means stara się podzielić zbiór na jednorodne podzbiory.

(103)

Analiza skupień

DBSCAN

Wyraźnie widać, że k-means stara się podzielić zbiór na jednorodne podzbiory.

(104)

Analiza skupień

DBSCAN

Rozwiązaniem problemu wybierania klastrów na podstawie własności geometrycznych jest dobieranie ich na podstawie

gęstości występowania elementów.

Na takim podejściu oparty jest algorytm DBSCAN (ang.

Density-Based Spatial Clustering of Applications with Noise)

DBSCAN sprawdza otoczenia wszystkich elementów zbioru wejściowego o zadanym promieniu.

Jeżeli otoczenie elementu zawiera pewną minimalną liczbę sąsiadów, to element ten staje się jądrem klastra.

Wszystkie elementy w otoczeniu jądra klastra należą do tego samego klastra.

Otoczenie jądra klastra może zawierać inne jądra i w ten sposób formuje się klaster.

Elementy nie mające w pobliżu jąder klastra są uznawane za szum.

(105)

Analiza skupień

DBSCAN

(106)

Analiza skupień

DBSCAN

(107)

Analiza skupień

DBSCAN

(108)

Analiza skupień

DBSCAN

(109)

Analiza skupień

DBSCAN

(110)

Analiza skupień

DBSCAN

(111)

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0

(112)

Analiza skupień

DBSCAN

DBSCAN jest kontrolowany przez dwa hiperparametry

eps – promień otoczenia elementu w którym powinny znaleźć się elementy sąsiednie żeby utworzyć jądro klastra

min samples – minimalna liczba sąsiadów konieczna do utworzenia jądra

Większe min samples oraz mniejsze eps oznaczają, że do formowania klastrów konieczna jest większa gęstość elementów.

DBSCAN nie wymaga ustalenia na wejściu liczby klastrów – jest ona dobierana przez algorytm.

(113)

Analiza skupień

DBSCAN

(114)

Analiza skupień

DBSCAN

(115)

Analiza skupień

DBSCAN

(116)

Analiza skupień

DBSCAN

(117)

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0 1.5 eps=0.25

(118)

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0 1.5 eps=0.2

(119)

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0 1.5 eps=0.15

(120)

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0 1.5 eps=0.1

(121)

Analiza skupień

DBSCAN −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0 1.5 eps=0.08

(122)

Analiza skupień

Inne algorytmy – klasteryzacja hierarchiczna

W przypadku dużych ilości danych problemem jest przeglądanie wszystkich punktów/klastrów.

BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)

Algorytm zaprojektowany dla dużych baz danych.

Procedura bazuje na obserwacji, że przestrzeń atrybutów nie jest obsadzona jednorodnie i nie wszystkie punkty są tak samo ważne.

Jest to metoda hierarchiczna – tworzy hierarchię klasyfikacji. Algorytm buduje drzewo pozwalające na szybkie określenie przynależności do klastra.

(123)

Analiza skupień

(124)