1Wstęp Klasteryzacja

(1)

Klasteryzacja

Marcin Orchel

1 Wstęp

1.1 Algorytm EM

Zakładamy, że rozkład prawdopodobieństwa analizowanych cech daje się opisać za pomo- cą rozkładu prawdopodobieństwa będącego mieszaniną K rozkładów odpowiadających podziałowi na K skupień. Gęstość tego rozkładu

f (x) =

K

X

k=1

π_kf (x; θ_k) (1)

gdzie f (x; θ_k) są gęstościami prawdopodobieństwa odpowiadającym poszczególnym sku- pieniom, a π_k to parametry takie, że

K

X

k=1

π_k= 1 (2)

gdzie π₁, . . . , π_k ≥ 0. Przykładowo dla p-wymiarowego rozkładu normalnego θ_k = (µ_k, Σ_k).

Oznaczamy ψ = {π_k, θ_k: k = 1, . . . , K} zbiór wszystkich parametrów. Zastosujemy metodę największej wiarygodności do ich estymacji

L (ψ; x1, . . . , xn) = log

n

Y

i=1 K

X

k=1

πkf (xi; θ_k) (3) Do maksymalizacji powyższej funkcji używamy algorytmu EM. Najpierw zapisujemy ją w postaci

L (ψ; x1, . . . , xn) =

n

X

i=1 K

X

k=1

ψiklog π_k+

n

X

i=1 K

X

k=1

ψiklog f (x_i; θ_k) −

n

X

i=1 K

X

k=1

ψiklog ψ_ik (4) gdzie

ψ_ik= π_kf (x_i; θ_k) PK

l=1π_lf (x_i; θ_l) (5)

Zapis ten wynika z następującej zależności:

log^X

k

a_k=^X

k

a_k P

ia_i log a_k−^X

k

a_k P

ia_i log a_k P

ia_i (6)

(2)

Dowód:

= 1

P

iai

X

k

aklog a_k−^X

k

aklog ak

P

iai

!

(7)

= 1

P

iai

X

k

a_k

log a_k− log a_k P

iai

!

(8)

= 1

P

iai

X

k

a_kloga_k^P_ia_i ak

!

(9)

= 1

P

ia_i X

k

a_klog^X

i

a_i

!

(10)

= 1

P

ia_i

log^X

i

a_i

! X

k

a_k

!

(11)

= log^X

i

a_i (12)

Zapis ten umożliwił zapisanie obu parametrów π_k i θ_k w osobnych składnikach.

Punkty przyporządkowujemy skupieniom w ten sposób, że punkt należy do skupienia dla którego mamy maksymalną wartość wyrażenia

ψ_ik

ψ_k (13)

gdzie

ψ_k=

n

X

i=1

ψ_ik (14)

Algorytm EM, ustalamy początkowe wartości π₁, . . . , π_K oraz θ₁, . . . , θ_K. Obliczamy ψik (krok E). Następnie znajdujemy wartości parametrów π_k, θ_k maksymalizujące L (krok M). Powtarzamy oba kroki, dopóki wartość L zmienia się istotnie.

Dla rozkładów normalnych maksymalizujemy L wyznaczając π_k= 1

n

X

i=1

ψ_ik (15)

µ_k = 1 nπk

n

X

i=1

ψ_ikx_i (16)

Σ_k= 1 nπ_k

n

X

i=1

ψ_ik(x_i− µ_k) (x_i− µ_k)⁰ (17) Macierz kowariancji możemy zapisać w postaci

Σ_k= λ_kD_kA_kD^T_k (18)

(3)

gdzie λ_k = |Σ_k|^1/m, D_s to macierz ortogonalna, której kolumnami są wektory wła- sne odpowiadające uporządkowanym malejąco wartościom własnym macierz Σ_k, A_k to macierz diagonalna taka, że |A_s| = 1 i której elementy to uporządkowane malejąco war- tości własne macierzy Σ_k. Macierz A odpowiada za kształt, skalar λ_k za wielkość, a D_k za orientację. Modele: E - oznacza takie same, V, że klasy różnią się, I oznacza w przypadku orientacji brak orientacji lub równoległa do osi układu, a w przypadku kształtu, kształt sferyczny. Modele EII (λI), VII(λ_kI), EEI(λA), VEI(λkA), EVI(λAk), VVI(λ_kA_k), EEE(λDAD^T), EEV(λD_kAD^T_k), VEV(λ_kD_kAD^T_k), VVV((λ_kD_kA_kD^T_k)).

1.2 Metody hierarchiczne

Definiujemy pojęcie odmienności między dwoma zbiorami punktów. W metodzie aglo- meracyjnej startujemy z n jednopunktowych skupień, następnie łączy się dwa najmniej odmienne w oparciu o macierz odmienności w jedno skupienie. Otrzymujemy n − 1 sku- pień. W każdym kroku liczba skupień maleje o 1. Obliczenia dokonujemy, aż do momentu otrzymania liczby zadeklarowanych skupień K.

Wyniki klasteryzacji reprezentowane są na wykresie zwanym dendogramem. Jest to drzewo binarne, węzły reprezentują skupienia, a liście to pojedyncze obiekty, liście znaj- dują się na poziomie zerowym, pozostałe węzły zaś na wysokości odpowiadającej mierze niepodobieństwa między skupieniami reprezentowanymi przez węzły potomki.

Definicje odmienności między skupieniami: odmienność typu najbliższego sąsiada (single linkage) - najmniejsza miara niepodobieństwa między dwoma obiektami należą- cymi do różnych skupień,

p (R, S) = min

i∈R,j∈Sp (x_i, x_j) (19)

Tworzy ona wydłużone skupienia.

Odmienność typu najdalszego sąsiada (complete linkage) - największa miara niepo- dobieństwa między dwoma obiektami należącymi do różnych skupień

p (R, S) = max

i∈R,j∈Sp (xi, xj) (20)

Tworzy ona zwarte skupienia.

Odległość średnia (average linkage) - średnia miara niepodobieństwa między wszyst- kimi parami obiektów należących do różnych skupień

p (R, S) = 1 nRnS

X

i∈R

X

j∈S

p (xi, xj) (21)

gdzie n_Ri n_S to liczba obiektów wchodzących w skład skupień R i S odpowiednio.

Możemy wyznaczyć niepodobieństwo w następnym kroku, dla metody najbliższego sąsiada

p R, S ∪ S⁰= minp (R, S) , p R, S⁰= 1

2 p (R, S) + p R, S⁰−p (R, S) − p R, S⁰

(22)

(4)

Drugie równanie wynika z faktu, że min (a, b) =1

2(a + b − |a − b|) (23)

dla metody najdalszego sąsiedztwa

p R, S ∪ S⁰= maxp (R, S) , p R, S⁰= 1

2 p (R, S) + p R, S⁰+p (R, S) − p R, S⁰

(24) Drugie równanie wynika z faktu, że

max (a, b) = 1

2(a + b + |a − b|) (25)

dla metody średniej odległości

p R, S ∪ S⁰= n_S

nS+ n_S⁰p (R, S) + n_S⁰

nS+ n_S⁰p R, S⁰ (26) co bierze się ze wzoru, że

Pa_i+^Pb_i

n + m = n

n + m Pa_i

n + m

n + m Pb_i

m (27)

Metoda najbliższego sąsiedztwa może być skonstruowana w ten sposób, że znajdujemy minimalne drzewo rozpinające i usuwamy najdłuższe krawędzie. Minimalne drzewo rozpinające możemy znaleźć za pomocą algorytmu Kruskala. Wybieramy krawędź o mi- nimalnej wadze, z pozostałych krawędzi wybieramy tę o najmniejszej wadze

W metodzie opartej na dzieleniu startujemy z jednego skupienia składającego się ze wszystkich punktów, szukamy dwóch najbardziej odmiennych podzbiorów, następnie wybieramy podział jednego z nich., która nie prowadzi do cyklu. Powtarzamy drugi krok.

1.3 Metoda k-średnich

Mamy macierz zmienności wewnątrz skupieni W (C_K) =

K

X

k=1

X

C_k(i)=k

(x_i− ¯x_k) (x_i− ¯x_k)⁰ (28)

gdzie x_k oznacza wektor średnich k-tego skupienia x¯_k= 1

nk

X

CK(i)=k

x_i (29)

gdzie n_k jest liczebnością k-tego skupienia. Macierz ta będzie rozmiar p na p.

Metoda k-średnich minimalizuje ślad macierzy W (C_K). Optymalny podział to CK∗ = min trW (C_k) = min

CK

K

X

k=1

X

CK(i)=k

p2(x_i, ¯xk) (30)

(5)

gdzie p₂ to kwadrat odległości euklidesowej.

Algorytm k-średnich. W losowy sposób rozmieszczamy n obiektów w K skupieniach.

Dla każdego z K skupień obliczamy wektory średnich x_k. Rozmieszczamy ponownie obiekty w K skupieniach tak, że

C_K^(l)(i) = arg min

1≤k≤Kp₂(x_i, ¯x_k) (31)

Powtarzamy dwa poprzednie kroki, dopóki dokonujemy zmian przyporządkowania.

1.4 Metoda k-median

W tej metodzie możemy mieć dane tylko odległości między punktami, bez współrzęd- nych. Środki klastrów wyznaczamy podobnie jak dla k-średnich

x¯_k= 1 nk

X

CK(i)=k

x_i= arg min

y∈R^p

X

CK(i)=k

p₂(x_i, y) (32)

Gdy wartości pochodzą ze zbioru V mamy m_k= arg min

y∈V^p

X

C_K(i)=k

p (x_i, y) (33)

Środki skupienia będą należały do klastrów.

Algorytm k-median. Losowo rozmieszczamy n obiektów w K skupieniach. Dla każ- dego z K skupień obliczamy środki skupień. Rozmieszczamy ponownie obiekty w K skupieniach

C_K^(l)(i) = arg min

1≤k≤Kp (x_i, m_k) (34)

Powtarzamy dwa poprzedniego kroki dopóki jest zmiana przyporządkowania.

2 Zadania

2.1 Zadania na 3.0

• dla wygenerowanych danych dwuwymiarowych kilku klas z rozkładów normalnych zaznacz na wykresie dane treningowe, a także klasteryzację metodą EM (różne modele), hierarchiczną oraz k-średnich. Dobierz rozkłady normalne tak, aby uzyskać klastry eliptyczne.

• wyświetlić funkcje gęstości

• wyświetlić dendogramy dla trzech typów odmienności

• wyświetlić w konsoli błędy klasteryzacji i porównać

• dla algorytmu k-średnich wyświetlić wykres zależności log trW (C_K) od k.

(6)

• oblicz błąd klasteryzacji na zbiorze testowym dla wszystkich użytych metod klasteryzacji

• wykonać klasteryzację danych z konspektu svm

• wykonać klasteryzację wybranego obrazu i dokonać analizy możliwości identyfikacji obiektów za pomocą metod klasteryzacji

Wskazówki do R

• generacja klastrów najlepiej ręczna, alternatywa https://www.rdocumentation.

org/packages/clusterSim/versions/0.36-1/topics/cluster.Gen,http://finzi.

psych.upenn.edu/library/clusterSim/html/cluster.Gen.html,

• wczytanie danych https://stat.ethz.ch/R-manual/R-devel/library/utils/

html/read.table.html

• pakiet mclusthttps://cran.r-project.org/web/packages/mclust/index.html, https://cran.r-project.org/web/packages/mclust/vignettes/mclust.html

• funkcja emhttp://svitsrv25.epfl.ch/R-doc/library/mclust/html/em.html,

http://svitsrv25.epfl.ch/R-doc/library/mclust/html/emE.html,http://svitsrv25.

epfl.ch/R-doc/library/mclust/html/me.html,http://svitsrv25.epfl.ch/R- doc/library/mclust/html/meE.html

• do metod aglomeracyjnychhttp://svitsrv25.epfl.ch/R-doc/library/mclust/

html/hc.html,http://svitsrv25.epfl.ch/R-doc/library/mclust/html/hcE.

html,http://svitsrv25.epfl.ch/R-doc/library/mclust/html/hclass.html

• http://svitsrv25.epfl.ch/R-doc/library/mclust/html/unmap.html

• http://svitsrv25.epfl.ch/R-doc/library/mclust/html/mclustBIC.html

• metoda EMhttp://svitsrv25.epfl.ch/R-doc/library/mclust/html/Mclust.

html

• http://svitsrv25.epfl.ch/R-doc/library/mclust/html/plot.mclustBIC.html

• http://svitsrv25.epfl.ch/R-doc/library/mclust/html/coordProj.html

• http://svitsrv25.epfl.ch/R-doc/library/mclust/html/classError.html

• http://svitsrv25.epfl.ch/R-doc/library/mclust/html/adjustedRandIndex.

html

• http://svitsrv25.epfl.ch/R-doc/library/mclust/html/mclustModelNames.

html

• obserwacje nietypowe, pakiet prabclus,https://www.rdocumentation.org/packages/

prabclus/versions/2.0-1/topics/NNclean

(7)

• http://finzi.psych.upenn.edu/library/mclust/html/clPairs.html

• http://stat.ethz.ch/R-manual/R-devel/library/stats/html/hclust.html

• http://finzi.psych.upenn.edu/library/densityClust/html/densityClust.

html Wskazówki

• http://www.mathworks.com/help/stats/cluster-data-from-mixture-of-gaussian- distributions.html

• http://www.mathworks.com/help/stats/gmdistribution.html

• http://www.mathworks.com/help/stats/clustering-using-gaussian-mixture- models.html

• http://www.mathworks.com/help/stats/gaussian-mixture-models-1.html

• http://www.mathworks.com/help/stats/fitgmdist.html, dla starszych wersji http://www.mathworks.com/help/stats/gmdistribution.fit.html

• http://www.mathworks.com/help/stats/gmdistribution.cluster.html

• http://www.mathworks.com/help/images/examples/color-based-segmentation- using-k-means-clustering.html

• http://www.mathworks.com/help/stats/kmeans.html

• http://www.mathworks.com/help/stats/linkage.html

• http://www.mathworks.com/help/stats/clusterdata.html

• http://www.mathworks.com/help/stats/cluster.html, a tutaj cluster dla metody EMhttp://www.mathworks.com/help/stats/gmdistribution.cluster.html 2.2 Zadania na 4.0

• powtórzyć zadanie na 3.0 dla danych trójwymiarowych

• porównać metody z zadania na 3.0 dodatkowo z k-median

• porównać błąd klasteryzacji na zbiorze testowym i treningowym, czy błąd na zbiorze testowym będzie większy?

Wskazówki:

• http://www.mathworks.com/help/stats/kmedoids.html

(8)

2.3 Zadania na 5.0

• dla wybranych danych wielowymiarowych porównać jakość klasteryzacji na danych testowych z metodami klasyfikacji

• wykonać klastertyzację zdjęć twarzy z dodanymi cechami na podstawie rysunków wygenerowanych w zadaniu z konwolucją z różnymi jądrami konwolucji