11. Analiza skupie´n

(1)

Algorytmy rozpoznawania obrazów

11. Analiza skupie ´n

dr in˙z. Urszula Libal Politechnika Wrocławska

2015

(2)

1. Analiza skupie ´n Okre´slenia:

— analiza skupie´n (cluster analysis),

— klasteryzacja (clustering),

— klasyfikacja nienadzorowana (unsupervised classification).

Idea działania - grupowanie obiektów podobnych.

(3)

2. Hierarchiczne metody klasteryzacji Polegaj ˛a na automatycznym wi ˛azaniu skupie´n.

Do takich metod nale˙z ˛a:

— metoda pojedynczego wi ˛azania (ang. single linkage, SLINK),

— metoda pełnego wi ˛azania (ang. complete linkage, CLINK),

— metoda wi ˛azania ´sredniego (ang. average linkage, UPGMA).

Najcz˛e´sciej stosuje si˛e dwa podej´scia do tworzenia klastrów:

— aglomeracyjne (ang. agglomerative) - za pomoc ˛a ł ˛aczenia skupie´n wyodr˛ebnionych w poprzednich krokach w wi˛eksze skupienia,

— rozdzielaj ˛ace (ang. divisive) - za pomoc ˛a podziału skupie´n na mniejsze skupienia.

(4)

3. Przykład klasteryzacji hierarchicznej

Rysunek 1. Przykładowe dane: stopa bezrobocia według województw (listopad 2014r.).

Zródło: GUS´

(5)

4. Metoda wi ˛azania ´sredniego (UPGMA)

— Metoda ´sredniego wi ˛azania (ang. average linkage, lub unweighted pair-group method using arithmetic averages- w skrócie UPGMA) [2,3] opiera si˛e na ´sredniej mierze niepodobie´nstwa mi˛edzy parami obiektów pochodz ˛acych z ró˙znych klastrów.

— Miar˛e niepodobie´nstwa ρcmi˛edzy klastrami C₁i C₂wyliczamy na podstawie wzoru

ρc(C₁, C₂) = 1 N1N2 ∑

i∈C₁ ∑

j∈C₂

ρ (xi, x_j), (1)

gdzie N₁i N₂to odpowiednie liczno´sci klastrów C₁i C₂.

— Jest to najpopularniejsza metoda wyznaczania klastrów.

(6)

6 11 7 9 20 4 5 10 12 27 13 16 8 14 28 25 18 24 21 29 17 30 19 22 26 1 2 23 15 3 0.5

1 1.5 2 2.5 3 3.5 4

Rysunek 2. Drzewo binarne uzyskane metod ˛a ´sredniego wi ˛azania.

Na osi poziomej zaznaczone s ˛a numery obiektów.

Zródło: opracowanie własne na podstawie danych [1]´

(7)

5. Metoda pełnego wi ˛azania (CLINK)

— Drugie podej´scie to metoda pełnego wi ˛azania (ang. complete linkage) [2,3,4,5], która jest znana równie˙z jako metoda najdalszego s ˛asiedztwa lub najdalszej odległo´sci.

— Podział na klastry odbywa si˛e wieloetapowo, w ka˙zdym kroku maksymalizowana jest miara niepodobie´nstwa ρc

ρc(C₁, C₂) = max

i∈C₁, j∈C2

ρ (xi, x_j). (2)

— Skutkuje to silnym skupieniem obiektów wewn ˛atrz klastrów.

(8)

7 12 11 8 10 24 9 1 3 23 2 6 20 15 4 5 13 14 18 16 29 17 28 21 26 19 22 25 30 27 1

2 3 4 5 6 7

Rysunek 3. Drzewo binarne uzyskane metod ˛a pełnego wi ˛azania.

(9)

6. Metoda pojedynczego wi ˛azania (SLINK)

— Metoda pojedynczego wi ˛azania (ang. single linkage) [2,3,4,5] jest zwana tak˙ze metod ˛a najbli˙zszego s ˛asiedztwa lub najbli˙zszej odległo´sci. W literaturze funkcjonuje równie˙z pod nazw ˛a „taksonomii wrocławskiej”.

— Podział obiektów na klastry nast˛epuje wieloetapowo. W pierwszym kroku dokonujemy podziału wszystkich obiektów na dwa klastry C₁i C₂dzi˛eki maksymalizacji miary niepodobie´nstwa mi˛edzy klastrami ρc

ρc(C₁, C₂) = min

i∈C₁, j∈C₂ρ (xi, x_j). (3)

(10)

— W kolejnych krokach podziałowi na dwa nowe klastry ulegaj ˛a obiekty zakwalifikowane w poprzednim kroku do wspólnego skupiska. Podział na podstawie miary ρc mo˙zna wykonywa´c a˙z do osi ˛agni˛ecia klastrów składaj ˛acych si˛e z pojedynczych obiektów.

— W praktyce nie jest konieczne dokonanie wszystkich mo˙zliwych kroków tej metody, a jedynie kilku pocz ˛atkowych.

(11)

14 22 9 13 27 3 10 5 7 12 26 18 21 6 8 16 25 30 29 19 20 4 11 17 24 28 1 15 23 2 0.4

0.6 0.8 1 1.2 1.4 1.6

Rysunek 4. Drzewo binarne uzyskane metod ˛a pojedynczego wi ˛azania.

(12)

7. Metoda k-´srednich

— Podział obiektów na k klastrów, skupionych wokół centrów.

— W pierwszym kroku poło˙zenie centrów ustalone lub wybrane losowo.

— W kolejnych krokach poło˙zenia centrów klastrów s ˛a “poprawiane”.

Rysunek 5. Klasteryzacja k-´srednich.

Zródło: [6]´

(13)

Literatura

[1] R.A. Fisher, The use of multiple measurements in axonomic problems, Annals of Eugenics, Vol. 7 (1936) pp. 179-188

[2] J. Koronacki, J. Ćwik, Statystyczne systemy ucz ˛ace si˛e, WNT, Warszawa (2005) [3] A.R. Webb, K.D. Copsey, Statistical Pattern Recognition, 3rd ed., Wiley, (2011) [4] R.O. Duda, P.E. Hart, D.G. Stork, Pattern Classification, 2nd ed., Wiley, (2000) [5] M. Krzy´sko, W. Wołyński, T. Górecki, M. Skorzybut, Systemy ucz ˛ace si˛e. Rozpoznawa- nie wzorców, analiza skupień i redukcja wymiarowo´sci. WNT, Warszawa (2008)

[6] V. Lavrenko, Clustering 4: K-means algorithm,

https://www.youtube.com/watch?v=_aWzGGNrcic