Algorytmy rozpoznawania obrazów
11. Analiza skupie ´n
dr in˙z. Urszula Libal Politechnika Wrocławska
2015
1. Analiza skupie ´n Okre´slenia:
— analiza skupie´n (cluster analysis),
— klasteryzacja (clustering),
— klasyfikacja nienadzorowana (unsupervised classification).
Idea działania - grupowanie obiektów podobnych.
2. Hierarchiczne metody klasteryzacji Polegaj ˛a na automatycznym wi ˛azaniu skupie´n.
Do takich metod nale˙z ˛a:
— metoda pojedynczego wi ˛azania (ang. single linkage, SLINK),
— metoda pełnego wi ˛azania (ang. complete linkage, CLINK),
— metoda wi ˛azania ´sredniego (ang. average linkage, UPGMA).
Najcz˛e´sciej stosuje si˛e dwa podej´scia do tworzenia klastrów:
— aglomeracyjne (ang. agglomerative) - za pomoc ˛a ł ˛aczenia skupie´n wyodr˛ebnionych w poprzednich krokach w wi˛eksze skupienia,
— rozdzielaj ˛ace (ang. divisive) - za pomoc ˛a podziału skupie´n na mniejsze skupienia.
3. Przykład klasteryzacji hierarchicznej
Rysunek 1. Przykładowe dane: stopa bezrobocia według województw (listopad 2014r.).
Zródło: GUS´
4. Metoda wi ˛azania ´sredniego (UPGMA)
— Metoda ´sredniego wi ˛azania (ang. average linkage, lub unweighted pair-group method using arithmetic averages- w skrócie UPGMA) [2,3] opiera si˛e na ´sredniej mierze nie- podobie´nstwa mi˛edzy parami obiektów pochodz ˛acych z ró˙znych klastrów.
— Miar˛e niepodobie´nstwa ρcmi˛edzy klastrami C1i C2wyliczamy na podstawie wzoru
ρc(C1, C2) = 1 N1N2 ∑
i∈C1 ∑
j∈C2
ρ (xi, xj), (1)
gdzie N1i N2to odpowiednie liczno´sci klastrów C1i C2.
— Jest to najpopularniejsza metoda wyznaczania klastrów.
6 11 7 9 20 4 5 10 12 27 13 16 8 14 28 25 18 24 21 29 17 30 19 22 26 1 2 23 15 3 0.5
1 1.5 2 2.5 3 3.5 4
Rysunek 2. Drzewo binarne uzyskane metod ˛a ´sredniego wi ˛azania.
Na osi poziomej zaznaczone s ˛a numery obiektów.
Zródło: opracowanie własne na podstawie danych [1]´
5. Metoda pełnego wi ˛azania (CLINK)
— Drugie podej´scie to metoda pełnego wi ˛azania (ang. complete linkage) [2,3,4,5], która jest znana równie˙z jako metoda najdalszego s ˛asiedztwa lub najdalszej odległo´sci.
— Podział na klastry odbywa si˛e wieloetapowo, w ka˙zdym kroku maksymalizowana jest miara niepodobie´nstwa ρc
ρc(C1, C2) = max
i∈C1, j∈C2
ρ (xi, xj). (2)
— Skutkuje to silnym skupieniem obiektów wewn ˛atrz klastrów.
7 12 11 8 10 24 9 1 3 23 2 6 20 15 4 5 13 14 18 16 29 17 28 21 26 19 22 25 30 27 1
2 3 4 5 6 7
Rysunek 3. Drzewo binarne uzyskane metod ˛a pełnego wi ˛azania.
Zródło: opracowanie własne na podstawie danych [1]´
6. Metoda pojedynczego wi ˛azania (SLINK)
— Metoda pojedynczego wi ˛azania (ang. single linkage) [2,3,4,5] jest zwana tak˙ze metod ˛a najbli˙zszego s ˛asiedztwa lub najbli˙zszej odległo´sci. W literaturze funkcjonuje równie˙z pod nazw ˛a „taksonomii wrocławskiej”.
— Podział obiektów na klastry nast˛epuje wieloetapowo. W pierwszym kroku dokonujemy podziału wszystkich obiektów na dwa klastry C1i C2dzi˛eki maksymalizacji miary nie- podobie´nstwa mi˛edzy klastrami ρc
ρc(C1, C2) = min
i∈C1, j∈C2ρ (xi, xj). (3)
— W kolejnych krokach podziałowi na dwa nowe klastry ulegaj ˛a obiekty zakwalifikowane w poprzednim kroku do wspólnego skupiska. Podział na podstawie miary ρc mo˙zna wykonywa´c a˙z do osi ˛agni˛ecia klastrów składaj ˛acych si˛e z pojedynczych obiektów.
— W praktyce nie jest konieczne dokonanie wszystkich mo˙zliwych kroków tej metody, a jedynie kilku pocz ˛atkowych.
14 22 9 13 27 3 10 5 7 12 26 18 21 6 8 16 25 30 29 19 20 4 11 17 24 28 1 15 23 2 0.4
0.6 0.8 1 1.2 1.4 1.6
Rysunek 4. Drzewo binarne uzyskane metod ˛a pojedynczego wi ˛azania.
Zródło: opracowanie własne na podstawie danych [1]´
7. Metoda k-´srednich
— Podział obiektów na k klastrów, skupionych wokół centrów.
— W pierwszym kroku poło˙zenie centrów ustalone lub wybrane losowo.
— W kolejnych krokach poło˙zenia centrów klastrów s ˛a “poprawiane”.
Rysunek 5. Klasteryzacja k-´srednich.
Zródło: [6]´
Literatura
[1] R.A. Fisher, The use of multiple measurements in axonomic problems, Annals of Eugenics, Vol. 7 (1936) pp. 179-188
[2] J. Koronacki, J. ´Cwik, Statystyczne systemy ucz ˛ace si˛e, WNT, Warszawa (2005) [3] A.R. Webb, K.D. Copsey, Statistical Pattern Recognition, 3rd ed., Wiley, (2011) [4] R.O. Duda, P.E. Hart, D.G. Stork, Pattern Classification, 2nd ed., Wiley, (2000) [5] M. Krzy´sko, W. Woły´nski, T. Górecki, M. Skorzybut, Systemy ucz ˛ace si˛e. Rozpoznawa- nie wzorców, analiza skupie´n i redukcja wymiarowo´sci. WNT, Warszawa (2008)
[6] V. Lavrenko, Clustering 4: K-means algorithm,
https://www.youtube.com/watch?v=_aWzGGNrcic