• Nie Znaleziono Wyników

11. Analiza skupie´n

N/A
N/A
Protected

Academic year: 2021

Share "11. Analiza skupie´n"

Copied!
13
0
0

Pełen tekst

(1)

Algorytmy rozpoznawania obrazów

11. Analiza skupie ´n

dr in˙z. Urszula Libal Politechnika Wrocławska

2015

(2)

1. Analiza skupie ´n Okre´slenia:

— analiza skupie´n (cluster analysis),

— klasteryzacja (clustering),

— klasyfikacja nienadzorowana (unsupervised classification).

Idea działania - grupowanie obiektów podobnych.

(3)

2. Hierarchiczne metody klasteryzacji Polegaj ˛a na automatycznym wi ˛azaniu skupie´n.

Do takich metod nale˙z ˛a:

— metoda pojedynczego wi ˛azania (ang. single linkage, SLINK),

— metoda pełnego wi ˛azania (ang. complete linkage, CLINK),

— metoda wi ˛azania ´sredniego (ang. average linkage, UPGMA).

Najcz˛e´sciej stosuje si˛e dwa podej´scia do tworzenia klastrów:

— aglomeracyjne (ang. agglomerative) - za pomoc ˛a ł ˛aczenia skupie´n wyodr˛ebnionych w poprzednich krokach w wi˛eksze skupienia,

— rozdzielaj ˛ace (ang. divisive) - za pomoc ˛a podziału skupie´n na mniejsze skupienia.

(4)

3. Przykład klasteryzacji hierarchicznej

Rysunek 1. Przykładowe dane: stopa bezrobocia według województw (listopad 2014r.).

Zródło: GUS´

(5)

4. Metoda wi ˛azania ´sredniego (UPGMA)

— Metoda ´sredniego wi ˛azania (ang. average linkage, lub unweighted pair-group method using arithmetic averages- w skrócie UPGMA) [2,3] opiera si˛e na ´sredniej mierze nie- podobie´nstwa mi˛edzy parami obiektów pochodz ˛acych z ró˙znych klastrów.

— Miar˛e niepodobie´nstwa ρcmi˛edzy klastrami C1i C2wyliczamy na podstawie wzoru

ρc(C1, C2) = 1 N1N2

i∈C1

j∈C2

ρ (xi, xj), (1)

gdzie N1i N2to odpowiednie liczno´sci klastrów C1i C2.

— Jest to najpopularniejsza metoda wyznaczania klastrów.

(6)

6 11 7 9 20 4 5 10 12 27 13 16 8 14 28 25 18 24 21 29 17 30 19 22 26 1 2 23 15 3 0.5

1 1.5 2 2.5 3 3.5 4

Rysunek 2. Drzewo binarne uzyskane metod ˛a ´sredniego wi ˛azania.

Na osi poziomej zaznaczone s ˛a numery obiektów.

Zródło: opracowanie własne na podstawie danych [1]´

(7)

5. Metoda pełnego wi ˛azania (CLINK)

— Drugie podej´scie to metoda pełnego wi ˛azania (ang. complete linkage) [2,3,4,5], która jest znana równie˙z jako metoda najdalszego s ˛asiedztwa lub najdalszej odległo´sci.

— Podział na klastry odbywa si˛e wieloetapowo, w ka˙zdym kroku maksymalizowana jest miara niepodobie´nstwa ρc

ρc(C1, C2) = max

i∈C1, j∈C2

ρ (xi, xj). (2)

— Skutkuje to silnym skupieniem obiektów wewn ˛atrz klastrów.

(8)

7 12 11 8 10 24 9 1 3 23 2 6 20 15 4 5 13 14 18 16 29 17 28 21 26 19 22 25 30 27 1

2 3 4 5 6 7

Rysunek 3. Drzewo binarne uzyskane metod ˛a pełnego wi ˛azania.

Zródło: opracowanie własne na podstawie danych [1]´

(9)

6. Metoda pojedynczego wi ˛azania (SLINK)

— Metoda pojedynczego wi ˛azania (ang. single linkage) [2,3,4,5] jest zwana tak˙ze metod ˛a najbli˙zszego s ˛asiedztwa lub najbli˙zszej odległo´sci. W literaturze funkcjonuje równie˙z pod nazw ˛a „taksonomii wrocławskiej”.

— Podział obiektów na klastry nast˛epuje wieloetapowo. W pierwszym kroku dokonujemy podziału wszystkich obiektów na dwa klastry C1i C2dzi˛eki maksymalizacji miary nie- podobie´nstwa mi˛edzy klastrami ρc

ρc(C1, C2) = min

i∈C1, j∈C2ρ (xi, xj). (3)

(10)

— W kolejnych krokach podziałowi na dwa nowe klastry ulegaj ˛a obiekty zakwalifikowane w poprzednim kroku do wspólnego skupiska. Podział na podstawie miary ρc mo˙zna wykonywa´c a˙z do osi ˛agni˛ecia klastrów składaj ˛acych si˛e z pojedynczych obiektów.

— W praktyce nie jest konieczne dokonanie wszystkich mo˙zliwych kroków tej metody, a jedynie kilku pocz ˛atkowych.

(11)

14 22 9 13 27 3 10 5 7 12 26 18 21 6 8 16 25 30 29 19 20 4 11 17 24 28 1 15 23 2 0.4

0.6 0.8 1 1.2 1.4 1.6

Rysunek 4. Drzewo binarne uzyskane metod ˛a pojedynczego wi ˛azania.

Zródło: opracowanie własne na podstawie danych [1]´

(12)

7. Metoda k-´srednich

— Podział obiektów na k klastrów, skupionych wokół centrów.

— W pierwszym kroku poło˙zenie centrów ustalone lub wybrane losowo.

— W kolejnych krokach poło˙zenia centrów klastrów s ˛a “poprawiane”.

Rysunek 5. Klasteryzacja k-´srednich.

Zródło: [6]´

(13)

Literatura

[1] R.A. Fisher, The use of multiple measurements in axonomic problems, Annals of Eugenics, Vol. 7 (1936) pp. 179-188

[2] J. Koronacki, J. ´Cwik, Statystyczne systemy ucz ˛ace si˛e, WNT, Warszawa (2005) [3] A.R. Webb, K.D. Copsey, Statistical Pattern Recognition, 3rd ed., Wiley, (2011) [4] R.O. Duda, P.E. Hart, D.G. Stork, Pattern Classification, 2nd ed., Wiley, (2000) [5] M. Krzy´sko, W. Woły´nski, T. Górecki, M. Skorzybut, Systemy ucz ˛ace si˛e. Rozpoznawa- nie wzorców, analiza skupie´n i redukcja wymiarowo´sci. WNT, Warszawa (2008)

[6] V. Lavrenko, Clustering 4: K-means algorithm,

https://www.youtube.com/watch?v=_aWzGGNrcic

Cytaty

Powiązane dokumenty

nają się zm niejszać i stają się nieopłacalne, przestaje się łowić i gatunek ma szansę odro­.

Stopa bezrobocia w polskich województwach w latach 2004 oraz 2008 Źródło: Opracowanie własne przy wykorzystaniu programu R CRAN.. Źródło: Opracowanie własne przy

W przypadku spółki Mostostal Płock wartość kapitałów w analizowanym okresie zmalała o 5,3% i tu, podobnie, jak w przypadku spółki Instal Kraków, spadek odnotowano w

∙ Carl Friedrich Gauss zdobył 55% punktów z ćwiczeń (czyli 22 duże punkty) oraz 400 małych punktów z egzaminu (co przeliczy się na 26, 5 dużego punktu z egzaminu.. Jego

Klasa 2a – na 3 lekcji zamiast religii odbędzie się matematyka; na 5 lekcji zajęcia w-f na sali gimnastycznej, po obiedzie wyjście na Wolskie

Na podstawie miary rozwoju Hellwiga stwierdzono, że najlepsze lokaty w rankingu województw pod względem 45 cech uzyskały województwa: mazowieckie, śląskie oraz

Celem tego opraco- wanie jest pokazanie geografii bezrobocia przez wskazanie tylko tych powiatów, w których skala bezrobocia wysokiego (20% i więcej) stanowi lub stanowiła

Po pierwsze, wartość parame- tru związanego z prawem Okuna okazała się istotnie ujemna w każdej specyfi- kacji modelu, co pozwala wnioskować o istotnej statystycznie