• Nie Znaleziono Wyników

Grupowanie

N/A
N/A
Protected

Academic year: 2021

Share "Grupowanie"

Copied!
8
0
0

Pełen tekst

(1)

Notatki do wykładów: algorytm grupowania k-średnich (k-Means) (c) Marcin

Sydow

Notatki do wykładów: algorytm grupowania

k-średnich (k-Means)

(2)

Notatki do wykładów: algorytm grupowania k-średnich (k-Means) (c) Marcin Sydow

Zadanie grupowania (ang. clustering)

Grupowanie jest przykładem zadania uczenia maszynowego bez nadzoru.

Dany jest zbiór danych składających się z N obserwacji. Każda obserwacja opisana jest wektorem atrybutów. Ponieważ jest to uczenie bez nadzoru, nie ma atrybutu decyzyjnego. Celem grupowania jest podział zbioru obserwacji na kilka grup w taki sposób, żeby obserwacje w każdej grupie były jak najbardziej “podobne” parami do siebie, natomiast obserwacje przydzielone do różnych grup były jak najbardziej “niepodobne” do siebie.

W wielu algorytmach liczba grup k, na jakie należy podzielić dane jest dana jako argument.

(3)

Notatki do wykładów: algorytm grupowania k-średnich (k-Means) (c) Marcin Sydow

Sformalizowanie pojęcia “podobieństwa”

Aby sformalizować pojęcie “podobieństwa” (i “niepodobieństwa”) występujące w opisie problemu grupowania, używa się pojęcia odległości pomiędzy parami obiektów.

Jeżeli wszytkie atrybuty są numeryczne, do mierzenia stopnia “podobieństwa” używa się np. odległości euklidesowej (podobnie jak w przypadku algorytmu klasyfikacji k-NN). 2 obiekty są tym bardziej podobne im mniejsza jest odległość między nimi.

(4)

Notatki do wykładów: algorytm grupowania k-średnich (k-Means) (c) Marcin Sydow

Sformalizowanie problemu grupowania dla k grup

Podział zbioru danych X na k-grup tak, żeby wewnątrz grup obiekty były jak najbardziej do siebie parami podobne a pomiędzy grupami jak najmniej podobne można sformalizować następująco.

Rozważmy sumę wszystkich odległości parami obiektów w zbiorze danych.

Suma ta, dla ustalonego zbioru oczywiście jest stała, nazwijmy tę sumę S:

S = X

x ,y ∈X

(5)

Notatki do wykładów: algorytm grupowania k-średnich (k-Means) (c) Marcin Sydow

Sformalizowanie problemu grupowania dla k grup

Dla ustalonego podziału na k grup można podzielić zbiór wszystkich par na dwa rozłączne podzbiory par:

I: zbiór takich par, że oba elementy należą do tej samej grupy podziału

O: zbiór takich par, że elementy należą do dwóch różnych grup podziału

Wtedy wielkość S zdefiniowana poprzednio rozbija się na dwa składniki: S = X x ,y ∈X d (x , y ) = X x ,y :(x ,y )∈I d (x , y ) + X x ,y :(x ,y )∈O d (x , y ) Wobec stałości wielkości S i ustalonej liczby grup k, minimalizacja pierwszego składnika sumy (podobieństwo wewnątrz grup) jest więc równoznaczna z maksymalizacją drugiego (niepodobieństwo pomiędzy grupami).

Problem grupowania na k grup jest więc dobrze zdefiniowanym problemem optymalizacyjnym

(6)

Notatki do wykładów: algorytm grupowania k-średnich (k-Means) (c) Marcin Sydow

Algorytm grupowania k-średnich (ang. k-means)

Wejście: n elementowy zbiór danych do pogrupowania (dane opisane są za pomocą n-wymiarowych wektorów atrybutów numerycznych), liczba naturalna k (liczba grup)

Wyjście: przyporządkowanie każdego z n elementów danych do dokładnie jednej z k grup, tak, aby każda z k grup była niepusta Inicjalizacja: każdy z n elementów zostaje początkowo

przyporządkowany do losowo wybranej z k grup

Następnie, aż do ustania jakichkolwiek zmian wykonywane są na przemian dwie fazy:

oblicz centroid każdej grupy (średnia arytmetyczna wszystkich wektorów w danej grupie)

przyporządkuj każdy element do tej grupy, której centroid jest najbliższy danemu elementowi

(7)

Notatki do wykładów: algorytm grupowania k-średnich (k-Means) (c) Marcin Sydow

Własności algorytmu k-średnich

po skończonej liczbie kroków algorytm k-średnich zatrzyma się (nie będzie dalej żadnych zmian w obliczanych

centroidach ani przyporządkowaniach elementów do grup) algorytm k-średnich minimalizuje sumę kwadratów

odległości elementów od centroidów swoich grup.

algorytm k-średnich nie daje gwarancji znalezienia podziału na grupy dającego minimalną sumę kwadratów dla danego zbioru danych i liczby grup k.

(8)

Notatki do wykładów: algorytm grupowania k-średnich (k-Means) (c) Marcin Sydow Dziękuję za uwagę

Cytaty

Powiązane dokumenty

[r]

Słabo rozwija się również, i to zarówno ze względu na brak technologii w przem yśle chemicznym, jak zdecydowanego stanowiska ze strony rol­ nictwa, stosowanie

tekście chciałbym się zająć pomyłkami, które powstały w związku z pojawieniem się w tekście postaci Józefa Zadzierskiego „Wołyniaka” i dowodzonego przez niego

Halwani (2018, s. Są to: ekskluzywność połączona z wyłącznością, stałość, unikatowość i niezastę- powalność ukochanego/ukochanej, wspólnotowość, silna troska o

Cała historia zaczyna się w roku 1992, kiedy Aleksander Wolszczan oraz Dale Frail dokonali odkrycia pierwszych planet pozasłonecznych, krążących wokół pulsara PSR 1257+12..

1-5 zaprezentowano wyniki identyfikacji wartości odstających dla indeksów z TGE: IRDN, sIRDN, offIRDN, POLPXbase, POLPXpeak, notowanych każdego dnia od poniedziałku do

od odległości topocentrycznej satelita-odbiornik. Trzeci z tych wyrazów jest iloczynem kwadratów małego dryftu częstotliwości emitowanej przez satelitę i

Dotyczy ono obserwacji różnicy, ale fazy emitowanej i generowanej przez odbiornik, odnosi się do obserwacji jednego satelity przez jeden odbiornik.. W praktyce bywa, że