METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY
PB
1 Projekt z grupowania danych - Rough k-medoids
Liczba osób realizuj¡cych projekt: 1 osoba 1. Wczytanie danych w formatach ar, tab
2. Wybór atrybutów, które maj¡ zosta¢ uwzgl¦dnione podczas grupowania 3. Pobranie parametrów algorytmu k-±rednich, w tym:
(a) wspóªczynnik rozmyto±ci
(b) liczba iteracji, ewentualnie brak zmian w wynikowych ±rodkach klas (c) liczba grup (skupie«, klas)
4. Wypisanie wyników grupowania, przydzielenie do poszczególnych grup
5. Zapisanie wyniku pogrupowania z dodaniem jednego atrybutu (kolumny) okre±la- j¡cej numer grupy poszczególnych obiektów (format ar, tab).
1.1 Nazewnictwo
(x
1, x
2, ....) - zbiór obiektów, reprezentuj¡cych dane
x
i= {x
1i, x
2i, .., x
pi} , gdzie x
jioznacza atrybut o indeksie j obiektu x
i. U przestrze« wszystkich obiektów
X - podzbiór zbioru wszystkich obiektów U
x
i- obiekt nale»¡cy do podzbioru wszystkich obiektów U A - zbiór wszystkich atrybutów, cech, wªa±ciwo±ci a
i- atrybut nale»¡cy do zbioru atrybutów A
V
ai- zbiór wszystkich warto±ci atrybutu a
i(nazywany dziedzin¡ a
i) V (a
i) - zbiór wszystkich warto±ci atrybutu a
i(nazywany dziedzin¡ a
i) B - niepusty podzbiór A (B ⊆ A)
LOW (X
B) - dolna aproksymacja X wzgl¦dem B X
B- dolna aproksymacja X wzgl¦dem B U P P (X
B) - górna aproksymacja X wzgl¦dem B X
B- górna aproksymacja X wzgl¦dem B AS
B- standardowa przestrze« aproksymacyjna AS
#,$- sparametryzowana przestrze« aproksymacyjna R
ai(X) - przybli»ono±¢ ze wzdgledu na {a
i}
Rough
aj(a
i) - ±rednia przybli»ono±¢ atrybutu a
iwzgl¦dem atrybutu {a
j} M R(a
i) - minimalna przybli»ono±¢ atrybutu a
iM M R - minimalna warto±¢ MR wszystkich atrybutów IN D(B) - relacja nierozró»nialno±ci
[x
i]
IN D(B)- klasa równowa»no±ci obiektu x
iw relacji IND(B), nazywana tak»e zbiorem elementarnym w B
(C
1, C
2, . . . , C
K) - klasy, skupienia w danym pogrupowaniu danych Card(X) - liczebno±¢ zbioru X
|X| - liczebno±¢ zbioru X
P (U ) - zbiór pot¦gowy zbioru U
2 Rough k-medoids Clustering
Grupowanie przybli»one wokóª medoidów, zaklada »e ±rodkami klas s¡ konkretne obiekty, reprezentanci klasy. W przeciwi«stwie do algorytmu k-±rednich, gdzie
±rodek klasy mo»e by¢ reprezentowany przez wyliczony ±rodek klasy, który nie reprezentuje konkretnego obiektu.
2.1 Klasyczny algorytm k-medoidów
CP C =
K
X
k=1
CP C(C
k) (1)
gdzie
CP C(C
k) = X
Xn∈Ck
d(X
n, m
k) (2)
Algorytm Zwarto±¢ grupowania CP C zostaje wybrana jako kryterium grupowa- nia.
W ten sposób algorytm dziaªa nast¦puj¡co:
1. Zdeniowa¢ liczb¦ klas K.
2. Losowo wybra¢ K obiektów jako medoidy.
3. Pozostaªe obiekty (nie-medoidy) przypisa¢ do klasy, reprezentowanej przez na- jbli»szy medoid.
4. Zamieni¢ ka»dy z medoidów z nie-medoidem do chwili, gdy nie ma ju» zmian w zwarto±ci grupowania.
5. Sprawdzi¢ zbie»no±¢ algorytmu, je»eli algorytm nie wykazuje zmian z zwarto±ci pogrupwoania zakonczy¢ dziaªanie, w przeciwym razie przej±¢ do punktu 3.
2.2 Przybli»ony algorytm k-medoidów
Dziaªanie algorytmu zostaªo przedstawione w tabeli Algorytm 1.
Zbiór danych: X
n- n-ty punkt danych oraz X = (X
1, ..., X
n)
TMedoidy - m
kklas C
k, k = 1, .., K
Odlegªo±¢ obiektu X
nod medoidu m
k: d(X
n, m
k) = ||X
n− m
k||
Zwarto±¢ przybli»ona grupowania:
RCP C = Σ
Ki=1RCP C(C
k) gdzie
RCP C(C
k) = w
l∗ Σ
Xn∈Ckd(X
n, m
k) + w
b∗ Σ
Xn∈Ck−Ck