PB METODYSZTUCZNEJINTELIGENCJI-PROJEKTY

(1)

METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

PB

(2)

1 Projekt z grupowania danych - Rough k-medoids

Liczba osób realizuj¡cych projekt: 1 osoba 1. Wczytanie danych w formatach ar, tab

2. Wybór atrybutów, które maj¡ zosta¢ uwzgl¦dnione podczas grupowania 3. Pobranie parametrów algorytmu k-±rednich, w tym:

(a) wspóªczynnik rozmyto±ci

(b) liczba iteracji, ewentualnie brak zmian w wynikowych ±rodkach klas (c) liczba grup (skupie«, klas)

4. Wypisanie wyników grupowania, przydzielenie do poszczególnych grup

5. Zapisanie wyniku pogrupowania z dodaniem jednego atrybutu (kolumny) okre±la- j¡cej numer grupy poszczególnych obiektów (format ar, tab).

1.1 Nazewnictwo

(x

₁

, x

₂

, ....) - zbiór obiektów, reprezentuj¡cych dane

x

_i

= {x

¹_i

, x

²_i

, .., x

^p_i

} , gdzie x

^ji

oznacza atrybut o indeksie j obiektu x

i

. U przestrze« wszystkich obiektów

X - podzbiór zbioru wszystkich obiektów U

x

i

- obiekt nale»¡cy do podzbioru wszystkich obiektów U A - zbiór wszystkich atrybutów, cech, wªa±ciwo±ci a

i

- atrybut nale»¡cy do zbioru atrybutów A

V

a_i

- zbiór wszystkich warto±ci atrybutu a

i

(nazywany dziedzin¡ a

i

) V (a

i

) - zbiór wszystkich warto±ci atrybutu a

i

(nazywany dziedzin¡ a

i

) B - niepusty podzbiór A (B ⊆ A)

LOW (X

B

) - dolna aproksymacja X wzgl¦dem B X

_B

- dolna aproksymacja X wzgl¦dem B U P P (X

_B

) - górna aproksymacja X wzgl¦dem B X

_B

- górna aproksymacja X wzgl¦dem B AS

_B

- standardowa przestrze« aproksymacyjna AS

_#,$

- sparametryzowana przestrze« aproksymacyjna R

_a_i

(X) - przybli»ono±¢ ze wzdgledu na {a

i

}

Rough

a_j

(a

i

) - ±rednia przybli»ono±¢ atrybutu a

i

wzgl¦dem atrybutu {a

j

} M R(a

i

) - minimalna przybli»ono±¢ atrybutu a

i

M M R - minimalna warto±¢ MR wszystkich atrybutów IN D(B) - relacja nierozró»nialno±ci

[x

i

]

_{IN D(B)}

- klasa równowa»no±ci obiektu x

i

w relacji IND(B), nazywana tak»e zbiorem elementarnym w B

(C

1

, C

2

, . . . , C

K

) - klasy, skupienia w danym pogrupowaniu danych Card(X) - liczebno±¢ zbioru X

|X| - liczebno±¢ zbioru X

P (U ) - zbiór pot¦gowy zbioru U

(3)

2 Rough k-medoids Clustering

Grupowanie przybli»one wokóª medoidów, zaklada »e ±rodkami klas s¡ konkretne obiekty, reprezentanci klasy. W przeciwi«stwie do algorytmu k-±rednich, gdzie

±rodek klasy mo»e by¢ reprezentowany przez wyliczony ±rodek klasy, który nie reprezentuje konkretnego obiektu.

2.1 Klasyczny algorytm k-medoidów

CP C =

K

X

k=1

CP C(C

k

) (1)

gdzie

CP C(C

k

) = X

Xn∈Ck

d(X

n

, m

k

) (2)

Algorytm Zwarto±¢ grupowania CP C zostaje wybrana jako kryterium grupowa- nia.

W ten sposób algorytm dziaªa nast¦puj¡co:

1. Zdeniowa¢ liczb¦ klas K.

2. Losowo wybra¢ K obiektów jako medoidy.

3. Pozostaªe obiekty (nie-medoidy) przypisa¢ do klasy, reprezentowanej przez na- jbli»szy medoid.

4. Zamieni¢ ka»dy z medoidów z nie-medoidem do chwili, gdy nie ma ju» zmian w zwarto±ci grupowania.

5. Sprawdzi¢ zbie»no±¢ algorytmu, je»eli algorytm nie wykazuje zmian z zwarto±ci pogrupwoania zakonczy¢ dziaªanie, w przeciwym razie przej±¢ do punktu 3.

2.2 Przybli»ony algorytm k-medoidów

Dziaªanie algorytmu zostaªo przedstawione w tabeli Algorytm 1.

Zbiór danych: X

n

- n-ty punkt danych oraz X = (X

1

, ..., X

_n

)

^T

Medoidy - m

k

klas C

k

, k = 1, .., K

Odlegªo±¢ obiektu X

n

od medoidu m

k

: d(X

n

, m

_k

) = ||X

_n

− m

k

||

Zwarto±¢ przybli»ona grupowania:

RCP C = Σ

^K_i=1

RCP C(C

k

) gdzie

RCP C(C

k

) = w

l

∗ Σ

X_n∈Ck

d(X

n

, m

k

) + w

b

∗ Σ

_X

n∈Ck−Ck

d(X

n

, m

k

)

Parametry w

l

oraz w

b

okre±laj¡ stopie« w jakim zbiory dolnej aproksymacji

oraz brzegu wpªywaj¡ na warto±¢ zwarto±ci przybli»onej grupowania.

(4)

Algorithm 1: Rough k-medoids Clustering Data: Input Data

Result: Rough K -medoidd Cluster assignment

1) Wybra¢ losowo pocz¡tkowe K obiektów jako medoidy: m

k

, k=1,..,K.

Wybrane medoidy nale»¡ do dolnej aproksymacji klas: m

k

∈ C

k

. Pozostaªe obiekty s¡ oznaczane jako X

m⁰

,m = 1, .., (N − K).

2) Przypisa¢ pozostaªe (N − K) obiektów X

m⁰

do K prototypów klas w dwustopniowym procesie. W pierwszym kroku obiekt zostaje przypisany do górnej aproksymacji najbli»ej sobie klasy. W drugim kroku, obiekt zostaje przypisany tak»e do innych, wzgl¦dnie bliskich klas lub zostaje przypisany do dolnej aproksymacji najbli»szej klasy.

(a) dla danego obiektu X

m⁰

okre±l jego najbli»szy medoid m

k

:

d(X

_m⁰

, m

_k

) = min

_h=1,...,K

d(X

_m⁰

, m

_h

) Przypisz X

m⁰

do górnej aproksymacji klasy k: X

m⁰

∈ C

k

. (b) okre±l pozostaªe klasy, które równie» znajduj¡ si¦

blisko obiektu X

m⁰

- które znajduj¡ si¦ nie dalej od obiektu X

m⁰

ni»

d(X

_m⁰

) + , gdzie okre±la warto±¢ progow¡.

T = {h : d(X

_n⁰

− m

h

) − d(X

_n⁰

− m

k

) ≤ ∧ h 6= k}.

if T 6= 0 (T jest równie» blisko do innych medoidów) then X

_m⁰

∈ C

_h

, ∀h ∈ T ;

end else

X

_m⁰

∈ C

h

; end

3) Obliczy¢ bie»¡c¡ warto±¢ RCP C

current

4) Zamieni¢ ka»dy z medoidów m

k

z ka»dym z obiektów X

m⁰

i obliczy¢

RCP C

_k↔m

, Niech RCP C

k0↔m0

= min

_∀k,∀m

RCP C

_k↔m

dla k = 1, ..K, m = 1, .., (N − K) .

if RCP C

k₀↔m0

≤ RCP C

current

then

zamie« medoid m

k₀

z obiektem X

m₀

oraz ustaw RCP C

current

= RCP C

k₀↔m₀

;

Wróc do kroku 2;

end else

ST OP ;

end

(5)

PB METODYSZTUCZNEJINTELIGENCJI-PROJEKTY

METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

PB

1 Projekt z grupowania danych - Rough k-medoids

Liczba osób realizuj¡cych projekt: 1 osoba 1. Wczytanie danych w formatach ar, tab

2. Wybór atrybutów, które maj¡ zosta¢ uwzgl¦dnione podczas grupowania 3. Pobranie parametrów algorytmu k-±rednich, w tym:

(a) wspóªczynnik rozmyto±ci

(b) liczba iteracji, ewentualnie brak zmian w wynikowych ±rodkach klas (c) liczba grup (skupie«, klas)

4. Wypisanie wyników grupowania, przydzielenie do poszczególnych grup

5. Zapisanie wyniku pogrupowania z dodaniem jednego atrybutu (kolumny) okre±la- j¡cej numer grupy poszczególnych obiektów (format ar, tab).

1.1 Nazewnictwo

(x

, x

, ....) - zbiór obiektów, reprezentuj¡cych dane

x

= {x

, x

, .., x

} , gdzie x

oznacza atrybut o indeksie j obiektu x

. U przestrze« wszystkich obiektów

X - podzbiór zbioru wszystkich obiektów U

x

- obiekt nale»¡cy do podzbioru wszystkich obiektów U A - zbiór wszystkich atrybutów, cech, wªa±ciwo±ci a

- atrybut nale»¡cy do zbioru atrybutów A

V

- zbiór wszystkich warto±ci atrybutu a

(nazywany dziedzin¡ a

) V (a

) - zbiór wszystkich warto±ci atrybutu a

(nazywany dziedzin¡ a

) B - niepusty podzbiór A (B ⊆ A)

LOW (X

) - dolna aproksymacja X wzgl¦dem B X

- dolna aproksymacja X wzgl¦dem B U P P (X

) - górna aproksymacja X wzgl¦dem B X

- górna aproksymacja X wzgl¦dem B AS

- standardowa przestrze« aproksymacyjna AS

- sparametryzowana przestrze« aproksymacyjna R

(X) - przybli»ono±¢ ze wzdgledu na {a

}

Rough

(a

) - ±rednia przybli»ono±¢ atrybutu a

wzgl¦dem atrybutu {a

} M R(a

) - minimalna przybli»ono±¢ atrybutu a

M M R - minimalna warto±¢ MR wszystkich atrybutów IN D(B) - relacja nierozró»nialno±ci

[x

]

- klasa równowa»no±ci obiektu x

w relacji IND(B), nazywana tak»e zbiorem elementarnym w B

(C

, C

, . . . , C

) - klasy, skupienia w danym pogrupowaniu danych Card(X) - liczebno±¢ zbioru X

|X| - liczebno±¢ zbioru X

P (U ) - zbiór pot¦gowy zbioru U

2 Rough k-medoids Clustering

Grupowanie przybli»one wokóª medoidów, zaklada »e ±rodkami klas s¡ konkretne obiekty, reprezentanci klasy. W przeciwi«stwie do algorytmu k-±rednich, gdzie

±rodek klasy mo»e by¢ reprezentowany przez wyliczony ±rodek klasy, który nie reprezentuje konkretnego obiektu.

2.1 Klasyczny algorytm k-medoidów

CP C =

X

CP C(C

) (1)

gdzie

CP C(C

) = X

d(X

, m

) (2)

Algorytm Zwarto±¢ grupowania CP C zostaje wybrana jako kryterium grupowa- nia.

W ten sposób algorytm dziaªa nast¦puj¡co:

1. Zdeniowa¢ liczb¦ klas K.

2. Losowo wybra¢ K obiektów jako medoidy.

3. Pozostaªe obiekty (nie-medoidy) przypisa¢ do klasy, reprezentowanej przez na- jbli»szy medoid.

4. Zamieni¢ ka»dy z medoidów z nie-medoidem do chwili, gdy nie ma ju» zmian w zwarto±ci grupowania.

5. Sprawdzi¢ zbie»no±¢ algorytmu, je»eli algorytm nie wykazuje zmian z zwarto±ci pogrupwoania zakonczy¢ dziaªanie, w przeciwym razie przej±¢ do punktu 3.

2.2 Przybli»ony algorytm k-medoidów

Liczba osób realizuj¡cych projekt: 1 osoba 1. Wczytanie danych w formatach ar, tab

5. Zapisanie wyniku pogrupowania z dodaniem jednego atrybutu (kolumny) okre±la- j¡cej numer grupy poszczególnych obiektów (format ar, tab).

1. Zdeniowa¢ liczb¦ klas K.

) + , gdzie okre±la warto±¢ progow¡.

) ≤ ∧ h 6= k}.