Taksonomia 20. Klasyfikacja i analiza danych – teoria i zastosowania ISSN 1899-3192
Marek Walesiak
8niwersytet (konomiczny we :rocáawiX
ZAGADNIENIE DOBORU LICZBY KLAS W KLASYFIKACJI SPEKTRALNEJ
Streszczenie: : artykXle Srzetestowano SrzydatnoĞü SiĊciX indeksyw oceny jakoĞci klasyfi- kacji w zaJadnieniX doEorX liczEy klas w klasyfikacji sSektralnej XwzJlĊdniającej cztery tySy odleJáoĞci kwadrat odleJáoĞci eXklidesowej odleJáoĞü eXklidesowa odleJáoĞü miejska odleg- áoĞü *'01. : eksSerymentach wykorzystano klasyczne dane metryczne o znanej strXktXrze klas oEiektyw wygenerowane z wykorzystaniem z fXnkcji cluster.Gen SakietX clu- sterSim oraz nieklasyczne zEiory danych Xtworzone z wykorzystaniem fXnkcji SakietX mlbench geozoo oraz zEioryw wáasnych. 'la modeli w kaĪdym eksSerymencie wygene- rowano 0 zEioryw danych SrzeSrowadzono klasyfikacjĊ sSektralną z zastosowaniem odSo- wiedniego indeksX i otrzymane rezXltaty klasyfikacji Sorywnano ze znaną strXktXrą klas za Somocą skorygowanego indeksX 5anda.
SáRZa klXczRZe: analiza skXSieĔ klasyfikacja sSektralna liczEa klas.
1 WstĊS
=agadnienie doEorX liczEy klas naleĪy do najwaĪniejszych krokyw w kaĪdej Sroce- dXrze klasyfikacyjnej.
: artykXle Srzetestowano SrzydatnoĞü SiĊciX indeksyw oceny jakoĞci klasyfika- cji w zagadnieniX doEorX liczEy klas w klasyfikacji sSektralnej XwzglĊdniającej czte- ry tySy odlegáoĞci. : eksSerymentach wykorzystano klasyczne dane metryczne o znanej strXktXrze klas oEiektyw wygenerowane z wykorzystaniem z fXnkcji clu- ster.Gen SakietX clusterSim oraz nieklasyczne zEiory danych Xtworzone z wykorzystaniem fXnkcji SakietX mlbench geozoo oraz zEioryw wáasnych.
2 Klas\IikacMa sSektralna
W jednym z Sodstawowych krokyw klasyfikacji sSektralnej wyznacza siĊ sSektrXm widmo macierzy /aSlace¶a. W matematyce zEiyr wartoĞci wáasnych macierzy na- zywa siĊ sSektrXm widmem macierzy zoE. nS. [KolXSa 19 s. 182]. 3odstawo- wy algorytm klasyfikacji sSektralnej dla danych metrycznych zaSroSonowano
w Sracy Ng -ordan i Weiss [2002]. Inne algorytmy klasyfikacji sSektralnej scharak- teryzowano m.in. w Sracach Shortreed [200] oraz 9erma i 0eila [2003].
3rocedXra klasyfikacji sSektralnej oEejmXje nastĊSXjące kroki1:
1. 8stalenie zEiorX oEiektyw i zmiennych. 3o zgromadzeniX danych konstrXXje siĊ macierz danych ij
x n m
ª ºu
¬ ¼
X i – nXmer oEiektX j – nXmer zmiennej a w Srzy- SadkX danych metrycznych znormalizowaną macierz danych ij .
z n m
ª º u
¬ ¼ Z 2. 'oEyr zmiennych.
Szczegyáową charakterystykĊ etaSyw 1-2 zaSrezentowano m.in. w Sracach Wa- lesiaka [2005; 2009].
3. 2Eliczenie symetrycznej macierzy SodoEieĔstw A
> @
Aik n nu affinity matrix miĊdzy oEiektami dla ktyrej Aii 0 oraze[S
ik ik
A V d dla iz k 1
gdzie:
V
– Sarametr skalidik – miary odlegáoĞci dla ryĪnych skal SomiarX zoE. Walesiak [2012] ik !1 n – nXmery oEiektyw.
W artykXle Srzetestowano zastosowanie we wzorze 1 miar odlegáoĞci d dla ik danych metrycznych XjĊtych w taE. 1.
Tabela 1. 0iary odlegáoĞci d dla danych metrycznych ik
Nr Nazwa miary odlegáoĞci )ormXáa )Xnkcja Sakiet SrogramX 5 1 kwadrat odlegáoĞci
eXklidesowej
2
1
m
ik j ij kj
d
¦
z z dist stats2 eXklidesowa dik
¦
mj1zijzkj2 dist stats 3 miejska 0anhattan dik¦
mj 1zijzkj dist stats4 *'01
1 1 1
1
2 2 2
1 1 1 1
1 2
2
m m n
ikj kij ilj klj
j j l
l i k ik
m n m n
ilj klj
j l j l
a b a b
d
a b
z
ª º
« »
¬ ¼
¦ ¦ ¦
¦¦ ¦¦
ikj ij kj
a z z ailj zijzlj
kij kj ij
b z z bklj zkjzlj
dist.GDM clusterSim
ij kj lj
z z z – znormalizowana wartoĞü j-tej zmiennej dla i-tego k-tego l-tego oEiektX.
ħrydáo: oSracowanie wáasne.
1 -est to algorytm zaSroSonowany w Sracy Ng -ordan i Weiss [2002] Sor. Walesiak i 'Xdek [2009; 2010]. W artykXle Walesiaka [2012] dokonano jego modyfikacji w krokX 3 Srzy oEliczaniX macierzy SodoEieĔstw affinity matrix.
W krokX tym moĪna zastosowaü do oEliczenia elementyw macierzy SodoEieĔstw Aik izk estymatory jądrowe zoE. KaratzogloX [200] s. 13-14; 3oland i =e- Xgmann [200]: jądro gaXssowskie z odlegáoĞcią 1 z taE. 1 jądro wielomianowe
jądro liniowe jądro w Sostaci tangensa hiSerEolicznego jądro %essela jądro /aSla- ce¶a z odlegáoĞcią 2 z taE. 1 jądro $N29$ jądro áaĔcXchowe dla danych tek- stowych.
4. KonstrXkcja znormalizowanej macierzy /aSlace¶a
L D
1/2AD
1/2D
– diagonalna macierz wag w ktyrej na gáywnej Srzekątnej znajdXją siĊ sXmy kaĪdego wiersza z macierzy A> @
Aik . W rzeczywistoĞci znormalizowana macierz /aSla- ce¶a SrzyjmXje Sostaü:I L
. W algorytmie dla XSroszczenia analizy Somija siĊ macierz jednostkowąI
zoE. Ng -ordan i Weiss [2002]. WáasnoĞci tej macierzy Srzedstawiono m.in. w Sracy Yon /X[EXrg [200] s. 5-.5. 2Eliczenie wartoĞci wáasnych i odSowiadających im wektoryw wáasnych dla macierzy
L
a nastĊSnie XSorządkowanie wektoryw wáasnych wedáXg malejących wartoĞci wáasnych. 3ierwsze u wektoryw wáasnych u – liczEa klas tworzy ma- cierz E> @
eij o wymiarach nuu.. 3rzeSrowadza siĊ normalizacjĊ macierzy E zgodnie ze wzorem
2 1 u
ij ij ij
j
y e
¦
e i ! – nXmer oEiektX 1 n j !1 u – nXmer zmienneju – liczEa klas. 'ziĊki tej normalizacji dáXgoĞü kaĪdego wektora wierszowego ma- cierzy Y
> @
yij jest rywna jeden.. 0acierz
Y
stanowi SXnkt wyjĞcia zastosowania klasycznych metod analizy skXSieĔ SroSonXje siĊ tXtaj wykorzystanie metody k-Ğrednich.3odejĞcie sSektralne XjĊte w krokach 3- nie jest nową metodą klasyfikacji.
W wynikX zastosowania tego SodejĞcia dokonXje siĊ takiego rozmieszczenia oEiektyw w Srzestrzeni o liczEie wymiaryw rywnej liczEie klas aEy klasy oEiek- tyw Eyáy wyraĨnie seSarowalne. KlasyfikacjĊ oEiektyw SrzeSrowadza siĊ w Sodej- ĞciX sSektralnym wykorzystXjąc w tym celX jedną z klasycznych metod analizy skXSieĔ w Srezentowanym algorytmie zastosowano metodĊ k-Ğrednich.
3. InGeks\ Rcen\ MakRĞci klas\IikacMi sáXĪące Z\bRrRZi liczb\ klas
'o rozwiązania zagadnienia wyEorX oStymalnej liczEy klas moĪna w klasyfikacji sSektralnej wykorzystaü:
a. 0etody EazXjące na dekomSozycji sSektralnej nS. metodĊ *irolamiego [2002] – zoE. Walesiak [2012]
E. Indeksy oceny jakoĞci klasyfikacji stosowane w klasycznej analizie skXSieĔ nS. indeksy z SakietX clusterSim: 'aYiesa-%oXldina – index.DB &aliĔskiego
i +araEasza – index.G1 %akera i +XEerta – index.G2 +XEerta i /eYina – in- dex.G3 gaS – index.Gap +artigana – index.H Krzanowskiego i /ai – in- dex.KL SilhoXette – index.S.
W czĊĞci symXlacyjnej artykXáX zastosowano w klasyfikacji sSektralnej SiĊü in- deksyw sáXĪących wyEorowi liczEy klas zoE. taE. 2.
Tabela 2. WyErane indeksy oceny jakoĞci klasyfikacji sáXĪące wyEorowi liczEy klas
/S. Nazwa indeksX SymEol )ormXáa KryteriXm wyEorX
liczEy klas
1 =miennoĞü wewnątrz- klasowa
W& WC u W tr u ˆ arg min^ `
u
u WC u
2 &aliĔskiego
i +araEasza *1 / 1
1 /
u
u
B u
G u W n u
1 G u R ˆ arg ma[^ 1 `
u
u G u
3 Krzanowskiego
i /ai K/ 1
u
u
KL u DIFF
DIFF KL u R
2/ 2/
1 m 1 m
u u u
DIFF u W u W
ˆ arg ma[^ `
u u KL u
4 'aYiesa-
-%oXldina '%
1
1 ma[
r s u
r s
r s rs
S S
DB u u z d
§ ·
¨ ¸
© ¹
¦
uˆ arg min^u DB u `5 Hartigana H u1 1 1
u
H u W n u
W
§ ·
¨ ¸
© ¹
H u R
najmniejsze u dla ktyrego H u 10d
B – macierz kowariancji miĊdzyklasowej u Wu – macierz kowariancji wewnątrzklasowej
tr – Ğlad macierzy B Wu u trButrW u r s 1 ...u – nXmer klasy u – liczEa klas
1
i k ! n – nXmer oEiektX n – liczEa oEiektyw j !1 m – nXmer zmiennej m – liczEa
zmiennych 2
1 m
r s
rs j j
j
d
¦
zx zx – odlegáoĞü (Xklidesa miĊdzy Ğrodkami ciĊĪkoĞci klas r i s;z
r s
j j
zx x – j-ta wsSyárzĊdna Ğrodka ciĊĪkoĞci klasy r s; 2
1
1
r m
r r
r ij j
i P j r
S z z
n x
¦¦
– miara rozSro- szenia oEiektyw w klasie odchylenie standardowe odlegáoĞci oEiektyw w r-tej klasie od Ğrodka ciĊĪ- koĞci klasy.ħrydáo: oSracowanie wáasne na Sodstawie Srac: Walesiak [2011] s. 1; (Yeritt /andaX /eese i Stahl [2011] s. 114-115.
4. Analiza SRryZnaZcza inGeksyZ Rcen\ MakRĞci klas\IikacMi sáXĪąc\cK Z\bRrRZi liczb\ klas Z klas\IikacMi sSektralneM z czterePa PiaraPi RGleJáRĞci
$nalizĊ Sorywnawczą na Sodstawie dwych tySyw danych metrycznych klasycznych i nieklasycznych SrzeSrowadzono dla SiĊciX indeksyw z taE. 2 oraz czterech miar odlegáoĞci z taE. 1 zastosowanych w klasyfikacji sSektralnej.
W eksSerymencie Sierwszym wykorzystano klasyczne dane metryczne o znanej strXktXrze klas oEiektyw wygenerowane z wykorzystaniem fXnkcji cluster.Gen SakietX clusterSim zoE. Walesiak i 'Xdek [2012] na Sodstawie modeli zawar- tych w taE. 3.
Tabela 3. &harakterystyka modeli w analizie symXlacyjnej
nm m u lo ĝrodki ciĊĪkoĞci klas 0acierz kowariancji
¦
5 3 3 40 15; – 3 3; 12; –
45; 18; –9
jj 1
V 1d d j 3
12 13 09
V V V23 09
2 5 40 20 25 25
20
5; 5 –3; 3 3; –3
0; 0 –5; –5 Vjj 1 Vjl 09
23 2 3 30 0 35 0; 4 4; 8 8; 12
1
1 09
09 1
ª º
6 «¬ »¼ 2 15 0 0 15
ª º
6 « »
¬ ¼
3
1 05 05 1
ª º
6 « »
¬ ¼
24 2 4 30 0; 5 5; 14 14; 5 5; –4 Vjj 1 Vjl 0
nm – nXmer modelX w fXnkcji cluster.Gen SakietX clusterSim; m – liczEa zmiennych
u – liczEa klas; lo – liczEa oEiektyw w klasach jedna liczEa oznacza klasy rywnoliczne. ħrydáo: oSracowanie wáasne.
Na rysXnkX 1 Srzedstawiono graficzną SrezentacjĊ Srzykáadowych zEioryw da- nych Xtworzonych z wykorzystaniem fXnkcji cluster.Gen SakietX cluster- Sim dla danych metrycznych.
W eksSerymencie drXgim nieklasyczne zEiory danych zawierające 30 oEiektyw zoE. rys. 2 wygenerowano z wykorzystaniem Sakietyw mlbench fXnkcja mlbench.spirals geozoo fXnkcja dini.surface oraz zEioryw worms Walesiak i 'Xdek [2009] i circles.
'la modeli w kaĪdym eksSerymencie wygenerowano 40 zEioryw danych Srze- Srowadzono klasyfikacjĊ sSektralną z czterema odlegáoĞciami i odSowiednimi indek- sami wyEorX liczEy klas rozwaĪano Sodziaáy od 2 do 10 klas a nastĊSnie Soryw- nano otrzymane rezXltaty klasyfikacji ze znaną strXktXrą klas za Somocą skorygowa- nego indeksX 5anda zoE. HXEert i $raEie [1985].
model 5 skXSienia doErze seSarowalne
– skXSienia wydáXĪone model skXSienia sáaEo seSarowalne – skXSienia wydáXĪone
model 23 skXSienia sáaEo seSarowalne – skXSienia zryĪnicowane dla klas
model 24 skXSienia doErze seSarowalne – skXSienia normalne
Rys. 1. *raficzna Srezentacja Srzykáadowych zEioryw danych Xtworzonych z wykorzystaniem fXnkcji cluster.Gen SakietX clusterSim dane metryczne
ħrydáo: oSracowanie wáasne z wykorzystaniem SrogramX R.
TaEela 4 SrezentXje XSorządkowanie analizowanych metod klasyfikacji sSek- tralnej z 4 odlegáoĞciami zastosowanych z odSowiednimi indeksami wyEorX liczEy klas wedáXg Ğrednich wartoĞci skorygowanego indeksX 5anda Soliczonego z 40 symXlacji dla klasycznych danych metrycznych wygenerowanych w Sakiecie clusterSim.
Rys. 2. 3rzykáadowe zEiory danych Xtworzone z wykorzystaniem fXnkcji Sakietyw mlbench mlbench.spirals geozoo dini.surface oraz zEioryw worms i circles ħrydáo: oSracowanie wáasne z wykorzystaniem SrogramX R.
W SrzySadkX tySowych zEioryw danych metrycznych najleSiej strXktXrĊ klas odkrywaáy metody klasyfikacji sSektralnej z kwadratem odlegáoĞci eXklidesowej z indeksami odSowiednio: W& '% *1 K/. Nieco gorsze rezXltaty otrzymXje siĊ z wykorzystaniem klasyfikacji sSektralnej z odlegáoĞcią *'01 z tymi samymi in- deksami Soz. 4 5 w zestawieniX. Najgorsze rezXltaty otrzymXje siĊ dla indek- sX Hartigana.
Tabela 4. 8Sorządkowanie analizowanych metod klasyfikacji sSektralnej z wyEraną miarą odlegáoĞci oraz indeksem oceny jakoĞci klasyfikacji wedáXg Ğrednich wartoĞci skorygowanego indeksX 5anda dla danych metrycznych wygenerowanych w Sakiecie clusterSim
3oz. 0etoda ĝrednia* Ksztaát skXSieĔ /iczEa zmiennych zakáycających
1 2 3 4 0 1
1 2 3 4 5 6 7 8 9
1 sSecc1BW& 054 09 012 0539 0935 0 042 2 sSecc1B'% 054 09 012 0539 0935 0 042 3 sSecc1B*1 051 09 012 0539 0935 0 03
4 sSecc1BK/ 038 0918 00 0859 089 08 008 5 sSecc4BW& 032 094 053 028 099 00 094
sSecc4B'% 032 094 053 028 099 00 094
sSecc4B*1 028 094 053 025 0952 05 091 8 sSecc4BK/ 021 095 014 0844 001 084 058 9 sSecc3BW& 091 080 085 04 03 089 0592 10 sSecc3B'% 091 080 085 04 03 089 0592 11 sSecc3B*1 00 0843 084 030 035 09 0525 12 sSecc3BK/ 058 090 0843 0842 012 09 038 13 sSecc2BW& 05 0908 0885 0555 0833 095 0359 14 sSecc2B'% 05 0908 0885 0555 0833 095 0359 15 sSecc2BK/ 050 095 049 0919 022 0839 0281 1 sSecc2B*1 049 0912 088 0555 0820 093 0199 1 sSecc1BH 0484 0440 02 0 058 0518 0451 18 sSecc4BH 0482 053 0231 008 055 0508 0455 19 sSecc2BH 0304 045 02 02 0431 049 0129 20 sSecc3BH 029 0348 023 008 0290 0380 0211
* k8 + k9/2 gdzie k8 k4 + k5 + k + k/4
/iczEa w nawiasie Srzy nazwach metod klasyfikacji sSektralnej: 1 – kwadrat odlegáoĞci eXkli- desowej s(Xclidean 2 – odlegáoĞü eXklidesowa eXclidean 3 – odlegáoĞü miejska manhattan 4 – odlegáoĞü *'01 *'01.
SymEole indeksyw wyjaĞniono w taE. 2.
ħrydáo: oEliczenia wáasne z wykorzystaniem SrogramX 5.
TaEela 5 SrezentXje XSorządkowanie analizowanych metod klasyfikacji z 4 od- legáoĞciami zastosowanych z odSowiednimi indeksami wyEorX liczEy klas wedáXg Ğrednich wartoĞci skorygowanego indeksX 5anda Soliczonego z 40 symXlacji dla nietySowych danych metrycznych wygenerowanych z wykorzystaniem Sakietyw mlbench mlbench.spirals geozoo dini.surface oraz zEioryw worms i circles.
W SrzySadkX nietySowych zEioryw danych metrycznych najleSiej strXktXrĊ klas odkrywaáy metody klasyfikacji sSektralnej z odlegáoĞcią *'01 z indeksami odSo- wiednio *1 W& '%. Nieco gorsze rezXltaty otrzymXje siĊ z wykorzystaniem kla- syfikacji sSektralnej z kwadratem odlegáoĞci eXklidesowej z indeksami odSowied- nio: *1 W& '%. *orzej z Soszczegylnymi indeksami Srezentowaáy siĊ metody klasyfikacji sSektralnej z odlegáoĞciami odSowiednio eXklidesową i miejską.
Tabela 5. 8Sorządkowanie analizowanych metod klasyfikacji sSektralnej z wyEraną miarą odlegáoĞci oraz indeksem oceny jakoĞci klasyfikacji wedáXg Ğrednich wartoĞci skorygowanego indeksX 5anda dla danych metrycznych otrzymanych z Sakietyw mlbench mlbench.spirals geozoo dini.surface oraz zEioryw worms i circles
3oz. 0etoda ĝrednia* =Eiory danych
sSirals worms dini circles
1 2 3 4 5 6 7
1 sSecc4B*1 0915 0980 083 0849 0994
2 sSecc4BW& 0914 0980 0835 0849 0994
3 sSecc4B'% 0914 0980 0835 0849 0994
4 sSecc1B*1 088 0994 092 0590 1000
5 sSecc1BW& 089 0994 091 053 1000
sSecc1B'% 089 0994 091 053 1000
sSecc4BK/ 024 059 0818 094 024
8 sSecc1BK/ 018 031 055 02 024
9 sSecc2B*1 014 089 099 0022 090
10 sSecc2BW& 008 0858 095 0053 095
11 sSecc2B'% 008 0858 095 0053 095
12 sSecc3BW& 082 08 059 0149 0943
13 sSecc3B'% 082 08 059 0149 0943
14 sSecc3B*1 081 0889 00 0122 0943
15 sSecc4BH 054 054 054 08 048
1 sSecc1BH 048 049 0844 0383 015
1 sSecc3BK/ 0534 0533 088 0113 003
18 sSecc2BK/ 0514 053 09 0050 04
19 sSecc2BH 042 041 092 0024 015
20 sSecc3BH 0440 030 04 00 05
* k4 + k5 + k + k/4
/iczEa w nawiasie Srzy nazwach metod klasyfikacji sSektralnej: 1 – kwadrat odlegáoĞci eXkli- desowej s(Xclidean 2 – odlegáoĞü eXklidesowa eXclidean 3 – odlegáoĞü miejska manhattan 4 – odlegáoĞü *'01 *'01.
SymEole indeksyw wyjaĞniono w taE. 2.
ħrydáo: oEliczenia wáasne z wykorzystaniem SrogramX 5.
SkrySty do analiz symXlacyjnych z SXnktX 4 są aXtorstwa dra $ndrzeja 'Xdka.
W analizach symXlacyjnych wykorzystano fXnkcjĊ speccl SakietX clusterSim w wersji 0.41-5 SrzyjmXjąc w domyĞle Sarametry sáXĪące wyszXkiwaniX SarametrX skali
V
. 3arametrV
zoE. wzyr 1 ma fXndamentalne znaczenie w klasyfikacji sSektralnej. 3oszXkXje siĊ takiej wartoĞci SarametrXV
ktyra minimalizXje zmien- noĞü wewnątrzklasową Srzy zadanej liczEie klas u. -est to heXrystyczna metoda So- szXkiwania minimXm lokalnego. W klasyfikacji sSektralnej z odlegáoĞciami: eXklide- sowa kwadrat eXklidesowej miejska otrzymane rezXltaty klasyfikacji XzaleĪnione są od gyrnej granicy SrzedziaáX SrzeszXkiwania SarametrX sigma oraz od SrzyjĊtej liczEy Srzedziaáyw w kaĪdej iteracji domyĞlnie: 10. W klasyfikacji sSektralnej z odlegáoĞcią *'01 gyrna granica nie ma wSáywX na wyniki klasyfikacji. *yrnagranica SarametrX sigma w zasadzie niewiele siĊ zmienia dla danej liczEy oEiektyw ze wzglĊdX na Xnormowanie odlegáoĞci *'01 w Srzedziale [0; 1].
Wang [2010] SrzeSrowadziá m.in. analizĊ symXlacyjną SrzydatnoĞci szeĞciX kla- sycznych indeksyw oceny jakoĞci klasyfikacji &aliĔskiego i HaraEasza Hartigana
Krzanowskiego i /ai gaS jXmS SilhoXette oraz dwych wáasnych SroSozycji dla metody klasyfikacji sSektralnej zgodnie z algorytmem Ng -ordan i Weiss [2002].
$nalizĊ symXlacyjną SrzeSrowadzono dla dwych zEioryw danych nieklasycznych.
=askakXjąco sáaEe wyniki w odkrywaniX strXktXry klas odnotowano dla indeksX *1
&aliĔskiego i HaraEasza. 3rzeSrowadzony eksSeryment symXlacyjny w Srezentowa- nym artykXle dla danych nieklasycznych SokazXje odmienny rezXltat. 3rawdoSo- doEnie indeksy oceny jakoĞci klasyfikacji oEliczono w artykXle Wanga [2010] na Sodstawie Sierwotnej macierzy danych krok 1 algorytmX a Sowinno siĊ je oEliczyü na Sodstawie Srzeksztaáconej macierzy danych Y ¬ ¼ª ºyij otrzymanej w krokX algorytmX.
5. PRGsXPRZanie
W artykXle Srzetestowano SrzydatnoĞü SiĊciX indeksyw oceny jakoĞci klasyfikacji w zagadnieniX doEorX liczEy klas w klasyfikacji sSektralnej XwzglĊdniającej cztery tySy odlegáoĞci. W eksSerymentach wykorzystano klasyczne oraz nieklasyczne dane metryczne o znanej strXktXrze klas oEiektyw.
W eksSerymencie I najleSiej strXktXrĊ klas odkrywaáa klasyfikacja sSektralna z kwadratem odlegáoĞci eXklidesowej oraz indeksami W& '% *1 K/ w eksSery- mencie II zaĞ klasyfikacja sSektralna z odlegáoĞcią *'01 oraz indeksami *1 W&
'%.
3rzeSrowadzone eksSerymenty wykazaáy wysoką skXtecznoĞü indeksyw oceny jakoĞci klasyfikacji stosowanych w klasycznej analizie skXSieĔ w zastosowaniX do odkrywania liczEy klas w klasyfikacji sSektralnej.
LiteratXra
(Yeritt %.S. /andaX S. /eese 0. Stahl '. 2011 Cluster Analysis Wiley &hichester.
*irolami 0. 2002 Mercer kernel-based clustering in feature space ÄI((( Transactions on NeXral Networks´ Yol. 13 no. 3 SS. 80-84.
HXEert /. $raEie 3. 1985 Comparing partitions Ä-oXrnal of &lassification´ no. 1 SS. 193-218.
KaratzogloX $. 200 Kernel Methods. Software, Algorithms and Applications 5ozSrawa doktor- ska 8niwersytet Techniczny we WiedniX.
KolXSa 0. 19 ElemenWDUQ\Z\NáDGDOJHEU\OLQLRZHMGODHNRQRPLVWyZ 3aĔstwowe Wydawnictwo NaXkowe Warszawa.
Ng $. -ordan 0. Weiss <. 2002 On Spectral Clustering: Analysis and an Algorithm [w:]
T. 'ietterich S. %ecker =. *hahramani red. Advances in Neural Information Processing Sys- tems 14 0IT 3ress &amEridge SS. 849-85.
3oland -. =eXgmann T. 200 Clustering the Google Distance with Eigenvectors and Semidefinite Programming Knowledge 0edia Technologies )irst International &ore-to-&ore WorkshoS
'agstXhl -Xly 23-2 *ermany.
Shortreed S. 200 Learning in Spectral Clustering 5ozSrawa doktorska 8niYersity of Washing- ton.
9erma '. 0eila 0. 2003 A Comparison of Spectral Clustering Algorithms Technical reSort 8W-
&S(-03-05-01 8niYersity of Washington.
Yon /X[EXrg 8. 200 A Tutorial on Spectral Clustering 0a[ 3lanck InstitXte for %iological &y- Eernetics Technical 5eSort T5-149.
Walesiak 0. 2005 5HNRPHQGDFMHZ]DNUHVLHVWUDWHJLLSRVWĊSRZDQLDZSURFHVLHNODV\ILNDFML]ELRUX
RELHNWyZ [w:] $. =eliaĞ red. Przestrzenno-czasowe modelowanie i prognozowanie zjawisk go- spodarczych Wydawnictwo $( Krakyw s. 185-203.
Walesiak 0. 2009 $QDOL]D VNXSLHĔ [w:] 0. Walesiak (. *atnar red. Statystyczna analiza da- nych z wykorzystaniem programu R Wydawnictwo NaXkowe 3WN Warszawa s. 40-433.
Walesiak 0. 2011 8RJyOQLRQD PLDUDRGOHJáRĞFL *'0 Z VWDW\VW\F]QHM DQDOL]LH ZLHORZ\PLDURZHM
z wykorzystaniem programu R, Wydawnictwo 8( Wrocáaw.
Walesiak 0. 2012 Klasyfikacja spektralna a skale pomiaru zmiennych, Ä3rzegląd Statystyczny´
z. 1 s. 13-31.
Walesiak 0. 'Xdek $. 2009 2GOHJáRĞü*'0GODGDQ\FKSRU]ąGNRZ\FKDNODV\ILNDFMDVSHNWUDOQD
3race NaXkowe 8( we WrocáawiX nr 84 s. 9-19.
Walesiak 0. 'Xdek $. 2010 Klasyfikacja spektralna z wykorzysWDQLHP RGOHJáRĞFL *'0 [w:]
K. -ajXga 0. Walesiak red. Klasyfikacja i analiza danych – teoria i zastosowania Taksono- mia 1 3race NaXkowe 8( we WrocáawiX nr 10 s. 11-11.
Walesiak 0. 'Xdek $. 2012 clusterSim package 85/ httS://www.5-Sroject.org.
Wang -. 2010 Consistent selection of the number of clusters via crossvalidation Ä%iometrika´
Yol. 9 issXe 4 SS. 893-904.
AUTOMATIC DETERMINATION OF THE NUMBER OF CLUSTERS USING SPECTRAL CLUSTERING
SXPPary: The SaSer tested the XsefXlness of fiYe indices assessing the TXality of classifica- tion within-groXS disSersion 'aYies-%oXldin inde[ &aliĔski HaraEasz inde[ Hartigan inde[ Krzanowski /ai inde[ in the issXe of selection of the nXmEer of clXsters in the sSectral clXstering taking into accoXnt foXr tySes of distance sTXared (Xclidean distance
(Xclidean distance 0anhattan distance *'01 distance. The article eYalXates twenty clXs- tering SrocedXres foXr sSectral clXstering methods and fiYe indices Eased on two tySes of simXlated data classic and non-classic. (ach clXstering resXlt was comSared with the known clXster strXctXre aSSlying corrected 5and inde[.
KeyZRrGs: clXster analysis sSectral clXstering nXmEer of clXsters.