MErODACH Kl..ASYFIKACJI
Vśród
aetod tUerarcbJ.cznyct. wyr6tn1a
:sięmetOdy cgloaeraoyj- no oraz clagloDMtracyjne. Puuktca vyjjcia tych MtQC! jest
syMtry-czna macierz
odległości:[
C d/A1 •Az/ • • • d/~,AJ l
~'::A~/ ___ o ___ : : : _dl_~•':;/_ '
d/Au,A1/
d/~,~/•• • O
gdzie& A - zbiór obiektów badania,
d/~,A
8
/ - odległojć aiędzyr-tya
1a-tya ob1ektea, r, s • 1,2, ••• , n - numer obiektu.
/1/
Klasyfikacja algoaeracyjna, zwana
także klaay!~~~iaduk-
cyjną, występuj~cą
lub tet
klasytikacj~przez
~~·rozpo- czyna
sięod sytuacji, w której
każdyobiekt Mduia A, •'-2 , ••• •Au
tworzy
pocz~tkowo je~kloat Pb /h • 1,2, ••• ,H,
~t.H • D/.
W
z.wi~uuz ty• w macierzy /1/,
Y11iejsce syabolu A, vstawiaay symbol
P,pon1ewa1
a~to
odległościaiQdzykla:soWit. Po
katdylikroku klasyfikacji liczba klaa zmniejsza aię o jeG~G
1~ przy ozy.
Zllniejszenie liczby
kl.a.a nutępujeprzez
polAlezenie cl...Sołaiatnie-
jącycb.
Po n -
1krokach otrzy•uje ait
jednąUaet
zawi.er•"'~wszystkie obiekty
A1
,~, •••,An.
Hierarchiczne metOdy aglo . . racyjne
działająwedlug centra1- nej procedury agloaeracyjnej. Algoryt• tej procedury jest•naatt-
pujący(1]a
1.
Szukamy w 11acierzy
odległościpar klas najbardziej podob- nych. NJ.ech otrzymanymi
będąklasy o numerach t i q/t > qf.
2. Redukujemy
liczbęklas o jeden
łączącklasy o nll.\88rach t
1 Qw
nową, nadaj~cjej numer
Qi
usuvaj~c klasęo numerze t.
iw ujflciu niekla:sycz.n.ya proces kl . . y!1.kacj1 aot•IIY
zako6ozyc!w
oi.uu llln1• jazaj liczby kroków
nitn -
1/por. 4 / .
70
3.
Przekształcamy podobieństwa/stosownie do metody/
między klasąo numerze
qi
pozostałymiklasami.
4. Powtarzamy kroki 1 - 3 do chwili, gdy wszystkie obiekty Ar /r • 1,2, • •• ,D/
znajdą sięw jednej klasie .
Ró~nice
w procedurach metod aglomeracyjnych
wynikająze spo- sobu definiowania klas najbardziej podobnych w kroku pierwszym i z
odmiennościpojmowania
podobieństwaklas w etapie trzecim.
Z tego powodu wyr61nia
si~rozmaite metody aglomeracyjne, któ- rych
wyczerpujący przeglądznajduje
sięw pracach [1 , 3, S, 6, a]. Autor w swoich
rozważaniachkorzysta z dwóch z nich, zapropo- nowanych przez
J.S. Farrisa w pracy [2) 2 • Krok 1 i 3 w tych meto- dach prezentuje tab.1.
Na prostym
przykładziewyka1eay , te
przyjętew tycb metodach /w kroku 1/ kryterium
łączeniaklas najbardziej podobnych jest
błędne.
Niech dane
będą następująceobserwacje
naobiektach Ar /r • 1,2, 3,4/ w przestrzeni dwuwymiarowej •
1
o
1• A 3 /6,2/
.A2/6 , 1/
Wykorzystując
np.
odległość miejską/por. [1 , s . 101]/ obli- cza-y wszystkie
odległości międzyobiektami
1zestawiamy je w sy-
metryczną
macierz o wylliarach 4
X4:
1
2 4
1
o 5 6
102
5 o
15
3 6 1 o
64 10
5 6 o •
W iteracji pierwszej
łączymyw
jednąklasy o numerach 1
i4.
Dla tych klas /zarówno w wersji A, jak
iB/ funkcja podana w tab.
1
osiąga wartość minimalną równązero. W pierwszej
kolejności połączyliśmy więcza
pomocątych metod dwie klasy . , które
sąnaj- bardziej
odległe. Załóżmy, żeprzerywamy proces klasyfikacji po tym kroku,
otrzymując podziałna klasy:
p1 • {A1 ,AJ ' p2 • {A2J ' p3 • lA3l•
2w literaturze polskiej por. (7].
Metody Farrisa
Lp.
~ersjametody
Krok 1 Krok3
1 Wersja A d /Pt,Pq/ • d /Pr,P
8/ ,przy czym dla klas /wagi
zróżni-o numerach r
1s funkcja
cowane/
2 Wersja B /wagi jed- nakowe/
d/PQ.,Puf: • N/P .,l N/P sf
N/P;J + N/Pi
z 2
~ N/Pj[d/Pr,Puf - · d/P
8,Pj) N/Pgi d/P ,Pj
+N/Pt/ ·i/Pt,PJ
U•1
~p l + N/Pt/
upr,s
qosiua
m1.nimumd /Pt,Pq/ • d /Pr,P
8/ ,przy czym dla klas o numerach r
1s funkcja
ł L z [d/Pr,PJ - d/Ps,PJJ2
u-1u,~r,s
oaiua
m1n1•uad/Pq,Pj: •
ł [d/Pq,Pj
+d/P~,PjJ
gclziea
N/P!, N/P
8/ ,
N/P j - llczebnojc1 obiektów w klasie o nuaerze od.powiedni.o r, s 1 u,
z - alctual..Daliczba klaa.
-.J
....
72
Jut
potej iteracji eotell)'
stwierdzić,te DJ.e
spełnionajest tadlaa z cl.t.1Aioj1 kl . . y podaDych przez B.S. EYer.1tta v pracy [6,
•• lt3] • poD.18WU w klaaie P1
malezły aię obiekty,które . , najlm1ej podolDI, natoai . .
tobiekty najbardziej
paclobile /~ 11;/
ZD&lazl:y a1, w r6tJllob klaaaob.
Mo~eiiY
zatea v tya aiejacu
podaćbez dowodu
D&Sł;fpując:e ty1!nlł!B1e.Jatell v wy:n1ku zaatoaovaD.i.a Jaldejko1wiek •tody klaayUkacji eotllwe jest otrzyunie podzi..ab zbi.aru obiektów na lUdy.
apodzJ.al. ten jest taki, te: obiekty
najwnJejpodobne majchQ' aifJ w jednej kl.aaie, natOII.iaat
Dajbanlz.iej ·podobne w . r6:1:nych kldaob, to uzna.1•111• te kryteria podzialu przy
jętew tej •todz.1e
są bl:ęctne,a co za tya idzie
ot~ przypadko-we
:podz1ał.yzbioru obi.ektóv
Daklaay.
lalety
z8.%11aczyć,te przykl.ad
podanyprzez autara nie jest odoaobD.iony, tzn. latnie je bardzo
vi.e~esytuacji, • !których
IM!-todJ' Farrisa
rea.liz~powytaze tvierdnnJ.e. Poprawoa metoda kla- ay!ikacJi
~ byćD.1e%Uetna od zbioru
d.allych /obllłerwacjina obiektach/.
Z przedatawJ.OIIIfch
rozwatańautora wynika,
:Łe llllrt.odyJ .S.
FGTiaa /'wersja .l 1 B/
są bl.ęd:De.W ty. ll1e,1acu przejdzieay do przedatalden1a .ady.tJ.kaeji Jed- Mj z ..tod dMJ.oeracx;tmAA•
~ikacja
deglo.eracy;)na,
zvaDatekU
k.l.-yfi.kacjądeduk-
c:yJDą, zatępu,:),cą
lub k.lasy!J..kacj, przez
podz.iałrazpoczyna
aięod .,.tuacJ1,
wktórej ]il'lmktea vy
jściajest
jedllaklaaa obejauj'- ca •zyatJde ob1ekt7
badania .&1 , "z• ••• , •.o•
W
kddyalr:ro&u klaayt1kacJ1 liczba kl.aa
.zwl~k:a:a .sięo jeden, JI"ZY CZJ11 Jej zvi'lkazenie
uaatępujeprzez
rozd.zJ.~jednej z
.1at.u1ejłlcych ~.Po n - 1
.krokach otrąa&Je aięllczbfl
k.la.a 1"6~llczble obiektów badania, tzn.
~Yobiekt
t;owcaZJ .ledxl.ll
kl.aaę.
W
llr't)1w.l.e .zapre~ trzywersje
aetodyL.. 'Huberta
dz1d~ce vedług
opSl.peJ Di"09!Clurt
tlegl.OPEacraJ.
A]Car")1;a
~w .nodaeh
J..liuberta *iabJ,c:ych
~tej ~
Jest
--~C7[7, 9]:
1. Dl.a
~J.1atn1eJilcej
k.l.asyvrz::Dat:Z.J'! IJIG'C cib!elrtów naj-
~·.3 ocll.tl&ącła
1
~ ~ch: per
~ ą• .na której od•
1•ło4~
Jest -.lWJ.•ka.za /w pJ..,.zej iterac.U 111" ' • ttyllm
jednapara/. Niech
będąto obielcty
~ 1 Aq nale~l\cedo klaay Ph /h •
- 1,2, •••,H/.
2. Klasa Ph zostaje podzielona na dwie klasy o numerach t i q.
Przydzieli~obiekt
~do klasy Pt , a obiekt A.q do klasy Pq •
Usuną~obydwa obiekty z klaay Ph.
' ·
Rozdzielić pozostałeobiekty IUaay Ph
ll.iędzYklaay Pt 1 Pq. Spos6b
podziałujest r6tey dla
każdejz veraji.
Wersja A. Dla
ka~degoobiektu pozostalego w klasie Ph wy-
znaczy~
najbardziej
odległyobiekt z klas Pt 1 P
q1
wybraćten z klasy Ph , dla którego
odległośćta jest
najWiększa.Je~eli
jest on najbardziej
odległyod obiektu
będącegow klasie P t l odpowiednio
Pl
przydzielićgo do klasy
Pq l odpoWiec:1nio P t/
i usunąć z klasy ~h"
Wersja B. Dla
ka~degoobiektu
pozostałegow klasie Ph wyzna-
czyć
. najmniej
odległyobiekt z klas Pt i Pq i
wybra~ten . z klasy Ph, dla którego
odległośćjest najmniejsza.
Przydzieli~go do tej klasy, w której znajduje
sięobiekt najmniej od niego
odległyi
usunąć
z klasy Ph.
Wersja c. Dla
ka~degoobiektu pozostalego w klasie Ph wy-
znaczyć
najmniej
odległyobiekt z klas Pt i Pq i
wybraćten z klasy Ph, dla którego
odległośćta jeat
największa.Przydzie-
lić
go do tej samej klasy, do której
nale~yobiekt realiZuji\CY
tę odległość. Usunąć
wyznaczony obiekt z klasy Ph.
Krok 3 jest powtarzany do chwili wyczerpanie obiektów w kla- sie Pb.
4. Z listy
istniejącychklas
usunąć klasęPh i
wl~czyćdo niej klasy Pq 1 Pt• W ten sposób liczba klas
została zwiękSzonao jedan.
Wadą
hierarchicznych metod deglomeracyjnych L. Huberta jest to,
~ew
każdymkroku
podziałdeterminowany
jest największąod-
ległością ~cwnątrzklasową
dwóch obiektów, natomiast
odległości pozostałenie sq
uwzględniane,t-lotna
t~ qiedogodnośćwyeli.Jiino-
wać stosując
w kroku
1tej procedury
innekryteriua
uwzględniająca wszyatkio odleglo&ci wi~dzy Obiektami
w klasie. Autor pro- ponuje do tego celu
wykorzystać średnią odległo6ć ~dwnątrzklasową.
Zatem
~reśćkroku 1
potej mody!ikacji jest nastqpuji\Cal
1.Dla katdej
istniejącejklasy
policzyć wartość!unkcji
nh s•r-1
~~ /2/
74
gdzie:
~- liczba obiektów w klasie o numerze h.
Spośród
tych klas wybieramy do
podziału tę,dla której funk- cja /2/
osiąga mąksimum.Dla klasy tej wyznaczamy
paręobiektów najbardziej
odległych.Niech
~dąto obiekty At i Aq
należące do klasy Ph.
Pozostałekroki nie
ul.egajązmianie.
Zaletą
tego
podejściajest to,
żew pierwszej
kolejności zostająrozdzielone klasy o mniejszej
zwartościprzestrzennej.
W wypadku kryterium wprowadzonego przez L. Huberta
zwartośćprzestrzenna obiektów nie
miałaznaczenia.
[:1]
[2]
[3]
LITERATURA
Anderberg M.R.: Cluster analysis for applications. New York, San Francisco, Sydney: Academ.ic Press 1973.
Atcbley •.R., Bryant E.H.: Multivariate statistical methods:
a.mong -