C d/A1 •Az/ • • • d/~,AJ l

(1)

MErODACH Kl..ASYFIKACJI

Vśród

aetod tUerarcbJ.cznyct. wyr6tn1a

:się

metOdy cgloaeraoyj- no oraz clagloDMtracyjne. Puuktca vyjjcia tych MtQC! jest

syMtry-

czna macierz

odległości:

[

C d/A1 •Az/ • • • d/~,AJ l

~'::A~/ _ ^o _ : : : _dl_~•':;/_ '

d/Au,A1/

^d/~,~/

•• • O

gdzie& A - zbiór obiektów badania,

d/~,A

8

/ - odległojć aiędzy

r-tya

1

a-tya ob1ektea, r, s • 1,2, ••• , n - numer obiektu.

/1/

Klasyfikacja algoaeracyjna, zwana

także klaay!~~~

iaduk-

cyjną, występuj~cą

lub tet

klasytikacj~

przez

~~·

rozpo- czyna

się

od sytuacji, w której

każdy

obiekt Mduia A, •'-2 , ••• •Au

tworzy

pocz~tkowo je~

kloat Pb /h • 1,2, ••• ,H,

~t.

H • D/.

W

^z.wi~uu

z ty• w macierzy /1/,

^Y

11iejsce syabolu A, vstawiaay symbol

P,

pon1ewa1

a~

to

odległości

aiQdzykla:soWit. Po

katdyli

kroku klasyfikacji liczba klaa zmniejsza aię o jeG~G

¹

~ przy ozy.

Zllniejszenie liczby

kl.a.a nutępuje

przez

polAlezenie cl...Soła

iatnie-

jącycb.

Po n -

1

krokach otrzy•uje ait

jedną

Uaet

zawi.er•"'~

wszystkie obiekty

A

1

^,~,^•••

^,An.

Hierarchiczne metOdy aglo . . racyjne

działają

wedlug centra1- nej procedury agloaeracyjnej. Algoryt• tej procedury jest•naatt-

pujący

(1]a

1.

Szukamy w 11acierzy

odległości

par klas najbardziej podob- nych. NJ.ech otrzymanymi

będą

klasy o numerach t i q/t > qf.

2. Redukujemy

liczbę

klas o jeden

łącząc

klasy o nll.\88rach t

1 Q

w

nową, nadaj~c

jej numer

Q

i

usuvaj~c klasę

o numerze t.

iw ujflciu niekla:sycz.n.ya proces kl . . y!1.kacj1 aot•IIY

zako6ozyc!

w

oi.uu llln1• jazaj liczby kroków

nit

n -

1

/por. 4 / .

(2)

70

3.

Przekształcamy podobieństwa

/stosownie do metody/

między klasą

o numerze

q

i

pozostałymi

klasami.

4. Powtarzamy kroki 1 - 3 do chwili, gdy wszystkie obiekty Ar /r • 1,2, • •• ,D/

znajdą się

w jednej klasie .

Ró~nice

w procedurach metod aglomeracyjnych

wynikają

ze spo- sobu definiowania klas najbardziej podobnych w kroku pierwszym i z

odmienności

pojmowania

podobieństwa

klas w etapie trzecim.

Z tego powodu wyr61nia

si~

rozmaite metody aglomeracyjne, któ- rych

wyczerpujący przegląd

znajduje

się

w pracach [1 , 3, S, 6, a]. Autor w swoich

rozważaniach

korzysta z dwóch z nich, zapropo- nowanych przez

J

.S. Farrisa w pracy [2) 2 • Krok 1 i 3 w tych meto- dach prezentuje tab.1.

Na prostym

przykładzie

wyka1eay , te

przyjęte

w tycb metodach /w kroku 1/ kryterium

łączenia

klas najbardziej podobnych jest

błędne.

Niech dane

będą następujące

obserwacje

na

obiektach Ar /r • 1,2, 3,4/ w przestrzeni dwuwymiarowej •

1

o

1

• A ₃ /6,2/

.A2/6 , 1/

Wykorzystując

np.

odległość miejską

/por. [1 , s . 101]/ obli- cza-y wszystkie

odległości między

obiektami

¹

zestawiamy je w sy-

metryczną

macierz o wylliarach 4

X

4:

1

2 4

1

o 5 6

10

2

5 o

¹

5 3 6 1 o

⁶

4 10

5 ⁶ o •

W iteracji pierwszej

łączymy

w

jedną

klasy o numerach 1

i

4. Dla tych klas /zarówno w wersji A, jak

i

B/ funkcja podana w tab.

1

osiąga wartość minimalną równą

zero. W pierwszej

kolejności połączyliśmy więc

za

pomocą

tych metod dwie klasy . , które

są

naj- bardziej

odległe. Załóżmy, że

przerywamy proces klasyfikacji po tym kroku,

otrzymując podział

na klasy:

p1 • {A1 ,AJ ' p2 • {A2J ' p3 • lA3l•

2w literaturze polskiej por. (7].

(3)

Metody Farrisa

Lp.

~ersja

metody

Krok 1 Krok

3 1 Wersja A d /Pt,Pq/ • d /Pr,P

₈^{/ ,}

przy czym dla klas /wagi

zróżni-

o numerach r

1

s funkcja

cowane/

2 Wersja B /wagi jed- nakowe/

d/PQ.,Puf: • N/P .,l N/P sf

N/P;J + N/Pi

z 2

~ N/Pj[d/Pr,Puf - · d/P

8

,Pj) N/Pgi d/P ,Pj

+

N/Pt/ ·i/Pt,PJ

U•1

~p l + N/Pt/

upr,s

q

osiua

m1.nimum

d /Pt,Pq/ • d /Pr,P

₈/ ,

przy czym dla klas o numerach r

1

s funkcja

ł L z ^[d/Pr,PJ ^- ^d/Ps,PJJ2

u-1

u,~r,s

oaiua

m1n1•ua

d/Pq,Pj: •

ł [d/Pq,Pj

+

d/P~,PjJ

gclziea

N/P!, N/P

8/ ,

N/P j - llczebnojc1 obiektów w klasie o nuaerze od.powiedni.o r, s 1 u,

z - alctual..Da

liczba klaa.

-.J

....

(4)

72 Jut

po

tej iteracji eotell)'

stwierdzić,

te DJ.e

spełniona

jest tadlaa z cl.t.1Aioj1 kl . . y podaDych przez B.S. EYer.1tta v pracy [6,

•• lt3] • poD.18WU w klaaie P1

malezły aię obiekty,

które . , najlm1ej podolDI, natoai . .

t

obiekty najbardziej

paclobile /~ 1

1;/

ZD&lazl:y a1, w r6tJllob klaaaob.

Mo~eiiY

zatea v tya aiejacu

podać

bez dowodu

D&Sł;fpując:e ty1!nlł!B1e.

Jatell v wy:n1ku zaatoaovaD.i.a Jaldejko1wiek •tody klaayUkacji eotllwe jest otrzyunie podzi..ab zbi.aru obiektów na lUdy.

a

podzJ.al. ten jest taki, te: obiekty

najwnJej

podobne majchQ' aifJ w jednej kl.aaie, natOII.iaat

Dajbanlz.iej ·

podobne w . r6:1:nych kldaob, to uzna.1•111• te kryteria podzialu przy

jęte

w tej •todz.1e

są bl:ęctne,

a co za tya idzie

ot~ przypadko-

we

:podz1ał.y

zbioru obi.ektóv

^Da

klaay.

lalety

z8.%11aczyć,

te przykl.ad

podany

przez autara nie jest odoaobD.iony, tzn. latnie je bardzo

vi.e~e

sytuacji, • !których

IM!-

todJ' Farrisa

rea.liz~

powytaze tvierdnnJ.e. Poprawoa metoda kla- ay!ikacJi

~ być

D.1e%Uetna od zbioru

d.allych /obllłerwacji

na obiektach/.

Z przedatawJ.OIIIfch

rozwatań

autora wynika,

:Łe llllrt.ody

J .S.

FGTiaa /'wersja .l 1 B/

są bl.ęd:De.

W ty. ll1e,1acu przejdzieay do przedatalden1a .ady.tJ.kaeji Jed- Mj z ..tod dMJ.oeracx;tmAA•

~ikacja

deglo.eracy;)na,

zvaDa

tekU

k.l.-yfi.kacją

deduk-

c:yJDą, zatępu,:),cą

lub k.lasy!J..kacj, przez

podz.iał

razpoczyna

aię

od .,.tuacJ1,

w

której ]il'lmktea vy

jścia

jest

jedlla

klaaa obejauj'- ca •zyatJde ob1ekt7

badania .&

1 , "z• ••• , •.o•

W

kddya

lr:ro&u klaayt1kacJ1 liczba kl.aa

.zwl~k:a:a .się

o jeden, JI"ZY CZJ11 Jej zvi'lkazenie

uaatępuje

przez

rozd.zJ.~

jednej z

.1at.u1ejłlcych ~.

Po n - 1

.krokach otrąa&Je aię

llczbfl

k.la.a 1"6~

llczble obiektów badania, tzn.

~Y

obiekt

t;owca

ZJ .ledxl.ll

kl.aaę.

W

llr't)1w.l.e .zapre~ trzy

wersje

aetody

L.. 'Huberta

dz1d~ce vedług

opSl.peJ Di"09!Clurt

tlegl.OPE

acraJ.

A]Car")1;a

~

w .nodaeh

J..

liuberta *iabJ,c:ych

~tej ~

Jest

--~C7

[7, 9]:

1. Dl.a

~J

.1atn1eJilcej

k.l.asy

vrz::Dat:Z.J'! IJIG'C cib!elrtów naj-

~·.3 ocll.tl&ącła

1

~ ~ch

: per

~ ą

• .na której od•

1•ło4~

Jest -.lWJ.•ka.za /w pJ..,.zej iterac.U 111" ' • ttyllm

jedna

(5)

para/. Niech

będą

to obielcty

~ 1 Aq nale~l\ce

do klaay Ph /h •

- 1,2, •••

,H/.

2. Klasa Ph zostaje podzielona na dwie klasy o numerach t i q.

Przydzieli~

obiekt

~

do klasy Pt , a obiekt A.q do klasy Pq •

Usuną~

obydwa obiekty z klaay Ph.

' ·

Rozdzielić pozostałe

obiekty IUaay Ph

ll.iędzY

klaay Pt 1 Pq. Spos6b

podziału

jest r6tey dla

każdej

z veraji.

Wersja A. Dla

ka~dego

obiektu pozostalego w klasie Ph wy-

znaczy~

najbardziej

odległy

obiekt z klas Pt 1 P

q

1

wybrać

ten z klasy Ph , dla którego

odległość

ta jest

najWiększa.

Je~eli

jest on najbardziej

odległy

od obiektu

będącego

w klasie P t l odpowiednio

P

l

przydzielić

go do klasy

P

q l odpoWiec:1nio P t/

i usunąć ^{z klasy} ~h"

Wersja B. Dla

ka~dego

obiektu

pozostałego

w klasie Ph wyzna-

czyć

. najmniej

odległy

obiekt z klas Pt i Pq i

wybra~

ten . z klasy Ph, dla którego

odległość

jest najmniejsza.

Przydzieli~

go do tej klasy, w której znajduje

się

obiekt najmniej od niego

odległy

i

usunąć

z klasy Ph.

Wersja c. ^Dla

^ka~dego

obiektu pozostalego w klasie Ph wy-

znaczyć

najmniej

odległy

obiekt z klas Pt i Pq i

wybrać

ten z klasy Ph, dla którego

odległość

ta jeat

największa.

Przydzie-

lić

go do tej samej klasy, do której

nale~y

obiekt realiZuji\CY

tę odległość. Usunąć

wyznaczony obiekt z klasy Ph.

Krok 3 jest powtarzany do chwili wyczerpanie obiektów w kla- sie Pb.

4. Z listy

istniejących

klas

usunąć klasę

Ph i

wl~czyć

do niej klasy Pq 1 Pt• W ten sposób liczba klas

została zwiękSzona

o jedan.

Wadą

hierarchicznych metod deglomeracyjnych L. Huberta jest to,

~e

w

każdym

kroku

podział

determinowany

jest największą

od-

ległością ~cwnątrzklasową

dwóch obiektów, natomiast

odległości pozostałe

nie sq

uwzględniane,

t-lotna

t~ qiedogodność

wyeli.Jiino-

wać stosując

w kroku

1

tej procedury

inne

kryteriua

uwzględnia

jąca wszyatkio odleglo&ci wi~dzy Obiektami

w klasie. Autor pro- ponuje do tego celu

wykorzystać średnią odległo6ć ~dwnątrzkla

sową.

Zatem

~reść

kroku 1

po

tej mody!ikacji jest nastqpuji\Cal

1.

Dla katdej

istniejącej

klasy

policzyć wartość

!unkcji

nh s•r-1

~~ ^/2/

(6)

74 gdzie:

~

- liczba obiektów w klasie o numerze h.

Spośród

tych klas wybieramy do

podziału tę,

dla której funk- cja /2/

osiąga mąksimum.

Dla klasy tej wyznaczamy

parę

obiektów najbardziej

odległych.

Niech

~dą

to obiekty At i Aq

należą

ce do klasy Ph.

Pozostałe

kroki nie

ul.egają

zmianie.

Zaletą

tego

podejścia

jest to,

że

w pierwszej

kolejności zostają

rozdzielone klasy o mniejszej

zwartości

przestrzennej.

W wypadku kryterium wprowadzonego przez L. Huberta

zwartość

przestrzenna obiektów nie

miała

znaczenia.

[:1]

[2]

[3]

LITERATURA

Anderberg M.R.: Cluster analysis for applications. New York, San Francisco, Sydney: Academ.ic Press 1973.

Atcbley •.R., Bryant E.H.: Multivariate statistical methods:

a.mong -

groups covariation, Stroudsburg, Pennsylvania: Halsted Press, 1975.

Bijnen E.J.: Cluster analysis. The Netherlands 1973. Tilburg:

University Press, 1973.

[4] Chojnicki z.,

^Czyż

T.: Netody taksonomii numerycznej w regio- nalizacji geograficznej, Warszawa: PWN 1973.

[5] Duran B.S., Odell P.L.: Cluster annlysis. A survey. Berlin, Heidelberg, New York: Springer - Verlag 1974.

[6] Everitt B.S.: Cluster analysis, London: Heinemann Educatio- nal Books 1977.

[7] Kucharczyk J.: Algorytmy anallzy

skupień

w

języku

A1gol 6o, Warszawa: PWN 1982.

[8] Sneath P.H.A., Sokal R.R.: Numerical taxonomy, San Francisco:

W.H. Freeman 1973.

[9] Szczotka F.A.: Podstawy taks onomii numerycznej, Warszawa 1975, Problem

w~złowy

11.2.1, Grupa tematyczna 03, Temat A.1 /maszynopis/.

REr-iARI<S

ON SOMI:: HIERARCHICAL NETHOI:6 OF CLASSIFICATION Summary

Tbe autbor criticizes tbe method suggested

by J

C d/A1 •Az/ • • • d/~,AJ l

aetod tUerarcbJ.cznyct. wyr6tn1a

metOdy cgloaeraoyj- no oraz clagloDMtracyjne. Puuktca vyjjcia tych MtQC! jest

czna macierz

[

C d/A1 •Az/ • • • d/~,AJ l

~'::A~/ ___ o ___ : : : _dl_~•':;/_ '

d/Au,A1/

•• • O

gdzie& A - zbiór obiektów badania,

8

r-tya

a-tya ob1ektea, r, s • 1,2, ••• , n - numer obiektu.

/1/

Klasyfikacja algoaeracyjna, zwana

iaduk-

lub tet

przez

rozpo- czyna

od sytuacji, w której

obiekt Mduia A, •'-2 , ••• •Au

tworzy

kloat Pb /h • 1,2, ••• ,H,

H • D/.

W

z ty• w macierzy /1/,

11iejsce syabolu A, vstawiaay symbol

pon1ewa1

to

aiQdzykla:soWit. Po

kroku klasyfikacji liczba klaa zmniejsza aię o jeG~G

~ przy ozy.

Zllniejszenie liczby

przez

iatnie-

Po n -

krokach otrzy•uje ait

Uaet

wszystkie obiekty

1

,An.

Hierarchiczne metOdy aglo . . racyjne

wedlug centra1- nej procedury agloaeracyjnej. Algoryt• tej procedury jest•naatt-

(1]a

Szukamy w 11acierzy

par klas najbardziej podob- nych. NJ.ech otrzymanymi

klasy o numerach t i q/t > qf.

2. Redukujemy

klas o jeden

klasy o nll.\88rach t

w

jej numer

i

o numerze t.

iw ujflciu niekla:sycz.n.ya proces kl . . y!1.kacj1 aot•IIY

oi.uu llln1• jazaj liczby kroków

n -

/por. 4 / .

70

3.

/stosownie do metody/

o numerze

i

klasami.

4. Powtarzamy kroki 1 - 3 do chwili, gdy wszystkie obiekty Ar /r • 1,2, • •• ,D/

w jednej klasie .

w procedurach metod aglomeracyjnych

ze spo- sobu definiowania klas najbardziej podobnych w kroku pierwszym i z

pojmowania

klas w etapie trzecim.

Z tego powodu wyr61nia

rozmaite metody aglomeracyjne, któ- rych

znajduje

w pracach [1 , 3, S, 6, a]. Autor w swoich

korzysta z dwóch z nich, zapropo- nowanych przez

.S. Farrisa w pracy [2) 2 • Krok 1 i 3 w tych meto- dach prezentuje tab.1.

Na prostym

wyka1eay , te

w tycb metodach /w kroku 1/ kryterium

klas najbardziej podobnych jest

~'::A~/ _ ^o _ : : : _dl_~•':;/_ '

^,An.

• A ₃ /6,2/

5 ⁶ o •

ł L z ^[d/Pr,PJ ^- ^d/Ps,PJJ2