od jednej klasy obejmu-

(1)

PRACE Nr 311

NAUKOWE AKADEMII EKONOMICZNEJ Metody statystyczne, ekonometryczne

1 programowania matematycznego

Marek W a l e s 1 a k

'WROCŁAWIU

1985

SPOSOBY RFJESTRACJI 21-liAN W CZASIE W WYNIKACH KLASYFIJCACJI

w

artykule tym omówimy pewne miary słu1ące do porównania wyników klasyfikacji zbioru obiektów. Obiekty klasyfikowano na podstawie:

(a) dwóch różnych metod klasyfikacji,

(b) dw6ch różnych zestawów cech (a jednej metody klasyfikacji),

(c) informacji statystycznych pochodzących z dwóch różnych

okresów (uzyskanych tą samą metodą klasyfikacji 1 dotyczących

tego samego zespołu cech).

Rozważania nasze ograniczymy do sposobów rejestracji zmian w wynikach klasyfikacji obiektów uzyskanych na podstawie informacji pochodzących z dwóch różnych okresów punkt (c) , choć znajdują one zastosowanie również przy porównywaniu wyników klasyfikacji w rozumieniu punktu (a) i (b).

Zanim przystąpimy do przedstawienia tycbte sposobów, należy określić co rozumiemy pod pojęciem klasyfikacji. Na podstawie definicji różnych autorów [3 ; 12; 15J można podać następujące okre~lenie klasyfikacji:

K l a s y

t

1 k a c j a jest to podział (wstępujący lub

zst~pujący) zupełny niejednorodnego - z punktu widzenia cech diagnostycznych - zbioru obiektów na ustaloną lub nieustaloną

a priori liczbę względnie jednorodnych klas na podstawie rela- cji podobieństwa obiektów.

Klasyfikacja przez podział wst~pujący rozpoczyna się od sytuacji, w której każdy obiekt badania tworzy odrębną klasę, na-

(2)

tomiast pOdział zstępujący

rozpoczyna

się

od jednej klasy obejmu-

jącej wszystkie

obiekty.

Rozróżnia się

dwa typy

podziałów: podział

na klasy

rozłącz

ne

1 podział

na klasy

przecinające się,

tzn. taki, przy którym niektóre obiekty

mogą należeć równocześnie

do dwu lub

więcej

klas.

W

artykule ograniczymy

się

do

podziałów rozłącznych

i nie- pustych.

Zatem tak postawione zagadnienie

klasy~ikacji

zbioru A, za-

wierającego obiekty~·

A2 , •••

, ~~

na klasy P1 , P2,

•••

,

PH

musi

spełniać następujące

warunki:

( 1)

zupełnogci

U

H

ph • A,

⁽¹⁾

( 2)

rozłączności

~ ^Ph()Ph.

^{= (J,} ⁽²⁾

h,b'• 1 , ••• ,H b

"h

(3) niep.1sto~i

1\ (3)

h

Zastosowanie jednej z metod klasyfikacji (por. [1; 2; 4; 6]) do

podZiału

zbioru obiektów, daje

wyniki w

postaci

ciągu

kl.asy-

~ikacji

(metody hierarchiczne) lub

jedne~o podziału

wynikowego (metody niebierarchiczne)

.

Sposoby mierzenia

podobieństwa między ciągami

klasyfikacji otrzymanymi przez zastosowanie hierarchicznych metod aglomera- cyjnych przedstawione

są

m.in. w pracach [1; 4].

Odmiennych metod pomiaru

podobieństwa należy szukać

wtedy, gdy

e~ekt końcowy

klasyfikacji przedstawiony jest

w

postaci jed- neco

podziału

wynikowego, a nie w formie

ciągu

klasyfikacji.

Jeden

podział

otrzymujemy w efekcie zastosowania metod niehie- rarchicznych oraz w rezultacie wyboru z

ciągu

klasyfikacji po-

dZiału

optymalnego, wedl:ug zadanego z góry kryterium (por.[3;

11]).

W takiej sytuacji jednym ze sposobów badania

podobieństwa między

dwoma

podziałand

wynikowymi jest konstrukcja tablicy kon-

(3)

193

tyngcocji (tab,

1);

celem stworzenia klasyfikacji

krzytowej tych podział6w[1; 8; 9; 14].

T a b e l a

1

Tablica kontyngencji (klasyfikacja

krzyżowa

podziałów

wynikowych;

h'•

1,

••.. , H'; h

=

1, ••• , lł)

klasy

~

nh'h

p1 Pz PH

^h

p1

n,, n,2

n,

H n,,

p2 n21 "22 n2H

_~.

·-

,-,

;:') :.

~'H

nu.

n

Na podstawie tablicy kontynrencji motemy

uzyskać następują

ce informacje:

(1) Jaka jest

liczba klas w

obydwu podziałach

wynikowych

(dane te

zawarte

są w główce i boczku tablic;• kontyngencji) ,

(2)

Jaka

jest liczebność

obiektów

w

klasach w obydwu podzia-

łach wyniko~ch

Cdane te uzyskujemy

analizując rozkłady

brzego- we).

(3) Na

podotawie

znajomości składu

klasy

Ph w

jednym podzia- le motemy

~owledzie~ się,

ile obiektów

spośród

tej klasy

należy

do kla~ 1' 1 , P

2, ••• , PH, w

drugim podziale

i

odwrotni

e. Informa-

C' jl:' tE> uz;; ~

lrujerny

analizując rozkłady

warunkowe.

(4) Wnętrzf'

tablicy

mówiące o rozkładzie łącznym l

n!orrruje

o 1.1czb1e ob1 e>kt6w, które Jednocześni e nal.ei':ą do jednej z klan

podziału

z okresu T0 l T1•

(4)

(5)

Jaki

j~~t stopień podobieństwa między

por6wnywanynd po-

działami.

Informacje

płynące z

pierwszych czterech }:Unkt6w •

są

wykorzy-

stywane w punkcie

piątym

przy konstrukcji syntetycznych miar re-

jestrujących

zmiany w wynikach Klasyfikacji w porównywanych okresach

.

W literaturze przedmiotu [1 ; 9; 16; 17] duto miejsca

poświę

ca

się

przedstawianiu

różnych

miar

podobieńs~-a podziałów

wyni- kowych

,

natomiast nie zwraca

się

uwagi na

własności,

jakie po-

winna mieć

dobrze

określona

miara. Zdaniem autora dobrze zdefi

-

niowana miara

podobieństwa, rejestrująca

zmiany w

czasi~

w wy- ni!<ach klasyfikacji, powinna

spełniać nast~}:Ujące

wymagania:

1.

Powinna

być łatwa

w interpretacji

,

co prowadzi do postula- tu , aby jej

wartości były

zawarte w

zamkniętym

przedziale licz- bowym.

l~ygodne

jest

,

z praktycznego punktu widzenia, aby miara

przyjmowała wartości

z

przedziału

<o, ^1>:

o

~ f (p (1 ) ;

!J>)

~ 1 ,

11> (1} (1} (1)l

gdzie:

p • P1 , P2 , ••• , PH J -

klasy fi kac ja ..,, okresie

^T₁^,

p<O>=

{P~O~ p~O~

••• ,

p~

⁰

)}- klasyfikacja

w okresie T0, f

-po-

stać

analityczna funkcji

podobieństwa.

2.

Warunek:

( ( _ { O

dla miar odległości ,

!(P 1); p 0)) _

1

dla mi ar

bliskości

jest

spełniony

wtedy

i

tylko wtedb

,

gdy

~or6wnywane

klasyfika- cje są ^identyczne

^,

^tzn. p< ¹ >= P(). Sytuacja taka ma miejsce

~~~~·'!!

w wypadku

symetrycznej tablicy kontyngencji

,

w której

każdej

klasie pierwszego

podziału

odpowiada tylko jedna klasa w podzia- le drugim

.

3. '~arunek

!(P(1) ; p<O>). {

1 dla miar odległości ,

O dla miar

bliskości

jest

spełniony

wtedy i tylko wtedy

,

gdy jeden

podział

zawiera tyle klas ile jest obiektów, a drugi

jedną klasę zawierającą

wszystkie obiekty.

4. Warunek symetrii:

!(P(1J; p<O>) ., f(P(OJ; p(1)).

(5)

•

195

5.

Wartość miary jest niezm.i enna względem każdego uporząd

kowania wierszy lub kolumn w tablicy kontyngencji.

6. Koncepcja oraz postać analityczna miary powinny być wy-

starczająco proste, żeby nie sprawiały trudności numerycznych.

Do pomiaru podobieńst·"a między dwoma podziałami wynikowylli

pochodzącymi z dwóch okresów proponuje si ~ wykorzystać miary za- leżności statystycznej [1;

9].

Najstarsze i tradycyjne miary współzależności oparte są na statystyce chi-kwadrat określonej wzorem:

'Y2-~h ~(

" ) 2 ( " )-1

J.... L ~ ^_nh^{'h -} ^nh'h ~'h ^•

gdzie: "h'h i nh'h to empiryczne i teoretyczne (hipotetycz- ne) liczebności tablicy kontyngencji.

Zakładając prawdziwość hipotezy zerowej mówiącej o nieza-

leżności obydwóch podziałów wynikvwych liczebności hipotetyczne wyznaczarny ze wzoru:

"

"h'h. n.h ~·. (5)

n

Fo przejściu z rozkładu liczebności na rozkład częstości sto-

sując wzory:

=--

n.h ⁽⁶⁾ n

otrzymujemy

t ..

ⁿ

^~

' •• h

(7)

<;;taty::;tyka.

..,

ta ma pr?.y zało::oniu pra...-dztwości hipotezy zerowej rozklad

X"

z (li - 1) (H·- 1) stoJ'niam.i swobody. Wartość kry-

tyczną .Xj

odczytujemy z tahlic rozkladu

!

²dla ustalC\ne8o z e6ry poziomu Istotności C( i (H - 1) (H' - 1) stopni swobody. Hl-

pob~':!.._

^ZC'r'OW:} nale.:y ortrzuci ,' 1

oły

::achodz!

nierÓwnOŚĆ 1

².)

A~,

CO 071\nC~, J:e \")'f.t<,'p.ljt' znle:'nOŚĆ Ohll rodz!alów. il J'r7.f'Clwnym ra:-:in nir m:;\ pC'dstaw do oc1r?.lJCl'nla htpcotPzy o n1ez3le:nośc1 ro-

~~J~łów wynikowych.

(6)

w

zviązku z tym, że statystyka

r

2 in:f'orrr.uje nns tylko o takcie wyst~powania współzależności, a nie informuje o sile tej zależności, wprowadzono miary oparte na statystyce

X2.

Do tej grupy miar mo2na zaliczyć takie, jak współczynnik

śred~ej kwadratowej wieJodzielczołci

fJ

2 , współczynnik Czupro- wa T ., w:-p6łczynnik eramera

c

²ⁱ współczynnik Pearsona

p2

określone odpo-..tiednio wzorami [1; 'l; 7; B] :

q,2 "'x2

ⁿ

_,.

(B)

l

T2 •

x2

(9) n •• {CH - 1) ^(H'- 1)}

1/2

2

c2 ..

1.

n. • \ min (H, H') - 1) ; ⁽¹⁰⁾

2 p2 •

l

n •• +

X.2

⁽¹¹⁾

Spośród innych miar wspólzaletności odnotowujemy propozycję

Hellwiga [10, s. 143]:

1

-f ~- min(!h~h;

^f'h'.f.h)

1 - {mtn(H, H')

l _,

⁽¹²⁾

Postaramy się w ty~ miejscu wykazać znikomą przydatnotć

miar zależności do rozwiązania probleiiU okre.ślone6o w tytule

artykułu. Miary zale'-noścl ni e spel.niflją wszystldch pos'b.llnt6w

określonych w tym o.rt:•kule dla miar ppapbi·(ińs'ht, lllit,·dzy podzia-

łami wynikowym! z okresu T0 i T1 (:por. ttb. 2).

Wszystkie tormuły spełniają postul•t ~~etryczności t nie- zmienności ~ględem jakiegokolwiek uporządko~ap!a wierszy lub kolumn, natomiast nte spełniają warunku 3. Wynika to z !aktu,

~e niezale'-ność statystyczna dwóch podziałów wynf~owych nie po-

clą&• za sobą zupełnego n1epodob1~ństwa tychże p9dział6w.

~!ara zależnołci eramera nie spelni.a warunku 2, ponieważ

motl1we Sf\ inne sytuacje • w których mi ara te pr?.yjruje wartoM 1.

(7)

19 ..

T

a

b

e

l

a

2

Własności miar zale~no&c.l

("+łl oznacza spełnianie

postulatu, "-" -

nie spełnianie)

Numer Numer postulatu

wzoru

¹ 2

3

⁴

5

8 + +

9

+ + + +

10 + + +

11 + +

12 + + + +

C6rna 6ranlca

tej miary jest

osi~6ni~ta

wtedy

ⁱ

tylko wtedy,

gdy każdy

\llersz

(H' ~H) lub każd~ kolWIIna (H'( H) .

zawiera

tyl·

ko jeden element

r6~ny od

zera.

Jak

z

te~o wiqać, ~iara

.,1 ...

ta mo~e

przyjmowa6 warto~(: 1

nie tylko

dlę. tablic syl!letrycznycl"i.

Warunku

2 nie

spełniają równię% mi&.ry ^•1²

l zll.

Pierwsza z nich może przyjmować wartości wl~k~ze od je~oo4c1,

a druga

nig-

dy nie

osiąga

górnej

granicy, dążi\C ®

mej

w llliarę zwic:kszania lic?.by

wierszy

i kolumn~

tablicy

~~~l}~~nąji

[9].

Ponadto

wszystkie

miary ~~ężno~~· stotys~c~nej są nieokreś

lone,

GdY

w

jednym

z

podziałów

jest

~l~o

jedna klasa

zawierej~

co wszy&tkic obiekty.

l-!iarę podobień:Jtwa dwóch podziałów Unikowych, która opiera

si~ róWT.Ueż na tablicy

kontyngencjl,

zaprQpQnował

Szm!giel w prncy [17]:

s<1>".

m!n(S 1;

s

2), r,dz1 e:

. 6

^max ^n. ^{'h -} l!§x(H'; max n h)

h' h ··n h •

n

m~

"h'h-

max(H9 max ~-)

n

_- _max(H; _m~

r;,•)

(13)

(14)

(15J

(8)

w

pracy [16]

tenze autor przedstawia modyfikacje

wanej

miary

podobieństwa

dwóch

podziałów

wynikowych:

s<2>

s<3>

= max(s1,

s

2),

= 1 ~ (S1 +

s

₂),

= (s,s2)o,5.

propono-

(16) (17) (18)

Na podstawie

badań

symulacyjnych Szmigiel dochodzi do wnios-

ku, że najlepszą przydatność praktyczną ma miara

s< ² >. przede

wszystkim

ze

względu

na

dużą zmienność.

Konstrukcja miar globalnych utworzonych z miar

cząstkowych

s

₁

i

s

₂

oraz

występowanie w

licznikach miar

cząstkowych

liczby wy- dzielonych klas

w obu podziałach (H; H')

powoduje,

że

miary

Szmigla są nieokreślone

w

następujących

dwóch sytuacjach:

(~)

gdy

w jednym z podziałów

jest tylko jedna klasa zawie-

rająca wszystkie

obiekty,

(b)

gdy liczba

klas

w jednym

z podziałó111

jest równa liczeb-

ności

zbioru obiektów.

W pozostałych

przypadkach miary te

przyjmują wartości

z

przedziału domkniętego<O; 1

>.

^\·lartość^O^przyjmują

w przypad- ku

statystycznej niezależności

obu

podziałów

oraz wtedy, gdy

istnieją

a, b

takie, że

~·a:~ ~·h

(dla wszystkich

h')

lub (i

-

dla

miar

s< ² > i

s<3~

(dla

wszystkich h).

Z

kolei

wartość 1 przyjmują, jeżeli każdy

wiersz i /lub - dla miary s< ² >

każda kolumna zawiera tylko jeden niezerowy

element

~'h"

Wszystkie

miary zaproponowane przez Szmigla niP.

spełniają

warunku 3, natomiast warunek 2

spełniają miary

s<1 >

••

s<3>i

~<⁴>

przy

założeniu, że są

okretlone.

Miary

czą~kowe (14) 1 (15) są

analogiczne

w

pracy

[8]

przez Coodmana

ⁱ

Kruskala:

L

,max n. 'h - max

n.h

h-" h n h

n

. ...

' :

do

rr.i

ar podanych

(9)

199

L,

max n. 'h - max n. ',

11 h h,

--n

h,

--n

J "B

= ...;.;...._..:..;__ _ _ _...:;;.__

n - max n. ,

• • h n •

( 20)

Kaida z miar

cząstkowych

z osobna nie

spełnia warunku

sy-

metryczności,

przeto autorzy

podają ogólną !ormę

miary

spełnia

jącą

ten warunek:

} =

G

h ,

m:' ^r;,

^'h

^• ⁰

h ^ma.xh'

^~

^{'h -} ^ma.xh ⁿ• ^h^- ^maxh'

^~,

•• (21)

2n - max n - max n ,

h .h h' h •

fo'.iary

cząstko..e

Goodmana

-

Kruskala

różnią się

od miar Szmigla tym,

że

w ich liczniku nie

występuje

element H'(lub

H),

który oznacza

liczbę wyodrębnionych

klas. Powoduje to

, że

mia- ra ,A. nie ma jednej z wad miar Sz.migla, a mianowicie jest

określona

wtedy, gdy liczba klas

w

jednym

z podziałów

jest rów- na

liczebności

zbioru obiektów (patrz punkt

(b) przy

opisie miar Szmigla). Ponadto z konstrukcji

miary

,t

^wynika,

1e jest ona

nieokreślona wtedy,

gdy tablica kontyngencji

ma wymiary 1x1,

tzn.

w obu klasy~ikacjach występuje

jedna klasa

obejmują

ca wszystkie obiekty badania.

W pozostałych

przypadkach

miara )v

zawiera

się w przedziale

<o;

¹

> .

^{Wartość 1}

^przyjmuje

wtedy, gdy ka1dy

wiersz i każda

kolumna zawiera tylkojeden niezero'fty element

~'h'

Z

kolei wartość

O przyjouje

w

przy- padku statystycznej

niezależności

obu

podziałów

oraz

wtedy,

gdy

istnieją

a

,

b takie,

że

~·a,. max ~·h h

0bh = m~ ~·h

(dla wszystkich h

'

)

(dla wszystkich h).

~iara

..A, podobnie

jak

miary Szmigla, nie

spełnia

warunku 3, natomiast warunek 2

spełnia

przy

założeniu, że

jest

okreś

lona.

Przedstawimy obecnie inne miary

podobieństwa między

dwoma

podziałami

wynikowymi,

spełniające warunki

1-6.

~asadnicze znac~enie

ma w tej grupie miara

pod?bieństwa

dwóch

podziałów

wynikowych zaproponowana przez Randa

[13],

a

określona

wzorem:

(10)

(2?,1

gdzie:

•

1, jeżeli obiekty Ar 1 A

8 w obu podziałach znajdu-

ją się w tych samych klasach;

Ors • 1, jeżeli obiekty Ar 1 As w obu podziałach znajdu-

ją się w różnych klasach;

O, w pozostałych wypadkach.

W razie dużej liczby obiektów wykorzystanie tej miary bylo- by bardzo pracochłonne (w sposobie tym rozpatruje się ' n(n - 1) 1

kombinacji par obiektów), zatem Rand proponuje efektywniejszą

(w sensie czasu pracy) postać tej miary, która opiera siQ na tablicy kontyngencji:

R •

(G)- ^0(~

ⁿ²^.h⁺ ^"{;

^>{-.)- ^{~ ~} >{.hJ}wr

⁽²³⁾

Przedział zmienności tej miary zaczyna się od O, kiedy to d.ta podziały są zupełnie niepodobne (jc·!en podział zawiera tyle klas ile jest obiektów, a dr~1~f jedną klas~ zawierając q wszystkie obiekty), a kończy na 1, kiedy podziały są identyczne.

Identyczne kryterium podobieństwa podziałów zastosował w konstrukcji miary Sokołowski [11; 12], otrzymując w efekc1.e

postać analogiczną do miary Randa:

=

R.

Podobi eństwo mi~dzy dwoma pod z! a'łami wynl ko ... 'Ymi mo: eroy

ustalić także za pomocą mi ar skojarzenia opartych na tablicy o wymiarach 2 x 2 (por. tab. 3).

W sposobie tym rozpatruje si~ ~ n(n- 1) kombinacji par obiektów, które nastt;pnie zakwc.lifiKo~.ane zostają w ka:;'.dym podziale do dwóch kl.as: klasy O (obiekty Ar i A

5 z.nujciu,ją :.i ą w

r6źnych klasach w podziale) i klasy 1 (obiekty Ar 1 As ... .~.ujdu

ją s! ę w tej samej klas i e w podziale).

Do porównali między podziałami wyn:i kowyrui można u±

Y.:

dwóch

spośród binarnych rr~ar skojarzenia przedstawionych pr,ez And~~-

(11)

201

T a b l i c a 3 Tablica

2

x

2

1

o

Ogółem

a b a + b

o c

d

c

+d

Ogółem a +c

b+d a+b+c+d

berga w tab. 4.5 (por.

[1,

s. 89]). Najbardziej

oczywistą mia-

rą podobieństwa

jest tzw. prosta miara skojarzenia:

a

+d

(25)

a+b+c+d

Niara

Randa dla tablicy 2 x 2 przyjmuje

właśnie powytszą postać,

przeto interpretacja jej jest

już

znana.

Drugą miarą podobieństwa

jest

współczynnik

Rogersa- Tanimoto:

a + d (26)

a +

d

+ 2(b + c} '

w którym dwa razy

wyższą rangę otrzymują pary

niezgodne

w obu

podziałach. Pozostałe

binarne miary skojarzenia

nie spein!ają

wszystkich postulatów, które

wcześniej określiliśmy.

L i t e r a t u r a

r

.

R. A n d e r b e r g: Cluster Analysis for Applications.

New York, San Francisco

,

London 1973 , Academic

Press.

E. J

. B 1

j n e n: Cluster Analysis

.

The Netherlands 1973,

Tilburg

University Press.

z. C h o

j

n

i

c k

i,

T. C z y

ż:

Metody taksonomii nume-

rycznej w regionalizacji

geogra~icznej. Warszawa

1973,

PWN.

(12)

[ 4] R.N. C o r m a c k: A Review of Classification /wi th Dis- cussion/. "Journal of The Royal Statistical Society", vol.

134/1971 Part 3 /London 19-n'.

[5]

^H.^{C r} ^{a m}^e.r: Y.letody matematyczne w statystyce. Warszawa 1958,

PWN.

[6] B.

s.

^E^{v e r} ⁱ ^t ^t:^Cluster Analysi s. London 1977, Heine- mann Educational Books Ltd.

[7]

^B.^S. ^E^{v e r}ⁱ ^t ^t:The Analysis or Contingency Tables.

London 1979, Chapman and Hall.

[aJ

l.A. G o o d m a n, w.H. K r u s k a 1: foieasures of Associa- tion for Cross Classifications. New York, Heidelberg, Der- lin 1979, Springer - Verlag.

[9]

^T.

C

^r ^{a b i} ^{ń s k}

1:

loietody analizy zbieżno~ci wyników dys- kryminacji zbiorów. Zeszyty Naukowe Akademii Ekonomicznej w Krakowie, nr 127, Kraków 1980.

[1Ql

z.

^He l l w i g: Elementy rachunku prawdopodobieństwa l statystyki matew2tycznej. Warszawa 1975, PWN.

[11) J. P a m u ł a, A. S o k o ł o w s k l: Propozycja wyznacza- nia podziału wynikowego aglomeracyjnych algorytmów taksono- micznych. Zeszyty Naukowe Akademii Ekonomicznej w Krakowie, nr 127, Kraków 1980.

B.

P o d o l e c, K.

Z

a j ą c: Ekonometryczne metody usta- lania rejonów konsumpcji. \iarsza..,a 1978, PWE.

W.M. R a n d, Objective Criteria for the Evaluation of Clu- stering l•!ethods. "JASA" vol. 66, 336/1971.

B.B.

R

o z i n, Teoria rozpoznawania obrazów w badaniach ekonomicznyci1. Warszawa 1979, PWN.

(15] F.A. S z c z o t k a: Podstawy taksonomii numerycznej. Pro- blem węzłowy 11. 2. 1, Grupa tematyczna 03, Temat A. 1. Warszawa 1975.

(Hij C. S z m i g 1 e l: Mody fi kac jE> wskaźnika :zgodności kryte- riów podziału. W: Statystyka .• ł>latematyka. Ekonometria. Pra- ce !~aukowe Akademii Ekonomicznej we Wrocławiu, nr 190,

'"rocław 1981.

[11]

^C^.• S z m

1

^gⁱ ^{e l:}jolskaźnik zgodności kryteriów podziału.

"Przegląd Statystyczny", 4/1976.

(13)

203

METH:.DS FOR R.&:ORDING CHANGES IN TIME IN CLASSIFICATION RESULTS

Summary

This paper presents the requirements for creating a well

-de-

fined similarity measure, which records the changes in time in

classification results. Then an analysis is performed of part1-

t1on

similarity measures with respect to specifJed

requirements.

od jednej klasy obejmu-

w

t

rozpoczyna

od jednej klasy obejmu-

obiekty.

dwa typy

na klasy

ne

na klasy

tzn. taki, przy którym niektóre obiekty

do dwu lub

klas.

artykule ograniczymy

do

i nie- pustych.

Zatem tak postawione zagadnienie

zbioru A, za-

A2 , •••

na klasy P1 , P2,

,

musi

warunki:

( 1)

U

ph • A,

( 2)

~ Ph()Ph.

h,b'• 1 , ••• ,H b

1\ (3)

Zastosowanie jednej z metod klasyfikacji (por. [1; 2; 4; 6]) do

zbioru obiektów, daje

postaci

kl.asy-

(metody hierarchiczne) lub

wynikowego (metody niebierarchiczne)

Sposoby mierzenia

klasyfikacji otrzymanymi przez zastosowanie hierarchicznych metod aglomera- cyjnych przedstawione

m.in. w pracach [1; 4].

Odmiennych metod pomiaru

wtedy, gdy

klasyfikacji przedstawiony jest

postaci jed- neco

wynikowego, a nie w formie

klasyfikacji.

Jeden

otrzymujemy w efekcie zastosowania metod niehie- rarchicznych oraz w rezultacie wyboru z

klasyfikacji po-

optymalnego, wedl:ug zadanego z góry kryterium (por.[3;

W takiej sytuacji jednym ze sposobów badania

dwoma

wynikowymi jest konstrukcja tablicy kon-

tyngcocji (tab,

celem stworzenia klasyfikacji

T a b e l a

Tablica kontyngencji (klasyfikacja

wynikowych;

1,

=

klasy

~

p1 Pz PH

n,, n,2

H n,,

p2 n21 "22 n2H

·-

nu.

Na podstawie tablicy kontynrencji motemy

ce informacje:

liczba klas w

wynikowych

zawarte

Jaka

obiektów

klasach w obydwu podzia-

Cdane te uzyskujemy

brzego- we).

podotawie

klasy

jednym podzia- le motemy

~ ^Ph()Ph.

<o, ^1>:

klasyfika- cje są ^identyczne

^tzn. p< ¹ >= P(). Sytuacja taka ma miejsce