PRACE Nr 311
NAUKOWE AKADEMII EKONOMICZNEJ Metody statystyczne, ekonometryczne
1 programowania matematycznego
Marek W a l e s 1 a k
'WROCŁAWIU
1985
SPOSOBY RFJESTRACJI 21-liAN W CZASIE W WYNIKACH KLASYFIJCACJI
w
artykule tym omówimy pewne miary słu1ące do porównania wyników klasyfikacji zbioru obiektów. Obiekty klasyfikowano na podstawie:(a) dwóch różnych metod klasyfikacji,
(b) dw6ch różnych zestawów cech (a jednej metody klasyfi- kacji),
(c) informacji statystycznych pochodzących z dwóch różnych
okresów (uzyskanych tą samą metodą klasyfikacji 1 dotyczących
tego samego zespołu cech).
Rozważania nasze ograniczymy do sposobów rejestracji zmian w wynikach klasyfikacji obiektów uzyskanych na podstawie infor- macji pochodzących z dwóch różnych okresów punkt (c) , choć znajdują one zastosowanie również przy porównywaniu wyników kla- syfikacji w rozumieniu punktu (a) i (b).
Zanim przystąpimy do przedstawienia tycbte sposobów, należy określić co rozumiemy pod pojęciem klasyfikacji. Na podstawie definicji różnych autorów [3 ; 12; 15J można podać następujące okre~lenie klasyfikacji:
K l a s y
t
1 k a c j a jest to podział (wstępujący lubzst~pujący) zupełny niejednorodnego - z punktu widzenia cech diagnostycznych - zbioru obiektów na ustaloną lub nieustaloną
a priori liczbę względnie jednorodnych klas na podstawie rela- cji podobieństwa obiektów.
Klasyfikacja przez podział wst~pujący rozpoczyna się od sy- tuacji, w której każdy obiekt badania tworzy odrębną klasę, na-
tomiast pOdział zstępujący
rozpoczyna
sięod jednej klasy obejmu-
jącej wszystkie
obiekty.
Rozróżnia się
dwa typy
podziałów: podziałna klasy
rozłączne
1 podziałna klasy
przecinające się,tzn. taki, przy którym niektóre obiekty
mogą należeć równocześniedo dwu lub
więcejklas.
Wartykule ograniczymy
siędo
podziałów rozłącznychi nie- pustych.
Zatem tak postawione zagadnienie
klasy~ikacjizbioru A, za-
wierającego obiekty~·
A2 , •••
, ~~na klasy P1 , P2,
•••,
PHmusi
spełniać następującewarunki:
( 1)
zupełnogciU
Hph • A,
(1)( 2)
rozłączności~ Ph()Ph.
= (J, (2)h,b'• 1 , ••• ,H b
"h(3) niep.1sto~i
1\ (3)
h
Zastosowanie jednej z metod klasyfikacji (por. [1; 2; 4; 6]) do
podZiałuzbioru obiektów, daje
wyniki wpostaci
ciągukl.asy-
~ikacji
(metody hierarchiczne) lub
jedne~o podziałuwynikowego (metody niebierarchiczne)
.Sposoby mierzenia
podobieństwa między ciągamiklasyfikacji otrzymanymi przez zastosowanie hierarchicznych metod aglomera- cyjnych przedstawione
sąm.in. w pracach [1; 4].
Odmiennych metod pomiaru
podobieństwa należy szukaćwtedy, gdy
e~ekt końcowyklasyfikacji przedstawiony jest
wpostaci jed- neco
podziałuwynikowego, a nie w formie
ciąguklasyfikacji.
Jeden
podziałotrzymujemy w efekcie zastosowania metod niehie- rarchicznych oraz w rezultacie wyboru z
ciąguklasyfikacji po-
dZiału
optymalnego, wedl:ug zadanego z góry kryterium (por.[3;
11]).
W takiej sytuacji jednym ze sposobów badania
podobieństwa międzydwoma
podziałandwynikowymi jest konstrukcja tablicy kon-
193
tyngcocji (tab,
1);celem stworzenia klasyfikacji
krzytowej tych podział6w[1; 8; 9; 14].T a b e l a
1Tablica kontyngencji (klasyfikacja
krzyżowapodziałów
wynikowych;
h'•1,
••.. , H'; h=
1, ••• , lł)klasy
~
nh'hp1 Pz PH
hp1
n,, n,2
n,H n,,
p2 n21 "22 n2H
~.·-
,-,
;:') :.
~'H
nu.
n
Na podstawie tablicy kontynrencji motemy
uzyskać następujące informacje:
(1) Jaka jest
liczba klas w
obydwu podziałachwynikowych
(dane tezawarte
są w główce i boczku tablic;• kontyngencji) ,(2)
Jaka
jest liczebnośćobiektów
wklasach w obydwu podzia-
łach wyniko~ch
Cdane te uzyskujemy
analizując rozkładybrzego- we).
(3) Na
podotawie
znajomości składuklasy
Ph wjednym podzia- le motemy
~owledzie~ się,ile obiektów
spośródtej klasy
należydo kla~ 1' 1 , P
2, ••• , PH, w
drugim podziale
iodwrotni
e. Informa-C' jl:' tE> uz;; ~
lrujerny
analizując rozkładywarunkowe.
(4) Wnętrzf'
tablicy
mówiące o rozkładzie łącznym ln!orrruje
o 1.1czb1e ob1 e>kt6w, które Jednocześni e nal.ei':ą do jednej z klan
podziału
z okresu T0 l T1•
(5)
Jaki
j~~t stopień podobieństwa międzypor6wnywanynd po-
działami.
Informacje
płynące zpierwszych czterech }:Unkt6w •
sąwykorzy-
stywane w punkcie
piątymprzy konstrukcji syntetycznych miar re-
jestrujących
zmiany w wynikach Klasyfikacji w porównywanych okresach
.W literaturze przedmiotu [1 ; 9; 16; 17] duto miejsca
poświęca
sięprzedstawianiu
różnychmiar
podobieńs~-a podziałówwyni- kowych
,natomiast nie zwraca
sięuwagi na
własności,jakie po-
winna miećdobrze
określonamiara. Zdaniem autora dobrze zdefi
-niowana miara
podobieństwa, rejestrującazmiany w
czasi~w wy- ni!<ach klasyfikacji, powinna
spełniać nast~}:Ującewymagania:
1.
Powinna
być łatwaw interpretacji
,co prowadzi do postula- tu , aby jej
wartości byłyzawarte w
zamkniętymprzedziale licz- bowym.
l~ygodnejest
,z praktycznego punktu widzenia, aby miara
przyjmowała wartościz
przedziału<o, 1>:
o
~ f (p (1 ) ;!J>)
~ 1 ,11> (1} (1} (1)l
gdzie:
p • P1 , P2 , ••• , PH J -klasy fi kac ja ..,, okresie
T1,p<O>=
{P~O~ p~O~
••• ,p~
0)}- klasyfikacja
w okresie T0, f-po-
stać
analityczna funkcji
podobieństwa.2.
Warunek:
( ( _ { O
dla miar odległości ,
!(P 1); p 0)) _
1
dla mi ar
bliskościjest
spełnionywtedy
itylko wtedb
,gdy
~or6wnywaneklasyfika- cje są identyczne
,tzn. p< 1 >= P(). Sytuacja taka ma miejsce
~~~~·'!!
w wypadku
symetrycznej tablicy kontyngencji
,w której
każdejklasie pierwszego
podziałuodpowiada tylko jedna klasa w podzia- le drugim
.3. '~arunek
!(P(1) ; p<O>). {
1 dla miar odległości ,
O dla miar
bliskościjest
spełnionywtedy i tylko wtedy
,gdy jeden
podziałzawiera tyle klas ile jest obiektów, a drugi
jedną klasę zawierającąwszystkie obiekty.
4. Warunek symetrii:
!(P(1J; p<O>) ., f(P(OJ; p(1)).
•
195
5.
Wartość miary jest niezm.i enna względem każdego uporządkowania wierszy lub kolumn w tablicy kontyngencji.
6. Koncepcja oraz postać analityczna miary powinny być wy-
starczająco proste, żeby nie sprawiały trudności numerycznych.
Do pomiaru podobieńst·"a między dwoma podziałami wynikowylli
pochodzącymi z dwóch okresów proponuje si ~ wykorzystać miary za- leżności statystycznej [1;
9].
Najstarsze i tradycyjne miary współzależności oparte są na statystyce chi-kwadrat określonej wzorem:
'Y2-~h ~(
" ) 2 ( " )-1J.... L ~ _nh'h - nh'h ~'h •
gdzie: "h'h i nh'h to empiryczne i teoretyczne (hipotetycz- ne) liczebności tablicy kontyngencji.
Zakładając prawdziwość hipotezy zerowej mówiącej o nieza-
leżności obydwóch podziałów wynikvwych liczebności hipotetyczne wyznaczarny ze wzoru:
"
"h'h. n.h ~·. (5)
n
Fo przejściu z rozkładu liczebności na rozkład częstości sto-
sując wzory:
=--
n.h (6) notrzymujemy
t ..
n~
' •• h
(7)
<;;taty::;tyka.
..,
ta ma pr?.y zało::oniu pra...-dztwości hipotezy zero- wej rozkladX"
z (li - 1) (H·- 1) stoJ'niam.i swobody. Wartość kry-tyczną .Xj
odczytujemy z tahlic rozkladu!
2 dla ustalC\ne8o z e6ry poziomu Istotności C( i (H - 1) (H' - 1) stopni swobody. Hl-pob~':!.._
ZC'r'OW:} nale.:y ortrzuci ,' 1oły
::achodz!nierÓwnOŚĆ 1
2.)A~,
CO 071\nC~, J:e \")'f.t<,'p.ljt' znle:'nOŚĆ Ohll rodz!alów. il J'r7.f'Clwnym ra:-:in nir m:;\ pC'dstaw do oc1r?.lJCl'nla htpcotPzy o n1ez3le:nośc1 ro-
~~J~łów wynikowych.
w
zviązku z tym, że statystykar
2 in:f'orrr.uje nns tylko o takcie wyst~powania współzależności, a nie informuje o sile tej zależności, wprowadzono miary oparte na statystyceX2.
Do tej grupy miar mo2na zaliczyć takie, jak współczynnik
śred~ej kwadratowej wieJodzielczołci
fJ
2 , współczynnik Czupro- wa T ., w:-p6łczynnik eramerac
2 i współczynnik Pearsonap2
określone odpo-..tiednio wzorami [1; 'l; 7; B] :
q,2 "'x2
n_,.
(B)
l
T2 •
x2
(9) n •• {CH - 1) (H' - 1)}
1/2
2
c2 ..
1.
n. • \ min (H, H') - 1) ; (10)
2 p2 •
l
n •• +
X.2
(11)Spośród innych miar wspólzaletności odnotowujemy propozycję
Hellwiga [10, s. 143]:
1
-f ~- min(!h~h;
f'h'.f.h)1 - {mtn(H, H')
l _,
(12)Postaramy się w ty~ miejscu wykazać znikomą przydatnotć
miar zależności do rozwiązania probleiiU okre.ślone6o w tytule
artykułu. Miary zale'-noścl ni e spel.niflją wszystldch pos'b.llnt6w
określonych w tym o.rt:•kule dla miar ppapbi·(ińs'ht, lllit,·dzy podzia-
łami wynikowym! z okresu T0 i T1 (:por. ttb. 2).
Wszystkie tormuły spełniają postul•t ~~etryczności t nie- zmienności ~ględem jakiegokolwiek uporządko~ap!a wierszy lub kolumn, natomiast nte spełniają warunku 3. Wynika to z !aktu,
~e niezale'-ność statystyczna dwóch podziałów wynf~owych nie po-
clą&• za sobą zupełnego n1epodob1~ństwa tychże p9dział6w.
~!ara zależnołci eramera nie spelni.a warunku 2, ponieważ
motl1we Sf\ inne sytuacje • w których mi ara te pr?.yjruje wartoM 1.
19 ..
T
ab
el
a2
Własności miar zale~no&c.l
("+łl oznacza spełnianie
postulatu, "-" -
nie spełnianie)Numer Numer postulatu
wzoru
1 23
45
8 + +
9
+ + + +10 + + +
11 + +
12 + + + +
C6rna 6ranlca
tej miary jest
osi~6ni~tawtedy
itylko wtedy,
gdy każdy\llersz
(H' ~H) lub każd~ kolWIIna (H'( H) .zawiera
tyl·ko jeden element
r6~ny odzera.
Jakz
te~o wiqać, ~iara.,1 ...
ta mo~eprzyjmowa6 warto~(: 1
nie tylko
dlę. tablic syl!letrycznycl"i.Warunku
2 nie
spełniają równię% mi&.ry •12l zll.
Pierwsza z nich może przyjmować wartości wl~k~ze od je~oo4c1,a druga
nig-dy nie
osiągagórnej
granicy, dążi\C ®mej
w llliarę zwic:kszania lic?.bywierszy
i kolumn~tablicy
~~~l}~~nąji[9].
Ponadto
wszystkie
miary ~~ężno~~· stotys~c~nej są nieokreślone,
GdYw
jednymz
podziałówjest
~l~ojedna klasa
zawierej~co wszy&tkic obiekty.
l-!iarę podobień:Jtwa dwóch podziałów Unikowych, która opiera
si~ róWT.Ueż na tablicy
kontyngencjl,
zaprQpQnowałSzm!giel w prncy [17]:
s<1>".
m!n(S 1;s
2), r,dz1 e:
. 6
max n. 'h - l!§x(H'; max n h)h' h ··n h •
n
m~
"h'h-
max(H9 max ~-)n
- max(H; m~r;,•)
(13)
(14)
(15J
w
pracy [16]tenze autor przedstawia modyfikacje
wanejmiary
podobieństwadwóch
podziałówwynikowych:
s<2>
s<3>
= max(s1,
s
2),
= 1 ~ (S1 +
s
2),= (s,s2)o,5.
propono-
(16) (17) (18)
Na podstawie
badańsymulacyjnych Szmigiel dochodzi do wnios-
ku, że najlepszą przydatność praktyczną ma miaras< 2 >. przede
wszystkimze
względuna
dużą zmienność.Konstrukcja miar globalnych utworzonych z miar
cząstkowychs
1i
s
2oraz
występowanie wlicznikach miar
cząstkowychliczby wy- dzielonych klas
w obu podziałach (H; H')powoduje,
żemiary
Szmigla są nieokreślonew
następującychdwóch sytuacjach:
(~)
gdy
w jednym z podziałówjest tylko jedna klasa zawie-
rająca wszystkie
obiekty,
(b)
gdy liczba
klasw jednym
z podziałó111jest równa liczeb-
ności
zbioru obiektów.
W pozostałych
przypadkach miary te
przyjmują wartościz
przedziału domkniętego<O; 1
>.
\·lartość O przyjmująw przypad- ku
statystycznej niezależnościobu
podziałóworaz wtedy, gdy
istnieją
a, b
takie, że~·a:~ ~·h
(dla wszystkich
h')lub (i
-dla
miars< 2 > i
s<3~(dla
wszystkich h).
Z
kolei
wartość 1 przyjmują, jeżeli każdywiersz i /lub - dla miary s< 2 >
każda kolumna zawiera tylko jeden niezerowyelement
~'h"Wszystkie
miary zaproponowane przez Szmigla niP.
spełniająwarunku 3, natomiast warunek 2
spełniają miarys<1 >
••s<3>i
~<4>przy
założeniu, że sąokretlone.
Miary
czą~kowe (14) 1 (15) sąanalogiczne
wpracy
[8]przez Coodmana
iKruskala:
L
,max n. 'h - maxn.h
h-" h n hn
. ...
' :
do
rr.iar podanych
199
L,
max n. 'h - max n. ',11 h h,
--n
h,--n
J "B
= ...;.;...._..:..;__ _ _ _...:;;.__
n - max n. ,
• • h n •
( 20)
Kaida z miar
cząstkowychz osobna nie
spełnia warunkusy-
metryczności,
przeto autorzy
podają ogólną !ormęmiary
spełniającą
ten warunek:
} =
G
h ,m:' r;,
'h• 0
h ma.x h'~
'h - ma.x h n • h - max h'~,
•• (21)2n - max n - max n ,
h .h h' h •
fo'.iary
cząstko..eGoodmana
-Kruskala
różnią sięod miar Szmigla tym,
żew ich liczniku nie
występujeelement H'(lub
H),który oznacza
liczbę wyodrębnionychklas. Powoduje to
, żemia- ra ,A. nie ma jednej z wad miar Sz.migla, a mianowicie jest
określona
wtedy, gdy liczba klas
wjednym
z podziałówjest rów- na
liczebnościzbioru obiektów (patrz punkt
(b) przyopisie miar Szmigla). Ponadto z konstrukcji
miary,t
wynika,1e jest ona
nieokreślona wtedy,gdy tablica kontyngencji
ma wymiary 1x1,tzn.
w obu klasy~ikacjach występujejedna klasa
obejmująca wszystkie obiekty badania.
W pozostałychprzypadkach
miara )vzawiera
się w przedziale<o;
1> .
Wartość 1przyjmuje
wtedy, gdy ka1dy
wiersz i każdakolumna zawiera tylkojeden niezero'fty element
~'h'Z
kolei wartośćO przyjouje
wprzy- padku statystycznej
niezależnościobu
podziałóworaz
wtedy,gdy
istniejąa
,b takie,
że~·a,. max ~·h h
0bh = m~ ~·h
(dla wszystkich h
')
(dla wszystkich h).
~iara
..A, podobnie
jakmiary Szmigla, nie
spełniawarunku 3, natomiast warunek 2
spełniaprzy
założeniu, żejest
określona.
Przedstawimy obecnie inne miary
podobieństwa międzydwoma
podziałami
wynikowymi,
spełniające warunki1-6.
~asadnicze znac~enie
ma w tej grupie miara
pod?bieństwadwóch
podziałówwynikowych zaproponowana przez Randa
[13],a
określona
wzorem:
(2?,1
gdzie:
•
1, jeżeli obiekty Ar 1 A
8 w obu podziałach znajdu-
ją się w tych samych klasach;
Ors • 1, jeżeli obiekty Ar 1 As w obu podziałach znajdu-
ją się w różnych klasach;
O, w pozostałych wypadkach.
W razie dużej liczby obiektów wykorzystanie tej miary bylo- by bardzo pracochłonne (w sposobie tym rozpatruje się ' n(n - 1) 1
kombinacji par obiektów), zatem Rand proponuje efektywniejszą
(w sensie czasu pracy) postać tej miary, która opiera siQ na tablicy kontyngencji:
R •
(G)- 0(~ n2.h + "{; >{-.)- ~ ~ >{.hJ}wr
(23)
Przedział zmienności tej miary zaczyna się od O, kiedy to d.ta podziały są zupełnie niepodobne (jc·!en podział zawiera ty- le klas ile jest obiektów, a dr~1~f jedną klas~ zawierając q wszystkie obiekty), a kończy na 1, kiedy podziały są identycz- ne.
Identyczne kryterium podobieństwa podziałów zastosował w konstrukcji miary Sokołowski [11; 12], otrzymując w efekc1.e
postać analogiczną do miary Randa:
=
R.Podobi eństwo mi~dzy dwoma pod z! a'łami wynl ko ... 'Ymi mo: eroy
ustalić także za pomocą mi ar skojarzenia opartych na tablicy o wymiarach 2 x 2 (por. tab. 3).
W sposobie tym rozpatruje si~ ~ n(n- 1) kombinacji par obiektów, które nastt;pnie zakwc.lifiKo~.ane zostają w ka:;'.dym po- dziale do dwóch kl.as: klasy O (obiekty Ar i A
5 z.nujciu,ją :.i ą w
r6źnych klasach w podziale) i klasy 1 (obiekty Ar 1 As ... .~.ujdu
ją s! ę w tej samej klas i e w podziale).
Do porównali między podziałami wyn:i kowyrui można u±
Y.:
dwóchspośród binarnych rr~ar skojarzenia przedstawionych pr,ez And~~-
201
T a b l i c a 3 Tablica
2x
21
o
Ogółema b a + b
o c
dc
+dOgółem a +c
b+d a+b+c+d
berga w tab. 4.5 (por.
[1,s. 89]). Najbardziej
oczywistą mia-rą podobieństwa
jest tzw. prosta miara skojarzenia:
a
+d(25)
a+b+c+d
Niara
Randa dla tablicy 2 x 2 przyjmuje
właśnie powytszą postać,przeto interpretacja jej jest
jużznana.
Drugą miarą podobieństwa
jest
współczynnikRogersa- Tanimoto:
a + d (26)
a +
d
+ 2(b + c} 'w którym dwa razy
wyższą rangę otrzymują paryniezgodne
w obupodziałach. Pozostałe
binarne miary skojarzenia
nie spein!ająwszystkich postulatów, które
wcześniej określiliśmy.L i t e r a t u r a
r
.R. A n d e r b e r g: Cluster Analysis for Applications.
New York, San Francisco
,London 1973 , Academic
Press.E. J
. B 1j n e n: Cluster Analysis
.The Netherlands 1973,
TilburgUniversity Press.
z. C h o
jn
ic k
i,T. C z y
ż:Metody taksonomii nume-
rycznej w regionalizacji
geogra~icznej. Warszawa1973,
PWN.[ 4] R.N. C o r m a c k: A Review of Classification /wi th Dis- cussion/. "Journal of The Royal Statistical Society", vol.
134/1971 Part 3 /London 19-n'.
[5]
H. C r a m e .r: Y.letody matematyczne w statystyce. Warszawa 1958,PWN.
[6] B.
s.
E v e r i t t: C luster Analysi s. London 1977, Heine- mann Educational Books Ltd.[7]
B.S. E v e r i t t: The Analysis or Contingency Tables.London 1979, Chapman and Hall.
[aJ
l.A. G o o d m a n, w.H. K r u s k a 1: foieasures of Associa- tion for Cross Classifications. New York, Heidelberg, Der- lin 1979, Springer - Verlag.[9]
T.C
r a b i ń s k1:
loietody analizy zbieżno~ci wyników dys- kryminacji zbiorów. Zeszyty Naukowe Akademii Ekonomicznej w Krakowie, nr 127, Kraków 1980.[1Ql
z.
H e l l w i g: Elementy rachunku prawdopodobieństwa l statystyki matew2tycznej. Warszawa 1975, PWN.[11) J. P a m u ł a, A. S o k o ł o w s k l: Propozycja wyznacza- nia podziału wynikowego aglomeracyjnych algorytmów taksono- micznych. Zeszyty Naukowe Akademii Ekonomicznej w Krakowie, nr 127, Kraków 1980.
B.
P o d o l e c, K.Z
a j ą c: Ekonometryczne metody usta- lania rejonów konsumpcji. \iarsza..,a 1978, PWE.W.M. R a n d, Objective Criteria for the Evaluation of Clu- stering l•!ethods. "JASA" vol. 66, 336/1971.
B.B.
R
o z i n, Teoria rozpoznawania obrazów w badaniach ekonomicznyci1. Warszawa 1979, PWN.(15] F.A. S z c z o t k a: Podstawy taksonomii numerycznej. Pro- blem węzłowy 11. 2. 1, Grupa tematyczna 03, Temat A. 1. Warszawa 1975.
(Hij C. S z m i g 1 e l: Mody fi kac jE> wskaźnika :zgodności kryte- riów podziału. W: Statystyka .• ł>latematyka. Ekonometria. Pra- ce !~aukowe Akademii Ekonomicznej we Wrocławiu, nr 190,
'"rocław 1981.
[11]
C .• S z m1
g i e l: jolskaźnik zgodności kryteriów podziału."Przegląd Statystyczny", 4/1976.
203
METH:.DS FOR R.&:ORDING CHANGES IN TIME IN CLASSIFICATION RESULTS