l'RACR._---'N""A""UK=O.:.:..WB=---.::AKAD=""'K:;.;:MI~I--.---'K::;.::K""O,_N .. O""MI=-C-..Z ... NE=J----'W::.::I.___WR=OC=-=iLA.=WI=U
lir 319 Statystyka i ekonometria 1985
Marek Walesiak
MIARY ODLKGŁOSCI STRUKTUR UDZIAŁOWYCH
Artykuł stanowi pewną rekapitulacj~ w zakresie proponowa- nych przez autora miar odległości struktur udziałowych, które
służą do ustalenia macierzy dystansów, stanowiącej podstaw~
przy w,yodr~bnianiu klas obiektów podobnych w znacznej liczbie metod klasyfikacji. Przedstawione zostaną w nim równie~ nowe propozycje miar odległości.
Z formalnego punktu widzenia strukturat
1) jest to całość, która składa si~ z elementów. Całość o- bejmuje co najmniej dwa elementy struktury, a ioh zbiór spełnia
warunki rozłączności (elementy struktury nie mają części wspól- nych) oraz zupeleości (suma elementów struktury tworzy całość);
2) obrazuje wewn~trznie uporządkowane i spójne zależności między elementami badanej całości oraz między poszczególnymi e- lementami a całością. W praktyce zależności te są odzwierciedla- ne przez relacje między liczbami, za pomocą których scharaktery- zowano te elementy.
Zatem struktur~ r-tego obiektu możems przedstawić w postaci wektora obserwacji:
gdzie: prj - pierwotna wartośc j-tego elementu w strukturze obiektu r.
( 1)
Jeżeli każda składowa prj zostanie przekształcona według formuły:
( 2)
to otrsymujemy struktur•
udz~alową ob~ektur. Fo tej transfor- macji katda akladowa arj
stanow~udzial J-tego elementu w oa-
lośoi, b,dąoej sumą
wszystkich
składowychwektora (1).
Mając
dany zbiór obiektów badania
prsyat~ujemydo konstruk-
cj~
maciersy obserwacji (w ktÓrej
każdywiersz stanowi
struktur~udsialową
obiektu r)s
a 11 a12 a 1k a21 822 82k
(J)
gdz~e:
arj -
udz~alj-tego elementu w strukturze obiektu r;
r,
s = 1, 2, ••• ,n (liczba badanych
ob~ektów)łJ =
1,2, ••• , k (liczba elementów struktury).
Dla struktur
udziałowycho
zap~sie (J)prawdziwe
są nast~pujące
relacjel
o
~arj
~ 1,k
[ arj
~ 1, (5)j~1
n k
L L arj • n.
(6)r•l
j~1Tablica
1 przedstaw~&rótne
for~ m~ar odleglośo~struktur wraa a podaniem
~oh b~bl~ograf11.W
saletnościod tego,
jaką wartośćz
przedz~alu (1,~>wstaw~my
sa
p, otrzyma~rótne postacie miar o numerach
(7),(8), {9) i {10). W praktyce za
pprzyjmuje s1•
w zasadz~edwie
wartości. Jeśl~ za
p
w8taw~~ wartość 1,otrzymamy bardzo cie-
kawąaytuaoj,, gdyt m
iary z tablicy 1 o numerach (7) - (10)
prsyj•ują identyo~ną
postaó, a mianowiciel
Tablica 1 Miary odległości struktur
Nr Forma miary Bibliografia
1
(7)
L~ l•rj -··J 1· r Millkowski [ J] 1 1
k
l f
(8)
[ l
aP - aP Walesiak [8]rJ sj Jz1
.t·t
Wale siak*(9)
L~ IJ -
Jeffreys-Matusita rj1
( 1 O)
[jt, 13 -
rj.~.j ~·
Wale siak~( 11)
L~, 1 ·~j - ·~j 1]
Walesiak [9]1 ~ p ~ DO
*Miary te będą omówione w niniejszym artykule.
k
L l
ar j - asjl·
J=1
Jest to odległość zwana miejską (ang. city-blook).
[1, s. 4]
(12)
Różnice we wzorach (7) - (10) występują, gdy za p przyj- miemy ~artość 2. Otrzymujemy wtedy następujące ich formyt
1Podano za C.R. Rao [6, s. 177].
12
( 13)
(14)
(15)
(16)
Miary (11) i (12) posiadają unormowane wartości w przedziale
<
O, 2), zaś metryki o postaci ( 13) - ( 16) przyjmują wartościz przedzialu (O,
ff).
W praktyce wygodniej jest posługiwać się miarami zawartymi
11 przedziale <O, 1
> ,
przeto dzieląc otrzymane metryki przezmo~l1wą maksymalną ich wartość nowe będą przyjmować wartości z
interesującego nas przedziału. Interpretacja tak otrzymanych miar jest następująoas w przypadku, gdy wartości ich dążą do zera,oznaoza to coraz mniejsze sróżnicowanie badanych struktur, podczas gdy wzrost wartości do jedności oznacza coraz bar- dziej istotne :różnice pomiędzy badanymi strukturami.
Wielość rozwiązań w sakresie miar odległości skłoniła auto- ra do ustalenia pewUJch zależności, jakie występują pomiędzy
metrykami o zapisie
(11)- (16).
Dla miar tych prawdziwe są na-st~ujące nierówności:
k
L l ar/ - as/ l <
jc1
k
L l
8rj - asjl•
j=1
( 17)
13
]i
1k
[
k2
[ L l
arj - asjl
2 <,_LI
arj -2 8a/l] '
j=1 j=1
( 18)
1
,
k 1
'\'f
kł łl 2
[
j~ I··J· -·./- <. [ b I··J -··J J ·
(19)Dowód pierwszej nierówności znajduje s1q w pracy
[4],
zaś dru- giej podal autor w pracy[e].
Prsedstawienia dowod~ wymaga nierównoś6 o postaci (19). Pod- nosimJ obydwie strony nierówności (19) do kwadratu otrBymująo:
t l
j:a1
1 a rj
~
t l
j=1
1
11
a
2 _
2 rj aaj •Nierównośd powytsza jest prawdziwa, jeżeli:
1\
j
1 1
l
arl -
8 sj-,_ l ~
1 •Na mocy założenia (4) przyjętego we wstępnych rozważaniach mote- acy stwierdzić prawdziwośd powyższego zapisu. Wykazaliśmy w ten sposób prawdziwość nierówności o numerze (19).
W związku z tym, te w odniesieniu do powyżs~yoh miar odle-
głości używaliśmy zamiennie pojęcia metryka,musimy dać odpowied~
na pytania! 1) kiedy miara odległości jest metryką oraz 2) czy
rzeczywiście poznane dotychczas miary spełniają własności metry- ki.
Miara odległości dra jest metryką wtedy i tylko wtedy, gdy
~pelnla na~tqpuJ~oe warunki:
1· dra ~o, przy cz,ym drs = O<==:::::>r s,
14
2. dra
adar (symetria),
J,
dla katdych traech .struktur r, "'• t
E: ll(abiór badanych struktur)
Odpowiednie dowody tych warunków dla miar (12) i (13)
s~ dostępne w literaturze [7, s. 10-12] i nie ma potrzeby ich powtarza- nia. Dowód dla miary (11) autor
przedstawiłw pracy [9]. Pozo- staje kwestia udowodnienia tych warunków dla miar (14), (15) i (16).
Prawdziwoś~dwóch pierwszych jest oczywista, a wynika z
wlasnośoi wartości bezwzgl~dnej[5, s. 34]. Nalety
więc wykaza~prawdziwośó
warunku trzeciego dla tychte miar. Dla miar (14) i (16) dowód ten opiera
sięna tej samej zasadzie, przeprowadzimy go
więc przykładowodla miary (14)s
Podnosimy obydwie strony
nierównoścido kwadratu,
otrzymuj~c:k k
[, l ar/ - at/l +
L l a t / - as/ l+
j=l
Lewa strona
nierówności:k
L=
' l a w
r j 2_a sj21
j=l
k
LI ( a r / -
8t/> + (at/
- 8s/>l•
J•1
15
Na podstawie trzeciej
własności wartości bezwsgl~dnej[5, s. 34]
otrzymujemy
tFoniewat
następującyelement jest nieujemny
otrsymujemys
Na podetawie powytez3ch trzech
nierównościstwierdzamy prawdzi-
wośó nierówności
(20).
pozostal jeszcze do sprawdzenia warunek trzeci metr3ki dla
miary o postaci (15)
/1 1
2
]2
•tli
+Podnosi~~~J
obie strony
nierównoścido kwadratu,
otraymująos( 21)
n~a. Istotne ogniwa tych ogólnych zadań stanowią zabiegi iden- tyfikacyjne oraz kreacja sądów o wielkościach nieobserwowal- nych, o których wspominaliśmy na początku rozwatań. Ogólny mc-- del matematyOBOl dla tych problemów jest następujący: Na usta- lonej prze s tneni probabil~styc zne j (n,~
,
!P) określone są e- lementy losowe X i Y o wartośc~ch w prze~trzeniach mierzal- OlCh (X, 'I) i {Y,-y),
przy ozym o rozkładzie łącznym (X, Y) elementu losowego w przestrzeni produktowej (X x Y, 6 (X x 'Y)) wiadomo tylko tyle, iż należy do pewnej rodziny rozkładów{oxy' QXY~ o}•
Zadanie sprowadzasię
do budowy pary funkcji(!
1, f2), z których pierwsza słuty do "wskazania miary" Q0 -"prawdsiwego" roskladu X, a druga, 6 {X)-mierzalna, generuje element losowy "zastępujący" nieobserwowalną zmienną Y, czyli p r o g n o z u j e y.
W samym procesie prognozowania można wyróżnić dwa aspekty:
inferencyjny i decyzyjny. Chodzi bowiem zarówno o probabilisty- czne wnioskowanie o "przyszłości" reprezentowanej przez Y {poprzez rozpoznanie struktury stochastycznej Q
0 układu (X, Y)), jak również o minimalizację strat wynikłych z decyzji o- partych na błędnych oszacowaniach Y (mierzy się je zazwyczaj
wartością oczekiwaną pe1mego dodatniego funkcjonału 6 (f?(X), Y)-mierzalnego).Gharakter samego aktu prognostycznego świRnczy o rosmyciu granic między tematyką prognoatyu~uą sensu ~tr~cto
a zagadnieniami optymalizacyjnymi. Zauważmy, że "działalność funkcjonału estymacyjnego f," pozostaje teraz nieco w cieniu.
Gdybyśmy umieli dobrze przewidywać wartości elementu Y b e z identyfikacji miary Q
0, to cel finalny byłby osiągnięty, a ponadto nie ryzykowalibyśmy błędnej lokalizacji teoretycznej badanej struktury w wąskiej (często jednoelementowej) klasie modeli, prowadzącej dalej do imputowania fałszywych związków
przyczynowyuh pomiędzy elementami (komponentami) tej struktury.
Jednak nie wykorzystalibyśmy wówczas pewnych poznawczych możli
wości statystyki w ogóle, a teorii estymacji w szczególności.
Z punktu widzenia teorii współczesnej statystyki zacierają się także granice między problematyką estymacJjną a prognozo- waniem. Jeśli o pewnym elemencie losowym X wiadomo, że jego roskbd
Px
należy do rodziny miar{Pe: et:eJ,
prz.Y czymLewa strona nierównośoir
k 1
\ (a ~
L
rj J=1k +2 [ js1
~ 1 (a rj -
17
•
Po redukcji wyrazów podobnych otrzymujemy posta~ zwaną nierów-
nością Schwarza-Cauchy'egor
1
k 1 1
2
]2 [
k( [
j~
(arj'1-•,/l j~
Oczywiście na mocy prawdziwości nierówności Sohwarza-Cauohy'ego [7, s. 11-12] wykazaliśmy prawdziwoś6 nierówności o zapisie (21).
Reasumując dowiedliśmy, że wssystkie omawiane miary odległo
ści w tym artykule są metrykami. W związku s tym, te przyj~ta w badaniu metryka może mie6 istotne znaomenie dla klasyfikacji
obiektó~ pojawia si~ problem jej wyboru. Jest on skomplikowany, gdyż brak możliwości formalnej oceny każdej z metryk (por. [2, s. 93]) powoduje, że wybór jednej s nich jest wyborem arbitral- nym. Nie mogąc formalnie oceni6 każdej a miar, autor artykułu
proponuje porównywanie metryk parami (jeśli taka możliwoś~ ist- nieje). Nierówności o zapisie (17), (18) i (19) pozwalają na
taką ocen~ miar odległości. Metryki występujące po prawych stro- nach nierówności z racji tego, że są bardziej czułe, należy sto-
sowa~ wtedy, gdy występują niewielkie różnice między elementami porównywanych struktur, a zachodzi koniecznoś6 relatywnego
zwiększenia różnic w celu wydzielenia klas homogenicznych. Oczy-
wiście ocena stopnia zróżnicowania badanych struktur wymaga do- brego rozeznania w materiale empirycznym i w tym sensie jest to propozycja subiektywna.
LIT&RAT URA.
[1] Duran B.S., Odell P.L., Cluster Analysis. A Survey, Berlin Heidelberg New York 1974, Springer - Verlag.
[2] Kveritt B., eluster Analysis, London 1974, Heinemann Educa- tional Books.
[3] Minkowski H., Gesammelte Abhandlungen, Berlin 1911, vol. II, Teubner.
[4] Montygierd-Łoyba M., Wska~niki potęgowo-różnicowe przy bada- niu struktur macierzowych (maszynopis, AE we Wrocławiu).
[5] Piszczała J., Piszczała M., Wojcieszyn B., Matematyka z za- daniami, Warszawa 1981, PWN.
[6]
[7]
[8]
[9]
Rao e.R., eluster analysis applied to a study of race mix- ture in human populations,
[w:]
J. Van Ryzin (ed. ), Class:t.- fication and olustering, New York San Francisco London 1977, Aoademic Press.Sieklucki K., Geometria z elementami topologii i algebry li- niowej, Warszawa 1976, PWN.
Walesiak M., Propozycja rodziny miar odległości struktur
udziałowych, "Wiadomości Statystyczne", 1983, nr 10.
Walesiak M., Propozycja wska~nika odległości struktur pro- stych udziałowych, Prace Naukowe AE we Wrocławiu (przyjęte
do druku).
19
DlSTANCR
~ASURBSFOR FRACTlONAL STRUCTURKS Csumma:r3)
The pape:r 1s the oomp:rehens1ve d1scuss1on of the d1stanoe measures for f:raot1onal struotures p:roposed b3 the autho:r and presentat1on of new proposale (see measures (7) and (8)). It also oonta1ns some praot1cal adv1oes ooncern1ng the object1ve oho1oe of metr1os. One o! the tool whioh 1s helpful in th1s oho1ce, are the relat1ons between the metrias (9)-(14), presen- ted as the 1nequal1t1es (15)-(17), fixed and proved by the
a~thor.
MESUR&S DRS DISTANCBS D&S
STRUCT~SFRACTIONNAIRES (Risumt!)
L'art1ole est la d1scuss1on s,yntheti.que sur les mesures des distances des struotures fraot1onna1res
propos~espar l'auteur, avec la presentat1on de nouvelles propositiona (voir: mesures (7) et (a». 11 donne aussi. les i.ndioations pratiques conoerna- nat le ohoix objeotif de la metrique. L'un des 1nstruments ut1- les dana oe ohoix, sont les relations entre les metriques (9)- -(14),
pr~senteescomme des inegalitt!es, fixees et prouvees par l 'auteur.
MEPbl PACCTOHHJ..iH .UOJIEBbiX CTPYKTYP (PealOlle)
B
CT8Tb8 ITOMe~aeTCff CMHT6THqecKOe 06cy~~eHHe rrpeAnara-ew~X aBTopoM Mep paccTOHHHR ~oneB~x cTpyKTYP ~ ~a~TCH HOB~e
npe~R036HWR (CM, Mep~ O ~OpMynax
/7/
H/8/),
B
cTaTbe ~aiDTCH TaKxe rrpaKTHqecKHe yKaaaHHR Kaca~~HecR 06~eKTWBW38U~H B~6opa MeTpHKH ITpHHffTO~ B HCCn810B8HHH,0~HHM H3 HHCTpyM8HTOB1 TIOUara~~HX B pemeHHH 3TO« 3~8qM RBXH- IOTCH yCT8HOBR811H~e H ~OK838HH~e 8BTOpOW 38BHCHUOCTH uea.zcy M€:TpHK8MH