udzial J-tego elementu w oa-

(1)

l'RACR._---'N""A""UK=O.:.:..WB=---.::AKAD=""'K:;.;:MI~I--.---'K::;.::K""O,_N .. O""MI=-C-..Z ... NE=J----'W::.::I.___WR=OC=-=iLA.=WI=U

lir 319 Statystyka i ekonometria 1985

Marek Walesiak

MIARY ODLKGŁOSCI STRUKTUR UDZIAŁOWYCH

Artykuł stanowi pewną rekapitulacj~ w zakresie proponowa- nych przez autora miar odległości struktur udziałowych, które

służą do ustalenia macierzy dystansów, stanowiącej podstaw~

przy w,yodr~bnianiu klas obiektów podobnych w znacznej liczbie metod klasyfikacji. Przedstawione zostaną w nim równie~ nowe propozycje miar odległości.

Z formalnego punktu widzenia strukturat

1) jest to całość, która składa si~ z elementów. Całość o- bejmuje co najmniej dwa elementy struktury, a ioh zbiór spełnia

warunki rozłączności (elementy struktury nie mają części wspól- nych) oraz zupeleości (suma elementów struktury tworzy całość);

2) obrazuje wewn~trznie uporządkowane i spójne zależności między elementami badanej całości oraz między poszczególnymi e- lementami a całością. W praktyce zależności te są odzwierciedla- ne przez relacje między liczbami, za pomocą których scharaktery- zowano te elementy.

Zatem struktur~ r-tego obiektu możems przedstawić w postaci wektora obserwacji:

gdzie: prj - pierwotna wartośc j-tego elementu w strukturze obiektu r.

( 1)

Jeżeli każda składowa prj zostanie przekształcona według formuły:

( 2)

(2)

to otrsymujemy struktur•

udz~alową ob~ektu

r. Fo tej transfor- macji katda akladowa arj

stanow~

udzial J-tego elementu w oa-

lośoi, b,dąoej sumą

wszystkich

składowych

wektora (1).

Mając

dany zbiór obiektów badania

prsyat~ujemy

do konstruk-

cj~

maciersy obserwacji (w ktÓrej

każdy

wiersz stanowi

struktur~

udsialową

obiektu r)s

a 11 a12 a 1k a21 ⁸22 ⁸2k

(J)

gdz~e:

arj -

^udz~al

j-tego elementu w strukturze obiektu r;

r,

s = 1, 2, ••• ,

n (liczba badanych

ob~ektów)ł

J =

1,

2, ••• , k (liczba elementów struktury).

Dla struktur

udziałowych

o

zap~sie (J)

prawdziwe

są nast~

pujące

relacjel

o

^~

arj

~ 1,

k

[ ^arj

^~^1, ⁽⁵⁾

j~1

n k

L L arj • n.

⁽⁶⁾

r•l

^j~1

Tablica

1 przedstaw~&

rótne

for~ m~ar odleglośo~

struktur wraa a podaniem

~oh b~bl~ograf11.

W

saletności

od tego,

jaką wartość

z

przedz~alu (1,~>

wstaw~my

sa

p, otrzyma~

rótne postacie miar o numerach

(7),

(8), {9) i {10). W praktyce za

p

przyjmuje s1•

w zasadz~e

dwie

wartości. Jeśl~ za

p

w8taw~~ wartość 1,

otrzymamy bardzo cie-

kawą

aytuaoj,, gdyt m

i

ary z tablicy 1 o numerach (7) - (10)

prsyj•ują identyo~ną

postaó, a mianowiciel

(3)

Tablica 1 Miary odległości struktur

Nr Forma miary Bibliografia

1

(7)

L~ l•rj -··J ^1· r

Millkowski [ J] 1 1

k

l f

(8)

[ l

^{aP - aP} Walesiak [8]

rJ sj Jz1

.t·t

Wale siak*

(9)

L~ ^{IJ -}

Jeffreys-Matusita rj

1

( 1 O)

[jt, 13 -

^rj

^{.~.j ~·}

^Wale^siak~

( 11)

L~, ¹ ·~j - ·~j ^1]

Walesiak [9]

1 ~ p ~ DO

*Miary te będą omówione w niniejszym artykule.

k

L l

ar j - asj

l·

J=1

Jest to odległość zwana miejską (ang. city-blook).

[1, s. 4]

(12)

Różnice we wzorach (7) - (10) występują, gdy za p przyj- miemy ~artość 2. Otrzymujemy wtedy następujące ich formyt

1Podano za C.R. Rao [6, s. 177].

(4)

12

( 13)

(14)

(15)

(16)

Miary (11) i (12) posiadają unormowane wartości w przedziale

<

^O, ^2),^zaśmetryki o postaci ( 13) - ( 16) przyjmują wartości

z przedzialu (O,

ff).

W praktyce wygodniej jest posługiwać się miarami zawartymi

11 przedziale <O, 1

> ,

^przeto^dzielącotrzymane metryki przez

mo~l1wą maksymalną ich wartość nowe będą przyjmować wartości z

interesującego nas przedziału. Interpretacja tak otrzymanych miar jest następująoas w przypadku, gdy wartości ich dążą do zera,oznaoza to coraz mniejsze sróżnicowanie badanych struktur, podczas gdy wzrost wartości do jedności oznacza coraz bardziej istotne :różnice pomiędzy badanymi strukturami.

Wielość rozwiązań w sakresie miar odległości skłoniła autora do ustalenia pewUJch zależności, jakie występują pomiędzy

metrykami o zapisie

(11)- (16).

Dla miar tych prawdziwe są na-

st~ujące nierówności:

k

L l ar/ - as/ ^l ^<

jc1

k

L l

⁸^{rj - asj}

l•

j=1

( 17)

(5)

13 ]i

¹

k

[

^k

²

[ ^L ^l

arj - asj

l

² ^<,_

LI

^{arj -}² ⁸

a/l] '

j=1 j=1

( 18)

1

,

k 1

'\'f

^k

^{ł łl} ²

[

j~ I··J· -·./- ^<. [ b I··J -··J ^{J ·}

⁽¹⁹⁾

Dowód pierwszej nierówności znajduje s1q w pracy

[4],

zaś dru- giej podal autor w pracy

[e].

Prsedstawienia dowod~ wymaga nierównoś6 o postaci (19). Pod- nosimJ obydwie strony nierówności (19) do kwadratu otrBymująo:

t ^l

j:a1

1 a _rj

~

t ^l

j=1

1

11

a

2 _

2 rj aaj •

Nierównośd powytsza jest prawdziwa, jeżeli:

1\

j

1 1

l

^ar

l -

⁸^s

^j-,_ l ^~

^{1 •}

Na mocy założenia (4) przyjętego we wstępnych rozważaniach mote- acy stwierdzić prawdziwośd powyższego zapisu. Wykazaliśmy w ten sposób prawdziwość nierówności o numerze (19).

W związku z tym, te w odniesieniu do powyżs~yoh miar odle-

głości używaliśmy zamiennie pojęcia metryka,musimy dać odpowied~

na pytania! 1) kiedy miara odległości jest metryką oraz 2) czy

rzeczywiście poznane dotychczas miary spełniają własności metryki.

Miara odległości dra jest metryką wtedy i tylko wtedy, gdy

~pelnla na~tqpuJ~oe warunki:

1· dra ~o, przy cz,ym drs = O<==:::::>r s,

(6)

14

2. dra

a

dar (symetria),

J,

dla katdych traech .struktur r, "'• t

E: ll

(abiór badanych struktur)

Odpowiednie dowody tych warunków dla miar (12) i (13)

s~ dostęp

ne w literaturze [7, s. 10-12] i nie ma potrzeby ich powtarza- nia. Dowód dla miary (11) autor

przedstawił

w pracy [9]. Pozo- staje kwestia udowodnienia tych warunków dla miar (14), (15) i (16).

Prawdziwoś~

dwóch pierwszych jest oczywista, a wynika z

wlasnośoi wartości bezwzgl~dnej

[5, s. 34]. Nalety

więc wykaza~

prawdziwośó

warunku trzeciego dla tychte miar. Dla miar (14) i (16) dowód ten opiera

się

na tej samej zasadzie, przeprowadzimy go

więc przykładowo

dla miary (14)s

Podnosimy obydwie strony

nierówności

do kwadratu,

otrzymuj~c:

k k

[, l ar/ - at/l +

L l a t / - as/ l+

j=l

Lewa strona

nierówności:

k

L=

' l a _w

_{r j}2_a _sj

21

j=l

k

LI ^{( a r / -}

⁸

^t/> ⁺ ^(at/

^- ⁸

s/>l•

J•1

(7)

15 Na podstawie trzeciej

własności wartości bezwsgl~dnej

[5, s. 34]

otrzymujemy

t

Foniewat

następujący

element jest nieujemny

otrsymujemys

Na podetawie powytez3ch trzech

nierówności

stwierdzamy prawdzi-

wośó nierówności

(20).

pozostal jeszcze do sprawdzenia warunek trzeci metr3ki dla

miary o postaci (15)

^/

1 1

2

]2

•tli

⁺

Podnosi~~~J

obie strony

nierówności

do kwadratu,

otraymująos

( 21)

(8)

n~a. Istotne ogniwa tych ogólnych zadań stanowią zabiegi iden- tyfikacyjne oraz kreacja sądów o wielkościach nieobserwowal- nych, o których wspominaliśmy na początku rozwatań. Ogólny mc-- del matematyOBOl dla tych problemów jest następujący: Na usta- lonej prze s tneni probabil~styc zne j (n,~

,

^!P) określone są e- lementy losowe X i Y o wartośc~ch w prze~trzeniach mierzal- OlCh (X, 'I) i {Y,

-y),

przy ozym o rozkładzie łącznym (X, Y) elementu losowego w przestrzeni produktowej (X x Y, 6 (X x 'Y)) wiadomo tylko tyle, iż należy do pewnej rodziny rozkładów

{oxy' QXY~ o}•

Zadanie sprowadza

się

do budowy pary funkcji

(!

₁, f2), z których pierwsza słuty do "wskazania miary" Q₀ -

"prawdsiwego" roskladu X, a druga, 6 {X)-mierzalna, generuje element losowy "zastępujący" nieobserwowalną zmienną Y, czyli p r o g n o z u j e y.

W samym procesie prognozowania można wyróżnić dwa aspekty:

inferencyjny i decyzyjny. Chodzi bowiem zarówno o probabilisty- czne wnioskowanie o "przyszłości" reprezentowanej przez Y {poprzez rozpoznanie struktury stochastycznej Q

0 układu (X, Y)), jak również o minimalizację strat wynikłych z decyzji o- partych na błędnych oszacowaniach Y (mierzy się je zazwyczaj

wartością oczekiwaną pe1mego dodatniego funkcjonału 6 (f?(X), Y)-mierzalnego).Gharakter samego aktu prognostycznego świRnczy o rosmyciu granic między tematyką prognoatyu~uą sensu ~tr~cto

a zagadnieniami optymalizacyjnymi. Zauważmy, że "działalność funkcjonału estymacyjnego f," pozostaje teraz nieco w cieniu.

Gdybyśmy umieli dobrze przewidywać wartości elementu Y b e z identyfikacji miary Q

0, to cel finalny byłby osiągnięty, a ponadto nie ryzykowalibyśmy błędnej lokalizacji teoretycznej badanej struktury w wąskiej (często jednoelementowej) klasie modeli, prowadzącej dalej do imputowania fałszywych związków

przyczynowyuh pomiędzy elementami (komponentami) tej struktury.

Jednak nie wykorzystalibyśmy wówczas pewnych poznawczych możli

wości statystyki w ogóle, a teorii estymacji w szczególności.

Z punktu widzenia teorii współczesnej statystyki zacierają się także granice między problematyką estymacJjną a prognozo- waniem. Jeśli o pewnym elemencie losowym X wiadomo, że jego roskbd

Px

należy do rodziny miar

{Pe: et:eJ,

prz.Y czym

(9)

Lewa strona nierównośoir

k 1

\ (a ~

L

rj J=1

k +2 [ js1

~ 1 (a rj -

17

•

Po redukcji wyrazów podobnych otrzymujemy posta~ zwaną nierów-

nością Schwarza-Cauchy'egor

1

k 1 1

2

]2 [

^k

( [

j~

^(arj'1-

•,/l j~

Oczywiście na mocy prawdziwości nierówności Sohwarza-Cauohy'ego [7, s. 11-12] wykazaliśmy prawdziwoś6 nierówności o zapisie (21).

Reasumując dowiedliśmy, że wssystkie omawiane miary odległo

ści w tym artykule są metrykami. W związku s tym, te przyj~ta w badaniu metryka może mie6 istotne znaomenie dla klasyfikacji

(10)

obiektó~ pojawia si~ problem jej wyboru. Jest on skomplikowany, gdyż brak możliwości formalnej oceny każdej z metryk (por. [2, s. 93]) powoduje, że wybór jednej s nich jest wyborem arbitral- nym. Nie mogąc formalnie oceni6 każdej a miar, autor artykułu

proponuje porównywanie metryk parami (jeśli taka możliwoś~ ist- nieje). Nierówności o zapisie (17), (18) i (19) pozwalają na

taką ocen~ miar odległości. Metryki występujące po prawych stro- nach nierówności z racji tego, że są bardziej czułe, należy sto-

sowa~ wtedy, gdy występują niewielkie różnice między elementami porównywanych struktur, a zachodzi koniecznoś6 relatywnego

zwiększenia różnic w celu wydzielenia klas homogenicznych. Oczy-

wiście ocena stopnia zróżnicowania badanych struktur wymaga do- brego rozeznania w materiale empirycznym i w tym sensie jest to propozycja subiektywna.

LIT&RAT URA.

[1] Duran B.S., Odell P.L., Cluster Analysis. A Survey, Berlin Heidelberg New York 1974, Springer - Verlag.

[2] Kveritt B., eluster Analysis, London 1974, Heinemann Educa- tional Books.

[3] Minkowski H., Gesammelte Abhandlungen, Berlin 1911, vol. II, Teubner.

[4] Montygierd-Łoyba M., Wska~niki potęgowo-różnicowe przy badaniu struktur macierzowych (maszynopis, AE we Wrocławiu).

[5] Piszczała J., Piszczała M., Wojcieszyn B., Matematyka z za- daniami, Warszawa 1981, PWN.

[6]

[7]

[8]

[9]

Rao e.R., eluster analysis applied to a study of race mix- ture in human populations,

[w:]

J. Van Ryzin (ed. ), Class:t.- fication and olustering, New York San Francisco London 1977, Aoademic Press.

Sieklucki K., Geometria z elementami topologii i algebry li- niowej, Warszawa 1976, PWN.

Walesiak M., Propozycja rodziny miar odległości struktur

udziałowych, "Wiadomości Statystyczne", 1983, nr 10.

Walesiak M., Propozycja wska~nika odległości struktur pro- stych udziałowych, Prace Naukowe AE we Wrocławiu (przyjęte

do druku).

(11)

19 DlSTANCR

~ASURBS

FOR FRACTlONAL STRUCTURKS Csumma:r3)

The pape:r 1s the oomp:rehens1ve d1scuss1on of the d1stanoe measures for f:raot1onal struotures p:roposed b3 the autho:r and presentat1on of new proposale (see measures (7) and (8)). It also oonta1ns some praot1cal adv1oes ooncern1ng the object1ve oho1oe of metr1os. One o! the tool whioh 1s helpful in th1s oho1ce, are the relat1ons between the metrias (9)-(14), presen- ted as the 1nequal1t1es (15)-(17), fixed and proved by the

a~

thor.

MESUR&S DRS DISTANCBS D&S

STRUCT~S

FRACTIONNAIRES (Risumt!)

L'art1ole est la d1scuss1on s,yntheti.que sur les mesures des distances des struotures fraot1onna1res

propos~es

par l'auteur, avec la presentat1on de nouvelles propositiona (voir: mesures (7) et (a». 11 donne aussi. les i.ndioations pratiques conoerna- nat le ohoix objeotif de la metrique. L'un des 1nstruments ut1- les dana oe ohoix, sont les relations entre les metriques (9)- -(14),

pr~sentees

comme des inegalitt!es, fixees et prouvees par l 'auteur.

MEPbl PACCTOHHJ..iH .UOJIEBbiX CTPYKTYP (PealOlle)

B

CT8Tb8 ITOMe~aeTCff CMHT6THqecKOe 06cy~~eHHe rrpeAnara-

ew~X aBTopoM Mep paccTOHHHR ~oneB~x cTpyKTYP ~ ~a~TCH HOB~e

npe~R036HWR (CM, Mep~ O ~OpMynax

/7/

H

/8/),

B

cTaTbe ~aiDTCH TaKxe rrpaKTHqecKHe yKaaaHHR Kaca~~HecR 06~eKTWBW38U~H B~6opa MeTpHKH ITpHHffTO~ B HCCn810B8HHH,

0~HHM H3 HHCTpyM8HTOB1 TIOUara~~HX B pemeHHH 3TO« 3~8qM RBXH- IOTCH yCT8HOBR811H~e H ~OK838HH~e 8BTOpOW 38BHCHUOCTH uea.zcy M€:TpHK8MH

/9/- /14/,

npe~CT8BReHH~Io!H B BH~e H8p8B811CTB8

udzial J-tego elementu w oa-

to otrsymujemy struktur•

r. Fo tej transfor- macji katda akladowa arj

udzial J-tego elementu w oa-

wszystkich

wektora (1).

dany zbiór obiektów badania

do konstruk-

maciersy obserwacji (w ktÓrej

wiersz stanowi

obiektu r)s

arj -

j-tego elementu w strukturze obiektu r;

r,

n (liczba badanych

J =

2, ••• , k (liczba elementów struktury).

Dla struktur

o

prawdziwe

relacjel

o

arj

[ arj

n k

L L arj • n.

r•l

Tablica

rótne

struktur wraa a podaniem

W

od tego,

z

sa

rótne postacie miar o numerach

(8), {9) i {10). W praktyce za

przyjmuje s1•

dwie

p

otrzymamy bardzo cie-

aytuaoj,, gdyt m

ary z tablicy 1 o numerach (7) - (10)

postaó, a mianowiciel

L~ l•rj -··J 1· r

l f

[ l

.t·t

L~ IJ -

[jt, 13 -

.~.j ~·

L~, 1 ·~j - ·~j 1]

L l

l·

<

ff).

> ,

(11)- (16).

L l ar/ - as/ l <

L l

l•

13

]i

[

2

[ L l

l

LI

a/l] '

,

'\'f

ł łl 2

j~ I··J· -·./- <. [ b I··J -··J J ·

[4],

[e].

t l

~­

t l

11

2 _

l

[ ^arj

L~ l•rj -··J ^1· r

L~ ^{IJ -}

^{.~.j ~·}

L~, ¹ ·~j - ·~j ^1]

L l ar/ - as/ ^l ^<

²

[ ^L ^l

^{ł łl} ²

j~ I··J· -·./- ^<. [ b I··J -··J ^{J ·}

t ^l

~

t ^l

^j-,_ l ^~

' l a _w

LI ^{( a r / -}

^t/> ⁺ ^(at/