PRACE NAUKOWE AKADEMII EKONOMICZNEJ WE WROCŁAWIU
Nr l 022 2004
TAKSONOMIA li
Klasyfikacja i analiza danych- teoria i zastosowania
Marek Walesiak
Akademia Ekonomiczna we Wrocławiu
UOGÓLNIONA MIARA ODLEGLOŚCI
DLA OBIEKTÓW OPISANYCH ZMIENNYMI Z RÓŻNYCH SKAL POMIARU- OPROGRAMOW ANIE KOMPUTEROWE
l.
WstępW pracy Walesiaka 12002a] zaproponowano
uogólnioną miarę odległościGDM (Tite Generalised Disrance Measure), w konstrukcji której wykorzystano
ideęuogólnionego
współczynnikakorelacji
obejmującego współczynnikkorelacji li- niowej Pearsona i
współczynnikkorelacji tau Kendalla (zob. [Kendall, Buckland
1986, s. 266: Kendall 1955, s. 19]):
l ' (l)
". Ił "' 11 2
2 L:2:w 1 a~ ·L:L:w,b~
J l /-1 l l l l
gdzie: diJ;
(s,k)-miara
odległości (podobieństwa) nilędzy obieklamiĄ,Ą (sitE [-1; l]).
w - wagaj-tej zmiennej spełniająca warunki
1:w, . E (0;
m),~"' w
1.=
1n,l ~jwl
i,k,l = J.. .. ,n -numer obiektu, j = l, ... ,m -numer zmiennej.
Szczegółową charakterystykę
miary
(l)oraz rezultaty eksperymentów symula- cyjnych
pozwalających ocenićzachowanie
sięuogólnionej miary
odległościGDM przy
różnychstrukturach danych
zawierająprace: [Walesiak 2002b; Walesiak.
Bąk,
Jajuga 2002: Jajuga, Walesiak,
Bąk20031.
1 Motliwe jest stosowanie wag spełniających warunki:
w
1 e (O; l). " • L-,,, .• w1=
l .Stosowanie konkretnych konstrukcji miar
odległości(l) jest
uzależnioneod skal pomiaru zmiennych. Dla zmiennych mierzonych na skali ilorazowej i (lub)
interwałowej
w fonnule
(1)stosowane Jest podstawienie:
aw
= xv - .x.PJdla
p=k. l
bl;rj =x*' -xti dla r =i,
l •gdzie: xil
(x9,x
11)-i-ta (k-ta, l-ta) obserwacja naj-tej zmiennej
(2)
Zasób infonnacji skali
porządkowejjest nieporównanie mmejszy.
Jedynądo-
puszczalną operacją empiryczną
na skali
porządkowejjest zliczanie
zdarzeń(tzn.
wyznaczanie liczby relacji
większości, mniejszościi
równości).W
związkuz tym w konstrukcji miernika
odległościmusi
byćwykorzystana infonnacja o relacjach, w jakich
pozostająporównywane obiekty w stosunku do
pozostałychobiektów ze zbioru
A.Dla zmiennych mierzonych na skali
porządkowejw fonnule
(l)stosuje
s1ę
podstawienie [Walesiak 1993, s. 44-45]:
l i dla xi/ >
xl'l (x.~;~ >
x1 )
a~(b1ti)= O dla xil=xP
1(x
41=x,
1},dlap=k,/; r=i.l.
- l d)
a
Xq<
X Pi (X"q<
Xlj)(3)
Wtedy w mianownik'"ll wzoru
(l)p1erwszy czynnik oznacza
hczbęrelacji
większości
i
mniejszości określonądla obiektu i, czynnik drugi
zaś hczbęrelacji
większości
i
mniejszości określonądla ob1ektu k.
Zasób infonnacji skali nominalneJ zezwala na zliczanie
zdarzeń.tzn. wyzna- czanie liczby relacji
równościi
różności.W
związkuz tym w konstrukcJi miernika
odległości
mus1
byćwykorzystana tego typu infonnacja. W mianowniku wzoru
(l)czynniki iloczynu
oznaczają liczbęrelacji
równościi
różności określonądla obiek-
m n "' n
tu i oraz k, zatem l: L w
1a! =L: L: w 1 b~
=m(n l) .
i l l l i-1 l ·l
Dla zmiennych mierzonych na skal i nominalnej w fonnule (l) stosuje
siępod- stawienia (zob. fWalesiak 2003]):
a) dla porównywanych obiektów
i,k
[l
dla x" =xą
a ·b -
•IQ tv - -
l dla
XiJ -.e XAI 'b) dla
pozostałychobiektów
(l=I, ... ,n;l = i,k) l dla
(4)
(5)
Jeśli
w zbiorze
znajdują siętylko zmienne nomina lne wielostanowe,
formuła(l) z podstawienirum (4) i (5) przyjmuje
postać:~.,
w.d
111 ~"'w d
111 LJ j -J J Ił=
LJ j l j fłL:7
1wJm
(6) gdzie: dJj
1 określonewzorem:
d
Ił C/ l --gdy
międzyobiektami dla wyników pomiaru O na zmiennejj-tej zachodzi relacja równości
gdy
międzyobiektami dla wyników pomiaru na zmiennej j-tej zachodzi relacja
różności2. Miara
odległości GDMdla obiektów opisanych zmiennymi z
różnych skałpomiaru
(7)
Konstrukcja miary
odległości dił.,która
umożliwia uwzględmeniew badaniach zmiennych mierzonych na skalach ilorazowej
(R). przedziałowej (!), porządkowej(0) oraz nominalnej (N), bazuje na propozycji zawanej w pracy [Bock, Diday i in.
2000, s. 152]:
w
1diJ.v + w 2 d~ + K)d~ + w .A~
d
11(8)
"'J + w
2+ w
3+
w~gdzie: N (0, l, R) - podzbiór zmiennych nominalnych
(porządkowych. przedziałowych, ilorazowych),
d:. d~ -miara
odległości(l) z podstawieniem (2),
d,~-miara
odległości (l)z podstawieniem (3), d: - miara
odległości (l)z podstaw ieniami (4) i (5).
w
1(w
2,wJt w
4 )-wagi przypisane
odległościomwyznaczonym na podstawie zmiennych nominalnych
(porządkowych, przedziałowych,ilorazowych),
w
1•w
2 ,w
1,w
4E (O, m); w, +
w2+ w
3+ w
4= m (liczba zmiennych).
Wagi w"
w2•w
3,w
4 mogą oznaczać liczbęzmiennych w poszczególnych pod- zbiorach lub
merytoryczną ważnośćposzczególnych podzb1 orów zmiennych w wyznaczeniu miary
odległościd,t: o postaci (8).
Formuła
o postaci (8)
uśrednia odległości cząstkowewyznaczone na podstawie poszczególnych podzbiorów zmiennych (nominalnych,
porządkowych. interwałowych i ilorazowych). Miara
odległościdiic o postaci (8):
-może być
stosowana w sytuacji. gdy obiekty opisane
sązmiennymi mierzo-
nymi na skali ilorazowej.
interwałowej, porządkoweJoraz nominalnej,
.. ·-··· ---·- -
.-przybiera
wanośc1z
przedziału[0; lJ.
WanośćO oznacza.
żedla porównywa- nych obiektów i, k
między odpowiadającymisobie obserwacJami na zmiennych
zachodzą
tylko relacje
równoścL-spełnia
warunki:
nieujemności, zwrotności. symetryczności(d la wszystkich i,k = l, ...
,n).- IstnieJe przynajmniej jedna para obiektów w zbiorze badanych obiektów
A,dla której obserwacje na zmiennych nie
sąidentyczne (dla
uniknięciazera w mia- nowniku d,~, d,~. d:),
-nie zmienia
wartościw wyniku transformacji
wartościzmiennych za
pomocądozwolonego na danej skali
przekształceniamatematycznego (na skali nominalnej:
funkcja wzajemnie jednoznaczna: na skali
porządkowej:dowolna
ściślemonoto- nicznie
rosnącafunkcja; na skali
interwałowej:funkcja liniowa; na skali ilorazo- weJ: funkcJa liniowa jednorodna).
3. Charakterystyka programu komputerowego dla uogólnionej miary
odległości GDMProgram komputerowy
GDM2dla uogólnionej miary
odległości.napisany w
języku C++, pracuje
wsystemie operacyjnym Windows 95/98/ME/2000/XP. Do-
stępna
jest polska oraz angielska wersja
językowaprogramu
GDM.W wersji 2.0 program
GDM umoż.liwia realizację następujących zadańobliczeniowych;
-obliczenie macierzy
odległości międzyobiektami opisanymi zmiennymi tylko z jednej skali pomiaru lub z
różnychskal pomiaru (rezultatem jest symetryczna macierz
odległości),-obliczenie macierzy
odległości międzyobiektami ze specjalnymi polami wy- maganymi w programie SPSS oraz obliczenie macierzy
odległości międzyobiek- tami w formacie programu S-PLUS (program
GDM umożliwia więc współpracę,w trybie off-line, z pakietem statystycznym SPSS i S-PLUS),
- liniowe
uporządkowanieobiektów (rezultatem jest wektor
odległościobiek- tów od wzorca).
-
uwzględnienieskal pomiaru zmiennych (nominalna,
porządkowa,przedzia-
łowa,
ilorazowa),
-normalizację
zmiennych dla skali
prLedziałowejoraz ilorazowej.
-definiowanie wag zmiennych (jednakowych i
zróżnicowanych).- definiowanie
współrzędnychwzorca (z
uwzględnieniemzmiennych o charak- terze stymulant,
destymułanti nominant) w przypadku liniowego
porządkowaniaobiektów.
: Koncepcja programu GDM została opracowana przel M. Walesiaka i A. Bąka. Autorem podsta-
wowego kodu programu w języku
c-
jest A. Bąk.Program korzysta z danych zapisanych w plikach (tabelach) baz danych standardu
DBF
(dBase, FoxPro)
łub DB(Paradox). Dane do
obliczeń mogą byćczytane z plików
DBF
lub
DB,natomiast wszystkie wyniki
obliczeńoraz nowo tworzone tabele danych
sązapisywane w fonnacie
DBF5 . W celu przeniesienia wyników
obliczeńz programu
GDM
do innych programów (np. Microsoft® Word 97/ 2000/2002; Microsoft®
Exceł97/2000/2002)
należy zastosować następujące postępowanie:l) plild zapisane w programie
GDM naJeży otworzyćw programie Microsoft®
Access 2000/2002,
2) w programie Microsoft® Access 2000/2002 z listy
poleceńPlik
należywy-
brać
Pobierz dane
zewnętrzne.a
następnieImportuj,
3) zaimportowany plik z programu
GDM możnaw programie Microsoft® Ac- cess 2000/2002
wyeksportować(Piik l Eksportuj ... ) w jednym z oferowanych formatów, a
następnie odczytaćw odpowiednim programie. Istnieje
też możliwośćprzeniesienia (skopiowania)
zawartościpliku z programu Microsoft® Access 2000/2002 do innego programu za
pomocąSchowka Windows.
Po uruchomieniu programu
GDM wyświetJanejest okno
główne,w k1órym do-
stępne są
listy
poleceń:Plik, Edycja,
Odległości,Okno i Pomoc. W celu
rozpoczęcia pracy z programem
należy otworzyćplik
zawierającydane lub
utworzyć nową tabelę,do której dane
zostanąwprowadzone. Gdy obiekty opisane
sązmiennymi mierzonymi na
różnych skałachpomiaru,
naJeżyz listy
poleceń Odległości wybrać modułobliczeniowy
Międzyobiektami l Zmienne z
różnychskal (zob. rys. l).
Rys. l. Olcno dialogowe Odległości między obiektami- zmienne z różnych skal
W oknie tym
dostępne są następującezestawy opcji
słu1.ącedo skonfigurowania sposobu obliczania macierzy
odległości wedługwzoru
(8):• Skale pomiaru zmiennych. Zestaw ten
umożliwiazaklasyftkowanie zmiennych do odpowiednich skal pomiaru;
• Wagi zmiennych. Zestaw ten
umożliwiawybór sposobu
ważeniazmien- nych. Istnieje
możliwośćzdefiniowania wag jednakowych i zrótnicowanych dla poszczególnych zmiennych;
• Normalizacja zmiennych. Zestaw ten
umożliwiaprzeprowadzenie norma- lizacji
wartościzmiennych w celu sprowadzenia ich do
porównywalności.Trans-
formację normalizacyjną
stosuje
sięwówczas. gdy zmienne mierzone
sąna skali
przedziałowej
i ilorazowej. W odniesieniu do skali nominalnej i
porządkowejnie zachodzi potrzeba normalizacji. na ich
wartościachbowiem nie wyznacza
sięani relacji
równości różnici
przedziałów.ani stosunków;
• Wagi
odległości.Zestaw ten
umożliwiawybór sposobu
ważenia odległościwyznaczonych na podstawie poszczególnych podzbiorów zmiennych z
różnychskal pomiaru (zob.
wyjaśnieniado wzoru (8));
• Macierz
odległościzapisz w pliku - pole wyboru
umożliwiającezapisanie w pliku macierz}
odległościwyznaczonej za
pomocąmiary
GDMo postaci (8).
4 . Uwagi
końcoweW artykule scharakteryzowano
uogólnioną miarę odległości GDM(The Genera- lised Disrance Measure), która
umożliwia uwzględnieniew badaniach zmiennych mierzonych na skalach ilorazowej, przedziaJowej,
porządkowej 1nominalnej. Na-
stępnie
zaprezentowano
wersjęmiary
GDM umotliwiającąpomiar
podobieństwaobiektów opisanych zmiennymi mierzonymi na
różnychskalach pomiaru. Dodat- kowo w prezentowanym opracowaniu scharakteryzowano
możliwościprogramu komputerowego
GDMw wersji 2.0 oraz zaprezentowano opis tej
częściprogramu komputerowego, który pozwala
obliczaćmacierz
odległości międzyobiektami opi- sanymi zmiennymi z rótnych skal pomiaru
wedługwzoru (8). Program
dostępnyjest na stronie: http: l /www. a.e. jgora.. pllkei i/ forml. htrnl.
Literatura
Bock H.H .. Diday E. (Eds.), Analysis of Symbolic DaJ a, Springer-Verlag, Berlin, Heidelberg 2000.
Jajuga, K .• Walesiak, M.,
Bąk.A.,
Onrhe
GenerałDisrance Measure,
[In:]M. Schwaiger, O. Opitz (Eds.), Exploratory Data Analysis in Empirical Re-
search, Springer-Verlag, Berlin, Heidelberg 2003. s. 104-109.
Kendall M.G., Rank Correlation Methods,
Gńffin,London 1955.
Kenelali M.G .. Buckland W.R.,
Słownikterminów
statystycZJ~ych,PWE, Warszawa 1986.
Walesiak M .• StatystycVta
anali~awielowymiarowa w badaniach marketingowych.
Prace Naukowe Akademit Ekonomicznej nr 654, Sena: Monografie i Opraco- wania
nr101, AE,
Wrocław1993.
Walesiak M .• Propozycja uogólnionej miary
odległościw statystycznej analizie wie- lowymiarowej, (w:] Statystyka regionalna w
służbie samorząduLokalnego i bizne- su, red. J. Paradysz, Internetowa Oficyna Wydawnicza, CenLrum Statystyki Re- gionalnej, Akademia Ekonomiczna,
Poznań2002(a), s. 115-121.
Walesiak M., Uogólniona miara
odległościw statystycznej analizie wielowymia- rowej. Akademia Ekonomiczna,
Wrocław2002(b).
Walesiak M .. Miara
odległościobiektów opisanych vniemtymi mierzonymi na
różnych skalach pomiaru, XXXIX Konferencja Ekonometryków, Statystyków i Matematyków Akademii Ekonomicznych
Wrocławia,Krakowa i Katowic.
Lądek Zdrój, 2-5 marca 2003. Akademia Ekonomiczna,
Wrocław2003.
Walesiak M.,
BąkA., ODMfor Windows. Version 2.0, 2003.
Walesiak M.,
BąkA., Jajuga K., Uogólniona miara
odległosci- badania symula-
C)~ne.