PRACE NAUKOWE AKADEMII EKONOMICZNEJ WE WROCLAWIU
Nr 988 2003
TAKSONOMIA lO
Klasyfikacja i analiza danych - teoria i zastosowania
Marek Walesiak
Akademia Ekonomiczna we Wrocławiu
UOGÓLNIONA MIARA ODLEGLOŚCI GDM JAKO SYNTETYCZNY MIERNIK ROZWOJU W METODACH PORZĄDKOWANIA LINIOWEGO I
1. Wprowadzenie
W pracy Walesiaka [2000] zaproponowano uogólnioną miarę odległości ODM (The Oeneralised Distance Measure), w konstrukcji której wykorzystano ideę
uogólnionego współczynnika korelacji obejmującego współczynnik korelacji li
niowej Pearsona i współczynnik tau Kendalla:
m m
IIL:
Wjaikjbkij+ L:L:
wjaiijbkJjj=1 j=1 1=1
1
I;<i,kd
ik= ( I-Sik )/ 2=--
1(1)
2
m i l m i l1 2
2 ~~Wja~j' ~~Wjb~j
gdzie: d ik (Sik) - miara odległości (podobieństwa), i, k, 1=1, ..., n - numer obiektu,
j = 1, ... , m - numer zmiennej,
m
w. - wagaj-tej zmiennej spełniająca warunki: w
jE (O; m), L:W
j= m.
J ~
Dla zmiennych mierzonych na skali ilorazowej i (lub) przedziałowej w formule (1) stosowane jest podstawienie:
1
Pracę wykonano częściowo w ramach projektu badawczego nr 5 H02B 03021 finansowanego przez Komitet Badań Naukowych w latach 2001-2003.
134
ajpj = Xij - xpj dla p = k,1 bkrj = Xkj-Xrj dla r=i,l' (2)
gdzie: xii (xA;i,xij) - i-ta (k-ta, l-ta) obserwacja naj-tej zmiennej.
Zasób informacji skali porządkowej jest nieporównanie mniejszy. Jedyną do
puszczalną operacją empiryczną na skali porządkowej jest zliczanie zdarzeń (tzn.
wyznaczanie liczby relacji większości, mniejszości i równości). W konstrukcji miernika odległości musi być wykorzystana informacja o relacjach, w jakich pozo
stają por6wnywane obiekty w stosunku do pozostałych obiektów ze zbioru A. Dla zmiennych mierzonych na skali porządkowej w formule (1) stosuje się podstawie
nie (Walesiak [1993], s. 44-45):
dla xij > xpj (xkj > xrj )
dla xij = xpj (xkj = Xrj)' dla p = k, I; r = i, I. (3) aiPj(bkrj)=! ~
-1 dla xij <xpi (XA;j <Xrj)
W mianowniku wzoru (1) pierwszy czynnik oznacza liczbę relacji większości i
mniejszości określoną dla obiektu i, czynnik drugi zaś liczbę relacji większości i
mniejszości określoną dla obiektu k.
Miary o postaci (1) nie można stosować bezpośrednio, gdy zmienne są mierzo
ne jednocześnie na różnych skalach. Zastosowanie miary (1) z podstawieniem (3)
rozwiązuje częściowo ten problem, ale wtedy zostaje osłabiona skala pomiaru dla zmiennych mierzonych na skali przedziałowej i (lub) ilorazowej (przekształcone zostają one w zmienne porządkowe, ponieważ w obliczeniach uwzględniane są
tylko relacje większości, mniejszości i równości).
Własności oraz rezultaty badań symulacyjnych miary (1) zawierają m.in. prace:
Walesiak [1999]; Walesiak, Bąk i Jajuga [2002]; Jajuga, Walesiak i Bąk [2001];
Walesiak [2002].
2. Obszary zastosowań uogólnionej miary odległości GDM
Uogólniona miara odległości GDM w badaniach z zakresu statystycznej analizy wielowymiarowej wykorzystywana jest:
-do wyznaczenia macierzy odległości w procesie klasyfikacji obiektów (np.
konsumentów),
- jako syntetyczny' miernik rozwoju w metodach porządkowania liniowego obiektów (np. produktów).
Wykorzystanie niektórych metod statystycznej analizy wielowymiarowej (me
tody klasyfikacji, skalowanie wielowymiarowe) wymaga obliczenia i wyznaczenia
za pomocą miar odległości macierzy odległości obiektów. Wyznaczenie macierzy
odległości stanowi jeden z etapów zastosowania niektórych metod klasyfIkacji. W pracy Gordona ([1999], s. 7) przedstawiono etapy postępowania w procesie klasy
fIkacji obiektów (zob. rys. 1).
W wyniku zastosowania niektórych metod statystycznej analizy wielowymia
rowej (metody podziału, metody klasyfIkacji hierarchicznej, metody wizualizacji
skalowanie wielowymiarowe, analiza korespondencji) otrzymuje się podział zbioru obiektów na klasy.
3. Konstrukcja syntetycznego miernika rozwoju wykorzystującego uogólnioną miarę odległości GDM
Zadaniem metod porządkowania liniowego zbioru obiektów jest uszeregowanie, czyli ustalenie kolejności obiektów lub ich zbiorów według określonego kryterium.
Metody te mogą być zatem stosowane wtedy, gdy można przyjąć pewne nadrzędne
kryterium, ze względu na które będzie można uporządkować obiekty od ,,najlep
szego" do ,,najgorszego". Narzędziem metod porządkowania liniowego jest synte
tyczny miernik rozwoju (SMR), będący pewną funkcją agregującą informacje
cząstkowe zawarte w poszczególnych zmiennych i wyznaczoną dla każdego
obiektu ze zbioru obiektów A.
Zbiór obiektów
Macierz danych
Znonnalizowana
r.:::---~macierz danych
~----,....---'Metody podziału
skalowanie wielowymiarowe, Metody prezentacji graficznej
(wizualizacji) - m.in.
analiza korespondencji
Rys. l. Etapy
postępowaniaw procesie klasyfikacji obiektów Źródło: opracowano na podstawie pracy Gordona ([1999], s. 7).
W odniesieniu do zagadnienia porządkowania liniowego wypracowano wiele
konstrukcji SMR. Omówienie różnych konstrukcji SMR przedstawiono m.in. w
pracach: (Bąk [1999], s. 60-64); (Walesiak [1990]); (Walesiak [1996], s. 127-129).
Konstrukcja syntetycznego miernika rozwoju wykorzystującego uogólnioną miarę odległości GDM składa się z następujących etapów:
• punktem wyjścia jest macierz danych [xii]' gdzie xii oznacza wartość j-tej zmiennej w i-tym obiekcie;
• nominanty (N) zostają przekształcone na stymulanty za pomocą formuł:
-ilorazowa (dla zmiennych mierzonych na skali ilorazowej):
min{nomj;x:}
X .. = N '
l)
max{nomj;xjj }
gdzie: x: - wartość j-tej nominanty zaobserwowana w i-tym obiekcie, nom
j -nominalny poziomj-tej zmiennej.
Stymulanty uzyskane w wyniku tego przekształcenia mierzone są na skali ilora
zowej.
-różnicowa (dla zmiennych mierzonych na skali przedziałowej i (lub) ilorazowej):
Xii =-\x: -nom
j \.Stymulanty uzyskane w wyniku tego przekształcenia mierzone są na skali prze
działowej.
Nie zachodzi potrzeba zamiany destymulant na stymulanty .
• w obliczeniach z wykorzystaniem uogólnionej miary odległości (1) z podsta
wieniem (2), tzn. gdy zmienne mierzone są na skali ilorazowej i (lub) przedziało
wej, zachodzi potrzeba przeprowadzenia normalizacji wartości zmiennych. Zasto
sowanie miary (1) z podstawieniem (3) nie wymaga przeprowadzania normalizacji zmiennych. Dla zmiennych mierzonych na skali przedziałowej i (lub) ilorazowej zostaje osłabiona skala pomiaru (przekształcone zostają one w zmienne porządko
we, ponieważ w obliczeniach uwzględniane są tylko relacje większości, mniejszo
ści i równości);
• w przypadku zastosowania w formule (1) wag zróżnicowanych należy podać
wagi w
jspełniające warunki: w
jE (O; m), E:l w
j= m;
• wyznacza się odległości poszczególnych obiektów od obiektu wzorcowego za
pomocą uogólnionej miary odległości (1);
• obiektem-wzorcem w badaniach empirycznych jest na ogół tzw. dolny bądź
górny biegun rozwoju (por. Hellwig [1968]). Górny biegun rozwoju obejmuje naj
korzystniejsze wartości zmiennych (maksymalna dla stymulanty • minimalna dla destymulanty) dolny zaś najmniej korzystne wartości zmiennych (minimalna dla stymulanty, maksymalna dla destymulanty);
• relacją porządkującą elementy zbioru A jest relacja większości (dla dolnego bieguna rozwoju) lub relacja mniejszości (dla górnego bieguna rozwoju) dotycząca
liczbowych wartości syntetycznego miernika rozwoju o postaci (1).
137
Metody porządkowania liniowego można wykorzystać w badaniach marketin
gowych m.in. w analizie atrakcyjności rynku polegającej na ocenie możliwości ist
niejących (nowych) produktów w stosunku do produktów konkurencyjnych. Po
zwalają więc one określić pozycję produktu na rynku na tle produktów konkuren
cyjnych. Badania tego typu mogą być wykonywane również w odniesieniu do in
nych obiektów (np. przedsiębiorstw, krajów), ponieważ umożliwiają wyznaczenie pozycji badanego obiektu (obiektów) na tle obiektów konkurencyjnych.
4. Przykład zastosowania uogólnionej miary odległości GDM w rankingu wyższych uczelni w Polsce
W miesięczniku ,,Perspektywy" nr 4/2002 zaprezentowano ranking wyższych
uczelni w Polsce. W rankingu wyższych uczelni w Polsce do ich oceny wykorzy
stano 18 zmiennych podzielonych na trzy kategorie:
I. Prestiż:
Xii - preferencje pracodawców (liczba wskazań danej uczelni),
X i2 -
preferencje profesorów mianowanych w latach 2000-2001 (liczba wska
zań danej uczelni), II. Siła naukowa:
x
i3 -moc naukowa (liczba tytułów i stopni naukowych uzyskanych w 2001 ro
ku z wagami stosowanymi przez MENiS przy podziale dotacji budżetowej),
x
j4 -potencjał naukowy (średnia z kategorii nadanych przez KBN poszczegól
nym jednostkom uczelni),
x
jS -dobór jakościowy w rekrutacji na studia (liczba kandydatów na jedno
miejsce),
x/
6 -rozpiętość oferty kształcenia (liczba słuchaczy studiów doktoranckich i podyplomowych w przeliczeniu na ogólną liczbę studentów),
x
i7 -nasycenie kadr (procent kadry ze stopniem doktora habilitowanego lub
tytułem profesorskim w stosunku do ogólnej liczby nauczycieli akademickich) III. Warunki studiowania:
X i8 -
dostępność dla studentów wysoko kwalifikowanych kadr naukowych
(liczba przeliczeniowych nauczycieli akademickich - jednostki przeliczeniowe sto
sowane przez MEN w stosunku do liczby studentów przeliczeniowych),
X i9 -
zasoby biblioteczne (łączna liczba woluminów w bibliotece uczelnianej),
x
ilO -liczba tytułów prenumerowanych czasopism krajowych,
Xiii -
liczba tytułów prenumerowanych czasopism zagranicznych,
X il2 -
dostępność miejsc w czytelni (liczba miejsc w czytelniach w przeliczeniu
na 1 studenta przeliczeniowego),
Xi13 -
komputeryzacja biblioteki (stopień skomputeryzowania wypożyczalni,
katalogu oraz dostęp do baz danych),
X il4 -
wielokulturowość środowiska akademickiego (liczba studentów obco
krajowców w przeliczeniu na 1 studenta),
x
ilS -dostępność uczelni dla studentów pozamiejscowych (liczba miejsc w do
mach studenckich w przeliczeniu na 1 studenta studiów stacjonarnych),
Xjl6 -
możliwość rozwijania zainteresowań naukowych (liczba studenckich kół
naukowych w stosunku do liczby studentów studiów stacjonarnych),
x
iI7 -możliwość rozwijania zainteresowań kulturalnych (liczba organizacji stu
denckich, chórów i teatrów w stosunku do liczby studentów studiów stacjonar
nych),
X il8 -