N 02>24-8445'

(1)

PRACE NAUKOWE AKADEMII EKONOMICZNEJ WE WROCLAWIU

Nr 988 2003

TAKSONOMIA lO

Klasyfikacja i analiza danych - teoria i zastosowania

Marek Walesiak

Akademia Ekonomiczna we Wrocławiu

UOGÓLNIONA MIARA ODLEGLOŚCI GDM JAKO SYNTETYCZNY MIERNIK ROZWOJU W METODACH PORZĄDKOWANIA LINIOWEGO ^I

1. Wprowadzenie

W pracy Walesiaka [2000] zaproponowano uogólnioną miarę odległości ODM (The Oeneralised Distance Measure), w konstrukcji której wykorzystano ideę

uogólnionego współczynnika korelacji obejmującego współczynnik korelacji li

niowej Pearsona i współczynnik tau Kendalla:

m m

II

L:

Wjaikjbkij

+ L:L:

wjaiijbkJj

j=1 j=1 1=1

1

I;<i,k

d

ik

= ⁽ I-Sik )/ 2=--

¹

⁽¹⁾

2

^{m i l} ^{m i l}

1 ²

2 ~~Wja~j' ~~Wjb~j

gdzie: d ik (Sik) - miara odległości (podobieństwa), i, k, 1=1, ..., n - numer obiektu,

j = 1, ... , m - numer zmiennej,

m

w. - wagaj-tej zmiennej spełniająca warunki: w

j

E (O; m), L:W

^j

⁼ ^m.

J ~

Dla zmiennych mierzonych na skali ilorazowej i (lub) przedziałowej w formule (1) stosowane jest podstawienie:

1

Pracę wykonano częściowo w ramach projektu badawczego nr 5 H02B 03021 finansowanego przez Komitet Badań Naukowych w latach 2001-2003.

134

(2)

ajpj = Xij - xpj dla p = k,1 bkrj = Xkj-Xrj dla r=i,l' (2)

gdzie: xii (xA;i,xij) - i-ta (k-ta, l-ta) obserwacja naj-tej zmiennej.

Zasób informacji skali porządkowej jest nieporównanie mniejszy. Jedyną do

puszczalną operacją empiryczną na skali porządkowej jest zliczanie zdarzeń (tzn.

wyznaczanie liczby relacji większości, mniejszości i równości). W konstrukcji miernika odległości musi być wykorzystana informacja o relacjach, w jakich pozo

stają por6wnywane obiekty w stosunku do pozostałych obiektów ze zbioru A. Dla zmiennych mierzonych na skali porządkowej w formule (1) stosuje się podstawie

nie (Walesiak [1993], s. 44-45):

dla xij > xpj (xkj > xrj )

dla xij = xpj (xkj = Xrj)' dla p = k, I; r = i, I. (3) aiPj(bkrj)=! ~

-1 dla xij <xpi (XA;j <Xrj)

W mianowniku wzoru (1) pierwszy czynnik oznacza liczbę relacji większości i

mniejszości określoną dla obiektu i, czynnik drugi zaś liczbę relacji większości i

mniejszości określoną dla obiektu k.

Miary o postaci (1) nie można stosować bezpośrednio, gdy zmienne są mierzo

ne jednocześnie na różnych skalach. Zastosowanie miary (1) z podstawieniem (3)

rozwiązuje częściowo ten problem, ale wtedy zostaje osłabiona skala pomiaru dla zmiennych mierzonych na skali przedziałowej i (lub) ilorazowej (przekształcone zostają one w zmienne porządkowe, ponieważ w obliczeniach uwzględniane są

tylko relacje większości, mniejszości i równości).

Własności oraz rezultaty badań symulacyjnych miary (1) zawierają m.in. prace:

Walesiak [1999]; Walesiak, Bąk i Jajuga [2002]; Jajuga, Walesiak i Bąk [2001];

Walesiak [2002].

2. Obszary zastosowań uogólnionej miary odległości GDM

Uogólniona miara odległości GDM w badaniach z zakresu statystycznej analizy wielowymiarowej wykorzystywana jest:

-do wyznaczenia macierzy odległości w procesie klasyfikacji obiektów (np.

konsumentów),

- jako syntetyczny' miernik rozwoju w metodach porządkowania liniowego obiektów (np. produktów).

Wykorzystanie niektórych metod statystycznej analizy wielowymiarowej (me

tody klasyfikacji, skalowanie wielowymiarowe) wymaga obliczenia i wyznaczenia

za pomocą miar odległości macierzy odległości obiektów. Wyznaczenie macierzy

(3)

odległości stanowi jeden z etapów zastosowania niektórych metod klasyfIkacji. W pracy Gordona ([1999], s. 7) przedstawiono etapy postępowania w procesie klasy

fIkacji obiektów (zob. rys. 1).

W wyniku zastosowania niektórych metod statystycznej analizy wielowymia

rowej (metody podziału, metody klasyfIkacji hierarchicznej, metody wizualizacji

skalowanie wielowymiarowe, analiza korespondencji) otrzymuje się podział zbioru obiektów na klasy.

3. Konstrukcja syntetycznego miernika rozwoju wykorzystującego uogólnioną miarę odległości GDM

Zadaniem metod porządkowania liniowego zbioru obiektów jest uszeregowanie, czyli ustalenie kolejności obiektów lub ich zbiorów według określonego kryterium.

Metody te mogą być zatem stosowane wtedy, gdy można przyjąć pewne nadrzędne

kryterium, ze względu na które będzie można uporządkować obiekty od ,,najlep

szego" do ,,najgorszego". Narzędziem metod porządkowania liniowego jest synte

tyczny miernik rozwoju (SMR), będący pewną funkcją agregującą informacje

cząstkowe zawarte w poszczególnych zmiennych i wyznaczoną dla każdego

obiektu ze zbioru obiektów A.

Zbiór obiektów

Macierz danych

Znonnalizowana

r.:::---~

macierz danych

~----,....---'

Metody podziału

skalowanie wielowymiarowe, Metody prezentacji graficznej

(wizualizacji) - m.in.

analiza korespondencji

Rys. l. Etapy

postępowania

w procesie klasyfikacji obiektów Źródło: opracowano na podstawie pracy Gordona ([1999], s. 7).

W odniesieniu do zagadnienia porządkowania liniowego wypracowano wiele

konstrukcji SMR. Omówienie różnych konstrukcji SMR przedstawiono m.in. w

pracach: (Bąk [1999], s. 60-64); (Walesiak [1990]); (Walesiak [1996], s. 127-129).

(4)

Konstrukcja syntetycznego miernika rozwoju wykorzystującego uogólnioną miarę odległości GDM składa się z następujących etapów:

• punktem wyjścia jest macierz danych [xii]' gdzie xii oznacza wartość j-tej zmiennej w i-tym obiekcie;

• nominanty (N) zostają przekształcone na stymulanty za pomocą formuł:

-ilorazowa (dla zmiennych mierzonych na skali ilorazowej):

min{nomj;x:}

X .. = N '

l)

max{nomj;xjj }

gdzie: x: - wartość j-tej nominanty zaobserwowana w i-tym obiekcie, nom

j -

nominalny poziomj-tej zmiennej.

Stymulanty uzyskane w wyniku tego przekształcenia mierzone są na skali ilora

zowej.

-różnicowa (dla zmiennych mierzonych na skali przedziałowej i (lub) ilorazowej):

Xii =-\x: -nom

^{j \.}

Stymulanty uzyskane w wyniku tego przekształcenia mierzone są na skali prze

działowej.

Nie zachodzi potrzeba zamiany destymulant na stymulanty .

• w obliczeniach z wykorzystaniem uogólnionej miary odległości (1) z podsta

wieniem (2), tzn. gdy zmienne mierzone są na skali ilorazowej i (lub) przedziało

wej, zachodzi potrzeba przeprowadzenia normalizacji wartości zmiennych. Zasto

sowanie miary (1) z podstawieniem (3) nie wymaga przeprowadzania normalizacji zmiennych. Dla zmiennych mierzonych na skali przedziałowej i (lub) ilorazowej zostaje osłabiona skala pomiaru (przekształcone zostają one w zmienne porządko

we, ponieważ w obliczeniach uwzględniane są tylko relacje większości, mniejszo

ści i równości);

• w przypadku zastosowania w formule (1) wag zróżnicowanych należy podać

wagi w

j

spełniające warunki: w

j

E (O; m), E:l ^w

^j

⁼ ^m;

• wyznacza się odległości poszczególnych obiektów od obiektu wzorcowego za

pomocą uogólnionej miary odległości (1);

• obiektem-wzorcem w badaniach empirycznych jest na ogół tzw. dolny bądź

górny biegun rozwoju (por. Hellwig [1968]). Górny biegun rozwoju obejmuje naj

korzystniejsze wartości zmiennych (maksymalna dla stymulanty • minimalna dla destymulanty) dolny zaś najmniej korzystne wartości zmiennych (minimalna dla stymulanty, maksymalna dla destymulanty);

• relacją porządkującą elementy zbioru A jest relacja większości (dla dolnego bieguna rozwoju) lub relacja mniejszości (dla górnego bieguna rozwoju) dotycząca

liczbowych wartości syntetycznego miernika rozwoju o postaci (1).

137

(5)

Metody porządkowania liniowego można wykorzystać w badaniach marketin

gowych m.in. w analizie atrakcyjności rynku polegającej na ocenie możliwości ist

niejących (nowych) produktów w stosunku do produktów konkurencyjnych. Po

zwalają więc one określić pozycję produktu na rynku na tle produktów konkuren

cyjnych. Badania tego typu mogą być wykonywane również w odniesieniu do in

nych obiektów (np. przedsiębiorstw, krajów), ponieważ umożliwiają wyznaczenie pozycji badanego obiektu (obiektów) na tle obiektów konkurencyjnych.

4. Przykład zastosowania uogólnionej miary odległości GDM w rankingu wyższych uczelni w Polsce

W miesięczniku ,,Perspektywy" nr 4/2002 zaprezentowano ranking wyższych

uczelni w Polsce. W rankingu wyższych uczelni w Polsce do ich oceny wykorzy

stano 18 zmiennych podzielonych na trzy kategorie:

I. Prestiż:

Xii - preferencje pracodawców (liczba wskazań danej uczelni),

X i2 -

preferencje profesorów mianowanych w latach 2000-2001 (liczba wska

zań danej uczelni), II. Siła naukowa:

x

i3 -

moc naukowa (liczba tytułów i stopni naukowych uzyskanych w 2001 ro

ku z wagami stosowanymi przez MENiS przy podziale dotacji budżetowej),

x

j4 -

potencjał naukowy (średnia z kategorii nadanych przez KBN poszczegól

nym jednostkom uczelni),

x

jS -

dobór jakościowy w rekrutacji na studia (liczba kandydatów na jedno

miejsce),

x/

6 -

rozpiętość oferty kształcenia (liczba słuchaczy studiów doktoranckich i podyplomowych w przeliczeniu na ogólną liczbę studentów),

x

_{i7 -}

nasycenie kadr (procent kadry ze stopniem doktora habilitowanego lub

tytułem profesorskim w stosunku do ogólnej liczby nauczycieli akademickich) III. Warunki studiowania:

X i8 -

dostępność dla studentów wysoko kwalifikowanych kadr naukowych

(liczba przeliczeniowych nauczycieli akademickich - jednostki przeliczeniowe sto

sowane przez MEN w stosunku do liczby studentów przeliczeniowych),

X i9 -

zasoby biblioteczne (łączna liczba woluminów w bibliotece uczelnianej),

x

_{ilO -}

liczba ^tytułów prenumerowanych czasopism krajowych,

Xiii -

liczba tytułów prenumerowanych czasopism zagranicznych,

X il2 -

dostępność miejsc w czytelni (liczba miejsc w czytelniach w przeliczeniu

na 1 studenta przeliczeniowego),

(6)

X_{i13 -}

komputeryzacja biblioteki (stopień skomputeryzowania wypożyczalni,

katalogu oraz dostęp do baz danych),

X il4 -

wielokulturowość środowiska akademickiego (liczba studentów obco

krajowców w przeliczeniu na 1 studenta),

x

ilS -

dostępność uczelni dla studentów pozamiejscowych (liczba miejsc w do

mach studenckich w przeliczeniu na 1 studenta studiów stacjonarnych),

Xjl6 -

możliwość rozwijania zainteresowań naukowych (liczba studenckich kół

naukowych w stosunku do liczby studentów studiów stacjonarnych),

x

_{iI7 -}

możliwość rozwijania zainteresowań kulturalnych (liczba organizacji stu

denckich, chórów i teatrów w stosunku do liczby studentów studiów stacjonar

nych),

X il8 -

wspieranie absolwentów (posiadanie przez uczelnię biura kariery lub

ośrodka promocji studentów).

Dane dotyczące 75 wyższych uczelni w Polsce z roku 2002 zaprezentowane na s. 52-53 rankingu ,,Perspektyw". Zawarte są tam przekształcone wartości 18 zmiennych spełniające postulat jednolitej preferencji.

Konstrukcja syntetycznego miernika rozwoju wykorzystującego uogólnioną miarę odległości GDM składa się z następujących etapów:

• w obliczeniach wykorzystano uogólnioną miarę odległości (1) z podstawieniem (2). Z uwagi na to, że ostatnia zmienna mierzona jest na skali porządkowej, przyjęto założenie, że wyniki pomiaru pochodzą ze skali co najmniej przedziałowej.

• w celu sprowadzenia zmiennych do porównywalności zastosowano formułę

normalizacji: zij = xij jm'fX{xjj} ,

• w opracowaniu z miesięcznika ,,Perspektywy" wykorzystano wagi zróżnico

wane spełniające warunki: w

j

E (O; 100%), L: 7=1

^Wj

= 100%. Dla potrzeb for

muły (1) przekształcono je tak, aby wagi w

j

spełniały warunki: w

j

E (O; m), ,,~ w,, =m (zob. tab. 1),

L.."

,=1

• wyznaczono odległości poszczególnych obiektów od obiektu wzorcowego za miary GDM (1),

• za obiekt-wzorzec przyjęto w badaniu górny biegun rozwoju obejmujący najko

rzystniejsze wartości zmiennych. Z uwagi na to, że wszystkie zmienne są stymulan

tami, współrzędne obiektu-wzorca obejmują maksymalne wartości zmiennych,

• relacją porządkującą elementy zbioru 75 uczelni jest relacja mniejszości doty

cząca liczbowych wartóści syntetycznego miernika rozwoju o postaci (1).

Wyniki porządkowania liniowego 75 szkół wyższych zawiera tab. 2. Następnie procedurę porządkowania liniowego 75 szkół wyższych powtórzono. W pierw

szym wariancie usunięto z analizy dziewięć zmiennych (zmienne: od 9 do 12, od

(7)

14 do 18), dla których łączna suma wag równa się tylko 8% (zob. tab. 1). W wa

riancie drugim pozostawiono 18 zmiennych, dla których wprowadzono wagi jed

nakowe.

Tabela l. Wagi zastosowane w rankingu szkół wyższych w 2002 r.

Nr zmiennej WIllti pierwotne WIllti cone (18 zmiennych) Wagi

przekształcone

(9 zmiennych) I.

Prestiż

1 25,0% 4,50 2,446

2 25,0% 4,50 2,446

II.

Siła

naukowa

3 10,0% 1,80 0,978

4 10,0% 1,80 0978

5 2,5% 0,45 0,245

6 4,5% 0,81 0,440

7 3,0% 0,54 0,293

III. Warunki studiowania

8 10,0% 1,80 0,978

9 1,0% 0,18

10 0,5% 0,09

11 0,5% 0,D9

12 1,0% 0,18

13 2,0% 0,36 0,196

14 1,0% 0,18

15 1,0% 0,18

16 1,0% 0,18

17 1,0% 0,18

18 1,0% 0,18

Suma 100,0% 18,000 9,000

Źr6dło: opracowanie własne z wykorzystaniem danych z ,,Perspektyw" nr 412002, s. 51.

Tabela 2. Wyniki porządkowania liniowego 75 szkół wyższych

Nr

Wartość

Nr Wartość Nr Wartość

uczelni miary (1) uczelni miary (1) uczelni miilly (1) Lp. Nazwa uczelni

18 zmiennych 18 zmiennych 9 zmiennych (wagi jednakowe)

l 2 3 4 5 6 7 8

1 Uniwersytt!t Warszawski 2 0,055435 2 0,042509 2 0,142932 2 UniwersytetIagielloński 1 0,063401 1 0,049715 1 0,168375 3 Politechnika Warszawska 4 0,088139 4 0,072175 4 0,201911 4 Uniwersytet im. AM w Poznaniu 3 0,11836 3 0,100724 11 0,233052

5 SGHwWarszawie 5 0,180285 5 0,159325 8 0,234501

6 Politechnika Wrocławska 6 0,180557 6 0,159578 9 0,234756

7 AGH w Krakowie 7 0,182225 7 0,168001 29 0,237576

8 Akademia w Poznaniu 10 0,199747 10 0,178315 27 0,275939 9 Uniwersytet

Wrocławski

9 0,205452 9 0,196999 33 0,278073

10 SGGW w Warszawie 11 0,237716 13 0,220422 3 0,2804

11 UMK w Toruniu 13 0,239998 11 0,233303 15 0,282704

12 Uniwersytet

^Gdański

12 0,256017 12 0,243741 23 0,294688

(8)

cd. tab. 2

l 2 3 4 5 6 7 8

13 Politeclmika Sląska w Gliwicach 8 0,265512 22 0,253925 7 0,302165 14 Akademia Medyczna w Warszawie 17 0,275862 17 0,258563 28 0,303146 15 Ś~ AM w Katowicach 14 0,279981 8 0,267522 12 0,303995 16 Politeclmika Poznańska 18 0,284525 18 0,27155 14 0,307983 17 PoJiteclmika Krakowska 22 0,288466 16 0,272187 49 0,31%23 18 AE w Poznaniu 16 0,291326 14 0,273428 10 0,332412 19 Uniwersytet Śląski w Katowicach 21 0,30132 21 0,276816 5 0,332648 20 UWM w Olsztynie 19 0,330223 20 0,321411 34 0,335298 21 Politeclmika Gdańska 20 0,330295 19 0,323363 25 0,336181 22 AR w Poznaniu 24 0,343036 24 0,342271 19 0,343884 23 UMCS w Lublinie 23 0,349554 26 0,346696 24 0,354615 24 Uniwers~Łódzki 25 0,35206 25 0,348159 39 0,359815

25 AMwGdańsku 26 0,35405 35 0,353986 20 0,360857

26 AR we Wrocławiu 28 0,368834 23 0,357046 21 0,361333 27 AM we

Wrocławiu

15 0,369926 31 0,363261 30 0,362471 28

^AMwł.odzi

31 0,370712 28 0,37509 26 0,367373 29 PoIllOISka AM w Szczecinie 35 O,3n2 15 0,384261 6 0,369475 30 WAT w Warszawie 37 0,400112 37 0,396131 18 0,371%8 31 AE w Krakowie 30 0,400986 30 0,403524 13 0,390075 32 AM w

Białymstoku

33 0,401274 32 0,411038 32 0,394757 33 Katolicki Uniwers~t Lubelski 27 0,402734 34 0,417465 40 O,401161 34 AM w Lublinie 34 0,405725 27 0,42229 16 0,405644 35 AR w Krakowie 29 0,409385 33 0,427875 36 0,406119 36 AE w Katowicach 32 0,409682 29 0,445126 17 0,413077 37 Politeclmika Łódzka 49 0,435592 38 0,445261 42 0,418431 38 AE we Wrocławiu 38 0,444371 40 0,452864 31 0,419497 39 AM w Bydgoszczy 39 0,447634 39 0,461486 37 0,425294 40 IPapieska AT w Krakowie 40 0,453729 36 0,464695 44 0,434757 41 Uniwersytet . a SW w Warszawie 36 0,461304 49 0,468388 38 0,439978 42 AWF we

Wrocławiu

43 0,483189 43 0,476511 48 0,441256 43 AR w Szczecinie ⁴¹ ^0,48965 ⁴¹ 0,47%93 22 0,460582 44 Politechnika

Szczecińska

42 0,495492 46 0,488311 47 0,464855 45 AR w Lublinie 46 0,4%152 42 0,503826 35 0,47383 46 AWF w Katowicach ⁴⁷ 0,512589 45 0,511104 46 0,48048 47 AWF w Warszawie 45 0,513621 47 0,524466 41 0,4927 48 Uniwersytet

Szczeciński

44 0,516374 44 0,535578 50 0,494827

49 WAMwł.odzi 53 0,551997 53 0,557862 43 0,496914

50 Akademia Peda w Krakowie 48 0,553%8 54 0,56n79 53 0,507088 51 Politeclmika Lubelska 54 0,561561 48 0,574205 51 0,511269 52 Uniwersytet Opolski 51 0,568399 55 0,578139 63 0,517297 53 AWF w Poznaniu 55 0,576823 51 0,578355 52 0,518948

54 ART w B 50 0,583969 50 0,595735 45 0,519022

55 AWF w Gdańsku 57 0,597578 57 0,610719 58 0,523579

56 Politechnika Częstochowska 52 0,603352 52 0,613878 61 0,529495

57 Politechnika Białostoc:ka 56 0,605725 56 0,616098 59 0,534515

58 Politechnika Swiętokrz:yska 65 0,607145 65 0,618555 66 0,536791

59 Akademia Podlaska w Siedlcach 66 0,614071 66 0,622386 54 0,538657

(9)

cd. tab. 2

l 2 3 4 5 6 7 8

60 Akademia Swiętokrzyska w Kielcach 70 0,616498 70 0,626941 57 0,541473 61 Akademia Bydgoska . 58 0,617833 69 0,635442 70 0,550933 62 Politeclmika Opolska 69 0,625864 58 0,637298 60 0,553909 63 Uniwersytet Zielonogórski 61 0,631214 68 0,640359 67 0,55438 64 Politeclmika Rzeszowska 64 0,632114 64 0,641993 55 0,559182

65 AMWwGdyni 59 0,632321 61 0,64652 62 0,55929

66 WS Przeds. i

Zan.ąP.z.

w Warszawie 63 0,635867 59 0,647648 56 0,561509 67 Politeclmika Koszalińska 68 0,636377 63 0,653999 65 0,564005 68 A 1M w

Bielsku-Białej

67 0,637875 67 0,655716 74 0,565314 69 Uniwersytet Rzeszowski 62 0,651791 60 0,669433 73 0,569629

70 A WF w Krakowie 60 0,655224 62 0,669686 69 0,577fJ7

71 Politeclmika Radomska 73 0,659823 72 0,672826 71 0,579931 72 WSP w

Częstochowie

71 0,660662 73 0,673802 64 0,584409 73

Ak.~

. . Specjalnej w Warszawie 72 0,666298 71 0,67601 75 0,599028 74 WS Hwnanistyczna w

Pułtusku

74 0,67296 74 0,690467 72 0,609837 75 WS

Ubezpieczeń

i

Bankowości

w Warszawie 75 0,679911 75 0,691838 68 0,61499 Źródło: obliczenia własne z wykorzystaniem programu GDM for Windows.

Otrzymane rezultaty dla 9 zmiennych w niewielkim stopniu odbiegają od wyni

ków z uwzględnieniem 18 zmiennych. W wariancie drugim, w którym zastosowa

no wagi, jednakowe różnice w uporządkowaniu szkół wyższych są znacznie więk

sze. Informują o tym wartości współczynników korelacji z tab. 3.

Tabela 3. Wartości współczynników korelacji

IWspółczynnik korelacji lRank_l8 Rank 9 lRank 18 j

rrau b Kendalla Rank_18 1,000 0,870 0,701

Rank_9 0,870 1,000 0,730

Rank 18 j 0,701 0,730 1,000

ho Spearmana lRank_18 1,000 0,972 0,886

tRanIc9 0,972 1,000 0,900

lRank 18 j 0,886 0,900 1,000 Źródło: obliczenia własne z wykorzystaniem pakietu SPSS for Windows.

Świadczy to O nieprawidłowym doborze wag w analizie. Jak słusznie podkreśla T. Borys ([1984], s. 321) w przypadku stosowania wag zróżnicowanych ,,ich zróżni

cowanie powinno być »łagodne«, nadmierne zróżnicowanie wag budzi bowiem po

dejrzenie, że do zbioru cech preferencyjnych włączono cechy zbędne".

5. Podsumowanie

W artykule zaprezentowano zastosowanie uogólnionej miary odległości ODM jako syntetycznego miernika rozwoju w metodach porządkowania liniowego.

Scharakteryzowano uogólnioną miarę odległości oraz wskazano obszary jej zasto

(10)

sowań. W części empirycznej przedstawiono przykład zastosowania uogólnionej miary odległości GDM w rankingu wyższych uczelni w Polsce.

Literatura

Bąk A (1999), Modelowanie symulacyjne wybranych algorytmów wielowymiaro

wej analizy porównawczej w języku C++, Wydawnictwo AE, Wrocław.

Borys T. (1984), Kategoria jakości w statystycznej analizie porównawczej, Prace Naukowe AE we Wrocławiu nr 284, Seria: Monografie i Opracowania nr 23.

Gordon AD. (1999), Classification, 2nd Edition, Ptapman and Hall/CRC, London.

Hellwig Z. (1968), Zastosowanie metody taksonomicznej do typologicznego po

działu krajów ze względu na poziom ich rozwoju i strukturę wykwalifikowanych kadr, ,,Przegląd Statystyczny" z. 4, 307-327.

Jajuga K., Walesiak M., Bąk A. (2001), On the General Distance Measure, W:

Schwaiger M., Opitz O. (Eds.): Exploratory Data Analysis in Empirical Re

search, Springer-Verlag, Berlin, Heidelberg (w druku).

Walesiak M. (1990), Syntetyczne badania porównawcze w świetle teorii pomiaru,

,,Przegląd Statystyczny" z. 1-2,37-46.

Walesiak M. (1993), Statystyczna analiza wielowymiarowa w badaniach marketin

gowych, Prace Naukowe AE we Wrocławiu nr 654, Seria: Monografie i Opra

cowania nr 101.

Walesiak M. (1996), Metody analizy danych marketingowych, PWN, Warszawa.

Walesiak M. (1999), Distance measure for ordinal data, "Argumenta Oe

conomica" No 2 (8), 167-173.

Walesiak M. (2000), Propozycja uogólnionej miary odległości w statystycznej analizie wielowymiarowej, Referat na konferencję naukową nt. "Statystyka regionalna w

służbie samorządu lokalnego i biznesu" (Kiekrz k. Poznania, 5-7 czerwca 2000 r.).

Walesiak M. (2002), Uogólniona miara odległości w statystycznej analizie wielo

wymiarowej. Wydawnictwo Akademii Ekonomicznej we Wrocławiu.

Walesiak M., Bąk A, Jajuga K. (2002), Uogólniona miara odległości - badania symulacyjne, W: Jajuga K., Walesiak M. (red.), Klasyfikacja i analiza danych

teoria i zastosowania, Taksonomia 9, Prace Naukowe Akademii Ekonomicznej we Wrocławiu nr 942.

THE GENERALISED DISTANCE MEASURE GDM AS SYNTHETIC MEASURE IN LlNEAR ORDERING METHODS

Summary

The article contains the application of generalised distance measure GDM as

synthetic measure in linear ordering methods. In the paper the following problems

(11)

are discussed: the derivation of the generalised distance measure and the areas of applications of the distance. In addition, the empirical example of application of GDM to ranking of Polish universities is provided.

Keywords. The Generalised Distance Measure, Linear Ordering Methods, Data

Analysis.

N 02>24-8445'

PRACE NAUKOWE AKADEMII EKONOMICZNEJ WE WROCLAWIU

Nr 988 2003

TAKSONOMIA lO

Klasyfikacja i analiza danych - teoria i zastosowania

Marek Walesiak

Akademia Ekonomiczna we Wrocławiu

UOGÓLNIONA MIARA ODLEGLOŚCI GDM JAKO SYNTETYCZNY MIERNIK ROZWOJU W METODACH PORZĄDKOWANIA LINIOWEGO I

1. Wprowadzenie

W pracy Walesiaka [2000] zaproponowano uogólnioną miarę odległości ODM (The Oeneralised Distance Measure), w konstrukcji której wykorzystano ideę

uogólnionego współczynnika korelacji obejmującego współczynnik korelacji li­

niowej Pearsona i współczynnik tau Kendalla:

m m

L:

+ L:L:

1

d

= ( I-Sik )/ 2=--

(1)

2

1 2

2 ~~Wja~j' ~~Wjb~j

gdzie: d ik (Sik) - miara odległości (podobieństwa), i, k, 1=1, ..., n - numer obiektu,

j = 1, ... , m - numer zmiennej,

w. - wagaj-tej zmiennej spełniająca warunki: w

E (O; m), L:W

= m.

Dla zmiennych mierzonych na skali ilorazowej i (lub) przedziałowej w formule (1) stosowane jest podstawienie:

Pracę wykonano częściowo w ramach projektu badawczego nr 5 H02B 03021 finansowanego przez Komitet Badań Naukowych w latach 2001-2003.

134

ajpj = Xij - xpj dla p = k,1 bkrj = Xkj-Xrj dla r=i,l' (2)

gdzie: xii (xA;i,xij) - i-ta (k-ta, l-ta) obserwacja naj-tej zmiennej.

Zasób informacji skali porządkowej jest nieporównanie mniejszy. Jedyną do­

puszczalną operacją empiryczną na skali porządkowej jest zliczanie zdarzeń (tzn.

wyznaczanie liczby relacji większości, mniejszości i równości). W konstrukcji miernika odległości musi być wykorzystana informacja o relacjach, w jakich pozo­

stają por6wnywane obiekty w stosunku do pozostałych obiektów ze zbioru A. Dla zmiennych mierzonych na skali porządkowej w formule (1) stosuje się podstawie­

nie (Walesiak [1993], s. 44-45):

dla xij > xpj (xkj > xrj )

dla xij = xpj (xkj = Xrj)' dla p = k, I; r = i, I. (3) aiPj(bkrj)=! ~

-1 dla xij <xpi (XA;j <Xrj)

W mianowniku wzoru (1) pierwszy czynnik oznacza liczbę relacji większości i

mniejszości określoną dla obiektu i, czynnik drugi zaś liczbę relacji większości i

mniejszości określoną dla obiektu k.

Miary o postaci (1) nie można stosować bezpośrednio, gdy zmienne są mierzo­

ne jednocześnie na różnych skalach. Zastosowanie miary (1) z podstawieniem (3)

rozwiązuje częściowo ten problem, ale wtedy zostaje osłabiona skala pomiaru dla zmiennych mierzonych na skali przedziałowej i (lub) ilorazowej (przekształcone zostają one w zmienne porządkowe, ponieważ w obliczeniach uwzględniane są

tylko relacje większości, mniejszości i równości).

Własności oraz rezultaty badań symulacyjnych miary (1) zawierają m.in. prace:

Walesiak [1999]; Walesiak, Bąk i Jajuga [2002]; Jajuga, Walesiak i Bąk [2001];

Walesiak [2002].

2. Obszary zastosowań uogólnionej miary odległości GDM

Uogólniona miara odległości GDM w badaniach z zakresu statystycznej analizy wielowymiarowej wykorzystywana jest:

-do wyznaczenia macierzy odległości w procesie klasyfikacji obiektów (np.

konsumentów),

- jako syntetyczny' miernik rozwoju w metodach porządkowania liniowego obiektów (np. produktów).

Wykorzystanie niektórych metod statystycznej analizy wielowymiarowej (me­

tody klasyfikacji, skalowanie wielowymiarowe) wymaga obliczenia i wyznaczenia

za pomocą miar odległości macierzy odległości obiektów. Wyznaczenie macierzy

odległości stanowi jeden z etapów zastosowania niektórych metod klasyfIkacji. W pracy Gordona ([1999], s. 7) przedstawiono etapy postępowania w procesie klasy­

fIkacji obiektów (zob. rys. 1).

W wyniku zastosowania niektórych metod statystycznej analizy wielowymia­

rowej (metody podziału, metody klasyfIkacji hierarchicznej, metody wizualizacji­

skalowanie wielowymiarowe, analiza korespondencji) otrzymuje się podział zbioru obiektów na klasy.

3. Konstrukcja syntetycznego miernika rozwoju wykorzystującego uogólnioną miarę odległości GDM

Zadaniem metod porządkowania liniowego zbioru obiektów jest uszeregowanie, czyli ustalenie kolejności obiektów lub ich zbiorów według określonego kryterium.

Metody te mogą być zatem stosowane wtedy, gdy można przyjąć pewne nadrzędne

kryterium, ze względu na które będzie można uporządkować obiekty od ,,najlep­

szego" do ,,najgorszego". Narzędziem metod porządkowania liniowego jest synte­

tyczny miernik rozwoju (SMR), będący pewną funkcją agregującą informacje

cząstkowe zawarte w poszczególnych zmiennych i wyznaczoną dla każdego

obiektu ze zbioru obiektów A.

Zbiór obiektów

Macierz danych

Znonnalizowana

macierz danych

Metody podziału

skalowanie wielowymiarowe, Metody prezentacji graficznej

(wizualizacji) - m.in.

analiza korespondencji

Rys. l. Etapy

UOGÓLNIONA MIARA ODLEGLOŚCI GDM JAKO SYNTETYCZNY MIERNIK ROZWOJU W METODACH PORZĄDKOWANIA LINIOWEGO ^I

uogólnionego współczynnika korelacji obejmującego współczynnik korelacji li

= ⁽ I-Sik )/ 2=--

⁽¹⁾

1 ²

⁼ ^m.

Zasób informacji skali porządkowej jest nieporównanie mniejszy. Jedyną do

wyznaczanie liczby relacji większości, mniejszości i równości). W konstrukcji miernika odległości musi być wykorzystana informacja o relacjach, w jakich pozo

stają por6wnywane obiekty w stosunku do pozostałych obiektów ze zbioru A. Dla zmiennych mierzonych na skali porządkowej w formule (1) stosuje się podstawie

Miary o postaci (1) nie można stosować bezpośrednio, gdy zmienne są mierzo

Wykorzystanie niektórych metod statystycznej analizy wielowymiarowej (me

odległości stanowi jeden z etapów zastosowania niektórych metod klasyfIkacji. W pracy Gordona ([1999], s. 7) przedstawiono etapy postępowania w procesie klasy

W wyniku zastosowania niektórych metod statystycznej analizy wielowymia

rowej (metody podziału, metody klasyfIkacji hierarchicznej, metody wizualizacji

kryterium, ze względu na które będzie można uporządkować obiekty od ,,najlep

szego" do ,,najgorszego". Narzędziem metod porządkowania liniowego jest synte

Stymulanty uzyskane w wyniku tego przekształcenia mierzone są na skali ilora

Stymulanty uzyskane w wyniku tego przekształcenia mierzone są na skali prze

• w obliczeniach z wykorzystaniem uogólnionej miary odległości (1) z podsta

wieniem (2), tzn. gdy zmienne mierzone są na skali ilorazowej i (lub) przedziało

wej, zachodzi potrzeba przeprowadzenia normalizacji wartości zmiennych. Zasto

sowanie miary (1) z podstawieniem (3) nie wymaga przeprowadzania normalizacji zmiennych. Dla zmiennych mierzonych na skali przedziałowej i (lub) ilorazowej zostaje osłabiona skala pomiaru (przekształcone zostają one w zmienne porządko

we, ponieważ w obliczeniach uwzględniane są tylko relacje większości, mniejszo

E (O; m), E:l ^w

⁼ ^m;

górny biegun rozwoju (por. Hellwig [1968]). Górny biegun rozwoju obejmuje naj

Metody porządkowania liniowego można wykorzystać w badaniach marketin

gowych m.in. w analizie atrakcyjności rynku polegającej na ocenie możliwości ist

niejących (nowych) produktów w stosunku do produktów konkurencyjnych. Po

zwalają więc one określić pozycję produktu na rynku na tle produktów konkuren

cyjnych. Badania tego typu mogą być wykonywane również w odniesieniu do in

uczelni w Polsce. W rankingu wyższych uczelni w Polsce do ich oceny wykorzy

preferencje profesorów mianowanych w latach 2000-2001 (liczba wska

moc naukowa (liczba tytułów i stopni naukowych uzyskanych w 2001 ro

potencjał naukowy (średnia z kategorii nadanych przez KBN poszczegól

(liczba przeliczeniowych nauczycieli akademickich - jednostki przeliczeniowe sto