Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu Wrocław 2011
Marek Walesiak
UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE
WIELOWYMIAROWEJ
Z WYKORZYSTANIEM PROGRAMU R
Senacka Komisja Wydawnicza
Zdzisław Pisz (przewodniczący),
Andrzej BqIc, Krzysztof Jajuga. Andrzej MaI)IsiaJc. Waldemar Podgórski,
Mieczysław Przybyła, Aniela Styś, Stanisław Urban
Recenzent
Andrzej Sokołowski
Redakcja wydawnicza Dorota Pitulec
Redakcja techniczna Barbara Łopuslewicz
Korekta Barbara Cibis
Skład i łamanie
Beata Mazur
Projekt okładki
Beala Dębska
Na okładce wykorzystano zdjęcie z zasobów 123 Royality Free
Tytułdofinansowano ze środków na działalność statutową Katedry Ekonometrii i Infonnatyki Uniwersytetu Ekonomicznego we Wrocławiu
Kopiowanie i powielanie w jakiejkolwiek fonnie wymaga pisemnej zgody Wydawcy
CI Copyńght by Uniwersytet Ekonomiczny we Wrocławiu Wrocław 20 I ł
ISBN 978-83-7695-131-4
Druk: Drukarnia lOTEM
SPIS TREŚCI
WSTĘP.
. . . 7
l. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELO WYMIAROWEJ ... ,... 11
1.1. Zagadnienia
wstępne... 11
1.2. Typy skal pomiarowych i ich charakterystyka. . . 13
1.3. Transformacja nonnalizacyjna i ujednolicanie zmiennych . . . 16
1.4. Pomiar
podobieństwaobiektów w
świetleskal pomiaru i wag zmien nych . . . 22
1.5. Strategie
postępowaniaw pomiarze
odJegłościdla danych
porządkowych31 2. UOGÓLNIONA MIARA
ODLEGŁOŚCIGDM ... :... 36
2.1. Wprowadzenie ... 36
2.2. Uogólniony
współczynnikkorelacji ... 36
2.3. Charakterystyka uogólnionej miary
odległości... 38
2.4. Silne i
słabestrony uogólnionej miary
odległości.. . . 44
2.5.
Postaćuogólnionej miary
odległościdla zmiennych z
różnychskal po miaru . . . 46
2.6.
Postaćuogólnionej miary
odległościdla
zróżnicowanychwag zmien nych . . . • . . .
472.7. Kwadrat
odległościeuklidesowej a
współczynnikkorelacji liniowej Pearsona i cosinus
kąta międzywektorami ... 48
2.8. GDM a
współczynnikkorelacji liniowej Pearsona i cosinus
kąta mię-dzy wektorami. . . 50
3. OBSZARY
ZASTOSOWAŃUOGÓLNIONEJ MIARY
ODLEGŁOŚCIGDM W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ ... 54
3.
ł.Wyznaczanie macierzy
odległościw procesie klasyfikacji obiektów. . . 54
3.2. Ocena
podobieństwawyników klasyfikacji zbioru obiektów w czasie 68 3.3. Uogólniona miara
odległościODM jako syntetyczny miernik rozwoju w metodach
porządkowanialiniowego . . . • . . . 73
3.4. Ocena
podobieństwawyników
porządkowanialiniowego zbioru obiek tów w czasie ... 78
4. UOGÓLNIONA MIARA
ODLEGŁOŚCIGDM W
ŚWIETLEWYBRA NYCH EKSPERYMENTÓW SYMULACYJNYCH ... 82
4.1. Losowe generowanie danych o znanej strukturze klas w pakiecie cIu
sterSirn ... 82
6
SPIS TREŚCI4.2. Analiza porównawcza metod klasyfikacji dla danych o znanej struktu
rze klas ... . . . • . . . 87 4.3. Ocena wybranych procedur analizy
skupieńdla danych
porządkowych92 5. WYBRANE ZASTOSOWANIA UOGÓLNIONFJ MIARY ODLEGŁO-
ŚCI
GDM Z WYKORZYSTANIEM PROGRAMU R ... 98 5.1.
Porządkowanieliniowe zbioru obiektów na podstawie danych
porząd-kowych z rynku
nieruchomości... 98 5.2.
Porządkowanieliniowe zbioru obiektów na podstawie danych metrycz
nych
dotyczącychwarunków zamieszkiwania
ludnościw miastach ... 102 5.3. Ocena
podobieństwawyników
porządkowanialiniowego zbioru obiek
tów w czasie na podstawie danych metrycznych
dotyczącychwarun
ków zamieszkiwania
ludnościw miastach, . . .
ł05 5.4. Analiza
skupieńzbioru obiektów opisanych danymi
porządkowymiz rynku
nieruchomości. . . 108 5.5. Analiza
skupieńzbioru obiektów opisanych danymj metrycznymi do
tyczącymi
zanieczyszczenia powietrza ... " . . 112
LITERATURA .. . . J18
SKOROWIDZ ... 125
SPIS RYSUNKÓW ... 129
SPIS TABEL. . . 130
WSTĘP
Prezentowana książka stanowi podsumowanie rozważań autora zawartych w wielu opracowaniach dotyczących miary odległości, która została w pierwotnej wer- sji zaproponowana dla zmiennych porządkowych [Walesiak 1993a, s. 44-45], a na- stępnie dla danych metrycznych [Walesiak 2002a] i nominalnych [Walesiak 2003c].
Podstawowe części książki zostały opublikowane m.in. w „Argumenta Oeconomi- ca”, „Przeglądzie Statystycznym”, „Badaniach Operacyjnych i Decyzjach”, Pracach Naukowych Akademii Ekonomicznej we Wrocławiu (obecnie Uniwersytetu Eko- nomicznego we Wrocławiu) oraz były referowane na konferencjach naukowych, w tym na konferencji Sekcji Klasyfikacji i Analizy Danych PTS (zob. [Walesiak, Bąk, Jajuga 2002; Walesiak 2003b; 2004b; 2011b; Walesiak, Dudek 2009a; 2010b]), konferencji Światowej Federacji Towarzystw Klasyfikacyjnych IFCS (zob. [Wale- siak, Dziechciarz, Bąk 1998; Walesiak, Dudek 2010a]) oraz Niemieckiego Towarzy- stwa Klasyfikacyjnego (zob. [Jajuga, Walesiak, Bąk 2003]).
Dotychczas uogólniona miara odległości zaprezentowana została w zwartej po- staci w dwóch wydaniach książkowych Wydawnictwa AE we Wrocławiu (zob.
[Walesiak 2002b; 2006]). Obecna monografia zawiera istotne zmiany i uzupełnie- nia wynikające w znacznej mierze z oprogramowania miary GDM w pakiecie clusterSim programu R. Całkowicie nowe są podrozdziały 1.5, 3.1 i 3.3 oraz rozdziały czwarty i piąty.
Praca składa się z pięciu rozdziałów.
W rozdziale pierwszym przedstawiono podstawowe zagadnienia statystycznej analizy wielowymiarowej. Wyjaśniono w nim takie podstawowe pojęcia, jak obiekt, zmienna, macierz i kostka danych. Scharakteryzowano typy skal pomiarowych oraz zagadnienie transformacji normalizacyjnej i ujednolicania zmiennych z punktu wi- dzenia skal pomiarowych. Ponadto zaprezentowano szeroką klasyfikację miar podo- bieństwa obiektów z uwzględnieniem problematyki ważenia zmiennych oraz skal ich pomiaru. Rozdział kończą rozważania dotyczące strategii postępowania w po- miarze odległości dla danych porządkowych.
W rozdziale drugim przedstawiono szczegółową charakterystykę uogólnionej
miary odległości GDM (Generalised Distance Measure). W konstrukcji miary odleg-
łości GDM wykorzystano ideę uogólnionego współczynnika korelacji, który obej-
muje współczynnik korelacji liniowej Pearsona i współczynnik korelacji zmiennych
porządkowych tau Kendalla. W związku z tym w części pierwszej tego rozdziału
zaprezentowano uogólniony współczynnik korelacji. W dalszej części scharaktery-
zowano uogólnioną miarę odległości GDM dla jednakowych i zróżnicowanych wag
zmiennych. Następnie wskazano silne i słabe strony uogólnionej miary odległości.
8
WSTĘPRozważania teoretyczne zilustrowano licznymi przykładami poglądowymi. Zapre- zentowano postać uogólnionej miary odległości GDM uwzględniającą zmienne mie- rzone na skali metrycznej, porządkowej, nominalnej oraz zmienne z różnych skal pomiaru. Ponadto przedstawiono analizę związków między kwadratem odległości euklidesowej a współczynnikiem korelacji liniowej Pearsona i cosinusem kąta mię- dzy wektorami oraz między uogólnioną miarą odległości GDM a współczynnikiem korelacji liniowej Pearsona i cosinusem kąta między wektorami.
W rozdziale trzecim zaprezentowano obszary zastosowań uogólnionej miary od- ległości w statystycznej analizie wielowymiarowej. Podstawowymi obszarami za- stosowań tej miary są wyznaczanie macierzy odległości w procesie klasyfikacji zbioru obiektów oraz zastosowanie miary GDM jako syntetycznego miernika roz- woju w metodach porządkowania liniowego. Ponadto w rozdziale tym zaprezento- wano metody oceny podobieństwa wyników klasyfikacji zbioru obiektów oraz oce- ny podobieństwa wyników porządkowania liniowego zbioru obiektów w czasie.
Rozdział czwarty zawiera rezultaty wybranych eksperymentów symulacyjnych pozwalających ocenić zachowanie się uogólnionej miary odległości GDM przy róż- nych strukturach danych. W pierwszym podrozdziale scharakteryzowano zagadnienie losowego generowania danych o znanej strukturze klas w pakiecie clusterSim.
W drugim podrozdziale przedstawiono analizę porównawczą metod klasyfikacji dla danych o znanej strukturze klas dla trzech typów danych. W dwóch pierwszych eks- perymentach wykorzystano dane metryczne oraz porządkowe o znanej strukturze klas obiektów wygenerowane z wykorzystaniem z funkcji cluster.Gen pakietu clusterSim. W eksperymencie trzecim zbiory danych utworzono z wykorzysta- niem funkcji pakietu mlbench (spirals, smiley, cassini) oraz zbiorów własnych (worms, w3, skad). W podrozdziale trzecim, na podstawie porządkowych danych symulacyjnych wygenerowanych z wykorzystaniem z funkcji cluster.Gen pa- kietu clusterSim, przeprowadzono ocenę przydatności wybranych procedur ana- lizy skupień obejmujących miarę odległości GDM, dziewięć metod klasyfikacji oraz osiem indeksów służących ustaleniu liczby klas.
W rozdziale piątym zaprezentowano wybrane zastosowania uogólnionej miary odległości GDM1 i GDM2 w statystycznej analizie wielowymiarowej z wykorzysta- niem programu R. Znaczna część skryptów wykorzystuje pakiet clusterSim. Za- stosowania dotyczyły porządkowania liniowego i analizy skupień zbioru obiektów na podstawie danych porządkowych z rynku nieruchomości oraz porządkowania li- niowego na podstawie danych metrycznych dotyczących warunków zamieszkiwania ludności w miastach i analizy skupień obiektów opisanych danymi metrycznymi dotyczącymi zanieczyszczenia powietrza. Ponadto dokonano oceny podobieństwa wyników porządkowania liniowego zbioru obiektów w czasie na podstawie danych metrycznych dotyczących warunków zamieszkiwania ludności w miastach.
Pracę zamyka zestawienie wykorzystywanej literatury, spis rysunków i tabel
oraz skorowidz rzeczowy.
WSTĘP
9 Wersję instalacyjną programu R oraz dodatkowe pakiety (w tym pakiet clu- sterSim autorstwa Marka Walesiaka i Andrzeja Dudka) można pobrać ze strony:
http://www.r-project.org/. Wszystkie skrypty zawarte w książce przetestowano, uży- wając wersji 2.14.1 programu R.
Na stronie internetowej http://keii.ue.wroc.pl znajdują się pliki zawierające wy- korzystywane dane oraz skrypty realizujące zastosowania zamieszczone w książce.
Książka jest przeznaczona dla pracowników naukowych zajmujących się zasto-
sowaniem metod statystycznej analizy wielowymiarowej w każdej dziedzinie wie-
dzy, w tym w badaniach ekonomicznych. Ponadto odbiorcami książki mogą być
słuchacze wyższych uczelni studiujący zagadnienia statystycznej analizy wielowy-
miarowej i jej zastosowań.
1
PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ
ANALIZY WIELOWYMIAROWEJ
1.1
ZAGADNIENIA WSTĘPNE
Termin „statystyczna analiza wielowymiarowa” odnosi się do grupy metod sta- tystycznych, za pomocą których jednoczesnej analizie poddane są pomiary na przy- najmniej dwóch zmiennych opisujących każdy obiekt badania. Do podstawowych pojęć statystycznej analizy wielowymiarowej zalicza się pojęcia: obiekt i zmienna.
Głównym zagadnieniem jest określenie elementarnej jednostki badawczej, czyli obiektu badania.
Obiekty są rozumiane w sensie zarówno dosłownym, jak i przenośnym. Obiek- tem jest więc w badaniach określona rzecz, osoba, kategoria abstrakcyjna lub zda- rzenie. Konkretnymi przykładami obiektów są: konsument X, produkt Y, marka sa- mochodu S, pacjent P, gmina G, przedsiębiorstwo F, rzeka R, rynek testowy T, hipermarket H, rynek zbytu Z, gospodarstwo domowe D, idea filozoficzna I. Zbiór obiektów badania będzie oznaczany przez A = { } { A
i 1n= A
1, , … A
n} .
Zmienna w statystycznej analizie wielowymiarowej jest charakterystyką opisu- jącą zbiorowość obiektów. W ujęciu formalnym zmienna M
jto odwzorowanie (por.
[Borys 1984, s. 87]):
j
:
M A → Q ( j = … 1, , ) m , (1.1) gdzie: Q – zbiór obrazów (liczb rzeczywistych, kategorii),
m – liczba zmiennych.
Metody statystycznej analizy wielowymiarowej (SAW) zwykle wymagają, aby realizacje zmiennych były liczbami rzeczywistymi – zachodzi więc potrzeba kodo- wania zmiennych wyrażonych w formie kategorii. Jeśli w odwzorowaniu (1.1) zbiór obrazów jest zbiorem kategorii, to należy go przekodować na zbiór liczb rzeczywi- stych. Można wykorzystać następujące sposoby kodowania zmiennych (zob. [Wale- siak 2011d]):
1. Jeśli dana zmienna ma tylko dwie kategorie, można ją zamienić na tzw. zmien-
ną sztuczną (np. zero-jedynkową). Jednemu wariantowi nadaje się wartość „1”,
a drugiemu wartość „0” lub „–1”. Na przykład dla zmiennej płeć kodowanie będzie
następujące: kobieta „1”, mężczyzna „0” lub „–1”.
12
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ2. Jeśli zmienna ma więcej niż dwie kategorie, to stosujemy sposób zamiany polegający na zastosowaniu zespołu zmiennych sztucznych (np. zero-jedynko- wych).
W modelu z wyrazem wolnym obowiązuje zasada, według której liczba wpro- wadzonych zmiennych sztucznych musi być mniejsza o jeden od liczby poziomów (kategorii) danej zmiennej. Załóżmy, że dla zmiennej wykształcenie występują trzy warianty (kategorie): podstawowe, zasadnicze zawodowe, średnie. Należy w tym przypadku wprowadzić dwie zmienne sztuczne, np. zdefiniowane następująco:
W modelu bez wyrazu wolnego wprowadza się tyle zmiennych sztucznych, ile jest poziomów (kategorii) danej zmiennej. Na przykład dla danych kwartalnych wprowadzamy 4 zmienne zero-jedynkowe o następującym kodowaniu:
Kodowanie zero-jedynkowe zmiennych umożliwia funkcja fact2dummy pa- kietu StatMatch programu R.
3. Poszczególnym kategoriom można przypisać kolejne liczby naturalne. Nie ma tutaj znaczenia, czy kategorie można uporządkować według stopnia intensywności oddziaływania (zmienna porządkowa), czy też nie można ich uporządkować (zmien- na nominalna). Na przykład dla zmiennej porządkowej organizacja pracy, obejmu- jącej kategorie bardzo dobra, dobra, słaba, zła, można zastosować kodowanie:
zła 1
słaba 2
dobra 3
bardzo dobra 4
Znajomość w analizie statystycznej zbioru obiektów i zmiennych pozwala zapi- sać macierz danych, w której dowolny element oznacza się przez x
ij(i = 1, …, n;
j = 1, …, m). Jest to obserwacja j-tej zmiennej w i-tym obiekcie. Wielowymiarowa obserwacja (m-wymiarowa) będzie zapisywana w formie wektora (por. [Jajuga 1993, s. 21]):
x
i= [x
i1, x
i2, ..., x
im]
T. (1.2) Jeśli do dwóch „wymiarów” (obiekty, zmienne) wprowadzi się „wymiar” czasu, to otrzymuje się tzw. kostkę danych. Pojęcia tego używają w swoich pracach m.in.
Wykształcenie 1
podstawowe 0 0
zasadnicze zawodowe 0 1
średnie 1 0
j j
M M +
lub
1
1 1
0 1
1 0
j j
M M+
− −
1 2 3 4
Kwartał
I 1 0 0 0
II 0 1 0 0
III 0 0 1 0
IV 0 0 0 1
M M M M
1.2. TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA
13 Žukowska, Mučnik [1976, s. 15]; Jajuga [1987, s. 14-16; 1993, s. 21-23]; Grabiński [1992, s. 19]. Dowolną liczbę w kostce danych oznacza się przez x
ijt. Jest to wartość j-tej zmiennej w i-tym obiekcie w okresie t (i = 1, …, n; j = 1, …, m; t = 1, …, T).
W celu uproszczenia zapisu do wszystkich wzorów w pracy będzie stosowana zasa- da, według której indeks pasywny (stały) będzie pomijany.
W badaniach empirycznych wykorzystujących metody statystycznej analizy wielowymiarowej nie wychodzi się poza trzeci „wymiar”. Wiąże się to nie tylko z brakiem odpowiednich danych statystycznych, ale również z tym, że w dalszych etapach analizy wielowymiarowej pierwotne dane podlegają syntetyzacji. Ponadto w razie liczby wymiarów większej od trzech kłopotliwa staje się interpretacja wyni- ków końcowych.
Trójwymiarowe ujęcie w postaci kostki danych pozwala stosować w badaniach następujące schematy badawcze:
a) ujęcie całościowe, w którym wykorzystuje się całą kostkę danych – analizo- wany jest zbiór n obiektów w T okresach ze względu na m zmiennych;
b) ujęcie cząstkowe – kostka ma trzy wymiary, więc możliwe do uzyskania są trzy różne jej przekroje:
przekrój czas
– −zmienna, w którym jeden z obiektów jest analizowany w T okre- sach ze względu na m zmiennych,
przekrój obiekt
– −czas, w którym n obiektów jest analizowanych w T okresach ze względu na jedną zmienną,
przekrój obiekt
– −zmienna, w którym n obiektów jest analizowanych ze względu na m zmiennych w jednym okresie.
W dalszej części pracy będą wykorzystywane dwa ujęcia: całościowe oraz cząst- kowe w przekroju czas−zmienna i obiekt−zmienna z koncepcji kostki danych. Uję- cie cząstkowe w przekroju obiekt−czas nie będzie rozpatrywane, ponieważ jest to zagadnienie analizy jednowymiarowej.
1.2
TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA
W klasycznym ujęciu przez pomiar rozumie się przyporządkowanie liczb obiek- tom zgodnie z określonymi regułami w taki sposób, aby liczby odzwierciedlały rela- cje zachodzące między tymi obiektami (por. np. [Pawłowski 1969, s. 54; Choynow- ski 1971, s. 17]).
Podstawą teorii pomiaru jest pojęcie skali.
D
EFINICJA1 (por. [Adams, Fagot, Robinson 1965, s. 101-102; Walesiak 1990b, s. 37]). Taką uporządkowaną czwórkę U =< A G H F ; ; ; > , że
a) A to niepusty zbiór obiektów, H – zbiór liczb rzeczywistych, G – klasa funkcji odwzorowujących A w H, F – klasa funkcji odwzorowujących H w H,
b) dla wszystkich g G ∈ i f ∈ F f g G , ∈ ,
14
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJc) F zawiera przekształcenie H na H, a ponadto dla każdego f f
k,
l∈ F złożenie
k l
,
f f ∈ F
nazywa się skalą pomiaru.
W teorii pomiaru rozróżnia się cztery podstawowe skale pomiaru, wprowadzone przez Stevensa [1946]. Definiując w odniesieniu do skali ilorazowej dopuszczalne przekształcenie, Stevens nie określił, do którego zbioru należy x w funkcji (1.6), tzn.
czy należy do całego zbioru liczb rzeczywistych, zbioru liczb rzeczywistych dodat- nich, czy rzeczywistych nieujemnych. Dopiero definicja Adamsa, Fagota i Robinso- na usunęła tę usterkę.
D
EFINICJA2 (por. [Adams, Fagot, Robinson 1965, s. 103; Walesiak 1991, s. 13- -14]). U = <A; G; H; F> jest skalą nominalną wtedy i tylko wtedy, gdy F jest zbio- rem wszystkich funkcji f odwzorowujących H w H (H = R) takich, że
f – funkcja wzajemnie jednoznaczna. (1.3) D
EFINICJA3 (por. [Adams, Fagot, Robinson 1965, s. 103; Walesiak 1991, s. 14]).
U = <A; G; H; F> jest skalą porządkową wtedy i tylko wtedy, gdy F jest zbiorem wszystkich funkcji f odwzorowujących H w H (H = R) takich, że
f – funkcja ściśle monotonicznie rosnąca. (1.4) D
EFINICJA4 (por. [Adams, Fagot, Robinson 1965, s. 103; Walesiak 1990b, s. 37]). U = <A; G; H; F> jest skalą interwałową (przedziałową) wtedy i tylko wtedy, gdy H jest zbiorem wszystkich liczb rzeczywistych R i F jest zbiorem funkcji f takich, że dla dodatniego b
( ) , ( )
f x = bx a f x + ∈ R (1.5) dla wszystkich x R ∈ .
D
EFINICJA5 (por. [Adams, Fagot, Robinson 1965, s. 103; Walesiak 1990b, s. 38]).
U = <A; G; H; F> jest skalą ilorazową (stosunkową) wtedy i tylko wtedy, gdy H jest zbiorem liczb rzeczywistych dodatnich R
+i F jest zbiorem funkcji f takich, że dla dodatniego b
( ) , ( )
f x = bx f x ∈ R
+(1.6) dla wszystkich x R ∈
+.
Skale pomiaru są uporządkowane od najsłabszej do najmocniejszej: nominalna,
porządkowa (rangowa), przedziałowa (interwałowa), ilorazowa (stosunkowa). Skale
przedziałową i ilorazową zalicza się do skal metrycznych, natomiast nominalną
i porządkową do niemetrycznych.
1.2. TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA
15 Z przytoczonych definicji 2-5 wynika, że z typem skali wiąże się grupa prze- kształceń, ze względu na które skala zachowuje swe własności. Dopuszczalnymi przekształceniami są więc te, które nie naruszają zasobu informacji zawartej dla mierzonej zmiennej. Skala U
2jest mocniejsza od skali U
1wtedy i tylko wtedy, gdy jej dopuszczalne przekształcenie jest zdegenerowanym przypadkiem dopuszczalne- go przekształcenia skali U
1(por. [Walenta 1971, s. 52]).
Podstawowe własności skal pomiaru zawiera tab. 1.1.
Tabela 1.1. Podstawowe własności skal pomiaru
Typ skali Dozwolone przekształcenia matematyczne
Dopuszczalne relacje
Dopuszczalne operacje arytmetyczne Nominalna z = f(x), f(x) – dowolne
przekształcenie wzajemnie jednoznaczne
równości ( ), różności ( )
zliczanie zdarzeń (liczba relacji równości, różności) Porządkowa z = f(x), f(x) – dowolna ściśle
monotonicznie rosnąca funkcja
powyższe oraz większości ( ) i mniejszości ( )
zliczanie zdarzeń (liczba relacji równości, różności, większości, mniejszości) Przedziałowa z = bx + a (b > 0), z ∈ R dla
wszystkich x zawartych w R, wartość zerowa na tej skali jest zwykle przyjmowana
arbitralnie lub na podstawie konwencji*
powyższe oraz równości różnic i przedziałów (xA−xB=xC−xD)
powyższe oraz dodawanie i odejmowanie
Ilorazowa z = bx (b > 0), z ∈ R+ dla wszystkich x zawartych w R+, naturalnym początkiem skali ilorazowej jest wartość zerowa (zero lewostronnie ogranicza zakres skali)
powyższe oraz równości ilorazów A C
B D
x x x x
⎛ = ⎞
⎜ ⎟
⎝ ⎠
powyższe oraz mnożenie i dzielenie
* Por. [Ackoff 1969, s. 240].
Źródło: opracowanie własne na podstawie prac [Stevens 1959, s. 25 i 27; Adams, Fagot, Robinson 1965; Walesiak 1995, s. 189-191; Walesiak, Bąk 2000, s. 17].
Jedna z podstawowych reguł teorii pomiaru mówi, że jedynie rezultaty pomiaru w skali mocniejszej mogą być transformowane na liczby należące do skali słabszej (por. np. [Steczkowski, Zeliaś 1981, s. 17; 1997, s. 19; Wiśniewski 1986; 1987; Wa- lesiak 1990b, s. 40]). Transformacja skal polegająca na ich wzmacnianiu nie jest możliwa, ponieważ z mniejszej ilości informacji nie można uzyskać większej jej ilości. W literaturze (por. [Anderberg 1973, s. 53-69; Pociecha 1986]) podawane są pewne aproksymacyjne metody przekształcania skal słabszych w silniejsze, opiera- jące się na pewnych dodatkowych informacjach. Stosując zaś dozwolone przekształ-
A B
x =x
A B
x ≠x
A B
x >x
A B
x <x
16
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJcenie wartości na skali, zachowujemy niezmienność typu skali przyjętej dla danej zmiennej.
Inna z reguł teorii pomiaru mówi, że metody ilościowe, które można stosować do wyników pomiaru w skali słabszej, stosuje się również do liczb uzyskanych z mierzenia na poziomie mocniejszym. Wynika to z tego, że skala mocniejsza zawie- ra w sobie dopuszczalne relacje skali słabszej.
Typ skali, ze względu na dopuszczalne przekształcenia, determinuje stosowanie rozmaitych technik statystyczno-ekonometrycznych. Technikami statystycznymi dopuszczalnymi dla danego typu skali są takie techniki, które dostarczają wyników (w sensie relacji) niezmiennych względem dopuszczalnych przekształceń (por. np.
[Walenta 1971, s. 61]). W artykule Handa [1996] dyskutowany jest problem relacji między skalami pomiaru a dopuszczalnymi dla nich technikami statystycznymi. Po- kazano w nim przykłady, które są źródłem kontrowersji w wypadku ścisłego stoso- wania reguł pomiaru.
Pierwsze zestawienie typowych technik statystycznych przydatnych w pomiarze dokonywanym na skalach różnych rodzajów zaprezentował Stevens [1959, s. 27].
W pracy Walesiaka [1996, s. 23-24] przedstawiono typowe metody i techniki wyko- rzystywane w statystycznej analizie wielowymiarowej, których stosowanie jest uza- leżnione od skal pomiaru zmiennych.
1.3
TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH Jeśli w badaniu są wykorzystywane metody porządkowania liniowego zbioru obiektów, to zachodzi potrzeba:
1) ujednolicenia charakteru zmiennych będących przedmiotem agregacji, z wy- korzystaniem postulatu jednolitej preferencji zmiennych
1,
2) pozbawienia wartości zmiennych mian i ujednolicenia rzędów wielkości w celu doprowadzenia ich do porównywalności (transformacja normalizacyjna).
W sytuacji, gdy w badaniu będą wykorzystywane metody analizy skupień i ska- lowania wielowymiarowego, zmienne muszą być sprowadzone do porównywalno- ści poprzez transformacje normalizacyjne. Stosuje się je w przypadku, gdy zmienne są mierzone na skali przedziałowej i ilorazowej. W odniesieniu do słabych skal po- miaru nie zachodzi potrzeba normalizacji, na ich wartościach bowiem nie wyznacza się ani relacji równości różnic i przedziałów, ani stosunków.
Inne metody statystycznej analizy wielowymiarowej (analiza regresji, metody drzew klasyfikacyjnych, conjoint analysis, analiza czynnikowa
2, analiza dyskrymi- nacyjna, analiza korelacji kanonicznej, analiza wariancji i kowariancji) nie wymaga- ją uprzedniej transformacji normalizacyjnej oraz ujednolicania zmiennych.
1 W metodach porządkowania liniowego, w których wykorzystuje się syntetyczne mierniki bazu-W metodach porządkowania liniowego, w których wykorzystuje się syntetyczne mierniki bazu- metodach porządkowania liniowego, w których wykorzystuje się syntetyczne mierniki bazu- jące na wzorcu rozwoju, nie zawsze zachodzi potrzeba ujednolicania charakteru zmiennych.
2 W analizie czynnikowej wykorzystuje się standaryzację.
1.3. TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH
17 Jeśli celem badania jest uporządkowanie liniowe zbioru obiektów, istotnego zna- czenia nabiera klasyfikacja zmiennych ze względu na preferencje wśród zmiennych.
Wyróżnia się wtedy stymulanty (S), destymulanty (D) i nominanty (N). Pojęcie sty- mulanty i destymulanty wprowadził Hellwig [1968], a nominanty – Borys [1978].
Przeciwieństwem zmiennych preferencyjnych są zmienne neutralne (obojętne) (por.
[Borys 1984, s. 111, 121]).
Zmienna M
jjest destymulantą (zob. [Hellwig 1981, s. 48]), gdy dla każdych dwóch jej obserwacji
3x x
ijD,
kjDodnoszących się do obiektów A A
i,
kjest x
ijD> x
kjD⇒ A
i≺ A
k( ≺ oznacza dominację obiektu A
knad obiektem A
i).
Zmienna M
jjest stymulantą (zob. [Hellwig 1981, s. 48]), gdy dla każdych dwóch jej obserwacji , x x odnoszących się do obiektów
ijS kjSA A
i,
kjest x
ijS> x
kjS⇒ A
iA
k( oznacza dominację obiektu A
inad obiektem A
k).
W badaniach empirycznych dla nominant zachodzi potrzeba ustalenia obserwa- cji lub przedziału liczbowego (zbioru kategorii dla zmiennych porządkowych), który uznajemy za nominalny. Spośród nominant rozważane będą w pracy tylko nominan- ty jednomodalne. Nominanty wielomodalne omówiono m.in. w pracy Borysa [1984, s. 118]. Za najbardziej korzystną obserwację nominanty jednomodalnej jest uznawa- na wartość (kategoria dla zmiennych porządkowych) nominalna zmiennej, a za ob- serwację najmniej korzystną – wartość (kategoria dla zmiennych porządkowych) minimalna lub maksymalna.
Zmienna M
jjest więc nominantą jednomodalną (zob. [Borys 1984, s. 118]), gdy dla każdych dwóch jej obserwacji x x
ijN,
kjNodnoszących się do obiektów A A
i,
kjeżeli
– x x
ijN,
kjN≤ nom
j, to x
ijN> x
kjN⇒ A
iA
k, jeżeli
– x x
ijN,
kjN> nom
j, to x
ijN> x
kjN⇒ A
i≺ A
k, gdzie nom
jto nominalny poziom j-tej zmiennej.
Przez ujednolicenie charakteru zmiennych rozumie się takie przekształcenie każdej zmiennej, że dla każdych dwóch obserwacji x
ij, x
kjj-tej zmiennej odnoszą- cych się do obiektów A A
i,
k( x
ij> x
kj) ⇒ A
iA
k.
(1.7) Problem ujednolicenia charakteru zmiennych nie występuje wtedy, gdy w zbio- rze zmiennych są tylko stymulanty. W dalszym ciągu zakładamy, że ujednolicenie zmiennych polega na przekształceniu wszystkich zmiennych na stymulanty. Zagad- nienie ujednolicenia charakteru zmiennych sformułowano w ten sposób dlatego, że w badaniach empirycznych stymulanty stanowią na ogół dominującą grupę zmien- nych preferencyjnych. Formuły zamiany destymulant i nominant na stymulanty przedstawiono m.in. w pracach: [Borys 1984, s. 289-308; Dziechciarz, Strahl, Wale- siak 2001; Grabiński 1984, s. 34-35; Kukuła 2000, s. 58-59; Strahl 1978; Strahl, Walesiak 1997; Walesiak 1993a, s. 38-40; 1996, s. 36-38].
3 Liczb rzeczywistych dla danych metrycznych oraz kategorii dla danych porządkowych.
18
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJTypowe formuły transformacji destymulant na stymulanty dla danych metrycz- nych można wyrazić wzorami:
a) ilorazowa: x
ij= b x ( )
ijD −1(b > 0), (1.8) gdzie: x
ijD– wartość j-tej destymulanty zaobserwowana w i-tym obiekcie,
b – stała przyjmowana arbitralnie (np. b = min
i{ } x
ijD, b = 1 );
b) różnicowa: x
ij= − a bx b
ijD( > 0) , (1.9) gdzie: a, b – stałe przyjmowane arbitralnie (np. b = 1 , a = 0 lub max{ }).
ijDa =
ix
Formułę (1.8) można stosować jedynie do destymulant mierzonych na skali ilo- razowej (tylko dla nich bowiem zbiór możliwych wartości zawiera się w R
+). Stymu- lanta otrzymana w wyniku przekształcenia będzie również mierzona na skali ilora- zowej. Formuła (1.9) może być stosowana do destymulant mierzonych na skali zarówno ilorazowej, jak i przedziałowej. Na ogół stymulanta otrzymana w wyniku przekształcenia (1.9) jest mierzona na skali przedziałowej. Można jednak podać przykład takich destymulant mierzonych na skali ilorazowej, że stymulanty otrzy- mane w wyniku ich przekształcenia (1.9) również są mierzone na skali ilorazowej – np. zamiana destymulanty „wskaźnik zużycia środków trwałych w %” na sty- mulantę „wskaźnik niezużycia środków trwałych w %” (w formule (1.9) b = 1 i a = 100%).
W badaniach empirycznych do zamiany nominant na stymulanty dla danych me- trycznych wykorzystuje się następujące formuły:
a) ilorazowa: min{ ; }
max{ ; }
N j ij
ij N
j ij
nom x
x = nom x , (1.10)
gdzie: x
ijN– wartość j-tej nominanty zaobserwowana w i-tym obiekcie, nom
j– nominalny poziom j-tej zmiennej;
b) różnicowa: x
ij= − x
ijN− nom
j. (1.11)
Formułę (1.10) można stosować jedynie do nominant mierzonych na skali ilora- zowej (tylko dla nich bowiem zbiór możliwych wartości zawiera się w R
+). Uzyska- na stymulanta będzie mierzona w skali ilorazowej. Stymulanta uzyskana w wyniku zastosowania wzoru (1.11) jest mierzona na skali przedziałowej.
W podrozdziale 3.3 przedstawione zostaną dwie metody zamiany nominant na destymulanty dla danych porządkowych z wykorzystaniem odległości GDM2 (me- toda I z powtórzeniami, metoda II bez powtórzeń).
Jeśli w badaniu wykorzystywane będą metody klasyfikacji, skalowania wielo-
wymiarowego lub metody porządkowania liniowego zbioru obiektów, to zachodzi
potrzeba pozbawienia wartości zmiennych mian i ujednolicenia rzędów wielkości w
celu doprowadzenia ich do porównywalności. Operacja ta nosi nazwę transformacji
normalizacyjnej.
1.3. TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH
19 Ze względu na to, że jedynymi dopuszczalnymi przekształceniami (por. (1.5) i (1.6)) na skali przedziałowej i ilorazowej są przekształcenia liniowe, formuły nor- malizacyjne można wyrazić ogólnym wzorem:
z
ij= bx
ij+ a ( b > 0). (1.12) Szczególnymi przypadkami wzoru (1.12) są formuły ujęte w tab. 1.2 (por. np.
[Abrahamowicz 1985; Borys 1984, s. 297-308; Grabiński 1992, s. 35-38; Jajuga 1981; Jajuga, Walesiak 2000; Milligan, Cooper 1988; Nowak 1990, s. 38-39; Wale- siak 2002b, s. 19]).
Normalizację wartości zmiennych przeprowadza się w pakiecie clusterSim z wykorzystaniem funkcji:
data.Normalization(x,type=″n0″) gdzie: x – macierz danych,
type – typ formuły normalizacyjnej z tab. 1.2.
Tabela 1.2. Formuły normalizacyjne
Typ Nazwa formuły Formuła Skala pomiaru zmiennych
przed normalizacją po normalizacji
n0 Bez normalizacji – ilorazowa i (lub)
przedziałowa
–
n1 Standaryzacja ilorazowa i (lub)
przedziałowa
przedziałowa n2 Standaryzacja
Webera∗ zij=
(
xij−Mej)
1,4826MADj ilorazowa i (lub) przedziałowaprzedziałowa
n3 Unitaryzacja ilorazowa i (lub)
przedziałowa
przedziałowa n4 Unitaryzacja
zerowana ij ij min { }ij j
i
z =⎡⎢⎣x − x ⎤⎥⎦ r
ilorazowa i (lub) przedziałowa
przedziałowa n5 Normalizacja∗∗
w przedziale [–1; 1]
ilorazowa i (lub) przedziałowa
przedziałowa n6 Przekształcenia
ilorazowe
ilorazowa ilorazowa
n7 ilorazowa ilorazowa
n8 ilorazowa ilorazowa
n9 ilorazowa ilorazowa
n10 ilorazowa ilorazowa
n11 ilorazowa ilorazowa
∗ Zob. [Lira, Wagner, Wysocki 2002, s. 91].
∗∗ Zob. [Rybaczuk 2002, s. 147].
xij(zij) – wartość (znormalizowana wartość) j-tej zmiennej dla i-tego obiektu, xj(sj, rj) – średnia (odchylenie standardowe, rozstęp) dla j-tej zmiennej, Mej(MADj) – mediana (medianowe odchylenie bezwzględne) dla j-tej zmiennej.
Źródło: opracowanie własne.
( )
ij ij j j
z = x −x s
( )
ij ij j j
z = x −x r
( )
maxij ij j i ij j
z = x −x x −x
ij ij j
z =x s
ij ij j
z =x r max{ }
ij ij i ij
z =x x
ij ij j
z =x x
1 n
ij ij i ij
z =x
∑
=x2 1 n
ij ij i ij
z =x
∑
=x20
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJUjednolicenie rzędów wielkości jest możliwe tylko w razie jednolitego określe- nia wartości zerowej dla wszystkich zmiennych (zob. [Walesiak 1988]). Przekształ- cenia ilorazowe można stosować tylko wtedy, gdy zmienne są mierzone na skali ilorazowej (istnieje dla niej absolutny punkt zerowy). Gdy zbiór zawiera zmienne mierzone na skali przedziałowej lub przedziałowej i ilorazowej, wówczas do norma- lizacji można stosować pozostałe formuły normalizacyjne, wprowadzające jednoli- cie określoną wartość zerową (umowną) dla wszystkich zmiennych. Standaryzacja klasyczna (standaryzacja Webera), unitaryzacja, normalizacja w przedziale [–1; 1]
określają umowną wartość zerową na poziomie średniej wartości zmiennej (media- ny), a unitaryzacja zerowana – na poziomie wartości minimalnej. Zastosowanie tych formuł normalizacyjnych do zmiennych mierzonych na skali ilorazowej, aczkolwiek formalnie poprawne, spowoduje stratę informacji wskutek „przejścia” wszystkich zmiennych na skalę przedziałową. Strata informacji przejawia się m.in. ogranicze- niem zastosowania różnych technik statystycznych i ekonometrycznych.
Przy wyborze formuły normalizacyjnej należy brać pod uwagę nie tylko skale pomiaru zmiennych, ale również takie charakterystyki rozkładu zmiennych, jak:
średnia arytmetyczna, odchylenie standardowe i rozstęp wyznaczony dla znormali- zowanych wartości zmiennych (por. tab. 1.3).
Tabela 1.3. Charakterystyki rozkładu wartości zmiennych po normalizacji Formuła Średnia arytmetyczna* Odchylenie standardowe* Rozstęp
0 1
0 1
0 1
min { }
j ij j
i
x x r
⎡ − ⎤
⎢ ⎥
⎣ ⎦ 1
0
1
1
1
* Dla standaryzacji Webera: mediana i medianowe odchylenie bezwzględne.
, ,
j j j
x s r – średnia arytmetyczna, odchylenie standardowe, rozstęp dla j-tej zmiennej.
Źródło: opracowanie własne na podstawie [Jajuga, Walesiak 2000, s. 109; Lira, Wagner, Wysocki 2002, s. 91].
j j
r s 1,4826
j j
r ⋅MAD
(xij−xj) rj s rj j
j j
s r (xij−xj) sj
j maxi ij j
r x −x
j maxi ij j
s x −x
(
xij−xj)
maxi xij−xjij j
x s x sj j r sj j
ij j
x r x rj j s rj j
max{ }
ij i ij
x x j max{ }ij
x i x j max{ }ij
s i x j max{ }ij
r i x
ij j
x x s xj j r xj j
1 n
ij i ij
x
∑
=x 1 n sj∑
ni=1xij 1n
j i ij
r
∑
=x2 1 n
ij i ij
x
∑
=x 1 2n
j i ij
x
∑
=x 1 2n
j i ij
s
∑
=x 1 2n
j i ij
r
∑
=x(
xij−Mej)
1,4826⋅MADjmin { }
ij ij j
i
x x r
⎡ − ⎤
⎢ ⎥
⎣ ⎦
1.3. TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH
21 Analiza tab. 1.3 pozwala sformułować następujące wnioski (zob. [Jajuga, Wale- siak 2000, s. 110-111; Walesiak 2002b, s. 20]):
a) formuły normalizacyjne (unitaryzacja, unitaryzacja zerowana, przekształcenie ilorazowe z podstawą normalizacji równą rozstępowi) są cenne, ponieważ zapewniają znormalizowanym wartościom zmiennych zróżnicowaną zmienność (mierzoną od- chyleniem standardowym) i jednocześnie stały rozstęp dla wszystkich zmiennych;
b) standaryzacja klasyczna (Webera) oraz przekształcenie ilorazowe z podstawą normalizacji równą odchyleniu standardowemu powodują ujednolicenie wartości wszystkich zmiennych pod względem zmienności mierzonej odchyleniem standar- dowym (medianowym odchyleniem bezwzględnym); oznacza to wyeliminowanie zmienności jako podstawy różnicowania obiektów; standaryzację Webera należy stosować, gdy rozkład empiryczny badanych zmiennych jest silnie asymetryczny (zob. [Lira, Wagner, Wysocki 2002, s. 91]);
c) przekształcenia ilorazowe z podstawą normalizacji równą maksimum oraz pierwiastkowi z sumy kwadratów obserwacji zapewniają znormalizowanym warto- ściom zmiennych zróżnicowaną zmienność, średnią arytmetyczną i rozstęp;
d) przekształcenia ilorazowe z podstawą normalizacji równą sumie i średniej arytmetycznej oraz normalizacja w przedziale [–1; 1] zapewniają znormalizowanym wartościom zmiennych zróżnicowaną zmienność i rozstęp oraz stałą dla wszystkich zmiennych średnią arytmetyczną; pierwsza formuła stanowi podstawę normalizacji w badaniach strukturalnych;
e) wszystkie formuły normalizacyjne, będące przekształceniami liniowymi ob- serwacji na każdej zmiennej, zachowują skośność i kurtozę rozkładu zmiennych, ponadto dla każdej pary zmiennych wszystkie formuły normalizacyjne nie zmienia- ją wartości współczynnika korelacji liniowej Pearsona.
Po zastosowaniu jednego ze sposobów normalizacji otrzymuje się znormalizo- waną macierz danych:
11 12 1
21 22 2
1 2
[ ]
m
m ij
n n nm
z z z
z z z
z
z z z
⎡ ⎤
⎢ ⎥
⎢ ⎥
= ⎢ − − − − ⎥
⎢ ⎥
⎣ ⎦
, (1.13)
gdzie: z
ij– znormalizowana wartość j-tej zmiennej w i-tym obiekcie.
Zatem znormalizowana wielowymiarowa obserwacja (m-wymiarowa) będzie zapisywana w formie wektora:
z
i= [z
i1, z
i2, ..., z
in]
T. (1.14)
Dla dotychczasowych formuł normalizacji wszystkie zmienne traktowane były
oddzielnie. W literaturze znana jest jedna formuła, zwana przekształceniem Mahala-
nobisa, która pozwala przeprowadzić normalizację łącznie dla wszystkich zmien-
nych (zob. [Jajuga 1993, s. 58; Jajuga, Walesiak 2000, s. 110]):
22
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ0,5
( ),
i i
=
−−
z S x x (1.15) gdzie: S – macierz kowariancji zbioru obserwacji,
x
i– wielowymiarowa obserwacja określona wzorem (1.2), x – wektor średnich zbioru obserwacji.
Macierz S
–0,5wyznacza się ze wzoru (por. [Jajuga 1993, s. 58]):
0,5
(
0,5 T) ,
1−
=
−S GL G (1.16) gdzie: L
0,5– macierz diagonalna o wymiarach m × m (na głównej przekątnej tej ma- cierzy znajdują się pierwiastki kwadratowe wartości własnych macie- rzy S uporządkowane malejąco);
G – macierz ortogonalna o wymiarach m × m, której kolumny są unormo- wanymi wektorami własnymi, odpowiadającymi uporządkowanym ma- lejąco wartościom własnym macierzy S.
1.4
POMIAR PODOBIEŃSTWA OBIEKTÓW W ŚWIETLE SKAL POMIARU I WAG ZMIENNYCH
Wykorzystanie metod klasyfikacji, skalowania wielowymiarowego i metod po- rządkowania liniowego bazujących na wzorcu rozwoju wymaga sformalizowania pojęcia „podobieństwo obiektów”. Stopień podobieństwa obiektów kwantyfikuje się za pomocą miar odległości oraz bliskości (por. [Dąbrowski, Laus-Mączyńska 1978, s. 49-51; Gatnar 1998, s. 27; Walesiak 1985a]).
Funkcja d A A : × → R (zbiór liczb rzeczywistych) będzie nazywana miarą odleg- łości wtedy i tylko wtedy, gdy spełnione są warunki ( d A A ( ,
i k) = d
ik) :
1) nieujemności: d
ik≥ 0 dla i k , = … 1, , ; n 2) zwrotności: d
ik= ⇔ = 0 i k ( i k , = … 1, , n );
3) symetryczności: d
ik= d
kidla i k , = … 1, , . n Jeśli ponadto spełniony jest warunek:
4) nierówności trójkąta: d
ik≤ d
il+ d
kldla i k l , , = … 1, , n , to miara odległości zwana jest metryką.
Na analogicznych zasadach zostanie określona miara bliskości. Funkcja :
g A A × → R będzie nazywana miarą bliskości wtedy i tylko wtedy, gdy spełnione będą warunki ( g A A ( ,
i k) = g
ik) :
1) nieujemności: 0 ≤ g
ik< 1 dla i k ≠ ( i k , = … 1, , n ), 2) zwrotności: g
ik= ⇔ = 1 i k ( i k , = … 1, , n ), 3) symetryczności: g
ik= g
ki( i k , = … 1, , n ).
Sposoby transformacji miar bliskości na miary odległości wyrażają formuły (por. [Zakrzewska 1987, s. 212]):
d
ik= − 1 g
ik, (1.17)
1.4. POMIAR PODOBIEŃSTWA OBIEKTÓW W ŚWIETLE SKAL POMIARU...
23
d
ik= 1 − g
ik, (1.18) d
ik= − log g
ik. (1.19) Miary podobieństwa mają analogiczną interpretację (chociaż ze względu na od- mienne konstrukcje przybierają na ogół różne wartości liczbowe). Dwa obiekty są tym bardziej podobne, im mniej się różnią co do wartości zmiennych.
Stosowanie konkretnych konstrukcji miar odległości jest uzależnione od:
a) skali pomiaru zmiennych, gdy zmienne są mierzone na tej samej skali pomia- ru; w literaturze wypracowano wiele propozycji miar odległości znajdujących zasto- sowanie do zmiennych mierzonych na skali: ilorazowej, przedziałowej i (lub) ilora- zowej, porządkowej, nominalnej (w tym dla zmiennych binarnych);
b) zastosowanej formuły normalizacji wartości zmiennych;
c) spełniania przez daną formułę dodatkowych własności (np. warunku nierów- ności trójkąta – miara odległości zwana jest wtedy metryką); spośród miar odległości obiektów opisanych zmiennymi mierzonymi na skali przedziałowej lub ilorazowej najczęściej wykorzystuje się z tego powodu odległość euklidesową i jej kwadrat;
d) skal pomiaru zmiennych, gdy zbiór zmiennych zawiera zmienne mierzone na skalach różnych rodzajów.
Problem stosowania różnych miar podobieństwa w zasadzie nie występuje wte- dy, gdy wszystkie zmienne opisujące badane obiekty są mierzone na skali jedne- go typu. Tabela 1.4 zawiera zestawienie podstawowych miar odległości dla zmien- nych mierzonych na skali ilorazowej lub przedziałowej.
Podstawową miarą odległości obiektów A A
i,
k, opisanych za pomocą zmien- nych mierzonych na skali przedziałowej lub ilorazowej, jest metryka Minkowskie- go. Szczególnymi jej przypadkami są odległość miejska, euklidesowa i Czebyszewa.
Cenną zaletą tych trzech miar odległości jest to, że mają interpretację geometryczną.
W badaniach wykorzystuje się dwie pierwsze miary, tzn. odległość miejską i eukli- desową.
W konstrukcji miar odległości z wagami zróżnicowanymi (1) przyjęto założenie, że ważeniu podlegają wartości zmiennych. Zatem macierz ważonych obserwacji na zmiennych przyjmuje postać:
1 11 2 12 1
1 21 2 22 2
1 1 2 2
[ ]
m m
m m
j ij
n n m nm
w z w z w z
w z w z w z
w z
w z w z w z
⎡ ⎤
⎢ ⎥
⎢ ⎥
⋅ =
⎢ − − − − ⎥
⎢ ⎥
⎣ ⎦
. (1.20)
Dla miar odległości z wagami zróżnicowanymi (2) przyjęto założenie, że waże-
niu podlegają odległości cząstkowe wyznaczone dla j-tej zmiennej (por. [Gordon
1999, s. 30]). Zastosowanie wag w
jpozwala wyznaczyć średnią ważoną odległość
między obiektami A
ii A
k.
24
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJTabela 1.4. Miary odległości (zmienne mierzone na skali ilorazowej lub przedziałowej) Nazwa miary
odległości
Odległość dik
wagi jednakowe wagi zróżnicowane (1) wagi zróżnicowane (2) Minkowskiego (p ≥ 1)
1 ,
m p
p j=vik j
∑
1 ,m p p
p
j ik j j=w v
∑
1 ,m p
p
j ik j j=w v
∑
– miejska (p = 1)
1 , m j=vik j
∑
1 ,m j ik j j=w v
∑
– euklidesowa (p = 2) 2
1 , m
j=vik j
∑
1 2 2, mj ik j j=w v
∑
1 2,m j ik j j=w v
∑
– Czebyszewa (p →∞) max ik j,
j v max j ik j,
j w v
Canberra ,
1( )
m ik j
j
ij kj
v z z
= +
∑
1 ( , )m ik j
j j
ij kj
w v z z
= +
∑
Braya-Curtisa
1 ,
1( )
m j ik j m
ij kj
j
v z z
=
= +
∑ ∑
1 ,
1 ( )
m j ik j j m
j ij kj
j
w v w z z
=
= +
∑ ∑
Clarka 2
1
1 m ij kj
j ij kj
z z m = z z
⎛ − ⎞
⎜ ⎟
⎜ + ⎟
⎝ ⎠
∑
21
1 m ij kj j
j ij kj
z z m =w z z
⎛ − ⎞
⎜ ⎟
⎜ + ⎟
⎝ ⎠
∑
Jeffreysa-Matusita 1
( )
2m
ij kj
j= z − z
∑
1( )
2m
j ij kj
j=w z − z
∑
, ;
ik j ij kj
v = z −z wj – waga j-tej zmiennej spełniająca warunki: wj∈(0; )m ,
∑
mj=1wj=m (liczba zmiennych) lub wj∈(0;1),∑
mj=1wj=1; z zij( )kj – znormalizowana wartość j-tej zmiennej dla i-tego (k-tego) obiektu;(1) – ważeniu podlegają wartości zmiennych (wagi liniowe);
(2) – ważeniu podlegają odległości cząstkowe wyznaczone dla j-tej zmiennej.
Źródło: opracowanie własne na podstawie prac [Bąk 1999, s. 19-22, 62-63; Cormack 1971; Everitt i in.
2011, s. 50; Gordon 1981, s. 21-22; 1999, s. 20-21; Walesiak 2002c; Wedel, Kamakura 1998, s. 47; Zaborski 2001, s. 44; Zeliaś i in. 2000, s. 83-85].
Miary odległości dla zmiennych mierzonych na skali ilorazowej i (lub) przedzia- łowej zamieszczone w tab. 1.4 wykorzystują w obliczeniach znormalizowane warto- ści zmiennych. Wyznaczanie odległości z wykorzystaniem pierwotnych wartości zmiennych x
ijjest możliwe za pomocą odległości Mahalanobisa (por. [Jajuga 1990, s. 22]):
d
ik= ⎡ ⎣ ( x
i− x
k)
TS x
−1(
i− x
k) ⎤ ⎦
0,5(1.21) lub w zapisie skalarnym:
0,5
1 1
( )( ) ,
m m
ik jl ij kj il kl
j l
d s x x x x
= =