UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ Z WYKORZYSTANIEM PROGRAMU R

(1)

Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu Wrocław 2011

Marek Walesiak

UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE

WIELOWYMIAROWEJ

Z WYKORZYSTANIEM PROGRAMU R

(2)

Senacka Komisja Wydawnicza

Zdzisław Pisz (przewodniczący),

Andrzej BqIc, Krzysztof Jajuga. Andrzej MaI)IsiaJc. Waldemar Podgórski,

Mieczysław Przybyła, Aniela Styś, Stanisław Urban

Recenzent

Andrzej Sokołowski

Redakcja wydawnicza Dorota Pitulec

Redakcja techniczna Barbara Łopuslewicz

Korekta Barbara Cibis

Skład i łamanie

Beata Mazur

Projekt okładki

Beala Dębska

Na okładce wykorzystano zdjęcie z zasobów 123 Royality Free

Tytułdofinansowano ze środków na działalność statutową Katedry Ekonometrii i Infonnatyki Uniwersytetu Ekonomicznego we Wrocławiu

Kopiowanie i powielanie w jakiejkolwiek fonnie wymaga pisemnej zgody Wydawcy

CI Copyńght by Uniwersytet Ekonomiczny we Wrocławiu Wrocław 20 I ł

ISBN 978-83-7695-131-4

Druk: Drukarnia lOTEM

(3)

SPIS TREŚCI

WSTĘP.

. . . 7

l. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELO WYMIAROWEJ ... ,... 11

1.1. Zagadnienia

^wstępne

... 11

1.2. Typy skal pomiarowych i ich charakterystyka. . . 13

1.3. Transformacja nonnalizacyjna i ujednolicanie zmiennych . . . 16

1.4. Pomiar

podobieństwa

obiektów w

świetle

skal pomiaru i wag zmien nych . . . 22

1.5. Strategie

postępowania

w pomiarze

odJegłości

dla danych

porządkowych

31 2. UOGÓLNIONA MIARA

ODLEGŁOŚCI

GDM ... :... 36

2.1. Wprowadzenie ... 36

2.2. Uogólniony

współczynnik

korelacji ... 36

2.3. Charakterystyka uogólnionej miary

odległości

... 38

2.4. Silne i

słabe

strony uogólnionej miary

odległości.

. . . 44

2.5.

Postać

uogólnionej miary

odległości

dla zmiennych z

^różnych

skal po miaru . . . 46

2.6.

Postać

uogólnionej miary

odległości

dla

zróżnicowanych

wag zmien nych . . . • . . .

47

2.7. Kwadrat

odległości

euklidesowej a

współczynnik

korelacji liniowej Pearsona i cosinus

kąta między

wektorami ... 48

2.8. GDM a

współczynnik

korelacji liniowej Pearsona i cosinus

kąta mię-

dzy wektorami. . . 50

3. OBSZARY

ZASTOSOWAŃ

UOGÓLNIONEJ MIARY

ODLEGŁOŚCI

GDM W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ ... 54

3.

ł.

Wyznaczanie macierzy

odległości

w procesie klasyfikacji obiektów. . . 54

3.2. Ocena

podobieństwa

wyników klasyfikacji zbioru obiektów w czasie 68 3.3. Uogólniona miara

odległości

ODM jako syntetyczny miernik rozwoju w metodach

porządkowania

liniowego . . . • . . . 73

3.4. Ocena

podobieństwa

wyników

porządkowania

liniowego zbioru obiek tów w czasie ... 78

4. UOGÓLNIONA MIARA

ODLEGŁOŚCI

GDM W

ŚWIETLE

WYBRA NYCH EKSPERYMENTÓW SYMULACYJNYCH ... 82

4.1. Losowe generowanie danych o znanej strukturze klas w pakiecie cIu

sterSirn ... 82

(4)

6

SPIS TREŚCI

4.2. Analiza porównawcza metod klasyfikacji dla danych o znanej struktu

rze klas ... . . . • . . . 87 4.3. Ocena wybranych procedur analizy

skupień

dla danych

porządkowych

92 5. WYBRANE ZASTOSOWANIA UOGÓLNIONFJ MIARY ODLEGŁO-

ŚCI

GDM Z WYKORZYSTANIEM PROGRAMU R ... 98 5.1.

Porządkowanie

liniowe zbioru obiektów na podstawie danych

porząd-

kowych z rynku

nieruchomości

... 98 5.2.

Porządkowanie

liniowe zbioru obiektów na podstawie danych metrycz

nych

dotyczących

warunków zamieszkiwania

ludności

w miastach ... 102 5.3. Ocena

podobieństwa

wyników

porządkowania

liniowego zbioru obiek

tów w czasie na podstawie danych metrycznych

dotyczących

warun

ków zamieszkiwania

ludności

w miastach, . . .

ł

05 5.4. Analiza

skupień

zbioru obiektów opisanych danymi

porządkowymi

z rynku

nieruchomości

. . . 108 5.5. Analiza

skupień

zbioru obiektów opisanych danymj metrycznymi do

tyczącymi

zanieczyszczenia powietrza ... " . . 112

LITERATURA .. . . J18

SKOROWIDZ ... 125

SPIS RYSUNKÓW ... 129

SPIS TABEL. . . 130

(5)

WSTĘP

Prezentowana książka stanowi podsumowanie rozważań autora zawartych w wielu opracowaniach dotyczących miary odległości, która została w pierwotnej wer- sji zaproponowana dla zmiennych porządkowych [Walesiak 1993a, s. 44-45], a na- stępnie dla danych metrycznych [Walesiak 2002a] i nominalnych [Walesiak 2003c].

Podstawowe części książki zostały opublikowane m.in. w „Argumenta Oeconomi- ca”, „Przeglądzie Statystycznym”, „Badaniach Operacyjnych i Decyzjach”, Pracach Naukowych Akademii Ekonomicznej we Wrocławiu (obecnie Uniwersytetu Eko- nomicznego we Wrocławiu) oraz były referowane na konferencjach naukowych, w tym na konferencji Sekcji Klasyfikacji i Analizy Danych PTS (zob. [Walesiak, Bąk, Jajuga 2002; Walesiak 2003b; 2004b; 2011b; Walesiak, Dudek 2009a; 2010b]), konferencji Światowej Federacji Towarzystw Klasyfikacyjnych IFCS (zob. [Wale- siak, Dziechciarz, Bąk 1998; Walesiak, Dudek 2010a]) oraz Niemieckiego Towarzy- stwa Klasyfikacyjnego (zob. [Jajuga, Walesiak, Bąk 2003]).

Dotychczas uogólniona miara odległości zaprezentowana została w zwartej po- staci w dwóch wydaniach książkowych Wydawnictwa AE we Wrocławiu (zob.

[Walesiak 2002b; 2006]). Obecna monografia zawiera istotne zmiany i uzupełnie- nia wynikające w znacznej mierze z oprogramowania miary GDM w pakiecie clusterSim programu R. Całkowicie nowe są podrozdziały 1.5, 3.1 i 3.3 oraz rozdziały czwarty i piąty.

Praca składa się z pięciu rozdziałów.

W rozdziale pierwszym przedstawiono podstawowe zagadnienia statystycznej analizy wielowymiarowej. Wyjaśniono w nim takie podstawowe pojęcia, jak obiekt, zmienna, macierz i kostka danych. Scharakteryzowano typy skal pomiarowych oraz zagadnienie transformacji normalizacyjnej i ujednolicania zmiennych z punktu wi- dzenia skal pomiarowych. Ponadto zaprezentowano szeroką klasyfikację miar podo- bieństwa obiektów z uwzględnieniem problematyki ważenia zmiennych oraz skal ich pomiaru. Rozdział kończą rozważania dotyczące strategii postępowania w po- miarze odległości dla danych porządkowych.

W rozdziale drugim przedstawiono szczegółową charakterystykę uogólnionej

miary odległości GDM (Generalised Distance Measure). W konstrukcji miary odleg-

łości GDM wykorzystano ideę uogólnionego współczynnika korelacji, który obej-

muje współczynnik korelacji liniowej Pearsona i współczynnik korelacji zmiennych

porządkowych tau Kendalla. W związku z tym w części pierwszej tego rozdziału

zaprezentowano uogólniony współczynnik korelacji. W dalszej części scharaktery-

zowano uogólnioną miarę odległości GDM dla jednakowych i zróżnicowanych wag

zmiennych. Następnie wskazano silne i słabe strony uogólnionej miary odległości.

(6)

8

^WSTĘP

Rozważania teoretyczne zilustrowano licznymi przykładami poglądowymi. Zapre- zentowano postać uogólnionej miary odległości GDM uwzględniającą zmienne mie- rzone na skali metrycznej, porządkowej, nominalnej oraz zmienne z różnych skal pomiaru. Ponadto przedstawiono analizę związków między kwadratem odległości euklidesowej a współczynnikiem korelacji liniowej Pearsona i cosinusem kąta mię- dzy wektorami oraz między uogólnioną miarą odległości GDM a współczynnikiem korelacji liniowej Pearsona i cosinusem kąta między wektorami.

W rozdziale trzecim zaprezentowano obszary zastosowań uogólnionej miary od- ległości w statystycznej analizie wielowymiarowej. Podstawowymi obszarami za- stosowań tej miary są wyznaczanie macierzy odległości w procesie klasyfikacji zbioru obiektów oraz zastosowanie miary GDM jako syntetycznego miernika roz- woju w metodach porządkowania liniowego. Ponadto w rozdziale tym zaprezento- wano metody oceny podobieństwa wyników klasyfikacji zbioru obiektów oraz oce- ny podobieństwa wyników porządkowania liniowego zbioru obiektów w czasie.

Rozdział czwarty zawiera rezultaty wybranych eksperymentów symulacyjnych pozwalających ocenić zachowanie się uogólnionej miary odległości GDM przy róż- nych strukturach danych. W pierwszym podrozdziale scharakteryzowano zagadnienie losowego generowania danych o znanej strukturze klas w pakiecie clusterSim.

W drugim podrozdziale przedstawiono analizę porównawczą metod klasyfikacji dla danych o znanej strukturze klas dla trzech typów danych. W dwóch pierwszych eks- perymentach wykorzystano dane metryczne oraz porządkowe o znanej strukturze klas obiektów wygenerowane z wykorzystaniem z funkcji cluster.Gen pakietu clusterSim. W eksperymencie trzecim zbiory danych utworzono z wykorzysta- niem funkcji pakietu mlbench (spirals, smiley, cassini) oraz zbiorów własnych (worms, w3, skad). W podrozdziale trzecim, na podstawie porządkowych danych symulacyjnych wygenerowanych z wykorzystaniem z funkcji cluster.Gen pa- kietu clusterSim, przeprowadzono ocenę przydatności wybranych procedur ana- lizy skupień obejmujących miarę odległości GDM, dziewięć metod klasyfikacji oraz osiem indeksów służących ustaleniu liczby klas.

W rozdziale piątym zaprezentowano wybrane zastosowania uogólnionej miary odległości GDM1 i GDM2 w statystycznej analizie wielowymiarowej z wykorzysta- niem programu R. Znaczna część skryptów wykorzystuje pakiet clusterSim. Za- stosowania dotyczyły porządkowania liniowego i analizy skupień zbioru obiektów na podstawie danych porządkowych z rynku nieruchomości oraz porządkowania li- niowego na podstawie danych metrycznych dotyczących warunków zamieszkiwania ludności w miastach i analizy skupień obiektów opisanych danymi metrycznymi dotyczącymi zanieczyszczenia powietrza. Ponadto dokonano oceny podobieństwa wyników porządkowania liniowego zbioru obiektów w czasie na podstawie danych metrycznych dotyczących warunków zamieszkiwania ludności w miastach.

Pracę zamyka zestawienie wykorzystywanej literatury, spis rysunków i tabel

oraz skorowidz rzeczowy.

(7)

WSTĘP

9 Wersję instalacyjną programu R oraz dodatkowe pakiety (w tym pakiet clu- sterSim autorstwa Marka Walesiaka i Andrzeja Dudka) można pobrać ze strony:

http://www.r-project.org/. Wszystkie skrypty zawarte w książce przetestowano, uży- wając wersji 2.14.1 programu R.

Na stronie internetowej http://keii.ue.wroc.pl znajdują się pliki zawierające wy- korzystywane dane oraz skrypty realizujące zastosowania zamieszczone w książce.

Książka jest przeznaczona dla pracowników naukowych zajmujących się zasto-

sowaniem metod statystycznej analizy wielowymiarowej w każdej dziedzinie wie-

dzy, w tym w badaniach ekonomicznych. Ponadto odbiorcami książki mogą być

słuchacze wyższych uczelni studiujący zagadnienia statystycznej analizy wielowy-

miarowej i jej zastosowań.

(8)

(9)

1 PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ

ANALIZY WIELOWYMIAROWEJ

1.1 ZAGADNIENIA WSTĘPNE

Termin „statystyczna analiza wielowymiarowa” odnosi się do grupy metod sta- tystycznych, za pomocą których jednoczesnej analizie poddane są pomiary na przy- najmniej dwóch zmiennych opisujących każdy obiekt badania. Do podstawowych pojęć statystycznej analizy wielowymiarowej zalicza się pojęcia: obiekt i zmienna.

Głównym zagadnieniem jest określenie elementarnej jednostki badawczej, czyli obiektu badania.

Obiekty są rozumiane w sensie zarówno dosłownym, jak i przenośnym. Obiek- tem jest więc w badaniach określona rzecz, osoba, kategoria abstrakcyjna lub zda- rzenie. Konkretnymi przykładami obiektów są: konsument X, produkt Y, marka sa- mochodu S, pacjent P, gmina G, przedsiębiorstwo F, rzeka R, rynek testowy T, hipermarket H, rynek zbytu Z, gospodarstwo domowe D, idea filozoficzna I. Zbiór obiektów badania będzie oznaczany przez A = { } { A

_i 1ⁿ

= A

1

, , … A

_n

} .

Zmienna w statystycznej analizie wielowymiarowej jest charakterystyką opisu- jącą zbiorowość obiektów. W ujęciu formalnym zmienna M

_j

to odwzorowanie (por.

[Borys 1984, s. 87]):

j

:

M A → Q ( j = … 1, , ) m , (1.1) gdzie: Q – zbiór obrazów (liczb rzeczywistych, kategorii),

m – liczba zmiennych.

Metody statystycznej analizy wielowymiarowej (SAW) zwykle wymagają, aby realizacje zmiennych były liczbami rzeczywistymi – zachodzi więc potrzeba kodo- wania zmiennych wyrażonych w formie kategorii. Jeśli w odwzorowaniu (1.1) zbiór obrazów jest zbiorem kategorii, to należy go przekodować na zbiór liczb rzeczywi- stych. Można wykorzystać następujące sposoby kodowania zmiennych (zob. [Wale- siak 2011d]):

1. Jeśli dana zmienna ma tylko dwie kategorie, można ją zamienić na tzw. zmien-

ną sztuczną (np. zero-jedynkową). Jednemu wariantowi nadaje się wartość „1”,

a drugiemu wartość „0” lub „–1”. Na przykład dla zmiennej płeć kodowanie będzie

następujące: kobieta „1”, mężczyzna „0” lub „–1”.

(10)

12

1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ

2. Jeśli zmienna ma więcej niż dwie kategorie, to stosujemy sposób zamiany polegający na zastosowaniu zespołu zmiennych sztucznych (np. zero-jedynko- wych).

W modelu z wyrazem wolnym obowiązuje zasada, według której liczba wpro- wadzonych zmiennych sztucznych musi być mniejsza o jeden od liczby poziomów (kategorii) danej zmiennej. Załóżmy, że dla zmiennej wykształcenie występują trzy warianty (kategorie): podstawowe, zasadnicze zawodowe, średnie. Należy w tym przypadku wprowadzić dwie zmienne sztuczne, np. zdefiniowane następująco:

W modelu bez wyrazu wolnego wprowadza się tyle zmiennych sztucznych, ile jest poziomów (kategorii) danej zmiennej. Na przykład dla danych kwartalnych wprowadzamy 4 zmienne zero-jedynkowe o następującym kodowaniu:

Kodowanie zero-jedynkowe zmiennych umożliwia funkcja fact2dummy pa- kietu StatMatch programu R.

3. Poszczególnym kategoriom można przypisać kolejne liczby naturalne. Nie ma tutaj znaczenia, czy kategorie można uporządkować według stopnia intensywności oddziaływania (zmienna porządkowa), czy też nie można ich uporządkować (zmien- na nominalna). Na przykład dla zmiennej porządkowej organizacja pracy, obejmu- jącej kategorie bardzo dobra, dobra, słaba, zła, można zastosować kodowanie:

zła 1

słaba 2

dobra 3

bardzo dobra 4

Znajomość w analizie statystycznej zbioru obiektów i zmiennych pozwala zapi- sać macierz danych, w której dowolny element oznacza się przez x

_ij

(i = 1, …, n;

j = 1, …, m). Jest to obserwacja j-tej zmiennej w i-tym obiekcie. Wielowymiarowa obserwacja (m-wymiarowa) będzie zapisywana w formie wektora (por. [Jajuga 1993, s. 21]):

x

_i

= [x

_i1

, x

_i2

, ..., x

_im

]

^T

. (1.2) Jeśli do dwóch „wymiarów” (obiekty, zmienne) wprowadzi się „wymiar” czasu, to otrzymuje się tzw. kostkę danych. Pojęcia tego używają w swoich pracach m.in.

Wykształcenie 1

podstawowe 0 0

zasadnicze zawodowe 0 1

średnie 1 0

j j

M M ₊

lub

1

1 1

0 1

1 0

j j

M M₊

− −

1 2 3 4

Kwartał

I 1 0 0 0

II 0 1 0 0

III 0 0 1 0

IV 0 0 0 1

M M M M

(11)

1.2. TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA

13 Žukowska, Mučnik [1976, s. 15]; Jajuga [1987, s. 14-16; 1993, s. 21-23]; Grabiński [1992, s. 19]. Dowolną liczbę w kostce danych oznacza się przez x

_ijt

. Jest to wartość j-tej zmiennej w i-tym obiekcie w okresie t (i = 1, …, n; j = 1, …, m; t = 1, …, T).

W celu uproszczenia zapisu do wszystkich wzorów w pracy będzie stosowana zasa- da, według której indeks pasywny (stały) będzie pomijany.

W badaniach empirycznych wykorzystujących metody statystycznej analizy wielowymiarowej nie wychodzi się poza trzeci „wymiar”. Wiąże się to nie tylko z brakiem odpowiednich danych statystycznych, ale również z tym, że w dalszych etapach analizy wielowymiarowej pierwotne dane podlegają syntetyzacji. Ponadto w razie liczby wymiarów większej od trzech kłopotliwa staje się interpretacja wyni- ków końcowych.

Trójwymiarowe ujęcie w postaci kostki danych pozwala stosować w badaniach następujące schematy badawcze:

a) ujęcie całościowe, w którym wykorzystuje się całą kostkę danych – analizo- wany jest zbiór n obiektów w T okresach ze względu na m zmiennych;

b) ujęcie cząstkowe – kostka ma trzy wymiary, więc możliwe do uzyskania są trzy różne jej przekroje:

przekrój czas

– −zmienna, w którym jeden z obiektów jest analizowany w T okre- sach ze względu na m zmiennych,

przekrój obiekt

– −czas, w którym n obiektów jest analizowanych w T okresach ze względu na jedną zmienną,

przekrój obiekt

– −zmienna, w którym n obiektów jest analizowanych ze względu na m zmiennych w jednym okresie.

W dalszej części pracy będą wykorzystywane dwa ujęcia: całościowe oraz cząst- kowe w przekroju czas−zmienna i obiekt−zmienna z koncepcji kostki danych. Uję- cie cząstkowe w przekroju obiekt−czas nie będzie rozpatrywane, ponieważ jest to zagadnienie analizy jednowymiarowej.

1.2 TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA

W klasycznym ujęciu przez pomiar rozumie się przyporządkowanie liczb obiek- tom zgodnie z określonymi regułami w taki sposób, aby liczby odzwierciedlały rela- cje zachodzące między tymi obiektami (por. np. [Pawłowski 1969, s. 54; Choynow- ski 1971, s. 17]).

Podstawą teorii pomiaru jest pojęcie skali.

D

EFINICJA

1 (por. [Adams, Fagot, Robinson 1965, s. 101-102; Walesiak 1990b, s. 37]). Taką uporządkowaną czwórkę U =< A G H F ; ; ; > , że

a) A to niepusty zbiór obiektów, H – zbiór liczb rzeczywistych, G – klasa funkcji odwzorowujących A w H, F – klasa funkcji odwzorowujących H w H,

b) dla wszystkich g G ∈ i f ∈ F f g G , ∈ ,

(12)

14 c) F zawiera przekształcenie H na H, a ponadto dla każdego f f

_k

,

_l

∈ F złożenie

k l

,

f f ∈ F

nazywa się skalą pomiaru.

W teorii pomiaru rozróżnia się cztery podstawowe skale pomiaru, wprowadzone przez Stevensa [1946]. Definiując w odniesieniu do skali ilorazowej dopuszczalne przekształcenie, Stevens nie określił, do którego zbioru należy x w funkcji (1.6), tzn.

czy należy do całego zbioru liczb rzeczywistych, zbioru liczb rzeczywistych dodat- nich, czy rzeczywistych nieujemnych. Dopiero definicja Adamsa, Fagota i Robinso- na usunęła tę usterkę.

D

EFINICJA

2 (por. [Adams, Fagot, Robinson 1965, s. 103; Walesiak 1991, s. 13- -14]). U = <A; G; H; F> jest skalą nominalną wtedy i tylko wtedy, gdy F jest zbio- rem wszystkich funkcji f odwzorowujących H w H (H = R) takich, że

f – funkcja wzajemnie jednoznaczna. (1.3) D

EFINICJA

3 (por. [Adams, Fagot, Robinson 1965, s. 103; Walesiak 1991, s. 14]).

U = <A; G; H; F> jest skalą porządkową wtedy i tylko wtedy, gdy F jest zbiorem wszystkich funkcji f odwzorowujących H w H (H = R) takich, że

f – funkcja ściśle monotonicznie rosnąca. (1.4) D

EFINICJA

4 (por. [Adams, Fagot, Robinson 1965, s. 103; Walesiak 1990b, s. 37]). U = <A; G; H; F> jest skalą interwałową (przedziałową) wtedy i tylko wtedy, gdy H jest zbiorem wszystkich liczb rzeczywistych R i F jest zbiorem funkcji f takich, że dla dodatniego b

( ) , ( )

f x = bx a f x + ∈ R (1.5) dla wszystkich x R ∈ .

D

EFINICJA

5 (por. [Adams, Fagot, Robinson 1965, s. 103; Walesiak 1990b, s. 38]).

U = <A; G; H; F> jest skalą ilorazową (stosunkową) wtedy i tylko wtedy, gdy H jest zbiorem liczb rzeczywistych dodatnich R

₊

i F jest zbiorem funkcji f takich, że dla dodatniego b

( ) , ( )

f x = bx f x ∈ R

₊

(1.6) dla wszystkich x R ∈

₊

.

Skale pomiaru są uporządkowane od najsłabszej do najmocniejszej: nominalna,

porządkowa (rangowa), przedziałowa (interwałowa), ilorazowa (stosunkowa). Skale

przedziałową i ilorazową zalicza się do skal metrycznych, natomiast nominalną

i porządkową do niemetrycznych.

(13)

1.2. TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA

15 Z przytoczonych definicji 2-5 wynika, że z typem skali wiąże się grupa prze- kształceń, ze względu na które skala zachowuje swe własności. Dopuszczalnymi przekształceniami są więc te, które nie naruszają zasobu informacji zawartej dla mierzonej zmiennej. Skala U

₂

jest mocniejsza od skali U

₁

wtedy i tylko wtedy, gdy jej dopuszczalne przekształcenie jest zdegenerowanym przypadkiem dopuszczalne- go przekształcenia skali U

₁

(por. [Walenta 1971, s. 52]).

Podstawowe własności skal pomiaru zawiera tab. 1.1.

Tabela 1.1. Podstawowe własności skal pomiaru

Typ skali Dozwolone przekształcenia matematyczne

Dopuszczalne relacje

Dopuszczalne operacje arytmetyczne Nominalna z = f(x), f(x) – dowolne

przekształcenie wzajemnie jednoznaczne

równości ( ), różności ( )

zliczanie zdarzeń (liczba relacji równości, różności) Porządkowa z = f(x), f(x) – dowolna ściśle

monotonicznie rosnąca funkcja

powyższe oraz większości ( ) i mniejszości ( )

zliczanie zdarzeń (liczba relacji równości, różności, większości, mniejszości) Przedziałowa z = bx + a (b > 0), z ∈ R dla

wszystkich x zawartych w R, wartość zerowa na tej skali jest zwykle przyjmowana

arbitralnie lub na podstawie konwencji*

powyższe oraz równości różnic i przedziałów (x_A−x_B=x_C−x_D)

powyższe oraz dodawanie i odejmowanie

Ilorazowa z = bx (b > 0), z ∈ R₊ dla wszystkich x zawartych w R₊, naturalnym początkiem skali ilorazowej jest wartość zerowa (zero lewostronnie ogranicza zakres skali)

powyższe oraz równości ilorazów ^A ^C

B D

x x x x

⎛ = ⎞

⎜ ⎟

⎝ ⎠

powyższe oraz mnożenie i dzielenie

* Por. [Ackoff 1969, s. 240].

Źródło: opracowanie własne na podstawie prac [Stevens 1959, s. 25 i 27; Adams, Fagot, Robinson 1965; Walesiak 1995, s. 189-191; Walesiak, Bąk 2000, s. 17].

Jedna z podstawowych reguł teorii pomiaru mówi, że jedynie rezultaty pomiaru w skali mocniejszej mogą być transformowane na liczby należące do skali słabszej (por. np. [Steczkowski, Zeliaś 1981, s. 17; 1997, s. 19; Wiśniewski 1986; 1987; Wa- lesiak 1990b, s. 40]). Transformacja skal polegająca na ich wzmacnianiu nie jest możliwa, ponieważ z mniejszej ilości informacji nie można uzyskać większej jej ilości. W literaturze (por. [Anderberg 1973, s. 53-69; Pociecha 1986]) podawane są pewne aproksymacyjne metody przekształcania skal słabszych w silniejsze, opiera- jące się na pewnych dodatkowych informacjach. Stosując zaś dozwolone przekształ-

A B

x =x

A B

x ≠x

A B

x >x

A B

x <x

(14)

16 cenie wartości na skali, zachowujemy niezmienność typu skali przyjętej dla danej zmiennej.

Inna z reguł teorii pomiaru mówi, że metody ilościowe, które można stosować do wyników pomiaru w skali słabszej, stosuje się również do liczb uzyskanych z mierzenia na poziomie mocniejszym. Wynika to z tego, że skala mocniejsza zawie- ra w sobie dopuszczalne relacje skali słabszej.

Typ skali, ze względu na dopuszczalne przekształcenia, determinuje stosowanie rozmaitych technik statystyczno-ekonometrycznych. Technikami statystycznymi dopuszczalnymi dla danego typu skali są takie techniki, które dostarczają wyników (w sensie relacji) niezmiennych względem dopuszczalnych przekształceń (por. np.

[Walenta 1971, s. 61]). W artykule Handa [1996] dyskutowany jest problem relacji między skalami pomiaru a dopuszczalnymi dla nich technikami statystycznymi. Po- kazano w nim przykłady, które są źródłem kontrowersji w wypadku ścisłego stoso- wania reguł pomiaru.

Pierwsze zestawienie typowych technik statystycznych przydatnych w pomiarze dokonywanym na skalach różnych rodzajów zaprezentował Stevens [1959, s. 27].

W pracy Walesiaka [1996, s. 23-24] przedstawiono typowe metody i techniki wyko- rzystywane w statystycznej analizie wielowymiarowej, których stosowanie jest uza- leżnione od skal pomiaru zmiennych.

1.3 TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH Jeśli w badaniu są wykorzystywane metody porządkowania liniowego zbioru obiektów, to zachodzi potrzeba:

1) ujednolicenia charakteru zmiennych będących przedmiotem agregacji, z wy- korzystaniem postulatu jednolitej preferencji zmiennych

¹

,

2) pozbawienia wartości zmiennych mian i ujednolicenia rzędów wielkości w celu doprowadzenia ich do porównywalności (transformacja normalizacyjna).

W sytuacji, gdy w badaniu będą wykorzystywane metody analizy skupień i ska- lowania wielowymiarowego, zmienne muszą być sprowadzone do porównywalno- ści poprzez transformacje normalizacyjne. Stosuje się je w przypadku, gdy zmienne są mierzone na skali przedziałowej i ilorazowej. W odniesieniu do słabych skal po- miaru nie zachodzi potrzeba normalizacji, na ich wartościach bowiem nie wyznacza się ani relacji równości różnic i przedziałów, ani stosunków.

Inne metody statystycznej analizy wielowymiarowej (analiza regresji, metody drzew klasyfikacyjnych, conjoint analysis, analiza czynnikowa

²

, analiza dyskrymi- nacyjna, analiza korelacji kanonicznej, analiza wariancji i kowariancji) nie wymaga- ją uprzedniej transformacji normalizacyjnej oraz ujednolicania zmiennych.

1 W metodach porządkowania liniowego, w których wykorzystuje się syntetyczne mierniki bazu-W metodach porządkowania liniowego, w których wykorzystuje się syntetyczne mierniki bazu- metodach porządkowania liniowego, w których wykorzystuje się syntetyczne mierniki bazu- jące na wzorcu rozwoju, nie zawsze zachodzi potrzeba ujednolicania charakteru zmiennych.

2 W analizie czynnikowej wykorzystuje się standaryzację.

(15)

1.3. TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH

17 Jeśli celem badania jest uporządkowanie liniowe zbioru obiektów, istotnego zna- czenia nabiera klasyfikacja zmiennych ze względu na preferencje wśród zmiennych.

Wyróżnia się wtedy stymulanty (S), destymulanty (D) i nominanty (N). Pojęcie sty- mulanty i destymulanty wprowadził Hellwig [1968], a nominanty – Borys [1978].

Przeciwieństwem zmiennych preferencyjnych są zmienne neutralne (obojętne) (por.

[Borys 1984, s. 111, 121]).

Zmienna M

_j

jest destymulantą (zob. [Hellwig 1981, s. 48]), gdy dla każdych dwóch jej obserwacji

³

x x

_ij^D

,

_kj^D

odnoszących się do obiektów A A

_i

,

_k

jest x

_ij^D

> x

_kj^D

⇒ A

_i

≺ A

_k

( ≺ oznacza dominację obiektu A

_k

nad obiektem A

_i

).

Zmienna M

_j

jest stymulantą (zob. [Hellwig 1981, s. 48]), gdy dla każdych dwóch jej obserwacji , x x odnoszących się do obiektów

_ij^S _kj^S

A A

_i

,

_k

jest x

_ij^S

> x

_kj^S

⇒ A

_i

A

_k

( oznacza dominację obiektu A

_i

nad obiektem A

_k

).

W badaniach empirycznych dla nominant zachodzi potrzeba ustalenia obserwa- cji lub przedziału liczbowego (zbioru kategorii dla zmiennych porządkowych), który uznajemy za nominalny. Spośród nominant rozważane będą w pracy tylko nominan- ty jednomodalne. Nominanty wielomodalne omówiono m.in. w pracy Borysa [1984, s. 118]. Za najbardziej korzystną obserwację nominanty jednomodalnej jest uznawa- na wartość (kategoria dla zmiennych porządkowych) nominalna zmiennej, a za ob- serwację najmniej korzystną – wartość (kategoria dla zmiennych porządkowych) minimalna lub maksymalna.

Zmienna M

_j

jest więc nominantą jednomodalną (zob. [Borys 1984, s. 118]), gdy dla każdych dwóch jej obserwacji x x

_ij^N

,

_kj^N

odnoszących się do obiektów A A

_i

,

_k

jeżeli

– x x

_ij^N

,

_kj^N

≤ nom

_j

, to x

_ij^N

> x

_kj^N

⇒ A

_i

A

_k

, jeżeli

– x x

_ij^N

,

_kj^N

> nom

_j

, to x

_ij^N

> x

_kj^N

⇒ A

_i

≺ A

_k

, gdzie nom

_j

to nominalny poziom j-tej zmiennej.

Przez ujednolicenie charakteru zmiennych rozumie się takie przekształcenie każdej zmiennej, że dla każdych dwóch obserwacji x

_ij

, x

_kj

j-tej zmiennej odnoszą- cych się do obiektów A A

_i

,

_k

( x

_ij

> x

_kj

) ⇒ A

_i

A

_k

.

(1.7) Problem ujednolicenia charakteru zmiennych nie występuje wtedy, gdy w zbio- rze zmiennych są tylko stymulanty. W dalszym ciągu zakładamy, że ujednolicenie zmiennych polega na przekształceniu wszystkich zmiennych na stymulanty. Zagad- nienie ujednolicenia charakteru zmiennych sformułowano w ten sposób dlatego, że w badaniach empirycznych stymulanty stanowią na ogół dominującą grupę zmien- nych preferencyjnych. Formuły zamiany destymulant i nominant na stymulanty przedstawiono m.in. w pracach: [Borys 1984, s. 289-308; Dziechciarz, Strahl, Wale- siak 2001; Grabiński 1984, s. 34-35; Kukuła 2000, s. 58-59; Strahl 1978; Strahl, Walesiak 1997; Walesiak 1993a, s. 38-40; 1996, s. 36-38].

3 Liczb rzeczywistych dla danych metrycznych oraz kategorii dla danych porządkowych.

(16)

18 Typowe formuły transformacji destymulant na stymulanty dla danych metrycz- nych można wyrazić wzorami:

a) ilorazowa: x

ij

= b x ( )

ij^D ⁻¹

(b > 0), (1.8) gdzie: x

_ij^D

– wartość j-tej destymulanty zaobserwowana w i-tym obiekcie,

b – stała przyjmowana arbitralnie (np. b = ^min

i

{ } x

ij^D

, b = 1 );

b) różnicowa: x

_ij

= − a bx b

_ij^D

( > 0) , (1.9) gdzie: a, b – stałe przyjmowane arbitralnie (np. b = 1 , a = 0 lub max{ }).

_ij^D

a =

i

x

Formułę (1.8) można stosować jedynie do destymulant mierzonych na skali ilo- razowej (tylko dla nich bowiem zbiór możliwych wartości zawiera się w R

₊

). Stymu- lanta otrzymana w wyniku przekształcenia będzie również mierzona na skali ilora- zowej. Formuła (1.9) może być stosowana do destymulant mierzonych na skali zarówno ilorazowej, jak i przedziałowej. Na ogół stymulanta otrzymana w wyniku przekształcenia (1.9) jest mierzona na skali przedziałowej. Można jednak podać przykład takich destymulant mierzonych na skali ilorazowej, że stymulanty otrzy- mane w wyniku ich przekształcenia (1.9) również są mierzone na skali ilorazowej – np. zamiana destymulanty „wskaźnik zużycia środków trwałych w %” na sty- mulantę „wskaźnik niezużycia środków trwałych w %” (w formule (1.9) b = 1 i a = 100%).

W badaniach empirycznych do zamiany nominant na stymulanty dla danych me- trycznych wykorzystuje się następujące formuły:

a) ilorazowa: min{ ; }

max{ ; }

N j ij

ij N

j ij

nom x

x = nom x , (1.10)

gdzie: x

_ij^N

– wartość j-tej nominanty zaobserwowana w i-tym obiekcie, nom

_j

– nominalny poziom j-tej zmiennej;

b) różnicowa: x

_ij

= − x

_ij^N

− nom

_j

. (1.11)

Formułę (1.10) można stosować jedynie do nominant mierzonych na skali ilora- zowej (tylko dla nich bowiem zbiór możliwych wartości zawiera się w R

₊

). Uzyska- na stymulanta będzie mierzona w skali ilorazowej. Stymulanta uzyskana w wyniku zastosowania wzoru (1.11) jest mierzona na skali przedziałowej.

W podrozdziale 3.3 przedstawione zostaną dwie metody zamiany nominant na destymulanty dla danych porządkowych z wykorzystaniem odległości GDM2 (me- toda I z powtórzeniami, metoda II bez powtórzeń).

Jeśli w badaniu wykorzystywane będą metody klasyfikacji, skalowania wielo-

wymiarowego lub metody porządkowania liniowego zbioru obiektów, to zachodzi

potrzeba pozbawienia wartości zmiennych mian i ujednolicenia rzędów wielkości w

celu doprowadzenia ich do porównywalności. Operacja ta nosi nazwę transformacji

normalizacyjnej.

(17)

19 Ze względu na to, że jedynymi dopuszczalnymi przekształceniami (por. (1.5) i (1.6)) na skali przedziałowej i ilorazowej są przekształcenia liniowe, formuły nor- malizacyjne można wyrazić ogólnym wzorem:

z

_ij

= bx

_ij

+ a ( b > 0). (1.12) Szczególnymi przypadkami wzoru (1.12) są formuły ujęte w tab. 1.2 (por. np.

[Abrahamowicz 1985; Borys 1984, s. 297-308; Grabiński 1992, s. 35-38; Jajuga 1981; Jajuga, Walesiak 2000; Milligan, Cooper 1988; Nowak 1990, s. 38-39; Wale- siak 2002b, s. 19]).

Normalizację wartości zmiennych przeprowadza się w pakiecie clusterSim z wykorzystaniem funkcji:

data.Normalization(x,type=″n0″) gdzie: x – macierz danych,

type – typ formuły normalizacyjnej z tab. 1.2.

Tabela 1.2. Formuły normalizacyjne

Typ Nazwa formuły Formuła Skala pomiaru zmiennych

przed normalizacją po normalizacji

n0 Bez normalizacji – ilorazowa i (lub)

przedziałowa

–

n1 Standaryzacja ilorazowa i (lub)

przedziałowa

przedziałowa n2 Standaryzacja

Webera^∗ ^z^ij⁼

(

^x^ij⁻^Me^j

)

^1,4826^MAD^j ilorazowa i (lub) przedziałowa

przedziałowa

n3 Unitaryzacja ilorazowa i (lub)

przedziałowa

przedziałowa n4 Unitaryzacja

zerowana _ij _ij min { }_ij _j

i

z =⎡⎢⎣x − x ⎤⎥⎦ r

ilorazowa i (lub) przedziałowa

przedziałowa n5 Normalizacja^∗∗

w przedziale [–1; 1]

ilorazowa i (lub) przedziałowa

przedziałowa n6 Przekształcenia

ilorazowe

ilorazowa ilorazowa

n7 ilorazowa ilorazowa

∗ Zob. [Lira, Wagner, Wysocki 2002, s. 91].

∗∗ Zob. [Rybaczuk 2002, s. 147].

x_ij(z_ij) – wartość (znormalizowana wartość) j-tej zmiennej dla i-tego obiektu, x_j(s_j, r_j) – średnia (odchylenie standardowe, rozstęp) dla j-tej zmiennej, Me_j(MAD_j) – mediana (medianowe odchylenie bezwzględne) dla j-tej zmiennej.

Źródło: opracowanie własne.

( )

ij ij j j

z = x −x s

( )

ij ij j j

z = x −x r

( )

^max

ij ij j i ij j

z = x −x x −x

ij ij j

z =x s

ij ij j

z =x r max{ }

ij ij i ij

z =x x

ij ij j

z =x x

1 n

ij ij i ij

z =x

∑

₌x

2 1 n

ij ij i ij

z =x

∑

₌x

(18)

20 Ujednolicenie rzędów wielkości jest możliwe tylko w razie jednolitego określe- nia wartości zerowej dla wszystkich zmiennych (zob. [Walesiak 1988]). Przekształ- cenia ilorazowe można stosować tylko wtedy, gdy zmienne są mierzone na skali ilorazowej (istnieje dla niej absolutny punkt zerowy). Gdy zbiór zawiera zmienne mierzone na skali przedziałowej lub przedziałowej i ilorazowej, wówczas do norma- lizacji można stosować pozostałe formuły normalizacyjne, wprowadzające jednoli- cie określoną wartość zerową (umowną) dla wszystkich zmiennych. Standaryzacja klasyczna (standaryzacja Webera), unitaryzacja, normalizacja w przedziale [–1; 1]

określają umowną wartość zerową na poziomie średniej wartości zmiennej (media- ny), a unitaryzacja zerowana – na poziomie wartości minimalnej. Zastosowanie tych formuł normalizacyjnych do zmiennych mierzonych na skali ilorazowej, aczkolwiek formalnie poprawne, spowoduje stratę informacji wskutek „przejścia” wszystkich zmiennych na skalę przedziałową. Strata informacji przejawia się m.in. ogranicze- niem zastosowania różnych technik statystycznych i ekonometrycznych.

Przy wyborze formuły normalizacyjnej należy brać pod uwagę nie tylko skale pomiaru zmiennych, ale również takie charakterystyki rozkładu zmiennych, jak:

średnia arytmetyczna, odchylenie standardowe i rozstęp wyznaczony dla znormali- zowanych wartości zmiennych (por. tab. 1.3).

Tabela 1.3. Charakterystyki rozkładu wartości zmiennych po normalizacji Formuła Średnia arytmetyczna* Odchylenie standardowe* Rozstęp

0 1

min { }

j ij j

i

x x r

⎡ − ⎤

⎢ ⎥

⎣ ⎦ 1

0

1

* Dla standaryzacji Webera: mediana i medianowe odchylenie bezwzględne.

, ,

j j j

x s r – średnia arytmetyczna, odchylenie standardowe, rozstęp dla j-tej zmiennej.

Źródło: opracowanie własne na podstawie [Jajuga, Walesiak 2000, s. 109; Lira, Wagner, Wysocki 2002, s. 91].

j j

r s 1,4826

j j

r ⋅MAD

(x_ij−x_j) r_j s rj j

j j

s r (x_ij−x_j) s_j

j maxi ij j

r x −x

j maxi ij j

s x −x

(

xij−xj

)

^maxi xij−xj

ij j

x s x sj j r s_j _j

ij j

x r x r_j _j s rj j

max{ }

ij i ij

x x _j max{ }_ij

x i x _j max{ }_ij

s i x _j max{ }_ij

r i x

ij j

x x s x_j _j r x_j _j

1 n

ij i ij

x

∑

₌x ^{1 n} ^s^j

∑

ⁿⁱ⁼¹^x^ij 1

n

j i ij

r

∑

₌x

2 1 n

ij i ij

x

∑

₌x 1 ²

n

j i ij

x

∑

₌x 1 ²

n

j i ij

s

∑

₌x 1 ²

n

j i ij

r

∑

₌x

(

xij−Mej

)

^1,4826⋅MADj

min { }

ij ij j

i

x x r

⎡ − ⎤

⎢ ⎥

⎣ ⎦

(19)

21 Analiza tab. 1.3 pozwala sformułować następujące wnioski (zob. [Jajuga, Wale- siak 2000, s. 110-111; Walesiak 2002b, s. 20]):

a) formuły normalizacyjne (unitaryzacja, unitaryzacja zerowana, przekształcenie ilorazowe z podstawą normalizacji równą rozstępowi) są cenne, ponieważ zapewniają znormalizowanym wartościom zmiennych zróżnicowaną zmienność (mierzoną od- chyleniem standardowym) i jednocześnie stały rozstęp dla wszystkich zmiennych;

b) standaryzacja klasyczna (Webera) oraz przekształcenie ilorazowe z podstawą normalizacji równą odchyleniu standardowemu powodują ujednolicenie wartości wszystkich zmiennych pod względem zmienności mierzonej odchyleniem standar- dowym (medianowym odchyleniem bezwzględnym); oznacza to wyeliminowanie zmienności jako podstawy różnicowania obiektów; standaryzację Webera należy stosować, gdy rozkład empiryczny badanych zmiennych jest silnie asymetryczny (zob. [Lira, Wagner, Wysocki 2002, s. 91]);

c) przekształcenia ilorazowe z podstawą normalizacji równą maksimum oraz pierwiastkowi z sumy kwadratów obserwacji zapewniają znormalizowanym warto- ściom zmiennych zróżnicowaną zmienność, średnią arytmetyczną i rozstęp;

d) przekształcenia ilorazowe z podstawą normalizacji równą sumie i średniej arytmetycznej oraz normalizacja w przedziale [–1; 1] zapewniają znormalizowanym wartościom zmiennych zróżnicowaną zmienność i rozstęp oraz stałą dla wszystkich zmiennych średnią arytmetyczną; pierwsza formuła stanowi podstawę normalizacji w badaniach strukturalnych;

e) wszystkie formuły normalizacyjne, będące przekształceniami liniowymi ob- serwacji na każdej zmiennej, zachowują skośność i kurtozę rozkładu zmiennych, ponadto dla każdej pary zmiennych wszystkie formuły normalizacyjne nie zmienia- ją wartości współczynnika korelacji liniowej Pearsona.

Po zastosowaniu jednego ze sposobów normalizacji otrzymuje się znormalizo- waną macierz danych:

11 12 1

21 22 2

1 2

[ ]

m

m ij

n n nm

z z z

z

z z z

⎡ ⎤

⎢ ⎥

= ⎢ − − − − ⎥

⎢ ⎥

⎣ ⎦

, (1.13)

gdzie: z

_ij

– znormalizowana wartość j-tej zmiennej w i-tym obiekcie.

Zatem znormalizowana wielowymiarowa obserwacja (m-wymiarowa) będzie zapisywana w formie wektora:

z

_i

= [z

_i1

, z

_i2

, ..., z

_in

]

^T

. (1.14)

Dla dotychczasowych formuł normalizacji wszystkie zmienne traktowane były

oddzielnie. W literaturze znana jest jedna formuła, zwana przekształceniem Mahala-

nobisa, która pozwala przeprowadzić normalizację łącznie dla wszystkich zmien-

nych (zob. [Jajuga 1993, s. 58; Jajuga, Walesiak 2000, s. 110]):

(20)

22

0,5

( ),

i i

=

−

z S x x (1.15) gdzie: S – macierz kowariancji zbioru obserwacji,

x

_i

– wielowymiarowa obserwacja określona wzorem (1.2), x – wektor średnich zbioru obserwacji.

Macierz S

^–0,5

wyznacza się ze wzoru (por. [Jajuga 1993, s. 58]):

0,5

(

0,5 ^T

) ,

1

−

=

−

S GL G (1.16) gdzie: L

^0,5

– macierz diagonalna o wymiarach m × m (na głównej przekątnej tej ma- cierzy znajdują się pierwiastki kwadratowe wartości własnych macie- rzy S uporządkowane malejąco);

G – macierz ortogonalna o wymiarach m × m, której kolumny są unormo- wanymi wektorami własnymi, odpowiadającymi uporządkowanym ma- lejąco wartościom własnym macierzy S.

1.4 POMIAR PODOBIEŃSTWA OBIEKTÓW W ŚWIETLE SKAL POMIARU I WAG ZMIENNYCH

Wykorzystanie metod klasyfikacji, skalowania wielowymiarowego i metod po- rządkowania liniowego bazujących na wzorcu rozwoju wymaga sformalizowania pojęcia „podobieństwo obiektów”. Stopień podobieństwa obiektów kwantyfikuje się za pomocą miar odległości oraz bliskości (por. [Dąbrowski, Laus-Mączyńska 1978, s. 49-51; Gatnar 1998, s. 27; Walesiak 1985a]).

Funkcja d A A : × → R (zbiór liczb rzeczywistych) będzie nazywana miarą odleg- łości wtedy i tylko wtedy, gdy spełnione są warunki ( d A A ( ,

_i _k

) = d

_ik

) :

1) nieujemności: d

_ik

≥ 0 dla i k , = … 1, , ; n 2) zwrotności: d

_ik

= ⇔ = 0 i k ( i k , = … 1, , n );

3) symetryczności: d

_ik

= d

_ki

dla i k , = … 1, , . n Jeśli ponadto spełniony jest warunek:

4) nierówności trójkąta: d

_ik

≤ d

_il

+ d

_kl

dla i k l , , = … 1, , n , to miara odległości zwana jest metryką.

Na analogicznych zasadach zostanie określona miara bliskości. Funkcja :

g A A × → R będzie nazywana miarą bliskości wtedy i tylko wtedy, gdy spełnione będą warunki ( g A A ( ,

_i _k

) = g

_ik

) :

1) nieujemności: 0 ≤ g

_ik

< 1 dla i k ≠ ( i k , = … 1, , n ), 2) zwrotności: g

_ik

= ⇔ = 1 i k ( i k , = … 1, , n ), 3) symetryczności: g

_ik

= g

_ki

( i k , = … 1, , n ).

Sposoby transformacji miar bliskości na miary odległości wyrażają formuły (por. [Zakrzewska 1987, s. 212]):

d

_ik

= − 1 g

_ik

, (1.17)

(21)

1.4. POMIAR PODOBIEŃSTWA OBIEKTÓW W ŚWIETLE SKAL POMIARU...

23 d

_ik

= 1 − g

_ik

, (1.18) d

_ik

= − log g

_ik

. (1.19) Miary podobieństwa mają analogiczną interpretację (chociaż ze względu na od- mienne konstrukcje przybierają na ogół różne wartości liczbowe). Dwa obiekty są tym bardziej podobne, im mniej się różnią co do wartości zmiennych.

Stosowanie konkretnych konstrukcji miar odległości jest uzależnione od:

a) skali pomiaru zmiennych, gdy zmienne są mierzone na tej samej skali pomia- ru; w literaturze wypracowano wiele propozycji miar odległości znajdujących zasto- sowanie do zmiennych mierzonych na skali: ilorazowej, przedziałowej i (lub) ilora- zowej, porządkowej, nominalnej (w tym dla zmiennych binarnych);

b) zastosowanej formuły normalizacji wartości zmiennych;

c) spełniania przez daną formułę dodatkowych własności (np. warunku nierów- ności trójkąta – miara odległości zwana jest wtedy metryką); spośród miar odległości obiektów opisanych zmiennymi mierzonymi na skali przedziałowej lub ilorazowej najczęściej wykorzystuje się z tego powodu odległość euklidesową i jej kwadrat;

d) skal pomiaru zmiennych, gdy zbiór zmiennych zawiera zmienne mierzone na skalach różnych rodzajów.

Problem stosowania różnych miar podobieństwa w zasadzie nie występuje wte- dy, gdy wszystkie zmienne opisujące badane obiekty są mierzone na skali jedne- go typu. Tabela 1.4 zawiera zestawienie podstawowych miar odległości dla zmien- nych mierzonych na skali ilorazowej lub przedziałowej.

Podstawową miarą odległości obiektów A A

_i

,

_k

, opisanych za pomocą zmien- nych mierzonych na skali przedziałowej lub ilorazowej, jest metryka Minkowskie- go. Szczególnymi jej przypadkami są odległość miejska, euklidesowa i Czebyszewa.

Cenną zaletą tych trzech miar odległości jest to, że mają interpretację geometryczną.

W badaniach wykorzystuje się dwie pierwsze miary, tzn. odległość miejską i eukli- desową.

W konstrukcji miar odległości z wagami zróżnicowanymi (1) przyjęto założenie, że ważeniu podlegają wartości zmiennych. Zatem macierz ważonych obserwacji na zmiennych przyjmuje postać:

1 11 2 12 1

1 21 2 22 2

1 1 2 2

[ ]

m m

j ij

n n m nm

w z w z w z

w z

w z w z w z

⎡ ⎤

⎢ ⎥

⋅ =

⎢ − − − − ⎥

⎢ ⎥

⎣ ⎦

. (1.20)

Dla miar odległości z wagami zróżnicowanymi (2) przyjęto założenie, że waże-

niu podlegają odległości cząstkowe wyznaczone dla j-tej zmiennej (por. [Gordon

1999, s. 30]). Zastosowanie wag w

_j

pozwala wyznaczyć średnią ważoną odległość

między obiektami A

_i

i A

_k

.

(22)

24

Tabela 1.4. Miary odległości (zmienne mierzone na skali ilorazowej lub przedziałowej) Nazwa miary

odległości

Odległość d_ik

wagi jednakowe wagi zróżnicowane (1) wagi zróżnicowane (2) Minkowskiego (p ≥ 1)

1 ,

m p

p j₌vik j

∑

1 ^,

m p p

p

j ik j j₌w v

∑

1 ^,

m p

p

j ik j j₌w v

∑

– miejska (p = 1)

1 , m j₌vik j

∑

1 ^,

m j ik j j₌w v

∑

– euklidesowa (p = 2) 2

1 , m

j₌vik j

∑

1 ^{2 2}^, m

j ik j j₌w v

∑

1 ²^,

m j ik j j₌w v

∑

– Czebyszewa (p →∞) max _{ik j}_,

j v max _{j ik j}_,

j w v

Canberra _,

1( )

m ik j

j

ij kj

v z z

= +

∑

1 ( ^, )

m ik j

j j

ij kj

w v z z

= +

∑

Braya-Curtisa

1 ,

1( )

m j ik j m

ij kj

j

v z z

=

= +

∑ ∑

1 ,

1 ( )

m j ik j j m

j ij kj

j

w v w z z

=

= +

∑ ∑

Clarka ²

1

1 ^m ij kj

j ij kj

z z m = z z

⎛ − ⎞

⎜ ⎟

⎜ + ⎟

⎝ ⎠

∑

²

1

1 ^m ij kj j

j ij kj

z z m =w z z

⎛ − ⎞

⎜ ⎟

⎜ + ⎟

⎝ ⎠

∑

Jeffreysa-Matusita 1

( )

²

m

ij kj

j₌ z − z

∑

1

( )

²

m

j ij kj

j₌w z − z

∑

, ;

ik j ij kj

v = z −z w_j – waga j-tej zmiennej spełniająca warunki: w_j∈(0; )m ,

∑

^m_j₌₁w_j=m^(liczba zmiennych) lub w_j∈(0;1),

∑

^m_j₌₁w_j=1^;^{z z}^ij^{( )}^kj – znormalizowana wartość j-tej zmiennej dla i-tego (k-tego) obiektu;

(1) – ważeniu podlegają wartości zmiennych (wagi liniowe);

(2) – ważeniu podlegają odległości cząstkowe wyznaczone dla j-tej zmiennej.

Źródło: opracowanie własne na podstawie prac [Bąk 1999, s. 19-22, 62-63; Cormack 1971; Everitt i in.

2011, s. 50; Gordon 1981, s. 21-22; 1999, s. 20-21; Walesiak 2002c; Wedel, Kamakura 1998, s. 47; Zaborski 2001, s. 44; Zeliaś i in. 2000, s. 83-85].

Miary odległości dla zmiennych mierzonych na skali ilorazowej i (lub) przedzia- łowej zamieszczone w tab. 1.4 wykorzystują w obliczeniach znormalizowane warto- ści zmiennych. Wyznaczanie odległości z wykorzystaniem pierwotnych wartości zmiennych x

_ij

jest możliwe za pomocą odległości Mahalanobisa (por. [Jajuga 1990, s. 22]):

d

_ik

= ⎡ ⎣ ( x

_i

− x

_k

)

^T

S x

⁻¹

(

_i

− x

_k

) ⎤ ⎦

^0,5

(1.21) lub w zapisie skalarnym:

0,5

1 1

( )( ) ,

m m

ik jl ij kj il kl

j l

d s x x x x

= =

⎡ ⎤

= ⎢ − − ⎥

⎣ ∑∑ ⎦ ^(1.22)

gdzie: s

_jl

UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ Z WYKORZYSTANIEM PROGRAMU R

Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu Wrocław 2011

Marek Walesiak