Walesiak M. (2016), Uogólniona miara odległości GDM w statystycznej analizie wielowymiarowej z wykorzystaniem programu R.

(1)

1

(2)

1 ERRATA

Walesiak M. (2016), Uogólniona miara odległości GDM w statystycznej analizie wielowymiarowej z wykorzystaniem programu R.

Wydanie drugie poprawione i rozszerzone.

Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu, Wrocław, 168 stron.

Strona Wiersz od góry

Wiersz

od dołu Jest Powinno być

95 tab. 4.1, poz. 1 ...

2 1 1

1 − GDM

_i⁺

= − ...

2 1 1

1 − GDM

⁺_i

= +

95 5 α

j – waga j-tej zmiennej (

α

_j∈[0;1] i

∑

^m_j=₁

α

_j =1)

w

_j – waga j-tej zmiennej (

w

_j

∈ [ 0 ; 1 ]

i

∑

^m_j=₁

w

_j

= 1

)

95 6

diw⁼

_∑

^m_j₌ j

(

zij⁻zwj

)

1 2 2

α

d

iw

⁼ _∑

^m_j₌₁

w

j²

( z

ij

⁻ z

wj

)

²

114 7 3 metody 2 metody

114 10 1 metoda 2 metody

141 13 W

₁²

= 0 , 1245 W

₁²

= 0 , 1227

144* od 4 do 8

[1] Dominanty

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] 3 3 1 3 2 3 [2,] 3 4 3 3 2 2 [3,] 4 3 2 3 1 2

[1] Dominanty

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] "4" "3" "1" "3" "1" "3"

[2,] "3" "4" "3" "3" "2" "2"

[3,] "5" "4" "3" "4" "1" "2"

158 17 reds) (eds)

161 22 $ #

* clusterSim – wersja 0.45-1 i wyższa.

(3)

2 Na s. 149* (w. od 8 do 12) jest:

[1] Średnie arytmetyczne

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] 90,60000 394,7600 0,3113000 2,9929000 1,3932000 1,4519000 [2,] 66,26667 342,5833 0,1706667 0,7443333 0,4356667 0,3383333 [3,] 164,50000 374,0000 1,7680000 12,3320000 6,1130000 10,7350000 a powinno być:

1] Średnie arytmetyczne

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] "90,6" "394,76" "0,3113" "2,9929" "1,3932" "1,4519"

[2,] "66,2667" "342,5833" "0,1707" "0,7443" "0,4357" "0,3383"

[3,] "164,5" "374" "1,768" "12,332" "6,113" "10,735"

Na s. 149* (w. od 1 do 5) jest:

[1] Odchylenia standardowe

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] 22,99343 27,006303 0,10697855 1,7571272 0,7924946 1,0121213 [2,] 11,97688 7,246704 0,08411632 0,4827987 0,2735542 0,2752246 [3,] 0,00000 0,000000 0,00000000 0,0000000 0,0000000 0,0000000 a powinno być:

[1] Odchylenia standardowe

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] "22,9934" "27,0063" "0,107" "1,7571" "0,7925" "1,0121"

[2,] "11,9769" "7,2467" "0,0841" "0,4828" "0,2736" "0,2752"

[3,] "0" "0" "0" "0" "0" "0"

(4)

UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE

WIELOWYMIAROWEJ

Z WYKORZYSTANIEM PROGRAMU R

(5)

(6)

Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu Wrocław 2016

Marek Walesiak

UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE

WIELOWYMIAROWEJ

Z WYKORZYSTANIEM PROGRAMU R

Wydanie drugie poprawione i rozszerzone

(7)

Senacka Komisja Wydawnicza Krzysztof Jajuga – przewodniczący

(Wydział Zarządzania, Informatyki i Finansów),

Andrzej Bąk (Wydział Ekonomii, Zarządzania i Turystyki), Marek Biernacki (Wydział Zarządzania, Informatyki i Finansów), Paweł Dittmann (Wydział Nauk Ekonomicznych),

Małgorzata Gableta (Wydział Inżynieryjno-Ekonomiczny),

Elżbieta Kociołek-Balawejder (Wydział Inżynieryjno-Ekonomiczny), Kazimierz Perechuda (Wydział Zarządzania, Informatyki i Finansów), Paweł Waniowski, Zbigniew Golarz, Magdalena Warszawa

Recenzent Andrzej Sokołowski Redaktor Wydawnictwa Dorota Pitulec Redakcja techniczna Barbara Łopusiewicz Korektor

Barbara Cibis Skład i łamanie Beata Mazur Projekt okładki Beata Dębska

Na okładce wykorzystano zdjęcie z zasobów 123 Royality Free

Tytuł dofinansowano ze środków na działalność statutową Katedry Ekonometrii i Informatyki Uniwersytetu Ekonomicznego we Wrocławiu

Kopiowanie i powielanie w jakiejkolwiek formie wymaga pisemnej zgody Wydawcy

ISBN 978-83-7695-581-0 Druk: Drukarnia TOTEM

(8)

SPIS TREŚCI

WSTĘP . . . . 7

1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELO- WYMIAROWEJ . . . . 11

1.1. Zagadnienia wstępne . . . . 11

1.2. Typy skal pomiarowych i ich charakterystyka . . . . 15

1.3. Transformacja normalizacyjna i ujednolicanie zmiennych . . . . 17

1.4. Pomiar podobieństwa obiektów w świetle skal pomiaru i wag zmien- nych . . . . 26

1.5. Strategie postępowania w pomiarze odległości dla danych porządko- wych . . . . 35

2. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM . . . . 40

2.1. Wprowadzenie . . . . 40

2.2. Uogólniony współczynnik korelacji . . . . 40

2.3. Charakterystyka uogólnionej miary odległości . . . . 42

2.4. Silne i słabe strony uogólnionej miary odległości . . . . 48

2.5. Postać uogólnionej miary odległości dla zmiennych z różnych skal po- miaru . . . . 50

2.6. Postać uogólnionej miary odległości dla zróżnicowanych wag zmien- nych . . . . 51

2.7. Wzmacnianie skali pomiaru dla danych porządkowych w statystycznej analizie wielowymiarowej z wykorzystaniem odległości GDM2 . . . . 52

2.8. Kwadrat odległości euklidesowej a współczynnik korelacji liniowej Pearsona i cosinus kąta między wektorami . . . . 57

2.9. GDM a współczynnik korelacji liniowej Pearsona i cosinus kąta mię- dzy wektorami . . . . 59

3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ . . . . 64

3.1. Wyznaczanie macierzy odległości w procesie klasyfikacji obiektów . . . 64

3.2. Ocena podobieństwa wyników klasyfikacji zbioru obiektów w czasie 78 3.3. Uogólniona miara odległości GDM jako syntetyczny miernik rozwoju w metodach porządkowania liniowego . . . . 83

3.4. Ocena podobieństwa wyników porządkowania liniowego zbioru

obiektów w czasie . . . . 88

(9)

6

SPIS TREŚCI

4. WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ DLA DANYCH

METRYCZNYCH . . . . 92

4.1. Wyniki porządkowania liniowego zbioru obiektów z wykorzystaniem miar syntetycznych a wybór grup metod normalizacji wartości zmien- nych . . . . 92

4.2. Wybór grup metod normalizacji wartości zmiennych w skalowaniu wielowymiarowym . . . 103

4.3. Wybór grup metod normalizacji wartości zmiennych w analizie sku- pień . . . 110

5. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W ŚWIETLE WYBRA- NYCH EKSPERYMENTÓW SYMULACYJNYCH . . . 115

5.1. Losowe generowanie danych o znanej strukturze klas w pakiecie clu- sterSim . . . 115

5.2. Analiza porównawcza metod klasyfikacji dla danych o znanej struktu- rze klas . . . 120

5.3. Ocena wybranych procedur analizy skupień dla danych porządkowych 125 6. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁO- ŚCI GDM Z WYKORZYSTANIEM PROGRAMU R . . . 131

6.1. Porządkowanie liniowe zbioru obiektów na podstawie danych porząd- kowych z rynku nieruchomości . . . 131

6.2. Porządkowanie liniowe zbioru obiektów na podstawie danych metrycz- nych dotyczących warunków zamieszkiwania ludności w miastach . . . 135

6.3. Ocena podobieństwa wyników porządkowania liniowego zbioru obiektów w czasie na podstawie danych metrycznych dotyczących wa- runków zamieszkiwania ludności w miastach . . . 138

6.4. Analiza skupień zbioru obiektów opisanych danymi porządkowymi z rynku nieruchomości . . . 141

6.5. Analiza skupień zbioru obiektów opisanych danymi metrycznymi do- tyczącymi zanieczyszczenia powietrza . . . 145

LITERATURA . . . 151

ANEKS . . . 159

SKOROWIDZ . . . 165

(10)

WSTĘP

Prezentowana książka stanowi podsumowanie rozważań autora zawartych w wielu opracowaniach dotyczących miary odległości, która została w pierwotnej wersji zaproponowana dla zmiennych porządkowych [Walesiak 1993a, s. 44-45], a następnie dla danych metrycznych [Walesiak 2002a] i nominalnych [Walesiak 2003c]. Podstawowe części książki zostały opublikowane m.in. w „Argumenta Oeconomica”, „Przeglądzie Statystycznym”, „Badaniach Operacyjnych i Decy- zjach”, Pracach Naukowych Akademii Ekonomicznej we Wrocławiu (Uniwersytetu Ekonomicznego we Wrocławiu) oraz były referowane na konferencjach naukowych, w tym na konferencji Sekcji Klasyfikacji i Analizy Danych PTS (zob. [Walesiak, Bąk, Jajuga 2002; Walesiak 2003b; 2004b; 2011b; 2013; Walesiak, Dudek 2009a;

2010b]), konferencji Międzynarodowej Federacji Towarzystw Klasyfikacyjnych IFCS (zob. [Walesiak, Dziechciarz, Bąk 1998; Walesiak, Dudek 2010a]) oraz Nie- mieckiego Towarzystwa Klasyfikacyjnego (zob. [Jajuga, Walesiak, Bąk 2003]).

Dotychczas uogólniona miara odległości została zaprezentowana w zwartej po- staci w trzech wydaniach książkowych Wydawnictwa Akademii Ekonomicznej (Uni- wersytetu Ekonomicznego) we Wrocławiu (zob. [Walesiak 2002b; 2006; 2011d]).

Obecna monografia zawiera istotne zmiany i uzupełnienia wynikające w znacznej mierze z nowych badań. Całkowicie nowe są podrozdział 2.7 oraz rozdział 4. Wpro- wadzono istotne zmiany w podrozdziale 1.3.

Praca składa się z sześciu rozdziałów.

W rozdziale pierwszym przedstawiono podstawowe zagadnienia statystycznej analizy wielowymiarowej. Wyjaśniono w nim takie podstawowe pojęcia, jak obiekt, zmienna, macierz i kostka danych. Scharakteryzowano typy skal pomiarowych oraz zagadnienie transformacji normalizacyjnej i ujednolicania zmiennych z punktu wi- dzenia skal pomiarowych. Ponadto zaprezentowano szeroką klasyfikację miar podo- bieństwa obiektów z uwzględnieniem problematyki ważenia zmiennych oraz skal ich pomiaru. Rozdział kończą rozważania dotyczące strategii postępowania w po- miarze odległości dla danych porządkowych.

W rozdziale drugim przedstawiono szczegółową charakterystykę uogólnionej miary odległości GDM (Generalised Distance Measure). W konstrukcji miary odleg- łości GDM wykorzystano ideę uogólnionego współczynnika korelacji, który obej- muje współczynnik korelacji liniowej Pearsona i współczynnik korelacji zmiennych porządkowych tau Kendalla. W związku z tym w części pierwszej tego rozdziału zaprezentowano uogólniony współczynnik korelacji. W dalszej części scharaktery- zowano uogólnioną miarę odległości GDM dla jednakowych i zróżnicowanych wag zmiennych. Następnie wskazano silne i słabe strony uogólnionej miary odległości.

Rozważania teoretyczne zilustrowano licznymi przykładami poglądowymi. Zapre-

(11)

8

^WSTĘP

zentowano postać uogólnionej miary odległości GDM uwzględniającą zmienne mie- rzone na skali metrycznej, porządkowej, nominalnej oraz zmienne z różnych skal pomiaru. Zaproponowano metodę wzmacniania skali pomiaru dla danych porządko- wych w statystycznej analizie wielowymiarowej z wykorzystaniem odległości GDM2. Ponadto przedstawiono analizę związków między kwadratem odległości euklidesowej a współczynnikiem korelacji liniowej Pearsona i cosinusem kąta mię- dzy wektorami oraz między uogólnioną miarą odległości GDM a współczynnikiem korelacji liniowej Pearsona i cosinusem kąta między wektorami.

W rozdziale trzecim zaprezentowano obszary zastosowań uogólnionej miary od- ległości w statystycznej analizie wielowymiarowej. Podstawowymi obszarami za- stosowań tej miary są wyznaczanie macierzy odległości w procesie klasyfikacji zbioru obiektów, w skalowaniu wielowymiarowym oraz zastosowanie miary GDM jako syntetycznego miernika rozwoju w metodach porządkowania liniowego.

Ponadto w rozdziale tym zaprezentowano metody oceny podobieństwa wyników klasyfikacji zbioru obiektów oraz oceny podobieństwa wyników porządkowania liniowego zbioru obiektów w czasie.

Rozdział czwarty poświęcono zagadnieniu wyboru metody normalizacji warto- ści zmiennych w statystycznej analizie wielowymiarowej dla danych metrycznych.

W kolejnych trzech podrozdziałach zaprezentowano zagadnienie wyboru metody normalizacji wartości zmiennych w porządkowaniu liniowym zbioru obiektów z wykorzystaniem miar syntetycznych, w skalowaniu wielowymiarowym oraz w analizie skupień.

Rozdział piąty zawiera rezultaty wybranych eksperymentów symulacyjnych po- zwalających ocenić zachowanie się uogólnionej miary odległości GDM przy róż- nych strukturach danych. W pierwszym podrozdziale scharakteryzowano zagadnie- nie losowego generowania danych o znanej strukturze klas w pakiecie clusterSim.

W drugim podrozdziale przedstawiono analizę porównawczą metod klasyfikacji dla danych o znanej strukturze klas dla trzech typów danych. W dwóch pierwszych eks- perymentach wykorzystano dane metryczne oraz porządkowe o znanej strukturze klas obiektów wygenerowane z wykorzystaniem z funkcji cluster.Gen pakietu clusterSim. W eksperymencie trzecim zbiory danych utworzono z wykorzysta- niem funkcji pakietu mlbench (spirals, smiley, cassini) oraz zbiorów własnych (worms, w3, skad). W podrozdziale trzecim, na podstawie porządkowych danych symulacyjnych wygenerowanych z wykorzystaniem z funkcji cluster.Gen pa- kietu clusterSim, przeprowadzono ocenę przydatności wybranych procedur ana- lizy skupień obejmujących miarę odległości GDM, dziewięć metod klasyfikacji oraz osiem indeksów służących ustaleniu liczby klas.

W rozdziale szóstym zaprezentowano wybrane zastosowania uogólnionej miary

odległości GDM1 i GDM2 w statystycznej analizie wielowymiarowej z wykorzysta-

niem programu R. Znaczna część skryptów wykorzystuje pakiet clusterSim. Za-

stosowania dotyczyły porządkowania liniowego i analizy skupień zbioru obiektów

na podstawie danych porządkowych z rynku nieruchomości oraz porządkowania

(12)

WSTĘP

9 liniowego na podstawie danych metrycznych dotyczących warunków zamieszkiwa- nia ludności w miastach i analizy skupień obiektów opisanych danymi metrycznymi dotyczącymi zanieczyszczenia powietrza. Ponadto dokonano oceny podobieństwa wyników porządkowania liniowego zbioru obiektów w czasie na podstawie danych metrycznych dotyczących warunków zamieszkiwania ludności w miastach.

Pracę zamyka zestawienie wykorzystywanej literatury, aneks oraz skorowidz rzeczowy.

Wersję instalacyjną programu R oraz dodatkowe pakiety (w tym pakiet clu- sterSim autorstwa Marka Walesiaka i Andrzeja Dudka) można pobrać ze strony:

http://www.r-project.org/. Wszystkie skrypty zawarte w książce przetestowano, uży- wając wersji 3.3.0 programu R.

Na stronie internetowej http://keii.ue.wroc.pl znajdują się pliki zawierające wy- korzystywane dane oraz skrypty realizujące zastosowania zamieszczone w książce.

Książka jest przeznaczona dla pracowników naukowych zajmujących się zasto-

sowaniem metod statystycznej analizy wielowymiarowej w każdej dziedzinie wie-

dzy, w tym w badaniach ekonomicznych. Ponadto odbiorcami książki mogą być

słuchacze wyższych uczelni studiujący zagadnienia statystycznej analizy wielowy-

miarowej i jej zastosowań.

(13)

(14)

1 PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ

ANALIZY WIELOWYMIAROWEJ

1.1 ZAGADNIENIA WSTĘPNE

Termin „statystyczna analiza wielowymiarowa” odnosi się do grupy metod sta- tystycznych, za pomocą których jednoczesnej analizie poddane są pomiary na przy- najmniej dwóch zmiennych opisujących każdy obiekt badania. Do podstawowych pojęć statystycznej analizy wielowymiarowej zaliczają się: obiekt i zmienna. Głów- nym zagadnieniem jest określenie elementarnej jednostki badawczej, czyli obiektu badania.

Obiekty są rozumiane w sensie zarówno dosłownym, jak i przenośnym. Obiek- tem jest więc w badaniach określona rzecz, osoba, kategoria abstrakcyjna lub zda- rzenie. Konkretnymi przykładami obiektów są: konsument X, produkt Y, marka samochodu S, pacjent P, gmina G, przedsiębiorstwo F, rzeka R, rynek testowy T, hipermarket H, rynek zbytu Z, gospodarstwo domowe D, idea filozoficzna I. Zbiór obiektów badania będzie oznaczany przez A = { } { A

i 1ⁿ

= A

1

, ,  A

n

} .

Zmienna w statystycznej analizie wielowymiarowej jest charakterystyką opisu- jącą zbiorowość obiektów. W ujęciu formalnym zmienna M

_j

to odwzorowanie (por.

[Borys 1984, s. 87]):

j

:

M A → Q ( j =  1, , ) m , (1.1) gdzie: Q – zbiór obrazów (liczb rzeczywistych, kategorii), m – liczba zmiennych.

Metody statystycznej analizy wielowymiarowej (SAW) zwykle wymagają, aby realizacje zmiennych były liczbami rzeczywistymi – zachodzi więc potrzeba kodo- wania zmiennych wyrażonych w formie kategorii. Jeśli w odwzorowaniu (1.1) zbiór obrazów jest zbiorem kategorii, to należy go przekodować na zbiór liczb rzeczywi- stych. Można wykorzystać następujące sposoby kodowania zmiennych (zob. [Wale- siak 2011a]):

1. Jeśli dana zmienna ma tylko dwie kategorie, można ją zamienić na tzw. zmien-

ną sztuczną (np. zero-jedynkową). Jednemu wariantowi nadaje się wartość „1”,

a drugiemu wartość „0” lub „–1”, np. dla zmiennej płeć kodowanie będzie następu-

jące: kobieta „1”, mężczyzna „0” lub „–1”;

(15)

12

1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ

2. Jeśli zmienna ma więcej niż dwie kategorie, to stosujemy sposób zamiany, polegający na zastosowaniu zespołu zmiennych sztucznych (np. zero-jedynkowych).

Ten typ kodowania stosowany jest w analizie regresji wielorakiej.

W modelu z wyrazem wolnym obowiązuje zasada, według której liczba wpro- wadzonych zmiennych sztucznych musi być mniejsza o 1 od liczby poziomów (kategorii) danej zmiennej. Załóżmy, że dla zmiennej wykształcenie występują trzy warianty (kategorie): podstawowe, zasadnicze zawodowe, średnie. Należy w tym przypadku wprowadzić dwie zmienne sztuczne, np. zdefiniowane następująco:

W modelu bez wyrazu wolnego wprowadza się tyle zmiennych sztucznych, ile jest poziomów (kategorii) danej zmiennej. Na przykład dla danych kwartalnych wprowadzamy 4 zmienne zero-jedynkowe o następującym kodowaniu:

Kodowanie zero-jedynkowe zmiennych umożliwia funkcja fact2dummy pa- kietu StatMatch programu R.

PRZYKŁAD 1.1

Pracownik x (wykształcenie)

1 średnie

2 podstawowe

3 podstawowe

4 zasadnicze zawodowe

6 średnie

7 średnie

8 podstawowe

Wykształcenie 1

podstawowe 0 0 zasadnicze zawodowe 0 1

średnie 1 0

j j

M M+

lub

1

1 1

0 1

1 0

j j

M M+

− −

1 2 3 4

Kwartał

I 1 0 0 0

II 0 1 0 0

III 0 0 1 0

IV 0 0 0 1

M M M M

(16)

1.1. ZAGADNIENIA WSTĘPNE

13 SKRYPT 1.1

library(StatMatch)

d<-read.csv2("dane_1_1.csv",header=TRUE,row.names=1) attach(d)

options(OutDec=",")

print("Liczba zmiennych 0-1 równa liczbie kategorii", quote=FALSE)

d1<-fact2dummy(d,all=TRUE) print(d1)

print("Liczba zmiennych 0-1 mniejsza o 1 od liczby kategorii",quote=FALSE) d2<-fact2dummy(d,all=FALSE)

print(d2) detach(d)

W wyniku zastosowania procedury ze skryptu 1.1 otrzymuje się następujące wy- niki kodowania zero-jedynkowego dla zmiennej x (wykształcenie):

[1] Liczba zmiennych 0-1 równa liczbie kategorii xpodstawowe xśrednie xzasadnicze zawodowe

1 0 1 0

2 1 0 0

3 1 0 0

4 0 0 1

5 0 0 1

6 0 1 0

7 0 1 0

8 1 0 0

9 0 0 1

10 0 0 1

[1] Liczba zmiennych 0-1 mniejsza o 1 od liczby kategorii xpodstawowe xśrednie 1 0 1

2 1 0

3 1 0

4 0 0

5 0 0

6 0 1

7 0 1

8 1 0

9 0 0

10 0 0

(17)

14 3. Poszczególnym kategoriom można przypisać kolejne liczby naturalne. Nie ma tutaj znaczenia, czy kategorie można uporządkować według stopnia intensywności oddziaływania (zmienna porządkowa), czy też nie można ich uporządkować (zmien- na nominalna). Na przykład dla zmiennej porządkowej organizacja pracy, obejmu- jącej kategorie bardzo dobra, dobra, słaba, zła, można zastosować kodowanie:

zła 1

słaba 2

dobra 3

bardzo dobra 4

Znajomość w analizie statystycznej zbioru obiektów i zmiennych pozwala zapi- sać macierz danych, w której dowolny element oznacza się przez x

_ij

(i = 1, …, n;

j = 1, …, m). Jest to obserwacja j-tej zmiennej w i-tym obiekcie. Wielowymiarowa obserwacja (m-wymiarowa) będzie zapisywana w formie wektora (por. [Jajuga 1993, s. 21]):

x

_i

= [x

_i1

, x

_i2

, ..., x

_im

]

^T

. (1.2) Jeśli do dwóch „wymiarów” (obiekty, zmienne) doda się „wymiar” czasu, to otrzymuje się tzw. kostkę danych. Pojęcia tego używają w swoich pracach m.in.

Žukowska i Mučnik [1976, s. 15]; Sokołowski [1981; 1983]; Jajuga [1987, s. 14-16;

1993, s. 21-23] oraz Grabiński [1992, s. 19]. Dowolną liczbę w kostce danych ozna- cza się przez x

_i_tj

. Jest to wartość j-tej zmiennej w i-tym obiekcie w okresie t ( i = ,1 , n ; j = ,1 , m ; t = ,1 , T ). W celu uproszczenia zapisu do wszystkich wzorów w pracy zastosowano zasadę, według której indeks pasywny (stały) będzie pomijany.

W badaniach empirycznych wykorzystujących metody statystycznej analizy wielowymiarowej nie wychodzi się poza trzeci „wymiar”. Wiąże się to nie tylko z brakiem odpowiednich danych statystycznych, ale również z tym, że w dalszych etapach analizy wielowymiarowej pierwotne dane podlegają syntetyzacji. Ponadto w razie liczby wymiarów większej niż trzy kłopotliwa staje się interpretacja wyni- ków końcowych.

Trójwymiarowe ujęcie w postaci kostki danych pozwala stosować w badaniach następujące schematy badawcze:

a) ujęcie całościowe, w którym wykorzystuje się całą kostkę danych – analizo- wany jest tutaj zbiór n obiektów w T okresach ze względu na m zmiennych;

b) ujęcie cząstkowe – kostka ma trzy wymiary, więc możliwe są do uzyskania trzy różne jej przekroje:

– przekrój czas-zmienna, w którym jeden z obiektów jest analizowany w T okre- sach ze względu na m zmiennych,

– przekrój obiekt-czas, w którym n obiektów jest analizowanych w T okresach ze względu na jedną zmienną,

– przekrój obiekt-zmienna, w którym n obiektów jest analizowanych ze względu

na m zmiennych w jednym okresie.

(18)

1.2. TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA

15 W dalszej części pracy będą wykorzystywane dwa ujęcia: całościowe oraz cząst- kowe w przekroju czas-zmienna i obiekt-zmienna z koncepcji kostki danych. Ujęcie cząstkowe w przekroju obiekt-czas nie będzie rozpatrywane, ponieważ jest to zagad- nienie analizy jednowymiarowej.

1.2 TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA Podstawą teorii pomiaru jest pojęcie skali.

D

^efinicja

1 (por. [Adams, Fagot, Robinson 1965, s. 101-102; Walesiak 1990b, s. 37]). Taką uporządkowaną czwórkę U = < A G H F ; ; ; > , że

a) A to niepusty zbiór obiektów, H – zbiór liczb rzeczywistych, G – klasa funkcji odwzorowujących A w H, F – klasa funkcji odwzorowujących H w H,

b) dla wszystkich g G ∈ i f F f g G ∈ ,  ∈ ,

c) F zawiera przekształcenie H na H, a ponadto dla każdego f f F

k

,

l

∈ złożenie

k l

,

f  f F ∈

nazywa się skalą pomiaru.

W teorii pomiaru rozróżnia się cztery podstawowe skale pomiaru, wprowadzone przez Stevensa [1946]. Definiując w odniesieniu do skali ilorazowej dopuszczalne przekształcenie, Stevens nie określił, do którego zbioru należy x w funkcji (1.6), tzn.

czy należy do całego zbioru liczb rzeczywistych, zbioru liczb rzeczywistych dodat- nich, czy rzeczywistych nieujemnych. Dopiero definicja Adamsa, Fagota i Robinso- na usunęła tę usterkę.

D

efinicja

2 (por. [Adams, Fagot, Robinson 1965, s. 103; Walesiak 1991, s. 13- -14]). U = <A; G; H; F> jest skalą nominalną wtedy i tylko wtedy, gdy F jest zbio- rem wszystkich funkcji f odwzorowujących H w H (H = R) takich, że

f – funkcja wzajemnie jednoznaczna. (1.3) D

^efinicja

3 (por. [Adams, Fagot, Robinson 1965, s. 103; Walesiak 1991, s. 14]).

U = <A; G; H; F> jest skalą porządkową wtedy i tylko wtedy, gdy F jest zbiorem wszystkich funkcji f odwzorowujących H w H (H = R) takich, że

f – funkcja ściśle monotonicznie rosnąca. (1.4) D

^efinicja

4 (por. [Adams, Fagot, Robinson 1965, s. 103; Walesiak 1990b, s. 37]). U = <A; G; H; F> jest skalą interwałową (przedziałową) wtedy i tylko wtedy, gdy H jest zbiorem wszystkich liczb rzeczywistych R i F jest zbiorem funkcji f takich, że dla dodatniego b

( ) , ( )

f x bx a f x = + ∈ R (1.5)

dla wszystkich x R ∈ .

(19)

16 D

^efinicja

5 (por. [Adams, Fagot, Robinson 1965, s. 103; Walesiak 1990b, s. 38]).

U = <A; G; H; F> jest skalą ilorazową (stosunkową) wtedy i tylko wtedy, gdy H jest zbiorem liczb rzeczywistych dodatnich R

₊

i F jest zbiorem funkcji f takich, że dla dodatniego b

( ) , ( )

f x bx f x = ∈ R

+

(1.6) dla wszystkich x R ∈

+

.

Skale pomiaru są uporządkowane od najsłabszej do najmocniejszej: nominalna, porządkowa (rangowa), przedziałowa (interwałowa), ilorazowa (stosunkowa). Skale przedziałową i ilorazową zalicza się do skal metrycznych, natomiast nominalną i porządkową do niemetrycznych.

Z przytoczonych definicji 2-5 wynika, że z typem skali wiąże się grupa prze- kształceń, ze względu na które skala zachowuje swe własności. Dopuszczalnymi przekształceniami matematycznymi są więc te, które nie naruszają dopuszczalnych relacji dla mierzonej zmiennej. Skala U

₂

jest mocniejsza od skali U

₁

wtedy i tylko wtedy, gdy jej dopuszczalne przekształcenie jest zdegenerowanym przypadkiem dopuszczalnego przekształcenia skali U

₁

(por. [Walenta 1971, s. 52]).

Podstawowe własności skal pomiaru zawiera tab. 1.1.

Tabela 1.1. Podstawowe własności skal pomiaru

Typ skali Dozwolone przekształcenia

matematyczne Dopuszczalne

relacje Dopuszczalne

operacje arytmetyczne Nominalna z = f(x), f(x) – dowolne

przekształcenie wzajemnie jednoznaczne

równości ( ),

różności ( ) zliczanie zdarzeń (liczba relacji równości, różności) Porządkowa z = f(x), f(x) – dowolna ściśle

monotonicznie rosnąca funkcja powyższe oraz większości ( ) i mniejszości ( )

zliczanie zdarzeń (liczba relacji równości, różności, większości, mniejszości) Przedziałowa z = bx + a (b > 0), z ∈ R dla

wszystkich x zawartych w R, wartość zerowa na tej skali jest zwykle przyjmowana arbitralnie lub na podstawie konwencji*

powyższe oraz równości różnic i przedziałów (xA−xB=xC−xD)

powyższe oraz dodawanie i odejmowanie

Ilorazowa z = bx (b > 0), z ∈ R₊ dla wszystkich x zawartych w R₊, naturalnym początkiem skali ilorazowej jest wartość zerowa (zero lewostronnie ogranicza zakres skali)

powyższe oraz równości ilorazów ^A ^C

B D

x x x x

 = 

 

 

powyższe oraz mnożenie i dzielenie

* Por. [Ackoff 1969, s. 240].

Źródło: opracowanie własne na podstawie prac [Stevens 1959, s. 25 i 27; Adams, Fagot, Robinson 1965; Walesiak 1995, s. 189-191; Walesiak, Bąk 2000, s. 17].

A B

x =x

A B

x ≠x

A B

x >x

A B

x <x

(20)

1.3. TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH

17 Jedna z podstawowych reguł teorii pomiaru mówi, że jedynie rezultaty pomiaru w skali mocniejszej mogą być transformowane na liczby należące do skali słabszej (por. np. [Steczkowski, Zeliaś 1981, s. 17; 1997, s. 19; Wiśniewski 1986; 1987; Wa- lesiak 1990b, s. 40]). Bezpośrednia transformacja skal polegająca na ich wzmacnia- niu nie jest możliwa, ponieważ z mniejszej ilości informacji nie można uzyskać większej jej ilości. W literaturze (por. [Anderberg 1973, s. 53-69; Pociecha 1986]) podawane są pewne aproksymacyjne metody pośredniego przekształcania skal słab- szych w silniejsze, opierające się na dodatkowych informacjach. Stosując zaś do- zwolone przekształcenie wartości na skali, zachowujemy niezmienność typu skali przyjętej dla danej zmiennej.

Inna z reguł teorii pomiaru mówi, że metody ilościowe, które można stosować do wyników pomiaru w skali słabszej, stosuje się również do liczb uzyskanych z mierzenia na poziomie mocniejszym. Wynika to z tego, że skala mocniejsza zawie- ra dopuszczalne relacje skali słabszej.

Typ skali, ze względu na dopuszczalne przekształcenia, determinuje stosowal- ność rozmaitych technik statystyczno-ekonometrycznych. Technikami statystyczny- mi dopuszczalnymi dla danego typu skali są takie techniki, które dostarczają wy- ników (w sensie relacji) niezmiennych względem dopuszczalnych przekształceń (por. np. [Walenta 1971, s. 61]). W artykule Handa [1996] dyskutowany jest problem relacji między skalami pomiaru a dopuszczalnymi dla nich technikami statystyczny- mi. Pokazano w nim przykłady, które są źródłem kontrowersji w wypadku ścisłego stosowania reguł pomiaru.

Pierwsze zestawienie typowych technik statystycznych przydatnych w pomiarze dokonywanym na skalach różnych rodzajów zaprezentował Stevens [1959, s. 27].

W pracy [Walesiak 1996, s. 23-24] przedstawiono typowe metody i techniki wyko- rzystywane w statystycznej analizie wielowymiarowej, których stosowanie jest uza- leżnione od skal pomiaru zmiennych.

1.3 TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH Jeśli w badaniu są wykorzystywane metody porządkowania liniowego zbioru obiektów, to zachodzi potrzeba:

1) ujednolicenia charakteru zmiennych będących przedmiotem agregacji, z wy- korzystaniem postulatu jednolitej preferencji zmiennych

¹

,

2) pozbawienia wartości zmiennych mian i ujednolicenia rzędów wielkości w celu doprowadzenia ich do porównywalności (transformacja normalizacyjna).

W sytuacji, gdy w badaniu będą wykorzystywane metody analizy skupień i ska- lowania wielowymiarowego, zmienne muszą być sprowadzone do porównywalno-

1 W metodach porządkowania liniowego, w których wykorzystuje się syntetyczne mierniki bazu- jące na wzorcu rozwoju, nie zawsze zachodzi potrzeba ujednolicania charakteru zmiennych.

(21)

18 ści poprzez transformacje normalizacyjne. Stosuje się je w przypadku, gdy zmienne są mierzone na skali przedziałowej i ilorazowej. W odniesieniu do słabych skal po- miaru nie zachodzi potrzeba normalizacji, na ich wartościach bowiem nie wyznacza się ani relacji równości różnic i przedziałów, ani stosunków.

Inne metody statystycznej analizy wielowymiarowej (analiza regresji, metody drzew klasyfikacyjnych, conjoint analysis, analiza czynnikowa

²

, analiza dyskrymi- nacyjna, analiza korelacji kanonicznej, analiza wariancji i kowariancji) nie wymaga- ją uprzedniej transformacji normalizacyjnej oraz ujednolicania zmiennych.

Jeśli celem badania jest uporządkowanie liniowe zbioru obiektów, istotnego zna- czenia nabiera klasyfikacja zmiennych ze względu na preferencje wśród zmiennych.

Wyróżnia się wtedy stymulanty (S), destymulanty (D) i nominanty (N). Pojęcie sty- mulanty i destymulanty wprowadził Hellwig [1968], a nominanty – Borys [1978].

Przeciwieństwem zmiennych preferencyjnych są zmienne neutralne (obojętne) (por.

[Borys 1984, s. 111, 121]).

Zmienna M

_j

jest destymulantą (zob. [Hellwig 1981, s. 48]), gdy dla każdych dwóch jej obserwacji (liczb rzeczywistych dla danych metrycznych oraz kategorii dla danych porządkowych) x x

_ij^D

,

_kj^D

odnoszących się do obiektów A A

_i

,

_k

jest x

_ij^D

> x

_kj^D

⇒ A A

_i



_k

(  oznacza dominację obiektu A

_k

nad obiektem A

_i

).

Zmienna M

_j

jest stymulantą (zob. [Hellwig 1981, s. 48]), gdy dla każdych dwóch jej obserwacji x x

_ij^S

,

_kj^S

odnoszących się do obiektów A A

_i

,

_k

jest x

_ij^S

> x

_kj^S

⇒ A A

_i



_k

(  oznacza dominację obiektu A

_i

nad obiektem A

_k

).

W badaniach empirycznych dla nominant zachodzi potrzeba ustalenia obserwa- cji lub przedziału liczbowego (zbioru kategorii dla zmiennych porządkowych), który uznajemy za nominalny. Spośród nominant rozważane będą w pracy tylko nominan- ty jednomodalne. Nominanty wielomodalne omówiono m.in. w pracy Borysa [1984, s. 118]. Za najbardziej korzystną obserwację nominanty jednomodalnej jest uznawa- na wartość (kategoria dla zmiennych porządkowych) nominalna zmiennej, a za ob- serwację najmniej korzystną – wartość (kategoria dla zmiennych porządkowych) minimalna lub maksymalna.

Zmienna M

_j

jest więc nominantą jednomodalną (zob. [Borys 1984, s. 118]), gdy dla każdych dwóch jej obserwacji x x

_ij^N

,

_kj^N

odnoszących się do obiektów A A

_i

,

_k

– jeżeli x x

_ij^N

,

_kj^N

≤ nom

_j

, to x

_ij^N

> x

_kj^N

⇒ A A

_i



_k

,

– jeżeli x x

_ij^N

,

_kj^N

> nom

_j

, to x

_ij^N

> x

_kj^N

⇒ A A

_i



_k

, gdzie nom

_j

to nominalny poziom j-tej zmiennej.

Przez ujednolicenie charakteru zmiennych rozumie się takie przekształcenie każdej zmiennej, że dla każdych dwóch obserwacji x

_ij

, x

_kj

j-tej zmiennej odnoszą- cych się do obiektów A A

_i

,

_k

( x

_ij

> x

_kj

) ⇒ A A

_i



_k

. (1.7)

2 W analizie czynnikowej wykorzystuje się standaryzację.

(22)

19 W dalszym ciągu zakładamy, że ujednolicenie zmiennych polega na przekształ- ceniu wszystkich zmiennych na stymulanty. Zatem problem ujednolicenia charakte- ru zmiennych nie występuje wtedy, gdy w zbiorze zmiennych są tylko stymulanty.

Zagadnienie ujednolicenia charakteru zmiennych sformułowano w ten sposób dlate- go, że w badaniach empirycznych stymulanty stanowią na ogół dominującą grupę zmiennych preferencyjnych. Formuły zamiany destymulant i nominant na stymulan- ty przedstawiono m.in. w pracach [Borys 1984, s. 289-308; Dziechciarz, Strahl, Wa- lesiak 2001; Grabiński 1984, s. 34-35; Kukuła 2000, s. 58-59; Strahl 1978; Strahl, Walesiak 1997; Walesiak 1993a, s. 38-40; 1996, s. 36-38].

Typowe formuły transformacji destymulant na stymulanty dla danych metrycz- nych można wyrazić wzorami:

a) ilorazowa: x

ij

= b x ( )

ij^D ⁻¹

(b > 0), (1.8) gdzie: x

ij^D

– wartość j-tej destymulanty zaobserwowana w i-tym obiekcie, b – stała

przyjmowana arbitralnie (np. b = ^min

i

{ } x

ij^D

, b = 1 );

b) różnicowa: x

ij

= − a bx b

ij^D

( > 0) , (1.9) gdzie: a, b – stałe przyjmowane arbitralnie (np. b = 1 , a = 0 lub max{ }).

_ij^D

a =

i

x

Wzór (1.8) można stosować tylko do destymulant mierzonych na skali ilorazo- wej (tylko dla nich bowiem zbiór możliwych wartości zawiera się w R

₊

). Stymulan- ta otrzymana w wyniku przekształcenia będzie również mierzona na skali ilorazo- wej. Wzór (1.9) może być stosowany do destymulant mierzonych na skali zarówno ilorazowej, jak i przedziałowej. Stymulanta otrzymana w wyniku przekształcenia (1.9) jest mierzona przeważnie na skali przedziałowej. Można jednak podać przy- kład takich destymulant mierzonych na skali ilorazowej, że stymulanty otrzymane w wyniku ich przekształcenia (1.9) również są mierzone na skali ilorazowej – np. za- miana destymulanty „wskaźnik zużycia środków trwałych w %” na stymulantę

„wskaźnik niezużycia środków trwałych w %” (we wzorze (1.9) b = 1 i a = 100%).

W badaniach empirycznych do zamiany nominant na stymulanty dla danych me- trycznych wykorzystuje się następujące wzory:

a) ilorazowa: min{ ; } max{ ; }

N j ij

ij N

j ij

nom x

x = nom x , (1.10)

gdzie: x

_ij^N

– wartość j-tej nominanty zaobserwowana w i-tym obiekcie, nom

_j

– nomi- nalny poziom j-tej zmiennej;

b) różnicowa: x

_ij

= − x

_ij^N

− nom

_j

. (1.11)

Wzór (1.10) można stosować tylko do nominant mierzonych na skali ilorazowej

(tylko dla nich bowiem zbiór możliwych wartości zawiera się w R

₊

). Uzyskana sty-

mulanta będzie mierzona w skali ilorazowej. Stymulanta otrzymana w wyniku za-

stosowania wzoru (1.11) jest mierzona na skali przedziałowej.

(23)

20 W podrozdziale 3.3 przedstawione zostaną dwie metody zamiany nominant na destymulanty dla danych porządkowych z wykorzystaniem odległości GDM2 (me- toda I z powtórzeniami, metoda II bez powtórzeń).

Jeśli w badaniu wykorzystywane będą metody klasyfikacji, skalowania wielo- wymiarowego lub metody porządkowania liniowego zbioru obiektów, to zachodzi potrzeba przeprowadzenia transformacji normalizacyjnej.

Celem normalizacji wartości zmiennych jest doprowadzenie zmiennych do po- równywalności. Uzyskuje się to przez pozbawienie mian wyników pomiaru oraz ujednolicenie ich rzędów wielkości. Pierwszy cel normalizacji jest jednoznaczny.

Stanowi on warunek sine qua non normalizacji. Cel drugi nie jest jednoznaczny, a zatem dopuszcza w tym zakresie różne rozwiązania. Ujednolicenie rzędów wielko- ści dla zmiennych uzyskuje się np. przez ujednolicenie wartości wszystkich zmien- nych pod względem zmienności mierzonej odchyleniem standardowym (mediano- wym odchyleniem bezwzględnym dla miar pozycyjnych) lub przez zapewnienie stałości rozstępu dla znormalizowanych wartości zmiennych. Ogólnie rzecz biorąc, ujednolicenie rzędów wielkości uzyskuje się przez wprowadzenie jednolicie okre- ślonej wartości zerowej dla wszystkich zmiennych (parametr A

_j

we wzorze (1.12)), a następnie przeskalowanie wartości zmiennych (parametr B

_j

we wzorze (1.12)).

Ze względu na to, że jedynymi dopuszczalnymi przekształceniami na skali prze- działowej i ilorazowej są przekształcenia liniowe, metody normalizacyjne można wyrazić ogólnym wzorem [Walesiak 1988; 1990; Jajuga, Walesiak 2000; Zeliaś 2002]:

ij j

1

j

ij j ij j ij

j j j

x A A

z b x a x

B B B

= + = − = − ( b >

_j

0) , (1.12)

gdzie: x j-tej zmiennej dla i-tego obiektu, A

_ij

– wartość j-tej zmiennej dla i-tego obiektu; z

_j

– parametr przesunięcia do umownego

_ij

– znormalizowana wartość zera dla j-tej zmiennej; B

_j

– parametr skali dla j-tej zmiennej; a

_j

= − A B

_j _j

,

j

1

j

b = B – parametry dla j-tej zmiennej określone w tab. 1.2.

Szczególnymi przypadkami wzoru (1.12) są metody ujęte w tab. 1.2 (por. np.

[Abrahamowicz 1985; Borys 1978, Grabiński 1992, s. 35-38; Jajuga 1981; Jajuga, Walesiak 2000; Milligan, Cooper 1988; Młodak 2006; Nowak 1990, s. 38-39; Wale- siak 1988; 1993, s. 40; 1996, s. 38-40; 2002b, s. 19]).

Normalizację wartości zmiennych przeprowadza się w pakiecie clusterSim (zob. Walesiak, Dudek 2015]) programu R [R Development Core Team 2016] z wy- korzystaniem funkcji:

data.Normalization(x,type="n0", normalization="column") gdzie: x – macierz danych; type – typ formuły normalizacyjnej z tab. 1.2 (kolumna 1);

"n0" – bez normalizacji; normalization – rodzaj normalizacji: "co- lumn" – normalizacja według zmiennych (kolumny w macierzy danych),

"row" – normalizacja według obiektów (wiersze w macierzy danych).

(24)

Tabela 1.2. Metody normalizacyjne

Typ Nazwa metody Parametr Skala pomiaru zmiennych

bj aj ^przed

normalizacją po normalizacji

n0 Bez normalizacji – – ilorazowa lub

przedziałowa – n1 Standaryzacja 1s_j −x s_j _j ilorazowa lub

przedziałowa przedziałowa n2 Standaryzacja pozycyjna^* 1madj −med mad_j _j ilorazowa lub

przedziałowa przedziałowa n3 Unitaryzacja 1r_j −x rj j ilorazowa lub

przedziałowa przedziałowa n3a Unitaryzacja pozycyjna 1rj −med r_j _j ilorazowa lub

przedziałowa przedziałowa n4 Unitaryzacja zerowana 1r_j −^{min{ }/}i xj rj ilorazowa lub

przedziałowa przedziałowa n5 Normalizacja^**

w przedziale [–1; 1] 1

maxi xij−xj max

j

ij j

i

x

x x

−

ilorazowa lub

przedziałowa przedziałowa n5a Normalizacja pozycyjna

w przedziale [–1; 1] _max _ij¹ _j

i x −med max

j

ij j

i

med x med

−

ilorazowa lub

przedziałowa przedziałowa n6 Przekształcenia

ilorazowe 1s_j ⁰ ^ilorazowa ^ilorazowa

n6a 1madj ⁰ ^ilorazowa ^ilorazowa

n7 1r_j ⁰ ^ilorazowa ^ilorazowa

n8 1 max{ }_ij

i x ⁰ ^ilorazowa ^ilorazowa

n9 1x_j ⁰ ^ilorazowa ^ilorazowa

n9a 1med_j ⁰ ^ilorazowa ^ilorazowa

n10

1

∑

ⁿ_i₌1x_ij ⁰ ^ilorazowa ^ilorazowa

n11 2

1

∑

ⁿi₌1xij ⁰ ^ilorazowa ^ilorazowa

n12 Normalizacja

2 1

1

( )

n

ij j

i₌ x −x

∑

1( )²

j n

ij j

i

x x x

=

−

∑

−

ilorazowa lub

przedziałowa przedziałowa n12a Normalizacja

pozycyjna

2 1

1

( )

n

ij j

i x med

=

∑

− ²

1

( )

j n

ij j

i

med x med

=

−

∑

−

ilorazowa lub

przedziałowa przedziałowa

n13 Normalizacja z zerem

usytuowanym centralnie^*** 1

j/ 2

r / 2

j j

m

−r ilorazowa lub

przedziałowa przedziałowa x_ij – wartość j-tej zmiennej dla i-tego obiektu, z_ij – znormalizowana wartość j-tej zmiennej dla i-tego obiektu, x_j – średnia dla j-tej zmiennej, s_j – odchylenie standardowe dla j-tej zmiennej, r_j – roz- stęp dla j-tej zmiennej, max{ } min{ }

2

ij i ij

j i

x x

m +

= – środek rozstępu (mid-range), medj=med xi ( )ij – mediana dla j-tej zmiennej, – medianowe odchylenie bezwzględne dla j-tej zmiennej.

* Autorzy pracy [Lira, Wagner, Wysocki 2002, s. 91] proponują przemnożenie mianownika przez stałą 1,4826. Uzasadnienie wprowadzenia stałej zawarto w pracy [Młodak 2009, s. 18].

** Zob. [Rybaczuk 2002, s. 147].

*** http://www.benetzkorn.com/2011/11/data-normalization-and-standardization/ (dostęp 1.06.2014).

Źródło: opracowanie własne.

j i ( )ij

mad = mad x

(25)

22 W tabeli 1.2 przedstawiono wzory na normalizację według zmiennych. Analo- giczne wzory można przedstawić dla normalizacji według obiektów. Normalizacja według obiektów ma sens wówczas, gdy wszystkie zmienne wyrażone są w tej sa- mej jednostce miary. Taki przypadek występuje np. w badaniach strukturalnych.

Dalsze rozważania będą dotyczyć normalizacji według zmiennych.

Ujednolicenie rzędów wielkości jest możliwe tylko w razie jednolitego określe- nia wartości zerowej dla wszystkich zmiennych (zob. [Walesiak 1988]). Przekształ- cenia ilorazowe można stosować tylko wtedy, gdy zmienne są mierzone na skali ilorazowej (istnieje dla niej absolutny punkt zerowy). Gdy zbiór zawiera zmienne mierzone na skali przedziałowej lub przedziałowej i ilorazowej, wówczas do norma- lizacji można stosować pozostałe metody normalizacyjne, wprowadzające jednoli- cie określoną wartość zerową (umowną) dla wszystkich zmiennych. Standaryzacja klasyczna (standaryzacja pozycyjna), normalizacja (normalizacja pozycyjna), unita- ryzacja (unitaryzacja pozycyjna), normalizacja w przedziale [− 1 ; 1 ] (normalizacja pozycyjna w przedziale [− 1 ; 1 ] ) określają umowną wartość zerową na poziomie średniej wartości zmiennej (mediany dla metod pozycyjnych), unitaryzacja zerowa- na – na poziomie wartości minimalnej, a normalizacja z zerem usytuowanym cen- tralnie – na poziomie środka rozstępu. Zastosowanie tych metod normalizacyjnych do zmiennych mierzonych na skali ilorazowej, aczkolwiek formalnie poprawne, spowoduje stratę informacji wskutek „przejścia” wszystkich zmiennych na skalę przedziałową. Strata informacji przejawia się m.in. ograniczeniem zastosowania różnych technik statystycznych i ekonometrycznych.

Przy wyborze metody normalizacyjnej należy brać pod uwagę nie tylko skale pomiaru zmiennych, ale również takie charakterystyki rozkładu zmiennych, jak:

średnia arytmetyczna, odchylenie standardowe i rozstęp wyznaczony dla znormali- zowanych wartości zmiennych (por. tab. 1.3). Analiza tab. 1.3 pozwala sformułować następujące wnioski (zob. [Jajuga, Walesiak 2000, s. 110-111; Walesiak 2002b, s. 20;

Walesiak 2014a]):

a) metody normalizacyjne (unitaryzacja, unitaryzacja pozycyjna, unitaryzacja zerowana, przekształcenie ilorazowe z podstawą normalizacji równą rozstępowi, normalizacja z zerem usytuowanym centralnie) są cenne, ponieważ zapewniają znormalizowanym wartościom zmiennych zróżnicowaną zmienność (mierzoną od- chyleniem standardowym, a dla normalizacji pozycyjnych medianowym odchyle- niem bezwzględnym) i jednocześnie stały rozstęp dla wszystkich zmiennych;

b) standaryzacja klasyczna, standaryzacja pozycyjna, normalizacja oraz prze- kształcenie ilorazowe z podstawą normalizacji równą odchyleniu standardowemu i medianowemu odchyleniu bezwzględnemu powodują ujednolicenie wartości wszystkich zmiennych pod względem zmienności mierzonej odchyleniem standar- dowym (medianowym odchyleniem bezwzględnym dla miar pozycyjnych); oznacza to wyeliminowanie zmienności jako podstawy różnicowania obiektów;

c) przekształcenia ilorazowe z podstawą normalizacji równą maksimum oraz

pierwiastkowi z sumy kwadratów obserwacji zapewniają znormalizowanym warto-

ściom zmiennych zróżnicowaną zmienność, średnią arytmetyczną i rozstęp;

(26)

23

Tabela 1.3. Charakterystyki rozkładu wartości zmiennych po normalizacji

Typ Metoda Średnia

arytmetyczna / mediana*

Odchylenie standardowe / medianowe

odchylenie bezwzględne* Rozstęp

n1 ₍ ₎

ij j j

x −x s 0 1 r sj j

n2

(

xij−medj

)

madj 0 1 r madj j

n3 ₍ ₎

ij j j

x −x r 0 s rj j 1

n3a ₍ ₎

ij j j

x −med r 0 mad rj j 1

n4

j i ij

ij x r

x _^

 −min{ } _ij _j

j i x r

x _^

 −min{ } s rj j 1

n5

(

xij−xj

)

^maxi xij−xj 0 sj maxi xij−xj rj maxi xij−xj

n5a

(

xij−medj

)

^maxi xij−medj 0 madj maxi xij−medj rj maxi xij−medj

n6 x sij j x sj j 1 r sj j

n6a x madij j med_j

/

^mad^j ¹ ^{r mad}^j ^j

n7 x rij j x rj j s rj j 1

n8 xij max{ }i xij xj max{ }i xij sj max{ }i xij rj max{ }i xij

n9 x xij j 1 s xj j r xj j

n9a x medij j 1 mad medj j r med_j _j

n10

1 n

ij i ij

x

∑

₌x ¹ⁿ 1

n

j i ij

s

∑

₌x 1

n

j i ij

r

∑

₌x

n11 ₂

1 n

ij i ij

x

∑

₌x 1 ²

n

j i ij

x

∑

₌x 1 ²

n

j i ij

s

∑

₌x 1 ²

n

j i ij

r

∑

₌x n12

2

1( )

ij j

n

ij j

i

x x x x

=

−

∑

− ⁰ ^{n −}¹¹ 1( )²

j n

ij j

i

r x x

= −

∑

n12a

2

1( )

ij j

n

ij j

i

x med x med

=

−

∑

− ⁰ 1( )²

j n

ij j

i

mad x med

= −

∑

1( )²

j n

ij j

i

r x med

= −

∑

n13

/ 2

ij j

j

x m

r

−

/ 2

j j

j

x m r

−

/ 2

j j

s

r 2

* Mediana i medianowe odchylenie bezwzględne dla n2, n3a, n5a, n6a, n9a, n12a.

Źródło: opracowanie własne z wykorzystaniem prac [Jajuga 1981, s. 33; Walesiak 1996, s. 39; 2011d, s. 20; Jajuga, Walesiak 2000, s. 109; Lira, Wagner, Wysocki 2002, s. 91; Młodak 2006, s. 39-40].

(27)

24 d) przekształcenia ilorazowe z podstawą normalizacji równą sumie, średniej arytmetycznej i medianie, normalizacja pozycyjna, normalizacja w przedziale [− 1 ; 1 ] oraz normalizacja pozycyjna w przedziale [− 1 ; 1 ] zapewniają znormalizowanym wartościom zmiennych zróżnicowaną zmienność i rozstęp oraz stałą dla wszystkich zmiennych średnią arytmetyczną (medianę dla miar pozycyjnych); pierwsza metoda stanowi podstawę normalizacji w badaniach strukturalnych (stosuje się w nich nor- malizację według obiektów);

e) wszystkie metody normalizacyjne, będące przekształceniami liniowymi ob- serwacji na każdej zmiennej, zachowują skośność i kurtozę rozkładu zmiennych

³

;

f) dla każdej pary zmiennych wszystkie metody normalizacyjne nie zmieniają wartości współczynnika korelacji liniowej Pearsona.

W wyniku zastosowania wybranych metod normalizacyjnych w dwóch następu- jących po sobie krokach otrzymuje się wyniki tożsame z zastosowaniem jednej z metod normalizacyjnych (zob. tab. 1.4).

Tabela 1.4. Metody normalizacyjne odpowiadające normalizacji dwukrokowej Zastosowana metoda

normalizacyjna Implikacja Metoda

normalizacyjna

Krok 1 Krok 2

n1 n7 ⇒ n3

n2 n7 ⇒ n3a

n5 n7 ⇒ n3

n5a n7 ⇒ n3a

n3 n6 ⇒ n1

n3a n6a ⇒ n2

Źródło: [Walesiak 2014a].

W literaturze (por. np. [Zeliaś 2002, s. 794; Młodak 2006, s. 40]) proponowane są następujące metody normalizacyjne:

2 1 n

ij ij i ij

z = x ∑

₌

x ^, ^(1.13)

( )

2

ij ij i ij

z = x med x . (1.14)

Metody te są błędne, ponieważ jednym z celów normalizacji jest pozbawienie mian wyników pomiaru. Dla tych metod nie nastąpi pozbawienie mian wyników pomiaru.

W literaturze (zob. [Grabiński 1988, s. 245; 1992, s. 35; Pawełek 2008, s. 57]) dyskutowana jest ogólna metoda normalizacyjna o postaci:

3 Obliczenia sprawdzające wykonano w pakiecie e1071 [Meyer i in. 2014] programu R, wyko- rzystując trzy wzory na skośność i kurtozę zaprezentowane w pracy [Joanes, Gill 1998].

Walesiak M. (2016), Uogólniona miara odległości GDM w statystycznej analizie wielowymiarowej z wykorzystaniem programu R.

1

1

ERRATA

Walesiak M. (2016), Uogólniona miara odległości GDM w statystycznej analizie wielowymiarowej z wykorzystaniem programu R.

Wydanie drugie poprawione i rozszerzone.

Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu, Wrocław, 168 stron.

Strona Wiersz od góry

Wiersz

od dołu Jest Powinno być

95 tab. 4.1, poz. 1 ...

2 1 1

1 − GDM

= − ...

2 1 1

1 − GDM

= +

95 5 α

α

∑

α

w

w

∈ [ 0 ; 1 ]

∑

w

= 1

95 6

∑

(

)

d

= ∑

w

( z

− z

)

114 7 3 metody 2 metody

114 10 1 metoda 2 metody

141 13 W

= 0 , 1245 W

= 0 , 1227

144* od 4 do 8

[1] Dominanty

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] 3 3 1 3 2 3 [2,] 3 4 3 3 2 2 [3,] 4 3 2 3 1 2

[1] Dominanty

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] "4" "3" "1" "3" "1" "3"

[2,] "3" "4" "3" "3" "2" "2"

[3,] "5" "4" "3" "4" "1" "2"

158 17 reds) (eds)

161 22 $ #

* clusterSim – wersja 0.45-1 i wyższa.

2 Na s. 149* (w. od 8 do 12) jest:

[1] Średnie arytmetyczne

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] 90,60000 394,7600 0,3113000 2,9929000 1,3932000 1,4519000 [2,] 66,26667 342,5833 0,1706667 0,7443333 0,4356667 0,3383333 [3,] 164,50000 374,0000 1,7680000 12,3320000 6,1130000 10,7350000 a powinno być:

1] Średnie arytmetyczne

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] "90,6" "394,76" "0,3113" "2,9929" "1,3932" "1,4519"

[2,] "66,2667" "342,5833" "0,1707" "0,7443" "0,4357" "0,3383"

[3,] "164,5" "374" "1,768" "12,332" "6,113" "10,735"

Na s. 149* (w. od 1 do 5) jest:

[1] Odchylenia standardowe

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] 22,99343 27,006303 0,10697855 1,7571272 0,7924946 1,0121213 [2,] 11,97688 7,246704 0,08411632 0,4827987 0,2735542 0,2752246 [3,] 0,00000 0,000000 0,00000000 0,0000000 0,0000000 0,0000000 a powinno być:

[1] Odchylenia standardowe

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] "22,9934" "27,0063" "0,107" "1,7571" "0,7925" "1,0121"

[2,] "11,9769" "7,2467" "0,0841" "0,4828" "0,2736" "0,2752"

[3,] "0" "0" "0" "0" "0" "0"

UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE

WIELOWYMIAROWEJ

Z WYKORZYSTANIEM PROGRAMU R

Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu Wrocław 2016

Marek Walesiak

UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE

WIELOWYMIAROWEJ

Z WYKORZYSTANIEM PROGRAMU R

_∑

⁼ _∑

⁻ z