1
1
ERRATA
Walesiak M. (2016), Uogólniona miara odległości GDM w statystycznej analizie wielowymiarowej z wykorzystaniem programu R.
Wydanie drugie poprawione i rozszerzone.
Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu, Wrocław, 168 stron.
Strona Wiersz od góry
Wiersz
od dołu Jest Powinno być
95 tab. 4.1, poz. 1 ...
2 1 1
1 − GDM
i+= − ...
2 1 1
1 − GDM
+i= +
95 5 α
j – waga j-tej zmiennej (α
j∈[0;1] i∑
mj=1α
j =1)w
j – waga j-tej zmiennej (w
j∈ [ 0 ; 1 ]
i∑
mj=1w
j= 1
)95 6
diw=∑
mj= j(
zij−zwj)
1 2 2
α
d
iw= ∑
mj=1w
j2( z
ij− z
wj)
2114 7 3 metody 2 metody
114 10 1 metoda 2 metody
141 13 W
12= 0 , 1245 W
12= 0 , 1227
144* od 4 do 8
[1] Dominanty
[,1] [,2] [,3] [,4] [,5] [,6]
[1,] 3 3 1 3 2 3 [2,] 3 4 3 3 2 2 [3,] 4 3 2 3 1 2
[1] Dominanty
[,1] [,2] [,3] [,4] [,5] [,6]
[1,] "4" "3" "1" "3" "1" "3"
[2,] "3" "4" "3" "3" "2" "2"
[3,] "5" "4" "3" "4" "1" "2"
158 17 reds) (eds)
161 22 $ #
* clusterSim – wersja 0.45-1 i wyższa.
2 Na s. 149* (w. od 8 do 12) jest:
[1] Średnie arytmetyczne
[,1] [,2] [,3] [,4] [,5] [,6]
[1,] 90,60000 394,7600 0,3113000 2,9929000 1,3932000 1,4519000 [2,] 66,26667 342,5833 0,1706667 0,7443333 0,4356667 0,3383333 [3,] 164,50000 374,0000 1,7680000 12,3320000 6,1130000 10,7350000 a powinno być:
1] Średnie arytmetyczne
[,1] [,2] [,3] [,4] [,5] [,6]
[1,] "90,6" "394,76" "0,3113" "2,9929" "1,3932" "1,4519"
[2,] "66,2667" "342,5833" "0,1707" "0,7443" "0,4357" "0,3383"
[3,] "164,5" "374" "1,768" "12,332" "6,113" "10,735"
Na s. 149* (w. od 1 do 5) jest:
[1] Odchylenia standardowe
[,1] [,2] [,3] [,4] [,5] [,6]
[1,] 22,99343 27,006303 0,10697855 1,7571272 0,7924946 1,0121213 [2,] 11,97688 7,246704 0,08411632 0,4827987 0,2735542 0,2752246 [3,] 0,00000 0,000000 0,00000000 0,0000000 0,0000000 0,0000000 a powinno być:
[1] Odchylenia standardowe
[,1] [,2] [,3] [,4] [,5] [,6]
[1,] "22,9934" "27,0063" "0,107" "1,7571" "0,7925" "1,0121"
[2,] "11,9769" "7,2467" "0,0841" "0,4828" "0,2736" "0,2752"
[3,] "0" "0" "0" "0" "0" "0"
UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE
WIELOWYMIAROWEJ
Z WYKORZYSTANIEM PROGRAMU R
Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu Wrocław 2016
Marek Walesiak
UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE
WIELOWYMIAROWEJ
Z WYKORZYSTANIEM PROGRAMU R
Wydanie drugie poprawione i rozszerzone
Senacka Komisja Wydawnicza Krzysztof Jajuga – przewodniczący
(Wydział Zarządzania, Informatyki i Finansów),
Andrzej Bąk (Wydział Ekonomii, Zarządzania i Turystyki), Marek Biernacki (Wydział Zarządzania, Informatyki i Finansów), Paweł Dittmann (Wydział Nauk Ekonomicznych),
Małgorzata Gableta (Wydział Inżynieryjno-Ekonomiczny),
Elżbieta Kociołek-Balawejder (Wydział Inżynieryjno-Ekonomiczny), Kazimierz Perechuda (Wydział Zarządzania, Informatyki i Finansów), Paweł Waniowski, Zbigniew Golarz, Magdalena Warszawa
Recenzent Andrzej Sokołowski Redaktor Wydawnictwa Dorota Pitulec Redakcja techniczna Barbara Łopusiewicz Korektor
Barbara Cibis Skład i łamanie Beata Mazur Projekt okładki Beata Dębska
Na okładce wykorzystano zdjęcie z zasobów 123 Royality Free
Tytuł dofinansowano ze środków na działalność statutową Katedry Ekonometrii i Informatyki Uniwersytetu Ekonomicznego we Wrocławiu
Kopiowanie i powielanie w jakiejkolwiek formie wymaga pisemnej zgody Wydawcy
© Copyright by Uniwersytet Ekonomiczny we Wrocławiu Wrocław 2016
ISBN 978-83-7695-581-0 Druk: Drukarnia TOTEM
SPIS TREŚCI
WSTĘP . . . . 7
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELO- WYMIAROWEJ . . . . 11
1.1. Zagadnienia wstępne . . . . 11
1.2. Typy skal pomiarowych i ich charakterystyka . . . . 15
1.3. Transformacja normalizacyjna i ujednolicanie zmiennych . . . . 17
1.4. Pomiar podobieństwa obiektów w świetle skal pomiaru i wag zmien- nych . . . . 26
1.5. Strategie postępowania w pomiarze odległości dla danych porządko- wych . . . . 35
2. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM . . . . 40
2.1. Wprowadzenie . . . . 40
2.2. Uogólniony współczynnik korelacji . . . . 40
2.3. Charakterystyka uogólnionej miary odległości . . . . 42
2.4. Silne i słabe strony uogólnionej miary odległości . . . . 48
2.5. Postać uogólnionej miary odległości dla zmiennych z różnych skal po- miaru . . . . 50
2.6. Postać uogólnionej miary odległości dla zróżnicowanych wag zmien- nych . . . . 51
2.7. Wzmacnianie skali pomiaru dla danych porządkowych w statystycznej analizie wielowymiarowej z wykorzystaniem odległości GDM2 . . . . 52
2.8. Kwadrat odległości euklidesowej a współczynnik korelacji liniowej Pearsona i cosinus kąta między wektorami . . . . 57
2.9. GDM a współczynnik korelacji liniowej Pearsona i cosinus kąta mię- dzy wektorami . . . . 59
3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ . . . . 64
3.1. Wyznaczanie macierzy odległości w procesie klasyfikacji obiektów . . . 64
3.2. Ocena podobieństwa wyników klasyfikacji zbioru obiektów w czasie 78 3.3. Uogólniona miara odległości GDM jako syntetyczny miernik rozwoju w metodach porządkowania liniowego . . . . 83
3.4. Ocena podobieństwa wyników porządkowania liniowego zbioru
obiektów w czasie . . . . 88
6
SPIS TREŚCI4. WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ DLA DANYCH
METRYCZNYCH . . . . 92
4.1. Wyniki porządkowania liniowego zbioru obiektów z wykorzystaniem miar syntetycznych a wybór grup metod normalizacji wartości zmien- nych . . . . 92
4.2. Wybór grup metod normalizacji wartości zmiennych w skalowaniu wielowymiarowym . . . 103
4.3. Wybór grup metod normalizacji wartości zmiennych w analizie sku- pień . . . 110
5. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W ŚWIETLE WYBRA- NYCH EKSPERYMENTÓW SYMULACYJNYCH . . . 115
5.1. Losowe generowanie danych o znanej strukturze klas w pakiecie clu- sterSim . . . 115
5.2. Analiza porównawcza metod klasyfikacji dla danych o znanej struktu- rze klas . . . 120
5.3. Ocena wybranych procedur analizy skupień dla danych porządkowych 125 6. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁO- ŚCI GDM Z WYKORZYSTANIEM PROGRAMU R . . . 131
6.1. Porządkowanie liniowe zbioru obiektów na podstawie danych porząd- kowych z rynku nieruchomości . . . 131
6.2. Porządkowanie liniowe zbioru obiektów na podstawie danych metrycz- nych dotyczących warunków zamieszkiwania ludności w miastach . . . 135
6.3. Ocena podobieństwa wyników porządkowania liniowego zbioru obiektów w czasie na podstawie danych metrycznych dotyczących wa- runków zamieszkiwania ludności w miastach . . . 138
6.4. Analiza skupień zbioru obiektów opisanych danymi porządkowymi z rynku nieruchomości . . . 141
6.5. Analiza skupień zbioru obiektów opisanych danymi metrycznymi do- tyczącymi zanieczyszczenia powietrza . . . 145
LITERATURA . . . 151
ANEKS . . . 159
SKOROWIDZ . . . 165
WSTĘP
Prezentowana książka stanowi podsumowanie rozważań autora zawartych w wielu opracowaniach dotyczących miary odległości, która została w pierwotnej wersji zaproponowana dla zmiennych porządkowych [Walesiak 1993a, s. 44-45], a następnie dla danych metrycznych [Walesiak 2002a] i nominalnych [Walesiak 2003c]. Podstawowe części książki zostały opublikowane m.in. w „Argumenta Oeconomica”, „Przeglądzie Statystycznym”, „Badaniach Operacyjnych i Decy- zjach”, Pracach Naukowych Akademii Ekonomicznej we Wrocławiu (Uniwersytetu Ekonomicznego we Wrocławiu) oraz były referowane na konferencjach naukowych, w tym na konferencji Sekcji Klasyfikacji i Analizy Danych PTS (zob. [Walesiak, Bąk, Jajuga 2002; Walesiak 2003b; 2004b; 2011b; 2013; Walesiak, Dudek 2009a;
2010b]), konferencji Międzynarodowej Federacji Towarzystw Klasyfikacyjnych IFCS (zob. [Walesiak, Dziechciarz, Bąk 1998; Walesiak, Dudek 2010a]) oraz Nie- mieckiego Towarzystwa Klasyfikacyjnego (zob. [Jajuga, Walesiak, Bąk 2003]).
Dotychczas uogólniona miara odległości została zaprezentowana w zwartej po- staci w trzech wydaniach książkowych Wydawnictwa Akademii Ekonomicznej (Uni- wersytetu Ekonomicznego) we Wrocławiu (zob. [Walesiak 2002b; 2006; 2011d]).
Obecna monografia zawiera istotne zmiany i uzupełnienia wynikające w znacznej mierze z nowych badań. Całkowicie nowe są podrozdział 2.7 oraz rozdział 4. Wpro- wadzono istotne zmiany w podrozdziale 1.3.
Praca składa się z sześciu rozdziałów.
W rozdziale pierwszym przedstawiono podstawowe zagadnienia statystycznej analizy wielowymiarowej. Wyjaśniono w nim takie podstawowe pojęcia, jak obiekt, zmienna, macierz i kostka danych. Scharakteryzowano typy skal pomiarowych oraz zagadnienie transformacji normalizacyjnej i ujednolicania zmiennych z punktu wi- dzenia skal pomiarowych. Ponadto zaprezentowano szeroką klasyfikację miar podo- bieństwa obiektów z uwzględnieniem problematyki ważenia zmiennych oraz skal ich pomiaru. Rozdział kończą rozważania dotyczące strategii postępowania w po- miarze odległości dla danych porządkowych.
W rozdziale drugim przedstawiono szczegółową charakterystykę uogólnionej miary odległości GDM (Generalised Distance Measure). W konstrukcji miary odleg- łości GDM wykorzystano ideę uogólnionego współczynnika korelacji, który obej- muje współczynnik korelacji liniowej Pearsona i współczynnik korelacji zmiennych porządkowych tau Kendalla. W związku z tym w części pierwszej tego rozdziału zaprezentowano uogólniony współczynnik korelacji. W dalszej części scharaktery- zowano uogólnioną miarę odległości GDM dla jednakowych i zróżnicowanych wag zmiennych. Następnie wskazano silne i słabe strony uogólnionej miary odległości.
Rozważania teoretyczne zilustrowano licznymi przykładami poglądowymi. Zapre-
8
WSTĘPzentowano postać uogólnionej miary odległości GDM uwzględniającą zmienne mie- rzone na skali metrycznej, porządkowej, nominalnej oraz zmienne z różnych skal pomiaru. Zaproponowano metodę wzmacniania skali pomiaru dla danych porządko- wych w statystycznej analizie wielowymiarowej z wykorzystaniem odległości GDM2. Ponadto przedstawiono analizę związków między kwadratem odległości euklidesowej a współczynnikiem korelacji liniowej Pearsona i cosinusem kąta mię- dzy wektorami oraz między uogólnioną miarą odległości GDM a współczynnikiem korelacji liniowej Pearsona i cosinusem kąta między wektorami.
W rozdziale trzecim zaprezentowano obszary zastosowań uogólnionej miary od- ległości w statystycznej analizie wielowymiarowej. Podstawowymi obszarami za- stosowań tej miary są wyznaczanie macierzy odległości w procesie klasyfikacji zbioru obiektów, w skalowaniu wielowymiarowym oraz zastosowanie miary GDM jako syntetycznego miernika rozwoju w metodach porządkowania liniowego.
Ponadto w rozdziale tym zaprezentowano metody oceny podobieństwa wyników klasyfikacji zbioru obiektów oraz oceny podobieństwa wyników porządkowania liniowego zbioru obiektów w czasie.
Rozdział czwarty poświęcono zagadnieniu wyboru metody normalizacji warto- ści zmiennych w statystycznej analizie wielowymiarowej dla danych metrycznych.
W kolejnych trzech podrozdziałach zaprezentowano zagadnienie wyboru metody normalizacji wartości zmiennych w porządkowaniu liniowym zbioru obiektów z wykorzystaniem miar syntetycznych, w skalowaniu wielowymiarowym oraz w analizie skupień.
Rozdział piąty zawiera rezultaty wybranych eksperymentów symulacyjnych po- zwalających ocenić zachowanie się uogólnionej miary odległości GDM przy róż- nych strukturach danych. W pierwszym podrozdziale scharakteryzowano zagadnie- nie losowego generowania danych o znanej strukturze klas w pakiecie clusterSim.
W drugim podrozdziale przedstawiono analizę porównawczą metod klasyfikacji dla danych o znanej strukturze klas dla trzech typów danych. W dwóch pierwszych eks- perymentach wykorzystano dane metryczne oraz porządkowe o znanej strukturze klas obiektów wygenerowane z wykorzystaniem z funkcji cluster.Gen pakietu clusterSim. W eksperymencie trzecim zbiory danych utworzono z wykorzysta- niem funkcji pakietu mlbench (spirals, smiley, cassini) oraz zbiorów własnych (worms, w3, skad). W podrozdziale trzecim, na podstawie porządkowych danych symulacyjnych wygenerowanych z wykorzystaniem z funkcji cluster.Gen pa- kietu clusterSim, przeprowadzono ocenę przydatności wybranych procedur ana- lizy skupień obejmujących miarę odległości GDM, dziewięć metod klasyfikacji oraz osiem indeksów służących ustaleniu liczby klas.
W rozdziale szóstym zaprezentowano wybrane zastosowania uogólnionej miary
odległości GDM1 i GDM2 w statystycznej analizie wielowymiarowej z wykorzysta-
niem programu R. Znaczna część skryptów wykorzystuje pakiet clusterSim. Za-
stosowania dotyczyły porządkowania liniowego i analizy skupień zbioru obiektów
na podstawie danych porządkowych z rynku nieruchomości oraz porządkowania
WSTĘP
9 liniowego na podstawie danych metrycznych dotyczących warunków zamieszkiwa- nia ludności w miastach i analizy skupień obiektów opisanych danymi metrycznymi dotyczącymi zanieczyszczenia powietrza. Ponadto dokonano oceny podobieństwa wyników porządkowania liniowego zbioru obiektów w czasie na podstawie danych metrycznych dotyczących warunków zamieszkiwania ludności w miastach.
Pracę zamyka zestawienie wykorzystywanej literatury, aneks oraz skorowidz rzeczowy.
Wersję instalacyjną programu R oraz dodatkowe pakiety (w tym pakiet clu- sterSim autorstwa Marka Walesiaka i Andrzeja Dudka) można pobrać ze strony:
http://www.r-project.org/. Wszystkie skrypty zawarte w książce przetestowano, uży- wając wersji 3.3.0 programu R.
Na stronie internetowej http://keii.ue.wroc.pl znajdują się pliki zawierające wy- korzystywane dane oraz skrypty realizujące zastosowania zamieszczone w książce.
Książka jest przeznaczona dla pracowników naukowych zajmujących się zasto-
sowaniem metod statystycznej analizy wielowymiarowej w każdej dziedzinie wie-
dzy, w tym w badaniach ekonomicznych. Ponadto odbiorcami książki mogą być
słuchacze wyższych uczelni studiujący zagadnienia statystycznej analizy wielowy-
miarowej i jej zastosowań.
1
PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ
ANALIZY WIELOWYMIAROWEJ
1.1
ZAGADNIENIA WSTĘPNE
Termin „statystyczna analiza wielowymiarowa” odnosi się do grupy metod sta- tystycznych, za pomocą których jednoczesnej analizie poddane są pomiary na przy- najmniej dwóch zmiennych opisujących każdy obiekt badania. Do podstawowych pojęć statystycznej analizy wielowymiarowej zaliczają się: obiekt i zmienna. Głów- nym zagadnieniem jest określenie elementarnej jednostki badawczej, czyli obiektu badania.
Obiekty są rozumiane w sensie zarówno dosłownym, jak i przenośnym. Obiek- tem jest więc w badaniach określona rzecz, osoba, kategoria abstrakcyjna lub zda- rzenie. Konkretnymi przykładami obiektów są: konsument X, produkt Y, marka samochodu S, pacjent P, gmina G, przedsiębiorstwo F, rzeka R, rynek testowy T, hipermarket H, rynek zbytu Z, gospodarstwo domowe D, idea filozoficzna I. Zbiór obiektów badania będzie oznaczany przez A = { } { A
i 1n= A
1, , A
n} .
Zmienna w statystycznej analizie wielowymiarowej jest charakterystyką opisu- jącą zbiorowość obiektów. W ujęciu formalnym zmienna M
jto odwzorowanie (por.
[Borys 1984, s. 87]):
j
:
M A → Q ( j = 1, , ) m , (1.1) gdzie: Q – zbiór obrazów (liczb rzeczywistych, kategorii), m – liczba zmiennych.
Metody statystycznej analizy wielowymiarowej (SAW) zwykle wymagają, aby realizacje zmiennych były liczbami rzeczywistymi – zachodzi więc potrzeba kodo- wania zmiennych wyrażonych w formie kategorii. Jeśli w odwzorowaniu (1.1) zbiór obrazów jest zbiorem kategorii, to należy go przekodować na zbiór liczb rzeczywi- stych. Można wykorzystać następujące sposoby kodowania zmiennych (zob. [Wale- siak 2011a]):
1. Jeśli dana zmienna ma tylko dwie kategorie, można ją zamienić na tzw. zmien-
ną sztuczną (np. zero-jedynkową). Jednemu wariantowi nadaje się wartość „1”,
a drugiemu wartość „0” lub „–1”, np. dla zmiennej płeć kodowanie będzie następu-
jące: kobieta „1”, mężczyzna „0” lub „–1”;
12
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ2. Jeśli zmienna ma więcej niż dwie kategorie, to stosujemy sposób zamiany, polegający na zastosowaniu zespołu zmiennych sztucznych (np. zero-jedynkowych).
Ten typ kodowania stosowany jest w analizie regresji wielorakiej.
W modelu z wyrazem wolnym obowiązuje zasada, według której liczba wpro- wadzonych zmiennych sztucznych musi być mniejsza o 1 od liczby poziomów (kategorii) danej zmiennej. Załóżmy, że dla zmiennej wykształcenie występują trzy warianty (kategorie): podstawowe, zasadnicze zawodowe, średnie. Należy w tym przypadku wprowadzić dwie zmienne sztuczne, np. zdefiniowane następująco:
W modelu bez wyrazu wolnego wprowadza się tyle zmiennych sztucznych, ile jest poziomów (kategorii) danej zmiennej. Na przykład dla danych kwartalnych wprowadzamy 4 zmienne zero-jedynkowe o następującym kodowaniu:
Kodowanie zero-jedynkowe zmiennych umożliwia funkcja fact2dummy pa- kietu StatMatch programu R.
PRZYKŁAD 1.1
Pracownik x (wykształcenie)
1 średnie
2 podstawowe
3 podstawowe
4 zasadnicze zawodowe
5 zasadnicze zawodowe
6 średnie
7 średnie
8 podstawowe
9 zasadnicze zawodowe
10 zasadnicze zawodowe
Wykształcenie 1
podstawowe 0 0 zasadnicze zawodowe 0 1
średnie 1 0
j j
M M+
lub
1
1 1
0 1
1 0
j j
M M+
− −
1 2 3 4
Kwartał
I 1 0 0 0
II 0 1 0 0
III 0 0 1 0
IV 0 0 0 1
M M M M
1.1. ZAGADNIENIA WSTĘPNE
13 SKRYPT 1.1
library(StatMatch)
d<-read.csv2("dane_1_1.csv",header=TRUE,row.names=1) attach(d)
options(OutDec=",")
print("Liczba zmiennych 0-1 równa liczbie kategorii", quote=FALSE)
d1<-fact2dummy(d,all=TRUE) print(d1)
print("Liczba zmiennych 0-1 mniejsza o 1 od liczby kategorii",quote=FALSE) d2<-fact2dummy(d,all=FALSE)
print(d2) detach(d)
W wyniku zastosowania procedury ze skryptu 1.1 otrzymuje się następujące wy- niki kodowania zero-jedynkowego dla zmiennej x (wykształcenie):
[1] Liczba zmiennych 0-1 równa liczbie kategorii xpodstawowe xśrednie xzasadnicze zawodowe
1 0 1 0
2 1 0 0
3 1 0 0
4 0 0 1
5 0 0 1
6 0 1 0
7 0 1 0
8 1 0 0
9 0 0 1
10 0 0 1
[1] Liczba zmiennych 0-1 mniejsza o 1 od liczby kategorii xpodstawowe xśrednie 1 0 1
2 1 0
3 1 0
4 0 0
5 0 0
6 0 1
7 0 1
8 1 0
9 0 0
10 0 0
14
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJ3. Poszczególnym kategoriom można przypisać kolejne liczby naturalne. Nie ma tutaj znaczenia, czy kategorie można uporządkować według stopnia intensywności oddziaływania (zmienna porządkowa), czy też nie można ich uporządkować (zmien- na nominalna). Na przykład dla zmiennej porządkowej organizacja pracy, obejmu- jącej kategorie bardzo dobra, dobra, słaba, zła, można zastosować kodowanie:
zła 1
słaba 2
dobra 3
bardzo dobra 4
Znajomość w analizie statystycznej zbioru obiektów i zmiennych pozwala zapi- sać macierz danych, w której dowolny element oznacza się przez x
ij(i = 1, …, n;
j = 1, …, m). Jest to obserwacja j-tej zmiennej w i-tym obiekcie. Wielowymiarowa obserwacja (m-wymiarowa) będzie zapisywana w formie wektora (por. [Jajuga 1993, s. 21]):
x
i= [x
i1, x
i2, ..., x
im]
T. (1.2) Jeśli do dwóch „wymiarów” (obiekty, zmienne) doda się „wymiar” czasu, to otrzymuje się tzw. kostkę danych. Pojęcia tego używają w swoich pracach m.in.
Žukowska i Mučnik [1976, s. 15]; Sokołowski [1981; 1983]; Jajuga [1987, s. 14-16;
1993, s. 21-23] oraz Grabiński [1992, s. 19]. Dowolną liczbę w kostce danych ozna- cza się przez x
itj. Jest to wartość j-tej zmiennej w i-tym obiekcie w okresie t ( i = ,1 , n ; j = ,1 , m ; t = ,1 , T ). W celu uproszczenia zapisu do wszystkich wzorów w pracy zastosowano zasadę, według której indeks pasywny (stały) będzie pomijany.
W badaniach empirycznych wykorzystujących metody statystycznej analizy wielowymiarowej nie wychodzi się poza trzeci „wymiar”. Wiąże się to nie tylko z brakiem odpowiednich danych statystycznych, ale również z tym, że w dalszych etapach analizy wielowymiarowej pierwotne dane podlegają syntetyzacji. Ponadto w razie liczby wymiarów większej niż trzy kłopotliwa staje się interpretacja wyni- ków końcowych.
Trójwymiarowe ujęcie w postaci kostki danych pozwala stosować w badaniach następujące schematy badawcze:
a) ujęcie całościowe, w którym wykorzystuje się całą kostkę danych – analizo- wany jest tutaj zbiór n obiektów w T okresach ze względu na m zmiennych;
b) ujęcie cząstkowe – kostka ma trzy wymiary, więc możliwe są do uzyskania trzy różne jej przekroje:
– przekrój czas-zmienna, w którym jeden z obiektów jest analizowany w T okre- sach ze względu na m zmiennych,
– przekrój obiekt-czas, w którym n obiektów jest analizowanych w T okresach ze względu na jedną zmienną,
– przekrój obiekt-zmienna, w którym n obiektów jest analizowanych ze względu
na m zmiennych w jednym okresie.
1.2. TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA
15 W dalszej części pracy będą wykorzystywane dwa ujęcia: całościowe oraz cząst- kowe w przekroju czas-zmienna i obiekt-zmienna z koncepcji kostki danych. Ujęcie cząstkowe w przekroju obiekt-czas nie będzie rozpatrywane, ponieważ jest to zagad- nienie analizy jednowymiarowej.
1.2
TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA Podstawą teorii pomiaru jest pojęcie skali.
D
efinicja1 (por. [Adams, Fagot, Robinson 1965, s. 101-102; Walesiak 1990b, s. 37]). Taką uporządkowaną czwórkę U = < A G H F ; ; ; > , że
a) A to niepusty zbiór obiektów, H – zbiór liczb rzeczywistych, G – klasa funkcji odwzorowujących A w H, F – klasa funkcji odwzorowujących H w H,
b) dla wszystkich g G ∈ i f F f g G ∈ , ∈ ,
c) F zawiera przekształcenie H na H, a ponadto dla każdego f f F
k,
l∈ złożenie
k l
,
f f F ∈
nazywa się skalą pomiaru.
W teorii pomiaru rozróżnia się cztery podstawowe skale pomiaru, wprowadzone przez Stevensa [1946]. Definiując w odniesieniu do skali ilorazowej dopuszczalne przekształcenie, Stevens nie określił, do którego zbioru należy x w funkcji (1.6), tzn.
czy należy do całego zbioru liczb rzeczywistych, zbioru liczb rzeczywistych dodat- nich, czy rzeczywistych nieujemnych. Dopiero definicja Adamsa, Fagota i Robinso- na usunęła tę usterkę.
D
efinicja2 (por. [Adams, Fagot, Robinson 1965, s. 103; Walesiak 1991, s. 13- -14]). U = <A; G; H; F> jest skalą nominalną wtedy i tylko wtedy, gdy F jest zbio- rem wszystkich funkcji f odwzorowujących H w H (H = R) takich, że
f – funkcja wzajemnie jednoznaczna. (1.3) D
efinicja3 (por. [Adams, Fagot, Robinson 1965, s. 103; Walesiak 1991, s. 14]).
U = <A; G; H; F> jest skalą porządkową wtedy i tylko wtedy, gdy F jest zbiorem wszystkich funkcji f odwzorowujących H w H (H = R) takich, że
f – funkcja ściśle monotonicznie rosnąca. (1.4) D
efinicja4 (por. [Adams, Fagot, Robinson 1965, s. 103; Walesiak 1990b, s. 37]). U = <A; G; H; F> jest skalą interwałową (przedziałową) wtedy i tylko wtedy, gdy H jest zbiorem wszystkich liczb rzeczywistych R i F jest zbiorem funkcji f takich, że dla dodatniego b
( ) , ( )
f x bx a f x = + ∈ R (1.5)
dla wszystkich x R ∈ .
16
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJD
efinicja5 (por. [Adams, Fagot, Robinson 1965, s. 103; Walesiak 1990b, s. 38]).
U = <A; G; H; F> jest skalą ilorazową (stosunkową) wtedy i tylko wtedy, gdy H jest zbiorem liczb rzeczywistych dodatnich R
+i F jest zbiorem funkcji f takich, że dla dodatniego b
( ) , ( )
f x bx f x = ∈ R
+(1.6) dla wszystkich x R ∈
+.
Skale pomiaru są uporządkowane od najsłabszej do najmocniejszej: nominalna, porządkowa (rangowa), przedziałowa (interwałowa), ilorazowa (stosunkowa). Skale przedziałową i ilorazową zalicza się do skal metrycznych, natomiast nominalną i porządkową do niemetrycznych.
Z przytoczonych definicji 2-5 wynika, że z typem skali wiąże się grupa prze- kształceń, ze względu na które skala zachowuje swe własności. Dopuszczalnymi przekształceniami matematycznymi są więc te, które nie naruszają dopuszczalnych relacji dla mierzonej zmiennej. Skala U
2jest mocniejsza od skali U
1wtedy i tylko wtedy, gdy jej dopuszczalne przekształcenie jest zdegenerowanym przypadkiem dopuszczalnego przekształcenia skali U
1(por. [Walenta 1971, s. 52]).
Podstawowe własności skal pomiaru zawiera tab. 1.1.
Tabela 1.1. Podstawowe własności skal pomiaru
Typ skali Dozwolone przekształcenia
matematyczne Dopuszczalne
relacje Dopuszczalne
operacje arytmetyczne Nominalna z = f(x), f(x) – dowolne
przekształcenie wzajemnie jednoznaczne
równości ( ),
różności ( ) zliczanie zdarzeń (liczba relacji równości, różności) Porządkowa z = f(x), f(x) – dowolna ściśle
monotonicznie rosnąca funkcja powyższe oraz większości ( ) i mniejszości ( )
zliczanie zdarzeń (liczba relacji równości, różności, większości, mniejszości) Przedziałowa z = bx + a (b > 0), z ∈ R dla
wszystkich x zawartych w R, wartość zerowa na tej skali jest zwykle przyjmowana arbitralnie lub na podstawie konwencji*
powyższe oraz równości różnic i przedziałów (xA−xB=xC−xD)
powyższe oraz dodawanie i odejmowanie
Ilorazowa z = bx (b > 0), z ∈ R+ dla wszystkich x zawartych w R+, naturalnym początkiem skali ilorazowej jest wartość zerowa (zero lewostronnie ogranicza zakres skali)
powyższe oraz równości ilorazów A C
B D
x x x x
=
powyższe oraz mnożenie i dzielenie
* Por. [Ackoff 1969, s. 240].
Źródło: opracowanie własne na podstawie prac [Stevens 1959, s. 25 i 27; Adams, Fagot, Robinson 1965; Walesiak 1995, s. 189-191; Walesiak, Bąk 2000, s. 17].
A B
x =x
A B
x ≠x
A B
x >x
A B
x <x
1.3. TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH
17 Jedna z podstawowych reguł teorii pomiaru mówi, że jedynie rezultaty pomiaru w skali mocniejszej mogą być transformowane na liczby należące do skali słabszej (por. np. [Steczkowski, Zeliaś 1981, s. 17; 1997, s. 19; Wiśniewski 1986; 1987; Wa- lesiak 1990b, s. 40]). Bezpośrednia transformacja skal polegająca na ich wzmacnia- niu nie jest możliwa, ponieważ z mniejszej ilości informacji nie można uzyskać większej jej ilości. W literaturze (por. [Anderberg 1973, s. 53-69; Pociecha 1986]) podawane są pewne aproksymacyjne metody pośredniego przekształcania skal słab- szych w silniejsze, opierające się na dodatkowych informacjach. Stosując zaś do- zwolone przekształcenie wartości na skali, zachowujemy niezmienność typu skali przyjętej dla danej zmiennej.
Inna z reguł teorii pomiaru mówi, że metody ilościowe, które można stosować do wyników pomiaru w skali słabszej, stosuje się również do liczb uzyskanych z mierzenia na poziomie mocniejszym. Wynika to z tego, że skala mocniejsza zawie- ra dopuszczalne relacje skali słabszej.
Typ skali, ze względu na dopuszczalne przekształcenia, determinuje stosowal- ność rozmaitych technik statystyczno-ekonometrycznych. Technikami statystyczny- mi dopuszczalnymi dla danego typu skali są takie techniki, które dostarczają wy- ników (w sensie relacji) niezmiennych względem dopuszczalnych przekształceń (por. np. [Walenta 1971, s. 61]). W artykule Handa [1996] dyskutowany jest problem relacji między skalami pomiaru a dopuszczalnymi dla nich technikami statystyczny- mi. Pokazano w nim przykłady, które są źródłem kontrowersji w wypadku ścisłego stosowania reguł pomiaru.
Pierwsze zestawienie typowych technik statystycznych przydatnych w pomiarze dokonywanym na skalach różnych rodzajów zaprezentował Stevens [1959, s. 27].
W pracy [Walesiak 1996, s. 23-24] przedstawiono typowe metody i techniki wyko- rzystywane w statystycznej analizie wielowymiarowej, których stosowanie jest uza- leżnione od skal pomiaru zmiennych.
1.3
TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH Jeśli w badaniu są wykorzystywane metody porządkowania liniowego zbioru obiektów, to zachodzi potrzeba:
1) ujednolicenia charakteru zmiennych będących przedmiotem agregacji, z wy- korzystaniem postulatu jednolitej preferencji zmiennych
1,
2) pozbawienia wartości zmiennych mian i ujednolicenia rzędów wielkości w celu doprowadzenia ich do porównywalności (transformacja normalizacyjna).
W sytuacji, gdy w badaniu będą wykorzystywane metody analizy skupień i ska- lowania wielowymiarowego, zmienne muszą być sprowadzone do porównywalno-
1 W metodach porządkowania liniowego, w których wykorzystuje się syntetyczne mierniki bazu- jące na wzorcu rozwoju, nie zawsze zachodzi potrzeba ujednolicania charakteru zmiennych.
18
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJści poprzez transformacje normalizacyjne. Stosuje się je w przypadku, gdy zmienne są mierzone na skali przedziałowej i ilorazowej. W odniesieniu do słabych skal po- miaru nie zachodzi potrzeba normalizacji, na ich wartościach bowiem nie wyznacza się ani relacji równości różnic i przedziałów, ani stosunków.
Inne metody statystycznej analizy wielowymiarowej (analiza regresji, metody drzew klasyfikacyjnych, conjoint analysis, analiza czynnikowa
2, analiza dyskrymi- nacyjna, analiza korelacji kanonicznej, analiza wariancji i kowariancji) nie wymaga- ją uprzedniej transformacji normalizacyjnej oraz ujednolicania zmiennych.
Jeśli celem badania jest uporządkowanie liniowe zbioru obiektów, istotnego zna- czenia nabiera klasyfikacja zmiennych ze względu na preferencje wśród zmiennych.
Wyróżnia się wtedy stymulanty (S), destymulanty (D) i nominanty (N). Pojęcie sty- mulanty i destymulanty wprowadził Hellwig [1968], a nominanty – Borys [1978].
Przeciwieństwem zmiennych preferencyjnych są zmienne neutralne (obojętne) (por.
[Borys 1984, s. 111, 121]).
Zmienna M
jjest destymulantą (zob. [Hellwig 1981, s. 48]), gdy dla każdych dwóch jej obserwacji (liczb rzeczywistych dla danych metrycznych oraz kategorii dla danych porządkowych) x x
ijD,
kjDodnoszących się do obiektów A A
i,
kjest x
ijD> x
kjD⇒ A A
i
k( oznacza dominację obiektu A
knad obiektem A
i).
Zmienna M
jjest stymulantą (zob. [Hellwig 1981, s. 48]), gdy dla każdych dwóch jej obserwacji x x
ijS,
kjSodnoszących się do obiektów A A
i,
kjest x
ijS> x
kjS⇒ A A
i
k( oznacza dominację obiektu A
inad obiektem A
k).
W badaniach empirycznych dla nominant zachodzi potrzeba ustalenia obserwa- cji lub przedziału liczbowego (zbioru kategorii dla zmiennych porządkowych), który uznajemy za nominalny. Spośród nominant rozważane będą w pracy tylko nominan- ty jednomodalne. Nominanty wielomodalne omówiono m.in. w pracy Borysa [1984, s. 118]. Za najbardziej korzystną obserwację nominanty jednomodalnej jest uznawa- na wartość (kategoria dla zmiennych porządkowych) nominalna zmiennej, a za ob- serwację najmniej korzystną – wartość (kategoria dla zmiennych porządkowych) minimalna lub maksymalna.
Zmienna M
jjest więc nominantą jednomodalną (zob. [Borys 1984, s. 118]), gdy dla każdych dwóch jej obserwacji x x
ijN,
kjNodnoszących się do obiektów A A
i,
k– jeżeli x x
ijN,
kjN≤ nom
j, to x
ijN> x
kjN⇒ A A
i
k,
– jeżeli x x
ijN,
kjN> nom
j, to x
ijN> x
kjN⇒ A A
i
k, gdzie nom
jto nominalny poziom j-tej zmiennej.
Przez ujednolicenie charakteru zmiennych rozumie się takie przekształcenie każdej zmiennej, że dla każdych dwóch obserwacji x
ij, x
kjj-tej zmiennej odnoszą- cych się do obiektów A A
i,
k( x
ij> x
kj) ⇒ A A
i
k. (1.7)
2 W analizie czynnikowej wykorzystuje się standaryzację.
1.3. TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH
19 W dalszym ciągu zakładamy, że ujednolicenie zmiennych polega na przekształ- ceniu wszystkich zmiennych na stymulanty. Zatem problem ujednolicenia charakte- ru zmiennych nie występuje wtedy, gdy w zbiorze zmiennych są tylko stymulanty.
Zagadnienie ujednolicenia charakteru zmiennych sformułowano w ten sposób dlate- go, że w badaniach empirycznych stymulanty stanowią na ogół dominującą grupę zmiennych preferencyjnych. Formuły zamiany destymulant i nominant na stymulan- ty przedstawiono m.in. w pracach [Borys 1984, s. 289-308; Dziechciarz, Strahl, Wa- lesiak 2001; Grabiński 1984, s. 34-35; Kukuła 2000, s. 58-59; Strahl 1978; Strahl, Walesiak 1997; Walesiak 1993a, s. 38-40; 1996, s. 36-38].
Typowe formuły transformacji destymulant na stymulanty dla danych metrycz- nych można wyrazić wzorami:
a) ilorazowa: x
ij= b x ( )
ijD −1(b > 0), (1.8) gdzie: x
ijD– wartość j-tej destymulanty zaobserwowana w i-tym obiekcie, b – stała
przyjmowana arbitralnie (np. b = min
i{ } x
ijD, b = 1 );
b) różnicowa: x
ij= − a bx b
ijD( > 0) , (1.9) gdzie: a, b – stałe przyjmowane arbitralnie (np. b = 1 , a = 0 lub max{ }).
ijDa =
ix
Wzór (1.8) można stosować tylko do destymulant mierzonych na skali ilorazo- wej (tylko dla nich bowiem zbiór możliwych wartości zawiera się w R
+). Stymulan- ta otrzymana w wyniku przekształcenia będzie również mierzona na skali ilorazo- wej. Wzór (1.9) może być stosowany do destymulant mierzonych na skali zarówno ilorazowej, jak i przedziałowej. Stymulanta otrzymana w wyniku przekształcenia (1.9) jest mierzona przeważnie na skali przedziałowej. Można jednak podać przy- kład takich destymulant mierzonych na skali ilorazowej, że stymulanty otrzymane w wyniku ich przekształcenia (1.9) również są mierzone na skali ilorazowej – np. za- miana destymulanty „wskaźnik zużycia środków trwałych w %” na stymulantę
„wskaźnik niezużycia środków trwałych w %” (we wzorze (1.9) b = 1 i a = 100%).
W badaniach empirycznych do zamiany nominant na stymulanty dla danych me- trycznych wykorzystuje się następujące wzory:
a) ilorazowa: min{ ; } max{ ; }
N j ij
ij N
j ij
nom x
x = nom x , (1.10)
gdzie: x
ijN– wartość j-tej nominanty zaobserwowana w i-tym obiekcie, nom
j– nomi- nalny poziom j-tej zmiennej;
b) różnicowa: x
ij= − x
ijN− nom
j. (1.11)
Wzór (1.10) można stosować tylko do nominant mierzonych na skali ilorazowej
(tylko dla nich bowiem zbiór możliwych wartości zawiera się w R
+). Uzyskana sty-
mulanta będzie mierzona w skali ilorazowej. Stymulanta otrzymana w wyniku za-
stosowania wzoru (1.11) jest mierzona na skali przedziałowej.
20
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJW podrozdziale 3.3 przedstawione zostaną dwie metody zamiany nominant na destymulanty dla danych porządkowych z wykorzystaniem odległości GDM2 (me- toda I z powtórzeniami, metoda II bez powtórzeń).
Jeśli w badaniu wykorzystywane będą metody klasyfikacji, skalowania wielo- wymiarowego lub metody porządkowania liniowego zbioru obiektów, to zachodzi potrzeba przeprowadzenia transformacji normalizacyjnej.
Celem normalizacji wartości zmiennych jest doprowadzenie zmiennych do po- równywalności. Uzyskuje się to przez pozbawienie mian wyników pomiaru oraz ujednolicenie ich rzędów wielkości. Pierwszy cel normalizacji jest jednoznaczny.
Stanowi on warunek sine qua non normalizacji. Cel drugi nie jest jednoznaczny, a zatem dopuszcza w tym zakresie różne rozwiązania. Ujednolicenie rzędów wielko- ści dla zmiennych uzyskuje się np. przez ujednolicenie wartości wszystkich zmien- nych pod względem zmienności mierzonej odchyleniem standardowym (mediano- wym odchyleniem bezwzględnym dla miar pozycyjnych) lub przez zapewnienie stałości rozstępu dla znormalizowanych wartości zmiennych. Ogólnie rzecz biorąc, ujednolicenie rzędów wielkości uzyskuje się przez wprowadzenie jednolicie okre- ślonej wartości zerowej dla wszystkich zmiennych (parametr A
jwe wzorze (1.12)), a następnie przeskalowanie wartości zmiennych (parametr B
jwe wzorze (1.12)).
Ze względu na to, że jedynymi dopuszczalnymi przekształceniami na skali prze- działowej i ilorazowej są przekształcenia liniowe, metody normalizacyjne można wyrazić ogólnym wzorem [Walesiak 1988; 1990; Jajuga, Walesiak 2000; Zeliaś 2002]:
ij j
1
jij j ij j ij
j j j
x A A
z b x a x
B B B
= + = − = − ( b >
j0) , (1.12)
gdzie: x j-tej zmiennej dla i-tego obiektu, A
ij– wartość j-tej zmiennej dla i-tego obiektu; z
j– parametr przesunięcia do umownego
ij– znormalizowana wartość zera dla j-tej zmiennej; B
j– parametr skali dla j-tej zmiennej; a
j= − A B
j j,
j
1
jb = B – parametry dla j-tej zmiennej określone w tab. 1.2.
Szczególnymi przypadkami wzoru (1.12) są metody ujęte w tab. 1.2 (por. np.
[Abrahamowicz 1985; Borys 1978, Grabiński 1992, s. 35-38; Jajuga 1981; Jajuga, Walesiak 2000; Milligan, Cooper 1988; Młodak 2006; Nowak 1990, s. 38-39; Wale- siak 1988; 1993, s. 40; 1996, s. 38-40; 2002b, s. 19]).
Normalizację wartości zmiennych przeprowadza się w pakiecie clusterSim (zob. Walesiak, Dudek 2015]) programu R [R Development Core Team 2016] z wy- korzystaniem funkcji:
data.Normalization(x,type="n0", normalization="column") gdzie: x – macierz danych; type – typ formuły normalizacyjnej z tab. 1.2 (kolumna 1);
"n0" – bez normalizacji; normalization – rodzaj normalizacji: "co- lumn" – normalizacja według zmiennych (kolumny w macierzy danych),
"row" – normalizacja według obiektów (wiersze w macierzy danych).
Tabela 1.2. Metody normalizacyjne
Typ Nazwa metody Parametr Skala pomiaru zmiennych
bj aj przed
normalizacją po normalizacji
n0 Bez normalizacji – – ilorazowa lub
przedziałowa – n1 Standaryzacja 1sj −x sj j ilorazowa lub
przedziałowa przedziałowa n2 Standaryzacja pozycyjna* 1madj −med madj j ilorazowa lub
przedziałowa przedziałowa n3 Unitaryzacja 1rj −x rj j ilorazowa lub
przedziałowa przedziałowa n3a Unitaryzacja pozycyjna 1rj −med rj j ilorazowa lub
przedziałowa przedziałowa n4 Unitaryzacja zerowana 1rj −min{ }/i xj rj ilorazowa lub
przedziałowa przedziałowa n5 Normalizacja**
w przedziale [–1; 1] 1
maxi xij−xj max
j
ij j
i
x
x x
−
−
ilorazowa lub
przedziałowa przedziałowa n5a Normalizacja pozycyjna
w przedziale [–1; 1] max ij1 j
i x −med max
j
ij j
i
med x med
−
−
ilorazowa lub
przedziałowa przedziałowa n6 Przekształcenia
ilorazowe 1sj 0 ilorazowa ilorazowa
n6a 1madj 0 ilorazowa ilorazowa
n7 1rj 0 ilorazowa ilorazowa
n8 1 max{ }ij
i x 0 ilorazowa ilorazowa
n9 1xj 0 ilorazowa ilorazowa
n9a 1medj 0 ilorazowa ilorazowa
n10
1
∑
ni=1xij 0 ilorazowa ilorazowan11 2
1
∑
ni=1xij 0 ilorazowa ilorazowan12 Normalizacja
2 1
1
( )
n
ij j
i= x −x
∑
1( )2j n
ij j
i
x x x
=
−
∑
−ilorazowa lub
przedziałowa przedziałowa n12a Normalizacja
pozycyjna
2 1
1
( )
n
ij j
i x med
=
∑
− 21
( )
j n
ij j
i
med x med
=
−
∑
−ilorazowa lub
przedziałowa przedziałowa
n13 Normalizacja z zerem
usytuowanym centralnie*** 1
j/ 2
r / 2
j j
m
−r ilorazowa lub
przedziałowa przedziałowa xij – wartość j-tej zmiennej dla i-tego obiektu, zij – znormalizowana wartość j-tej zmiennej dla i-tego obiektu, xj – średnia dla j-tej zmiennej, sj – odchylenie standardowe dla j-tej zmiennej, rj – roz- stęp dla j-tej zmiennej, max{ } min{ }
2
ij i ij
j i
x x
m +
= – środek rozstępu (mid-range), medj=med xi ( )ij – mediana dla j-tej zmiennej, – medianowe odchylenie bezwzględne dla j-tej zmiennej.
* Autorzy pracy [Lira, Wagner, Wysocki 2002, s. 91] proponują przemnożenie mianownika przez stałą 1,4826. Uzasadnienie wprowadzenia stałej zawarto w pracy [Młodak 2009, s. 18].
** Zob. [Rybaczuk 2002, s. 147].
*** http://www.benetzkorn.com/2011/11/data-normalization-and-standardization/ (dostęp 1.06.2014).
Źródło: opracowanie własne.
j i ( )ij
mad = mad x
22
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJW tabeli 1.2 przedstawiono wzory na normalizację według zmiennych. Analo- giczne wzory można przedstawić dla normalizacji według obiektów. Normalizacja według obiektów ma sens wówczas, gdy wszystkie zmienne wyrażone są w tej sa- mej jednostce miary. Taki przypadek występuje np. w badaniach strukturalnych.
Dalsze rozważania będą dotyczyć normalizacji według zmiennych.
Ujednolicenie rzędów wielkości jest możliwe tylko w razie jednolitego określe- nia wartości zerowej dla wszystkich zmiennych (zob. [Walesiak 1988]). Przekształ- cenia ilorazowe można stosować tylko wtedy, gdy zmienne są mierzone na skali ilorazowej (istnieje dla niej absolutny punkt zerowy). Gdy zbiór zawiera zmienne mierzone na skali przedziałowej lub przedziałowej i ilorazowej, wówczas do norma- lizacji można stosować pozostałe metody normalizacyjne, wprowadzające jednoli- cie określoną wartość zerową (umowną) dla wszystkich zmiennych. Standaryzacja klasyczna (standaryzacja pozycyjna), normalizacja (normalizacja pozycyjna), unita- ryzacja (unitaryzacja pozycyjna), normalizacja w przedziale [− 1 ; 1 ] (normalizacja pozycyjna w przedziale [− 1 ; 1 ] ) określają umowną wartość zerową na poziomie średniej wartości zmiennej (mediany dla metod pozycyjnych), unitaryzacja zerowa- na – na poziomie wartości minimalnej, a normalizacja z zerem usytuowanym cen- tralnie – na poziomie środka rozstępu. Zastosowanie tych metod normalizacyjnych do zmiennych mierzonych na skali ilorazowej, aczkolwiek formalnie poprawne, spowoduje stratę informacji wskutek „przejścia” wszystkich zmiennych na skalę przedziałową. Strata informacji przejawia się m.in. ograniczeniem zastosowania różnych technik statystycznych i ekonometrycznych.
Przy wyborze metody normalizacyjnej należy brać pod uwagę nie tylko skale pomiaru zmiennych, ale również takie charakterystyki rozkładu zmiennych, jak:
średnia arytmetyczna, odchylenie standardowe i rozstęp wyznaczony dla znormali- zowanych wartości zmiennych (por. tab. 1.3). Analiza tab. 1.3 pozwala sformułować następujące wnioski (zob. [Jajuga, Walesiak 2000, s. 110-111; Walesiak 2002b, s. 20;
Walesiak 2014a]):
a) metody normalizacyjne (unitaryzacja, unitaryzacja pozycyjna, unitaryzacja zerowana, przekształcenie ilorazowe z podstawą normalizacji równą rozstępowi, normalizacja z zerem usytuowanym centralnie) są cenne, ponieważ zapewniają znormalizowanym wartościom zmiennych zróżnicowaną zmienność (mierzoną od- chyleniem standardowym, a dla normalizacji pozycyjnych medianowym odchyle- niem bezwzględnym) i jednocześnie stały rozstęp dla wszystkich zmiennych;
b) standaryzacja klasyczna, standaryzacja pozycyjna, normalizacja oraz prze- kształcenie ilorazowe z podstawą normalizacji równą odchyleniu standardowemu i medianowemu odchyleniu bezwzględnemu powodują ujednolicenie wartości wszystkich zmiennych pod względem zmienności mierzonej odchyleniem standar- dowym (medianowym odchyleniem bezwzględnym dla miar pozycyjnych); oznacza to wyeliminowanie zmienności jako podstawy różnicowania obiektów;
c) przekształcenia ilorazowe z podstawą normalizacji równą maksimum oraz
pierwiastkowi z sumy kwadratów obserwacji zapewniają znormalizowanym warto-
ściom zmiennych zróżnicowaną zmienność, średnią arytmetyczną i rozstęp;
1.3. TRANSFORMACJA NORMALIZACYJNA I UJEDNOLICANIE ZMIENNYCH
23
Tabela 1.3. Charakterystyki rozkładu wartości zmiennych po normalizacji
Typ Metoda Średnia
arytmetyczna / mediana*
Odchylenie standardowe / medianowe
odchylenie bezwzględne* Rozstęp
n1 ( )
ij j j
x −x s 0 1 r sj j
n2
(
xij−medj)
madj 0 1 r madj jn3 ( )
ij j j
x −x r 0 s rj j 1
n3a ( )
ij j j
x −med r 0 mad rj j 1
n4
j i ij
ij x r
x
−min{ } ij j
j i x r
x
−min{ } s rj j 1
n5
(
xij−xj)
maxi xij−xj 0 sj maxi xij−xj rj maxi xij−xjn5a
(
xij−medj)
maxi xij−medj 0 madj maxi xij−medj rj maxi xij−medjn6 x sij j x sj j 1 r sj j
n6a x madij j medj
/
madj 1 r madj jn7 x rij j x rj j s rj j 1
n8 xij max{ }i xij xj max{ }i xij sj max{ }i xij rj max{ }i xij
n9 x xij j 1 s xj j r xj j
n9a x medij j 1 mad medj j r medj j
n10
1 n
ij i ij
x
∑
=x 1n 1n
j i ij
s
∑
=x 1n
j i ij
r
∑
=xn11 2
1 n
ij i ij
x
∑
=x 1 2n
j i ij
x
∑
=x 1 2n
j i ij
s
∑
=x 1 2n
j i ij
r
∑
=x n122
1( )
ij j
n
ij j
i
x x x x
=
−
∑
− 0 n −11 1( )2j n
ij j
i
r x x
= −
∑
n12a
2
1( )
ij j
n
ij j
i
x med x med
=
−
∑
− 0 1( )2j n
ij j
i
mad x med
= −
∑
1( )2j n
ij j
i
r x med
= −
∑
n13
/ 2
ij j
j
x m
r
−
/ 2
j j
j
x m r
−
/ 2
j j
s
r 2
* Mediana i medianowe odchylenie bezwzględne dla n2, n3a, n5a, n6a, n9a, n12a.
Źródło: opracowanie własne z wykorzystaniem prac [Jajuga 1981, s. 33; Walesiak 1996, s. 39; 2011d, s. 20; Jajuga, Walesiak 2000, s. 109; Lira, Wagner, Wysocki 2002, s. 91; Młodak 2006, s. 39-40].
24
1. PODSTAWOWE ZAGADNIENIA STATYSTYCZNEJ ANALIZY WIELOWYMIAROWEJd) przekształcenia ilorazowe z podstawą normalizacji równą sumie, średniej arytmetycznej i medianie, normalizacja pozycyjna, normalizacja w przedziale [− 1 ; 1 ] oraz normalizacja pozycyjna w przedziale [− 1 ; 1 ] zapewniają znormalizowanym wartościom zmiennych zróżnicowaną zmienność i rozstęp oraz stałą dla wszystkich zmiennych średnią arytmetyczną (medianę dla miar pozycyjnych); pierwsza metoda stanowi podstawę normalizacji w badaniach strukturalnych (stosuje się w nich nor- malizację według obiektów);
e) wszystkie metody normalizacyjne, będące przekształceniami liniowymi ob- serwacji na każdej zmiennej, zachowują skośność i kurtozę rozkładu zmiennych
3;
f) dla każdej pary zmiennych wszystkie metody normalizacyjne nie zmieniają wartości współczynnika korelacji liniowej Pearsona.
W wyniku zastosowania wybranych metod normalizacyjnych w dwóch następu- jących po sobie krokach otrzymuje się wyniki tożsame z zastosowaniem jednej z metod normalizacyjnych (zob. tab. 1.4).
Tabela 1.4. Metody normalizacyjne odpowiadające normalizacji dwukrokowej Zastosowana metoda
normalizacyjna Implikacja Metoda
normalizacyjna
Krok 1 Krok 2
n1 n7 ⇒ n3
n2 n7 ⇒ n3a
n5 n7 ⇒ n3
n5a n7 ⇒ n3a
n3 n6 ⇒ n1
n3a n6a ⇒ n2
Źródło: [Walesiak 2014a].
W literaturze (por. np. [Zeliaś 2002, s. 794; Młodak 2006, s. 40]) proponowane są następujące metody normalizacyjne:
2 1 n
ij ij i ij
z = x ∑
=x , (1.13)
( )
2ij ij i ij
z = x med x . (1.14)
Metody te są błędne, ponieważ jednym z celów normalizacji jest pozbawienie mian wyników pomiaru. Dla tych metod nie nastąpi pozbawienie mian wyników pomiaru.
W literaturze (zob. [Grabiński 1988, s. 245; 1992, s. 35; Pawełek 2008, s. 57]) dyskutowana jest ogólna metoda normalizacyjna o postaci:
3 Obliczenia sprawdzające wykonano w pakiecie e1071 [Meyer i in. 2014] programu R, wyko- rzystując trzy wzory na skośność i kurtozę zaprezentowane w pracy [Joanes, Gill 1998].