• Nie Znaleziono Wyników

Macierz Y stanowi punkt wyjścia zastosowania klasycznych metod analizy skupień (proponuje się tutaj wykorzystanie metody k-średnich)

UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE

8. Macierz Y stanowi punkt wyjścia zastosowania klasycznych metod analizy skupień (proponuje się tutaj wykorzystanie metody k-średnich)

=

(i = 1, …, n – numer obiektu, j = 1, …, u – numer zmiennej, u – liczba klas). Dzięki tej normalizacji długość każdego wektora wierszowego macierzy Y=[ ]yij jest rów-na jeden.

8. Macierz Y stanowi punkt wyjścia zastosowania klasycznych metod analizy skupień (proponuje się tutaj wykorzystanie metody k-średnich).

Na rys. 3.2 pokazano wybrane kroki postępowania w klasyfikacji spektralnej i odpowiadające im skale pomiaru.

Rys. 3.2. Wybrane kroki postępowania w klasyfikacji spektralnej i odpowiadające im skale pomiaru Źródło: opracowanie własne.

Jeśli dane pierwotne X=[ ]xij mierzone są na skali porządkowej, to w wyniku zastosowania w funkcji (3.2) odległości GDM2 podobieństwa w macierzy A=[ ]Aik mierzone są na skali przedziałowej. Ostatecznie otrzymuje się metryczną macierz danych Y o wymiarach n × u. Pozwala ona na zastosowanie dowolnych metod ana-lizy skupień (w tym metod bazujących bezpośrednio na macierzy danych, np. meto-dy k-średnich).

Parametr σ ma fundamentalne znaczenie w klasyfikacji spektralnej. W literaturze zaproponowano wiele heurystycznych sposobów wyznaczania wartości tego para-metru (zob. np. [Zelnik-Manor, Perona 2004; Fischer, Poland 2004; Poland, Zeug-mann 2006]). W metodach heurystycznych wyznacza się wartość σ na podstawie

3.1. WYZNACZANIE MACIERZY ODLEGŁOŚCI... 75 pewnych statystyk opisowych macierzy odległości [ ]dik . Lepszy sposób wyznacza-nia parametru σ zaproponował [Karatzoglou 2006]. Poszukuje się takiej wartości parametru σ, która minimalizuje wewnątrzklasową sumę kwadratów odległości przy zadanej liczbie klas u. Jest to heurystyczna metoda poszukiwania minimum lokalne-go. Zbliżony koncepcyjnie algorytm znajdowania optymalnego parametru σ zapro-ponowano w pracy [Walesiak, Dudek 2009b]:

Krok 0. Wybierana jest próba bootstrapowa X składającą się z n′ obiektów opisanych wszystkimi m zmiennymi (wartość n′ jest najczęściej dobierana tak, aby

3

12n n≤ ≤′ 4n). Początkowy przedział przeszukiwania optymalnej wartości parame-tru σ ustalany jest jako S0 =[0; ]D (gdzie D oznacza sumę odległości dik w macierzy odległości).

Krok 1. Przedział Sk (gdzie k oznacza numer iteracji; na początku Sk =S0) dzie-lony jest na przedziały jednakowej długości: prk =[ ; ]p prk rk , r= 1, ,R (R – liczba przedziałów w każdej iteracji, np. R = 10).

Krok 2. Dla każdego przedziału prk obliczamy jego środek: σrk = prk2+prk. Dla   wszystkich wartości σrk  przeprowadzana jest klasyfikacja spektralna zbioru X′ na ustaloną liczbę klas u.

Krok 3. Wybierane jest takie σrk , dla którego suma odległości wewnątrzklaso-wych jest minimalna.

Krok 4. Z przedziałem zawierającym wybraną wartość σrk  w kroku 3 przecho-dzi się do kroku 1 i kontynuuje procedurę do osiągnięcia zadanej liczby iteracji (domyślnie: 3).

Graficzną prezentację wybranych kroków klasyfikacji spektralnej dla danych metrycznych przedstawiających strukturę dwóch klas zobrazowano na rys. 3.3.

Do wygenerowania zbioru danych metrycznych wykorzystano funkcję mlbench.

spirals pakietu mlbench (zob. rys. 3.3a). Do klasyfikacji zbioru obiektów zastosowano metodę klasyfikacji spektralnej, wyznaczając w kroku 4 macierz podobieństw zgodnie ze wzorem (3.2) z odległością GDM1. Na rys. 3.3b i 3.3c zaprezentowano odpowiednio obiekty z macierzy E o wymiarach 200 × 2 (krok 6) oraz obiekty ze znormalizowanej macierzy Y=[ ]yij o wymiarach 200 × 2 (krok 7).

Graficzną prezentację wybranych kroków klasyfikacji spektralnej dla danych porządkowych przedstawiających strukturę trzech klas zobrazowano na rys. 3.4. Do wygenerowania zbioru danych porządkowych wykorzystano funkcję cluster.

Gen pakietu clusterSim (zob. rys. 3.4a). Do klasyfikacji zbioru obiektów zasto-sowano metodę klasyfikacji spektralnej, wyznaczając w kroku 4 macierz podo-bieństw zgodnie ze wzorem (3.2) z odległością GDM2. Rysunki 3.4b i 3.4c prezen-tują odpowiednio obiekty z macierzy E o wymiarach 150 × 3 (krok 6) oraz obiekty ze znormalizowanej macierz Y=[ ]yij o wymiarach 150 × 3 (krok 7).

76 3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...

a) graficzna prezentacja zbioru danych b) zbiór danych w przestrzeni dwóch wektorów własnych macierzy Laplace’a

c) zbiór danych w przestrzeni dwóch wektorów własnych macierzy Laplace’a po normalizacji Rys. 3.3. Wybrane kroki klasyfikacji spektralnej dla przykładowego zbioru danych metrycznych

wygenerowanego z wykorzystaniem funkcji mlbench.spirals pakietu mlbench Źródło: opracowanie własne.

3.1. WYZNACZANIE MACIERZY ODLEGŁOŚCI... 77

a) graficzna prezentacja zbioru danych b) zbiór danych w przestrzeni trzech wektorów własnych macierzy Laplace’a

c) zbiór danych w przestrzeni trzech wektorów własnych macierzy Laplace’a po normalizacji Rys. 3.4. Wybrane kroki klasyfikacji spektralnej dla przykładowego zbioru danych porządkowych

wygenerowanego z wykorzystaniem funkcji clusterGen pakietu clusterSim Źródło: opracowanie własne.

78 3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...

3.2

OCENA PODOBIEŃSTWA WYNIKÓW KLASYFIKACJI ZBIORU OBIEKTÓW W CZASIE

Problem porównywania wyników dwóch różnych podziałów3 danego zbioru obiektów zyskał szerokie zainteresowanie w literaturze z zakresu statystycznej ana-lizy wielowymiarowej. Jest on ważny nie tylko z metodologicznego punktu widze-nia, ale również z punktu widzenia zastosowań metod klasyfikacji. Na przykład seg-menty rynku wyznaczone za pomocą metod klasyfikacji nie są trwałe w czasie (nie ma jednej segmentacji optymalnej danych rynków; por. [Prymon 1991, s. 43]), za-chodzi więc potrzeba sukcesywnego dokonywania segmentacji rynku z użyciem metod klasyfikacji. Mierniki podobieństwa wyników klasyfikacji zbioru obiektów w czasie pozwalają w tym przypadku ocenić stopień zmian w wynikach segmentacji.

Ponadto można określić wrażliwość wyników segmentacji na zestaw jej kryteriów.

Mierniki te są stosowane również przy ocenie zmian pozycji produktu w stosun-ku do produktów konstosun-kurencyjnych. W ten sposób firma może sprawdzić, jak zmie-nia się w czasie usytuowanie na rynku jej produktu w stosunku do produktów kon-kurencyjnych.

Używając mierników podobieństwa klasyfikacji zbioru obiektów w czasie, mo-żemy ocenić stopień zmian w relatywnie jednorodnych rynkach wykorzystywanych do testowania produktów.

Godne odnotowania propozycje mierników służących do porównywania wyni-ków dwóch różnych podziałów podali [Fowlkes, Mallows 1983; Goodman, Kruskal 1979; Hubert, Arabie 1985; Lerman 1988; Rand 1971; Wallace 1983]. W literaturze polskiej propozycje takie przedstawili [Nowak 1985, Sokołowski 1976; Szmigiel 1976]. Powstały też prace przeglądowe, w których omówiono różne propozycje (por. [Goodman, Kruskal 1979; Grabiński 1980; Walesiak 1985b; 1990a]).

W tej części pracy omówione zostaną mierniki służące do oceny podobieństwa wyników klasyfikacji zbioru obiektów w czasie. Należy jednak pamiętać, że mierni-ki te można z powodzeniem wykorzystać również w innych przypadkach (np. przy porównywaniu dwóch podziałów otrzymanych w klasyfikacji zbioru obiektów ze względu na dwa różne kryteria klasyfikacji lub to samo kryterium, ale opisane z użyciem innego lub nie w pełni zgodnego zestawu zmiennych).

Dany jest niepusty zbiór obiektów badania A o elementach Ai (i = 1, …, n) oraz dwie klasyfikacje (dwa podziały) tego zbioru na u i v klas4, otrzymane na podstawie jednolitej procedury klasyfikacyjnej w odniesieniu do porównywanych okresów t i q. Podziały P(q) i P(t) są bezpośrednio porównywalne, ponieważ w odniesieniu do obu porównywanych okresów q i t jednolicie określono:

3 Na przykład dwóch podziałów otrzymanych przy klasyfikacji zbioru obiektów ze względu na dwa różne kryteria klasyfikacji lub dwóch podziałów zbioru obiektów w dwóch różnych okresach ze względu na to samo kryterium klasyfikacji.

4 Spełniające warunki zupełności, rozłączności i niepustości.

3.2. OCENA PODOBIEŃSTWA WYNIKÓW KLASYFIKACJI... 79 – zestaw zmiennych opisujących badane obiekty,

– metodę normalizacji zmiennych (dla danych metrycznych), – miarę podobieństwa obiektów,

– metodę służącą do klasyfikacji zbioru obiektów.

W celu oceny podobieństwa wyników dwóch podziałów zbioru obiektów w cza-sie konstruuje się tablicę kontyngencji i na tej podstawie otrzymuje się ich klasyfika-cję krzyżową (por. tab. 3.3). Każdy podział danego zbioru obiektów z okresu t i q może być traktowany jako określenie pewnej zmiennej mierzonej na skali nominal-nej (por. [Kolonko 1980, s. 41]).

W pracy ocena podobieństwa wyników klasyfikacji zbioru obiektów w czasie będzie rozpatrywana w sensie oceny podobieństwa składu wyodrębnionych klas w obu podziałach. Im bardziej zatem składy klas w obu podziałach, tj. P(q) i P(t), są do siebie podobne, tym większe jest podobieństwo obu podziałów.

Tabela 3.3. Tablica kontyngencji (klasyfikacja krzyżowa wyników dwóch podziałów)

Podziały Podział P(t)

klasy P1( )t P2( )t ... Pv( )t Sumy

Podział P(q)

1( )q

P n11 n12 ... n1v n1

2( )q

P n21 n22 ... n2v n2

( )q

Pu nu1 nu2 ... nuv nu

Sumy n1 n2 ... nv n••=n

gdzie: P(t), P(q) – klasyfikacja (podział zbioru obiektów A w okresie t (q); t q< ); ns r – liczba obiektów, które jednocześnie należą do klas Pr( )t i Ps( )q ; r= 1, ,v; s= 1, ,u, v u( ) – liczba klas w po-dziale P(t)(P(q)); nr – liczba obiektów w klasie Pr( )t (kolumna r); ns – liczba obiektów w klasie

( )q

Ps (wiersz s).

Źródło: opracowanie własne.

Takie sformułowanie problemu powoduje, że z analizy zostają usunięte miary badające podobieństwo rozkładów warunkowych obu podziałów (tzn. jednego względem drugiego i odwrotnie). Zagadnienie to zostało szczegółowo omówione w pracy [Walesiak 1990a]. Do grupy miar badających podobieństwo rozkładów wa-runkowych obu podziałów można zaliczyć współczynniki: średniej kwadratowej wielodzielczości ∅2, Pearsona P2, Czuprowa T2 i Cramera C2 (por. [Cramer 1958;

Everitt 1979; Goodman, Kruskal 1979, s. 9-10; Grabiński 1980; Ostasiewicz i in.

1998, s. 55-60], Hellwiga H2 [1975, s. 143], Ostasiewicza D2 [1975], Goodmana i Kruskala λ [1979, s. 13]; Szmigla [1976]).

Prawidłowo skonstruowana miara oceny podobieństwa podziałów P(q) i P(t) pod względem składu wyodrębnionych klas powinna spełniać następujące warunki (por.

[Walesiak 1993a, s. 69-70]):

80 3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...

1. Powinna być łatwa w interpretacji, co prowadzi do postulatu, aby jej wartości były nieujemne i zawarte w zamkniętym przedziale liczbowym.

2. Największą wartość miara przybiera tylko w odniesieniu do największego podobieństwa dwóch klasyfikacji, tzn. wtedy i tylko wtedy, gdy są one identyczne.

Sytuacja taka pojawia się w przypadku kwadratowej tablicy kontyngencji, w której każdej klasie pierwszego podziału odpowiada tylko jedna klasa w podziale drugim.

3. Najmniejszą wartość miara przybiera tylko w odniesieniu do najmniejszego podobieństwa dwóch klasyfikacji, tzn. wtedy i tylko wtedy, gdy jeden podział zawie-ra tyle klas, ile jest obiektów, a drugi – jedną klasę zawiezawie-rającą wszystkie obiekty.

4. Krańcowe granice przedziału zmienności miary zgodności f (P(t);P(q)) – okreś- lone w 3 i 4 – powinny być stałe dla danej liczebności zbioru obiektów n (f – postać analityczna miary podobieństwa).

5. Warunek symetrii:

f (P(t);P(q)) = f (P(q);P(t)).

6. Wartość miary jest niezmienna względem jakiegokolwiek uporządkowania wierszy lub kolumn w tablicy kontyngencji.

U podstaw konstrukcji miar oceny podobieństwa wyników klasyfikacji zbioru obiektów w czasie ze względu na skład klas (spełniających warunki 1-6) leżą dwie koncepcje.

Historycznie rzecz ujmując, pierwsza z koncepcji została zaproponowana przez Randa [1971]. W tej koncepcji porównuje się zaklasyfikowanie wszystkich par obiektów w podziałach P(t), P(q) i wyróżnia się cztery typy par obiektów:

typ (I): obiekty tworzące parę znajdują się w tych samych klasach w podziałach P(t) i P(q);

typ (II): obiekty tworzące parę znajdują się w różnych klasach w podziałach P(t) i P(q);

typ (III): obiekty tworzące parę znajdują się w różnych klasach w P(q) i w tej sa-mej klasie w P(t);

typ (IV): obiekty tworzące parę znajdują się w tej samej klasie w P(q) i w różnych klasach w P(t).

Typy (I) i (II) są interpretowane jako pary zgodne w obu klasyfikacjach P(t) i P(q), natomiast typy (III) i (IV) – jako pary niezgodne. W tab. 3.2 przedstawiono formuły pozwalające ustalić liczby par obiektów do każdego typu, będące funkcjami n, ns,

nr i nsr.

Widać więc, że podobieństwo dwóch podziałów P(t) i P(q) wzrasta w miarę wzro-stu wartości Z.

Na tej podstawie Rand [1971] skonstruował miarę pozwalającą oceniać podo-bieństwo wyników dwóch podziałów zbioru obiektów w czasie:

1 ,

2 2

n n

R Z   N  

=  = −  

    (3.4)

gdzie: Z i N są określone wzorami w tab. 3.4.

3.2. OCENA PODOBIEŃSTWA WYNIKÓW KLASYFIKACJI... 81

Niech Z oznacza ogólną liczbę par zgodnych, a N ogólną liczbę par niezgodnych.

Stąd otrzymujemy:

Przedział zmienności tej miary zaczyna się od 0, kiedy to dwa podziały P(t) i P(q) są zupełnie niepodobne (jeden podział zawiera tyle klas, ile jest obiektów, a drugi jedną klasę zawierającą wszystkie obiekty), a kończy na 1, kiedy podziały są iden- tyczne5. Miarę Randa (3.1) interpretuje się jako odsetek par obiektów zgodnych w obu klasyfikacjach P(t) i P(q) w ogólnej liczbie par obiektów określonych na zbiorze A.

Wadą miary Randa jest to, że wykazuje tendencję do wzrostu wartości w przy-padku zwiększania liczby klas (por. [Everitt, Landau, Leese 2001, s. 182]). Hubert i Arabie [1985, s. 198] zaproponowali skorygowany indeks Randa:

max

5 Niezależnie analogiczną miarę zaproponował w polskiej literaturze statystycznej Sokołowski [1976; 1992, s. 82].

Tabela 3.4. Wzory służące do określania liczby par obiektów zakwalifikowanych do jednego z czterech typów

Typ Wzór

Źródło: [Hubert, Arabie 1985, s. 196].

82 3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...

gdzie: Rmax – maksymalna wartość miary Randa (Rmax = 1); E(R) – wartość oczeki-wana miary Randa określona wzorem:

2

Skorygowana miara Randa przyjmuje postać [Hubert, Arabie 1985, s. 198]:

, 2 2 2 2

Skorygowana miara Randa RHA przyjmuje wartości z przedziału [–∞; 1]. Miara RHA = 0, gdy indeks Randa równy jest jego wartości oczekiwanej. Wartość oczekiwa-na skorygowanej miary Randa wynosi zero. Miara RHA nie spełnia więc części postu-latów.

Drugą koncepcję oceny podobieństwa wyników klasyfikacji zbioru obiektów w czasie ze względu na skład klas zaproponował w polskiej literaturze statystycznej Nowak [1985]. W tej koncepcji, odmiennie niż w poprzedniej, bada się podobień-stwo klas wyodrębnionych w podziałach P(t) i P(q).

Do oceny podobieństwa klas Nowak wykorzystał miarę podobieństwa zbiorów Czerwińskiej i Gemborzewskiego [1975] o postaci:

max{ ; }sr ,

Wyniki obu podziałów P(t) i P(q) są tym bardziej zbliżone do siebie, im bardziej klasy jednego podziału są podobne do klas drugiego podziału. W celu ustalenia po-dobieństwa podziałów P(t) i P(q), dotyczących każdej klasy otrzymanej w wyniku podziału pierwszego, wyznacza się najbardziej podobną klasę uzyskaną w wyniku drugiego podziału. Również w odniesieniu do każdej klasy podziału P(t) wyznacza się najbardziej podobną klasę w podziale P(q).

Miarę podobieństwa dwóch podziałów P(t) i P(q) Nowak [1985] konstruuje nastę-pująco:

3.3. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM... 83 Miara podobieństwa podziałów S przybiera wartości z przedziału [1/n; 1], wy-klucza więc możliwość otrzymania wartości 0. Postulat, by miara (3.6) przybierała wartość 0, byłby uzasadniony, gdyby żadna z klas otrzymanych w wyniku jednego podziału nie miała elementów wspólnych z żadną z klas otrzymanych w wyniku podziału drugiego. Sytuacja taka jest niemożliwa, gdyż każdy element dowolnej kla-sy otrzymanej w wyniku jednego podziału jest zawarty w pewnej klasie otrzymanej w wyniku podziału drugiego.

Miarę S interpretuje się jako średnie podobieństwo najbardziej podobnych klas podziału P(q) do klas podziału P(t) i odwrotnie.

Ocenę podobieństwa wyników dwóch klasyfikacji zbioru obiektów przeprowa-dza się m.in. z wykorzystaniem funkcji comparing.Partitions pakietu clu-sterSim:

comparing.Partitions(cl1,cl2,type=″nowak″)

gdzie: cl1 (cl2) – wektor zawierający numery skupień, do których zaklasyfikowa-no obiekty w pierwszym podziale (w drugim podziale); type – typ indeksu;

″nowak″ – indeks Nowaka, ″rand″ – indeks Randa, ″crand″ – skory-gowany indeks Randa.

3.3

UOGÓLNIONA MIARA ODLEGŁOŚCI GDM JAKO SYNTETYCZNY MIERNIK ROZWOJU W METODACH PORZĄDKOWANIA LINIOWEGO

Zadaniem metod porządkowania liniowego zbioru obiektów jest uszeregowanie, czyli ustalenie kolejności obiektów lub ich zbiorów według określonego kryterium.

Metody te mogą być zatem stosowane wtedy, gdy przyjmie się pewne nadrzędne kryterium, ze względu na które będzie można uporządkować obiekty od „najlepsze-go” do „najgorsze„najlepsze-go”. Narzędziem metod porządkowania liniowego jest syntetycz-ny miernik rozwoju (SMR), będący pewną funkcją agregującą informacje cząstkowe zawarte w poszczególnych zmiennych i wyznaczoną dla każdego obiektu ze zbioru obiektów A.

Przeprowadzenie porządkowania liniowego zbioru obiektów wymaga spełnienia następujących założeń (por. [Abrahamowicz 1985; Walesiak 1993a, s. 73]):

a) dany jest co najmniej dwuelementowy i skończony zbiór obiektów

{ } {

i 1n 1, , n

}

A= A = AA ;

b) istnieje pewne nadrzędne syntetyczne kryterium porządkowania elementów zbioru A, które nie podlega pomiarowi bezpośredniemu (np. poziom rozwoju bada-nego produktu na tle produktów konkurencyjnych, poziom uprzemysłowienia woje-wództw, poziom rozwoju infrastruktury technicznej w miastach);

c) dany jest skończony zbiór zmiennych merytorycznie związany z syntetycz-nym kryterium porządkowania; zmienne mają charakter preferencyjny, tzn. wyróż-nia się wśród nich stymulanty, destymulanty i nominanty;

84 3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...

d) zmienne służące do opisu obiektów są mierzone przynajmniej na skali porząd-kowej (ze względu na to, że porządkowanie obiektów staje się możliwe, gdy dopusz-czalne jest określenie na wartościach zmiennych przynajmniej relacji większości i mniejszości). Jeśli zmienne opisujące obiekty mierzone są na skali przedziałowej lub ilorazowej, to należy sprowadzić je do porównywalności przez normalizację;

e) relacją porządkującą elementy zbioru A jest relacja większości lub mniejszo-ści, dotycząca liczbowych wartości syntetycznego miernika rozwoju.

W odniesieniu do zagadnienia porządkowania liniowego wypracowano wiele konstrukcji SMR. Formuły agregacji wartości zmiennych można ogólnie podzielić na wzorcowe i bezwzorcowe (por. np. [Grabiński 1984, s. 38]). W formułach bez-wzorcowych następuje uśrednienie znormalizowanych wartości zmiennych, z udzia-łem przyjętych wag. Formuły wzorcowe są różnego rodzaju odległościami poszcze-gólnych obiektów od obiektu wzorcowego, którym w badaniach empirycznych jest przeważnie tzw. dolny bądź górny biegun rozwoju (por. np. [Borys 1984, s. 281-282;

Hellwig 1968]). W wyniku agregacji wartości zmiennych powstaje zmienna synte-tyczna. Omówienie różnych konstrukcji SMR przedstawiono m.in. w pracach [Bąk 1999, s. 60-64; Walesiak 1990b; 1996, s. 127-129].

A. Procedura porządkowania liniowego zbioru obiektów z wykorzystaniem odległości GDM1 dla danych metrycznych – funkcja pattern.GDM1 pakietu clusterSim

Procedura porządkowania liniowego zbioru obiektów z wykorzystaniem odleg- łości GDM1 dla danych metrycznych obejmuje następujące kroki:

1. Punktem wyjścia jest macierz danych [xij], gdzie xij oznacza wartość j-tej zmiennej metrycznej w i-tym obiekcie.

2. Badacz wyróżnia, biorąc pod uwagę syntetyczne kryterium porządkowania elementów zbioru obiektów, zmienne stymulanty (″s″), destymulanty (″d″) i no-minanty (″n″) oraz podaje wartości nominalne dla nominant. Na przykład:

performanceVariable=c(″s″,″s″,″n″,″d″,″d″,″n″) nomOptValues=c(NA,NA,5.2,NA,NA,3.5)

3. Badacz określa, czy zmienne:

a) mierzone są tylko na skali ilorazowej – ratio (scaleType=″r″), b) mierzone są tylko na skali przedziałowej – interval (scaleType=″i″), c) są mieszane – ratio and interval: część jest mierzona na skali ilorazowej i część na skali przedziałowej (scaleType=c(″i″,″r″,″i″,″i″,″r″,″r″)).

4. Nominanty zostają przekształcone na stymulanty z wykorzystaniem formuł:

a) ilorazowa – quotient (dla zmiennych ze skali ilorazowej: nominalTransf-Method=″q″): wzór (1.10),

b) różnicowa – difference (dla zmiennych mierzonych na skali ilorazowej lub przedziałowej: nominalTransfMethod=″d″): wzór (1.11).

3.3. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM... 85

Skala pomiaru nominant Formuła

transformacji Skala pomiaru zmiennych po transformacji

a) tylko ilorazowa quotient ilorazowa

difference przedziałowa

b) tylko przedziałowa difference przedziałowa

c) mieszane:

– dla zmiennych mierzonych na skali ilorazowej quotient ilorazowa – dla zmiennych mierzonych na skali przedziałowej difference przedziałowa – obie grupy zmiennych (ilorazowe i interwałowe) difference przedziałowa

5. Normalizacja wartości zmiennych. Otrzymujemy znormalizowaną macierz danych [zij], gdzie zij oznacza znormalizowaną wartość j-tej zmiennej w i-tym obiekcie.

Dozwolone formuły normalizacyjne dla danych metrycznych

Skala pomiaru zmiennych pierwotnych ilorazowa ilorazowa przedziałowa lub mieszane (ilorazowa/

przedziałowa)

Formuła normalizacji n6 – n11 n1 – n5a

n12 – n13 n1 – n5a

n12 – n13 Skala pomiaru zmiennych po normalizacji ilorazowa przedziałowa przedziałowa

6. Obiektem-wzorcem w badaniach empirycznych jest górny bądź dolny biegun rozwoju.

6.1. Górny biegun rozwoju – współrzędne wzorca (patternType=″upper″) stanowią najkorzystniejsze wartości zmiennych stymulant i destymulant:

a. patternCoordinates=″dataBounds″ – współrzędne obiektu-wzorca dla stymulanty i destymulanty to odpowiednio wartość maksymalna i minimalna w zbiorze danych,

b. patternCoordinates=″manual″ – współrzędne obiektu-wzorca ba-dacz podaje sam w pliku patternManual.

6.2. Dolny biegun rozwoju – współrzędne wzorca (patternType=″lower″) stanowią najmniej korzystne wartości zmiennych stymulant i destymulant:

a. patternCoordinates=″dataBounds″ – współrzędne obiektu-wzorca dla stymulanty i destymulanty to odpowiednio wartość minimalna i maksymalna w zbiorze danych,

b. patternCoordinates=″manual″ – współrzędne obiektu-wzorca ba-dacz podaje sam w pliku patternManual.

7. W przypadku zastosowania miary odległości GDM1 z wagami zróżnicowany-mi (weightsType=″different1″ lub weightsType=″different2″) należy podać wektor wag (weights) wj spełniających warunki: w ∈j [0;1],

1 1

m j= wj =

lub wj[0; ],m 1 m

j= wj =m

.

86 3. OBSZARY ZASTOSOWAŃ UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...

8. Wyznacza się odległości poszczególnych obiektów od obiektu wzorca za po-mocą uogólnionej miary odległości GDM1 dla danych metrycznych:

1 1 1

9. Porządkujemy elementy zbioru obiektów A według rosnących wartości odleg- łości GDM1 (górny biegun rozwoju) lub według malejących wartości odległości GDM1 (dolny biegun rozwoju).

10. Prezentacja graficzna wyników porządkowania liniowego zbioru obiektów A.

B. Procedura porządkowania liniowego zbioru obiektów z wykorzystaniem odległości GDM2 dla danych porządkowych – funkcja pattern.GDM2 pakietu clusterSim

Procedura porządkowania liniowego zbioru obiektów z wykorzystaniem odleg-łości GDM2 dla danych porządkowych obejmuje następujące kroki:

1. Punktem wyjścia jest macierz danych [xij], gdzie xij oznacza obserwację j-tej zmiennej porządkowej w i-tym obiekcie.

2. Badacz wyróżnia, biorąc pod uwagę syntetyczne kryterium porządkowania elementów zbioru obiektów, zmienne stymulanty, destymulanty i nominanty. Dla kategorii poszczególnych typów zmiennych porządkowych badacz określa porzą-dek, np.:

– dla stymulanty „poziom wykształcenia” obejmującej kategorie podstawowe, średnie i wyższe, porządek jest następujący (w nawiasach podano kody): podsta-wowe (1) < średnie (2) < wyższe (3),

– dla destymulanty „położenie nieruchomości gruntowej, z którą związany jest lokal mieszkalny, w strefie miasta”, obejmującej kategorie centralna, ska, pośrednia i peryferyjna, porządek jest następujący: centralna (1) > śródmiej-ska (2) > pośrednia (3) > peryferyjna (4),

i,w

3.3. UOGÓLNIONA MIARA ODLEGŁOŚCI GDM... 87 – dla nominanty „położenie lokalu mieszkalnego w budynku 4-piętrowym bez

windy” porządek jest następujący: parter (1) < I piętro (2) > II piętro (3) > III piętro (4) > IV piętro (5) – kategoria nominalna: I piętro.

performanceVariable=c(″s″,″s″,″s″,″d″,″d″,″n″) nomOptValues=c(NA,NA,NA,NA,NA,3)

3. Obiektem-wzorcem w badaniach empirycznych jest górny bądź dolny biegun rozwoju.

3.1. Górny biegun rozwoju obejmuje najkorzystniejsze kategorie zmiennych sty-mulant, destymulant i nominant. Współrzędne obiektu-wzorca wyznacza się nastę-pująco:

a. patternCoordinates=″dataBounds″ – biorąc pod uwagę kryteria merytoryczne, badacz określa współrzędne dla każdej nominanty, a dla stymulant i destymulant są to kategorie odpowiednio maksymalna i minimalna spośród obser-wowanych w zbiorze danych,

b. patternCoordinates=″manual″ – dla stymulant, destymulant i nomi-nant badacz określa współrzędne, biorąc pod uwagę kryteria merytoryczne.

3.2. Dolny biegun rozwoju – współrzędne wzorca stanowią najmniej korzystne kategorie zmiennych.

W kroku wstępnym zamienia się nominanty na destymulanty z wykorzystaniem metod:

– metoda I z powtórzeniami (database). Osobno dla każdej nominanty oblicza się odległości GDM2 każdej obserwowanej kategorii od kategorii najkorzyst-niejszej (nominalnej). Następnie poszczególne kategorie zmiennej są zastępo-wane przez odpowiednie odległości;

– metoda II bez powtórzeń (symmetrical). Dla każdej nominanty ustala się typy kategorii (np. (1, 2, 3, 4, 5) lub (12, 17, 34, 45, 49)) występujące w zbiorze obserwacji oraz kategorię najkorzystniejszą (np. 3 lub 34). Oblicza się odległo-ści GDM2 ustalonych i niepowtarzających się kategorii od kategorii najkorzyst-niejszej (3 lub 34). Wszystkie kategorie w zbiorze danych są zastępowane przez odpowiednie odległości.

Współrzędne obiektu-wzorca wyznacza się następująco:

a. patternCoordinates=″dataBounds″ – dla stymulanty i destymulan-ty jest to kategoria odpowiednio minimalna i maksymalna spośród obserwowanych w zbiorze danych, dla nominanty zaś współrzędną wzorca rozwoju jest największa

a. patternCoordinates=″dataBounds″ – dla stymulanty i destymulan-ty jest to kategoria odpowiednio minimalna i maksymalna spośród obserwowanych w zbiorze danych, dla nominanty zaś współrzędną wzorca rozwoju jest największa