• Nie Znaleziono Wyników

2. Dane porz dkowe p 1. Wst DKOWYCH Z WYKORZYSTANIEM PROGRAMU R ODLEG O GDM2 W ANALIZIE SKUPIE DLA DANYCH PORZ Marek Walesiak

N/A
N/A
Protected

Academic year: 2021

Share "2. Dane porz dkowe p 1. Wst DKOWYCH Z WYKORZYSTANIEM PROGRAMU R ODLEG O GDM2 W ANALIZIE SKUPIE DLA DANYCH PORZ Marek Walesiak"

Copied!
13
0
0

Pełen tekst

(1)

Taksonomia 18. Klasyfikacja i analiza danych – teoria i zastosowania 2011

Marek Walesiak

Uniwersytet Ekonomiczny we Wrocawiu

ODLEG



O



GDM2 W ANALIZIE SKUPIE



DLA DANYCH PORZ



DKOWYCH

Z WYKORZYSTANIEM PROGRAMU R

Streszczenie: W artykule przedstawione dwa rozwizania metodyczne (klasyczna analiza skupie i klasyfikacja spektralna) pozwalajce na przeprowadzanie analizy skupie dla da- nych porzdkowych z wykorzystaniem odlego ci GDM2. W cz ci empirycznej zaprezen- towane rozwizania zastosowano do danych porzdkowych z rynku nieruchomo ci z wyko- rzystaniem oprogramowania rodowiska R.

S owa kluczowe: dane porzdkowe, odlego GDM2, klasyfikacja spektralna.

1. Wst

p

W artykule przedstawiono rozwi



zania metodyczne pozwalaj



ce na przeprowadza- nie analizy skupie



danych porz



dkowych. Wyró



niono dwie procedury post



po- wania, tj. klasyczn



analiz



skupie



i klasyfikacj



spektraln



. Podstaw



ich zasto- sowania do danych porz



dkowych jest odleg



o



GDM2. Ponadto przedstawiono analiz



skupie



obiektów opisanych danymi porz



dkowymi z rynku nieruchomo



ci z wykorzystaniem pakietu clusterSim (zob. [Walesiak i Dudek 2010]).

2. Dane porz



dkowe

W teorii pomiaru rozró



nia si



cztery podstawowe skale pomiaru uporz



dkowane od najs



abszej do najmocniejszej, tj. nominaln



, porz



dkow



, przedzia



ow



, ilora- zow



. Skale przedzia



ow



i ilorazow



zalicza si



do skal metrycznych, natomiast nominaln



i porz



dkow



do niemetrycznych.

Z typem skali wi



e si



grupa przekszta



ce



, ze wzgl



du na które skala zacho-

wuje swe w



a



ciwo



ci. Na skali porz



dkowej dozwolonym przekszta



ceniem ma-

tematycznym dla obserwacji jest dowolna



ci



le monotonicznie rosn



ca funkcja,

która nie zmienia dopuszczalnych relacji, tj. równo



ci, ró



no



ci, wi



kszo



ci i

mniejszo



ci. Zasób informacji skali porz



dkowej jest nieporównanie mniejszy ni



(2)

skal metrycznych. Jedyn



dopuszczaln



operacj



empiryczn



na skali porz



dkowej jest zliczanie zdarze



(tzn. wyznaczanie liczby relacji wi



kszo



ci, mniejszo



ci i równo



ci). Szczegó

ow



charakterystyk



skal pomiaru zawieraj



m.in. prace Wale- siaka [1996, s. 19-24; 2006, s. 12-15].

Miara odleg

o



ci dla obiektów opisanych zmiennymi porz



dkowymi mo

e wy- korzystywa

w swojej konstrukcji tylko wspomniane relacje. To ograniczenie po- woduje,

e musi by

ona miar



kontekstow



, która wykorzystuje informacje o rela- cjach, w jakich pozostaj



porównywane obiekty w stosunku do pozosta

ych obiek- tów z badanego zbioru obiektów. Tak



miar



odleg

o



ci dla danych porz



dkowych jest miara GDM2 zaproponowana przez Walesiaka [1993, s. 44-45]:

2 1

1 1

2

1 1

2

1 1

, 1

2 2 1

















 

 

 





m

j n

l klj m

j n

l ilj m

j

m

j n

k i l

l

klj ilj kij

ikj

ik

b a

b a b

a

d , d

ik

[ 0 ; 1 ] , (1)

gdzie:

 

 

 

 















!

!

"

"

!

,

1 0 1

rj kj pj ij

rj kj pj ij

rj kj pj ij krj

ipj

x x x x

x x x x

x x x x b

a

je

#

eli je

#

eli je

#

eli

dla p

$

k , l ; r

$

i , l ,

) ,

lj

j k

ij

x x

x ( – i-ta (k-ta, l-ta) obserwacja na j-tej zmiennej, n

l k

i , ,

$

1 ,

%

, – numery obiektów, m

j

$

1 ,

%

, – numer zmiennej.

Miar



odleg

o



ci GDM2 mo

na stosowa

, gdy zmienne s



mierzone jednocze



- nie na ró

nych skalach. Dla grupy zmiennych mierzonych na skali przedzia

owej lub ilorazowej zostaje os

abiona skala pomiaru (zostaj



one przekszta

cone w zmienne porz



dkowe, poniewa

w obliczeniach uwzgl



dniane s



tylko relacje wi



kszo



ci, mniejszo



ci i równo



ci).

W literaturze z zakresu statystycznej analizy wielowymiarowej nie zapropono-

wano dotychczas innych miar odleg

o



ci dla zmiennych porz



dkowych. Miary od-

leg

o



ci: Kendalla [1966, s. 181], Gordona [1999, s. 19] czy Podaniego [1999] nie

s



typowymi miarami dla zmiennych porz



dkowych, poniewa

przy ich stosowa-

niu zak

ada si



,

e odleg

o



ci mi



dzy s



siednimi obserwacjami na skali porz



dko-

wej s



sobie równe (na skali porz



dkowej odleg

o



ci mi



dzy dowolnymi dwiema

obserwacjami nie s



znane). Zastosowanie tych miar odleg

o



ci wymaga uprzed-

niego porangowania obserwacji. Przyjmuje si



wtedy upraszczaj



ce za

o

enie,

e

rangi s



mierzone co najmniej na skali przedzia

owej (wtedy dopuszcza si



wyzna-

czanie ró

nic mi



dzy warto



ciami skali).

(3)

3. Analiza skupie



dla danych porz dkowych

Rysunek 1 przedstawia trzy pierwsze etapy dwóch procedur klasyfikacyjnych (kla- syczna analiza skupie



i klasyfikacja spektralna), wykorzystuj



cych dane porz



d- kowe, obejmuj



ce ustalenie zbioru obiektów i zmiennych (po zgromadzeniu da- nych porz



dkowych konstruuje si



macierz danych), wybór zmiennych oraz wybór miary odleg



o



ci.

W pakiecie clusterSim (funkcja HINoV.Mod) dost



pny jest algorytm zmodyfikowanej metody HINoV (zob. [Walesiak 2005a]), s



u



cy doborowi zmien- nych dla przypadku zmiennych niemetrycznych (nominalnych i porz



dkowych).

3b. Macierz odlego ci

Klasyczna analiza skupie Klasyfikacja spektralna 1b. Konstrukcja macierzy danych X = [xij]

(i – numer obiektu, j – numer zmiennej porz dkowej) 1a. Zbiór obiektów i zbiór zmiennych porz dkowych

2. Dobór zmiennych porz dkowych

3a. Miara odlego ci GDM2 dla danych porz dkowych

Rys. 1. Trzy pierwsze etapy dwóch procedur klasyfikacyjnych wykorzystuj cych dane porz dkowe

ródo: opracowanie wasne.

Klasyczna analiza skupie

1

dla danych porz



dkowych obejmuje kolejno na- st



puj



ce etapy (por. [Milligan 1996, s. 342-343; Walesiak 2005b; 2009]):

4. Wybór metody klasyfikacji spo



ród metod bazuj



cych na macierzy odleg



o-



ci. Mo



na tutaj wyró



ni



m.in.:

– metod



k-medoidów (pam), w której ka



da klasa jest reprezentowana przez je- den z jej obiektów, b



d



cy gwiazd



klasy (medoid, star);

1 Szczegóow charakterystyk poszczególnych etapów analizy skupie zawarto m.in. w pracy Walesiaka [2009].

(4)

– siedem metod klasyfikacji hierarchicznej: pojedynczego po



czenia (single), kompletnego po



czenia (complete),



redniej klasowej (average), wa



onej



redniej klasowej (mcquitty), metoda Warda (ward),



rodka ci



ko



ci (cen- troid), medianowa (median). Metody Warda, centroidalna i medianowa przyjmuj



za



o



enie,



e odleg



o



ci mi

dzy obiektami zosta



y wyznaczone za pomoc



kwadratu odleg



o



ci euklidesowej (maj



one wtedy interpretacj

geome- tryczn



, zgodn



z nazwami tych metod). Metody te mog



by

stosowane (por.

[Anderberg 1973, s. 141]), gdy macierz odleg



o



ci jest liczona na podstawie in- nych miar odleg



o



ci, lecz interpretacja tak otrzymanych wyników (w sensie od- leg



o



ci mi

dzyklasowej) nie jest zgodna z nazwami tych metod –hierarchiczna metoda deglomeracyjna Macnaughtona-Smitha i in. [1964] – diana.

5. Ustalenie liczby klas. Do ustalenia liczby klas s



u



m.in. indeksy z pakietu clusterSim: Daviesa-Bouldina – index.DB, Cali

skiego i Harabasza – in- dex.G1, Bakera i Huberta – index.G2, Huberta i Levine – index.G3, gap – index.Gap, Hartigana – index.H, Krzanowskiego i Lai – index.KL, Silhouette – index.S. Formu



y prezentowanych indeksów zawiera praca Wale- siaka [2009, s. 418].

Indeksy Cali

skiego i Harabasza, Krzanowskiego i Lai, Daviesa-Bouldina, Hartigana i gap w swojej konstrukcji wykorzystuj



rodek ci



ko



ci klasy o wspó



- rz

dnych b

d



cych



rednimi arytmetycznymi z warto



ci zmiennych opisuj



cych obiekty danej klasy. Dla danych porz



dkowych nie jest dopuszczalne obliczanie



rednich arytmetycznych. W zwi



zku z tym przy obliczaniu tych indeksów zamiast



rodka ci



ko



ci klasy stosuje si

wspó



rz

dne obiektu usytuowanego centralnie w klasie (zwanego „centrotype” lub „medoid”), tj. obiektu, dla którego suma odleg



o-



ci od pozosta



ych obiektów w klasie jest najmniejsza.

6. Ocena wyników klasyfikacji. Do oceny wyników klasyfikacji mo



na wyko- rzysta

funkcj

replication.Mod pakietu clusterSim. Replikacja dotyczy przeprowadzenia procesu klasyfikacji zbioru obiektów na podstawie dwóch prób wylosowanych ze zbioru danych, a nast

pnie oceny zgodno



ci otrzymanych rezul- tatów. Poziom zgodno



ci wyników dwóch podzia



ów (skorygowany indeks Randa) odzwierciedla poziom stabilno



ci przeprowadzonej klasyfikacji zbioru obiektów.

Ze wzgl

du na porz



dkowy charakter danych zamiast



rodków ci



ko



ci klas wy- znacza si

obiekty reprezentatywne dla klas.

7. Opis (interpretacja) i profilowanie klas. Opis (interpretacja) otrzymanych wyników polega na wskazaniu cech charakterystycznych poszczególnych klas oraz wyja



nieniu, jakimi czynnikami ró



ni



si

wyodr

bnione klasy. Podstaw



opisu (interpretacji) wyodr

bnionych klas s



zmienne, które bra



y udzia



w procesie kla- syfikacji zbioru obiektów.

Je



li klasyfikacja jest przeprowadzana na podstawie zmiennych mierzonych na

skali porz



dkowej, to mo



liwe jest wyznaczenie opisowej (werbalnej) charaktery-

styki poszczególnych klas dla ka



dej zmiennej. Mo



na wyznaczy

frakcje i odsetki

(5)

wyst



powania w danej klasie poszczególnych kategorii zmiennych. Mo na te wy- znaczy

 

rodki ci



ko



ci poszczególnych klas (mediany obliczone z obserwacji ka dej zmiennej porz



dkowej na podstawie obiektów tworz



cych dan



klas



) oraz medianowe odchylenie bezwzgl



dne zmiennych w poszczególnych klasach. Do wyznaczenia charakterystyk poszczególnych klas mo na wykorzysta



funkcj



cluster.Description z pakietu clusterSim.

Procedura klasyfikacji spektralnej dla danych porz



dkowych (por. [Wale- siak, Dudek 2009]) obejmuje kolejno nast



puj



ce kroki (klasyfikacj



spektraln



dla danych metrycznych zaproponowali Ng, Jordan i Weiss [2002]):

4. Zastosowanie estymatora j



drowego do obliczenia macierzy podobie



stw

 

A

ik

A

(affinity matrix) mi



dzy obiektami. Macierz podobie



stw A



A

ik

ma nast



puj



ce w

a



ciwo



ci [Perona, Freeman 1998, s. 3]: [ 0 ; 1 ]

,

ik

k

i

A , A

ii

1 ,

ki

ik

A

A

. W prezentowanym algorytmie elementy z g

ównej przek



tnej macierzy

 

A

ik

A

zast



piono zerami ( A

ii

0 ). W konstrukcji estymatora j



drowego dla danych porz



dkowych stosuje si



odleg

o



GDM2:

)

exp(

ik

ik

d

A



, (2)

gdzie:



– parametr skali (szeroko



pasma – kernel width), d

ik

– odleg

o



GDM2 dla danych porz



dkowych.

5. Konstrukcja znormalizowanej macierzy Laplace’a L

D

1/2

AD

1/2

( D – diagonalna macierzy wag, w której na g

ównej przek



tnej znajduj



si



sumy ka - dego wiersza z macierzy A



A

ik

, a poza g

ówn



przek



tn



s



zera). W rzeczy- wisto



ci znormalizowana macierz Laplace’a przyjmuje posta



: I



L . W

asno



ci tej macierzy przedstawiono m.in. w pracy von Luxburg [2006, s. 5]. W algorytmie dla uproszczenia analizy pomija si



macierz jednostkow



I .

6. Obliczenie warto



ci w

asnych i odpowiadaj



cych im wektorów w

asnych (o d

ugo



ci równej jeden) dla macierzy L . Uporz



dkowanie wektorów w

asnych we- d

ug malej



cych warto



ci w

asnych. Pierwsze u wektorów w

asnych ( u – liczba klas) tworzy macierz E



e

ij

o wymiarach n



u .

Podobnie jak w przypadku klasycznym analizy skupie



zachodzi potrzeba usta- lenia optymalnej liczby klas. Algorytm wyznaczenia optymalnej liczby klas zapro- ponowa

Girolami [2002].

Macierz podobie



stw (affinity matrix) A



A

ik

(dla

 

1 ) poddawana jest

dekompozycji A

U



U

T

, gdzie U jest macierz



wektorów w

asnych macierzy

A , sk

adaj



c



si



z wektorów u

1

, u

2

,



, u

n

, a



jest macierz



diagonaln



zawie-

raj



c



warto



ci w

asne

1

,

2

,



,

n

.

(6)

Obliczany jest wektor K



( k

1

, k

2

,



, k

n

) , gdzie k

i i

1

Tn

u

i2

( 1

Tn

– wektor o wymiarach 1

n zawieraj

cy warto

ci 1 n ). Wektor K jest porz

dkowany male- j

co, a liczba jego dominuj

cych elementów (wyznaczona np. poprzez kryterium osypiska) wyznacza optymaln

liczb



skupie



u, na któr

algorytm klasyfikacji spektralnej powinien podzieli



zbiór badanych obiektów.

7. Przeprowadza si



normalizacj



macierzy E zgodnie ze wzorem



u

j ij ij

ij

e e

y

1

2

( i



1 ,



, n – numer obiektu, j



1 ,



, u – numer zmiennej, u – liczba klas). Dzi



ki tej normalizacji d



ugo



ka



dego wektora wierszowego macierzy Y



y

ij

jest równa jeden.

8. Macierz Y stanowi punkt wyj

cia zastosowania klasycznych metod analizy skupie



(proponuje si



tutaj wykorzystanie metody k-

rednich).

Rysunek 2 pokazuje wybrane kroki post



powania w klasyfikacji spektralnej i odpowiadaj

ce im skale pomiaru.

Dane pierwotne X



[ x

ij

] mierzone s

na skali porz

dkowej. W wyniku zasto- sowania estymatora j

drowego z odleg



o

ci

GDM2 podobie



stwa w macierzy

 

A

ik

A



mierzone s

na skali przedzia



owej. Ostatecznie otrzymuje si



metrycz- n

macierz danych Y o wymiarach n

u . Pozwala ona na zastosowanie dowol- nych metod analizy skupie



(w tym metod bazuj

cych bezpo

rednio na macierzy danych, np. metody k-

rednich).

Parametr



ma fundamentalne znaczenie w klasyfikacji spektralnej. W litera-

turze zaproponowano wiele heurystycznych sposobów wyznaczania warto

ci tego

parametru (zob. np.: [Zelnik-Manor, Perona 2004; Fischer, Poland 2004; Poland,

Zeugmann 2006]). W metodach heurystycznych wyznacza si



warto

 

na pod-

stawie pewnych statystyk opisowych macierzy odleg



o

ci



d

ik

. Lepszy sposób

wyznaczania parametru



zaproponowa



Karatzoglou [2006]. Poszukuje si



takiej

warto

ci parametru



, która minimalizuje wewn

trzklasow

sum



kwadratów od-

leg



o

ci przy zadanej liczbie klas u. Jest to heurystyczna metoda poszukiwania mi-

nimum lokalnego. Zbli



ony koncepcyjnie algorytm znajdowania optymalnego pa-

rametru



zaproponowano w pracy Walesiaka i Dudka [2009].

(7)

4. Zastosowanie estymatora jdrowego z odleg oci GDM2 do obliczenia macierzy podobiestw A = [Aik]n xn

1. Dane pierwotne X = [xij]n xm

(i – numer obiektu, j – numer zmiennej porzdkowej)

6.

– obliczenie wartoci w asnych i odpowiadajcych im wektorów w asnych dla macierzy Laplace’a L – uporzdkowanie wektorów w asnych wed ug malejcych wartoci w asnych

– pierwsze u wektorów w asnych (u – liczba klas) tworzy macierz E = [eij] nxu

7. Normalizacja macierzy E – d ugo kadego wektora wierszowego macierzy jest równa jeden

8. Otrzymana po kroku 7 macierz Y jest przekszta con macierz danych, która stanowi podstaw

zastosowania metod analizy skupie

Pomiar na skali porzdkowej

Pomiar na skali przedzia owej

Pomiar na skali przedzia owej

Rys. 2. Wybrane kroki postpowania w klasyfikacji spektralnej i odpowiadajce im skale pomiaru

ródo: opracowanie wasne.

4. Zastosowania z wykorzystaniem programu R

W tabeli 1 zaprezentowano dane dotycz

ce 27 nieruchomo

ci lokalowych na jele- niogórskim rynku nieruchomo

ci opisanych 6 zmiennymi. Nieruchomo

1 jest wyceniana, natomiast nieruchomo

ci od 2 do 27 to nieruchomo

ci porównywalne, dla których znane s

ceny transakcyjne. W pakiecie clusterSim dane zapisano w pliku data_patternGDM2.

Mieszkalne nieruchomo

ci lokalowe zosta



y opisane nast



puj

cymi zmiennymi:

x1. Lokalizacja

rodowiskowa nieruchomo

ci gruntowej, z któr

zwi

zany jest lokal mieszkalny (1 – z



a, 2 – nieodpowiednia, 3 – dostateczna, 4 – dobra, 5 – bardzo dobra).

x2. Standard u



ytkowy lokalu mieszkalnego (1 – z



y, 2 – niski, 3 –

redni, 4 – wysoki).

x3. Warunki bytowe wyst



puj

ce na nieruchomo

ci gruntowej, z któr

zwi

- zany jest lokal mieszkalny (1 – z



e, 2 – przeci



tne, 3 – dobre).

x4. Po



o



enie nieruchomo

ci gruntowej, z któr

zwi

zany jest lokal mieszkal- ny, w strefie miasta (1 – centralna, 2 –

ródmiejska, 3 – po

rednia, 4 – peryferyjna).

x5. Typ wspólnoty mieszkaniowej (1 – ma



a, 2 – du



a).

(8)

x6. Powierzchnia gruntu, z któr



zwi



zany jest lokal mieszkalny (1 – poni



ej obrysu budynku, 2 – obrys budynku, 3 – obrys budynku z otoczeniem akceptowal- nym, np. parking, plac zabaw, 4 – obrys budynku z otoczeniem zbyt du



ym).

Tabela 1. Macierz danych (27 nieruchomoci opisanych 6 zmiennymi) Numer

nieruchomoci x1 x2 x3 x4 x5 x6 Numer

nieruchomoci x1 x2 x3 x4 x5 x6

1 5 3 1 3 1 3 15 5 4 2 3 2 4

2 3 3 3 3 2 2 16 3 3 2 3 1 1

3 5 4 3 4 1 2 17 4 2 1 3 2 3

4 2 3 1 3 2 3 18 4 1 2 4 1 2

5 5 4 2 4 1 2 19 3 3 2 3 2 4

6 4 3 2 3 1 3 20 3 2 1 3 1 3

7 3 4 3 3 2 2 21 4 3 2 3 1 1

8 4 4 3 4 1 1 22 5 3 2 4 1 2

9 5 3 2 4 1 2 23 5 4 3 4 1 2

10 4 2 1 3 1 3 24 4 2 2 3 1 2

11 5 4 3 4 1 4 25 3 2 1 2 2 3

12 4 3 1 4 1 2 26 3 3 1 1 2 3

13 4 4 3 3 1 1 27 2 3 1 1 2 3

14 4 4 3 3 2 3

ród o: opracowano na podstawie: [Pawlukowicz 2006, s. 238].

Na podstawie danych z tabeli 1 przeprowadzono klasyfikacj



spektraln

27 nieruchomo

ci lokalowych na jeleniogórskim rynku nieruchomo

ci, opisanych 6 zmiennymi. W pierwszej fazie nale



a

o ustali

, na ile klas podzieli

badany zbiór obiektów. W tym celu zastosowano metod

Girolamiego uj

t



w postaci skryptu 1.

Skrypt 1

2

.

library(clusterSim) library(panel) options(OutDec=",")

d<-data(data_patternGDM2) d<-data_patternGDM2

dist<-dist.GDM(d,method="GDM2") gdm<-as.matrix(dist)

e<-eddcmp(exp(-gdm)) k<-

sort(apply(e$evalues*e$evectors^2,2,sum)/(nrow(d)^2),decre asing=TRUE)

barplot(k[1:15],xlab=expression(k[i]),names.arg=1:15)

2 Wspó autorem skryptu jest dr Andrzej Dudek.

(9)

Rysunek 3 wskazuje dwie lub cztery dominuj



ce elementy tego wektora K w metodzie Girolamiego. W przeprowadzonym badaniu zdecydowano si podzieli



zbiór obiektów na cztery klasy.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

ki

0,0000,0050,0100,015

Rys. 3. Uporzdkowane skadowe wektora K w metodzie Girolamiego, sucej do ustalenia optymalnej liczby klas

ródo: opracowanie wasne z wykorzystaniem programu R.

Nast pnie z wykorzystaniem skryptu 2 przeprowadzono klasyfikacj spektraln



27 nieruchomo



ci lokalowych na jeleniogórskim rynku nieruchomo



ci, opisanych 6 zmiennymi.

Skrypt 2

3

library(kernlab) library(mlbench) library(clusterSim) library(panel)

data(data_patternGDM2) x<-data_patternGDM2 options(OutDec=",")

nc<-4 #(liczba klas ustalona metod Girolamiego) dist<-dist.GDM(x,method="GDM2")

gdm<-as.matrix(dist)

#krok 4a - obliczenie sigmy mod.sample<-0.75

bootstrap<-x[sample(1:nrow(x),nrow(x)*mod.sample),]

sigWithinss<--1 levelsPower=10.0;

levels<-3 lstart<-0

3 Wspóautorem skryptu jest dr Andrzej Dudek.

(10)

lend<-sum(gdm)

lby<-lend/levelsPower for(ll in levels:1){

lby<-lby/levelsPower sigmas<-(seq(lstart,lend-

lby,by=lby)+seq(lstart+lby,lend,by=lby))/2 i<-0

for (sigma in sigmas) { oldsigma<-sigma

ka<-exp(-as.matrix(dist.GDM(bootstrap,method="GDM2"))*sigma) d<-1/sqrt(rowSums(ka))

l<-d * ka %*% diag(d) xi<-NULL

tf<-function(l,nc){eigen(l,symmetric=TRUE)$vectors[,1:nc]}

xi<-try(tf(l,nc))

if(class(tf)!="try-error"){

if(!is.null(xi) && is.numeric(xi)){

yi<-try(xi/sqrt(rowSums(xi^2))) if(sum(is.na(yi))==0){

iterations<-20

res<-try(kmeans(yi, yi[initial.Centers(yi,nc),],iterations)) if(class(res)=="try-error"){

res<-list(withinss=1e10) next

}

if(sum(res$withinss)<sigWithinss || sigWithinss==-1){

sig<-sigma

sigWithinss<-sum(res$withinss) }

} i<-i+1 } } }

if(oldsigma==sigma){

ll<-0 }

lstart<-sig-0.5*lby lend<-sig+0.5*lby }

print(paste("Optymalna sigma:" ,sig),quote=F) print(paste("Suma odlegoci

wewntrzklasowych:",sigWithinss),quote=F)

#krok 4b - obliczenie macierzy podobiestwa (affinity matrix) km<-exp(-gdm*sig)

#krok 5a - obliczenie macierzy diagonalnej wag diag(km)<-0

d<-1/sqrt(rowSums(km))

#krok 5b - obliczenie macierzy Laplace'a l<-d * km %*% diag(d)

(11)

#krok 6 - obliczenie wektorów w asnych dla macierzy Laplace'a (utworzenie macierzy E)

xi<-eigen(l)$vectors[, 1:nc]

#krok 7 - normalizacja macierzy E yi<-xi/sqrt(rowSums(xi^2))

#krok 8 - klasyfikacja (metoda k-rednich) na podstawie macierzy Y res<-kmeans(yi, yi[initial.Centers(yi, nc),], iterations) clas1<-res$cluster

xx<-1:nrow(x)

dim(clas1)<-c(length(clas1),1) cl_wyn1<-as.data.frame(clas1) row.names(cl_wyn1)<-xx

colnames(cl_wyn1)<-"klasa"

print("Prezentacja klasyfikacji wynikowej - uporzdkowana", quote=F)

ord<-order(cl_wyn1[,"klasa"],decreasing=F) cl_wyn2 <- as.data.frame(cl_wyn1[ord,]) row.names(cl_wyn2)<-xx[ord]

colnames(cl_wyn2)<-"klasa"

print(cl_wyn2)

desc <-cluster.Description(x, clas1, "population") print("Dominanty", quote=F)

print(desc[,,5])

W wyniku zastosowania procedury ze skryptu 2 otrzymano nast



puj



ce wyniki klasyfikacji 27 nieruchomo



ci (dla u



atwienia interpretacji wyników klasyfikacji spektralnej dla zmiennych z poszczególnych klas obliczono dominanty):

[1] Optymalna sigma: 212,979671286394

[1] Suma odleg



o



ci wewn

trzklasowych: 7,72526750597529e-05 [1] Prezentacja klasyfikacji wynikowej - uporz

dkowana

klasa

1 1

4 1

10 1

17 1

19 1

20 1

25 1

26 1

27 1

2 2

7 2

14 2

15 2

3 3

5 3

8 3

(12)

9 3 11 3 12 3 13 3 22 3 23 3 6 4 16 4 18 4 21 4 24 4

[1] Dominanty

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] 3 3 1 3 2 3 [2,] 3 4 3 3 2 2 [3,] 5 4 3 4 1 2 [4,] 4 3 2 3 1 NA

Nieruchomo

 

wyceniana znalaz



a si



w pierwszej klasie, zatem do jej wyceny nale

y wykorzysta



dane z pozosta



ych nieruchomo



ci w tej klasie (s

to nieru- chomo



ci o numerach: 4, 10, 17, 19, 20, 25, 26, 27).

Literatura

Anderberg M.R., Cluster Analysis for Applications, Academic Press, New York San Francisco London 1973.

Fischer I., Poland J., New Methods for Spectral Clustering, Technical Report No. IDSIA-12-04, Dalle Molle Institute for Artificial Intelligence, Manno Lugano 2004.

Girolami M., Mercer kernel-based clustering in feature space, IEEE Transactions on Neural Net- works 2002, vol. 13, no. 3, s. 780-784.

Gordon A.D., Classification, Chapman & Hall/CRC, London 1999.

Karatzoglou A., Kernel Methods. Software, Algorithms and Applications, rozprawa doktorska, Uni- wersytet Techniczny w Wiedniu, 2006

Kendall M.G., Discrimination and classification, [w:] P.R. Krishnaiah (red.), Multivariate Analysis I, Academic Press, New York – London 1966, s. 165-185.

Luxburg U. von, A Tutorial on Spectral Clustering, Max Planck Institute for Biological Cybernetics, Technical Report TR-149, 2006.

Macnaughton-Smith P., Williams W.T., Dale M.B., Mockett L.G., Dissimilarity analysis: A new tech- nique of hierarchical sub-division, „Nature” 1964, 202, s. 1034-1035.

Milligan G.W., Clustering Validation: Results and Implications for Applied Analyses, [w:] P. Arabie, L.J. Hubert, G. de Soete (red.), Clustering and Classification, World Scientific, Singapore 1996, s. 341-375.

Ng A., Jordan M., Weiss Y., On Spectral Clustering: Analysis and An Algorithm, [w:] T. Dietterich, S. Becker, Z. Ghahramani (red.), Advances in Neural Information Processing Systems 14, MIT Press, 2002, s. 849-856.

(13)

Pawlukowicz R., Klasyfikacja w wyborze nieruchomoci podobnych dla potrzeb wyceny rynkowej nieruchomoci, Ekonometria 16, Prace Naukowe AE we Wroc awiu nr 1100, Wroc aw 2006, s. 232-240.

Perona P., Freeman W.T., A factorization approach to grouping, Lecture Notes in Computer Science, vol. 1406, Proceedings of the 5th European Conference on Computer Vision, vol. I, s. 655-670.

Podani J., Extending gowers general coefficient of similarity to ordinal characters, „Taxon” 1999, 48, s. 331-340.

Poland J., Zeugmann T., Clustering the Google distance with eigenvectors and semidefinite pro- gramming, Knowledge Media Technologies, First International Core-to-Core Workshop, Dagstuhl, July 23-27, 2006, Germany, Klaus P. Jantke & Gunther Kreuzberger (red.), Diskus- sionsbeiträge, Institut für Medien und Kommunikationswisschaft, Technische Universität Ilmenau, July 2006, no. 21, s. 61-69.

Walesiak M., Statystyczna analiza wielowymiarowa w badaniach marketingowych, Prace Naukowe AE we Wroc awiu nr 654, Monografie i Opracowania nr 101, Wroc aw 1993.

Walesiak M., Metody analizy danych marketingowych, PWN, Warszawa 1996.

Walesiak M., Problemy selekcji i waenia zmiennych w zagadnieniu klasyfikacji, [w:] K. Jajuga, M. Walesiak, Klasyfikacja i analiza danych – teoria i zastosowania, Taksonomia 12, Prace Na- ukowe AE we Wroc awiu nr 1076, Wroc aw 2005a, s. 106-118.

Walesiak M., Rekomendacje w zakresie strategii postpowania w procesie klasyfikacji zbioru obiek- tów, [w:] A. Zelia (red.), Przestrzenno-czasowe modelowanie i prognozowanie zjawisk gospo- darczych, Wydawnictwo AE, Kraków 2005b, s. 185-203.

Walesiak M., Uogólniona miara odlegoci w statystycznej analizie wielowymiarowej, wyd. II rozsze- rzone, Wydawnictwo AE, Wroc aw 2006.

Walesiak M., Analiza skupie, [w:] M. Walesiak, E. Gatnar (red.), Statystyczna analiza danych z wy- korzystaniem programu R, WN PWN, Warszawa 2009, s. 407-433.

Walesiak M., Dudek A., Odlego GDM dla danych porzdkowych a klasyfikacja spektralna, Prace Naukowe UE we Wroc awiu nr 84, Wroc aw 2009, s. 9-19.

Walesiak M., Dudek A., clusterSim package, URL http://www.R-project.org, 2010.

Zelnik-Manor L., Perona P., Self-tuning spectral clustering, Proceedings of the 18th Annual Confer- ence on Neural Information Processing Systems (NIPS '04), http://books.nips.cc/nips17.html, 2004.

GDM2 DISTANCE IN CLUSTER ANALYSIS OF ORDINAL DATA WITH APPLICATION OF R PROGRAM

Summary: The article presents two methodical solutions for classification of ordinal data (classical cluster analysis and spectral clustering), based on GDM2 distance. The empirical part of the article presents clustering of ordinal data from real estate market with the applica- tion of computer programs working in R environment.

Cytaty

Powiązane dokumenty

zastosujemy metod¦ do zdania zaczn¡ si¦ pojawia¢ formuªy, które nie b¦d¡ zdaniami. Metody wyznaczania (najbardziej ogólnego) unikatora s¡ wa»nym dziaªem

5 Poka», »e w przestrzeni Hausdora punkty s¡ domkni¦te, a ci¡gi zbie»ne maj¡ tylko jedn¡

e) w segmencie V największe znaczenie w wyborze szkoły mają koszty nauki. W rodzinach uczniów tego segmentu najwyższa jest przeciętna liczba osób oraz przeciętna

wśród zmiennych objaśniających nie dających się kontrolować (environmental variables) uwzględnia się najczęściej: dochód konsumentów, wielkość populacji,

c) spełniania przez daną formułę dodatkowych własności (np. warunku nierów- ności trójkąta – miara odległości zwana jest wtedy metryką); spośród miar odległości

Zaªó»my, »e istnieje ci¦cie

Udowodni¢, »e z jest liczb¡ algebraiczn¡ wtedy i tylko wtedy, gdy ¯z (liczba sprz¦»ona) jest liczb¡

Zaªó»my, »e X