UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM Z WYKORZYSTANIEM PROGRAMU R

5.1

PORZĄDKOWANIE LINIOWE ZBIORU OBIEKTÓW NA PODSTAWIE DANYCH PORZĄDKOWYCH

Z RYNKU NIERUCHOMOŚCI¹

W tab. 5.1 zaprezentowano dane dotyczące 27 nieruchomości lokalowych na jeleniogórskim rynku nieruchomości opisanych 6 zmiennymi. Nieruchomość 1 jest wyceniana, natomiast nieruchomości od 2 do 27 to nieruchomości porównywalne, dla których znane są ceny transakcyjne. W pakiecie clusterSim dane zapisano w pliku data_patternGDM2.

Mieszkalne nieruchomości lokalowe zostały opisane następującymi zmiennymi:

x1. Lokalizacja środowiskowa nieruchomości gruntowej, z którą związany jest lokal mieszkalny (1 – zła, 2 – nieodpowiednia, 3 – dostateczna, 4 – dobra, 5 – bardzo dobra).

x2. Standard użytkowy lokalu mieszkalnego (1 – zły, 2 – niski, 3 – średni, 4 – wysoki).

x3. Warunki bytowe występujące na nieruchomości gruntowej, z którą związany jest lokal mieszkalny (1 – złe, 2 – przeciętne, 3 – dobre).

x4. Położenie nieruchomości gruntowej, z którą związany jest lokal mieszkalny, w strefie miasta (1 – centralna, 2 – śródmiejska, 3 – pośrednia, 4 – peryferyjna).

x5. Typ wspólnoty mieszkaniowej (1 – mała, 2 – duża).

x6. Powierzchnia gruntu, z którą związany jest lokal mieszkalny (1 – poniżej obrysu budynku, 2 – obrys budynku, 3 – obrys budynku z otoczeniem akceptowal-nym, np. na parking, plac zabaw, 4 – obrys budynku z otoczeniem zbyt dużym) – kategoria nominalna: 3.

Zmienne x1, x2 i x3 są stymulantami, zmienne x4 i x5 – destymulantami, a zmien-na x6 jest nomizmien-nantą o kategorii nomizmien-nalnej (zmien-najkorzystniejszej) wynoszącej 3.

Przeprowadzając porządkowanie liniowe 27 nieruchomości lokalowych na je-leniogórskim rynku nieruchomości, w składni poleceń dla skryptu 5.1 przyjęto na-stępującą metodykę postępowania:

zastosowano funkcję

– pattern.GDM2 pakietu clusterSim (zob. [Walesiak, Dudek 2011]),

1 Opracowano na podstawie artykułu [Walesiak 2011a].

5.1. PORZĄDKOWANIE LINIOWE ZBIORU OBIEKTÓW... 99 do zamiany nominanty x6 na destymulantę zastosowano metodę II bez powtó-–

rzeń (″s-symmetrical″),

za wzorzec rozwoju przyjęto dolny biegun rozwoju o następujących współrzęd-–

nych (1, 1, 1, 4, 2, ″max″), zastosowano wagi jednakowe.

–

Tabela 5.1. Macierz danych (27 nieruchomości opisanych 6 zmiennymi)

Numer nieruchomości x1 x2 x3 x4 x5 x6

1 5 3 1 3 1 3

2 3 3 3 3 2 2

3 5 4 3 4 1 2

4 2 3 1 3 2 3

5 5 4 2 4 1 2

6 4 3 2 3 1 3

7 3 4 3 3 2 2

8 4 4 3 4 1 1

9 5 3 2 4 1 2

10 4 2 1 3 1 3

11 5 4 3 4 1 4

12 4 3 1 4 1 2

13 4 4 3 3 1 1

14 4 4 3 3 2 3

15 5 4 2 3 2 4

16 3 3 2 3 1 1

17 4 2 1 3 2 3

18 4 1 2 4 1 2

19 3 3 2 3 2 4

20 3 2 1 3 1 3

21 4 3 2 3 1 1

22 5 3 2 4 1 2

23 5 4 3 4 1 2

24 4 2 2 3 1 2

25 3 2 1 2 2 3

26 3 3 1 1 2 3

27 2 3 1 1 2 3

Liczba możliwych kategorii 5 4 3 4 2 4

Źródło: opracowano na podstawie pracy [Pawlukowicz 2006, s. 238].

SKRYPT 5.1

library(clusterSim) data(data_patternGDM2) options (OutDec=″,″)

res<-pattern.GDM2(data_patternGDM2,

performanceVariable=c(″s″,″s″,″s″,″d″,″d″,″n″),

100 5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...

nomOptValues=c(NA,NA,NA,NA,NA,3), weightsType=″equal″,weights=NULL,

patternType=″lower″,patternCoordinates=″manual″, patternManual=c(1,1,1,4,2,″max″),

nominalTransfMethod=″symmetrical″)

print(„Dane po transformacji nominanty x6 na destymulantę″,quote=FALSE)

print(res$data)

print(„Uporządkowanie nieruchomości od najlepszej do najgorszej według wartości miary GDM2″,quote=FALSE) print(res$sortedDistances)

gdm_p<-res$distances

plot(cbind(gdm_p,gdm_p),xlim=c(max(gdm_p),min(gdm_p)), ylim=c(min(gdm_p),max(gdm_p)),xaxt=″n″,

xlab=″Uporządkowanie nieruchomości od najlepszej do najgorszej″,ylab=″Odległości GDM2 od obiektu

wzorca″,las=1,lwd=1.6)

axis(1,at=gdm_p,labels=names(gdm_p),cex.axis=0.5,las=2) W efekcie zastosowania procedury ze skryptu 5.1 otrzymano następujące wyniki oraz rys. 5.1:

[1] Dane po transformacji nominanty x6 na destymulantę x1 x2 x3 x4 x5 x6

1 5 3 1 3 1 0,0000000 2 3 3 3 3 2 0,3333333 3 5 4 3 4 1 0,3333333 4 2 3 1 3 2 0,0000000 5 5 4 2 4 1 0,3333333 6 4 3 2 3 1 0,0000000 7 3 4 3 3 2 0,3333333 8 4 4 3 4 1 0,6666667 9 5 3 2 4 1 0,3333333 10 4 2 1 3 1 0,0000000 11 5 4 3 4 1 0,3333333 12 4 3 1 4 1 0,3333333 13 4 4 3 3 1 0,6666667 14 4 4 3 3 2 0,0000000 15 5 4 2 3 2 0,3333333 16 3 3 2 3 1 0,6666667 17 4 2 1 3 2 0,0000000 18 4 1 2 4 1 0,3333333 19 3 3 2 3 2 0,3333333 20 3 2 1 3 1 0,0000000 21 4 3 2 3 1 0,6666667 22 5 3 2 4 1 0,3333333 23 5 4 3 4 1 0,3333333 24 4 2 2 3 1 0,3333333 25 3 2 1 2 2 0,0000000

5.1. PORZĄDKOWANIE LINIOWE ZBIORU OBIEKTÓW... 101

26 3 3 1 1 2 0,0000000 27 2 3 1 1 2 0,0000000 pattern 1 1 1 4 2 0,6666667

[1] Uporządkowanie nieruchomości od najlepszej do najgorszej według wartości miary GDM2

14 3 11 23 1 13 0,6117002 0,5997664 0,5997664 0,5997664 0,5539164 0,5302174 6 5

0,5227029 0,5219020

15 8 7 9 22 26 0,5130766 0,4620506 0,4398538 0,4288488 0,4288488 0,4100774 10 27

0,3992506 0,3759365

21 2 24 25 20 17 0,3584182 0,3474391 0,3443568 0,3339597 0,3273294 0,3255114 12 4

0,2978136 0,2881964

16 19 18 0,2864148 0,2666805 0,2562767

Rys. 5.1. Graficzna prezentacja uporządkowania nieruchomości od najlepszej do najgorszej według wartości miary GDM2 Źródło: opracowanie własne z wykorzystaniem programu R.

14 23113 1 13 6 5 15 8 7 229 26 10 27 21 224 25 20 17 12 416 19 18

Odległości GDM2 od obiektu wzorca

0,60

0,55

0,50

0,45

0,40

0,35

0,30

0,25

Uporządkowanie nieruchomości od najlepszej do najgorszej

102 5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...

Najlepsze warunki spośród 27 mieszkalnych nieruchomości lokalowych ma nie-ruchomość o numerze 14, najgorsze zaś nienie-ruchomość o numerze 18. Z punktu wi-dzenia podejścia porównawczego określania wartości rynkowej nieruchomości (zob.

[Pawlukowicz 2010]) wynika, że wartość rynkowa wycenianej nieruchomości nr 1 powinna być wyższa niż cena transakcyjna nieruchomości nr 13 i niższa niż cena transakcyjna nieruchomości nr 3, 11 i 23 (nieruchomości te mają taką samą atrakcyj-ność inwestycyjną).

5.2

PORZĄDKOWANIE LINIOWE ZBIORU OBIEKTÓW NA PODSTAWIE DANYCH METRYCZNYCH

DOTYCZĄCYCH WARUNKÓW ZAMIESZKIWANIA LUDNOŚCI W MIASTACH

Przeprowadzono porządkowanie liniowe województw Polski ze względu na po-ziom warunków zamieszkiwania ludności w miastach w roku 2008. W analizie uwzględniono następujące zmienne:

X1 – odsetek ogółu mieszkań wyposażonych w wodociąg, X2 – odsetek ogółu mieszkań wyposażonych w ustęp, X3 – odsetek ogółu mieszkań wyposażonych w łazienkę, X4 – odsetek ogółu mieszkań wyposażonych w gaz z sieci,

X5 – odsetek ogółu mieszkań wyposażonych w centralne ogrzewanie, X6 – przeciętna liczba izb w mieszkaniu,

X7 – przeciętna liczba osób na 1 mieszkanie, X8 – przeciętna liczba osób na 1 izbę,

X9 – przeciętna powierzchnia użytkowa 1 mieszkania w m², X10 – przeciętna powierzchnia użytkowa w m² na 1 osobę.

Tabela 5.2 zawiera dane statystyczne dotyczące 17 obiektów (16 województw Polski oraz Polska) ze względu na poziom warunków zamieszkiwania ludności w miastach w roku 2008.

Zastosowano funkcję pattern.GDM1 (dane metryczne z pliku Warunki_

mieszkaniowe_2008.csv) pakietu clusterSim do porządkowania liniowe-go województw Polski ze względu na poziom warunków zamieszkiwania ludności w miastach w roku 2007. W składni poleceń dla skryptu 5.2 przyjęto następującą metodykę postępowania:

dla każdej zmiennej określono charakter preferencji: stymulanty (zmienne od

– X1

do X6, X9, X10); destymulanty (X7, X8). Zatem:

performanceVariable=c(″s″,″s″,″s″,″s″,″s″,″s″,″d″,″d″,

″s″,″s″)

dla każdej zmiennej ustalono skalę jej pomiaru (skala ilorazowa i przedziało-–

wa). Wszystkie zmienne mierzone są na skali ilorazowej, a zatem scaleType=″r″

5.2. PORZĄDKOWANIE LINIOWE ZBIORU OBIEKTÓW... 103

przeprowadzono normalizację wartości zmiennych z zastosowaniem odpowied-–

niej metody normalizacji wartości zmiennych. W tym przypadku dopuszczalne są wszystkie formuły normalizacyjne. Zastosowano tutaj standaryzację:

normalization=″n1″

przyjęto, że wzorcem będzie górny biegun rozwoju:

– patternType=

″upper″

przyjęto następujące współrzędne obiektu

– −wzorca zaproponowane przez

prze-prowadzającego badanie (patternCoordinates=″manual″):

patternManual=c(100,100,100,100,100,″max″,″min″,

″min″,″max″,″max″) w analizi

– e zastosowano wagi jednakowe (weightsType=″equal″) SKRYPT 5.2

library(clusterSim)

x<-read.csv2(″Warunki_mieszkaniowe_2008.csv″, header=TRUE,row.names=1)

options(OutDec=″,″)

Tabela 5.2. Dane statystyczne dotyczące 17 obiektów (16 województw oraz Polska) ze względu na poziom warunków zamieszkiwania ludności w miastach w roku 2008

Województwo Zmienne

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10

Polska 98,5 94,5 92,2 73,6 84,7 3,50 2,63 0,75 62,2 23,6

Dolnośląskie 99,1 91,9 89,1 84,9 80,3 3,41 2,60 0,76 60,9 23,4 Kujawsko-pomorskie 99,0 94,8 90,4 72,8 82,7 3,49 2,71 0,78 58,9 21,7 Lubelskie 97,4 94,1 92,6 69,2 88,9 3,69 2,78 0,75 63,9 23,0

Lubuskie 99,1 94,3 91,5 75,6 82,0 3,60 2,73 0,76 63,1 23,1

Łódzkie 96,2 89,6 86,2 61,3 80,0 3,32 2,44 0,73 57,9 23,8

Małopolskie 98,3 96,3 95,1 78,6 85,2 3,46 2,66 0,77 62,6 23,6 Mazowieckie 97,9 95,8 93,9 76,7 90,3 3,35 2,40 0,72 61,6 25,6

Opolskie 99,3 95,3 93,3 77,1 83,9 3,61 2,77 0,77 64,7 23,4

Podkarpackie 97,8 95,2 94,6 88,1 87,4 3,78 3,01 0,80 67,3 22,3 Podlaskie 97,9 95,0 94,2 45,5 90,1 3,81 2,76 0,73 64,5 23,3 Pomorskie 99,7 97,7 94,5 74,9 86,3 3,53 2,65 0,75 62,5 23,6

Śląskie 99,1 93,3 91,5 71,0 79,6 3,45 2,62 0,76 61,7 23,5

Świętokrzyskie 96,6 92,7 91,5 69,7 89,0 3,49 2,70 0,77 61,0 22,6 Warmińsko-mazurskie 99,8 97,7 94,9 72,1 88,4 3,60 2,79 0,77 60,2 21,6 Wielkopolskie 99,3 95,7 93,2 69,7 83,3 3,73 2,79 0,75 68,8 24,7 Zachodniopomorskie 99,7 95,7 93,3 80,3 87,4 3,56 2,68 0,75 62,0 23,1 Źródło: Rocznik Statystyczny Województw 2009.

104 5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...

res<-pattern.GDM1(x,performanceVariable=c(″s″,″s″,″s″, ″s″,″s″,″s″,″d″,″d″,″s″,″s″),

scaleType=″r″,nomOptValues=NULL,

weightsType=″equal″,normalization=″n1″,

patternType=″upper″,patternCoordinates=″manual″, patternManual=c(100,100,100,100,100,″max″,

″min″,″min″,″max″,″max″),nominalTransfMethod=NULL) print(″Uporządkowanie województw od najlepszego do najgorszego według wartości miary GDM1″,

quote=FALSE)

Rys. 5.2. Graficzna prezentacja uporządkowania województw Polski ze względu na poziom warunków zamieszkiwania ludności w miastach w roku 2008

od najlepszego do najgorszego według wartości miary GDM1 Źródło: opracowanie własne z wykorzystaniem programu R.

PomorskieMazowieckie WielkopolskieZachodniopomorskie Maáopolskie Opolskie Podlaskie PolskaLubelskieWarmiĔsko-mazurskie Podkarpackie Lubuskie ĝląskie DolnoĞląskie ĝwiĊtokrzyskie Kujawsko-pomorskie àódzkie

0,7

0,6

0,5

0,4

0,3

Odległości GDM1 od obiektu wzorca

5.3. OCENA PODOBIEŃSTWA WYNIKÓW PORZĄDKOWANIA LINIOWEGO... 105 print(res$sortedDistances)

# Prezentacja graficzna wyników porządkowania liniowego gdm_p<-res$distances

plot(cbind(gdm_p,gdm_p),xlim=c(min(gdm_p),max(gdm_p)), ylim=c(min(gdm_p),max(gdm_p)),xaxt=″n″,xlab=″″, ylab=″Odległości GDM1 od obiektu wzorca″,

lwd=1.6,las=1)

axis(1,at=gdm_p,labels=names(gdm_p),las=2,cex.axis=0.5) Wskutek zastosowania procedury ze skryptu 5.2 otrzymano następujące wyniki:

[1] Uporządkowanie województw od najlepszego do najgorszego według wartości miary GDM1

Pomorskie Mazowieckie Wielkopolskie Zachodniopomorskie 0,2354391 0,2375905 0,2769451 0,2769486 Małopolskie Opolskie Podlaskie Polska 0,3334169 0,3575402 0,3871173 0,3950736 Lubelskie Warmińsko-mazurskie Podkarpackie Lubuskie 0,4001906 0,4047235 0,4213756 0,4595499 Śląskie Dolnośląskie Świętokrzyskie Kujawsko-pomorskie 0,5444182 0,5616129 0,5760167 0,6346291 Łódzkie

0,6919274

Najlepsze warunki zamieszkiwania w miastach w roku 2008 były w wojewódz-twie pomorskim, najgorsze zaś w wojewódzwojewódz-twie łódzkim.

5.3

OCENA PODOBIEŃSTWA WYNIKÓW PORZĄDKOWANIA LINIOWEGO ZBIORU OBIEKTÓW W CZASIE NA PODSTAWIE DANYCH METRYCZNYCH DOTYCZĄCYCH WARUNKÓW ZAMIESZKIWANIA

LUDNOŚCI W MIASTACH

Dokonano oceny podobieństwa wyników porządkowania liniowego zbioru obiektów w czasie na podstawie danych metrycznych dotyczących warunków za-mieszkiwania ludności w miastach w roku 1999 i 2008 na podstawie zmiennych ujętych w podrozdziale 5.2.

Tabela 5.3 zawiera dane statystyczne dotyczące 17 obiektów (16 województw Polski oraz Polska) ze względu na poziom warunków zamieszkiwania ludności w miastach w roku 1999, a tab. 5.2 z podrozdziału 5.2 analogiczne dane dla roku 2008.

Porządkowanie liniowe zbioru obiektów, na podstawie którego wyznacza się wartości zmiennych syntetycznych M_t i M_q, jest jednolite w odniesieniu do obu

po-106 5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...

równywanych okresów (dla lat 1999 i 2008). W składni poleceń dla skryptu 5.3 przyjęto następującą metodykę postępowania:

a) ustalono jeden wspólny wzorzec rozwoju (górny biegun rozwoju) na podsta-wie macierzy obejmującej dane z lat 1999 i 2008 o następujących współrzędnych:

(100,100,100,100,100,″max″,″min″,″min″,″max″,″max″) b) do normalizacji wartości zmiennych (normalizacja dotyczy zmiennych ze wspólnej macierzy danych z lat 1999 i 2008 obejmujących dodatkowo obiekt−wzo-rzec) zastosowano standaryzację,

c) obliczono odległości od wzorca rozwoju z wykorzystaniem uogólnionej mia-ry odległości GDM1.

Tabela 5.3. Dane statystyczne dotyczące 17 obiektów (16 województw oraz Polska) ze względu na poziom warunków zamieszkiwania ludności w miastach w roku 1999

Województwo Zmienne

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10

Polska 97,6 89,4 87,9 76,4 80,3 3,37 2,95 0,88 56,0 19,0

Dolnośląskie 98,5 84,7 82,5 89,8 73,0 3,33 2,97 0,89 56,2 18,9 Kujawsko-pomorskie 97,6 88,4 85,0 72,5 78,1 3,39 2,99 0,88 54,4 18,2 Lubelskie 95,5 90,2 88,5 68,6 84,8 3,50 3,08 0,88 56,8 18,5

Lubuskie 99,9 89,3 86,9 79,0 75,4 3,51 3,08 0,88 57,5 18,6

Łódzkie 94,1 83,0 80,0 64,4 76,1 3,13 2,64 0,84 51,1 19,4

Małopolskie 97,6 92,9 92,0 84,3 81,2 3,32 2,99 0,90 56,6 18,9 Mazowieckie 96,3 92,8 90,3 80,8 89,3 3,22 2,75 0,85 53,3 19,4

Opolskie 98,6 91,9 90,1 82,4 78,8 3,50 3,02 0,86 60,2 19,9

Podkarpackie 97,2 92,1 91,5 85,7 84,6 3,52 3,30 0,94 59,2 18,0 Podlaskie 96,7 75,6 94,2 48,8 86,2 3,67 3,02 0,82 57,6 19,1 Pomorskie 99,2 94,4 90,3 81,6 83,1 3,45 3,08 0,89 56,1 18,2

Śląskie 98,4 88,8 87,4 71,5 74,4 3,31 2,86 0,86 56,7 19,8

Świętokrzyskie 94,1 89,3 89,1 70,0 85,9 3,31 3,02 0,91 54,5 18,1 Warmińsko-mazurskie 99,8 94,4 91,6 77,3 84,0 3,54 3,19 0,90 55,7 17,5 Wielkopolskie 98,5 90,3 88,1 74,2 78,2 3,58 3,11 0,87 61,1 19,7 Zachodniopomorskie 100,0 91,6 89,1 81,3 81,5 3,51 3,11 0,88 56,8 18,3 Źródło: Rocznik Statystyczny Województw 2000.

SKRYPT 5.3

library(clusterSim)

x1<-read.csv2(″Warunki_mieszkaniowe_1999.csv″, header=TRUE,row.names=1)

x2<-read.csv2(″Warunki_mieszkaniowe_2008.csv″, header=TRUE,row.names=1)

x<-rbind(x1,x2) options(OutDec=″,″)

5.3. OCENA PODOBIEŃSTWA WYNIKÓW PORZĄDKOWANIA LINIOWEGO... 107 res<-pattern.GDM1(x,performanceVariable=

c(″s″,″s″,″s″,″s″,″s″,″s″,″d″,″d″,″s″,″s″), scaleType=″r″,nomOptValues=NULL,

weightsType=″equal″,normalization=″n1″,

patternType=″upper″,patternCoordinates=″manual″, patternManual=c(100,100,100,100,100,″max″,″min″, ″min″,″max″,″max″),nominalTransfMethod=NULL) res_GDM<-as.matrix(res$distances)

res1<-res_GDM[1:nrow(x1),]

res2<-res_GDM[(nrow(x1)+1):nrow(x),]

print(″Obliczenia cząstkowe dla miernika Theila″, quote=FALSE)

print(″Średnie z wartości zmiennej syntetycznej dla okresu t oraz q″,quote=FALSE)

print(mean(res1)) print(mean(res2))

print(″Odchylenia standardowe z wartości zmiennej syntetycznej dla okresu t oraz q″,quote=FALSE) sd1<-sqrt((1/nrow(x1))*sum((res1-mean(res1))^2)) sd2<-sqrt((1/nrow(x1))*sum((res2-mean(res2))^2)) print(sd1)

print(sd2)

print(″Współczynnik korelacji Pearsona między wartości zmiennej syntetycznej dla okresu t oraz q″,

quote=FALSE) print(cor(res1,res2))

print(″Wartość miernika W Theila″,quote=FALSE)

Theil_W<-print(sqrt((1/nrow(x1))*(sum((res2-res1)^2)))) print(″Wartość miernika W kwadrat Theila″,quote=FALSE) Theil_W_kwadrat<-print((1/nrow(x1))*

(sum((res2-res1)^2)))

print(″Wartość miernika cząstkowego W1 kwadrat Theila″, quote=FALSE)

Theil_W1_kwadrat<-print((mean(res2)-mean(res1))^2) print(″Wartość miernika cząstkowego W2 kwadrat Theila″, quote=FALSE)

Theil_W2_kwadrat<-print((sd2-sd1)^2)

print(″Wartość miernika cząstkowego W3 kwadrat Theila″, quote=FALSE)

Theil_W3_kwadrat<-print(2*sd2*sd1*(1-cor(res1,res2))) Wskutek zastosowania procedury ze skryptu 5.3 otrzymano następujące wyniki (t oznacza rok 1999, a q rok 2008):

108 5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...

[1] Obliczenia cząstkowe dla miernika Theila

[1] Średnie z wartości zmiennej syntetycznej dla okresu t oraz q

[1] 0,547752 [1] 0,1974821

[1] Odchylenia standardowe z wartości zmiennej syntetycz-nej dla okresu t oraz q

[1] 0,08965986 [1] 0,09247885

[1] Współczynnik korelacji Pearsona między wartości zmien-nej syntetyczzmien-nej dla okresu t oraz q

[1] 0,8925485

[1] Wartość miernika W Theila [1] 0,3528156

[1] Wartość miernika W kwadrat Theila [1] 0,1244788

[1] Wartość miernika cząstkowego W1 kwadrat Theila [1] 0,122689

[1] Wartość miernika cząstkowego W2 kwadrat Theila [1] 7,946705e-06

[1] Wartość miernika cząstkowego W3 kwadrat Theila [1] 0,001781898

Przeciętny rząd odchyleń wartości porównywanych zmiennych syntetycznych z lat 1999 i 2008 (miernik W Theila) wyniósł 0,3528. Było to wynikiem głównie spadku średniej odległości od górnego bieguna rozwoju (miernik cząstkowy

1 0,1245

W = ), a więc polepszenia przeciętnej sytuacji mieszkaniowej w miastach.

Zanotowano wysoką zgodność kierunku zmian wartości zmiennych syntetycznych z porównywanych okresów (miernik cząstkowy W₃² =0,0018 dla r=0,8925). Na-stąpił niewielki wzrost w zróżnicowaniu wartości zmiennej syntetycznej świadczący o zwiększeniu (choć nieznacznym) dysproporcji między województwami pod wzglę-dem poziomu rozwoju warunków mieszkaniowych w miastach (W₂² =0,0000079 dla S_t =0,08966 i S_q =0,09248).

5.4

ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW

OPISANYCH DANYMI PORZĄDKOWYMI Z RYNKU NIERUCHOMOŚCI² W tab. 5.1 zaprezentowano dane dotyczące 27 nieruchomości lokalowych na jeleniogórskim rynku nieruchomości opisanych 6 zmiennymi. Nieruchomość 1 jest wyceniana, natomiast nieruchomości od 2 do 27 to nieruchomości porównywalne,

2 Opracowano na podstawie artykułu [Walesiak 2011b].

5.4. ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW... 109 dla których znane są ceny transakcyjne (dane zapisano w pliku data_pat-ternGDM2).

Na podstawie danych z tab. 5.1 przeprowadzono klasyfikację spektralną 27 nieruchomości lokalowych na jeleniogórskim rynku nieruchomości, opisanych 6 zmiennymi z wykorzystaniem odległości GDM2. W pierwszej fazie należy ustalić, na ile klas podzielić badany zbiór obiektów. W tym celu zastosowano metodę Giro-lamiego ujętą w postaci skryptu 5.4.

SKRYPT 5.4³

library(clusterSim) library(panel) options(OutDec=″,″)

d<-data(data_patternGDM2) d<-data_patternGDM2

dist<-dist.GDM(d,method=″GDM2″) gdm<-as.matrix(dist)

e<-eddcmp(exp(-gdm))

k<-sort(apply(e$evalues*e$evectors^2,2,sum)/

(nrow(d)^2),decreasing=TRUE)

barplot(k[1:15],xlab=expression(k[i]),names.arg=1:15) Rysunek 5.3 wskazuje dwa lub cztery dominujące elementy tego wektora K w metodzie Girolamiego. W przeprowadzonym badaniu zdecydowano się podzielić zbiór obiektów na cztery klasy.

Rys. 5.3. Uporządkowane składowe wektora K w metodzie Girolamiego służącej do ustalenia optymalnej liczby klas

Źródło: opracowanie własne z wykorzystaniem programu R.

3 Współautorem skryptu jest dr Andrzej Dudek.

0,000 0,005 0,010 0,015

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

110 5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...

Następnie z wykorzystaniem skryptu 5.5 (funkcja speccl pakietu cluster-Sim) przeprowadzono klasyfikację spektralną 27 nieruchomości lokalowych na je-leniogórskim rynku nieruchomości, opisanych 6 zmiennymi.

SKRYPT 5.5 library(kernlab) library(mlbench) library(clusterSim) library(panel)

data(data_patternGDM2) x<-data_patternGDM2 options(OutDec=″,″)

res<-speccl(x,nc=4,distance=″GDM2″,sigma=″automatic″, mod.sample=0.75,R=10,iterations=3)

print(“Liczba obiektów w klasach″,quote=F) print(res$size)

print(″Optymalna sigma″,quote=F) print(res$sigma)

clas1<-res$cluster xx<-1:nrow(x)

dim(clas1)<-c(length(clas1),1) cl_wyn1<-as.data.frame(clas1) row.names(cl_wyn1)<-xx

colnames(cl_wyn1)<-″klasa″

print(″Prezentacja klasyfikacji wynikowej – uporządkowana″,quote=F)

ord<-order(cl_wyn1[,″klasa″],decreasing=F) cl_wyn2<-as.data.frame(cl_wyn1[ord,]) row.names(cl_wyn2)<-xx[ord]

colnames(cl_wyn2)<-″klasa″

print(cl_wyn2)

desc<-cluster.Description(x,clas1,″population″) print(″Dominanty″,quote=F)

print(desc[,,5])

W efekcie zastosowania procedury ze skryptu 5.5 otrzymano następujące wyniki klasyfikacji 27 nieruchomości (dla ułatwienia interpretacji wyników klasyfikacji spektralnej dla zmiennych z poszczególnych klas obliczono dominanty):

[1] Liczba obiektów w klasach [1] 9 4 5 9

5.4. ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW... 111 [1] Optymalna sigma

[1] 106,1651

[1] Prezentacja klasyfikacji wynikowej - uporządkowana klasa

1 1 4 1 10 1 17 1 19 1 20 1 25 1 26 1 27 1 2 2 7 2 14 2 15 2 6 3 16 3 18 3 21 3 24 3 3 4 5 4 8 4 9 4 11 4 12 4 13 4 22 4 23 4 [1] Dominanty

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] 3 3 1 3 2 3 [2,] 3 4 3 3 2 2 [3,] 4 3 2 3 1 NA [4,] 5 4 3 4 1 2

Nieruchomość wyceniana znalazła się w pierwszej klasie, zatem do jej wyceny należy wykorzystać dane z pozostałych nieruchomości w tej klasie (są to nierucho-mości o numerach: 4, 10, 17, 19, 20, 25, 26, 27).

112 5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...

5.5

ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW OPISANYCH DANYMI METRYCZNYMI

DOTYCZĄCYMI ZANIECZYSZCZENIA POWIETRZA

W analizie zanieczyszczenia powietrza 17 obiektów (16 województw plus Pol-ska) uwzględniono następujące zmienne:

x1 – gęstość sieci drogowej (drogi publiczne o twardej nawierzchni) w km na 100 km² powierzchni,

x2 – samochody osobowe zarejestrowane na 1000 ludności,

x3 – emisja zanieczyszczeń pyłowych w tonach na 1 km² powierzchni, x4 – emisja dwutlenku siarki w tonach na 1 km² powierzchni,

x5 – emisja tlenku azotu w tonach na 1 km² powierzchni, x6 – emisja tlenku węgla w tonach na 1 km²powierzchni.

W tab. 5.3 zaprezentowano dane dotyczące zanieczyszczenia powietrza 17 obiek-tów (16 województw plus Polska).

Na podstawie danych z tab. 5.4 przeprowadzono klasyfikację 17 obiektów (16 województw plus Polska) ze względu na zanieczyszczenie powietrza w roku 2007.

Tabela 5.4. Dane dotyczące zanieczyszczenia powietrza 17 obiektów (16 województw plus Polska) w roku 2007

Województwo x1 x2 x3 x4 x5 x6

Polska 82,8 382,7 0,303 2,649 1,153 1,199

Dolnośląskie 91,5 381,2 0,336 3,053 1,048 0,556

Kujawsko-pomorskie 80,1 355,2 0,295 1,575 0,829 0,940

Lubelskie 73,7 347,2 0,187 0,748 0,418 0,306

Lubuskie 59,2 402,4 0,114 0,236 0,157 2,166

Łódzkie 93,4 373,2 0,428 6,241 2,766 0,878

Małopolskie 147,7 376,2 0,481 3,715 1,680 3,043

Mazowieckie 85,9 440,4 0,278 3,347 1,384 0,672

Opolskie 89,2 414,2 0,414 1,445 2,656 2,423

Podkarpackie 79,9 343,1 0,151 0,661 0,353 0,230

Podlaskie 55,7 340,2 0,084 0,213 0,168 0,228

Pomorskie 64,1 385,8 0,191 1,294 0,497 0,322

Śląskie 164,5 374,0 1,768 12,332 6,113 10,735

Świętokrzyskie 105,7 353,6 0,333 2,434 1,605 2,878

Warmińsko-mazurskie 50,9 332,6 0,058 0,190 0,095 0,108

Wielkopolskie 86,5 437,9 0,235 5,515 0,986 0,382

Zachodniopomorskie 57,3 337,2 0,249 1,079 0,751 0,218

Źródło: Rocznik Statystyczny Województw 2008.

5.5. ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW... 113 Przeprowadzając analizę skupień, w składni poleceń dla skryptu 5.6 przyjęto następującą metodykę postępowania:

zastosowano standaryzację (

– type=″n1″) do normalizacji wartości zmiennych.

Wszystkie zmienne mierzone są tutaj na skali ilorazowej,

do wyznaczenia macierzy odległości zastosowano miarę odległości GDM1 dla –

danych metrycznych (funkcja dist.GDM, dla której method=″GDM1″), zastosowano metodę klasyfikacji

– pam w powiązaniu z indeksem oceny jakości

klasyfikacji indeks gap (index.Gap) do podziału zbioru obiektów na klasy względnie jednorodne.

SKRYPT 5.6

library(clusterSim)

set.seed(123) #Ustawienie generatora liczb losowych

#Wczytanie zbioru danych

xx<-read.csv2(″Dane_zp_2007.csv″,header=TRUE) x<-as.matrix(xx[,2:ncol(xx)])

options(OutDec=″,″)

#Wybór formuły normalizacji wartości zmiennych z<-data.Normalization(x,type=″n1″)

#Wybór miary odległości z<-as.data.frame(z)

d<-dist.GDM(z,method=″GDM1″)

print(″Ustalenie liczby klas z wykorzystaniem indeksu gap″,quote=FALSE)

min_liczba_klas<-2 max_liczba_klas<-10 min<-0

clopt<-NULL wyn<-NULL

wyniki<-array(0,c(max_liczba_klas-min_liczba_klas+1,2)) wyniki[,1]<-min_liczba_klas:max_liczba_klas

znaleziono<-FALSE

for(liczba_klas in min_liczba_klas:max_liczba_klas){

cl1<-pam(d,liczba_klas,diss=TRUE) cl2<-pam(d,liczba_klas+1,diss=TRUE)

clall<-cbind(cl1$clustering,cl2$clustering)

Gap<-index.Gap(z,clall,reference.distribution=″pc″, B=10,method=″pam″)

diffu<-Gap$diffu

if((wyniki[liczba_klas-min_liczba_klas+1,2]>=0)&&

114 5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...

(!znaleziono)){

lk<-liczba_klas min<-diffu

clopt<-cl1$cluster wyn<-cl1$clusinfo znaleziono<-TRUE }

}

if(znaleziono){

print(paste(″Minimalna liczba klas dla diffu>=0 wynosi″,lk,″dla diffu=″, round(min, 4)),quote=FALSE)

}else{

print(″Nie znalazłem klasyfikacji, dla której diffu>=0″,quote=FALSE)

}

#Zapisanie do pliku diffu.csv wartości indeksu gap write.table(wyniki,file=″diffu.csv″,sep=″;″,dec=″,″, row.names=TRUE,col.names=FALSE)

print(″Prezentacja klasyfikacji wynikowej″,quote=FALSE) cl_wyn1<-data.frame(xx[, 1],clopt)

colnames(cl_wyn1)<-c(″województwa″,″klasa″) print(cl_wyn1)

print(″Prezentacja klasyfikacji wynikowej – uporządkowana″,quote=FALSE)

cl_wyn2<-cl_wyn1[order(cl_wyn1[,″klasa″],decreasing=FAL SE),]

cl_wyn2<-data.frame(cl_wyn2) print(cl_wyn2)

#Zapisanie do pliku clusinfo.csv dodatkowych informacji o wyodrębnionych klasach

write.table(wyn,file=″clusinfo.csv″,sep=″;″,dec=″,″, row.names=TRUE,col.names=TRUE)

plot(wyniki,type=″p″,pch=0,

xlab=″Liczba klas″,ylab=″diffu″,xaxt=″n″) abline(h=0,untf=FALSE)

axis(1,c(min_liczba_klas:max_liczba_klas)) desc<-cluster.Description(x,clopt,″population″) print(″Średnie arytmetyczne″,quote=FALSE)

print(desc[,,1])

print(″Odchylenia standardowe″,quote=FALSE) print(desc[,,2])

5.5. ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW... 115

Wskutek zastosowania skryptu 5.6 otrzymano następujące wyniki klasyfikacji:

ustalono liczbę klas z wykorzystaniem indeksu gap (zob. rys. 5.4):

–

[1] Minimalna liczba klas dla diffu>=0 wynosi 3 dla dif-fu= 0,0965

Rys. 5.4. Graficzna prezentacja wartości indeksu gap Źródło: opracowanie własne z wykorzystaniem programu R.

zapisano przyporządkowanie województw do wyodrębnionych klas:

–

[1] Prezentacja klasyfikacji wynikowej województwa klasa

1 Polska 1 2 Dolnośląskie 1 3 Kujawsko-pomorskie 2 4 Lubelskie 2 5 Lubuskie 1 6 Łódzkie 1 7 Małopolskie 1 8 Mazowieckie 1 9 Opolskie 1 10 Podkarpackie 2 11 Podlaskie 2

0,2

0,0

–0,2

–0,4

–0,6

diffu

2 3 4 5 6 7 8 9 10 Liczba klas

116 5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...

12 Pomorskie 1 13 Śląskie 3 14 Świętokrzyskie 1 15 Warmińsko-mazurskie 2 16 Wielkopolskie 1 17 Zachodniopomorskie 2

[1] Prezentacja klasyfikacji wynikowej - uporządkowana województwa klasa

1 Polska 1 2 Dolnośląskie 1 5 Lubuskie 1 6 Łódzkie 1 7 Małopolskie 1 8 Mazowieckie 1 9 Opolskie 1 12 Pomorskie 1 14 Świętokrzyskie 1 16 Wielkopolskie 1 3 Kujawsko-pomorskie 2 4 Lubelskie 2 10 Podkarpackie 2 11 Podlaskie 2 15 Warmińsko-mazurskie 2 17 Zachodniopomorskie 2 13 Śląskie 3

wyznaczono i zinterpretowano charakterystyki dla poszczególnych klas (obli-–

czono średnie arytmetyczne oraz odchylenia standardowe):

[1] Średnie arytmetyczne

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] 90,60000 394,7600 0,3113000 2,9929000 1,3932000 1,4519000 [2,] 66,26667 342,5833 0,1706667 0,7443333 0,4356667 0,3383333 [3,] 164,50000 374,0000 1,7680000 12,3320000 6,1130000 10,7350000

Podkreślenia oznaczają wartości minimalne, a pogrubienia wartości maksymal-ne dla poszczególnych zmiennych w klasach.

[1] Odchylenia standardowe

[,1] [,2] [,3] [,4] [,5] [,6]

[1,] 22,99343 27,006303 0,10697855 1,7571272 0,7924946 1,0121213 [2,] 11,97688 7,246704 0,08411632 0,4827987 0,2735542 0,2752246 [3,] 0,00000 0,000000 0,00000000 0,0000000 0,0000000 0,0000000

5.5. ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW... 117 W klasie jednoelementowej o numerze trzy znalazło się województwo śląskie o najwyższym poziomie zanieczyszczenia powietrza. Klasa druga obejmuje 6 woje-wództw o najniższym poziomie zanieczyszczenia powietrza (są to wojewoje-wództwa stanowiące tzw. zielone płuca Polski). Pozostałe 9 województw (plus obiekt Polska) trafiło do klasy pierwszej. Województwa te charakteryzują się średnimi poziomami zanieczyszczenia powietrza.

Wykorzystując analizę replikacji (skrypt 5.7), oceniono poziom stabilności prze-prowadzonej klasyfikacji zbioru obiektów.

SKRYPT 5.7

lk<-3 # Liczba klas ustalona w skrypcie 5.6

nor<-″n1″ # Formuła normalizacyjna zastosowana w skrypcie 5.6

odl<-″d5″ # Miara odległości zastosowana w skrypcie 5.6 library(clusterSim)

set.seed(123) # Ustawienie generatora liczb losowych x<-read.csv2(″Dane_zp_2007.csv″, header=TRUE,

row.names=1) x<-as.matrix(x) options(OutDec=″,″)

w<-replication.Mod(x,v=″m″,u=lk,

centrotypes=″centroids″, normalization=nor, distance=odl,method=″pam″,S=20,fixedAsample=NULL) print(w$cRand)

W wyniku zastosowania skryptu 5.7 otrzymano następujący rezultat:

[1] 0,571164

Poziom wartości skorygowanej miary Randa odzwierciedla stabilność przepro-wadzonej klasyfikacji zbioru obiektów. Otrzymana wartość skorygowanej miary Randa świadczy o relatywnie stabilnym podziale 17 obiektów (Polska plus 16 woje-wództw) na trzy klasy.

LITERATURA

Abrahamowicz M. (1985), Konstrukcja syntetycznych mierników rozwoju w świetle twierdzenia Arro-wa, Prace Naukowe AE we Wrocławiu nr 311, AE, Wrocław, 5-25.

Abrahamowicz M., Zając K. (1986), Metoda ważenia zmiennych w taksonomii numerycznej i procedu-rach porządkowania liniowego, Prace Naukowe AE we Wrocławiu nr 328, AE, Wrocław, 5-17.

Ackoff R.L. (1969), Decyzje optymalne w badaniach stosowanych, PWN, Warszawa.

Adams E.W., Fagot R.F., Robinson R.E. (1965), A theory of appropriate statistics, „Psychometrika”, (30), 99-127.

Ajvazjan S.A., Mchitarjan W.S. (1998), Prikladnaja statistika i osnowy ekonometriki, Juniti, Moskva.

Aldenderfer M.S., Blashfield R.K. (1984), Cluster analysis, Sage, Beverly Hills.

Anderberg M.R. (1973), Cluster analysis for applications, Academic Press, New York, San Francisco, London.

Atlas R.S., Overall J.E. (1994), Comparative evaluation of two superior stopping rules for hierarchical cluster analysis, „Psychometrika”, 59, 581-591.

Bąk A. (1999), Modelowanie symulacyjne wybranych algorytmów wielowymiarowej analizy porów-nawczej w języku C++, AE, Wrocław.

Bock H.H., Diday E. (ed.) (2000), Analysis of symbolic data, Springer-Verlag, Berlin, Heidelberg.

Borys T. (1978), Metody normowania cech statystycznych w badaniach porównawczych. „Przegląd Statystyczny”, z. 2, 227-239.

Borys T. (1984), Kategoria jakości w statystycznej analizie porównawczej, Prace Naukowe AE we Wrocławiu nr 284, Seria: Monografie i Opracowania nr 23, AE, Wrocław.

Breckenridge J.N. (2000), Validating cluster analysis: consistent replication and symmetry, „Multi-variate Behavioral Research”, 35 (2), 261-285.

Carmone F.J., Kara A., Maxwell S. (1999), HINoV: a new method to improve market segment definition by identifying noisy variables, „Journal of Marketing Research”, November, vol. 36, 501-509.

Cegiełka K., Stachowski E., Szymański K. (red.) (2000), Matematyka. Encyklopedia dla wszystkich, WNT, Warszawa.

Choynowski M. (1971), Pomiar w psychologii, [w:] J. Kozielecki (red.), Problemy psychologii mate-matycznej, PWN, Warszawa, 15-41.

Cormack R.M. (1971), A review of classification (with discussion), „Journal of the Royal Statistical Society”, A, part 3, 321-367.

Cox T.F., Cox M.A.A. (2000), A general weighted two-way dissimilarity coefficient, „Journal of Clas-sification”, vol. 17, 101-121.

Cramer H. (1958), Metody matematyczne w statystyce, PWN, Warszawa.

Czerwińska D., Gemborzewski H. (1975), O współczynniku Renkonena podobieństwa zbiorów, „Listy Biometryczne”, nr 49-50, 19-24.

Dąbrowski M., Laus-Mączyńska K. (1978), Metody wyszukiwania i klasyfikacji informacji, WNT, War-szawa.

Domański C. (1979), Statystyczne testy nieparametryczne, PWE, Warszawa.

Dudoit S., Fridlyand J. (2002), A prediction-based resampling method for estimating the number of clusters in a dataset, „Genome Biology”, 3(7).

Dziechciarz J., Strahl D., Walesiak M. (2001), Data set normalisation for banks performance assess-ment, Prace Naukowe AE we Wrocławiu nr 915, AE, Wrocław, 21-32.

Everitt B.S. (1979), The analysis of contingency tables, Chapman and Hall, London.

Everitt B.S., Landau S., Leese M. (2001), Cluster analysis, Edward Arnold, London.

W dokumencie UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ Z WYKORZYSTANIEM PROGRAMU R (Stron 96-123)