5.1
PORZĄDKOWANIE LINIOWE ZBIORU OBIEKTÓW NA PODSTAWIE DANYCH PORZĄDKOWYCH
Z RYNKU NIERUCHOMOŚCI1
W tab. 5.1 zaprezentowano dane dotyczące 27 nieruchomości lokalowych na jeleniogórskim rynku nieruchomości opisanych 6 zmiennymi. Nieruchomość 1 jest wyceniana, natomiast nieruchomości od 2 do 27 to nieruchomości porównywalne, dla których znane są ceny transakcyjne. W pakiecie clusterSim dane zapisano w pliku data_patternGDM2.
Mieszkalne nieruchomości lokalowe zostały opisane następującymi zmiennymi:
x1. Lokalizacja środowiskowa nieruchomości gruntowej, z którą związany jest lokal mieszkalny (1 – zła, 2 – nieodpowiednia, 3 – dostateczna, 4 – dobra, 5 – bardzo dobra).
x2. Standard użytkowy lokalu mieszkalnego (1 – zły, 2 – niski, 3 – średni, 4 – wysoki).
x3. Warunki bytowe występujące na nieruchomości gruntowej, z którą związany jest lokal mieszkalny (1 – złe, 2 – przeciętne, 3 – dobre).
x4. Położenie nieruchomości gruntowej, z którą związany jest lokal mieszkalny, w strefie miasta (1 – centralna, 2 – śródmiejska, 3 – pośrednia, 4 – peryferyjna).
x5. Typ wspólnoty mieszkaniowej (1 – mała, 2 – duża).
x6. Powierzchnia gruntu, z którą związany jest lokal mieszkalny (1 – poniżej obrysu budynku, 2 – obrys budynku, 3 – obrys budynku z otoczeniem akceptowal-nym, np. na parking, plac zabaw, 4 – obrys budynku z otoczeniem zbyt dużym) – kategoria nominalna: 3.
Zmienne x1, x2 i x3 są stymulantami, zmienne x4 i x5 – destymulantami, a zmien-na x6 jest nomizmien-nantą o kategorii nomizmien-nalnej (zmien-najkorzystniejszej) wynoszącej 3.
Przeprowadzając porządkowanie liniowe 27 nieruchomości lokalowych na je-leniogórskim rynku nieruchomości, w składni poleceń dla skryptu 5.1 przyjęto na-stępującą metodykę postępowania:
zastosowano funkcję
– pattern.GDM2 pakietu clusterSim (zob. [Walesiak, Dudek 2011]),
1 Opracowano na podstawie artykułu [Walesiak 2011a].
5.1. PORZĄDKOWANIE LINIOWE ZBIORU OBIEKTÓW... 99 do zamiany nominanty x6 na destymulantę zastosowano metodę II bez powtó-–
rzeń (″s-symmetrical″),
za wzorzec rozwoju przyjęto dolny biegun rozwoju o następujących współrzęd-–
nych (1, 1, 1, 4, 2, ″max″), zastosowano wagi jednakowe.
–
Tabela 5.1. Macierz danych (27 nieruchomości opisanych 6 zmiennymi)
Numer nieruchomości x1 x2 x3 x4 x5 x6
1 5 3 1 3 1 3
2 3 3 3 3 2 2
3 5 4 3 4 1 2
4 2 3 1 3 2 3
5 5 4 2 4 1 2
6 4 3 2 3 1 3
7 3 4 3 3 2 2
8 4 4 3 4 1 1
9 5 3 2 4 1 2
10 4 2 1 3 1 3
11 5 4 3 4 1 4
12 4 3 1 4 1 2
13 4 4 3 3 1 1
14 4 4 3 3 2 3
15 5 4 2 3 2 4
16 3 3 2 3 1 1
17 4 2 1 3 2 3
18 4 1 2 4 1 2
19 3 3 2 3 2 4
20 3 2 1 3 1 3
21 4 3 2 3 1 1
22 5 3 2 4 1 2
23 5 4 3 4 1 2
24 4 2 2 3 1 2
25 3 2 1 2 2 3
26 3 3 1 1 2 3
27 2 3 1 1 2 3
Liczba możliwych kategorii 5 4 3 4 2 4
Źródło: opracowano na podstawie pracy [Pawlukowicz 2006, s. 238].
SKRYPT 5.1
library(clusterSim) data(data_patternGDM2) options (OutDec=″,″)
res<-pattern.GDM2(data_patternGDM2,
performanceVariable=c(″s″,″s″,″s″,″d″,″d″,″n″),
100 5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
nomOptValues=c(NA,NA,NA,NA,NA,3), weightsType=″equal″,weights=NULL,
patternType=″lower″,patternCoordinates=″manual″, patternManual=c(1,1,1,4,2,″max″),
nominalTransfMethod=″symmetrical″)
print(„Dane po transformacji nominanty x6 na destymulantę″,quote=FALSE)
print(res$data)
print(„Uporządkowanie nieruchomości od najlepszej do najgorszej według wartości miary GDM2″,quote=FALSE) print(res$sortedDistances)
gdm_p<-res$distances
plot(cbind(gdm_p,gdm_p),xlim=c(max(gdm_p),min(gdm_p)), ylim=c(min(gdm_p),max(gdm_p)),xaxt=″n″,
xlab=″Uporządkowanie nieruchomości od najlepszej do najgorszej″,ylab=″Odległości GDM2 od obiektu
wzorca″,las=1,lwd=1.6)
axis(1,at=gdm_p,labels=names(gdm_p),cex.axis=0.5,las=2) W efekcie zastosowania procedury ze skryptu 5.1 otrzymano następujące wyniki oraz rys. 5.1:
[1] Dane po transformacji nominanty x6 na destymulantę x1 x2 x3 x4 x5 x6
1 5 3 1 3 1 0,0000000 2 3 3 3 3 2 0,3333333 3 5 4 3 4 1 0,3333333 4 2 3 1 3 2 0,0000000 5 5 4 2 4 1 0,3333333 6 4 3 2 3 1 0,0000000 7 3 4 3 3 2 0,3333333 8 4 4 3 4 1 0,6666667 9 5 3 2 4 1 0,3333333 10 4 2 1 3 1 0,0000000 11 5 4 3 4 1 0,3333333 12 4 3 1 4 1 0,3333333 13 4 4 3 3 1 0,6666667 14 4 4 3 3 2 0,0000000 15 5 4 2 3 2 0,3333333 16 3 3 2 3 1 0,6666667 17 4 2 1 3 2 0,0000000 18 4 1 2 4 1 0,3333333 19 3 3 2 3 2 0,3333333 20 3 2 1 3 1 0,0000000 21 4 3 2 3 1 0,6666667 22 5 3 2 4 1 0,3333333 23 5 4 3 4 1 0,3333333 24 4 2 2 3 1 0,3333333 25 3 2 1 2 2 0,0000000
5.1. PORZĄDKOWANIE LINIOWE ZBIORU OBIEKTÓW... 101
26 3 3 1 1 2 0,0000000 27 2 3 1 1 2 0,0000000 pattern 1 1 1 4 2 0,6666667
[1] Uporządkowanie nieruchomości od najlepszej do najgorszej według wartości miary GDM2
14 3 11 23 1 13 0,6117002 0,5997664 0,5997664 0,5997664 0,5539164 0,5302174 6 5
0,5227029 0,5219020
15 8 7 9 22 26 0,5130766 0,4620506 0,4398538 0,4288488 0,4288488 0,4100774 10 27
0,3992506 0,3759365
21 2 24 25 20 17 0,3584182 0,3474391 0,3443568 0,3339597 0,3273294 0,3255114 12 4
0,2978136 0,2881964
16 19 18 0,2864148 0,2666805 0,2562767
Rys. 5.1. Graficzna prezentacja uporządkowania nieruchomości od najlepszej do najgorszej według wartości miary GDM2 Źródło: opracowanie własne z wykorzystaniem programu R.
14 23113 1 13 6 5 15 8 7 229 26 10 27 21 224 25 20 17 12 416 19 18
Odległości GDM2 od obiektu wzorca
0,60
0,55
0,50
0,45
0,40
0,35
0,30
0,25
Uporządkowanie nieruchomości od najlepszej do najgorszej
102 5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
Najlepsze warunki spośród 27 mieszkalnych nieruchomości lokalowych ma nie-ruchomość o numerze 14, najgorsze zaś nienie-ruchomość o numerze 18. Z punktu wi-dzenia podejścia porównawczego określania wartości rynkowej nieruchomości (zob.
[Pawlukowicz 2010]) wynika, że wartość rynkowa wycenianej nieruchomości nr 1 powinna być wyższa niż cena transakcyjna nieruchomości nr 13 i niższa niż cena transakcyjna nieruchomości nr 3, 11 i 23 (nieruchomości te mają taką samą atrakcyj-ność inwestycyjną).
5.2
PORZĄDKOWANIE LINIOWE ZBIORU OBIEKTÓW NA PODSTAWIE DANYCH METRYCZNYCH
DOTYCZĄCYCH WARUNKÓW ZAMIESZKIWANIA LUDNOŚCI W MIASTACH
Przeprowadzono porządkowanie liniowe województw Polski ze względu na po-ziom warunków zamieszkiwania ludności w miastach w roku 2008. W analizie uwzględniono następujące zmienne:
X1 – odsetek ogółu mieszkań wyposażonych w wodociąg, X2 – odsetek ogółu mieszkań wyposażonych w ustęp, X3 – odsetek ogółu mieszkań wyposażonych w łazienkę, X4 – odsetek ogółu mieszkań wyposażonych w gaz z sieci,
X5 – odsetek ogółu mieszkań wyposażonych w centralne ogrzewanie, X6 – przeciętna liczba izb w mieszkaniu,
X7 – przeciętna liczba osób na 1 mieszkanie, X8 – przeciętna liczba osób na 1 izbę,
X9 – przeciętna powierzchnia użytkowa 1 mieszkania w m2, X10 – przeciętna powierzchnia użytkowa w m2 na 1 osobę.
Tabela 5.2 zawiera dane statystyczne dotyczące 17 obiektów (16 województw Polski oraz Polska) ze względu na poziom warunków zamieszkiwania ludności w miastach w roku 2008.
Zastosowano funkcję pattern.GDM1 (dane metryczne z pliku Warunki_
mieszkaniowe_2008.csv) pakietu clusterSim do porządkowania liniowe-go województw Polski ze względu na poziom warunków zamieszkiwania ludności w miastach w roku 2007. W składni poleceń dla skryptu 5.2 przyjęto następującą metodykę postępowania:
dla każdej zmiennej określono charakter preferencji: stymulanty (zmienne od
– X1
do X6, X9, X10); destymulanty (X7, X8). Zatem:
performanceVariable=c(″s″,″s″,″s″,″s″,″s″,″s″,″d″,″d″,
″s″,″s″)
dla każdej zmiennej ustalono skalę jej pomiaru (skala ilorazowa i przedziało-–
wa). Wszystkie zmienne mierzone są na skali ilorazowej, a zatem scaleType=″r″
5.2. PORZĄDKOWANIE LINIOWE ZBIORU OBIEKTÓW... 103
przeprowadzono normalizację wartości zmiennych z zastosowaniem odpowied-–
niej metody normalizacji wartości zmiennych. W tym przypadku dopuszczalne są wszystkie formuły normalizacyjne. Zastosowano tutaj standaryzację:
normalization=″n1″
przyjęto, że wzorcem będzie górny biegun rozwoju:
– patternType=
″upper″
przyjęto następujące współrzędne obiektu
– −wzorca zaproponowane przez
prze-prowadzającego badanie (patternCoordinates=″manual″):
patternManual=c(100,100,100,100,100,″max″,″min″,
″min″,″max″,″max″) w analizi
– e zastosowano wagi jednakowe (weightsType=″equal″) SKRYPT 5.2
library(clusterSim)
x<-read.csv2(″Warunki_mieszkaniowe_2008.csv″, header=TRUE,row.names=1)
options(OutDec=″,″)
Tabela 5.2. Dane statystyczne dotyczące 17 obiektów (16 województw oraz Polska) ze względu na poziom warunków zamieszkiwania ludności w miastach w roku 2008
Województwo Zmienne
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
Polska 98,5 94,5 92,2 73,6 84,7 3,50 2,63 0,75 62,2 23,6
Dolnośląskie 99,1 91,9 89,1 84,9 80,3 3,41 2,60 0,76 60,9 23,4 Kujawsko-pomorskie 99,0 94,8 90,4 72,8 82,7 3,49 2,71 0,78 58,9 21,7 Lubelskie 97,4 94,1 92,6 69,2 88,9 3,69 2,78 0,75 63,9 23,0
Lubuskie 99,1 94,3 91,5 75,6 82,0 3,60 2,73 0,76 63,1 23,1
Łódzkie 96,2 89,6 86,2 61,3 80,0 3,32 2,44 0,73 57,9 23,8
Małopolskie 98,3 96,3 95,1 78,6 85,2 3,46 2,66 0,77 62,6 23,6 Mazowieckie 97,9 95,8 93,9 76,7 90,3 3,35 2,40 0,72 61,6 25,6
Opolskie 99,3 95,3 93,3 77,1 83,9 3,61 2,77 0,77 64,7 23,4
Podkarpackie 97,8 95,2 94,6 88,1 87,4 3,78 3,01 0,80 67,3 22,3 Podlaskie 97,9 95,0 94,2 45,5 90,1 3,81 2,76 0,73 64,5 23,3 Pomorskie 99,7 97,7 94,5 74,9 86,3 3,53 2,65 0,75 62,5 23,6
Śląskie 99,1 93,3 91,5 71,0 79,6 3,45 2,62 0,76 61,7 23,5
Świętokrzyskie 96,6 92,7 91,5 69,7 89,0 3,49 2,70 0,77 61,0 22,6 Warmińsko-mazurskie 99,8 97,7 94,9 72,1 88,4 3,60 2,79 0,77 60,2 21,6 Wielkopolskie 99,3 95,7 93,2 69,7 83,3 3,73 2,79 0,75 68,8 24,7 Zachodniopomorskie 99,7 95,7 93,3 80,3 87,4 3,56 2,68 0,75 62,0 23,1 Źródło: Rocznik Statystyczny Województw 2009.
104 5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
res<-pattern.GDM1(x,performanceVariable=c(″s″,″s″,″s″, ″s″,″s″,″s″,″d″,″d″,″s″,″s″),
scaleType=″r″,nomOptValues=NULL,
weightsType=″equal″,normalization=″n1″,
patternType=″upper″,patternCoordinates=″manual″, patternManual=c(100,100,100,100,100,″max″,
″min″,″min″,″max″,″max″),nominalTransfMethod=NULL) print(″Uporządkowanie województw od najlepszego do najgorszego według wartości miary GDM1″,
quote=FALSE)
Rys. 5.2. Graficzna prezentacja uporządkowania województw Polski ze względu na poziom warunków zamieszkiwania ludności w miastach w roku 2008
od najlepszego do najgorszego według wartości miary GDM1 Źródło: opracowanie własne z wykorzystaniem programu R.
PomorskieMazowieckie WielkopolskieZachodniopomorskie Maáopolskie Opolskie Podlaskie PolskaLubelskieWarmiĔsko-mazurskie Podkarpackie Lubuskie ĝląskie DolnoĞląskie ĝwiĊtokrzyskie Kujawsko-pomorskie àódzkie
0,7
0,6
0,5
0,4
0,3
Odległości GDM1 od obiektu wzorca
5.3. OCENA PODOBIEŃSTWA WYNIKÓW PORZĄDKOWANIA LINIOWEGO... 105 print(res$sortedDistances)
# Prezentacja graficzna wyników porządkowania liniowego gdm_p<-res$distances
plot(cbind(gdm_p,gdm_p),xlim=c(min(gdm_p),max(gdm_p)), ylim=c(min(gdm_p),max(gdm_p)),xaxt=″n″,xlab=″″, ylab=″Odległości GDM1 od obiektu wzorca″,
lwd=1.6,las=1)
axis(1,at=gdm_p,labels=names(gdm_p),las=2,cex.axis=0.5) Wskutek zastosowania procedury ze skryptu 5.2 otrzymano następujące wyniki:
[1] Uporządkowanie województw od najlepszego do najgorszego według wartości miary GDM1
Pomorskie Mazowieckie Wielkopolskie Zachodniopomorskie 0,2354391 0,2375905 0,2769451 0,2769486 Małopolskie Opolskie Podlaskie Polska 0,3334169 0,3575402 0,3871173 0,3950736 Lubelskie Warmińsko-mazurskie Podkarpackie Lubuskie 0,4001906 0,4047235 0,4213756 0,4595499 Śląskie Dolnośląskie Świętokrzyskie Kujawsko-pomorskie 0,5444182 0,5616129 0,5760167 0,6346291 Łódzkie
0,6919274
Najlepsze warunki zamieszkiwania w miastach w roku 2008 były w wojewódz-twie pomorskim, najgorsze zaś w wojewódzwojewódz-twie łódzkim.
5.3
OCENA PODOBIEŃSTWA WYNIKÓW PORZĄDKOWANIA LINIOWEGO ZBIORU OBIEKTÓW W CZASIE NA PODSTAWIE DANYCH METRYCZNYCH DOTYCZĄCYCH WARUNKÓW ZAMIESZKIWANIA
LUDNOŚCI W MIASTACH
Dokonano oceny podobieństwa wyników porządkowania liniowego zbioru obiektów w czasie na podstawie danych metrycznych dotyczących warunków za-mieszkiwania ludności w miastach w roku 1999 i 2008 na podstawie zmiennych ujętych w podrozdziale 5.2.
Tabela 5.3 zawiera dane statystyczne dotyczące 17 obiektów (16 województw Polski oraz Polska) ze względu na poziom warunków zamieszkiwania ludności w miastach w roku 1999, a tab. 5.2 z podrozdziału 5.2 analogiczne dane dla roku 2008.
Porządkowanie liniowe zbioru obiektów, na podstawie którego wyznacza się wartości zmiennych syntetycznych Mt i Mq, jest jednolite w odniesieniu do obu
po-106 5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
równywanych okresów (dla lat 1999 i 2008). W składni poleceń dla skryptu 5.3 przyjęto następującą metodykę postępowania:
a) ustalono jeden wspólny wzorzec rozwoju (górny biegun rozwoju) na podsta-wie macierzy obejmującej dane z lat 1999 i 2008 o następujących współrzędnych:
(100,100,100,100,100,″max″,″min″,″min″,″max″,″max″) b) do normalizacji wartości zmiennych (normalizacja dotyczy zmiennych ze wspólnej macierzy danych z lat 1999 i 2008 obejmujących dodatkowo obiekt−wzo-rzec) zastosowano standaryzację,
c) obliczono odległości od wzorca rozwoju z wykorzystaniem uogólnionej mia-ry odległości GDM1.
Tabela 5.3. Dane statystyczne dotyczące 17 obiektów (16 województw oraz Polska) ze względu na poziom warunków zamieszkiwania ludności w miastach w roku 1999
Województwo Zmienne
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
Polska 97,6 89,4 87,9 76,4 80,3 3,37 2,95 0,88 56,0 19,0
Dolnośląskie 98,5 84,7 82,5 89,8 73,0 3,33 2,97 0,89 56,2 18,9 Kujawsko-pomorskie 97,6 88,4 85,0 72,5 78,1 3,39 2,99 0,88 54,4 18,2 Lubelskie 95,5 90,2 88,5 68,6 84,8 3,50 3,08 0,88 56,8 18,5
Lubuskie 99,9 89,3 86,9 79,0 75,4 3,51 3,08 0,88 57,5 18,6
Łódzkie 94,1 83,0 80,0 64,4 76,1 3,13 2,64 0,84 51,1 19,4
Małopolskie 97,6 92,9 92,0 84,3 81,2 3,32 2,99 0,90 56,6 18,9 Mazowieckie 96,3 92,8 90,3 80,8 89,3 3,22 2,75 0,85 53,3 19,4
Opolskie 98,6 91,9 90,1 82,4 78,8 3,50 3,02 0,86 60,2 19,9
Podkarpackie 97,2 92,1 91,5 85,7 84,6 3,52 3,30 0,94 59,2 18,0 Podlaskie 96,7 75,6 94,2 48,8 86,2 3,67 3,02 0,82 57,6 19,1 Pomorskie 99,2 94,4 90,3 81,6 83,1 3,45 3,08 0,89 56,1 18,2
Śląskie 98,4 88,8 87,4 71,5 74,4 3,31 2,86 0,86 56,7 19,8
Świętokrzyskie 94,1 89,3 89,1 70,0 85,9 3,31 3,02 0,91 54,5 18,1 Warmińsko-mazurskie 99,8 94,4 91,6 77,3 84,0 3,54 3,19 0,90 55,7 17,5 Wielkopolskie 98,5 90,3 88,1 74,2 78,2 3,58 3,11 0,87 61,1 19,7 Zachodniopomorskie 100,0 91,6 89,1 81,3 81,5 3,51 3,11 0,88 56,8 18,3 Źródło: Rocznik Statystyczny Województw 2000.
SKRYPT 5.3
library(clusterSim)
x1<-read.csv2(″Warunki_mieszkaniowe_1999.csv″, header=TRUE,row.names=1)
x2<-read.csv2(″Warunki_mieszkaniowe_2008.csv″, header=TRUE,row.names=1)
x<-rbind(x1,x2) options(OutDec=″,″)
5.3. OCENA PODOBIEŃSTWA WYNIKÓW PORZĄDKOWANIA LINIOWEGO... 107 res<-pattern.GDM1(x,performanceVariable=
c(″s″,″s″,″s″,″s″,″s″,″s″,″d″,″d″,″s″,″s″), scaleType=″r″,nomOptValues=NULL,
weightsType=″equal″,normalization=″n1″,
patternType=″upper″,patternCoordinates=″manual″, patternManual=c(100,100,100,100,100,″max″,″min″, ″min″,″max″,″max″),nominalTransfMethod=NULL) res_GDM<-as.matrix(res$distances)
res1<-res_GDM[1:nrow(x1),]
res2<-res_GDM[(nrow(x1)+1):nrow(x),]
print(″Obliczenia cząstkowe dla miernika Theila″, quote=FALSE)
print(″Średnie z wartości zmiennej syntetycznej dla okresu t oraz q″,quote=FALSE)
print(mean(res1)) print(mean(res2))
print(″Odchylenia standardowe z wartości zmiennej syntetycznej dla okresu t oraz q″,quote=FALSE) sd1<-sqrt((1/nrow(x1))*sum((res1-mean(res1))^2)) sd2<-sqrt((1/nrow(x1))*sum((res2-mean(res2))^2)) print(sd1)
print(sd2)
print(″Współczynnik korelacji Pearsona między wartości zmiennej syntetycznej dla okresu t oraz q″,
quote=FALSE) print(cor(res1,res2))
print(″Wartość miernika W Theila″,quote=FALSE)
Theil_W<-print(sqrt((1/nrow(x1))*(sum((res2-res1)^2)))) print(″Wartość miernika W kwadrat Theila″,quote=FALSE) Theil_W_kwadrat<-print((1/nrow(x1))*
(sum((res2-res1)^2)))
print(″Wartość miernika cząstkowego W1 kwadrat Theila″, quote=FALSE)
Theil_W1_kwadrat<-print((mean(res2)-mean(res1))^2) print(″Wartość miernika cząstkowego W2 kwadrat Theila″, quote=FALSE)
Theil_W2_kwadrat<-print((sd2-sd1)^2)
print(″Wartość miernika cząstkowego W3 kwadrat Theila″, quote=FALSE)
Theil_W3_kwadrat<-print(2*sd2*sd1*(1-cor(res1,res2))) Wskutek zastosowania procedury ze skryptu 5.3 otrzymano następujące wyniki (t oznacza rok 1999, a q rok 2008):
108 5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
[1] Obliczenia cząstkowe dla miernika Theila
[1] Średnie z wartości zmiennej syntetycznej dla okresu t oraz q
[1] 0,547752 [1] 0,1974821
[1] Odchylenia standardowe z wartości zmiennej syntetycz-nej dla okresu t oraz q
[1] 0,08965986 [1] 0,09247885
[1] Współczynnik korelacji Pearsona między wartości zmien-nej syntetyczzmien-nej dla okresu t oraz q
[1] 0,8925485
[1] Wartość miernika W Theila [1] 0,3528156
[1] Wartość miernika W kwadrat Theila [1] 0,1244788
[1] Wartość miernika cząstkowego W1 kwadrat Theila [1] 0,122689
[1] Wartość miernika cząstkowego W2 kwadrat Theila [1] 7,946705e-06
[1] Wartość miernika cząstkowego W3 kwadrat Theila [1] 0,001781898
Przeciętny rząd odchyleń wartości porównywanych zmiennych syntetycznych z lat 1999 i 2008 (miernik W Theila) wyniósł 0,3528. Było to wynikiem głównie spadku średniej odległości od górnego bieguna rozwoju (miernik cząstkowy
2
1 0,1245
W = ), a więc polepszenia przeciętnej sytuacji mieszkaniowej w miastach.
Zanotowano wysoką zgodność kierunku zmian wartości zmiennych syntetycznych z porównywanych okresów (miernik cząstkowy W32 =0,0018 dla r=0,8925). Na-stąpił niewielki wzrost w zróżnicowaniu wartości zmiennej syntetycznej świadczący o zwiększeniu (choć nieznacznym) dysproporcji między województwami pod wzglę-dem poziomu rozwoju warunków mieszkaniowych w miastach (W22 =0,0000079 dla St =0,08966 i Sq =0,09248).
5.4
ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW
OPISANYCH DANYMI PORZĄDKOWYMI Z RYNKU NIERUCHOMOŚCI2 W tab. 5.1 zaprezentowano dane dotyczące 27 nieruchomości lokalowych na jeleniogórskim rynku nieruchomości opisanych 6 zmiennymi. Nieruchomość 1 jest wyceniana, natomiast nieruchomości od 2 do 27 to nieruchomości porównywalne,
2 Opracowano na podstawie artykułu [Walesiak 2011b].
5.4. ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW... 109 dla których znane są ceny transakcyjne (dane zapisano w pliku data_pat-ternGDM2).
Na podstawie danych z tab. 5.1 przeprowadzono klasyfikację spektralną 27 nieruchomości lokalowych na jeleniogórskim rynku nieruchomości, opisanych 6 zmiennymi z wykorzystaniem odległości GDM2. W pierwszej fazie należy ustalić, na ile klas podzielić badany zbiór obiektów. W tym celu zastosowano metodę Giro-lamiego ujętą w postaci skryptu 5.4.
SKRYPT 5.43
library(clusterSim) library(panel) options(OutDec=″,″)
d<-data(data_patternGDM2) d<-data_patternGDM2
dist<-dist.GDM(d,method=″GDM2″) gdm<-as.matrix(dist)
e<-eddcmp(exp(-gdm))
k<-sort(apply(e$evalues*e$evectors^2,2,sum)/
(nrow(d)^2),decreasing=TRUE)
barplot(k[1:15],xlab=expression(k[i]),names.arg=1:15) Rysunek 5.3 wskazuje dwa lub cztery dominujące elementy tego wektora K w metodzie Girolamiego. W przeprowadzonym badaniu zdecydowano się podzielić zbiór obiektów na cztery klasy.
Rys. 5.3. Uporządkowane składowe wektora K w metodzie Girolamiego służącej do ustalenia optymalnej liczby klas
Źródło: opracowanie własne z wykorzystaniem programu R.
3 Współautorem skryptu jest dr Andrzej Dudek.
0,000 0,005 0,010 0,015
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
110 5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
Następnie z wykorzystaniem skryptu 5.5 (funkcja speccl pakietu cluster-Sim) przeprowadzono klasyfikację spektralną 27 nieruchomości lokalowych na je-leniogórskim rynku nieruchomości, opisanych 6 zmiennymi.
SKRYPT 5.5 library(kernlab) library(mlbench) library(clusterSim) library(panel)
data(data_patternGDM2) x<-data_patternGDM2 options(OutDec=″,″)
res<-speccl(x,nc=4,distance=″GDM2″,sigma=″automatic″, mod.sample=0.75,R=10,iterations=3)
print(“Liczba obiektów w klasach″,quote=F) print(res$size)
print(″Optymalna sigma″,quote=F) print(res$sigma)
clas1<-res$cluster xx<-1:nrow(x)
dim(clas1)<-c(length(clas1),1) cl_wyn1<-as.data.frame(clas1) row.names(cl_wyn1)<-xx
colnames(cl_wyn1)<-″klasa″
print(″Prezentacja klasyfikacji wynikowej – uporządkowana″,quote=F)
ord<-order(cl_wyn1[,″klasa″],decreasing=F) cl_wyn2<-as.data.frame(cl_wyn1[ord,]) row.names(cl_wyn2)<-xx[ord]
colnames(cl_wyn2)<-″klasa″
print(cl_wyn2)
desc<-cluster.Description(x,clas1,″population″) print(″Dominanty″,quote=F)
print(desc[,,5])
W efekcie zastosowania procedury ze skryptu 5.5 otrzymano następujące wyniki klasyfikacji 27 nieruchomości (dla ułatwienia interpretacji wyników klasyfikacji spektralnej dla zmiennych z poszczególnych klas obliczono dominanty):
[1] Liczba obiektów w klasach [1] 9 4 5 9
5.4. ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW... 111 [1] Optymalna sigma
[1] 106,1651
[1] Prezentacja klasyfikacji wynikowej - uporządkowana klasa
1 1 4 1 10 1 17 1 19 1 20 1 25 1 26 1 27 1 2 2 7 2 14 2 15 2 6 3 16 3 18 3 21 3 24 3 3 4 5 4 8 4 9 4 11 4 12 4 13 4 22 4 23 4 [1] Dominanty
[,1] [,2] [,3] [,4] [,5] [,6]
[1,] 3 3 1 3 2 3 [2,] 3 4 3 3 2 2 [3,] 4 3 2 3 1 NA [4,] 5 4 3 4 1 2
Nieruchomość wyceniana znalazła się w pierwszej klasie, zatem do jej wyceny należy wykorzystać dane z pozostałych nieruchomości w tej klasie (są to nierucho-mości o numerach: 4, 10, 17, 19, 20, 25, 26, 27).
112 5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
5.5
ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW OPISANYCH DANYMI METRYCZNYMI
DOTYCZĄCYMI ZANIECZYSZCZENIA POWIETRZA
W analizie zanieczyszczenia powietrza 17 obiektów (16 województw plus Pol-ska) uwzględniono następujące zmienne:
x1 – gęstość sieci drogowej (drogi publiczne o twardej nawierzchni) w km na 100 km2 powierzchni,
x2 – samochody osobowe zarejestrowane na 1000 ludności,
x3 – emisja zanieczyszczeń pyłowych w tonach na 1 km2 powierzchni, x4 – emisja dwutlenku siarki w tonach na 1 km2 powierzchni,
x5 – emisja tlenku azotu w tonach na 1 km2 powierzchni, x6 – emisja tlenku węgla w tonach na 1 km2 powierzchni.
W tab. 5.3 zaprezentowano dane dotyczące zanieczyszczenia powietrza 17 obiek-tów (16 województw plus Polska).
Na podstawie danych z tab. 5.4 przeprowadzono klasyfikację 17 obiektów (16 województw plus Polska) ze względu na zanieczyszczenie powietrza w roku 2007.
Tabela 5.4. Dane dotyczące zanieczyszczenia powietrza 17 obiektów (16 województw plus Polska) w roku 2007
Województwo x1 x2 x3 x4 x5 x6
Polska 82,8 382,7 0,303 2,649 1,153 1,199
Dolnośląskie 91,5 381,2 0,336 3,053 1,048 0,556
Kujawsko-pomorskie 80,1 355,2 0,295 1,575 0,829 0,940
Lubelskie 73,7 347,2 0,187 0,748 0,418 0,306
Lubuskie 59,2 402,4 0,114 0,236 0,157 2,166
Łódzkie 93,4 373,2 0,428 6,241 2,766 0,878
Małopolskie 147,7 376,2 0,481 3,715 1,680 3,043
Mazowieckie 85,9 440,4 0,278 3,347 1,384 0,672
Opolskie 89,2 414,2 0,414 1,445 2,656 2,423
Podkarpackie 79,9 343,1 0,151 0,661 0,353 0,230
Podlaskie 55,7 340,2 0,084 0,213 0,168 0,228
Pomorskie 64,1 385,8 0,191 1,294 0,497 0,322
Śląskie 164,5 374,0 1,768 12,332 6,113 10,735
Świętokrzyskie 105,7 353,6 0,333 2,434 1,605 2,878
Warmińsko-mazurskie 50,9 332,6 0,058 0,190 0,095 0,108
Wielkopolskie 86,5 437,9 0,235 5,515 0,986 0,382
Zachodniopomorskie 57,3 337,2 0,249 1,079 0,751 0,218
Źródło: Rocznik Statystyczny Województw 2008.
5.5. ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW... 113 Przeprowadzając analizę skupień, w składni poleceń dla skryptu 5.6 przyjęto następującą metodykę postępowania:
zastosowano standaryzację (
– type=″n1″) do normalizacji wartości zmiennych.
Wszystkie zmienne mierzone są tutaj na skali ilorazowej,
do wyznaczenia macierzy odległości zastosowano miarę odległości GDM1 dla –
danych metrycznych (funkcja dist.GDM, dla której method=″GDM1″), zastosowano metodę klasyfikacji
– pam w powiązaniu z indeksem oceny jakości
klasyfikacji indeks gap (index.Gap) do podziału zbioru obiektów na klasy względnie jednorodne.
SKRYPT 5.6
library(clusterSim)
set.seed(123) #Ustawienie generatora liczb losowych
#Wczytanie zbioru danych
xx<-read.csv2(″Dane_zp_2007.csv″,header=TRUE) x<-as.matrix(xx[,2:ncol(xx)])
options(OutDec=″,″)
#Wybór formuły normalizacji wartości zmiennych z<-data.Normalization(x,type=″n1″)
#Wybór miary odległości z<-as.data.frame(z)
d<-dist.GDM(z,method=″GDM1″)
print(″Ustalenie liczby klas z wykorzystaniem indeksu gap″,quote=FALSE)
min_liczba_klas<-2 max_liczba_klas<-10 min<-0
clopt<-NULL wyn<-NULL
wyniki<-array(0,c(max_liczba_klas-min_liczba_klas+1,2)) wyniki[,1]<-min_liczba_klas:max_liczba_klas
znaleziono<-FALSE
for(liczba_klas in min_liczba_klas:max_liczba_klas){
cl1<-pam(d,liczba_klas,diss=TRUE) cl2<-pam(d,liczba_klas+1,diss=TRUE)
clall<-cbind(cl1$clustering,cl2$clustering)
Gap<-index.Gap(z,clall,reference.distribution=″pc″, B=10,method=″pam″)
diffu<-Gap$diffu
if((wyniki[liczba_klas-min_liczba_klas+1,2]>=0)&&
114 5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
(!znaleziono)){
lk<-liczba_klas min<-diffu
clopt<-cl1$cluster wyn<-cl1$clusinfo znaleziono<-TRUE }
}
if(znaleziono){
print(paste(″Minimalna liczba klas dla diffu>=0 wynosi″,lk,″dla diffu=″, round(min, 4)),quote=FALSE)
}else{
print(″Nie znalazłem klasyfikacji, dla której diffu>=0″,quote=FALSE)
}
#Zapisanie do pliku diffu.csv wartości indeksu gap write.table(wyniki,file=″diffu.csv″,sep=″;″,dec=″,″, row.names=TRUE,col.names=FALSE)
print(″Prezentacja klasyfikacji wynikowej″,quote=FALSE) cl_wyn1<-data.frame(xx[, 1],clopt)
colnames(cl_wyn1)<-c(″województwa″,″klasa″) print(cl_wyn1)
print(″Prezentacja klasyfikacji wynikowej – uporządkowana″,quote=FALSE)
cl_wyn2<-cl_wyn1[order(cl_wyn1[,″klasa″],decreasing=FAL SE),]
cl_wyn2<-data.frame(cl_wyn2) print(cl_wyn2)
#Zapisanie do pliku clusinfo.csv dodatkowych informacji o wyodrębnionych klasach
write.table(wyn,file=″clusinfo.csv″,sep=″;″,dec=″,″, row.names=TRUE,col.names=TRUE)
plot(wyniki,type=″p″,pch=0,
xlab=″Liczba klas″,ylab=″diffu″,xaxt=″n″) abline(h=0,untf=FALSE)
axis(1,c(min_liczba_klas:max_liczba_klas)) desc<-cluster.Description(x,clopt,″population″) print(″Średnie arytmetyczne″,quote=FALSE)
print(desc[,,1])
print(″Odchylenia standardowe″,quote=FALSE) print(desc[,,2])
5.5. ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW... 115
Wskutek zastosowania skryptu 5.6 otrzymano następujące wyniki klasyfikacji:
ustalono liczbę klas z wykorzystaniem indeksu gap (zob. rys. 5.4):
–
[1] Minimalna liczba klas dla diffu>=0 wynosi 3 dla dif-fu= 0,0965
Rys. 5.4. Graficzna prezentacja wartości indeksu gap Źródło: opracowanie własne z wykorzystaniem programu R.
zapisano przyporządkowanie województw do wyodrębnionych klas:
–
[1] Prezentacja klasyfikacji wynikowej województwa klasa
1 Polska 1 2 Dolnośląskie 1 3 Kujawsko-pomorskie 2 4 Lubelskie 2 5 Lubuskie 1 6 Łódzkie 1 7 Małopolskie 1 8 Mazowieckie 1 9 Opolskie 1 10 Podkarpackie 2 11 Podlaskie 2
0,2
0,0
–0,2
–0,4
–0,6
diffu
2 3 4 5 6 7 8 9 10 Liczba klas
116 5. WYBRANE ZASTOSOWANIA UOGÓLNIONEJ MIARY ODLEGŁOŚCI GDM...
12 Pomorskie 1 13 Śląskie 3 14 Świętokrzyskie 1 15 Warmińsko-mazurskie 2 16 Wielkopolskie 1 17 Zachodniopomorskie 2
[1] Prezentacja klasyfikacji wynikowej - uporządkowana województwa klasa
1 Polska 1 2 Dolnośląskie 1 5 Lubuskie 1 6 Łódzkie 1 7 Małopolskie 1 8 Mazowieckie 1 9 Opolskie 1 12 Pomorskie 1 14 Świętokrzyskie 1 16 Wielkopolskie 1 3 Kujawsko-pomorskie 2 4 Lubelskie 2 10 Podkarpackie 2 11 Podlaskie 2 15 Warmińsko-mazurskie 2 17 Zachodniopomorskie 2 13 Śląskie 3
wyznaczono i zinterpretowano charakterystyki dla poszczególnych klas (obli-–
czono średnie arytmetyczne oraz odchylenia standardowe):
[1] Średnie arytmetyczne
[,1] [,2] [,3] [,4] [,5] [,6]
[1,] 90,60000 394,7600 0,3113000 2,9929000 1,3932000 1,4519000 [2,] 66,26667 342,5833 0,1706667 0,7443333 0,4356667 0,3383333 [3,] 164,50000 374,0000 1,7680000 12,3320000 6,1130000 10,7350000
Podkreślenia oznaczają wartości minimalne, a pogrubienia wartości maksymal-ne dla poszczególnych zmiennych w klasach.
[1] Odchylenia standardowe
[,1] [,2] [,3] [,4] [,5] [,6]
[1,] 22,99343 27,006303 0,10697855 1,7571272 0,7924946 1,0121213 [2,] 11,97688 7,246704 0,08411632 0,4827987 0,2735542 0,2752246 [3,] 0,00000 0,000000 0,00000000 0,0000000 0,0000000 0,0000000
5.5. ANALIZA SKUPIEŃ ZBIORU OBIEKTÓW... 117 W klasie jednoelementowej o numerze trzy znalazło się województwo śląskie o najwyższym poziomie zanieczyszczenia powietrza. Klasa druga obejmuje 6 woje-wództw o najniższym poziomie zanieczyszczenia powietrza (są to wojewoje-wództwa stanowiące tzw. zielone płuca Polski). Pozostałe 9 województw (plus obiekt Polska) trafiło do klasy pierwszej. Województwa te charakteryzują się średnimi poziomami zanieczyszczenia powietrza.
Wykorzystując analizę replikacji (skrypt 5.7), oceniono poziom stabilności prze-prowadzonej klasyfikacji zbioru obiektów.
SKRYPT 5.7
lk<-3 # Liczba klas ustalona w skrypcie 5.6
nor<-″n1″ # Formuła normalizacyjna zastosowana w skrypcie 5.6
odl<-″d5″ # Miara odległości zastosowana w skrypcie 5.6 library(clusterSim)
set.seed(123) # Ustawienie generatora liczb losowych x<-read.csv2(″Dane_zp_2007.csv″, header=TRUE,
row.names=1) x<-as.matrix(x) options(OutDec=″,″)
w<-replication.Mod(x,v=″m″,u=lk,
centrotypes=″centroids″, normalization=nor, distance=odl,method=″pam″,S=20,fixedAsample=NULL) print(w$cRand)
W wyniku zastosowania skryptu 5.7 otrzymano następujący rezultat:
[1] 0,571164
Poziom wartości skorygowanej miary Randa odzwierciedla stabilność przepro-wadzonej klasyfikacji zbioru obiektów. Otrzymana wartość skorygowanej miary Randa świadczy o relatywnie stabilnym podziale 17 obiektów (Polska plus 16 woje-wództw) na trzy klasy.
LITERATURA
Abrahamowicz M. (1985), Konstrukcja syntetycznych mierników rozwoju w świetle twierdzenia Arro-wa, Prace Naukowe AE we Wrocławiu nr 311, AE, Wrocław, 5-25.
Abrahamowicz M., Zając K. (1986), Metoda ważenia zmiennych w taksonomii numerycznej i procedu-rach porządkowania liniowego, Prace Naukowe AE we Wrocławiu nr 328, AE, Wrocław, 5-17.
Ackoff R.L. (1969), Decyzje optymalne w badaniach stosowanych, PWN, Warszawa.
Adams E.W., Fagot R.F., Robinson R.E. (1965), A theory of appropriate statistics, „Psychometrika”, (30), 99-127.
Ajvazjan S.A., Mchitarjan W.S. (1998), Prikladnaja statistika i osnowy ekonometriki, Juniti, Moskva.
Aldenderfer M.S., Blashfield R.K. (1984), Cluster analysis, Sage, Beverly Hills.
Anderberg M.R. (1973), Cluster analysis for applications, Academic Press, New York, San Francisco, London.
Atlas R.S., Overall J.E. (1994), Comparative evaluation of two superior stopping rules for hierarchical cluster analysis, „Psychometrika”, 59, 581-591.
Bąk A. (1999), Modelowanie symulacyjne wybranych algorytmów wielowymiarowej analizy porów-nawczej w języku C++, AE, Wrocław.
Bock H.H., Diday E. (ed.) (2000), Analysis of symbolic data, Springer-Verlag, Berlin, Heidelberg.
Borys T. (1978), Metody normowania cech statystycznych w badaniach porównawczych. „Przegląd Statystyczny”, z. 2, 227-239.
Borys T. (1984), Kategoria jakości w statystycznej analizie porównawczej, Prace Naukowe AE we Wrocławiu nr 284, Seria: Monografie i Opracowania nr 23, AE, Wrocław.
Breckenridge J.N. (2000), Validating cluster analysis: consistent replication and symmetry, „Multi-variate Behavioral Research”, 35 (2), 261-285.
Carmone F.J., Kara A., Maxwell S. (1999), HINoV: a new method to improve market segment definition by identifying noisy variables, „Journal of Marketing Research”, November, vol. 36, 501-509.
Cegiełka K., Stachowski E., Szymański K. (red.) (2000), Matematyka. Encyklopedia dla wszystkich, WNT, Warszawa.
Choynowski M. (1971), Pomiar w psychologii, [w:] J. Kozielecki (red.), Problemy psychologii mate-matycznej, PWN, Warszawa, 15-41.
Cormack R.M. (1971), A review of classification (with discussion), „Journal of the Royal Statistical Society”, A, part 3, 321-367.
Cox T.F., Cox M.A.A. (2000), A general weighted two-way dissimilarity coefficient, „Journal of Clas-sification”, vol. 17, 101-121.
Cramer H. (1958), Metody matematyczne w statystyce, PWN, Warszawa.
Czerwińska D., Gemborzewski H. (1975), O współczynniku Renkonena podobieństwa zbiorów, „Listy Biometryczne”, nr 49-50, 19-24.
Dąbrowski M., Laus-Mączyńska K. (1978), Metody wyszukiwania i klasyfikacji informacji, WNT, War-szawa.
Domański C. (1979), Statystyczne testy nieparametryczne, PWE, Warszawa.
Dudoit S., Fridlyand J. (2002), A prediction-based resampling method for estimating the number of clusters in a dataset, „Genome Biology”, 3(7).
Dziechciarz J., Strahl D., Walesiak M. (2001), Data set normalisation for banks performance assess-ment, Prace Naukowe AE we Wrocławiu nr 915, AE, Wrocław, 21-32.
Everitt B.S. (1979), The analysis of contingency tables, Chapman and Hall, London.
Everitt B.S., Landau S., Leese M. (2001), Cluster analysis, Edward Arnold, London.