• Nie Znaleziono Wyników

Wyznaczenie cech społeczeństwa wpływających na zaangażowanie w tworzenie VGI w Polsce

N/A
N/A
Protected

Academic year: 2021

Share "Wyznaczenie cech społeczeństwa wpływających na zaangażowanie w tworzenie VGI w Polsce"

Copied!
16
0
0

Pełen tekst

(1)

ROCZNIKI GEOMATYKI 2017 m TOM XV m ZESZYT 2(77): 233–248

Wyznaczenie cech spo³eczeñstwa wp³ywaj¹cych

na zaanga¿owanie w tworzenie VGI w Polsce

Determination of socioeconomic features of a society influencing

the involvement in VGI creation in Poland

Sylwia Marczak

Politechnika Warszawska, Wydzia³ Geodezji i Kartografii, Zak³ad Fotogrametrii, Teledetekcji i Systemów Informacji Przestrzennej

S³owa kluczowe: OpenStreetMap, spo³ecznoœciowe dane przestrzenne, korelacja, regresja liniowa wieloraka, regresja wa¿ona geograficznie

Keywords: OpenStreetMap, volunteered geographic information, correlation, linear regression analysis, geographically weighted regression

Wstêp

Od momentu powstania terminu voluntereed geographic information (VGI), sformu³o-wanego przez Goodchild’a w 2007 roku mo¿na zaobserwowaæ znaczny wzrost znaczenia danych przestrzennych zbieranych na zasadzie wolontariatu, przez u¿ytkowników Internetu niebêd¹cych profesjonalistami w tym zakresie. Wzrost ten dotyczy zarówno rozwoju serwi-sów umo¿liwiaj¹cych tworzenie VGI, jak i ci¹gle zwiêkszaj¹cej siê liczby u¿ytkowników – wolontariuszy, a tak¿e zainteresowania naukowców z ca³ego œwiata zagadnieniami miêdzy innymi jakoœci i mo¿liwoœci zastosowañ tego rodzaju danych.

Najwa¿niejszym czynnikiem wp³ywaj¹cym na tworzenie danych w oparciu o

crowdsour-cing (ang. crowd – t³um, ang. sourcrowdsour-cing – czerpanie) by³a technologia Web 2.0, która

umo¿li-wia u¿ytkownikom Internetu edytowanie istniej¹cych lub tworzenie nowych treœci (Neis, Zielstra, 2014). Spowodowa³o to powstanie i szybki rozwój serwisów spo³ecznoœciowych, miêdzy innymi Facebooka, Twittera oraz innych, dzia³aj¹cych w oparciu o dane tworzone przez u¿ytkowników miêdzy innymi YouTube lub Wikipedia. Czynnikiem maj¹cym bezpo-œredni wp³yw na tworzenie przez u¿ytkowników Internetu danych przestrzennych by³o upo-wszechnienie korzystania z sygna³u z systemu GPS (Global Positioning System), który obecnie dostêpny jest nie tylko w telefonach komórkowych, ale równie¿ w zegarkach, b¹dŸ tak zwanych inteligentnych ubraniach. Przyczyni³o siê to do powstania serwisów umo¿liwiaj¹-cych tworzenie i korzystanie z VGI, z których najbardziej popularny to OpenStreetMap (OSM), ale s¹ to równie¿ WikiMapia lub Google Map Maker. Nale¿y w tym miejscu zwróciæ

(2)

uwagê na fakt, ¿e bez wzglêdu na serwis mamy do czynienia z pewn¹ spo³ecznoœci¹ twór-ców danych. W przypadku polskiej wersji jêzykowej serwisu OSM – openstreetmap.org.pl termin ten u¿yty zosta³ do opisu strony Portal polskiej spo³ecznoœci OpenStreetMap. W ramach tej inicjatywy organizowane s¹ równie¿ spotkania pod nazw¹ mapping party, w czasie których sympatycy OSM tworz¹ dane przestrzenne dla okolicy, w której odbywa siê impreza. Nie ma zatem w¹tpliwoœci, ¿e serwisy umo¿liwiaj¹ce tworzenie VGI znacz¹co przyczyniaj¹ siê do popularyzacji wiedzy geoprzestrzennej wœród spo³eczeñstwa. Na profilu Facebook OpenStreetMap Polska mo¿na przeczytaæ – Stowarzyszenie OpenStreetMap

Pol-ska to organizacja non-profit, którego celem jest promocja i wspieranie projektu OpenStreet-Map na terenie Polski, ale tak¿e popularyzowanie idei wolnej kartografii oraz wykorzystania jej dla ogólnospo³ecznych celów takich jak popularyzacja wiedzy z zakresu geodezji i karto-grafii czy wspieranie tworzenia, gromadzenia i rozpowszechniania ogólnodostêpnych danych geograficznych. W zwi¹zku z powy¿szym zaproponowany przez Marczak (2015) polski

odpowiednik terminu voluntereed geographic information – „spo³ecznoœciowe dane prze-strzenne” wydaje siê byæ s³uszny.

W literaturze œwiatowej istnieje wiele pozycji opisuj¹cych badania nad zjawiskiem

crowd-sourcingu w ró¿nych jego aspektach pocz¹wszy od jakoœci danych (m.in. Haklay, 2010;

Girres, Touya, 2010; Marczak, 2015; Nowak Da Costa i in., 2016), przez analizy u¿ytkow-ników tworz¹cych i korzystaj¹cych z danych (m.in. Neis, Zipf, 2012; Budhathoki, 2010), a¿ po mo¿liwoœci zastosowañ spo³ecznoœciowych danych przestrzennych (m.in. Arsanjani, Vaz, 2015; Cichociñski, 2012; Cichociñski, Dêbiñska, 2012). Wszystkie przytoczone powy¿ej prace dotyczy³y danych pobranych z serwisu OSM, a ich wspólny wniosek to zjawisko wysokiej heterogenicznoœci zarówno w odniesieniu do danych OSM, których zdecydowanie wiêksza iloœæ znajduje siê na obszarach miejskich, jak i spo³ecznoœci je tworz¹cej, której zró¿nicowanie dotyczy zarówno liczby u¿ytkowników, jak i poziomu ich zaanga¿owania.

Ze wzglêdu na fakt, ¿e w OSM nie s¹ zbierane dane dotycz¹ce u¿ytkowników, takie jak wiek b¹dŸ miejsce zamieszkania, kilka pozycji w literaturze zagranicznej dotyczy³o próby scharakteryzowania przeciêtnego u¿ytkownika projektu. Mo¿na tu wyró¿niæ dwa zasadni-cze podejœcia. Pierwsze z nich to przeprowadzenie ankiety wœród u¿ytkowników OSM i statystyczne opracowanie wyników (m.in. Haklay, Budhathoki, 2010; Stephens, Rondinone, 2012; Steinmann i in., 2013; Schmidt, Klettner, 2013). Z badañ tych wynika, ¿e przeciêtny u¿ytkownik tworz¹cy VGI to mê¿czyzna z wy¿szym wykszta³ceniem w wieku od 20 do 50 lat. Ponadto w badaniu przeprowadzonym przez Haklay i Budhathoki (2010) wœród 426 ankietowanych, a¿ 51% posiada³o wiedzê geoprzestrzenn¹. Natomiast wœród 389 mê¿czyzn z badania przeprowadzonego przez Schmidt i Klettner (2013) 56% zadeklarowa³a korzysta-nie z serwisu OSM (w tym tworzekorzysta-nie danych) w celach prywatnych, podczas gdy wœród 122 kobiet by³o to 33,8%, a najczêœciej wskazywanymi przyczynami korzystania z OSM by³a praca (61,5%).

Drugie podejœcie dotycz¹ce próby scharakteryzowania spo³ecznoœci OSM polega na zna-lezieniu korelacji miêdzy cechami demograficznymi spo³eczeñstwa danego obszaru, a iloœci¹ tworzonych danych VGI na tym obszarze. Wymaga to za³o¿enia, ¿e wœród spo³eczeñstwa danego obszaru s¹ u¿ytkownicy OSM tworz¹cy dane na tym obszarze. Dotychczasowe doœwiadczenia pokazuj¹, ¿e za³o¿enie to jest zasadne, gdy¿ zdecydowana wiêkszoœæ wolon-tariuszy OSM to u¿ytkownicy lokalni (local mappers) (Neis i in., 2013). W pracy Mashhadi i in. (2013) autorzy badali zale¿noœæ miêdzy liczb¹ punktów POI, stworzonych przez u¿yt-kowników OSM w poszczególnych dzielnicach Londynu a gêstoœci¹ zaludnienia, liczb¹

(3)

lud-noœci przypadaj¹c¹ na 1 punkt POI, liczb¹ osób bezdomnych, liczb¹ wizyt (wyra¿on¹ liczb¹ zameldowañ w serwisie Foursquare) oraz odleg³oœci¹ do najbli¿szego obszaru metropolitar-nego (poly-centre). W badaniu wykorzystano regresjê liniow¹ jednokrotn¹ i wielokrotn¹ do stwierdzenia czy istnieje wp³yw cech spo³eczeñstwa na iloœæ danych OSM. Otrzymany sko-rygowany wspó³czynnik determinacji na poziomie 0,17 dla Londynu i 0,16 dla tak zwanego Londynu Wewnêtrznego wskaza³ jednak na niski stopieñ objaœniania, co nie pozwoli³o na wskazanie cech spo³eczeñstwa maj¹cych szczególnie du¿y wp³yw na iloœæ tworzonych da-nych VGI. W pracy Arsanjani i Bakillah (2015) zastosowano inne podejœcie, które zak³ada³o w pierwszym etapie wyznaczenie obszarów o szczególnie du¿ej liczbie danych OSM (hot

spots), nastêpnie pozyskanie danych demograficznych na poziomie powiatów w niemieckim

landzie Badenia-Wirtembergia i u³o¿enie modeli regresji logistycznej. Wynikiem badania jest stwierdzenie, i¿ wysoki wp³yw na pozyskiwanie szczególnie du¿ej liczby danych OSM maj¹ takie cechy spo³eczeñstwa jak: gêstoœæ zaludnienia, poziom wykszta³cenia, œrednie wyna-grodzenie, turystyka (wyra¿ona liczb¹ pobytów czasowych na co najmniej jedn¹ noc), wiek, liczba cudzoziemców i bliskoœæ obszarów zabudowanych.

Celem niniejszego artyku³u jest uzupe³nienie tych prac o badanie dotycz¹ce obszaru Polski i wyznaczenie takich cech spo³eczeñstwa, które maj¹ szczególnie du¿y wp³yw na liczbê tworzonych danych OSM w powiatach, przy za³o¿eniu, ¿e mo¿e on byæ ró¿ny w zale¿noœci od typu geometrycznego danych przestrzennych. Nale¿y spodziewaæ siê, i¿ mo¿na wyzna-czyæ te cechy przy jednoczeœnie wysokim stopniu objaœniania zmiennej zale¿nej, co pozwoli na prognozowanie rozwoju serwisu OSM w przysz³oœci.

Zmienne objaœniane – wykorzystane dane

z projektu OpenStreetMap

OpenStreetMap jest bez w¹tpienia najpopularniejszym serwisem umo¿liwiaj¹cym two-rzenie spo³ecznoœciowych danych przestrzennych i korzystanie z nich. Liczba zarejestrowa-nych u¿ytkowników projektu wzrasta nieprzerwanie od 2004 roku, kiedy projekt zosta³ za-inicjowany w Wielkiej Brytanii przez Steve’a Coasta (Zielstra, Zipf, 2010). Obecnie (stan na 27 paŸdziernika 2016 roku) w serwisie zarejestrowanych jest 3 185 114 u¿ytkowników, którzy tworz¹ dane przestrzenne dwoma g³ównymi sposobami – wektoryzuj¹c zdjêcia sate-litarne lub lotnicze, b¹dŸ wgrywaj¹c œcie¿ki lub punkty z odbiorników GPS.

Struktura bazy danych OSM jest ró¿na od powszechnie stosowanej w systemach infor-macji geograficznej struktury relacyjnej. Sk³adaj¹ siê na ni¹ trzy rodzaje obiektów – wêz³y (nodes), linie (ways) i relacje (relations). Za pomoc¹ wêz³ów tworzone s¹ obiekty punktowe, natomiast linii – liniowe i poligonowe. Powi¹zania miêdzy obiektami reprezentowane s¹ za pomoc¹ relacji. Cechy obiektów zapisywane s¹ za pomoc¹ tagów przyjmuj¹cych postaæ klucz-wartoœæ (Cichociñski, 2012). Ró¿nice w modelu OSM i relacyjnym sprawiaj¹ trudno-œci w korzystaniu z danych w oprogramowaniu typu GIS. Pewnym rozwi¹zaniem tego problemu jest skorzystanie z danych w postaci plików .shp, które udostêpniane s¹ przez firmê Geofabrik. Niestety darmowo mo¿na skorzystaæ tylko z 8 klas obiektów, co znacz¹co zmniejsza u¿ytecznoœæ tego produktu. Firma ta udostêpnia równie¿ dane w formacie .osm xml, które zawieraj¹ pe³n¹ strukturê OSM, a w przypadku Polski podzielone s¹ na woje-wództwa. Warto tutaj zaznaczyæ, ¿e objêtoœæ jednego zbioru w zale¿noœci od wielkoœci województwa waha siê od 600 MB do 2,4 GB i roœnie z ka¿d¹ aktualizacj¹, co znacznie wp³ywa na czas przetwarzania i analizowania danych zapisanych w tym formacie.

(4)

W niniejszej pracy dane OSM zosta³y wykorzystane jako zmienne objaœniane w modelach regresji, a tak¿e jako zmienne do okreœlenia stopnia korelacji miêdzy cechami demograficz-nymi spo³eczeñstwa a iloœci¹ danych VGI. W tym celu w pierwszym kroku dane pobrane w formacie .osm xml (o aktualnoœci na dzieñ 19.07.2016 roku) zosta³y zaimportowane do geobazy plikowej za pomoc¹ zestawu narzêdzi „ArcGIS Editor for OSM” stworzonego przez firmê Esri na potrzeby korzystania z danych OSM. Wynikiem importu dla ka¿dego woje-wództwa by³y trzy klasy obiektów – dane punktowe, liniowe i poligonowe. Nastêpnie w oparciu o atrybut osmtimestamp z ka¿dego zbioru zosta³y wybrane obiekty, które powsta³y w okresie od 1 stycznia 2013 do 31 grudnia 2015 roku. Kolejnym krokiem by³o zliczenie liczby punktów, d³ugoœci linii i powierzchni poligonów wybranych obiektów w powiatach w Polsce. Na koniec wartoœci te zosta³y podzielone przez powierzchniê ka¿dego z powiatów. W ten sposób powsta³y trzy zmienne objaœniane – liczba punktów OSM na 1 km2, d³ugoœæ linii OSM na 1 km2 i procentowe pokrycie danymi poligonowymi OSM powiatów w Polsce powsta³ymi w okresie trzech lat – od 1.01.2013 do 31.12.2015 rok.

Zmienne objaœniaj¹ce – wybór cech

demograficznych spo³eczeñstwa

Bior¹c pod uwagê cel niniejszego artyku³u, którym jest wyznaczenie cech spo³eczeñstwa maj¹-cych istotny wp³yw na pozyskiwanie danych z OSM, na podstawie przegl¹du literatury i dostêpnoœci danych na poziomie powiatowym wybrano 15 zmiennych, które zosta³y w póŸniejszych eta-pach wykorzystane do analiz korelacji i regresji. Wszystkie dane zosta³y pozyskane z Banku Danych Lokalnych, prowadzonego przez G³ówny Urz¹d Statystyczny. Wiêkszoœæ cech zosta³a wybrana w oparciu o cechy wskazane w badaniach Mashhadi i in. (2013) oraz Arsanjani i Bakillah (2015). Ponadto bior¹c pod uwagê dostêpnoœæ danych i analizuj¹c ich mo¿liwy wp³yw na pozyskiwanie danych VGI zbiór ten uzupe³niono o takie cechy jak:

m ma³¿eñstwa zawarte na 1000 ludnoœci – zak³adaj¹c, ¿e im jest ich wiêcej tym liczba

pozyskiwanych danych jest mniejsza ze wzglêdu na mniejsz¹ iloœæ czasu osób w zwi¹zkach ma³¿eñskich bêd¹cych jednoczeœnie u¿ytkownikami OSM;

m liczba fundacji, stowarzyszeñ i organizacji spo³ecznych na 10 tys. ludnoœci –

zak³ada-j¹c, ¿e ich liczba pozytywnie wp³ywa na iloœæ pozyskiwanych danych, gdy¿ osoby dzia³aj¹ce w organizacjach non-profit maj¹ wiêksze predyspozycje do dzia³añ na rzecz spo³eczeñstwa, za które mo¿na uznaæ tworzenie danych VGI;

m frekwencja wyborcza w wyborach samorz¹dowych w 2014 roku – zak³adaj¹c, ¿e

wy¿sza frekwencja przek³ada siê na wiêksz¹ liczbê pozyskiwanych danych, ze wzglê-du na wiêksze zainteresowanie sprawami lokalnej spo³ecznoœci ludnoœci, co mo¿e mieæ wyraz równie¿ w tworzeniu VGI;

m turyœci zagraniczni z Niemiec – wed³ug literatury (Neis, Zipf, 2012) z Niemiec

pocho-dzi najwiêcej aktywnych u¿ytkowników OSM, a co za tym ipocho-dzie tworzona jest naj-wiêksza iloœæ danych, w zwi¹zku z tym za³o¿ono, ¿e liczba niemieckich turystów pozytywnie wp³ywa na iloœæ tworzonych danych w polskich powiatach, gdy¿ mog¹ siê wœród nich znajdowaæ amatorzy tworzenia danych VGI.

W miarê dostêpnoœci cechy zosta³y pobrane dla trzech lat – 2013, 2014, 2015. Nastêpnie dla ka¿dej z nich obliczono wartoœci œrednie, które zosta³y wykorzystane do dalszych analiz jako zmienne objaœniaj¹ce. Spis wybranych zmiennych przedstawia tabela 1.

(5)

Tabela 1. Wybrane cechy demograficzne spo³eczeñstwa przyjête jako zmienne objaœniaj¹ce . p L Skrót Nazwa Jednostka Lata 1 GZ Gêstoœæzaludnienia os/km2 2013,2014,2015 2 W1 Procentliczbyludnoœciwwiekudo20lat % 2013,2014,2015 3 W2 Procentliczbyludnoœciwwieku20-30lat % 2013,2014,2015 4 W3 Procentliczbyludnoœciwwieku30-40lat % 2013,2014,2015 5 W4 Procentliczbyludnoœciwwieku40-50lat % 2013,2014,2015 6 W5 Procentliczbyludnoœciwwiekupowy¿ej50lat % 2013,2014,2015 7 M Ma³¿eñstwazawartena1000ludnoœci liczba 2013,2014,2015 8 PS Liczbaosóbwgospodarstwachdomowych i c œ o n d u l 0 0 0 1 a n ¹ n z c e ³ o p s c o m o p a c ¹ j u m y z r t o a b o s o 2013,2014 9 SB Stopabezrobociarejestrowanego % 2013,2014,2015 0 1 WF Wspó³czynnikfeminizacji – 2013,2014,2015 1 1 SW Œredniewynagrodzeniebrutto z³ 2013,2014,2015 2 1 WW Procentludnoœciwwieku13latiwiêcej m y z s ¿ y w m e i n e c ³ a t z s k y w z % 2011 3 1 FS Liczbafundacj,istowarzyszeñiorganizacji w ó c ñ a k z s e i m . s y t 0 1 a n h c y n z c e ³ o p s a b z c i l 2013,2014,2015 4 1 FW Frekwencjawyborczawwyborach u k o r 4 1 0 2 w h c y w o d ¹ z r o m a s % 2014 5 1 TZ Turyœcizagraniczni(nierezydenci) w ó c ñ a k z s e i m 0 0 0 1 a n a b o s o 2013,2014,2015 6 1 TN Turyœcizagranicznibêd¹cyobywatelamiNiemiec w ó c ñ a k z s e i m 0 0 0 1 a n ) i c n e d y z e r e i n ( a b o s o 2013,2014,2015

Przyjêta metodyka

Wyznaczenie cech spo³eczeñstwa maj¹cych szczególnie istotny wp³yw na liczbê pozy-skiwanych danych OSM podzielono na trzy zasadnicze etapy. Pierwszy z nich zak³ada³ wy-znaczenie wspó³czynników korelacji miêdzy zmiennymi objaœnianymi i wszystkimi zmienny-mi objaœniaj¹cyzmienny-mi. Nastêpnie te zzmienny-mienne, dla których wspó³czynnik ten by³ istotny statycz-nie, zosta³y wykorzystane do u³o¿enia modeli regresji liniowej wielorakiej. W kolejnym etapie zbadano autokorelacjê przestrzenn¹ reszt regresji liniowej, chc¹c okreœliæ zasadnoœæ zasto-sowania regresji wa¿onej geograficznie. Ostatnim etapem by³o porównanie wyników z re-gresji liniowej i rere-gresji wa¿onej geograficznie i zidentyfikowanie cech spo³eczeñstwa maj¹-cych szczególnie istotny wp³yw na pozyskiwanie spo³ecznoœciowych danych przestrzen-nych. Do wyznaczenia si³y zale¿noœci miêdzy zmiennymi objaœniaj¹cymi i objaœnianymi wy-korzystano wspó³czynnik korelacji liniowej Pearsona, który wyra¿a siê nastêpuj¹cym wzo-rem (Koop, 2011):

gdzie: Xi – kolejne obserwacje zmiennej X, Yi – kolejne obserwacje zmiennej Y, X, Y – œrednie wartoœci zmiennych X, Y. r = Σ N i=1 (Yi – Y) (Xi – X)

(ΣΝ i=1 (Yi –Y) 2

N i=1 (Xi – X) 2

(6)

Wspó³czynnik ten przyjmuje wartoœci z przedzia³u <-1;1>, gdzie wartoœci bliskie 1 ozna-czaj¹ siln¹ dodatni¹ korelacjê, bliskie -1 ujemn¹ korelacjê, a o braku korelacji œwiadcz¹ war-toœci wspó³czynnika bliskie zeru (Koop, 2011). Oprócz wyznaczenia samego wspó³czynnika korelacji przeprowadzono równie¿ test istotnoœci na poziomie α=0,001, który wykaza³, ¿e dla liczby obserwacji wynosz¹cej 380 (liczba powiatów w Polsce) wartoœci wspó³czynnika

r wiêksze od 0,17 s¹ istotne statystycznie. Statystyka testowa ma rozk³ad t-Studenta i

przyj-muje nastêpuj¹c¹ postaæ:

gdzie: n – liczba obserwacji, r – wartoœæ wspó³czynnika korelacji Pearsona. Za jej pomoc¹ weryfikowana jest hipoteza zerowa H0 : ρ = 0 – brak zale¿noœci liniowej miêdzy badanymi

zmiennymi, przeciw alternatywnej H0 : ρ ≠ 0.

Oprócz korelacji Pearsona obliczono równie¿ wspó³czynniki korelacji Spearmana i Ken-dalla, które s¹ ogólniejsze od wspó³czynnika korelacji Pearsona – s¹ miernikami monotonicz-nych zale¿noœci (nie tylko liniowych) miêdzy zmiennymi, a tak¿e s¹ odporniejsze na obser-wacje odstaj¹ce. Wartoœci tych wspó³czynników mieszcz¹ siê w przedziale <-1;1>, gdzie wartoœci bliskie 1 œwiadcz¹ o silnie dodatniej monotonicznej zale¿noœci miêdzy zmiennymi, a bliskie -1 o silnie ujemnej zale¿noœci.

Wszystkie wspó³czynniki korelacji zosta³y obliczone dla trzech zmiennych objaœnianych i wszystkich zmiennych objaœniaj¹cych dla powiatów w Polsce.

Nale¿y pamiêtaæ, ¿e korelacja pozwala na stwierdzenie czy zale¿noœæ miêdzy zmiennymi istnieje i jaka jest jej si³a, nie pozwala natomiast na okreœlenie czy zachodzi objaœnianie zmien-nej zale¿zmien-nej zmiennymi niezale¿nymi. Do okreœlenia tego rodzaju zwi¹zków s³u¿y regresja. W niniejszej pracy zosta³o wykorzystane modelowanie w oparciu o regresjê liniow¹ wielo-rak¹, która wyra¿a siê nastêpuj¹cym wzorem (Koop, 2011):

Yi = α + β1X1i+ β2X2i + ... + βkXki + εi, i=1, 2, …, n

gdzie: i – numery pojedynczych obserwacji, α11 …, βk – nieznane parametry modelu, εi – b³¹d (reszta) modelu.

Oszacowania nieznanych parametrów modelu dokonuje siê z wykorzystaniem metody najmniejszych kwadratów, natomiast oceny dopasowania modelu za pomoc¹ wspó³czynnika determinacji R2 i skorygowanego wspó³czynnika determinacji R2

adj, który s³u¿y do porów-nywania jakoœci modeli o ró¿nej liczbie zmiennych. Wartoœci R2 zawieraj¹ siê w przedziale <0;1>, im wartoœæ wspó³czynnika bli¿sza 1 tym lepsze dopasowanie modelu. Oprócz wspó³-czynnika determinacji do wyboru najlepszego modelu stosowane jest równie¿ kryterium informacyjne Akaikego AIC (Akaike Information Criterion), im mniejsza jego wartoœæ tym model jest lepszy. Proces modelowania by³ iteracyjny i wykorzystywa³ jedn¹ z metod doboru zmiennych objaœniaj¹cych do modeli ekonometrycznych – regresjê krokow¹ wsteczn¹. W pierwszym kroku jako zmienne objaœniaj¹ce zosta³y wykorzystane wszystkie zmienne istotnie skorelowane ze zmiennymi objaœnianymi, nastêpnie z modelu usuwana by³a ta z nich, dla której bezwzglêdna minimalna wartoœæ statystyki t-Studenta by³a mniejsza od wartoœci krytycznej tn – (k+1), 1 – α/2, gdzie n – liczba obserwacji, k – liczba zmiennych objaœniaj¹cych w modelu, wyznaczonej dla poziomu istotnoœci 0,05. Nastêpnie obliczano nowy model i po-wtarzano powy¿sz¹ procedurê, a¿ do osi¹gniêcia wartoœci statystyk t-Studenta dla wszyst-kich zmiennych wiêkszych od wartoœci krytycznej. Istotn¹ kwesti¹ na etapie budowania

Tn–2 =

√ 1 – r2 √ n – 2

(7)

modelu jest okreœlenie stopnia skorelowania (wspó³liniowoœci) zmiennych objaœniaj¹cych miêdzy sob¹, co ma znacz¹cy wp³yw na otrzymywane wyniki. Stopieñ skorelowania mo¿na oceniæ obliczaj¹c czynnik inflacji wariancji (VIF), który mówi o tym ile razy wyznaczona wariancja estymatora jest wiêksza od wariancji prawdziwej – niezak³óconej wspó³liniowo-œci¹ (Gruszczyñski i in., 2003). Przy braku wspó³liniowoœci VIF=1, uwa¿a siê, ¿e VIF>10 (wed³ug innych Ÿróde³ VIF>5) œwiadczy o znacz¹cych zak³óceniach wywo³anych wspó³li-niowoœci¹ (Gruszczyñski i in., 2003). Ostatecznie wyznaczono 3 modele regresji liniowej wielorakiej, w których za zmienne objaœniane przyjêto: (1) liczbê punktów OSM na 1 km2, (2) d³ugoœæ linii OSM na 1 km2 i (3) procentowe pokrycie danymi poligonowymi OSM. Kolejnym krokiem by³o testowanie normalnoœci reszt z regresji co jest warunkiem popraw-noœci przeprowadzonego modelowania. Istnieje wiele testów sprawdzaj¹cych normalnoœæ rozk³adu, w niniejszej pracy wykonano wykresy kwantylowe dla reszt (QQ plot) oraz wyko-nano test Shapiro-Wilka. Pierwsz¹ metodê mo¿na zaliczyæ do metod wizualnych, gdy¿ pole-ga ona na ocenie czy punkty wykresu le¿¹ wzd³u¿ prostej. Warunek ten w przybli¿eniu by³ spe³niony dla wszystkich zbudowanych modeli, co potwierdzi³ test Shapiro-Wilka. Hipotez¹ zerow¹ w tym teœcie jest stwierdzenie, i¿ badany rozk³ad jest normalny, a alternatywn¹, ¿e nie mo¿na mówiæ o normalnoœci rozk³adu. Jeœli obliczona wartoœæ p-value jest wiêksza od α nale¿y przyj¹æ hipotezê zerow¹. Dla przyjêtego poziomu istotnoœci α=0,001 otrzymano na-stêpuj¹ce wartoœci p-value – 0,06 dla modelu 1, 0,2 dla modelu 2 i 0,1 dla modelu 3. Nastêp-nie wyznaczono reszty z regresji i zbadano ich rozk³ad przestrzenny, co by³o Nastêp-niezbêdne do okreœlenia zasadnoœci modelowania z wykorzystaniem regresji wa¿onej geograficznie. W tym celu zastosowano globaln¹ statystykê Morana I, której wartoœci mieszcz¹ siê w przedziale <-1,1>, a jej interpretacja jest nastêpuj¹ca (Marczak, Pluto-Kossakowska, 2015):

m I>0 – zachodzi dodatnia korelacja przestrzenna,

m I≈0 – brak autokorelacji,

m I<0 – zachodzi ujemna korelacja przestrzenna.

Dla tych modeli, dla których stwierdzono wystêpowanie autokorelacji przestrzennej reszt z regresji liniowej zastosowano regresjê wa¿on¹ geograficznie. Zak³ada ona, ¿e badane zjawi-sko charakteryzuje siê niestacjonarnoœci¹, czyli ró¿nym stopniem oddzia³ywania czynników sprawczych w zale¿noœci od po³o¿enia jednostki odniesienia zmiennych w przestrzeni geo-graficznej. Regresja wa¿ona geograficznie (Geographically Weighted Regression, GWR) umo¿liwia oszacowanie parametrów modelu w ka¿dej jednostce odniesienia, dla której znane s¹ wartoœci zmiennych zale¿nych i niezale¿nych, co potwierdza poni¿sza postaæ modelu (Cellmer, 2010):

Yi = β0 (xi, yi) + β1 (xi, yi) X1i + β2 (xi, yi) X2i + ...+ βk (xi, yi)Xki +εi dla i = 1,2,...n gdzie parametry βk s¹ zwi¹zane z lokalizacj¹, wyra¿on¹ wspó³rzêdnymi xi,yi.

Oceny dopasowania modelu dokonano analogicznie jak w regresji liniowej. Ostatecznie wyznaczono te cechy spo³eczeñstwa, które maj¹ istotny wp³yw na pozyskiwanie danych OSM, co bior¹c pod uwagê zastosowane modele regresyjne umo¿liwia prognozowanie przy-rostu spo³ecznoœciowych danych przestrzennych w powiatach Polski.

(8)

Wyniki analizy korelacji

W pierwszym etapie – analizie korelacji – wyznaczono w sumie 144 wspó³czynniki kore-lacji Pearsona, Spearmana i Kendalla z czego 112 by³o istotnych statystycznie. Wyniki dla wszystkich zmiennych objaœnianych i objaœniaj¹cych przedstawiono w tabeli 2. Nale¿y zwróciæ uwagê na znaczne ró¿nice w sile skorelowania w zale¿noœci od typu geometrycznego pozy-skiwanych danych OSM. Najwiêksze bezwzglêdne wartoœci wszystkich wspó³czynników korelacji otrzymano dla danych liniowych, a najmniejsze dla danych poligonowych. Nale¿y zauwa¿yæ, ¿e dla danych tych brak istotnoœci wspó³czynników korelacji Spearmana i Ken-dalla wystêpuje dla tych samych zmiennych, dla których nieistotna jest korelacja Pearsona. Dla danych punktowych i liniowych wystêpuje inna zale¿noœæ – brak istotnoœci korelacji Spearmana i Kendalla wystêpuje dla wiêkszej liczby zmiennych ni¿ w przypadku braku istot-noœci korelacji Pearsona. Oznacza to, ¿e dla danych poligonowych dla najwiêkszej liczby zmiennych nie mo¿na mówiæ ani o zale¿noœci monotonicznej ani tym bardziej liniowej. Nato-miast dla danych liniowych i punktowych mo¿na wskazaæ zmienne objaœniaj¹ce, dla których zachodzi tylko zale¿noœæ liniowa, gdy¿ wspó³czynniki korelacji Spearmana i Kendalla s¹ nieistotne. Najwiêksze wartoœci wszystkich rodzajów korelacji uzyskano dla zmiennej gê-Tabela 2. Wartoœci wspó³czynników korelacji Pearsona (r) dla zmiennych objaœnianych i objaœniaj¹cych;

kolorem szarym zaznaczono wartoœci nieistotne statystycznie

e n a i n œ a j b o e n n e i m Z t ó r k s h c y n n e i m z -a i n œ a j b o h c y c ¹ j m k 1 / M S O w ó t k n u p a b z c il 2 d³ugoœæ ilniiOSM/1km2 procentowepokryciedanymi w ó t a i w o p M S O i m y w o n o g il o p -³ ó p s w k i n n y z c :i j c a l e r o k a n o s r a e P Spearmana Kendalla Pearsona Spearmana Kendalla Pearsona Spearmana Kendalla Z G 0,75 0,79 0,61 0,92 0,87 0,70 0,48 0,34 0,23 1 W -0,37 -0,31 -0,20 -0,50 -0,36 -0,23 -0,27 -0,25 -0,17 2 W -0,40 -0,45 -0,29 -0,50 -0,50 -0,33 -0,33 -0,31 -0,21 3 W 0,30 0,15 0,10 0,34 0,41 0,28 0,18 0,21 0,14 4 W -0,21 -0,11 -0,07 -0,21 0,02 0,03 -0,08 -0,10 -0,07 5 W 0,30 0,32 0,21 0,40 0,26 0,16 0,23 0,21 0,14 M -0,23 -0,17 -0,11 -0,30 -0,32 -0,22 -0,12 -0,15 -0,10 S P -0,40 -0,61 -0,43 -0,49 -0,67 -0,47 -0,33 -0,31 -0,21 B S -0,32 -0,51 -0,35 -0,36 -0,42 -0,29 -0,15 -0,12 -0,08 F W 0,63 0,58 0,41 0,77 0,68 0,49 0,31 0,29 0,19 W S 0,31 0,35 0,23 0,44 0,44 0,30 0,33 0,28 0,19 W W 0,67 0,62 0,44 0,77 0,67 0,48 0,29 0,35 0,24 S F 0,22 -0,12 -0,10 0,25 -0,03 -0,03 -0,08 -0,08 -0,05 W F -0,42 -0,23 -0,15 -0,56 -0,49 -0,34 -0,33 -0,25 -0,17 Z T 0,14 0,16 0,11 0,18 0,37 0,27 0,19 0,22 0,15 N T 0,00 -0,01 0,00 0,01 0,30 0,21 0,13 0,23 0,15

(9)

stoœæ zaludnienia, przy czym w zale¿noœci od d³ugoœci danych liniowych OSM wynosi³a ona a¿ 0,92 (korelacja Pearsona), podczas gdy dla danych poligonowych by³o to zaledwie 0,23 (korelacja Kendalla). Wysokie wartoœci dodatniej korelacji uzyskano równie¿ dla zmiennych – procent ludnoœci z wykszta³ceniem wy¿szym i wspó³czynnik feminizacji, o ile w przypad-ku pierwszej z nich nale¿a³o siê spodziewaæ takiego wyniprzypad-ku, o tyle w przypadprzypad-ku drugiej jest on zaskakuj¹cy, gdy¿ wed³ug literatury zdecydowanie wiêcej danych OSM tworzonych jest przez mê¿czyzn. Najwiêksze wartoœci ujemnej korelacji, œwiadcz¹ce o wzroœcie jednej zmiennej przy jednoczesnym spadku drugiej, uzyskano dla zmiennej dotycz¹cej frekwencji wybor-czej, co wskazuje i¿ przyjête za³o¿enie o pozytywnym wp³ywie tej zmiennej na pozyskiwanie danych OSM by³o b³êdne. Zaskakuj¹ce wyniki uzyskano równie¿ dla procentowego udzia³u ludnoœci w wieku do 20 i od 20 do 30 lat. Nale¿a³o siê spodziewaæ, ¿e zmienne te s¹ dodatnio skorelowane ze zmiennymi objaœnianymi, podczas gdy korelacja ta jest ujemna. Dodatnie wartoœci wspó³czynników korelacji uzyskano dla grup wiekowych 30-40 lat i powy¿ej 50 lat, o ile pierwsza z nich nie powinna dziwiæ, o tyle druga jest dosyæ zaskakuj¹ca, chocia¿ si³a zwi¹zku jest na œrednim poziomie. Wartoœci wszystkich wspó³czynników korelacji dla zmien-nych zwi¹zazmien-nych z turystyk¹ s¹ zbli¿one do zera i w wiêkszoœci nieistotne statystycznie.

Oprócz wyznaczenia wspó³czynników korelacji dla wszystkich powiatów w Polsce, ob-liczeñ dokonano równie¿ dla powiatów ka¿dego z województw z osobna. Pozwala to stwier-dziæ czy si³a zwi¹zków zachodz¹cych miêdzy zmiennymi objaœnianymi i objaœniaj¹cymi jest ró¿na w zale¿noœci od regionu Polski (rys. 1).

Rysunek 1. Wspó³czynnik korelacji Pearsona obliczony dla powiatów po³o¿onych

w poszczególnych województwach Polski

Nale¿y przy tym pamiêtaæ, ¿e w zwi¹zku z mniejsz¹ liczb¹ obserwacji (liczba powiatów w poszczególnych województwach) za istotne nale¿y uznaæ zdecydowanie wiêksze warto-œci wspó³czynnika r. Na postawie analizy wspó³czynnika r w województwach mo¿na stwier-dziæ, ¿e wystêpuje stosunkowo niska korelacja miêdzy zmienn¹ gêstoœæ zaludnienia a zmien-nymi objaœniazmien-nymi w regionie Œl¹ska i Dolnego Œl¹ska, co jest dosyæ zaskakuj¹ce bior¹c pod uwagê fakt, ¿e to jedne z liczniej zaludnionych obszarów kraju. Wynika z tego i¿ w regionach

(10)

tych inne cechy spo³eczeñstwa s¹ powi¹zane zale¿noœciami z iloœci¹ pozyskiwanych danych VGI. Podobne analizy przeprowadzono równie¿ dla innych zmiennych objaœniaj¹cych – wnioski z nich przedstawiono w rozdziale „Podsumowanie i wnioski”.

Wyniki modelowania za pomoc¹ regresji liniowej i GWR

Na podstawie analizy korelacji wyznaczono modele regresji liniowej zawieraj¹ce wszyst-kie zmienne objaœniane o istotnym statystycznie wspó³czynniku r. Nastêpnie modele by³y optymalizowane metod¹ eliminacji, której etapy nie zostan¹ przedstawiona w niniejszym ar-tykule, ze wzglêdu na ograniczenia w jego d³ugoœci. Ostatecznie wyznaczono trzy modele regre-sji dla ka¿dej ze zmiennych objaœnianych (tab. 3).

Tabela 3. Parametry modeli regresji liniowej o najlepszym dopasowaniu

a n n e i m Z -a i n œ a j b o a c ¹ j æ œ o t r a W u r t e m a r a p d ¹ ³ B -r a d n a t s y w o d m o i z o P i c œ o n t o t s i ) e u l a v -p ( æ œ o t r a W i k y t s y t a t s a t n e d u t S -t F I V 1 l e d o M m k 1 / M S O w ó t k n u p a b z c i l : a n ¿ e l a z a n n e i m Z 2 a ³ a t S -47,344 27,410 0,085 -1,727 – Z G 0,053 0,006 0,000 8,801 2,14 M 6,953 3,464 0,045 2,007 1,21 W S -0,007 0,004 0,048 -1,983 1,39 W W 3,929 1,184 0,001 3,318 2,81 R2=0,6006,R2 j d a =0,596,AIC=3913,8 2 l e d o M m k 1 / M S O i i n i l æ œ o g u ³ d : a n ¿ e l a z a n n e i m Z 2 a ³ a t S 5749,773 1420,150 0,000 4,049 – Z G 6,953 0,662 0,000 10,500 2,49 S P -12,764 4,126 0,002 -3,093 1,51 W W 187,699 69,860 0,008 2,687 2,56 W F -70,806 22,090 0,001 -3,205 1,48 R2=0,8789,R2 j d a =0,8774,AIC=6930,9 3 l e d o M M S O i m y w o n o g i l o p i m y n a d e i c y r k o p e w o t n e c o r p : a n ¿ e l a z a n n e i m Z a ³ a t S 1851,733 315,322 0,000 5,872 – Z G 0,103 0,010 0,000 9,862 2,52 2 W -26,126 6,546 0,000 -3,991 2,62 S P -0,859 0,205 0,000 -4,195 3,08 B S 3,888 1,019 0,000 3,815 2,21 F W -12,914 2,472 0,000 -5,222 4,05 W S 0,036 0,009 0,000 4,116 1,36 S F -2,073 0,793 0,009 -2,615 1,24 R2=0,3773,R2 j d a =0,3657,AIC=4464,97

(11)

Istotnoœæ statystyczn¹ poszczególnych zmiennych objaœnianych w modelach o najwiêk-szym dopasowaniu okreœla wartoœæ p (p-value) – im jest ona ni¿sza tym istotniejsza jest dana zmienna w modelu.

Najwiêkszy stopieñ objaœniania wyra¿ony za pomoc¹ wspó³czynnika determinacji (R2) uzyskano dla zmiennej d³ugoœæ linii OSM/1 km2, natomiast najmniejszy dla zmiennej procen-towe pokrycie danymi poligonowymi OSM, czego nale¿a³o siê spodziewaæ po uprzednio przeprowadzonej analizie korelacji. W przypadku gêstoœci danych liniowych OSM interpre-tacja otrzymanego wyniku jest nastêpuj¹ca – 88% zmiennoœci gêstoœci danych liniowych OSM jest objaœniane przez zmiennoœæ: gêstoœci zaludnienia, liczby osób w gospodarstwach domowych otrzymuj¹cych pomoc spo³eczn¹, procentu osób z wykszta³ceniem wy¿szym, liczby fundacji, stowarzyszeñ i organizacji spo³ecznych oraz frekwencji wyborczej. Nale¿y zauwa¿yæ, ¿e z tych zmiennych tylko wzrost gêstoœci zaludnienia i osób z wykszta³ceniem wy¿szym wp³ynie na wzrost pozyskiwanych danych liniowych VGI. Dla pozosta³ych zmien-nych znak oszacowanego parametru jest ujemny, zatem nale¿y siê spodziewaæ, ¿e wzrost zmiennej zale¿nej spowoduje spadek wartoœci zmiennej objaœnianej.

Po przeprowadzeniu modelowania za pomoc¹ regresji liniowej obliczono wartoœci reszt dla ka¿dego z powiatów, a nastêpnie zbadano czy zachodzi autokorelacja przestrzenna, która wskazuje na tworzenie klastrów przestrzennych przez powiaty o niskim b¹dŸ wysokim do-pasowaniu modelu. W przypadku jej stwierdzenia istniej¹ przes³anki do zastosowania modelu regresji wa¿onej geograficznie. Dla modelu 1 wartoœæ globalnej statystyki Morana I wynosi³a 0,02 (na poziomie istotnoœci 0,001), co œwiadczy o braku autokorelacji przestrzennej. Dla modeli 2 i 3 by³o to odpowiednio 0,21 i 0,42 (na poziomie istotnoœci 0,001), co z kolei wskazuje na istnienie dodatniej autokorelacji i potrzebê zastosowania modelu regresji wa¿o-nej geograficznie GWR (tab. 4).

Tabela 4. Wyniki modelowania regresj¹ wa¿on¹ geograficznie

R W G 2 l e d o M : a n ¿ e l a z a n n e i m Z m k 1 / M S O i i n i l æ œ o g u ³ d 2 R W G 3 l e d o M : a n ¿ e l a z a n n e i m Z e i c y r k o p e w o t n e c o r p M S O i m y w o n o g i l o p i m y n a d a n n e i m z -a i n œ a j b o a c ¹ j a i n d e r œ æ œ o t r a w u r t e m a r a p d ¹ ³ b i n d e r œ -o d r a d n a t s y w a n n e i m z -a i n œ a j b o a c ¹ j a i n d e r œ æ œ o t r a w u r t e m a r a p d ¹ ³ b i n d e r œ -o d r a d n a t s y w a ³ a t S 5779,760 1587,911 Sta³a 231,887 84,324 Z G 6,690 0,328 GZ 0,039 0,038 W W 231,978 38,416 PS -0,124 1,089 W F -103,952 29,129 SB 0,180 5,343 R2=0,8902, R2 j d a =0,8868, , 7 6 , 2 0 9 6 = C I A R y n l a k o l i n d e r œ 2=0,8837 R2=0,8900, R2 j d a =0,7653, , 6 8 , 6 4 3 4 = C I A R y n l a k o l i n d e r œ 2=0,4091

(12)

GWR zastosowano wykorzystuj¹c zestaw narzêdzi Spatial Statistics Tools z oprogramo-wania ArcGIS. W narzêdziu tym budowane s¹ lokalne modele regresji oparte na macierzy s¹siedztwa z wykorzystaniem funkcji wagowej. Wagi zmieniaj¹ siê wraz z oddalaniem siê od punktu, w którym obliczany jest model lokalny. W budowanych modelach zastosowano zmienn¹ macierz s¹siedztwa, w której liczba s¹siadów do budowy modelu lokalnego by³a dobierana w oparciu o maksymalizacjê kryterium informacyjnego Akaikego obliczanego dla danego modelu lokalnego.

Analiza reszt z regresji dla tych dwóch modeli wskazuje, i¿ s¹ one zdecydowanie wiêksze dla modelu objaœniaj¹cego pozyskiwanie danych poligonowych OSM (model 3 GWR). W przypadku modelu 2 GWR mo¿na zauwa¿yæ, ¿e skrajnie wysokie bezwzglêdne wartoœci reszt wystêpuj¹ dla powiatów grodzkich, co prawdopodobnie zwi¹zane jest z wp³ywem zmiennej gêstoœæ zaludnienia na wyniki modelowania (rys. 2). Dla powiatów ziemskich resz-ty przyjmuj¹ niskie b¹dŸ umiarkowane wartoœci. W przypadku modelu 3 GWR nie mo¿na stwierdziæ wystêpowania podobnej zale¿noœci – wartoœci reszt i ich roz³o¿enie przestrzenne wydaje siê byæ losowe.

Podsumowanie i wnioski

W artykule podjêto próbê wyznaczenia cech spo³eczeñstwa maj¹cych szczególny wp³yw na liczbê pozyskiwanych spo³ecznoœciowych danych przestrzennych w powiatach Polski, w zale¿noœci od ich typu geometrycznego. Dokonano tego analizuj¹c wartoœci wspó³czynni-ka korelacji Pearsona miêdzy liczb¹ punktów OSM na 1 km2, d³ugoœci¹ linii OSM na 1 km2 i procentowym pokryciem danymi poligonowymi OSM powiatów a cechami demograficz-nymi spo³eczeñstwa. Zastosowano równie¿ modele regresji liniowej i regresji wa¿onej

(13)

graficznie w celu wyznaczenia stopnia objaœniania zmiennych zale¿nych (liczba pozyskiwa-nych dapozyskiwa-nych OSM) przez zmienne niezale¿ne (cechy spo³eczeñstwa).

Analiza korelacji wykaza³a, ¿e istniej¹ znaczne ró¿nice w wartoœciach wspó³czynników korelacji Pearsona, Spearmana i Kendalla w zale¿noœci od typu geometrycznego danych, co potwierdza s³usznoœæ przyjêtego za³o¿enia dotycz¹cego tego zjawiska. Dla wiêkszoœci zmien-nych objaœniazmien-nych otrzymano wyniki zgodne z przyjêtymi za³o¿eniami. Najwy¿sze dodatnie wartoœci wspó³czynników otrzymano dla zmiennej gêstoœæ zaludnienia, czego nale¿a³o siê spodziewaæ bior¹c pod uwagê, ¿e to w³aœnie ludzie tworz¹ dane OSM. Zmienne dotycz¹ce podzia³u ludnoœci na piêæ grup wiekowych wykaza³y, i¿ istnieje korelacja miêdzy ka¿d¹ z nich a iloœci¹ pozyskiwanych danych OSM z tym, ¿e jest ona ujemna dla grup do 20 lat, 20-30 lat i 40-50 lat. O ile pierwsza grupa wiekowa zawieraj¹ca dzieci i m³odzie¿ nie powinna dziwiæ, o tyle druga jest zaskakuj¹ca gdy¿ badania literaturowe wskazuj¹, ¿e to w³aœnie z tej grupy wiekowej pochodzi najwiêcej osób tworz¹cych VGI. Ponadto pewnym zaskoczeniem s¹ równie¿ dodatnie wspó³czynniki korelacji dla grupy wiekowej powy¿ej 50 lat. Dlatego te¿ optymalnym rozwi¹zaniem by³oby zast¹pienie tych piêciu zmiennych jedn¹, która by³aby wspó³czynnikiem w sposób kompleksowy odnosz¹cym siê do wieku ludnoœci wyznaczo-nym w oparciu o grupy wiekowe, na przyk³ad z zastosowaniem wy¿szych wag dla tych, dla których wed³ug literatury tworzonych jest wiêcej danych OSM. W przypadku zmiennych ma³¿eñstwa zawarte na 1000 ludnoœci, liczba osób otrzymuj¹cych pomoc spo³eczn¹ i stopy bezrobocia otrzymano ujemne wartoœci wspó³czynników korelacji, co by³o zgodne z przyjê-tymi za³o¿eniami. Dosyæ zaskakuj¹cy wynik otrzymano dla zmiennej wspó³czynnik femini-zacji, dla którego uzyskano silne dodatnie korelacje, podczas gdy w literaturze jako g³ów-nych twórców VGI wskazuje siê mê¿czyzn. Nale¿a³oby zatem przypuszczaæ, ¿e ich wiêksza liczba, zwi¹zana jest z wiêksz¹ iloœci¹ pozyskiwanych danych, w takim wypadku znak wspó³-czynnika korelacji dla zmiennej wspó³czynnik feminizacji powinien byæ ujemny. Byæ mo¿e równie¿ w tym przypadku nale¿a³oby zastosowaæ inn¹ zmienn¹, na przyk³ad procent liczby mê¿czyzn w liczbie ludnoœci. Równie wysokie wartoœci korelacji uzyskano dla zmiennej wykszta³cenie wy¿sze, co pokrywa siê z przyjêtymi za³o¿eniami na podstawie przegl¹du literatury. Korelacje dodatnie, jednak na œrednim poziomie, uzyskano dla zmiennej œrednie wynagrodzenie brutto, co wskazuje i¿ zmienna ta nie jest silnie zwi¹zana z iloœci¹ pozyskiwa-nych dapozyskiwa-nych OSM. Dla zmiennej frekwencja wyborcza uzyskano ujemne wartoœci korelacji – przeciwnie do przyjêtych za³o¿eñ, co wskazuje i¿ udzia³u w wyborach samorz¹dowych i tworzenia VGI nie mo¿na uznaæ za dwa przejawy pewnego rodzaju lokalnego patriotyzmu. Niskie wartoœci korelacji dodatniej uzyskano dla zmiennej liczba fundacji, stowarzyszeñ i organizacji spo³ecznych, co œwiadczy o mniejszej zale¿noœci miêdzy dzia³aniem na rzecz spo³eczeñstwa w ramach organizacji non-profit i tworzeniem danych spo³ecznoœciowych. Dla zmiennych zwi¹zanych z turystyk¹ uzyskane wartoœci korelacji s¹ bardzo niskie, co œwiadczy o jej braku i nieistotnoœci statystycznej.

Oprócz globalnej analizy korelacji wykonano równie¿ analizy regionalne, poprzez oblicze-nie wspó³czynników r dla ka¿dego z województw oddzieloblicze-nie. Pozwoli³o to na dostrze¿eoblicze-nie pewnych regionalnych zale¿noœci, co nie by³o mo¿liwe w modelu globalnym. Dla zmiennej liczba ludnoœci z wykszta³ceniem wy¿szym w zale¿noœci od iloœci pozyskiwanych danych punktowych OSM otrzymano wspó³czynniki r w przedziale (0,31-0,94), w odniesieniu do danych liniowych by³ to przedzia³ (0,39-0,96), a poligonowych (-0,23-0,87). Wartoœci te wskazuj¹ na istnienie du¿ych ró¿nic regionalnych, co sk³ania autorkê do wniosku, ¿e cieka-wych wyników nale¿a³oby siê spodziewaæ przeprowadzaj¹c lokaln¹ analizê korelacji,

(14)

polega-j¹c¹ na próbkowaniu pe³nego zbioru danych i wyznaczaniu lokalnych wspó³czynników r, co mo¿e stanowiæ propozycjê przysz³ych badañ.

Na podstawie analizy regresji mo¿na stwierdziæ, ¿e wystêpuj¹ znaczne ró¿nice w stopniu objaœniania zmiennych zale¿nych przez zmienne niezale¿ne. W przypadku regresji liniowej by³o to: 60% w przypadku danych punktowych, 88% w przypadku danych liniowych oraz 37% w przypadku danych poligonowych. Po zastosowaniu regresji wa¿onej geograficznie wyniki te uda³o siê poprawiæ uzyskuj¹c wspó³czynnik R2

adj = 0,89 dla danych liniowych i R2

adj = 0,76 dla danych poligonowych. Wskazuje to, i¿ w szczególnoœci w odniesieniu do danych powierzchniowych nale¿y wykorzystywaæ model GWR, przy czym wskazanie zmien-nych objaœniaj¹cych powinno byæ poprzedzone analiz¹ korelacji lokalnej. Analiza za pomoc¹ modeli regresji pozwoli³a na wyznaczenie ostatecznej listy cech spo³eczeñstwa, maj¹cych wp³yw na pozyskiwanie danych OSM w zale¿noœci od ich typu geometrycznego (tab. 5).

Tabela 5. Ostatecznie wyznaczone cechy spo³eczeñstwa wp³ywaj¹ce na iloœæ

pozyskiwanych danych OSM

æ œ o l i a n e c ¹ j a w y ³ p w a w t s ñ e z c e ³ o p s y h c e C M S O h c y w o t k n u p h c y n a d h c y n a w i k s y z o p a i n e i n d u l a z æ œ o t s ê G – –Procentludnoœcizwykszta³ceniemwy¿szym o t t u r b e i n e z d o r g a n y w e i n d e r Œ – i c œ o n d u l 0 0 0 1 a n e t r a w a z a w t s ñ e ¿ ³ a M – æ œ o l i a n e c ¹ j a w y ³ p w a w t s ñ e z c e ³ o p s y h c e C M S O h c y w o i n i l h c y n a d h c y n a w i k s y z o p a i n e i n d u l a z æ œ o t s ê G – –Procentludnoœcizwykszta³ceniemwy¿szym –Frekwencjawyborczawwyborachsamorz¹dowych æ œ o l i a n e c ¹ j a w y ³ p w a w t s ñ e z c e ³ o p s y h c e C M S O h c y w o n o g i l o p h c y n a d h c y n a w i k s y z o p –Gêstoœæzaludnienia h c y w o m o d h c a w t s r a d o p s o g w b ó s o a b z c i L – ¹ n z c e ³ o p s c o m o p a c ¹ j u m y z r t o o g e n a w o r t s e j e r a i c o b o r z e b a p o t S –

Nale¿y przy tym zauwa¿yæ, ¿e dobór zmiennych by³ co prawda poprzedzony badaniami literaturowymi, jednak charakteryzuje siê pewn¹ subiektywnoœci¹. Dlatego przedstawione badania nale¿y rozszerzyæ o inne zmienne dotycz¹ce cech spo³eczeñstwa, a tak¿e przepro-wadzenie analiz na najni¿szym poziomie podzia³u administracyjnego kraju. Ostatecznie uzy-skane wyniki, wskazuj¹ce na wysoki stopieñ objaœniania pozyskiwania VGI w zale¿noœci od cech spo³eczeñstwa, pozwalaj¹ na prognozowanie rozwoju projektu OSM w Polsce. Nale¿y przy tym pamiêtaæ, ¿e mimo tego, i¿ wp³yw zmiennych zale¿nych na zmienn¹ niezale¿n¹ jest istotny statystycznie nie przes¹dza o istnieniu przyczynowoœci, co wynika z faktu, ¿e na ka¿de spo³eczeñstwo sk³adaj¹ siê jednostki, którymi zawsze kieruj¹ indywidualne wybory, których nie mo¿na modelowaæ statystycznie, a co za tym idzie wykazana zale¿noœæ nie musi istnieæ w rzeczywistoœci.

Literatura (References)

Arsanjani J.J., Bakillah M., 2015: Understanding the potential relationship between the socio-economic variables and contributions to OpenStreetMap. International Journal of Digital Earth 8(11): 861-876. Arsanjani J.J., Vaz E., 2015: An assessment of a collaborative mapping approach for exploring land use

patterns for several European metropolises. International Journal of Applied Earth Observation and

(15)

Budhathoki N., 2010: Participants’ Motivations to Contribute to Geographic Information in an Online Community. University of Illinois, USA.

Cellmer R., 2010: Analiza przestrzenna dynamiki zmian cen nieruchomoœci lokalowych z wykorzystaniem regresji wa¿onej geograficznie (Spatial analysis of dynamics of changes housing prices with use of geogra-phically weighted regression). Acta Scientiarum Polonorum. Administratio Locorum t. 9, nr 3: 5-14. Cichociñski P., 2012: Ocena przydatnoœci OpenStreetMap jako Ÿród³a danych dla analiz sieciowych

(Asses-sment of OpenStreetMap suitability as a data source for network analysis). Roczniki Geomatyki t. 10, z. 7(57): 15-24, PTIP, Warszawa.

Cichociñski P., Dêbiñska E., 2012: Badanie dostêpnoœci komunikacyjnej wybranej lokalizacji z wykorzysta-niem funkcji analiz sieciowych (Accessibility study of a selected location using network analysis func-tions). Roczniki Geomatyki t. 10, z. 4(54): 41-48, PTIP, Warszawa.

Girres J.F., Touya G., 2010: Quality assessment of the French OpenStreetMap dataset. Transaction in GIS vol. 14 iss. 4: 435-459.

Goodchild M.F., 2007: Citizens as sensors: the Word of volunteered geography. GeoJournal vol. 69. Gruszczyñski M., Kluza S., Winek D., 2003: Ekonometria (Econometrics). Wy¿sza Szko³a Handlu i

Finan-sów Miêdzynarodowych: Elipsa, Warszawa.

Haklay M., 2010: How good is volunteered geographical information? A comparative study of OpenStreet-Map and Ordnance Survey datasets. Environment and Planning B: Planning and Design vol. 37: 682-703. Haklay M., Budhathoki N., 2010: OpenStreetMap: Overview and Motivational Factors. Horizon

Infrastruc-ture Challenge Theme Day, University of Nottingham, UK, March 19, 2010.

Koop G., 2011: Wprowadzenie do ekonometrii (Introduction to econometrics). Wolters Kluwer Polska Sp. z o.o.: 30-31.

Kulczycki M., Ligas M., 2007: Regresja wa¿ona geograficznie jako narzêdzie analizy rynku nieruchomoœci (Geographically weighted regression as a tool for real estate market analysis). Geomatics and

Environmen-tal Engineering 1: 59-68.

Marczak S., 2015: Ocena zaanga¿owania spo³eczeñstwa w tworzenie danych przestrzennych w Polsce na przyk³adzie projektu OpenStreetMap (Assessment of society involvement in creation of spatial data in Poland on the example of OpenStreetMap Project). Roczniki Geomatyki t. 13, z. 3(69): 239-253, PTIP,

Warszawa.

Marczak S., Pluto-Kossakowska J., 2015: Zastosowanie statystyki przestrzennej do analizy wykorzysty-wania funduszy europejskich w Polsce (Spatial statistics in analyzing the use of EU funds in Poland).

Roczniki Geomatyki t. 12, z. 1(63): 105-116, PTIP, Warszawa.

Mashhadi A., Quattrone G., Capra L., 2013: Putting ubiquitous crowd-sourcing into context. Proceedings of the 2013 conference on Computer supported cooperative work: 611-622.

Neis P., Zielstra D., 2014: Recent Developments and Future Trends in Volunteered Geographic Information Research: The Case of OpenStreetMap. Future Internet 6: 76-106.

Neis P., Zielstra D., Zipf A., 2013: Comparison of volunteered geographic information data contributions and community development for selected world regions. Future Internet 5(2): 282-300.

Neis P., Zipf A., 2012: Analyzing the contributor activity of a Volunteered Geographic Information project – The case of OpenStreetMap. ISPRS International Journal of Geo-Information 1(2): 146-165.

Nowak Da Costa J., Bielecka E., Ca³ka B., 2016: Jakoœæ danych OpenStreetMap – analiza informacji o budynkach na terenie Siedlecczyzny (OpenStreetMap building data quality: the Siedleckie county study). Roczniki Geomatyki t. 14, z. 2 (72): 201-211, PTIP, Warszawa.

OpenStreetMap Polska. Dostêp 26.10.2016 r. https://www.facebook.com/osmpolska/about/

Schmidt M., Klettner S., 2013: Gender and experience-related motivators for contributing to openstreetmap. International workshop on action and interaction in volunteered geographic information (ACTIVITY), Leuven: 13-18.

Steinmann R., Häusler E., Klettner S., Schmidt M., Lin Y., 2013: Gender Dimensions in UGC and VGI: A Desk-Based Study. Jekel/Car/Griesebner (Eds.): GI_Forum 2013 Creating the GISociety, Germany.

(16)

Stephens M., Rondinone A., 2012: Gendering the GeoWeb. Annual Meeting. New Jork.

http://www.scoop.it/t/opensource-geo/p/1452578643/gendering-the-geoweb-analysingdemographic-difference-in-usvgi

Zielstra D., Zipf A., 2010: A comparative study of proprietary geodata and volunteered geographic information for Germany. 13th AGILE International Conference on Geographic Information Science 2010, Portugal.

Streszczenie

W ostatnich latach tworzenie obywatelskich (spo³ecznoœciowych) danych przestrzennych przez u¿yt-kowników Internetu, niebêd¹cych profesjonalistami w tym zakresie, jest coraz bardziej popularne. Œwiadczy o tym równie¿ rosn¹ca liczba inicjatyw opartych o dane zbierane na zasadzie crowdsourcin-gu (ang. crowd – t³um, ang. sourcing – czerpanie). Przyczynia siê to do wzrostu œwiadomoœci spo-³ecznej dotycz¹cej danych geoprzestrzennych. Celem artyku³u by³o zbadanie jakie cechy spo³eczeñ-stwa wp³ywaj¹ na zaanga¿owanie obywateli w tworzenie VGI (ang. volunteered geographic informa-tion) w Polsce. Do jego realizacji wykorzystano dane z projektu OpenStreetMap oraz dane charak-teryzuj¹ce spo³eczeñstwo pozyskane z G³ównego Urzêdu Statystycznego. By³y to miêdzy innymi: po-ziom wykszta³cenia, miesiêczne wynagrodzenie, wspó³czynnik feminizacji. Pierwszym etapem by³o okreœlenie stopnia korelacji miêdzy danymi opisuj¹cymi spo³eczeñstwo a danymi pozyskanymi w projekcie OpenStreetMap w podziale na powiaty. Nastêpnie dla najbardziej skorelowanych zmien-nych u³o¿ono modele regresji wielorakiej i regresji wa¿onej geograficznie (GWR), co pozwoli³o na wyznaczenie tych cech spo³eczeñstwa, które mia³y istotny wp³yw na pozyskiwanie VGI w Polsce.

Abstract

In recent years, the creation of volunteered geographic information (VGI) by Internet users, who are not professionals in this area is becoming increasingly popular. There is also a growing number of initiatives based on the data collected on the basis of crowdsourcing. This contributes to increase of the public awareness of geospatial data. The aim of the paper was to examine what features of society affect the involvement of citizens in creating VGI in Poland. To achieve this objective, data from the OpenStreetMap project and society data obtained from the Central Statistical Office (this included level of education, monthly salary, the feminisation rate) were used. The first stage was to determine the degree of correlation between the data describing the society, and the OpenStreetMap data divided into districts. Then, for the most correlated variables multiple regression and geographically weighted regression (GWR) models were arranged, which allowed the determination of the characteristics of a society that had a significant effect on the acquisition of VGI in Poland.

Dane autora / Author details:

mgr in¿. Sylwia Marczak

https://orcid.org/0000-0002-7715-6009 sylwia.marczak1@gmail.com

Przes³ano /Received 22.11.2016 Zaakceptowano / Accepted 7.03.2017 Opublikowano / Published 30.06.2017

Cytaty

Powiązane dokumenty

Pomysłodawcą i organizatorem konkursu „Gry matematyczne” była pani Danuta Graczyk przy współpracy pani Justyny Dudek.. Konkurs adresowany był dla uczniów klas IV

W artykule zapro- ponowano wzory do obliczenia uzasadnionej ceny koncesji na poszukiwanie i rozpoznanie z³ó¿ oraz uzasadnionej ceny na u¿ytkowania z³ó¿ uwzglêdniaj¹cej

Przed- stawiono wyniki badañ zmian wydatku przyp³ywu wody z³o¿owej w zale¿noœci od wielkoœci wspó³czynnika pocz¹tkowej depresji oraz prawdopodobieñstwo uzyskania przyp³ywu

Wartoœci wspó³czynnika porowatoœci dla pokryw gliniastych mieszcz¹ siê w granicach od 0,17 do 0,35 (œrednio 0,28).Wartoœci wspó³czynnika porowatoœci dla zwietrzelin ziarnistych

L iteratu ra może teraz — co jednak nastąpi dopiero nieco później — pokusić się o wyciągnięcie z doświadczeń październikowych wniosków uogólniających,

Pobyt S tanisław a w Anglii pozw olił mu odebrać w ychow anie polityczne, zbliżyć się do najsłynniejszych i najcenniejszych ludzi owego czasu. M atka K onstancja

Odpowiedź, zawierającą konkluzję całego studium, można odnosić nie tylko do Fredry, ale i do Rymkiewicza, który prowokuje do postawienia mu podobnych py­ tań: kto

ACRL powołało Specjalny Zespół do spraw Standardów z Zakresu Alfabetyzacji Informacyjnej (Task Force on Information Litera- cy Competency Standards) w celu opracowania