Oszacowanie wartości na diagonali - Oszacowanie macierzy migracji dla roku 2011

Rozdział 4. Oszacowanie macierzy migracji dla roku 2011

4.1. Oszacowanie wartości na diagonali

OGÓLNE PODEJŚCIE ORAZ STRUKTURA POPULACJI

W podrozdziale tym oszacowana zostanie liczba ludności pracującej w gminie zamieszkania (z podziałem na część miejską i wiejską). Wartości te szacowane są jako różnica pomiędzy liczbą osób pracujących w danej gminie i liczbą ludności przyjeżdżającej do pracy. Ponieważ liczba ludności pracującej w przekroju gmin jest znana dla roku 2011, wystarczy oszacować liczbę ludności przyjeżdżającej do pracy w danej gminie. W tym celu podjęta zostanie konstrukcja modelu dla roku 2006, w którym objaśnione zostaną znane dla tego roku liczby osób przyjeżdżających do pracy. Następnie, w myśl sformułowanego założenia o stałości w czasie, zależności pomiędzy przyjazdami do pracy oraz zmiennymi objaśniającymi, skonstruowany model zostanie wykorzystany dla oszacowania liczby przyjeżdżających do pracy w 2011 r. Ponieważ jednostki bazowe utożsamiać można z jednostkami podziału administracyjnego kraju, ich struktura jest wielopoziomowa. W związku z tym spełniony jest warunek konieczny konstrukcji modelu trzypoziomowego, w którym jednostki poziomu pierwszego

124

określone są jako gminy z podziałem na część miejską i wiejską, jednostki drugiego poziomu jako powiaty, zaś jednostki poziomu trzeciego jako województwa.

ZMIENNA OBJAŚNIANA

Celem postępowania jest oszacowanie liczby przyjeżdżających do pracy. Ze względu na duże zróżnicowanie wielkości gmin (mierzonej liczbą ludności), zapewnienie porównywalności pod względem stopnia rozwoju gospodarczego regionów, aktywności ekonomicznej ludności czy intensywności dojazdów do pracy, wymaga zastosowania wielkości względnych. Można je traktować jako pewnego rodzaju mierniki sytuacji społeczno-gospodarczej, które różnią się znacznie pomiędzy jednostkami podziału administracyjnego. Zatem w konstruowanym modelu zmienną objaśnianą (Yi) zdefiniowano jako udział przyjeżdżających do pracy wśród wszystkich pracujących w badanej gminie (dalej zmienna ta nazywana jest natężeniem przyjazdów). Jak podają w swojej pracy P.Korcelli, A.Potrykowska i D.Bodzak (1981), wskaźnik ten jest miarą stopnia przestrzennej koncentracji działalności gospodarczej i społecznej, rozpatrywanej w odniesieniu do podaży czynników pracy. Autorzy powyższego opracowania wskazują między innymi, że poziom natężenia przyjazdów różnił się istotnie pomiędzy ówczesnymi województwami (por. Korcelli, Potrykowska, Bodzak, 1981). Ze względu na postać wykorzystywanej w dalszej procedurze macierzy migracji, po zakończeniu oszacowań otrzymane wartości przemnożone zostały przez wartości mianownika, odpowiadające liczbie pracujących w danej gminie, które znane są ze sprawozdawczości, również dla roku 2011.

ZMIENNE OBJAŚNIAJĄCE

W dalszej kolejności podjęto próbę doboru zmiennych objaśniających do modelu. Powinien być to zestaw charakterystyk w jak największym stopniu opisujących sytuację na rynku pracy. W literaturze podaje się, że w jego skład powinny wchodzić zmienne określające zarówno popyt jak i podaż pracy (por. Gołata, 2004). Na podstawie literatury, w rozdziale pierwszym wskazano szereg czynników, którym w tym miejscu przypisana zostanie rola potencjalnych zmiennych objaśniających sytuację na rynku pracy. Zostaną one wykorzystane podczas konstrukcji modelu szacowania liczby przyjeżdżających do pracy. Przedstawiając zestaw 39 potencjalnych zmiennych objaśniających, uwzględniono strukturę wielopoziomową jednostek podziału administracyjnego, tj. przekrój gmin, powiatów i województw (por. tab. 4.1, 4.2, 4.3). Odzwierciedla to sposób zapisu

125

zmiennych, w których symbolach użyto dwóch subskryptów: pierwszy indeks określa poziom podziału terytorialnego (gmina=1, powiat=2, województwo=3), natomiast drugi indeks wskazuje kolejny numer zmiennej. Wyodrębniono pięć grup czynników, z których pierwsze trzy opisują rynek pracy z uwzględnieniem strony podażowej (pierwsza grupa), popytowej (druga grupa) i cen (trzecia grupa). Dwie pozostałe grupy czynników dotyczą odległości, na której podejmowane są dojazdy oraz położenia gmin.

Jako charakterystyki strony podażowej, zaproponowano stosunek osób pracujących do ludności w wieku produkcyjnym (X_,) i liczbę osób pracujących na kilometr kwadratowy (X_,6) w przekroju gmin, stosunek osób pracujących do ludności w wieku produkcyjnym (X_,#) w przekroju powiatów oraz: stosunek osób pracujących do ludności w wieku produkcyjnym (X_,), udział absolwentów publicznych uczelni wyższych wśród ludności w wieku produkcyjnym (X_,6) oraz udział absolwentów uczelni wyższych łącznie wśród ludności w wieku produkcyjnym (X_,) w przekroju województw. Ponadto na poziomie gmin rozważono zmienną określoną jako liczba osób w wieku produkcyjnym na kilometr kwadratowy (X_,7).

Z kolei strona popytowa opisana została przy pomocy udziału bezrobotnych wśród ludności w wieku produkcyjnym określonego dla gmin²⁶, powiatów i województw (odpowiednio X_,, X_,, X_,). Charakterystyka strony popytowej ujęta została także przy pomocy natężenia różnych rodzajów przedsiębiorstw w gminach (por. tab. 4.1), udziału osób pracujących w warunkach zagrożenia wśród wszystkich pracujących (X_,:) w przekroju powiatów oraz nakładów na działalność innowacyjną w przedsiębiorstwach przemysłowych i łącznie w tys. zł na osobę w wieku produkcyjnym (odpowiednio X_,,

X_,:) w przekroju województw.

Trzecia grupa potencjalnych zmiennych objaśniających opisuje cenę pracy. Została ona określona przez średnie wynagrodzenie²⁷ obliczone w przekroju powiatów oraz województw (odpowiednio X_,, X_,).

26 Należy zaznaczyć, że ta charakterystyka bezrobocia wyznaczona została dla gmin bez podziału na część miejską i wiejską. Ponieważ w literaturze dotyczącej modelowania wielopoziomowego nie zaleca się tworzenia poziomu, którego jednostki zawierają po dwie lub mniej jednostek poziomu niższego, wartości omawianej charakterystyki bezrobocia, przypisano zarówno części miejskiej i wiejskiej w przypadku gmin charakteryzujących się takim podziałem.

Stosunek sumy wynagrodzeń osobowych brutto, honorariów wypłaconych niektórym grupom pracowników za prace wynikające z umowy o pracę, wypłat z tytułu udziału w zysku lub w nadwyżce

126

Tabela 4.1. Współczynniki korelacji liniowej Pearsona między udziałem przyjeżdżających do pracy a potencjalnymi zmiennymi objaśniającymi, poziom gmin, 2006

Symbol

zmiennej¹ ^{Nazwa zmiennej} ^r^xy

X, Odległość od najbliższego z ośrodków centralnych -0,2722 X, ^{Liczba przedsiębiorstw z sekcji D zarejestrowanych w REGON na osobę w wieku}

produkcyjnym ^0,2245

X, Udział bezrobotnych wśród ludności w wieku produkcyjnym -0,1971 X, ^{Liczba osób fizycznych prowadzących działalność gospodarczą na osobę w wieku}_produkcyjnym ^0,1758

X, ^{Liczba przedsiębiorstw z sektora prywatnego na osobę w wieku produkcyjnym} ^0,1731

X,# ^{Liczba przedsiębiorstw zarejestrowanych w REGON na osobę w wieku}_produkcyjnym 0,1636 X,6 ^{Liczba przedsiębiorstw z sekcji I zarejestrowanych w REGON na osobę w wieku}_produkcyjnym ^0,1634

X,7 ^{Liczba przedsiębiorstw z sekcji G zarejestrowanych w REGON na osobę w wieku}_produkcyjnym 0,1566 X,: ^{Liczba przedsiębiorstw z sekcji F zarejestrowanych w REGON na osobę w wieku}_produkcyjnym 0,1546 X, Stosunek liczby osób pracujących do ludności w wieku produkcyjnym 0,1501 X, Liczba spółek handlowych z sektora prywatnego na osobę w wieku produkcyjnym 0,1434

X, ^{Odległość od najbliższej stolicy województwa} ^-0,1108

X, ^{Liczba przedsiębiorstw z sekcji O zarejestrowanych w REGON na osobę w wieku}_produkcyjnym ^0,1035

X, ^{Liczba przedsiębiorstw z sekcji K zarejestrowanych w REGON na osobę w wieku}_produkcyjnym ^0,0656

X, ^{Liczba spółek handlowych z udziałem kapitału zagranicznego z sektora prywatnego}_{na osobę w wieku produkcyjnym} 0,0653 X,# ^{Liczba spółek handlowych z udziałem kapitału zagranicznego z sektora publicznego}_{na osobę w wieku produkcyjnym} 0,0608 X,6 ^{Liczba osób pracujących na kilometr kwadratowy} ^0,0112

X,7 Liczba osób w wieku produkcyjnym na kilometr kwadratowy -0,0105 Uwaga:

1 pierwszy indeks w symbolu zmiennej określa poziom podziału terytorialnego (gmina=1), natomiast drugi indeks wskazuje kolejny numer zmiennej

Źródło: Opracowanie własne na podstawie danych GUS

Atrakcyjność lokalizacji miejsca pracy została scharakteryzowana poprzez odległość²⁸ od dużych miast. W pierwszej kolejności dokonano wyboru ośrodków centralnych. W tym celu uwzględniono wszystkie miasta na prawach powiatu i uszeregowano je

bilansowej w spółdzielniach oraz dodatkowych wynagrodzeń rocznych dla pracowników jednostek sfery budżetowej do przeciętnej liczby zatrudnionych w danym okresie; po wyeliminowaniu osób wykonujących pracę nakładczą oraz zatrudnionych za granicą

(por. http://www.stat.gov.pl/gus/definicje_PLK_HTML.htm?id=POJ-1234.htm).

Uwzględniono odległość w kilometrach w linii prostej pomiędzy centroidami gmin, obliczoną przy pomocy programu R (por. Kopczewska, 2006).

127

w kolejności malejącej ze względu na liczbę osób zatrudnionych²⁹. W pierwszym kroku zbiór ośrodków centralnych zdefiniowano jako miasto o największej liczbie zatrudnionych. Następnie zbiór ten powiększano o kolejne miasta na prawach powiatu, uszeregowane także według liczby zatrudnionych. Dla tak zdefiniowanych w kolejnych etapach zbiorów wielkich miast badano korelację pomiędzy odległością a intensywnością wyjazdów do pracy. Następnie weryfikowano, dla którego ze zdefiniowanych zbiorów wielkich miast określonych w poszczególnych krokach, zależność pomiędzy odległością a intensywnością wyjazdów do pracy była najsilniejsza. Zgodnie z teorią Thunena głoszącą, że ośrodki centralne stymulują rozwój obszarów je otaczających, założono,

że odległość od nich powinna wpływać na nasilenie wyjazdów do pracy. Ostatecznie

wybrano zbiór wielkich miast, dla którego zależność korelacyjna była najsilniejsza. Według powyższego kryterium rolę ośrodków centralnych pełniły: Warszawa, Kraków, Poznań, Wrocław, Łódź, Katowice, Gdańsk, Częstochowa, Rzeszów, Gdynia, Bielsko-Biała, Tarnów, Tychy, Dąbrowa Górnicza, Zielona Góra, Jastrzębie-Zdrój, Nowy Sącz, Krosno, Piotrków Trybunalski, Jaworzno oraz Leszno (por. Gruchociak, 2012c). Jako pierwszą charakterystykę atrakcyjności lokalizacji miejsca pracy przyjęto więc małą odległość centrum gminy od najbliższego z wymienionych miast (X_,). Kolejną zmienną z tej kategorii zdefiniowano jako odległość centrum każdej gminy od najbliższej ze stolic województw (X_,). Zaproponowano także sześć zmiennych dotyczących sieci dróg gminnych i powiatowych w powiatach (por. tab. 4.2) oraz długości linii kolejowych (X_,). Ponadto wskazano trzy charakterystyki miejskiej komunikacji publicznej (X_,, X_,#, X_,7) w przekroju województw.

Z przedstawionego zespołu potencjalnych zmiennych objaśniających, zmienne wprowadzone do modelu wybrano stosując metodę regresji krokowej w przód, podczas kolejnych etapów jego konstrukcji. W celu przedstawienia relacji wybranych do modelu zmiennych objaśniających ze zmienną szacowaną, obliczono współczynniki korelacji liniowej Pearsona. Należy podkreślić, że współczynnik korelacji liniowej Pearsona przeznaczony jest do badania zależności pomiędzy zmiennymi określonymi dla tej samej populacji, tzn. gmin, powiatów, czy województw. Ujęcie relacji pomiędzy różnie zdefiniowanymi jednostkami powoduje tzw. paradoks Simpsona polegający

29 Wybrano liczbę osób zatrudnionych, ponieważ uznano, że charakteryzuje ona wielkość miasta, oraz jednocześnie uwzględnia w pewnym zakresie stopień rozwoju. Sama wielkość miasta mierzona liczbą mieszkańców nie świadczy bowiem o tym, że stymuluje ono rozwój otaczających je regionów.

128

na formułowania wniosków, jeśli dane z niejednorodnych populacji połączy się w całość i analizuje jakby pochodziły z jednej jednorodnej populacji (por. Klimanek, 2003). W przypadku obliczania współczynnika korelacji dla zmiennej objaśnianej z poziomu gmin oraz zmiennych objaśniających z poziomu powiatów czy województw konieczne było zintegrowanie tych zbiorowości. Zmienne z poziomu powiatów i województw przeistoczono sztucznie w zmienne określone na poziomie gmin przypisując każdej z nich wartości cech, odpowiadające powiatowi czy województwu, do którego dana gmina należała. W wyniku takiego postępowania należało się spodziewać, że wartości bezwzględne tak obliczonych współczynników korelacji liniowej Pearsona będą charakteryzowały się mniejszymi wartościami, niż analogiczne współczynniki dla par zmiennych określonych na tym samym poziomie gmin, co wynika chociażby z ich struktury zawierającej wiele duplikatów. W związku z tym wartości współczynnika korelacji liniowej Pearsona ze zmienną objaśnianą rozważono oddzielnie dla charakterystyk każdego z poziomów (por. tab. 4.1, 4.2, 4.3).

Tabela 4.2. Współczynniki korelacji liniowej Pearsona między udziałem przyjeżdżających do pracy a potencjalnymi zmiennymi objaśniającymi, poziom powiatów, 2006

Symbol

zmiennej¹ ^{Nazwa zmiennej} ^rxy

X, ^{Udział bezrobotnych wśród ludności w wieku produkcyjnym} ^-0,1686

X, Drogi gminne o nawierzchni twardej w kilometrach na km² 0,1453

X, Drogi gminne łącznie w kilometrach na km² 0,1356

X, ^{Drogi gminne o nawierzchni twardej ulepszonej w kilometrach na km}² ^0,1231

X, Drogi powiatowe o nawierzchni twardej ulepszonej w kilometrach na km² 0,1110 X,# Stosunek liczby osób pracujących do ludności w wieku produkcyjnym 0,1050 X,6 ^{Drogi powiatowe łącznie w kilometrach na km}² ^0,0965

X,7 Drogi powiatowe o nawierzchni twardej w kilometrach na km² 0,0963 X,: ^{Udział osób pracujących w warunkach zagrożenia wśród wszystkich pracujących} ^0,0903

X, Średnie wynagrodzenie 0,0559

Uwaga:

1 pierwszy indeks w symbolu zmiennej określa poziom podziału terytorialnego (powiat=2), natomiast drugi indeks wskazuje kolejny numer zmiennej

Źródło: Opracowanie własne na podstawie danych GUS

Wśród zmiennych określonych dla poziomu gmin najsilniej skorelowana z natężeniem przyjazdów do pracy była odległość od najbliższego ośrodka centralnego. Nieznacznie mniejszą korelację zmiennej objaśnianej stwierdzono z natężeniem przedsiębiorstw z sekcji D oraz udziałem osób bezrobotnych (por. tab. 4.1). Wśród charakterystyk określonych dla powiatów, najsilniejszą zależność z natężeniem przyjazdów do pracy

129

do gmin stwierdzono w przypadku udziału osób bezrobotnych. Zależność o nieco mniejszej sile stwierdzono w przypadku charakterystyk dróg gminnych (por. tab. 4.2). Udział osób bezrobotnych w przekroju województw również jest stosunkowo mocno skorelowany z natężeniem przyjazdów do pracy (por. tab. 4.3).

Tabela 4.3. Współczynniki korelacji liniowej Pearsona między udziałem przyjeżdżających do pracy a potencjalnymi zmiennymi objaśniającymi, poziom województw, 2006

Symbol

zmiennej¹ ^{Nazwa zmiennej} ^r^xy

X, Udział bezrobotnych wśród ludności w wieku produkcyjnym -0,1604 X, Stosunek liczby osób pracujących do ludności w wieku produkcyjnym 0,1466

X, Linie kolejowe normalnotorowe na 100 km² 0,1140

X, ^{Nakłady na działalność innowacyjną w przedsiębiorstwach przemysłowych w tys. zł}_{na osobę w wieku produkcyjnym} ^0,1055

X, Miejsca w wozach na 1000 ludności miast obsługiwanych przez komunikację 0,0750 X,# ^{Ludność w miastach obsługiwanych przez zakłady komunikacji miejskiej w %}_{ogółu ludności miast} 0,0735 X,6 ^{Udział absolwentów publicznych uczelni wyższych wśród ludności w wieku}_produkcyjnym 0,0657 X,7 ^{Miejsca w wozach komunikacji miejskiej naziemnej na 1 osobę w wieku}_produkcyjnym ^0,0606

X,: Nakłady na działalność innowacyjną w tys. zł na osobę w wieku produkcyjnym. 0,0387 X, Udział absolwentów uczelni wyższych wśród ludności w wieku produkcyjnym 0,0316

X, ^{Średnie wynagrodzenie} ^0,0299

Uwaga:

1 pierwszy indeks w symbolu zmiennej określa poziom podziału terytorialnego (województwo=3), natomiast drugi indeks wskazuje kolejny numer zmiennej

Źródło: Opracowanie własne na podstawie danych GUS WERYFIKACJA ZAŁOŻEŃ

Konstrukcję modelu wielopoziomowego rozpoczęto od weryfikacji hipotezy o wielopoziomowej strukturze szacowanej zmiennej. Przypuszczenie to zweryfikowano przy zastosowaniu testu analizy wariancji. Tak więc hipoteza zerowa głosiła, że średni poziom zmiennej objaśnianej różni się w zależności od przynależności do grup utworzonych przez jednostki wyższych poziomów. Jak zauważono wcześniej, szacowana zmienna opisuje aktywność zawodową, która jest uwarunkowana czynnikami ekonomicznymi zróżnicowanymi w przekroju powiatów. W związku z tym istnieją przesłanki merytoryczne, aby podejrzewać, że średni poziom zmiennej objaśnianej różni się pomiędzy jednostkami podziału administracyjnego.

W pierwszej kolejności przeanalizowano zróżnicowanie poziomu natężenia przyjazdów do pracy w przekroju gmin w ramach powiatów (por. wykres 4.1). Średni poziom badanej

130

zmiennej w grupach gmin różni się znacznie pomiędzy powiatami. Najniższy średni poziom przyjazdów do pracy odnotowano w gminie na prawach powiatu, miasto

Świnoujście, wynosił on 0,07. Oznacza to, że zaledwie 7% pracujących na terenie miasta Świnoujścia mieszkało poza gminą zatrudnienia. Z kolei w gminach powiatu słupeckiego, średni poziom zmiennej objaśnianej wynosił aż 0,85, co oznacza, że aż 85% osób

pracujących na terenie tego powiatu mieszkało poza gminą zatrudnienia (por. wykres 4.1). Statystyczną istotność omawianego zróżnicowania zweryfikowano przy pomocy testu analizy wariancji (por. Krzyśko, 1996). W tym celu sformułowano następujący układ hipotez:

(₍^w^: ) ^{= ⋯ = )}

+,-: ~(_w S (4.1) gdzie:

._/ – średnia wartość natężenia przyjazdów do pracy w gminach należących do j-tego powiatu, j=1,…,379.

Obliczono statystykę testową o następującej postaci:

0 = ∑²₁Ô1¦Í1±Í§ 2± ∑²₁∑^Ô1₃¦Í31±Í1§ Ô±2 = , +45 (4.2) gdzie:

6 – średni poziom natężenia przyjazdów do pracy w j-tym powiecie, j=1,…,379.

Wykres 4.1. Rozkład średniego natężenia przyjazdów do pracy w gminach, przekrój

powiatów, Polska, 2006

131

Na podstawie powyższej wartości statystyki testowej, należy na praktycznie dowolnym poziomie istotności (p-value <2,2e-16) odrzucić hipotezę zerową. Zatem można twierdzić, że występuje statystycznie istotne zróżnicowanie powiatów ze względu na średnią wartość szacowanej zmiennej. Upoważnia to do przyjęcia założenia o dwupoziomowej strukturze udziału przyjeżdżających do pracy i konstrukcji modelu dwupoziomowego, w którym jednostka drugiego poziomu zmiennej Y, zdefiniowana jest jako powiat.

Następnie rozważono występowanie zróżnicowania poziomu natężenia przyjazdów do pracy w przekroju gmin w ramach województw (por. wykres 4.2). Najniższy średni poziom badanej zmiennej odnotowano w gminach województwa podlaskiego, wynosił on 0,22, co znaczy, że 22% pracujących w tym województwie mieszkało poza gminą zatrudnienia. Z kolei w gminach województwa wielkopolskiego średni poziom zmiennej objaśnianej wynosił aż 0,41. Oznacza to, że aż 41% osób pracujących w Wielkopolsce, czyli prawie dwukrotnie więcej niż w przypadku województwa podlaskiego, mieszkało poza gminą zatrudnienia (por. wykres 4.2). W celu sprawdzenia statystycznej istotności omawianego zróżnicowani posłużono się ponownie testem analizy wariancji. Weryfikacji poddano następujący układ hipotez:

(w: )= ⋯ = )₄

(: ~(_w S (4.3) gdzie:

._/ – średnia wartość natężenia przyjazdów do pracy w gminach należących do j-tego województwa, j=1,…,16.

Obliczono statystykę testową następującej postaci:

7 = ∑⁴/8/¦m/±m§ 9± ∑⁹_/∑_:^8/ ¦m:/±m/§ 8±9 = 5, +,; (4.4) gdzie:

6 – średni poziom natężenia przyjazdów do pracy w j-tym województwie,

132

W przypadku podziału na województwa, tak jak w przekroju powiatów, na praktycznie dowolnym poziomie istotności (p-value <2,2e-16) można twierdzić, że występuje zróżnicowanie ze względu na średnią wartość natężenia przyjazdów w gminach. Upoważnia to do przyjęcia założenia o trzypoziomowej strukturze danych oraz do podjęcia próby konstrukcji modelu trzypoziomowego objaśniającego wartości zmiennej Y, gdzie jednostka drugiego poziomu zdefiniowana jest jako powiat, zaś jednostka poziomu trzeciego jako województwo.

Wykres 4.2. Średnie natężenie przyjazdów do pracy w gminach, przekrój województw,

Polska, 2006

Źródło: Opracowanie własne na podstawie danych GUS KONSTRUKCJA MODELU

W konstrukcji modelu trzypoziomowego uwzględniono wszystkie etapy komplikacji opisane w podrozdziale 3.2 wraz z weryfikacją istotności poprawy dopasowania modelu po każdym kroku. Obliczenia wykonano przy pomocy autorskiego kodu napisanego w programie R 2.15.2 z wykorzystaniem biblioteki lme4³⁰ (por. Bates, 2010; Bates, 2013a; Bates, 2013b; Biecek, 2011). Parametry oszacowano zgodnie z metodą największej wiarogodności. Przed rozpoczęciem obliczeń wartości wszystkich zmiennych objaśniających zostały scentrowane, poprzez odjęcie średniej globalnej. Wartości zmiennej objaśnianej nie poddano centrowaniu.

30 Linear mixed-effects models using S4 classes 0,34 0,27_0,26 0,32^0,34 0,38 0,32 0,31 0,36 0,22 0,30^0,32 0,37 0,23 0,41 0,26 0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45

133 KLASYCZNA REGRESJA LINIOWA

W celu oceny wyników modelu wielopoziomowego, wyznaczone zostały dwie funkcje klasycznej regresji liniowej, które traktowano jako punkt odniesienia w porównaniach. Pierwsza z nich (w dalszym ciągu podrozdziału indeksowana jako etap 0.0) nie uwzględniała żadnych zmiennych objaśniających:

Y = β_,, + r_,r~Nv0; 0,04198& , (4.5)

Szacowanie natężenia przyjazdów do pracy przy pomocy powyższego modelu sprowadza się do przypisania każdej gminie średniej wartości tej zmiennej. Model ten wyznaczony został tylko i wyłącznie w celu porównania w późniejszych etapach, jest on słabej jakości (por. tab. 4.5). Z oszacowanych parametrów wynika, że średnie natężenie przyjazdów do pracy w gminach w 2006 roku wynosiło w Polsce około 32% (por. tab.4.4).

Tabela 4.4. Ocena parametru strukturalnego oraz błędu standardowego szacunku,

klasyczny model regresji liniowej natężenia przyjazdów do pracy bez zmiennych objaśniających, Polska, 2006 (wzór 4.5)

Parametr β,,

Współczynnik regresji 0,321149 Błąd standardowy szacunku 0,003702 Źródło: Opracowanie własne na podstawie danych GUS

Tabela 4.5. Wybrane kryteria oceny jakości dopasowania klasycznego modelu regresji

liniowej natężenia przyjazdów do pracy bez zmiennych objaśniających (wzór 4.5) Kryteria dopasowania

lnL AIC BIC

509,6189 -1015,238 -1003,183 Źródło: Opracowanie własne na podstawie danych GUS

W drugiej funkcji klasycznej regresji liniowej (w dalszej części podrozdziału indeksowanej jako etap 0.1), jako zmienne objaśniające przyjęto zmienne z pierwszego poziomu (por. tab. 4.1). Doboru zmiennych objaśniających dokonano przy zastosowaniu regresji krokowej w przód. Każdorazowo zmienne szeregowano w ten sposób, aby maksymalizować wiarogodność modelu i kolejno dołączano do modelu, dopóki test ilorazu wiarogodności wskazywał na istotną (na poziomie istotności 0,05) poprawę jakości modelu. Jako model wyjściowy przyjęto model bez zmiennych objaśniających opisany powyżej.

134

Y = ∑7 βX_,,

e + r_,r~Nv0; 0,04198& , (4.6) W tabeli 4.6 podano wartości współczynników stojących przy zmiennych, które uznane zostały za istotne zmienne objaśniające. Wartości pozostałych współczynników traktować można jako zera. Ponadto kolejność zmiennych objaśniających w tabeli jest konsekwencją kolejności dołączania ich do modelu w wyniku zastosowania procedury regresji krokowej w przód. Podobne podejście stosowane będzie w dalszej części tego podrozdziału oraz w podrozdziale 4.2.

Tabela 4.6. Oceny parametrów strukturalnych oraz błędów standardowych szacunku,

klasyczny model regresji liniowej natężenia przyjazdów do pracy, Polska, 2006 (wzór 4.6) Parametr β,, β,, β,, β,, β7,, β6,, β,, β,, Zmienna - X, X, X, X,7 X,6 X, X, Współczynnik regresji ^0,3211 ^-0,0008 ^2,6160 ^0,1164 ^-0,0001 ^2,0240 ^-0,0031 ^0,4352 Błąd standardowy szacunku ^0,0034 ^0,0001 ^0,5014 ^0,0204 ^0,0000 ^1,0800 ^0,0008 ^0,1489 Źródło: Opracowanie własne na podstawie danych GUS

Warto zauważyć, że w pierwszej kolejności do modelu wprowadzone zostały dwie zmienne najsilniej skorelowane z natężeniem przyjazdów, czyli odległość od ośrodków centralnych oraz natężenie przedsiębiorstw z sekcji D. W następnej kolejności dodany został wskaźnik zatrudnienia, który był stosunkowo słabo skorelowany ze zmienną objaśnianą. Stało się tak, ponieważ wskaźnik ten był jednocześnie słabiej skorelowany z dwiema pierwszymi zmiennymi wprowadzonymi do modelu, niż pozostałe potencjalne zmienne objaśniające, przez co wnosił do modelu nowe informacje.

Otrzymane współczynniki można interpretować następująco. Wyraz wolny (tab. 4.6,

β_,, _{) to wartość natężenia przyjazdów w gminie o przeciętnych wartościach wszystkich} zmiennych objaśniających. Zatem współczynnik ten nie uległ zmianie w stosunku do modelu bez zmiennych objaśniających (por. tab. 4.4 i 4.6). Zwiększenie odległości

W dokumencie Delimitacja lokalnych rynków pracy w Polsce z wykorzystaniem modelowania wielopoziomowego (Stron 123-153)