VI. EKONOMETRYCZNA ANALIZA CZYNNIKÓW
2. Charakterystyka logitowego modelu ek onom etryczn ego
Modele zmiennych jakościowych3, nazywane również modelami dys
kretnego wyboru, są szeroko wykorzystywane w analizach rynku pracy.
Najprostszym rodzajem zmiennych jakościowych są zmienne binarne (dy- chotomiczne, dwumianowe), z reguły reprezentowane przez zmienne zero- -jedynkowe: zmiennej jakościow ej przechodzącej w stan „tak” lub pozosta
jącej w stanie „nie” przypisuje się odpowiednio wartości liczbowe „1” lub Ekonometryczna analiza czynników wpływających na aktywność...
Do opracowania niniejszego podrozdziału wykorzystano fragmenty rozdziału V książki autorki n t Ewaluacja szkoleń dla bezrobotnych w województw ie kujawsko-pomorskim , TNOiK, Toruń 2008.
3 W niniejszym opracowaniu wykorzystano następujące publikacje: A. Agresti, Categori
cal Data Analysis, John Wiley & Sons, New York 2002, s. 165-266 i 211-266; D. W. Hosmer,
Rozdział VI
„0”. Modele z endogeniczną zmienną zero-jedynkową nazywane są modela
mi dwumianowymi. Do ich budowy wykorzystuje się zazwyczaj mikroda- ne, a więc dane liczbowe opisujące pojedyncze jednostki badania. W bada
niach rynku pracy modele z endogeniczną zmienną binarną mogą posłużyć do opisu następujących relacji:
— uczestnictwo w rynku pracy w danym okresie: „pracujący” - „bezro
botny”, „bierny zawodowo” - „bezrobotny” albo „pracujący” - „bier
ny zawodowo” w zależności od cech socjoekonomicznych osoby;
— wybór określonego rodzaju programu rynku pracy: „szkolenie zawo
dowe” - „zatrudnienie subsydiowane” jako funkcja cech tych progra
mów oraz indywidualnych cech bezrobotnych;
— kategoria bezrobotnego: „długookresowo bezrobotny” - „krótkookre- sowo bezrobotny” w zależności od cech socjoekonomicznych bezro
botnych.
Przedmiotem podjętych badań je st ocena prawdopodobieństwa posia
dania przez osoby w wieku 4 5 + określonego statusu na rynku pracy, to znaczy statusu osoby pracującej, bezrobotnej lub biernej zawodowo w da
nym m om encie w zależności od socjoekonom icznych cech tych osób.
W związku zźtym w analizowanych modelach zmienną Y je s t zmienna bi
narna charakteryzująca status na rynku pracy badanej populacji w pewnym czasie. Jak już wspomniano, uczestnictwo w rynku pracy, a więc aktyw
ność lub bierność zawodową mogą determinować różnorodne czynniki spo
łeczno-demograficzne, takie jak płeć, wiek, stan cywilny, indywidualne ce
chy kapitału ludzkiego (np. poziom wykształcenia, umiejętności, doświad
czenie zawodowe, stan zdrowia) oraz uwarunkowania społeczne. Wszyst
kie te elementy mogą być zatem traktowane jako losowe zmienne obja
śniające, m ające wartości dyskretne. Zmienne objaśniające w modelach dys
kretnego wyboru przyjmują zwykle wartości z pewnego zakresu liczb na
turalnych. Liczby te reprezentują nazwy nadawane różnym odmianom da
nej zmiennej lub kategorie mierzalne z pewnego przedziału.
W modelach dwumianowych przedmiotem wyjaśniania je s t prawdo
podobieństwo Pj przyjm owania przez pew ną zm ienną y. jed n ej z dwóch możliwych wartości. Zakłada się, że R je s t funkcją wektora w artości zmien
nych objaśniających x, oraz wektora parametrów 0:
/ > =JP(ył = l) = F (xfp) (1)
gdzie: xf oraz p są wektorami kolumnowymi o (k +l)-elementach; kombinacja linio
w a x 7 P jest wskaźnikiem określającym zmienne, które wyjaśniają y , natomiast F jest funkcją rosnącą tego wskaźnika.
Ekonometryczna analiza czynników wpływających na aktywność...
W zależności od typu funkcji F rozróżnia się kilka typów modeli. Do najczęściej stosow anych modeli dwum ianowych należą: liniowy model prawdopodobieństwa, model logitowy oraz model probitowy.
Budowa modelu (1) przebiega w następujących etapach:
— dobór zmiennych objaśniających,
— estym acja wektora param etrów p na podstawie danych o wartościach zmiennych y oraz x
— weryfikacja jakości modelu,
— prognoza wartości Pr
Liniowy model prawdopodobieństwa (LMP) ma postać:
/>=F(xfP ) = xfp (2)
Dla tego modelu powinien być spełniony warunek: 0 < x f p < 1- Wa
runek ten wynika bezpośrednio z definicji prawdopodobieństwa. W prakty
ce LMP m a ograniczone zastosowanie, ponieważ czasami szacowane praw
dopodobieństwo Pj przyjmuje w artości spoza tego przedziału. Można poka
zać, że składnik losowy w LMP
y i = x f f i + £ i (3)
ma własność heteroskedastyczności4. Ze względu na niejednorodność wa
riancji składnika losowego do estym acji LMP należy używać uogólnionej metody najm niejszych kwadratów.
W modelu logitow ym funkcja F je s t dystrybuantą rozkładu logis
tycznego:
1 _ e x p ( x [ P)
p t = f (x; p ) = — = — ' 7 - A (X ; p ) (4) 1 + e x p ( - x , P ) 1 + e x p (x ; p)
Odpowiednie wartości funkcji odwrotnej do F dla tego modelu, czyli:
x fp = F - ( i > ) = l „ I A r (5)
4 Patrz W. H. Greene, Econometric Analysis, Macmillan Publishing Company, New York 1993, s. 637.
Rozdział VI
nazywa się logitami. Logit określa się również mianem log-odds, co oznacza logarytm szans, a dokładniej logarytm ilorazu szans. Logit je s t logarytmem ilorazu szans przyjęcia i nieprzyjęcia wartości 1 przez zmienną yr Jeśli szan
se są jednakow e (P. = 0,5), to logit równa się zeru, dla P > 0,5 logit jest dodatni, natom iast dla P < 0,5 je s t ujemny. Pomiędzy modelem logitowym a probitowym zachodzi prosta relacja: p, = (1,6,1,7) PproWt, dlatego w prak
tyce korzysta się z jednego z nich5.
Do estymacji modelu logitowego najczęściej używa się metody naj
w iększej w iarygodności (MNW). Podobnie ja k w yżej przyjm uje się, że P(y = l) = P , gdzie z = 1 n. Każda z n obserwacji je s t traktowana jako pojedyncza próba z dwumianowego rozkładu Bemoulliego z prawdopodo
bieństwem p = F ( x f p > Dla n-elementowej próby {y r, xn, ..., xj)t} , i = 1, n niezależnych obserwacji funkcja wiarygodności ma następującą postać:
1=n ^ n i
y = l y = 01 - ^ =n [f(x'p)]"' r
1=11 - p)^ w
a logarytm funkcji wiarygodności równa się:
ln L = X {y t ln F ( x f P) + (1 - y ,) ln(l - F ( x f P )]} (7) i=i
Przyrównując wektor pochodnych logarytmu funkcji wiarygodności do wektora zerowego, otrzymuje się następujący układ Jc+1 warunków pierw
szego rzędu na poszukiwane maksimum:
3 l n L X “-’ r A / T n \ i
~A (x . = 0 (8)
op ,=l
gdzie A (xf P) zdefiniowano w (4).
Hesjan z układu warunków drugiego rzędu je s t m acierzą ujemnie określoną. Nieliniowy względem p układ równań (8) rozwiązuje się
iteracyj-5 M. Gruszczyński, op.cit., s. 19.
Ekonometryczna analiza czynników wpływających na aktywność...
nymi metodami numerycznymi (np. metodą Newtona-Raphsona). W rezul
tacie otrzymuje się w artość estym atora MNW dla wektora p, którą oznacza się jako bMNW. Estymatory MNW są zgodne, m ają asymptotyczny rozkład normalny i są asymptotycznie najefektywniejsze. Metodę MNW stosuje się zatem dla dostatecznie dużych prób. Dane analizowane w tej pracy speł
niają ten warunek.
Do weryfikacji jakości modelu logitowego można użyć szeregu proce
dur statystycznych. Istotność pojedynczych parametrów testuje się za po
mocą asymptotycznego testu t-Studenta lub testu Walda.
Test t-Studenta pozwala na sprawdzenie hipotezy H 0 \ ( i ] = 0 obli
czając statystykę Z daną wyrażeniem:
Statystyka Z ma w przybliżeniu rozkład normalny dla dużej próby.
Alternatywnie, można stosować statystykę Z podniesioną do kwadratu, któ
ra ma w przybliżeniu rozkład x c-kwadrat z jednym stopniem swobody.
W literaturze dostępny je s t szereg miar dopasowania modelu logito
wego do danych dychotomicznych. W istocie rzeczy są to rozmaite odpo
wiedniki współczynnika determinacji R-kwadrat. Poniżej przedstawiono tyl
ko te, które są używane w tym opracowaniu.
R-kwadrat Efrona wyraża się wzorem6:
gdzie: n 0 oraz n x są liczebnościami przypadków, dla których odpowiednio y = 0 oraz y = 1, n jest liczebnością próby.
R-kwadrat McFaddena wykorzystuje w artość funkcji wiarygodności.
Wzór ma postać:
Z =
( 9 )
6 J. S. Long, J. Freese, op.cit., s. 6-9 .
Rozdział VI
RM C Fadden _ j _ ln Lur
ln L P
gdzie: L URoznacza w artość funkcji wiarygodności dla pełnego modelu, L Rdla mo
delu z wyzerowanymi parametrami poza wyrazem wolnym.
R-kwadrat McFaddena nosi również nazwę pseudo-R-kwadrat.
R-kwadrat Cragga-Uhlera występuje w dwóch wersjach. Pierwsza to R-kwadrat postaci7:
R-kwadrat McKelvey-Zavoina zdefiniowany je s t na podstawie modelu ze zmienną ukrytą y * o postaci9:
(14)
W ykorzystując zależność Var(y ) — P Var(x)P zaproponowali oni następujący wzór:
Ekonometryczna analiza czynników wpływających na aktywność...
2 _ V â r ( y )
deli w procesie eliminacji nieistotnych zmiennych objaśniających. Dla mo
delu M k zd ew iancją10 D ( M k ) BIC je s t zdefiniowane jako11:
Modele dwumianowe wykorzystuje się również do prognozowania wartości zmiennej objaśnianej Y. Na podstawie oszacowanego modelu dwu
mianowego, przy danym wektorze wartości zmiennych objaśniających x, m ożna dokonać bezpośrednio prognozy (oceny) praw dopodobieństw a P(y, = 1) = P. Prognoza wartości P pozwala na otrzymanie prognozy warto
ści y., zwanej także mikroprognozą, czyli prognozą dla pojedynczej jednostki obserwacji. W tym przypadku prognozę należy rozumieć nie jako przewidy
wanie przyszłych zdarzeń, lecz jako ocenę stanu zmiennej jakościowej spo
rządzoną na podstawie danych przekrojowych. W takim znaczeniu prognoza odnosi się do pewnej jednostki obserwacji, a nie do jednostki czasu. W ni
niejszej pracy prognozą je st ocena, czy dany bezrobotny podejmie po prze
szkoleniu pracę. Mikroprognozy dotyczą przeważnie jednostek w próbie, ale mogą być tworzone również dla jednostek spoza próby. W tym sensie pro
gnozy tego typu powinny ułatwiać podejmowanie decyzji związanych na przykład z prawidłowym doborem uczestników szkoleń dla bezrobotnych.
Do oceny trafności prognozy wykorzystuje się tzw. tablicę trafności złożoną z czterech pól, w których zamieszcza się liczby przypadków z traf
nymi prognozami oraz liczby przypadków prognoz nietrafnych (tab. 1).
7 Ibidem.
8 Ibidem.
9 Ibidem.
10 Ibidem.
11 Ibidem.
Tabela 1. Tablica trafności
Źródło: M. Gruszczyński, Modele i prognozy zmiennych jakościow ych w finansach i bankowości, SGH, Warszawa 2002, s. 79.
Za pomocą tablicy trafności można wyznaczyć rozmaite miary dokład
ności prognozy, które są jednocześnie uzupełnieniem mierników dopaso
wania modelu dychotomicznego. Trafność prognozowania poszczególnych wartości oblicza się według następujących formuł:
— dla y . = 1 jako n j n . v
— dla y t = 0 jako n j n . 0.
Dokładność prognozy można sprawdzić również posługując się ilora
zem trafień, który je s t zapisany wzorem:
«01 ' »10
Wielkość (17) większa od 1 wskazuje, że klasyfikacja uzyskana na pod
stawie modelu je s t lepsza od klasyfikacji całkowicie przypadkowej.
R-kwadrat zliczeniowy mierzy udział w łaściw ych predykcji mode
lu w łącznej liczbie przypadków i je st wyrażony wzorem:
R 2 Count = - Y n¿ _ j (18)V
n j
gdzie: ,, jest liczbą właściwych predykcji dla zdarzenia j.
i i
R-kwadrat zliczeniowy może dawać błędne wyobrażenie o własno
ściach predykcyjnych modelu. W związku z tym używa się także jego wer
sji skorygowanej. R-kwadrat zliczeniowy skorygowany wyraża się
wzorem-Ekonometryczna analiza czynników wpływających na aktywność...
r r _ ’ n oo
~ n ~ ^ T“ 01 ,lio <19)
gdzie: n r+ jest wartością marginalną dla wiersza r.