Charakterystyka logitowego modelu ek onom etryczn ego

VI. EKONOMETRYCZNA ANALIZA CZYNNIKÓW

2. Charakterystyka logitowego modelu ek onom etryczn ego

Modele zmiennych jakościowych3, nazywane również modelami dys

kretnego wyboru, są szeroko wykorzystywane w analizach rynku pracy.

Najprostszym rodzajem zmiennych jakościowych są zmienne binarne (dy- chotomiczne, dwumianowe), z reguły reprezentowane przez zmienne zero- -jedynkowe: zmiennej jakościow ej przechodzącej w stan „tak” lub pozosta

jącej w stanie „nie” przypisuje się odpowiednio wartości liczbowe „1” lub Ekonometryczna analiza czynników wpływających na aktywność...

Do opracowania niniejszego podrozdziału wykorzystano fragmenty rozdziału V książki autorki n t Ewaluacja szkoleń dla bezrobotnych w województw ie kujawsko-pomorskim , TNOiK, Toruń 2008.

3 W niniejszym opracowaniu wykorzystano następujące publikacje: A. Agresti, Categori

cal Data Analysis, John Wiley & Sons, New York 2002, s. 165-266 i 211-266; D. W. Hosmer,

Rozdział VI

„0”. Modele z endogeniczną zmienną zero-jedynkową nazywane są modela

mi dwumianowymi. Do ich budowy wykorzystuje się zazwyczaj mikroda- ne, a więc dane liczbowe opisujące pojedyncze jednostki badania. W bada

niach rynku pracy modele z endogeniczną zmienną binarną mogą posłużyć do opisu następujących relacji:

— uczestnictwo w rynku pracy w danym okresie: „pracujący” - „bezro

botny”, „bierny zawodowo” - „bezrobotny” albo „pracujący” - „bier

ny zawodowo” w zależności od cech socjoekonomicznych osoby;

— wybór określonego rodzaju programu rynku pracy: „szkolenie zawo

dowe” - „zatrudnienie subsydiowane” jako funkcja cech tych progra

mów oraz indywidualnych cech bezrobotnych;

— kategoria bezrobotnego: „długookresowo bezrobotny” - „krótkookre- sowo bezrobotny” w zależności od cech socjoekonomicznych bezro

botnych.

Przedmiotem podjętych badań je st ocena prawdopodobieństwa posia

dania przez osoby w wieku 4 5 + określonego statusu na rynku pracy, to znaczy statusu osoby pracującej, bezrobotnej lub biernej zawodowo w da

nym m om encie w zależności od socjoekonom icznych cech tych osób.

W związku zźtym w analizowanych modelach zmienną Y je s t zmienna bi

narna charakteryzująca status na rynku pracy badanej populacji w pewnym czasie. Jak już wspomniano, uczestnictwo w rynku pracy, a więc aktyw

ność lub bierność zawodową mogą determinować różnorodne czynniki spo

łeczno-demograficzne, takie jak płeć, wiek, stan cywilny, indywidualne ce

chy kapitału ludzkiego (np. poziom wykształcenia, umiejętności, doświad

czenie zawodowe, stan zdrowia) oraz uwarunkowania społeczne. Wszyst

kie te elementy mogą być zatem traktowane jako losowe zmienne obja

śniające, m ające wartości dyskretne. Zmienne objaśniające w modelach dys

kretnego wyboru przyjmują zwykle wartości z pewnego zakresu liczb na

turalnych. Liczby te reprezentują nazwy nadawane różnym odmianom da

nej zmiennej lub kategorie mierzalne z pewnego przedziału.

W modelach dwumianowych przedmiotem wyjaśniania je s t prawdo

podobieństwo Pj przyjm owania przez pew ną zm ienną y. jed n ej z dwóch możliwych wartości. Zakłada się, że R je s t funkcją wektora w artości zmien

nych objaśniających x, oraz wektora parametrów 0:

/ > =JP(ył = l) = F (xfp) (1)

gdzie: xf oraz p są wektorami kolumnowymi o (k +l)-elementach; kombinacja linio

w a x 7 P jest wskaźnikiem określającym zmienne, które wyjaśniają y , natomiast F jest funkcją rosnącą tego wskaźnika.

Ekonometryczna analiza czynników wpływających na aktywność...

W zależności od typu funkcji F rozróżnia się kilka typów modeli. Do najczęściej stosow anych modeli dwum ianowych należą: liniowy model prawdopodobieństwa, model logitowy oraz model probitowy.

Budowa modelu (1) przebiega w następujących etapach:

— dobór zmiennych objaśniających,

— estym acja wektora param etrów p na podstawie danych o wartościach zmiennych y oraz x

— weryfikacja jakości modelu,

— prognoza wartości Pr

Liniowy model prawdopodobieństwa (LMP) ma postać:

/>=F(xfP ) = xfp (2)

Dla tego modelu powinien być spełniony warunek: 0 < x f p < 1- Wa

runek ten wynika bezpośrednio z definicji prawdopodobieństwa. W prakty

ce LMP m a ograniczone zastosowanie, ponieważ czasami szacowane praw

dopodobieństwo Pj przyjmuje w artości spoza tego przedziału. Można poka

zać, że składnik losowy w LMP

y i = x f f i + £ i (3)

ma własność heteroskedastyczności4. Ze względu na niejednorodność wa

riancji składnika losowego do estym acji LMP należy używać uogólnionej metody najm niejszych kwadratów.

W modelu logitow ym funkcja F je s t dystrybuantą rozkładu logis

tycznego:

1 _ e x p ( x [ P)

p t = f (x; p ) = — = — ' 7 - A (X ; p ) (4) 1 + e x p ( - x , P ) 1 + e x p (x ; p)

Odpowiednie wartości funkcji odwrotnej do F dla tego modelu, czyli:

x fp = F - ( i > ) = l „ I A r (5)

4 Patrz W. H. Greene, Econometric Analysis, Macmillan Publishing Company, New York 1993, s. 637.

Rozdział VI

nazywa się logitami. Logit określa się również mianem log-odds, co oznacza logarytm szans, a dokładniej logarytm ilorazu szans. Logit je s t logarytmem ilorazu szans przyjęcia i nieprzyjęcia wartości 1 przez zmienną yr Jeśli szan

se są jednakow e (P. = 0,5), to logit równa się zeru, dla P > 0,5 logit jest dodatni, natom iast dla P < 0,5 je s t ujemny. Pomiędzy modelem logitowym a probitowym zachodzi prosta relacja: p, = (1,6,1,7) PproWt, dlatego w prak

tyce korzysta się z jednego z nich5.

Do estymacji modelu logitowego najczęściej używa się metody naj

w iększej w iarygodności (MNW). Podobnie ja k w yżej przyjm uje się, że P(y = l) = P , gdzie z = 1 n. Każda z n obserwacji je s t traktowana jako pojedyncza próba z dwumianowego rozkładu Bemoulliego z prawdopodo

bieństwem p = F ( x f p > Dla n-elementowej próby {y r, xn, ..., xj)t} , i = 1, n niezależnych obserwacji funkcja wiarygodności ma następującą postać:

1=n ^ n i

_{y = l} _{y = 0}

1 - ^ =n [f(x'p)]"' r

₁₌₁

1 - p)^ w

a logarytm funkcji wiarygodności równa się:

ln L = X {y t ln F ( x f P) + (1 - y ,) ln(l - F ( x f P )]} (7) i=i

Przyrównując wektor pochodnych logarytmu funkcji wiarygodności do wektora zerowego, otrzymuje się następujący układ Jc+1 warunków pierw

szego rzędu na poszukiwane maksimum:

3 l n L X “-’ r A / T n \ i

~A (x . = 0 (8)

op ^,=l

gdzie A (xf P) zdefiniowano w (4).

Hesjan z układu warunków drugiego rzędu je s t m acierzą ujemnie określoną. Nieliniowy względem p układ równań (8) rozwiązuje się

iteracyj-5 M. Gruszczyński, op.cit., s. 19.

Ekonometryczna analiza czynników wpływających na aktywność...

nymi metodami numerycznymi (np. metodą Newtona-Raphsona). W rezul

tacie otrzymuje się w artość estym atora MNW dla wektora p, którą oznacza się jako bMNW. Estymatory MNW są zgodne, m ają asymptotyczny rozkład normalny i są asymptotycznie najefektywniejsze. Metodę MNW stosuje się zatem dla dostatecznie dużych prób. Dane analizowane w tej pracy speł

niają ten warunek.

Do weryfikacji jakości modelu logitowego można użyć szeregu proce

dur statystycznych. Istotność pojedynczych parametrów testuje się za po

mocą asymptotycznego testu t-Studenta lub testu Walda.

Test t-Studenta pozwala na sprawdzenie hipotezy H 0 \ ( i ] = 0 obli

czając statystykę Z daną wyrażeniem:

Statystyka Z ma w przybliżeniu rozkład normalny dla dużej próby.

Alternatywnie, można stosować statystykę Z podniesioną do kwadratu, któ

ra ma w przybliżeniu rozkład x c-kwadrat z jednym stopniem swobody.

W literaturze dostępny je s t szereg miar dopasowania modelu logito

wego do danych dychotomicznych. W istocie rzeczy są to rozmaite odpo

wiedniki współczynnika determinacji R-kwadrat. Poniżej przedstawiono tyl

ko te, które są używane w tym opracowaniu.

R-kwadrat Efrona wyraża się wzorem6:

gdzie: n 0 oraz n x są liczebnościami przypadków, dla których odpowiednio y = 0 oraz y = 1, n jest liczebnością próby.

R-kwadrat McFaddena wykorzystuje w artość funkcji wiarygodności.

Wzór ma postać:

Z =

( 9 )

6 J. S. Long, J. Freese, op.cit., s. 6-9 .

Rozdział VI

R_{M C Fadden} _ j _ ln Lur

ln L P

gdzie: L URoznacza w artość funkcji wiarygodności dla pełnego modelu, L Rdla mo

delu z wyzerowanymi parametrami poza wyrazem wolnym.

R-kwadrat McFaddena nosi również nazwę pseudo-R-kwadrat.

R-kwadrat Cragga-Uhlera występuje w dwóch wersjach. Pierwsza to R-kwadrat postaci7:

R-kwadrat McKelvey-Zavoina zdefiniowany je s t na podstawie modelu ze zmienną ukrytą y * o postaci9:

(14)

W ykorzystując zależność Var(y ) — P Var(x)P zaproponowali oni następujący wzór:

Ekonometryczna analiza czynników wpływających na aktywność...

2 _ V â r ( y )

deli w procesie eliminacji nieistotnych zmiennych objaśniających. Dla mo

delu M k zd ew iancją10 D ( M k ) BIC je s t zdefiniowane jako11:

Modele dwumianowe wykorzystuje się również do prognozowania wartości zmiennej objaśnianej Y. Na podstawie oszacowanego modelu dwu

mianowego, przy danym wektorze wartości zmiennych objaśniających x, m ożna dokonać bezpośrednio prognozy (oceny) praw dopodobieństw a P(y, = 1) = P. Prognoza wartości P pozwala na otrzymanie prognozy warto

ści y., zwanej także mikroprognozą, czyli prognozą dla pojedynczej jednostki obserwacji. W tym przypadku prognozę należy rozumieć nie jako przewidy

wanie przyszłych zdarzeń, lecz jako ocenę stanu zmiennej jakościowej spo

rządzoną na podstawie danych przekrojowych. W takim znaczeniu prognoza odnosi się do pewnej jednostki obserwacji, a nie do jednostki czasu. W ni

niejszej pracy prognozą je st ocena, czy dany bezrobotny podejmie po prze

szkoleniu pracę. Mikroprognozy dotyczą przeważnie jednostek w próbie, ale mogą być tworzone również dla jednostek spoza próby. W tym sensie pro

gnozy tego typu powinny ułatwiać podejmowanie decyzji związanych na przykład z prawidłowym doborem uczestników szkoleń dla bezrobotnych.

Do oceny trafności prognozy wykorzystuje się tzw. tablicę trafności złożoną z czterech pól, w których zamieszcza się liczby przypadków z traf

nymi prognozami oraz liczby przypadków prognoz nietrafnych (tab. 1).

7 Ibidem.

8 Ibidem.

9 Ibidem.

10 Ibidem.

11 Ibidem.

Tabela 1. Tablica trafności

Źródło: M. Gruszczyński, Modele i prognozy zmiennych jakościow ych w finansach i bankowości, SGH, Warszawa 2002, s. 79.

Za pomocą tablicy trafności można wyznaczyć rozmaite miary dokład

ności prognozy, które są jednocześnie uzupełnieniem mierników dopaso

wania modelu dychotomicznego. Trafność prognozowania poszczególnych wartości oblicza się według następujących formuł:

— dla y . = 1 jako n j n . v

— dla y t = 0 jako n j n . 0.

Dokładność prognozy można sprawdzić również posługując się ilora

zem trafień, który je s t zapisany wzorem:

«01 ' »10

Wielkość (17) większa od 1 wskazuje, że klasyfikacja uzyskana na pod

stawie modelu je s t lepsza od klasyfikacji całkowicie przypadkowej.

R-kwadrat zliczeniowy mierzy udział w łaściw ych predykcji mode

lu w łącznej liczbie przypadków i je st wyrażony wzorem:

R 2 _Count= - Y n_{¿ _ j} (18)_V

n j

gdzie: ,, jest liczbą właściwych predykcji dla zdarzenia j.

i i

R-kwadrat zliczeniowy może dawać błędne wyobrażenie o własno

ściach predykcyjnych modelu. W związku z tym używa się także jego wer

sji skorygowanej. R-kwadrat zliczeniowy skorygowany wyraża się

wzorem-Ekonometryczna analiza czynników wpływających na aktywność...

r r _ ’ n oo

~ n ~ ^ T“ 01 ,lio <19)

gdzie: n r+ jest wartością marginalną dla wiersza r.

W dokumencie DETERMINANTY AKTYWNOŚCI ZAWODOWEJ LUDZI STARSZYCH (Stron 177-183)