• Nie Znaleziono Wyników

Charakterystyka logitowego modelu ek onom etryczn ego

VI. EKONOMETRYCZNA ANALIZA CZYNNIKÓW

2. Charakterystyka logitowego modelu ek onom etryczn ego

Modele zmiennych jakościowych3, nazywane również modelami dys­

kretnego wyboru, są szeroko wykorzystywane w analizach rynku pracy.

Najprostszym rodzajem zmiennych jakościowych są zmienne binarne (dy- chotomiczne, dwumianowe), z reguły reprezentowane przez zmienne zero- -jedynkowe: zmiennej jakościow ej przechodzącej w stan „tak” lub pozosta­

jącej w stanie „nie” przypisuje się odpowiednio wartości liczbowe „1” lub Ekonometryczna analiza czynników wpływających na aktywność...

Do opracowania niniejszego podrozdziału wykorzystano fragmenty rozdziału V książki autorki n t Ewaluacja szkoleń dla bezrobotnych w województw ie kujawsko-pomorskim , TNOiK, Toruń 2008.

3 W niniejszym opracowaniu wykorzystano następujące publikacje: A. Agresti, Categori­

cal Data Analysis, John Wiley & Sons, New York 2002, s. 165-266 i 211-266; D. W. Hosmer,

Rozdział VI

„0”. Modele z endogeniczną zmienną zero-jedynkową nazywane są modela­

mi dwumianowymi. Do ich budowy wykorzystuje się zazwyczaj mikroda- ne, a więc dane liczbowe opisujące pojedyncze jednostki badania. W bada­

niach rynku pracy modele z endogeniczną zmienną binarną mogą posłużyć do opisu następujących relacji:

— uczestnictwo w rynku pracy w danym okresie: „pracujący” - „bezro­

botny”, „bierny zawodowo” - „bezrobotny” albo „pracujący” - „bier­

ny zawodowo” w zależności od cech socjoekonomicznych osoby;

— wybór określonego rodzaju programu rynku pracy: „szkolenie zawo­

dowe” - „zatrudnienie subsydiowane” jako funkcja cech tych progra­

mów oraz indywidualnych cech bezrobotnych;

— kategoria bezrobotnego: „długookresowo bezrobotny” - „krótkookre- sowo bezrobotny” w zależności od cech socjoekonomicznych bezro­

botnych.

Przedmiotem podjętych badań je st ocena prawdopodobieństwa posia­

dania przez osoby w wieku 4 5 + określonego statusu na rynku pracy, to znaczy statusu osoby pracującej, bezrobotnej lub biernej zawodowo w da­

nym m om encie w zależności od socjoekonom icznych cech tych osób.

W związku zźtym w analizowanych modelach zmienną Y je s t zmienna bi­

narna charakteryzująca status na rynku pracy badanej populacji w pewnym czasie. Jak już wspomniano, uczestnictwo w rynku pracy, a więc aktyw­

ność lub bierność zawodową mogą determinować różnorodne czynniki spo­

łeczno-demograficzne, takie jak płeć, wiek, stan cywilny, indywidualne ce­

chy kapitału ludzkiego (np. poziom wykształcenia, umiejętności, doświad­

czenie zawodowe, stan zdrowia) oraz uwarunkowania społeczne. Wszyst­

kie te elementy mogą być zatem traktowane jako losowe zmienne obja­

śniające, m ające wartości dyskretne. Zmienne objaśniające w modelach dys­

kretnego wyboru przyjmują zwykle wartości z pewnego zakresu liczb na­

turalnych. Liczby te reprezentują nazwy nadawane różnym odmianom da­

nej zmiennej lub kategorie mierzalne z pewnego przedziału.

W modelach dwumianowych przedmiotem wyjaśniania je s t prawdo­

podobieństwo Pj przyjm owania przez pew ną zm ienną y. jed n ej z dwóch możliwych wartości. Zakłada się, że R je s t funkcją wektora w artości zmien­

nych objaśniających x, oraz wektora parametrów 0:

/ > =JP(ył = l) = F (xfp) (1)

gdzie: xf oraz p są wektorami kolumnowymi o (k +l)-elementach; kombinacja linio­

w a x 7 P jest wskaźnikiem określającym zmienne, które wyjaśniają y , natomiast F jest funkcją rosnącą tego wskaźnika.

Ekonometryczna analiza czynników wpływających na aktywność...

W zależności od typu funkcji F rozróżnia się kilka typów modeli. Do najczęściej stosow anych modeli dwum ianowych należą: liniowy model prawdopodobieństwa, model logitowy oraz model probitowy.

Budowa modelu (1) przebiega w następujących etapach:

— dobór zmiennych objaśniających,

— estym acja wektora param etrów p na podstawie danych o wartościach zmiennych y oraz x

— weryfikacja jakości modelu,

— prognoza wartości Pr

Liniowy model prawdopodobieństwa (LMP) ma postać:

/>=F(xfP ) = xfp (2)

Dla tego modelu powinien być spełniony warunek: 0 < x f p < 1- Wa­

runek ten wynika bezpośrednio z definicji prawdopodobieństwa. W prakty­

ce LMP m a ograniczone zastosowanie, ponieważ czasami szacowane praw­

dopodobieństwo Pj przyjmuje w artości spoza tego przedziału. Można poka­

zać, że składnik losowy w LMP

y i = x f f i + £ i (3)

ma własność heteroskedastyczności4. Ze względu na niejednorodność wa­

riancji składnika losowego do estym acji LMP należy używać uogólnionej metody najm niejszych kwadratów.

W modelu logitow ym funkcja F je s t dystrybuantą rozkładu logis­

tycznego:

1 _ e x p ( x [ P)

p t = f (x; p ) = — = — ' 7 - A (X ; p ) (4) 1 + e x p ( - x , P ) 1 + e x p (x ; p)

Odpowiednie wartości funkcji odwrotnej do F dla tego modelu, czyli:

x fp = F - ( i > ) = l „ I A r (5)

4 Patrz W. H. Greene, Econometric Analysis, Macmillan Publishing Company, New York 1993, s. 637.

Rozdział VI

nazywa się logitami. Logit określa się również mianem log-odds, co oznacza logarytm szans, a dokładniej logarytm ilorazu szans. Logit je s t logarytmem ilorazu szans przyjęcia i nieprzyjęcia wartości 1 przez zmienną yr Jeśli szan­

se są jednakow e (P. = 0,5), to logit równa się zeru, dla P > 0,5 logit jest dodatni, natom iast dla P < 0,5 je s t ujemny. Pomiędzy modelem logitowym a probitowym zachodzi prosta relacja: p, = (1,6,1,7) PproWt, dlatego w prak­

tyce korzysta się z jednego z nich5.

Do estymacji modelu logitowego najczęściej używa się metody naj­

w iększej w iarygodności (MNW). Podobnie ja k w yżej przyjm uje się, że P(y = l) = P , gdzie z = 1 n. Każda z n obserwacji je s t traktowana jako pojedyncza próba z dwumianowego rozkładu Bemoulliego z prawdopodo­

bieństwem p = F ( x f p > Dla n-elementowej próby {y r, xn, ..., xj)t} , i = 1, n niezależnych obserwacji funkcja wiarygodności ma następującą postać:

1=n ^ n i

y = l y = 0

1 - ^ =n [f(x'p)]"' r

1=1

1 - p)^ w

a logarytm funkcji wiarygodności równa się:

ln L = X {y t ln F ( x f P) + (1 - y ,) ln(l - F ( x f P )]} (7) i=i

Przyrównując wektor pochodnych logarytmu funkcji wiarygodności do wektora zerowego, otrzymuje się następujący układ Jc+1 warunków pierw­

szego rzędu na poszukiwane maksimum:

3 l n L X “-’ r A / T n \ i

~A (x . = 0 (8)

op ,=l

gdzie A (xf P) zdefiniowano w (4).

Hesjan z układu warunków drugiego rzędu je s t m acierzą ujemnie określoną. Nieliniowy względem p układ równań (8) rozwiązuje się

iteracyj-5 M. Gruszczyński, op.cit., s. 19.

Ekonometryczna analiza czynników wpływających na aktywność...

nymi metodami numerycznymi (np. metodą Newtona-Raphsona). W rezul­

tacie otrzymuje się w artość estym atora MNW dla wektora p, którą oznacza się jako bMNW. Estymatory MNW są zgodne, m ają asymptotyczny rozkład normalny i są asymptotycznie najefektywniejsze. Metodę MNW stosuje się zatem dla dostatecznie dużych prób. Dane analizowane w tej pracy speł­

niają ten warunek.

Do weryfikacji jakości modelu logitowego można użyć szeregu proce­

dur statystycznych. Istotność pojedynczych parametrów testuje się za po­

mocą asymptotycznego testu t-Studenta lub testu Walda.

Test t-Studenta pozwala na sprawdzenie hipotezy H 0 \ ( i ] = 0 obli­

czając statystykę Z daną wyrażeniem:

Statystyka Z ma w przybliżeniu rozkład normalny dla dużej próby.

Alternatywnie, można stosować statystykę Z podniesioną do kwadratu, któ­

ra ma w przybliżeniu rozkład x c-kwadrat z jednym stopniem swobody.

W literaturze dostępny je s t szereg miar dopasowania modelu logito­

wego do danych dychotomicznych. W istocie rzeczy są to rozmaite odpo­

wiedniki współczynnika determinacji R-kwadrat. Poniżej przedstawiono tyl­

ko te, które są używane w tym opracowaniu.

R-kwadrat Efrona wyraża się wzorem6:

gdzie: n 0 oraz n x są liczebnościami przypadków, dla których odpowiednio y = 0 oraz y = 1, n jest liczebnością próby.

R-kwadrat McFaddena wykorzystuje w artość funkcji wiarygodności.

Wzór ma postać:

Z =

( 9 )

6 J. S. Long, J. Freese, op.cit., s. 6-9 .

Rozdział VI

RM C Fadden _ j _ ln Lur

ln L P

gdzie: L URoznacza w artość funkcji wiarygodności dla pełnego modelu, L Rdla mo­

delu z wyzerowanymi parametrami poza wyrazem wolnym.

R-kwadrat McFaddena nosi również nazwę pseudo-R-kwadrat.

R-kwadrat Cragga-Uhlera występuje w dwóch wersjach. Pierwsza to R-kwadrat postaci7:

R-kwadrat McKelvey-Zavoina zdefiniowany je s t na podstawie modelu ze zmienną ukrytą y * o postaci9:

(14)

W ykorzystując zależność Var(y ) — P Var(x)P zaproponowali oni następujący wzór:

Ekonometryczna analiza czynników wpływających na aktywność...

2 _ V â r ( y )

deli w procesie eliminacji nieistotnych zmiennych objaśniających. Dla mo­

delu M k zd ew iancją10 D ( M k ) BIC je s t zdefiniowane jako11:

Modele dwumianowe wykorzystuje się również do prognozowania wartości zmiennej objaśnianej Y. Na podstawie oszacowanego modelu dwu­

mianowego, przy danym wektorze wartości zmiennych objaśniających x, m ożna dokonać bezpośrednio prognozy (oceny) praw dopodobieństw a P(y, = 1) = P. Prognoza wartości P pozwala na otrzymanie prognozy warto­

ści y., zwanej także mikroprognozą, czyli prognozą dla pojedynczej jednostki obserwacji. W tym przypadku prognozę należy rozumieć nie jako przewidy­

wanie przyszłych zdarzeń, lecz jako ocenę stanu zmiennej jakościowej spo­

rządzoną na podstawie danych przekrojowych. W takim znaczeniu prognoza odnosi się do pewnej jednostki obserwacji, a nie do jednostki czasu. W ni­

niejszej pracy prognozą je st ocena, czy dany bezrobotny podejmie po prze­

szkoleniu pracę. Mikroprognozy dotyczą przeważnie jednostek w próbie, ale mogą być tworzone również dla jednostek spoza próby. W tym sensie pro­

gnozy tego typu powinny ułatwiać podejmowanie decyzji związanych na przykład z prawidłowym doborem uczestników szkoleń dla bezrobotnych.

Do oceny trafności prognozy wykorzystuje się tzw. tablicę trafności złożoną z czterech pól, w których zamieszcza się liczby przypadków z traf­

nymi prognozami oraz liczby przypadków prognoz nietrafnych (tab. 1).

7 Ibidem.

8 Ibidem.

9 Ibidem.

10 Ibidem.

11 Ibidem.

Tabela 1. Tablica trafności

Źródło: M. Gruszczyński, Modele i prognozy zmiennych jakościow ych w finansach i bankowości, SGH, Warszawa 2002, s. 79.

Za pomocą tablicy trafności można wyznaczyć rozmaite miary dokład­

ności prognozy, które są jednocześnie uzupełnieniem mierników dopaso­

wania modelu dychotomicznego. Trafność prognozowania poszczególnych wartości oblicza się według następujących formuł:

— dla y . = 1 jako n j n . v

— dla y t = 0 jako n j n . 0.

Dokładność prognozy można sprawdzić również posługując się ilora­

zem trafień, który je s t zapisany wzorem:

«01 ' »10

Wielkość (17) większa od 1 wskazuje, że klasyfikacja uzyskana na pod­

stawie modelu je s t lepsza od klasyfikacji całkowicie przypadkowej.

R-kwadrat zliczeniowy mierzy udział w łaściw ych predykcji mode­

lu w łącznej liczbie przypadków i je st wyrażony wzorem:

R 2 Count = - Y n¿ _ j (18)V

n j

gdzie: ,, jest liczbą właściwych predykcji dla zdarzenia j.

i i

R-kwadrat zliczeniowy może dawać błędne wyobrażenie o własno­

ściach predykcyjnych modelu. W związku z tym używa się także jego wer­

sji skorygowanej. R-kwadrat zliczeniowy skorygowany wyraża się

wzorem-Ekonometryczna analiza czynników wpływających na aktywność...

r r _ ’ n oo

~ n ~ ^ T“ 01 ,lio <19)

gdzie: n r+ jest wartością marginalną dla wiersza r.