• Nie Znaleziono Wyników

Specyfikacja wektora propensity score z wykorzystaniem modeli logitowych i probitowych – wprowadzenie

2. Idea podejcia kontrfaktycznego jako narzdzia ewaluacji

2.4. Specyfikacja wektora propensity score z wykorzystaniem modeli logitowych i probitowych – wprowadzenie

teoretyczne

Kwesti wymagajc rozstrzygnicia, stosujc metod czenia wedug prawdopodobiestwa, jest dobór charakterystyk do wektora propensity score.

Jak zauwa a Strawiski [2014, s. 52], „na podstawie prac teoretycznych wia-domo, e powinny si w nim znale wszystkie charakterystyki posiadajce wpyw na prawdopodobiestwo znalezienia si jednostki w grupie ekspery-mentalnej”. Holmes [2014] wskazuje na cztery powszechnie stosowane metody estymacji wartoci wektora prawdopodobiestwa oddziaywania, tj. regresj

logistyczn, analiz dyskryminacyjn, regresj ze sztuczn zmienn zale n

oraz regresj probitow.

W niniejszej pracy wyboru charakterystyk dokonano na podstawie wy-ników estymacji modeli logitowych, dlatego te poni ej przedstawiono nie-zbdne wprowadzenie teoretyczne do tej klasy modeli. Podano ich zapis ma-tematyczny, metod estymacji, sposób oceny ich jakoci oraz interpretacji uzyskanych wyników.

Model logitowy (lub probitowy) stanowi standardowe podejcie do anali-zy dwumianowej zmiennej objanianej22. Rozwa any jest model regresji:

ݕכൌ ߚ൅ ෍ ߚݔ௜௝

௝ୀଵ

൅ ݑ

gdzie:

ݕכ – nieobserwowalna (ukryta, ang. latent variable) zmienna objaniana, obser-wuje si jedynie binarn zmienn ݕ23, przyjmujc warto 1 (jeli ݕכ > 0) lub 0 (w przeciwnym przypadku), z prawdopodobiestwem:

݌ ൌ ܲሺݕሻ ൌ ݌ሺͳ െ ݌ଵି௬ ߚ଴ǥ௞ – parametry strukturalne modelu,



22 Do analizy zmiennej binarnej wykorzystuje si równie m.in. liniowy model prawdopodo-biestwa (LMP). Jednak e ze wzgldu na przyjcie zao enia, i zmienna objaniana jest zmienn ukryt, adekwatnie do przeprowadzonej w pracy analizy empirycznej, omówiono jedynie model logitowy i probitowy.

23 Vittinghoff i in. [2005] podaj zao enia, jakie w modelu logitowym powinna spenia

zmienna wynikowa ݕ:

1. ݕ pochodzi z rozkadu Bernoulliego (dwumianowego), 2. ܧሾݕכȁݔሿ ൌ ܲሺݔሻ ൌ ߚ൅ σ ߚݔ௜௝

௝ୀଵ ,

3. Wartoci zmiennej zale nej s statystycznie niezale ne.

ݔ௜௝ – warto j-tej zmiennej objaniajcej dla i-tej obserwacji, ݑ – skadnik losowy modelu (reszta) dla i-tej obserwacji.

Ró nica midzy modelem logitowym a probitowym polega na specyfika-cji rozkadu skadnika losowego w równaniu modelu. Je eli funkcja wi ca jest dystrybuant rozkadu normalnego, model regresji jest modelem probitowym, natomiast dla rozkadu logistycznego – modelem logitowym.

Tabela 1. Posta modelu logitowego i modelu probitowego Model Prawdopodobiestwo

ródo: opracowanie wasne na podstawie [Maddala, 2008].

W przypadku modelu probitowego nie mo na przedstawi zale noci midzy prawdopodobiestwem a kombinacj zmiennych objaniajcych w po-staci „wygodnego” wyra enia analitycznego (patrz tabela 1). Tymczasem dla modelu logitowego mo na zapisa funkcj odwrotn do dystrybuanty ܨ jako liniow funkcj zmiennych objaniajcych:

ܨିଵሺ݌ሻ ൌ ݈݊ ݌

ͳ െ ݌ ൌ ߚ൅ ෍ ߚݔ௜௝

௝ୀଵ

Modelowaniu nie podlega wic prawdopodobiestwo, ale szansa (ang. odds), tj.

iloraz prawdopodobiestw wystpowania pewnego zdarzenia oraz jego braku24. Warto funkcji odwrotnej do ܨ w modelu logitowym nazywa si logitem, za

w modelu probitowym – analogicznie – probitem. Na przykadzie modelu logi-towego mo na zauwa y, e je eli prawdopodobiestwa wystpienia zdarzenia i jego braku s jednakowe (݌ = 0,5), to logit równa si zeru. Dla

prawdopodo-

24 Iloraz szans mierzy prawdopodobiestwo, e ݕ = 1 w stosunku do prawdopodobiestwa, e ݕ = 0. „Prawdopodobiestwo” jest tu rozumiane jako „szansa”, std mówi si o logarytmie ilorazu szans, a nie logarytmie ilorazu prawdopodobiestw. Nale y jednak podkreli, e „na ogó szansa (…) oznacza od razu iloraz prawdopodobiestw. Jeli prawdopodobiestwo suk-cesu równa si 0,8, to „szansa na sukces” wynosi 4 do 1, czyli jest wanie ilorazem prawdo-podobiestw” [Gruszczyski, Kuszewski, Podgórska, 2009, s. 167].

biestwa zajcia zdarzenia mniejszego ni 0,5 logit jest ujemny, natomiast w przeciwnym przypadku – dodatni.

Dystrybuanty rozkadów logistycznego i normalnego przedstawiono, w uproszczeniu, na rysunku 28. Maj one ksztat „krzywej typu S”. S do siebie bardzo podobne, z wyjtkiem wartoci pocztkowych i kocowych, czyli tzw.

ogonów. Std, jak zauwa a Maddala [2008], model logitowy i probitowy daj

zwykle zbli one wyniki25.

Rysunek 28. Model logitowy i model probitowy

modellogitowy

modelprobitowy

ródo: opracowanie wasne.

Nale y jednak podkreli, e ze wzgldu na ró ne wariancje w rozkadzie logistycznym (ݒܽݎሺݑሻ ൌ ߨΤ ) i normalnym (ݒܽݎሺݑ͵ ሻ ൌ ͳ)26, oszacowania parametrów w modelach logitowym i probitowym nie s bezporednio porów-nywalne. Maddala [2008, s. 373] wskazuje, i w tym celu „otrzymane dla mode-lu logitowego oceny ߚ powinny by pomno one przez ξ͵ ߨΤ ”, chocia wedug Amemiya [1981] lepszym przybli eniem dla rozkadów logistycznego i standar-dowego normalnego byoby pomno enie ocen parametrów modelu logitowego przez 0,625.

Ze wzgldu na nieliniow posta funkcyjn, modele logitowe i probitowe szacuje si Metod Najwikszej Wiarygodnoci (MNW), zaproponowan po raz pierwszy przez Fishera [1922]. Jak wykaza Pratt [1981], funkcja wiarygodnoci jest wklsa i nie posiada wielokrotnych maksimów, dlatego te poszukiwanie najwikszej wartoci funkcji mo na rozpocz dla dowolnych wartoci poczt-kowych jej parametrów [Maddala, 2008]. Estymujc parametry strukturalne



25 Rozbie noci w otrzymanych wynikach dla modelu logitowego i modelu probitowego mo-g wynika z „dysponowania du ymi próbami (zapewniajcymi wystarczajco du o obserwa-cji dla „ogonów”)” [Maddala, 2008, s. 373].

26 Normalizujc na poziomie 1.

modelu, wykorzystuje si funkcj wiarygodnoci, zdefiniowan jako [Zhang,

Do znalezienia wektora oszacowa parametrów strukturalnych maksyma-lizujcych funkcj wiarygodnoci, pochodne czstkowe ܮሺߚǡ ݕሻ po ߚ musz

by równe zeru, a wic musi zosta speniony warunek [Harrel, 2001]:

߲ܮሺߚǡ ݕሻ

W wyniku maksymalizacji funkcji ܮሺߚǡ ݕሻ otrzymuje si oszacowania ߚመ dla pa-rametrów strukturalnych modelu. Zarówno dla modelu logitowego, jak i probi-towego, estymator otrzymany Metod Najwikszej Wiarygodnoci ma asympto-tyczny rozkad normalny. Testy istotnoci dla pojedynczego parametru opieraj

si zatem na statystyce o rozkadzie normalnym z wartoci oczekiwan równ

0 i wariancj równ 1. Istotno caego modelu bada si natomiast za pomoc

testu ilorazu wiarygodnoci. Statystyka testu ma posta [Gruszczyski, 2012]:

ܮܴ ൌ ʹሺ݈݊ܮ௎ோെ ݈݊ܮሻ gdzie:

ܮܴ̱߯,

ܮ௎ோ – warto funkcji wiarygodnoci dla penego modelu,

ܮ – warto funkcji wiarygodnoci dla modelu tylko z wyrazem wolnym.

Weryfikowana jest hipoteza zerowa:

ܪǣߚൌ  ߚ ൌ ڮ ൌ  ߚ ൌ Ͳ

wobec hipotezy alternatywnej ܪǣ ̱ܪ, w której przyjmuje si, e wszystkie parametry przy zmiennych s istotnie ró ne od 0, a wic s istotne statystycznie.

Efekty wpywu (jednostkowych) zmian wartoci zmiennych objaniaj-cych na prawdopodobiestwo zajcia zdarzenia wyznacza si wedug formuy [Maddala, 2008]:

gdzie: ߮ሺǤ ሻ – funkcja gstoci standardowego rozkadu normalnego.

Powy sze równania mo na przeksztaci do postaci:

߲݌

Efekt kracowej zmiany j-tej zmiennej objaniajcej nie jest stay, a zale y od wartoci wszystkich zmiennych objaniajcych [Gruszczyski, Kuszewski, Pod-górska, 2009]. Jednak e, podobnie jak w modelach liniowych, znak oszacowa-nia parametru stojcego przy j-tej zmiennej okrela kierunek jej wpywu na zmienn objanian, tj.:

x dla ߙ > 0 wzrost (spadek) j-tej zmiennej objaniajcej wi e si ze wzrostem (spadkiem) szans zajcia zdarzenia ݕ = 1,

x dla ߙ < 0 wzrost (spadek) j-tej zmiennej objaniajcej wi e si ze spadkiem (wzrostem) szans zajcia zdarzenia ݕ = 1.

Do interpretacji wyników oszacowa skonstruowanego modelu logitowe-go mo na równie wykorzysta iloraz szans (ang. odds ratio) postaci [Grusz-czyski, 2012]:

Warto ilorazu szans wiksza (mniejsza) od 1 oznacza, e wraz ze wzro-stem zmiennej objanianej o jednostk prawdopodobiestwo zajcia modelowa-nego zdarzenia ronie (spada) o |݁ – 1| · 100%27. Nale y pamita, e interpre-tacji podlega mog tylko te zmienne, dla których przedzia ufnoci dla ilorazu szans nie zawiera wartoci 1 [Kleinbaum, Klein, 2010].

Jako dopasowania modelu logitowego lub probitowego do danych mo -na oceni za pomoc mierników typu R2 (pseudo-R2) lub tablicy trafnoci klasy-fikacji i krzywej ROC [Gruszczyski, 2012]. Pierwszy miernik stanowi analo-giczn miar do wskanika determinacji R2 dla modeli liniowych – jego

warto-ci mieszcz si w przedziale [0,1], przy czym wy sza warto oznacza lepsze dopasowanie modelu. Przykadowymi miarami pseudo-R2 s [Gruszczyski, 2012]:

1. pseudo-R2 McFaddena [1974]:

ܴ ൌ ͳ െŽܮ௙௜௧

Žܮ gdzie:

ܮ௙௜௧ – funkcja wiarygodnoci dla modelu penego,

ܮ – funkcja wiarygodnoci dla modelu zredukowanego do wyrazu wol-nego.

2. pseudo-R2 McKelveya i Zavoina [1975]:

ܴெ௓

ͳ݊ σ ൫ݕො௜ୀଵ כെ ݕොതכ ߨ

͵ ൅ͳ

݊ σ ൫ݕො௜ୀଵ כെ ݕොതכ gdzie:

ݕොכൌ ߚመ൅ ෍ ߚመݔ௜௝

௝ୀଵ

3. pseudo-R2 najwikszej wiarygodnoci [Maddala, 1983]28:



27 Jest to interpretacja w przypadku zmiennych ilociowych. Dla zmiennych jakociowych interpretuje si warto ilorazu szans dla danej kategorii zmiennej w odniesieniu do ustalonej kategorii referencyjnej tej zmiennej.

28 Miara ta nie osiga wartoci 1.

ܴேெ ൌ ͳ െ ቆܮ ܮ௙௜௧

gdzie:

N – wielko próby.

4. pseudo-R2 Cragga i Uhlera [1970]:

ܴ஼௎ ൌ ܴேெ

ƒšܴேெ gdzie:

ƒšܴேெ ൌ ͳ െ ሺܮ

Gruszczyski [2012] podkrela, e wskazane miary nie powinny by jed-nak interpretowane jak wskanik R2 dla modelu liniowego. Nale y je interpre-towa zgodnie z ich definicjami, a wic w kontekcie funkcji u ytecznoci.

Drugim zwyczajowo stosowanym sposobem jest sprawdzenie jakoci do-pasowania modelu, odwoujc si do jego trafnoci prognozowania. Prognoza odnosi si do oszacowanego prawdopodobiestwa ݌Ƹ. Zazwyczaj, okrelajc zdolno predykcyjn modelu, przyjmuje si próg odcicia na poziomie 0,5.

Oznacza to, e je eli ݌Ƹ 0,5, to prognoza ݕො = 1, natomiast ݌Ƹ < 0,5, to ݕො = 0.

Na tej podstawie generowana jest tablica trafnoci klasyfikacji, zestawiajca wartoci prognozowane z rzeczywistymi (tabela 2).

Tabela 2. Tablica trafnoci klasyfikacji Wartoci rzeczywiste Wartoci prognozowane

ݕො = 1 ݕො = 0

ݕ = 1 TP FN

ݕ = 0 FP TN

ródo: opracowanie wasne.

Na podstawie tak skonstruowanej tablicy mo na obliczy wspóczynnik

trafno-ci klasyfikacji29 (ang. accuracy rate), tzw. skuteczno reguy decyzyjnej, zgodnie z formu30:



29 Miara ta stanowi pochodn wspóczynnika R2, poniewa „procent trafnych prognoz to tak zwany zliczeniowy R-kwadrat pomno ony przez 100” [Gruszczyski, 2012, s. 91].

30 Przegldu wszystkich miar jakoci regu predykcyjnych dokonuje Haraczyk [2010].

ܣܴ ൌ  ܶܲ ൅ ܶܰ

ܶܲ ൅ ܨܰ ൅ ܨܲ ൅ ܶܰ

gdzie:

TP – liczba obserwacji, dla których zaobserwowano i przewidziano stan wyró -niony31,

TN – liczba obserwacji, dla których nie zaobserwowano ani nie przewidziano stanu wyró nionego,

FN – liczba obserwacji, dla których zaobserwowano, ale nie przewidziano stanu wyró nionego,

FP – liczba obserwacji, dla których nie zaobserwowano, ale przewidziano stan wyró niony.

Jak wynika z tabeli 2, konstruujc model prognozujcy mo na popeni

dwa rodzaje bdów. Pierwszy polega na bdnej klasyfikacji „jedynek” (ݕො = 0, podczas gdy ݕ = 1), drugi natomiast na bdnej klasyfikacji „zer” (ݕො = 1, pod-czas gdy ݕ = 0).

Minimalizacj tych bdów prezentuje krzywa ROC (ang. Receiver Ope-rating Characteristic, patrz rysunek 29), pokazujca zale no midzy tzw.

czu-oci (ang. sensitivity, Sn)32 a swoistoci (lub inaczej: specyficznoci, ang.

specificity, Sp)33. Wykres powstaje poprzez zaznaczenie na ukadzie wspórzd-nych czuoci i specyficznoci modelu dla ka dego mo liwego progu odcicia.

Je eli krzywa ROC dla danego modelu znajduje si powy ej linii ݕ ൌ ݔ, charak-teryzujcej losowo klasyfikujcy model, jako modelu jest zadowalajca. Punkt na krzywej ROC poo ony najbli ej punktu (0,1) wskazuje próg odcicia, dla którego liczba bdnie sklasyfikowanych obserwacji bdzie minimalna [Hara-czyk, 2010].



31 Przez stan wyró niony rozumie si sytuacj, kiedy ݕ = 1.

32ܵ݊ ൌ்௉ାிே்௉ .

33ܵ݌ ൌ்ேାி௉்ே .

Rysunek 29. Krzywa ROC

modellosowy

modeldobrzeklasyfikuj cy

ródo: opracowanie wasne.

Krzywa ROC umo liwia porównanie modeli predykcyjnych midzy sob.

Zwykle w tym celu wylicza si AUC (ang. area under curve), tj. pole pod krzy-w ROC. Im wiksza warto wskanika AUC, tym model trafniej klasyfikuje obserwacje. Dla modelu losowego AUC wynosi 0,5, natomiast dla modelu ide-alnie prognozujcego AUC równe jest 1.



czuo

1swoisto

3. Kwantyfikacja efektu dopat do inwestycji na