Specyfikacja wektora propensity score z wykorzystaniem modeli logitowych i probitowych

2. Idea podejcia kontrfaktycznego jako narzdzia ewaluacji

2.4. Specyfikacja wektora propensity score z wykorzystaniem modeli logitowych i probitowych – wprowadzenie

teoretyczne

Kwesti wymagajc rozstrzygnicia, stosujc metod czenia wedug prawdopodobiestwa, jest dobór charakterystyk do wektora propensity score.

Jak zauwa a Strawiski [2014, s. 52], „na podstawie prac teoretycznych wia-domo, e powinny si w nim znale wszystkie charakterystyki posiadajce wpyw na prawdopodobiestwo znalezienia si jednostki w grupie ekspery-mentalnej”. Holmes [2014] wskazuje na cztery powszechnie stosowane metody estymacji wartoci wektora prawdopodobiestwa oddziaywania, tj. regresj

logistyczn, analiz dyskryminacyjn, regresj ze sztuczn zmienn zale n

oraz regresj probitow.

W niniejszej pracy wyboru charakterystyk dokonano na podstawie wy-ników estymacji modeli logitowych, dlatego te poni ej przedstawiono nie-zbdne wprowadzenie teoretyczne do tej klasy modeli. Podano ich zapis ma-tematyczny, metod estymacji, sposób oceny ich jakoci oraz interpretacji uzyskanych wyników.

Model logitowy (lub probitowy) stanowi standardowe podejcie do anali-zy dwumianowej zmiennej objanianej²². Rozwa any jest model regresji:

ݕ_௜^כൌ ߚ_଴൅ ෍ ߚ_௝ݔ_௜௝

௞

௝ୀଵ

൅ ݑ_௜

gdzie:

ݕ_௜^כ – nieobserwowalna (ukryta, ang. latent variable) zmienna objaniana, obser-wuje si jedynie binarn zmienn ݕ_௜²³, przyjmujc warto 1 (jeli ݕ_௜^כ > 0) lub 0 (w przeciwnym przypadku), z prawdopodobiestwem:

݌_௜ ൌ ܲሺݕ_௜ሻ ൌ ݌_௜^௬^೔ሺͳ െ ݌_௜ሻ^ଵି௬^೔ ߚ_଴ǥ௞ – parametry strukturalne modelu,

22 Do analizy zmiennej binarnej wykorzystuje si równie m.in. liniowy model prawdopodo-biestwa (LMP). Jednak e ze wzgldu na przyjcie zao enia, i zmienna objaniana jest zmienn ukryt, adekwatnie do przeprowadzonej w pracy analizy empirycznej, omówiono jedynie model logitowy i probitowy.

23 Vittinghoff i in. [2005] podaj zao enia, jakie w modelu logitowym powinna spenia

zmienna wynikowa ݕ௜:

1. ݕ௜ pochodzi z rozkadu Bernoulliego (dwumianowego), 2. ܧሾݕ^כȁݔሿ ൌ ܲሺݔሻ ൌ ߚ_଴൅ σ௞ ߚ௝ݔ௜௝

௝ୀଵ ,

3. Wartoci zmiennej zale nej s statystycznie niezale ne.

ݔ_௜௝ – warto j-tej zmiennej objaniajcej dla i-tej obserwacji, ݑ_௜ – skadnik losowy modelu (reszta) dla i-tej obserwacji.

Ró nica midzy modelem logitowym a probitowym polega na specyfika-cji rozkadu skadnika losowego w równaniu modelu. Je eli funkcja wi ca jest dystrybuant rozkadu normalnego, model regresji jest modelem probitowym, natomiast dla rozkadu logistycznego – modelem logitowym.

Tabela 1. Posta modelu logitowego i modelu probitowego Model Prawdopodobiestwo

ródo: opracowanie wasne na podstawie [Maddala, 2008].

W przypadku modelu probitowego nie mo na przedstawi zale noci midzy prawdopodobiestwem a kombinacj zmiennych objaniajcych w po-staci „wygodnego” wyra enia analitycznego (patrz tabela 1). Tymczasem dla modelu logitowego mo na zapisa funkcj odwrotn do dystrybuanty ܨ jako liniow funkcj zmiennych objaniajcych:

ܨ^ିଵሺ݌௜ሻ ൌ ݈݊ ݌_௜

ͳ െ ݌_௜ ൌ ߚ_଴൅ ෍ ߚ_௝ݔ_௜௝

௞

௝ୀଵ

Modelowaniu nie podlega wic prawdopodobiestwo, ale szansa (ang. odds), tj.

iloraz prawdopodobiestw wystpowania pewnego zdarzenia oraz jego braku²⁴. Warto funkcji odwrotnej do ܨ w modelu logitowym nazywa si logitem, za

w modelu probitowym – analogicznie – probitem. Na przykadzie modelu logi-towego mo na zauwa y, e je eli prawdopodobiestwa wystpienia zdarzenia i jego braku s jednakowe (݌_௜ = 0,5), to logit równa si zeru. Dla

prawdopodo-

24 Iloraz szans mierzy prawdopodobiestwo, e ݕ௜ = 1 w stosunku do prawdopodobiestwa, e ݕ௜ = 0. „Prawdopodobiestwo” jest tu rozumiane jako „szansa”, std mówi si o logarytmie ilorazu szans, a nie logarytmie ilorazu prawdopodobiestw. Nale y jednak podkreli, e „na ogó szansa (…) oznacza od razu iloraz prawdopodobiestw. Jeli prawdopodobiestwo suk-cesu równa si 0,8, to „szansa na sukces” wynosi 4 do 1, czyli jest wanie ilorazem prawdo-podobiestw” [Gruszczyski, Kuszewski, Podgórska, 2009, s. 167].

biestwa zajcia zdarzenia mniejszego ni 0,5 logit jest ujemny, natomiast w przeciwnym przypadku – dodatni.

Dystrybuanty rozkadów logistycznego i normalnego przedstawiono, w uproszczeniu, na rysunku 28. Maj one ksztat „krzywej typu S”. S do siebie bardzo podobne, z wyjtkiem wartoci pocztkowych i kocowych, czyli tzw.

ogonów. Std, jak zauwa a Maddala [2008], model logitowy i probitowy daj

zwykle zbli one wyniki²⁵.

Rysunek 28. Model logitowy i model probitowy

modellogitowy

modelprobitowy

ródo: opracowanie wasne.

Nale y jednak podkreli, e ze wzgldu na ró ne wariancje w rozkadzie logistycznym (ݒܽݎሺݑ_௜ሻ ൌ ߨ^ଶΤ ) i normalnym (ݒܽݎሺݑ͵ _௜ሻ ൌ ͳ)²⁶, oszacowania parametrów w modelach logitowym i probitowym nie s bezporednio porów-nywalne. Maddala [2008, s. 373] wskazuje, i w tym celu „otrzymane dla mode-lu logitowego oceny ߚ_௝ powinny by pomno one przez ξ͵ ߨΤ ”, chocia wedug Amemiya [1981] lepszym przybli eniem dla rozkadów logistycznego i standar-dowego normalnego byoby pomno enie ocen parametrów modelu logitowego przez 0,625.

Ze wzgldu na nieliniow posta funkcyjn, modele logitowe i probitowe szacuje si Metod Najwikszej Wiarygodnoci (MNW), zaproponowan po raz pierwszy przez Fishera [1922]. Jak wykaza Pratt [1981], funkcja wiarygodnoci jest wklsa i nie posiada wielokrotnych maksimów, dlatego te poszukiwanie najwikszej wartoci funkcji mo na rozpocz dla dowolnych wartoci poczt-kowych jej parametrów [Maddala, 2008]. Estymujc parametry strukturalne

25 Rozbie noci w otrzymanych wynikach dla modelu logitowego i modelu probitowego mo-g wynika z „dysponowania du ymi próbami (zapewniajcymi wystarczajco du o obserwa-cji dla „ogonów”)” [Maddala, 2008, s. 373].

26 Normalizujc na poziomie 1.

modelu, wykorzystuje si funkcj wiarygodnoci, zdefiniowan jako [Zhang,

Do znalezienia wektora oszacowa parametrów strukturalnych maksyma-lizujcych funkcj wiarygodnoci, pochodne czstkowe ܮሺߚǡ ݕሻ po ߚ_௝ musz

by równe zeru, a wic musi zosta speniony warunek [Harrel, 2001]:

߲ܮሺߚǡ ݕሻ

W wyniku maksymalizacji funkcji ܮሺߚǡ ݕሻ otrzymuje si oszacowania ߚመ dla pa-rametrów strukturalnych modelu. Zarówno dla modelu logitowego, jak i probi-towego, estymator otrzymany Metod Najwikszej Wiarygodnoci ma asympto-tyczny rozkad normalny. Testy istotnoci dla pojedynczego parametru opieraj

si zatem na statystyce o rozkadzie normalnym z wartoci oczekiwan równ

0 i wariancj równ 1. Istotno caego modelu bada si natomiast za pomoc

testu ilorazu wiarygodnoci. Statystyka testu ma posta [Gruszczyski, 2012]:

ܮܴ ൌ ʹሺ݈݊ܮ_௎ோെ ݈݊ܮ_ோሻ gdzie:

ܮܴ̱߯_௞^ଶ,

ܮ_௎ோ – warto funkcji wiarygodnoci dla penego modelu,

ܮ_ோ – warto funkcji wiarygodnoci dla modelu tylko z wyrazem wolnym.

Weryfikowana jest hipoteza zerowa:

ܪ_଴ǣߚ_ଵൌ ߚ_ଶ ൌ ڮ ൌ ߚ_௞ ൌ Ͳ

wobec hipotezy alternatywnej ܪ_ଵǣ ̱ܪ_଴, w której przyjmuje si, e wszystkie parametry przy zmiennych s istotnie ró ne od 0, a wic s istotne statystycznie.

Efekty wpywu (jednostkowych) zmian wartoci zmiennych objaniaj-cych na prawdopodobiestwo zajcia zdarzenia wyznacza si wedug formuy [Maddala, 2008]:

gdzie: ߮ሺǤ ሻ – funkcja gstoci standardowego rozkadu normalnego.

Powy sze równania mo na przeksztaci do postaci:

߲݌_௜

Efekt kracowej zmiany j-tej zmiennej objaniajcej nie jest stay, a zale y od wartoci wszystkich zmiennych objaniajcych [Gruszczyski, Kuszewski, Pod-górska, 2009]. Jednak e, podobnie jak w modelach liniowych, znak oszacowa-nia parametru stojcego przy j-tej zmiennej okrela kierunek jej wpywu na zmienn objanian, tj.:

x dla ߙ_௝ > 0 wzrost (spadek) j-tej zmiennej objaniajcej wi e si ze wzrostem (spadkiem) szans zajcia zdarzenia ݕ = 1,

x dla ߙ_௝ < 0 wzrost (spadek) j-tej zmiennej objaniajcej wi e si ze spadkiem (wzrostem) szans zajcia zdarzenia ݕ = 1.

Do interpretacji wyników oszacowa skonstruowanego modelu logitowe-go mo na równie wykorzysta iloraz szans (ang. odds ratio) postaci [Grusz-czyski, 2012]:

Warto ilorazu szans wiksza (mniejsza) od 1 oznacza, e wraz ze wzro-stem zmiennej objanianej o jednostk prawdopodobiestwo zajcia modelowa-nego zdarzenia ronie (spada) o |݁^ఉ^ೕ – 1| · 100%²⁷. Nale y pamita, e interpre-tacji podlega mog tylko te zmienne, dla których przedzia ufnoci dla ilorazu szans nie zawiera wartoci 1 [Kleinbaum, Klein, 2010].

Jako dopasowania modelu logitowego lub probitowego do danych mo -na oceni za pomoc mierników typu R² (pseudo-R²) lub tablicy trafnoci klasy-fikacji i krzywej ROC [Gruszczyski, 2012]. Pierwszy miernik stanowi analo-giczn miar do wskanika determinacji R² dla modeli liniowych – jego

warto-ci mieszcz si w przedziale [0,1], przy czym wy sza warto oznacza lepsze dopasowanie modelu. Przykadowymi miarami pseudo-R² s [Gruszczyski, 2012]:

1. pseudo-R² McFaddena [1974]:

ܴ_ெ^ଶ ൌ ͳ െܮ_௙௜௧

ܮ_଴ gdzie:

ܮ_௙௜௧ – funkcja wiarygodnoci dla modelu penego,

ܮ_଴ – funkcja wiarygodnoci dla modelu zredukowanego do wyrazu wol-nego.

2. pseudo-R² McKelveya i Zavoina [1975]:

ܴ_ெ௓^ଶ ൌ

ͳ݊ σ ൫ݕො^௡_௜ୀଵ ^௜^כെ ݕොത^כ൯^ଶ ߨ^ଶ

͵ ൅ͳ

݊ σ ൫ݕො^௡_௜ୀଵ ^௜^כെ ݕොത^כ൯^ଶ gdzie:

ݕො_௜^כൌ ߚመ_଴൅ ෍ ߚመ_௝ݔ_௜௝

௞

௝ୀଵ

3. pseudo-R² najwikszej wiarygodnoci [Maddala, 1983]²⁸:

27 Jest to interpretacja w przypadku zmiennych ilociowych. Dla zmiennych jakociowych interpretuje si warto ilorazu szans dla danej kategorii zmiennej w odniesieniu do ustalonej kategorii referencyjnej tej zmiennej.

28 Miara ta nie osiga wartoci 1.

ܴ_ேெ^ଶ ൌ ͳ െ ቆܮ_଴ ܮ_௙௜௧ቇ

ேଶ

gdzie:

N – wielko próby.

4. pseudo-R² Cragga i Uhlera [1970]:

ܴ_஼௎^ଶ ൌ ܴ_ேெ^ଶ

ܴ_ேெ^ଶ gdzie:

ܴ_ேெ^ଶ ൌ ͳ െ ሺܮ_଴ሻ^ே^ଶ

Gruszczyski [2012] podkrela, e wskazane miary nie powinny by jed-nak interpretowane jak wskanik R² dla modelu liniowego. Nale y je interpre-towa zgodnie z ich definicjami, a wic w kontekcie funkcji u ytecznoci.

Drugim zwyczajowo stosowanym sposobem jest sprawdzenie jakoci do-pasowania modelu, odwoujc si do jego trafnoci prognozowania. Prognoza odnosi si do oszacowanego prawdopodobiestwa ݌Ƹ௜. Zazwyczaj, okrelajc zdolno predykcyjn modelu, przyjmuje si próg odcicia na poziomie 0,5.

Oznacza to, e je eli ݌Ƹ_௜ 0,5, to prognoza ݕො_௜ = 1, natomiast ݌Ƹ_௜ < 0,5, to ݕො_௜ = 0.

Na tej podstawie generowana jest tablica trafnoci klasyfikacji, zestawiajca wartoci prognozowane z rzeczywistymi (tabela 2).

Tabela 2. Tablica trafnoci klasyfikacji Wartoci rzeczywiste Wartoci prognozowane

ݕො = 1 ݕො = 0

ݕ = 1 TP FN

ݕ = 0 FP TN

ródo: opracowanie wasne.

Na podstawie tak skonstruowanej tablicy mo na obliczy wspóczynnik

trafno-ci klasyfikacji²⁹ (ang. accuracy rate), tzw. skuteczno reguy decyzyjnej, zgodnie z formu³⁰:

29 Miara ta stanowi pochodn wspóczynnika R², poniewa „procent trafnych prognoz to tak zwany zliczeniowy R-kwadrat pomno ony przez 100” [Gruszczyski, 2012, s. 91].

30 Przegldu wszystkich miar jakoci regu predykcyjnych dokonuje Haraczyk [2010].

ܣܴ ൌ ܶܲ ൅ ܶܰ

ܶܲ ൅ ܨܰ ൅ ܨܲ ൅ ܶܰ

gdzie:

TP – liczba obserwacji, dla których zaobserwowano i przewidziano stan wyró -niony³¹,

TN – liczba obserwacji, dla których nie zaobserwowano ani nie przewidziano stanu wyró nionego,

FN – liczba obserwacji, dla których zaobserwowano, ale nie przewidziano stanu wyró nionego,

FP – liczba obserwacji, dla których nie zaobserwowano, ale przewidziano stan wyró niony.

Jak wynika z tabeli 2, konstruujc model prognozujcy mo na popeni

dwa rodzaje bdów. Pierwszy polega na bdnej klasyfikacji „jedynek” (ݕො_௜ = 0, podczas gdy ݕ_௜ = 1), drugi natomiast na bdnej klasyfikacji „zer” (ݕො_௜ = 1, pod-czas gdy ݕ_௜ = 0).

Minimalizacj tych bdów prezentuje krzywa ROC (ang. Receiver Ope-rating Characteristic, patrz rysunek 29), pokazujca zale no midzy tzw.

czu-oci (ang. sensitivity, Sn)³² a swoistoci (lub inaczej: specyficznoci, ang.

specificity, Sp)³³. Wykres powstaje poprzez zaznaczenie na ukadzie wspórzd-nych czuoci i specyficznoci modelu dla ka dego mo liwego progu odcicia.

Je eli krzywa ROC dla danego modelu znajduje si powy ej linii ݕ ൌ ݔ, charak-teryzujcej losowo klasyfikujcy model, jako modelu jest zadowalajca. Punkt na krzywej ROC poo ony najbli ej punktu (0,1) wskazuje próg odcicia, dla którego liczba bdnie sklasyfikowanych obserwacji bdzie minimalna [Hara-czyk, 2010].

31 Przez stan wyró niony rozumie si sytuacj, kiedy ݕ = 1.

32ܵ݊ ൌ_{்௉ାிே}^்௉ ^.

33ܵ݌ ൌ_{்ேାி௉}^்ே ^.

Rysunek 29. Krzywa ROC

modellosowy

modeldobrzeklasyfikujcy

ródo: opracowanie wasne.

Krzywa ROC umo liwia porównanie modeli predykcyjnych midzy sob.

Zwykle w tym celu wylicza si AUC (ang. area under curve), tj. pole pod krzy-w ROC. Im wiksza warto wskanika AUC, tym model trafniej klasyfikuje obserwacje. Dla modelu losowego AUC wynosi 0,5, natomiast dla modelu ide-alnie prognozujcego AUC równe jest 1.

czuo

1swoisto

3. Kwantyfikacja efektu dopat do inwestycji na

W dokumencie Szacowanie efektu oddziaływania polityki rolnej na wartość dodaną z wykorzystaniem propensity score matching (Stron 71-80)