2. Idea podejcia kontrfaktycznego jako narzdzia ewaluacji
2.4. Specyfikacja wektora propensity score z wykorzystaniem modeli logitowych i probitowych – wprowadzenie
teoretyczne
Kwesti wymagajc rozstrzygnicia, stosujc metod czenia wedug prawdopodobiestwa, jest dobór charakterystyk do wektora propensity score.
Jak zauwa a Strawiski [2014, s. 52], „na podstawie prac teoretycznych wia-domo, e powinny si w nim znale wszystkie charakterystyki posiadajce wpyw na prawdopodobiestwo znalezienia si jednostki w grupie ekspery-mentalnej”. Holmes [2014] wskazuje na cztery powszechnie stosowane metody estymacji wartoci wektora prawdopodobiestwa oddziaywania, tj. regresj
logistyczn, analiz dyskryminacyjn, regresj ze sztuczn zmienn zale n
oraz regresj probitow.
W niniejszej pracy wyboru charakterystyk dokonano na podstawie wy-ników estymacji modeli logitowych, dlatego te poni ej przedstawiono nie-zbdne wprowadzenie teoretyczne do tej klasy modeli. Podano ich zapis ma-tematyczny, metod estymacji, sposób oceny ich jakoci oraz interpretacji uzyskanych wyników.
Model logitowy (lub probitowy) stanowi standardowe podejcie do anali-zy dwumianowej zmiennej objanianej22. Rozwa any jest model regresji:
ݕכൌ ߚ ߚݔ
ୀଵ
ݑ
gdzie:
ݕכ – nieobserwowalna (ukryta, ang. latent variable) zmienna objaniana, obser-wuje si jedynie binarn zmienn ݕ23, przyjmujc warto 1 (jeli ݕכ > 0) lub 0 (w przeciwnym przypadku), z prawdopodobiestwem:
ൌ ܲሺݕሻ ൌ ௬ሺͳ െ ሻଵି௬ ߚǥ – parametry strukturalne modelu,
22 Do analizy zmiennej binarnej wykorzystuje si równie m.in. liniowy model prawdopodo-biestwa (LMP). Jednak e ze wzgldu na przyjcie zao enia, i zmienna objaniana jest zmienn ukryt, adekwatnie do przeprowadzonej w pracy analizy empirycznej, omówiono jedynie model logitowy i probitowy.
23 Vittinghoff i in. [2005] podaj zao enia, jakie w modelu logitowym powinna spenia
zmienna wynikowa ݕ:
1. ݕ pochodzi z rozkadu Bernoulliego (dwumianowego), 2. ܧሾݕכȁݔሿ ൌ ܲሺݔሻ ൌ ߚ σ ߚݔ
ୀଵ ,
3. Wartoci zmiennej zale nej s statystycznie niezale ne.
ݔ – warto j-tej zmiennej objaniajcej dla i-tej obserwacji, ݑ – skadnik losowy modelu (reszta) dla i-tej obserwacji.
Ró nica midzy modelem logitowym a probitowym polega na specyfika-cji rozkadu skadnika losowego w równaniu modelu. Je eli funkcja wi ca jest dystrybuant rozkadu normalnego, model regresji jest modelem probitowym, natomiast dla rozkadu logistycznego – modelem logitowym.
Tabela 1. Posta modelu logitowego i modelu probitowego Model Prawdopodobiestwo
ródo: opracowanie wasne na podstawie [Maddala, 2008].
W przypadku modelu probitowego nie mo na przedstawi zale noci midzy prawdopodobiestwem a kombinacj zmiennych objaniajcych w po-staci „wygodnego” wyra enia analitycznego (patrz tabela 1). Tymczasem dla modelu logitowego mo na zapisa funkcj odwrotn do dystrybuanty ܨ jako liniow funkcj zmiennych objaniajcych:
ܨିଵሺሻ ൌ ݈݊
ͳ െ ൌ ߚ ߚݔ
ୀଵ
Modelowaniu nie podlega wic prawdopodobiestwo, ale szansa (ang. odds), tj.
iloraz prawdopodobiestw wystpowania pewnego zdarzenia oraz jego braku24. Warto funkcji odwrotnej do ܨ w modelu logitowym nazywa si logitem, za
w modelu probitowym – analogicznie – probitem. Na przykadzie modelu logi-towego mo na zauwa y, e je eli prawdopodobiestwa wystpienia zdarzenia i jego braku s jednakowe ( = 0,5), to logit równa si zeru. Dla
prawdopodo-
24 Iloraz szans mierzy prawdopodobiestwo, e ݕ = 1 w stosunku do prawdopodobiestwa, e ݕ = 0. „Prawdopodobiestwo” jest tu rozumiane jako „szansa”, std mówi si o logarytmie ilorazu szans, a nie logarytmie ilorazu prawdopodobiestw. Nale y jednak podkreli, e „na ogó szansa (…) oznacza od razu iloraz prawdopodobiestw. Jeli prawdopodobiestwo suk-cesu równa si 0,8, to „szansa na sukces” wynosi 4 do 1, czyli jest wanie ilorazem prawdo-podobiestw” [Gruszczyski, Kuszewski, Podgórska, 2009, s. 167].
biestwa zajcia zdarzenia mniejszego ni 0,5 logit jest ujemny, natomiast w przeciwnym przypadku – dodatni.
Dystrybuanty rozkadów logistycznego i normalnego przedstawiono, w uproszczeniu, na rysunku 28. Maj one ksztat „krzywej typu S”. S do siebie bardzo podobne, z wyjtkiem wartoci pocztkowych i kocowych, czyli tzw.
ogonów. Std, jak zauwa a Maddala [2008], model logitowy i probitowy daj
zwykle zbli one wyniki25.
Rysunek 28. Model logitowy i model probitowy
modellogitowy
modelprobitowy
ródo: opracowanie wasne.
Nale y jednak podkreli, e ze wzgldu na ró ne wariancje w rozkadzie logistycznym (ݒܽݎሺݑሻ ൌ ߨଶΤ ) i normalnym (ݒܽݎሺݑ͵ ሻ ൌ ͳ)26, oszacowania parametrów w modelach logitowym i probitowym nie s bezporednio porów-nywalne. Maddala [2008, s. 373] wskazuje, i w tym celu „otrzymane dla mode-lu logitowego oceny ߚ powinny by pomno one przez ξ͵ ߨΤ ”, chocia wedug Amemiya [1981] lepszym przybli eniem dla rozkadów logistycznego i standar-dowego normalnego byoby pomno enie ocen parametrów modelu logitowego przez 0,625.
Ze wzgldu na nieliniow posta funkcyjn, modele logitowe i probitowe szacuje si Metod Najwikszej Wiarygodnoci (MNW), zaproponowan po raz pierwszy przez Fishera [1922]. Jak wykaza Pratt [1981], funkcja wiarygodnoci jest wklsa i nie posiada wielokrotnych maksimów, dlatego te poszukiwanie najwikszej wartoci funkcji mo na rozpocz dla dowolnych wartoci poczt-kowych jej parametrów [Maddala, 2008]. Estymujc parametry strukturalne
25 Rozbie noci w otrzymanych wynikach dla modelu logitowego i modelu probitowego mo-g wynika z „dysponowania du ymi próbami (zapewniajcymi wystarczajco du o obserwa-cji dla „ogonów”)” [Maddala, 2008, s. 373].
26 Normalizujc na poziomie 1.
modelu, wykorzystuje si funkcj wiarygodnoci, zdefiniowan jako [Zhang,
Do znalezienia wektora oszacowa parametrów strukturalnych maksyma-lizujcych funkcj wiarygodnoci, pochodne czstkowe ܮሺߚǡ ݕሻ po ߚ musz
by równe zeru, a wic musi zosta speniony warunek [Harrel, 2001]:
߲ܮሺߚǡ ݕሻ
W wyniku maksymalizacji funkcji ܮሺߚǡ ݕሻ otrzymuje si oszacowania ߚመ dla pa-rametrów strukturalnych modelu. Zarówno dla modelu logitowego, jak i probi-towego, estymator otrzymany Metod Najwikszej Wiarygodnoci ma asympto-tyczny rozkad normalny. Testy istotnoci dla pojedynczego parametru opieraj
si zatem na statystyce o rozkadzie normalnym z wartoci oczekiwan równ
0 i wariancj równ 1. Istotno caego modelu bada si natomiast za pomoc
testu ilorazu wiarygodnoci. Statystyka testu ma posta [Gruszczyski, 2012]:
ܮܴ ൌ ʹሺ݈݊ܮோെ ݈݊ܮோሻ gdzie:
ܮܴ̱߯ଶ,
ܮோ – warto funkcji wiarygodnoci dla penego modelu,
ܮோ – warto funkcji wiarygodnoci dla modelu tylko z wyrazem wolnym.
Weryfikowana jest hipoteza zerowa:
ܪǣߚଵൌ ߚଶ ൌ ڮ ൌ ߚ ൌ Ͳ
wobec hipotezy alternatywnej ܪଵǣ ̱ܪ, w której przyjmuje si, e wszystkie parametry przy zmiennych s istotnie ró ne od 0, a wic s istotne statystycznie.
Efekty wpywu (jednostkowych) zmian wartoci zmiennych objaniaj-cych na prawdopodobiestwo zajcia zdarzenia wyznacza si wedug formuy [Maddala, 2008]:
gdzie: ߮ሺǤ ሻ – funkcja gstoci standardowego rozkadu normalnego.
Powy sze równania mo na przeksztaci do postaci:
߲
Efekt kracowej zmiany j-tej zmiennej objaniajcej nie jest stay, a zale y od wartoci wszystkich zmiennych objaniajcych [Gruszczyski, Kuszewski, Pod-górska, 2009]. Jednak e, podobnie jak w modelach liniowych, znak oszacowa-nia parametru stojcego przy j-tej zmiennej okrela kierunek jej wpywu na zmienn objanian, tj.:
x dla ߙ > 0 wzrost (spadek) j-tej zmiennej objaniajcej wi e si ze wzrostem (spadkiem) szans zajcia zdarzenia ݕ = 1,
x dla ߙ < 0 wzrost (spadek) j-tej zmiennej objaniajcej wi e si ze spadkiem (wzrostem) szans zajcia zdarzenia ݕ = 1.
Do interpretacji wyników oszacowa skonstruowanego modelu logitowe-go mo na równie wykorzysta iloraz szans (ang. odds ratio) postaci [Grusz-czyski, 2012]:
Warto ilorazu szans wiksza (mniejsza) od 1 oznacza, e wraz ze wzro-stem zmiennej objanianej o jednostk prawdopodobiestwo zajcia modelowa-nego zdarzenia ronie (spada) o |݁ఉೕ – 1| · 100%27. Nale y pamita, e interpre-tacji podlega mog tylko te zmienne, dla których przedzia ufnoci dla ilorazu szans nie zawiera wartoci 1 [Kleinbaum, Klein, 2010].
Jako dopasowania modelu logitowego lub probitowego do danych mo -na oceni za pomoc mierników typu R2 (pseudo-R2) lub tablicy trafnoci klasy-fikacji i krzywej ROC [Gruszczyski, 2012]. Pierwszy miernik stanowi analo-giczn miar do wskanika determinacji R2 dla modeli liniowych – jego
warto-ci mieszcz si w przedziale [0,1], przy czym wy sza warto oznacza lepsze dopasowanie modelu. Przykadowymi miarami pseudo-R2 s [Gruszczyski, 2012]:
1. pseudo-R2 McFaddena [1974]:
ܴெଶ ൌ ͳ െܮ௧
ܮ gdzie:
ܮ௧ – funkcja wiarygodnoci dla modelu penego,
ܮ – funkcja wiarygodnoci dla modelu zredukowanego do wyrazu wol-nego.
2. pseudo-R2 McKelveya i Zavoina [1975]:
ܴெଶ ൌ
ͳ݊ σ ൫ݕොୀଵ כെ ݕොതכ൯ଶ ߨଶ
͵ ͳ
݊ σ ൫ݕොୀଵ כെ ݕොതכ൯ଶ gdzie:
ݕොכൌ ߚመ ߚመݔ
ୀଵ
3. pseudo-R2 najwikszej wiarygodnoci [Maddala, 1983]28:
27 Jest to interpretacja w przypadku zmiennych ilociowych. Dla zmiennych jakociowych interpretuje si warto ilorazu szans dla danej kategorii zmiennej w odniesieniu do ustalonej kategorii referencyjnej tej zmiennej.
28 Miara ta nie osiga wartoci 1.
ܴேெଶ ൌ ͳ െ ቆܮ ܮ௧ቇ
ேଶ
gdzie:
N – wielko próby.
4. pseudo-R2 Cragga i Uhlera [1970]:
ܴଶ ൌ ܴேெଶ
ܴேெଶ gdzie:
ܴேெଶ ൌ ͳ െ ሺܮሻேଶ
Gruszczyski [2012] podkrela, e wskazane miary nie powinny by jed-nak interpretowane jak wskanik R2 dla modelu liniowego. Nale y je interpre-towa zgodnie z ich definicjami, a wic w kontekcie funkcji u ytecznoci.
Drugim zwyczajowo stosowanym sposobem jest sprawdzenie jakoci do-pasowania modelu, odwoujc si do jego trafnoci prognozowania. Prognoza odnosi si do oszacowanego prawdopodobiestwa Ƹ. Zazwyczaj, okrelajc zdolno predykcyjn modelu, przyjmuje si próg odcicia na poziomie 0,5.
Oznacza to, e je eli Ƹ 0,5, to prognoza ݕො = 1, natomiast Ƹ < 0,5, to ݕො = 0.
Na tej podstawie generowana jest tablica trafnoci klasyfikacji, zestawiajca wartoci prognozowane z rzeczywistymi (tabela 2).
Tabela 2. Tablica trafnoci klasyfikacji Wartoci rzeczywiste Wartoci prognozowane
ݕො = 1 ݕො = 0
ݕ = 1 TP FN
ݕ = 0 FP TN
ródo: opracowanie wasne.
Na podstawie tak skonstruowanej tablicy mo na obliczy wspóczynnik
trafno-ci klasyfikacji29 (ang. accuracy rate), tzw. skuteczno reguy decyzyjnej, zgodnie z formu30:
29 Miara ta stanowi pochodn wspóczynnika R2, poniewa „procent trafnych prognoz to tak zwany zliczeniowy R-kwadrat pomno ony przez 100” [Gruszczyski, 2012, s. 91].
30 Przegldu wszystkich miar jakoci regu predykcyjnych dokonuje Haraczyk [2010].
ܣܴ ൌ ܶܲ ܶܰ
ܶܲ ܨܰ ܨܲ ܶܰ
gdzie:
TP – liczba obserwacji, dla których zaobserwowano i przewidziano stan wyró -niony31,
TN – liczba obserwacji, dla których nie zaobserwowano ani nie przewidziano stanu wyró nionego,
FN – liczba obserwacji, dla których zaobserwowano, ale nie przewidziano stanu wyró nionego,
FP – liczba obserwacji, dla których nie zaobserwowano, ale przewidziano stan wyró niony.
Jak wynika z tabeli 2, konstruujc model prognozujcy mo na popeni
dwa rodzaje bdów. Pierwszy polega na bdnej klasyfikacji „jedynek” (ݕො = 0, podczas gdy ݕ = 1), drugi natomiast na bdnej klasyfikacji „zer” (ݕො = 1, pod-czas gdy ݕ = 0).
Minimalizacj tych bdów prezentuje krzywa ROC (ang. Receiver Ope-rating Characteristic, patrz rysunek 29), pokazujca zale no midzy tzw.
czu-oci (ang. sensitivity, Sn)32 a swoistoci (lub inaczej: specyficznoci, ang.
specificity, Sp)33. Wykres powstaje poprzez zaznaczenie na ukadzie wspórzd-nych czuoci i specyficznoci modelu dla ka dego mo liwego progu odcicia.
Je eli krzywa ROC dla danego modelu znajduje si powy ej linii ݕ ൌ ݔ, charak-teryzujcej losowo klasyfikujcy model, jako modelu jest zadowalajca. Punkt na krzywej ROC poo ony najbli ej punktu (0,1) wskazuje próg odcicia, dla którego liczba bdnie sklasyfikowanych obserwacji bdzie minimalna [Hara-czyk, 2010].
31 Przez stan wyró niony rozumie si sytuacj, kiedy ݕ = 1.
32ܵ݊ ൌ்ାிே் .
33ܵ ൌ்ேାி்ே .
Rysunek 29. Krzywa ROC
modellosowy
modeldobrzeklasyfikujcy
ródo: opracowanie wasne.
Krzywa ROC umo liwia porównanie modeli predykcyjnych midzy sob.
Zwykle w tym celu wylicza si AUC (ang. area under curve), tj. pole pod krzy-w ROC. Im wiksza warto wskanika AUC, tym model trafniej klasyfikuje obserwacje. Dla modelu losowego AUC wynosi 0,5, natomiast dla modelu ide-alnie prognozujcego AUC równe jest 1.
czuo
1swoisto