wykorzystania modeli skoringowych
2.3. Binarna regresja logistyczna i drzewa decyzyjnedecyzyjne
Modele regresyjne, w szczególno´sci regresja liniowa, znamy ju˙z od setek lat, s ˛a zwi ˛azane z takimi twórcami, jak Adrien-Marie Legen-dre i Carl Friedrich Gauss, którzy napisali swoje najwi˛eksze dzie-ła w XVIII w. Wtedy powstadzie-ła metoda najmniejszych kwadratów.
Model ten, stosowany do dzisiaj, pozwala wyznaczy´c zale˙zno´s´c
po-mi˛edzy funkcj ˛a celu a predyktorami, przy zało˙zeniu ˙ze funkcja celu posiada rozkład ci ˛agły i normalny. Niestety modelowanie zdarzenia defaultnie spełnia tych zało˙ze´n. Przez wiele lat – pomimo łamania zało˙ze´n – statystycy u˙zywali regresji liniowej, a˙z do czasu powstania lepszej metody – regresji logistycznej.
W celu jej zrozumienia na pocz ˛atku trzeba zdefiniowa´c rozkład zero-jedynkowy. Rozwa˙zmy zdarzenie losowe polegaj ˛ace na zaj´sciu zdarzenia default lub jego braku. Zmienna losowa Y przyjmuje za-tem tylko dwie warto´sci Y = 1 lub Y = 0, gdzie warto´s´c 1 uto˙zsa-miamy z zaj´sciem zdarzenia default. Zaj´scie zdarzenia posiada
okre-´slone prawdopodobie´nstwo, które oznaczamy przez p, mamy zatem:
p = P (Y = 1). Prawdopodobie´nstwo zdarzenia przeciwnego, czyli braku default, mo˙zna łatwo obliczy´c: P (Y = 0) = 1 − P (Y = 1) = 1 − p. Przypu´s´cmy teraz, ˙ze zmienna losowa Y ma swoj ˛a realizacj˛e y, innymi słowy – została zaobserwowana jej warto´s´c (wykonano pomiar). Obliczmy teraz prawdopodobie´nstwo zaobserwowania tej warto´sci. Mo˙zemy to zapisa´c w dwóch wariantach:
P (Y = y) = albo w postaci jednego wzoru:
P (Y = y) = py(1 − p)(1−y), a po przekształceniach w finalnej wersji:
P (Y = y) = exp yln p
Pojawia si˛e tu po raz pierwszy człon definiuj ˛acy funkcj˛e logito-w ˛a:
Logit(p) = ln p 1 − p
!
,
która staje si˛e wa˙znym elementem regresji logistycznej.
Rozwa˙zmy teraz sytuacj˛e bardziej ogóln ˛a. W naszej próbie lo-sowej, zawieraj ˛acej historyczne dane, zaobserwowali´smy N obser-wacji. Ka˙zda obserwacja funkcji losowej Yn, zwi ˛azana ze statusem
zdarzenia default, ma warto´s´c yn, gdzie n jest numerem obserwacji.
Interesuj ˛acym nas modelem jest wyja´snienie zale˙zno´sci pomi˛edzy prawdopodobie´nstwem zaj´scia zdarzenia default, co cz˛esto matema-tycznie zapisuje si˛e jako pn = P (Yn = 1), a predyktorami oznacza-nymi jako ci ˛ag zmiennych x1n, x2n, ..., xmn, gdzie m jest liczb ˛a zmien-nych w ABT. Na pocz ˛atku definiuje si˛e cz˛e´s´c regresyjn ˛a, czyli kom-binacj˛e predyktorów:
Kombinacja ta jest zwi ˛azana nieliniow ˛a zale˙zno´sci ˛a z prawdopo-dobie´nstwem pn. Funkcji wi ˛a˙z ˛acych mo˙zna zdefiniowa´c do´s´c
du-˙zo, na podstawie praktyki najpopularniejsz ˛a stała si˛e funkcja logito-wa (a zale˙zno´s´c nazlogito-wano „sigmoid”). Swoj ˛a popularno´s´c zawdzi˛e-cza mo˙zliwo´sci interpretacji członu 1−ppn
n, który nazywa si˛e szans ˛a zaj´scia zdarzenia default (ang. odds), jest to stosunek prawdopodo-bie´nstwa zaj´scia zdarzenia do prawdopodoprawdopodo-bie´nstwa zdarzenia prze-ciwnego. Mamy zatem model, który uzale˙znia logarytm naturalny z szansy albo logit z prawdopodobie´nstwa zaj´scia zdarzenia default od członu regresyjnego Xnβ. Finalnie wi˛ec jest estymowane nast˛e-puj ˛ace równanie:
Logit(pn) = Xnβ,
gdzie Xns ˛a danymi warto´sciami predyktorów, pns ˛a teoretycznymi warto´sciami prawdopodobie´nstw zaj´scia zdarzenia default dla n-tej obserwacji, a wektor współczynników β jest szukany.
Od funkcji logit pochodzi te˙z sama nazwa modelu regresji logi-stycznej (Hosmer i Lemenshow, 2000), czasem nazywanego mode-lem logitowym. Inne funkcje wi ˛a˙z ˛ace, jak i zało˙zenia co do rozkła-dów funkcji celu zostały uwzgl˛ednione w uogólnionych modelach liniowych (Dobson, 2002; Ptak-Chmielewska, 2013).
Współczynniki βi s ˛a obliczane (estymowane) na podstawie me-tody najwi˛ekszej wiarygodno´sci. Ró˙zni si˛e ona od wcze´sniej znanej metody najmniejszych kwadratów i jest niestety zwi ˛azana z bardziej zło˙zonym algorytmem poszukiwania maksimum funkcji. Znajduje si˛e je metod ˛a iteracyjn ˛a, w ka˙zdym kroku przybli˙zaj ˛ac si˛e do wyni-ku z coraz wi˛eksz ˛a dokładno´sci ˛a. Je´sli kolejne kroki powoduj ˛a, ˙ze
zmiana wyniku jest mniejsza od ustalonej dokładno´sci, to algorytm si˛e zatrzymuje i rozwi ˛azanie jest znalezione. W przeciwnym przy-padku algorytm jest rozbie˙zny i niestety trzeba wtedy zmieni´c lekko parametry wej´sciowe. Najpopularniejszym algorytmem jest metoda Newtona–Raphsona, która kolejne iteracje wyznacza, poruszaj ˛ac si˛e po wektorze wyznaczonym przez gradient funkcji wiarygodno´sci.
Metoda najwi˛ekszej wiarygodno´sci, opisana przez R.A. Fishera w XX w., jest oparta na bardzo prostym i uzasadnionym przesła-niu, ˙ze prawdopodobie´nstwo uzyskania takich, a nie innych warto´sci obserwacji w próbie musi by´c najwi˛eksze. Gdyby było inaczej, to otrzymaliby´smy inne warto´sci obserwacji. Mamy zatem, wykorzy-stuj ˛ac zało˙zenie o niezale˙zno´sci zaobserwowanych zdarze´n (czyli ˙ze prawdopodobie´nstwo zaj´scia kilku zdarze´n jednocze´snie jest równe iloczynowi ich prawdopodobie´nstw):
Funkcj ˛a wiarygodno´sci jest wła´snie prawdopodobie´nstwo zaob-serwowania wszystkich razem warto´sci yn. Przykładaj ˛ac zatem do-datkowo funkcj˛e logarytmu i wstawiaj ˛ac za logity odpowiednie czło-ny regresyjne, otrzymamy finaln ˛a posta´c logarytmu z funkcji wiary-godno´sci (ang. likelihood – L):
ln(L(β)) =
N
X
n=1
(ynXnβ − ln (1 + exp(Xnβ))) .
Istot ˛a metody maksimum wiarygodno´sci jest zatem znalezienie ta-kiego wektora współczynników β, by logarytm z funkcji wiarygod-no´sci był najwi˛ekszy.
Wyra˙zenie regresyjne Xnβ jest ocen ˛a punktow ˛a. Najcz˛e´sciej do-konuje si˛e tu dodatkowych prostych przekształce´n, by ocena ta była całkowita i miała lepsz ˛a interpretacj˛e (Przanowski, 2014a).
Dodatkowo ocena ta musi by´c rozbita na oceny cz ˛astkowe zwi ˛ a-zane z kategoriami predyktorów. Ka˙zdy predyktor, niezale˙znie od tego, czy jest zmienn ˛a ci ˛agł ˛a, czy nominaln ˛a (przykładem zmien-nej ci ˛agłej jest wiek, a nominalnej nazwa miasta), finalnie jest ka-tegoryzowany, czyli zamieniany na zestaw od kilku do maksymal-nie kilkunastu kategorii. W przypadku zmiennej nominalnej czasem potrzebne jest ł ˛aczenie kilku warto´sci w jedn ˛a kategori˛e, a w przy-padku zmiennej ci ˛agłej trzeba znale´z´c punkty podziałowe, np. aby podzieli´c na dwie grupy młodszych i starszych, trzeba okre´sli´c gra-nic˛e wieku. Ł ˛aczenie warto´sci lub szukanie punktów podziałowych najcz˛e´sciej wykonuje si˛e algorytmami drzew decyzyjnych (klasyfi-kacyjnych) (Kami´nski i Zawisza, 2012), wyliczaj ˛ac statystyki mie-rz ˛ace poziom jednorodno´sci uzyskiwanych grup, takie jak entropia i indeks Giniego.