Binarna regresja logistyczna i drzewa decyzyjnedecyzyjne

wykorzystania modeli skoringowych

2.3. Binarna regresja logistyczna i drzewa decyzyjnedecyzyjne

Modele regresyjne, w szczególno´sci regresja liniowa, znamy ju˙z od setek lat, s ˛a zwi ˛azane z takimi twórcami, jak Adrien-Marie Legen-dre i Carl Friedrich Gauss, którzy napisali swoje najwi˛eksze dzie-ła w XVIII w. Wtedy powstadzie-ła metoda najmniejszych kwadratów.

Model ten, stosowany do dzisiaj, pozwala wyznaczy´c zale˙zno´s´c

po-mi˛edzy funkcj ˛a celu a predyktorami, przy zało˙zeniu ˙ze funkcja celu posiada rozkład ci ˛agły i normalny. Niestety modelowanie zdarzenia defaultnie spełnia tych zało˙ze´n. Przez wiele lat – pomimo łamania zało˙ze´n – statystycy u˙zywali regresji liniowej, a˙z do czasu powstania lepszej metody – regresji logistycznej.

W celu jej zrozumienia na pocz ˛atku trzeba zdefiniowa´c rozkład zero-jedynkowy. Rozwa˙zmy zdarzenie losowe polegaj ˛ace na zaj´sciu zdarzenia default lub jego braku. Zmienna losowa Y przyjmuje za-tem tylko dwie warto´sci Y = 1 lub Y = 0, gdzie warto´s´c 1 uto˙zsa-miamy z zaj´sciem zdarzenia default. Zaj´scie zdarzenia posiada

okre-´slone prawdopodobie´nstwo, które oznaczamy przez p, mamy zatem:

p = P (Y = 1). Prawdopodobie´nstwo zdarzenia przeciwnego, czyli braku default, mo˙zna łatwo obliczy´c: P (Y = 0) = 1 − P (Y = 1) = 1 − p. Przypu´s´cmy teraz, ˙ze zmienna losowa Y ma swoj ˛a realizacj˛e y, innymi słowy – została zaobserwowana jej warto´s´c (wykonano pomiar). Obliczmy teraz prawdopodobie´nstwo zaobserwowania tej warto´sci. Mo˙zemy to zapisa´c w dwóch wariantach:

P (Y = y) = albo w postaci jednego wzoru:

P (Y = y) = p^y(1 − p)^(1−y), a po przekształceniach w finalnej wersji:

P (Y = y) = exp yln p

Pojawia si˛e tu po raz pierwszy człon definiuj ˛acy funkcj˛e logito-w ˛a:

Logit(p) = ln p 1 − p

która staje si˛e wa˙znym elementem regresji logistycznej.

Rozwa˙zmy teraz sytuacj˛e bardziej ogóln ˛a. W naszej próbie lo-sowej, zawieraj ˛acej historyczne dane, zaobserwowali´smy N obser-wacji. Ka˙zda obserwacja funkcji losowej Y_n, zwi ˛azana ze statusem

zdarzenia default, ma warto´s´c y_n, gdzie n jest numerem obserwacji.

Interesuj ˛acym nas modelem jest wyja´snienie zale˙zno´sci pomi˛edzy prawdopodobie´nstwem zaj´scia zdarzenia default, co cz˛esto matema-tycznie zapisuje si˛e jako p_n = P (Y_n = 1), a predyktorami oznacza-nymi jako ci ˛ag zmiennych x¹_n, x²_n, ..., x^m_n, gdzie m jest liczb ˛a zmien-nych w ABT. Na pocz ˛atku definiuje si˛e cz˛e´s´c regresyjn ˛a, czyli kom-binacj˛e predyktorów:

Kombinacja ta jest zwi ˛azana nieliniow ˛a zale˙zno´sci ˛a z prawdopo-dobie´nstwem p_n. Funkcji wi ˛a˙z ˛acych mo˙zna zdefiniowa´c do´s´c

du-˙zo, na podstawie praktyki najpopularniejsz ˛a stała si˛e funkcja logito-wa (a zale˙zno´s´c nazlogito-wano „sigmoid”). Swoj ˛a popularno´s´c zawdzi˛e-cza mo˙zliwo´sci interpretacji członu _1−p^pⁿ

n, który nazywa si˛e szans ˛a zaj´scia zdarzenia default (ang. odds), jest to stosunek prawdopodo-bie´nstwa zaj´scia zdarzenia do prawdopodoprawdopodo-bie´nstwa zdarzenia prze-ciwnego. Mamy zatem model, który uzale˙znia logarytm naturalny z szansy albo logit z prawdopodobie´nstwa zaj´scia zdarzenia default od członu regresyjnego X_nβ. Finalnie wi˛ec jest estymowane nast˛e-puj ˛ace równanie:

Logit(p_n) = X_nβ,

gdzie X_ns ˛a danymi warto´sciami predyktorów, p_ns ˛a teoretycznymi warto´sciami prawdopodobie´nstw zaj´scia zdarzenia default dla n-tej obserwacji, a wektor współczynników β jest szukany.

Od funkcji logit pochodzi te˙z sama nazwa modelu regresji logi-stycznej (Hosmer i Lemenshow, 2000), czasem nazywanego mode-lem logitowym. Inne funkcje wi ˛a˙z ˛ace, jak i zało˙zenia co do rozkła-dów funkcji celu zostały uwzgl˛ednione w uogólnionych modelach liniowych (Dobson, 2002; Ptak-Chmielewska, 2013).

Współczynniki βi s ˛a obliczane (estymowane) na podstawie me-tody najwi˛ekszej wiarygodno´sci. Ró˙zni si˛e ona od wcze´sniej znanej metody najmniejszych kwadratów i jest niestety zwi ˛azana z bardziej zło˙zonym algorytmem poszukiwania maksimum funkcji. Znajduje si˛e je metod ˛a iteracyjn ˛a, w ka˙zdym kroku przybli˙zaj ˛ac si˛e do wyni-ku z coraz wi˛eksz ˛a dokładno´sci ˛a. Je´sli kolejne kroki powoduj ˛a, ˙ze

zmiana wyniku jest mniejsza od ustalonej dokładno´sci, to algorytm si˛e zatrzymuje i rozwi ˛azanie jest znalezione. W przeciwnym przy-padku algorytm jest rozbie˙zny i niestety trzeba wtedy zmieni´c lekko parametry wej´sciowe. Najpopularniejszym algorytmem jest metoda Newtona–Raphsona, która kolejne iteracje wyznacza, poruszaj ˛ac si˛e po wektorze wyznaczonym przez gradient funkcji wiarygodno´sci.

Metoda najwi˛ekszej wiarygodno´sci, opisana przez R.A. Fishera w XX w., jest oparta na bardzo prostym i uzasadnionym przesła-niu, ˙ze prawdopodobie´nstwo uzyskania takich, a nie innych warto´sci obserwacji w próbie musi by´c najwi˛eksze. Gdyby było inaczej, to otrzymaliby´smy inne warto´sci obserwacji. Mamy zatem, wykorzy-stuj ˛ac zało˙zenie o niezale˙zno´sci zaobserwowanych zdarze´n (czyli ˙ze prawdopodobie´nstwo zaj´scia kilku zdarze´n jednocze´snie jest równe iloczynowi ich prawdopodobie´nstw):

Funkcj ˛a wiarygodno´sci jest wła´snie prawdopodobie´nstwo zaob-serwowania wszystkich razem warto´sci y_n. Przykładaj ˛ac zatem do-datkowo funkcj˛e logarytmu i wstawiaj ˛ac za logity odpowiednie czło-ny regresyjne, otrzymamy finaln ˛a posta´c logarytmu z funkcji wiary-godno´sci (ang. likelihood – L):

ln(L(β)) =

n=1

(ynX_nβ − ln (1 + exp(X_nβ))) .

Istot ˛a metody maksimum wiarygodno´sci jest zatem znalezienie ta-kiego wektora współczynników β, by logarytm z funkcji wiarygod-no´sci był najwi˛ekszy.

Wyra˙zenie regresyjne X_nβ jest ocen ˛a punktow ˛a. Najcz˛e´sciej do-konuje si˛e tu dodatkowych prostych przekształce´n, by ocena ta była całkowita i miała lepsz ˛a interpretacj˛e (Przanowski, 2014a).

Dodatkowo ocena ta musi by´c rozbita na oceny cz ˛astkowe zwi ˛ a-zane z kategoriami predyktorów. Ka˙zdy predyktor, niezale˙znie od tego, czy jest zmienn ˛a ci ˛agł ˛a, czy nominaln ˛a (przykładem zmien-nej ci ˛agłej jest wiek, a nominalnej nazwa miasta), finalnie jest ka-tegoryzowany, czyli zamieniany na zestaw od kilku do maksymal-nie kilkunastu kategorii. W przypadku zmiennej nominalnej czasem potrzebne jest ł ˛aczenie kilku warto´sci w jedn ˛a kategori˛e, a w przy-padku zmiennej ci ˛agłej trzeba znale´z´c punkty podziałowe, np. aby podzieli´c na dwie grupy młodszych i starszych, trzeba okre´sli´c gra-nic˛e wieku. Ł ˛aczenie warto´sci lub szukanie punktów podziałowych najcz˛e´sciej wykonuje si˛e algorytmami drzew decyzyjnych (klasyfi-kacyjnych) (Kami´nski i Zawisza, 2012), wyliczaj ˛ac statystyki mie-rz ˛ace poziom jednorodno´sci uzyskiwanych grup, takie jak entropia i indeks Giniego.

2.4. Dane symulacyjne. Opis algorytmu

W dokumencie Credit Scoring studia przypadków, Karol Przanowski (Stron 39-43)