• Nie Znaleziono Wyników

Podstawowe struktury danych i poj˛ecia

wykorzystania modeli skoringowych

2.1. Podstawowe struktury danych i poj˛ecia

Omawiane w pracy metody statystyczne s ˛a przykładem typowych modeli predykcyjnych. Istota modelowania polega na odkryciu re-guł, zale˙zno´sci pomi˛edzy zmiennymi niezale˙znymi, zmiennymi ob-ja´sniaj ˛acymi (cechami lub charakterystykami), zwanymi tak˙ze pre-dyktorami (ang. predictors), a funkcj ˛a celu (ang. target variable), na-zywan ˛a zmienn ˛a obja´snian ˛a. Liczba zmiennych mo˙ze by´c do´s´c du˙za i w niektórych firmach przekracza kilka tysi˛ecy. Przygotowanie ta-kiej struktury jest bardzo zło˙zonym procesem i zajmuje ´srednio 80%

całego czasu budowy modelu. Zbiór danych ze zmiennymi i funk-cj ˛a celu zbiorczo nazywa si˛e tabel ˛a analityczn ˛a (ang. analytical base table– ABT), poj˛ecie wprowadzone przez firm˛e SAS Institute w ra-mach narz˛edzia SAS Credit Scoring Solution. Wierszem takiej ta-beli jest jeden historyczny przypadek badanego zjawiska, zdarzenia.

Funkcj ˛a celu jest kolumna zawieraj ˛aca tylko dwie warto´sci: nast ˛ api-ło zdarzenie lub nie (w j˛ezyku statystycznym mówi si˛e, ˙ze zmienna odpowiedzi jest dwuwarto´sciowa, binarna lub dychotomiczna).

Bardzo wa˙znym poj˛eciem w modelowaniu i strukturze danych jest zdarzenie modelowe. W przypadku bankowo´sci i ryzyka kredy-towego jest to zdarzenie niewywi ˛azania si˛e ze zobowi ˛azania kredyto-wego (ang. default). Rozwa˙zany jest tu przypadek zwi ˛azany z defini-cj ˛a aplikacyjn ˛a, czyli z procesem akceptacji kredytowej. Wszystkie informacje o kliencie i jego wniosku kredytowym (aplikacji) zebra-ne przed i w trakcie aplikowania s ˛a danymi, na bazie których mo˙zna wylicza´c zmienne ABT. Nale˙zy podkre´sli´c fakt, ˙ze klient aplikuj ˛ a-cy o kredyt mo˙ze by´c ju˙z znany bankowi lub na rynku bankowym (co mo˙zna sprawdzi´c w raporcie BIK), gdy˙z mo˙ze składa´c wniosek o kolejny kredyt. Im jest wi˛ecej kredytów w jego historii, tym wi˛ecej mo˙zna wyznaczy´c zmiennych behawioralnych, czyli opartych na za-chowaniu klienta. Je´sli jest to pierwszy wniosek klienta, mamy tylko informacje pochodz ˛ace z wniosku, których jest stosunkowo niewiele

i które nie s ˛a cz˛esto wiarygodne. Wiele informacji klient sam dekla-ruje, s ˛a to takie dane, jak: liczba osób na utrzymaniu, status mał˙ze´n-ski, mieszkaniowy czy nawet wynagrodzenie.

Od momentu aplikacji, czyli „punktu obserwacji” (rysunek 1, str. 35), w „okresie obserwacji” (ang. outcome period), najcz˛e´sciej w ci ˛agu 12 miesi˛ecy, badamy zaj´scie zdarzenia, w naszym przy-padku niewywi ˛azania si˛e ze zobowi ˛azania, czyli posiadania wi˛ecej ni˙z 90 dni opó´znienia w spłatach rat kredytowych. Innymi słowy, od momentu aplikacji badamy, czy w ci ˛agu 12 miesi˛ecy klient wpadł w opó´znienie wi˛eksze ni˙z 90-dniowe, czyli obejmuj ˛ace trzy niespła-cone raty. Takie zdarzenie modelowe nazwiemy w skrócie „aplika-cyjn ˛a definicj ˛a default”. W tym uj˛eciu dany wniosek kredytowy po-jawia si˛e tylko raz w jednym wierszu tabeli ABT.

Mo˙zna tak˙ze zdefiniowa´c behawioraln ˛a definicj˛e default. W tym wypadku w punkcie obserwacji rozwa˙zamy wszystkie „zdrowe”, czy-li jeszcze bez opó´znie´n, rachunki kredytowe. Punktem obserwacji jest najcz˛e´sciej koniec miesi ˛aca. Co miesi ˛ac wszystkie „zdrowe” ra-chunki s ˛a badane pod k ˛atem wywi ˛azywania si˛e ze zobowi ˛azania.

Rachunki, które cechuje zbyt du˙ze prawdopodobie´nstwo wpadni˛ecia w opó´znienie, musz ˛a by´c zidentyfikowane i powinna by´c dla nich wyliczona rezerwa finansowa. Dlatego cyklicznie model taki stosuje si˛e wobec wszystkich „zdrowych” rachunków. Oznacza to, ˙ze dany rachunek mo˙ze pojawi´c si˛e wiele razy w ABT dla ró˙znych miesi˛e-cy. Podobnie jak w definicji aplikacyjnej tu tak˙ze obserwuje si˛e ra-chunki w ci ˛agu 12 miesi˛ecy od punktu obserwacji i bada si˛e wej´scie w opó´znienie powy˙zej 90 dni. W przypadku definicji aplikacyjnej b˛edziemy interpretowali parametr PD zwrócony przez model skorin-gowy jako prawdopodobie´nstwo wej´scia w opó´znienie wi˛eksze od 90-dniowgo (90+) od daty aplikacji w ci ˛agu 12 miesi˛ecy pod warun-kiem, ˙ze klient otrzyma od banku nowy kredyt, o który wła´snie si˛e starał. W przypadku definicji behawioralnej b˛edzie to prawdopodo-bie´nstwo wej´scia w default pod warunkiem, ˙ze posiada takie, a nie inne kredyty w punkcie obserwacji, czyli w danym miesi ˛acu ˙zycia banku. Jest to zatem zupełnie inne warunkowanie, o którym niestety praktycy czasem zapominaj ˛a.

Nale˙zy bardzo przestrzega´c warunku, by wszystkie dane do wy-licze´n ABT pochodziły z danych gromadzonych przed dat ˛a

wnio-Rysunek 1. Elementy definicji zdarzenia modelowego

Okres obserwacji Punkt

obserwacji

Okres danych

Czas

Zródło: opracowanie własne.´

skowania lub z samego wniosku, czyli z „okresu danych” (Provost i Fawcett, 2014), ka˙zda informacja pozyskana o kliencie pó´zniej wpro-wadza istotny bł ˛ad w modelowaniu i mo˙ze całkowicie przekre´sli´c poprawno´s´c metody oraz wyników modelu. Co gorsze, wszelkie in-formacje istniej ˛ace po dacie wniosku, nazywane cz˛esto informacja-mi wzi˛etyinformacja-mi z przyszło´sci, powoduj ˛a, ˙ze modele zyskuj ˛a na swojej mocy predykcyjnej i potrafi ˛a prognozowa´c z bardzo du˙z ˛a, a˙z niewia-rygodn ˛a dokładno´sci ˛a, ale tylko na danych historycznych. Przypu´s´c-my, ˙ze chcemy prognozowa´c odchodzenie klientów, czyli zdarzenie rozwi ˛azania umowy w ci ˛agu 6 miesi˛ecy od jej podpisania. Je´sli do danych ABT dodamy informacj˛e o wykonanym telefonie klienta do Call Center, podczas której zadeklarował ch˛e´c rozwi ˛azania umowy, to zmienna identyfikuj ˛aca to zdarzenie na pewno zostanie wybrana do modelu, bo raczej na 90% klient taki po pewnym czasie umo-w˛e rozwi ˛a˙ze. Model zatem absurdalnie b˛edzie działał, testuj ˛ac dane historyczne zarówno o rozwi ˛azanych umowach, jak i wykonanych wcze´sniej telefonach, ale niestety nigdy nie pomo˙ze on nam przewi-dywa´c odej´scia klientów podpisuj ˛acych umowy dzi´s. Istota takiego modelowania powinna polega´c na przewidzeniu odej´scia, zanim na-st ˛api jakakolwiek akcja klienta zmierzaj ˛acego do rozwi ˛azania umo-wy. Klient wnioskuj ˛acy, czyli podpisuj ˛acy umow˛e dzi´s, nie

ujaw-nia ch˛eci odej´scia, bo wła´snie deklaruje przyst ˛apienie do umowy.

Innym przykładem mo˙ze by´c model prognozowania ´smierci klien-ta. Najlepszy predyktor „wzi˛ety z przyszło´sci” to sprawdzenie, czy data zgonu jest niepusta. W rzeczywisto´sci prognozuje si˛e zgon na zbiorze klientów, gdy wspomniana data jest tylko pusta. Cho´c przy-toczone przykłady wydaj ˛a si˛e oczywiste, to jednak przy rzeczywi-stych problemach łatwo o pomyłk˛e. Trzeba bardzo dobrze rozumie´c proces, którym zarz ˛adzamy, zanim zbudujemy ABT i zdarzenie mo-delowe. Mniej oczywistym przykładem mo˙ze by´c sytuacja wykorzy-stania w modelowaniu informacji o nazwie banku z rachunku ROR (rachunku oszcz˛edno´sciowo-rozliczeniowego) wnioskuj ˛acego klien-ta. Przypu´s´cmy, ˙ze klient wnioskuj ˛acy o kredyt dopiero po otrzy-maniu akceptacji podaje numer rachunku, na który nale˙zy wykona´c przelew. Informacja ta jest jednym słowem zgromadzona pó´zniej ni˙z wydawana decyzja kredytowa. Je´sli analityk buduj ˛acy model nie po-zna procesu, to analizuj ˛ac dane historyczne, mo˙ze odnie´s´c wra˙zenie,

˙ze numer rachunku istniał ju˙z przed decyzj ˛a i mo˙ze go wykorzy-sta´c w identyfikacji banku. Mo˙ze si˛e okaza´c, ˙ze nawet nazwa banku b˛edzie dobrym predyktorem. Niestety taki model potem nie b˛edzie mógł by´c wdro˙zony, gdy˙z oka˙ze si˛e, ˙ze danej nie da si˛e pozyska´c w momencie podejmowania decyzji.

Dzi´s bardzo wiele firm w ramach swoich zespołów analitycznych utrzymuje i nieustaj ˛aco rozwija ABT. Staje si˛e ona jednym z istot-nych aktywów firmy, cho´c niestety mało jeszcze docenianym przez jej zarz ˛ad. Budowa dobrej ABT gwarantuje szybkie i poprawne bu-dowanie nowych modeli. Daje te˙z mo˙zliwo´s´c weryfikacji popraw-no´sci danych, czyli ich jako´sci. Z roku na rok temat ten staje si˛e coraz modniejszy. Wiele ju˙z napisano o jako´sci i pewnie jeszcze wie-le informacji zostanie usystematyzowanych. Warto jednak pami˛eta´c o kilku prostych przykładach. Jednym z najcz˛estszych bł˛edów jest złe kodowanie warto´sci zero lub braku danych. Przypu´s´cmy, ˙ze li-czymy ´sredni ˛a warto´s´c limitów kart kredytowych klientów w na-szym banku. Je´sli tylko połowa z nich posiada kart˛e, a druga ma warto´s´c limitu zero zamiast braku danych, to ´sredni limit b˛edzie dwa razy mniejszy od spodziewanego. Tak prosty przypadek, a tak fał-szywy wniosek.

Istot ˛a bogatej ABT, zawieraj ˛acej wi˛ekszo´s´c informacji o bada-nym zjawisku, jest mo˙zliwo´s´c weryfikacji i okre´slenia, w jakim stop-niu warto´sci funkcji celu s ˛a mo˙zliwe do przewidzenia. Je´sli zbada si˛e wszystkie mo˙zliwe informacje zebrane w dost˛epnych bazach, wtedy ma si˛e pewno´s´c, ˙ze nie da si˛e zbudowa´c lepszego modelu.

Oczywi´scie problem dotyczy stwierdzenia „wszystkie mo˙zliwe”,

je-´sli bowiem uwzgl˛ednia si˛e t˛e sam ˛a informacj˛e, to i tak mo˙zna zbudo-wa´c ró˙znego rodzaju zmienn ˛a, raz mo˙ze to by´c ´srednie saldo klien-ta w ci ˛agu ostatnich 12 miesi˛ecy, a raz maksymalne. Niby ta sama informacja, a jednak mo˙ze by´c lepszym lub gorszym predyktorem.

Trzeba wielu lat do´swiadcze´n i testów, by wyrobi´c w sobie cenn ˛a umiej˛etno´s´c budowania zmiennych ABT.