• Nie Znaleziono Wyników

Przykład u˙zycia - problem oceny ryzyka kredytowego

Metody uczenia maszynowego s ˛a powszechnie stosowane do rozwi ˛azywania proble-mów podejmowania decyzji w dziedzinie ekonomii. Konieczne jest wi˛ec opracowanie roz-wi ˛aza´n pozwalaj ˛acych na efektywne ich wykorzystanie w procesach biznesowych wyma-gaj ˛acych rozwi ˛azania problemów decyzyjnych. Dzi˛eki opracowanej architekturze SODMA mo˙zliwe jest bezproblemowe wykorzystanie rozwi ˛aza´n poprzez wywołanie odpowiednich usług DMS bez konieczno´sci ingerencji w struktur˛e systemów informatycznych wykorzy-stywanych przez instytucje finansowe.

Typowym problemem decyzyjnym w dziedzinie ekonomii jest ocena ryzyka kredyto-wego, który w wielu przypadkach sprowadzany jest do problemu klasyfikacji, gdzie kla-sy odpowiadaj ˛a mo˙zliwym wariantom decyzji kredytowych. Problem modelowania ryzyka kredytowego po raz pierwszy został rozwi ˛azany przez Durmana w 1941 [19, 150], który

zaproponował funkcj˛e dyskryminacyjn ˛a celem oddzielenia „dobrych” i „złych” klientów. W latach 80-tych rozwój po˙zyczek osobistych, kart kredytowych, oraz kredytów gotówkowych id ˛acy w parze z rozwojem systemów informatycznych spowodował, ˙ze powszechne do oce-ny zdolno´sci kredytowej stało si˛e wykorzystanie modeli regresji logistycznej i programowa-nia liniowego. Lata 90-te zapocz ˛atkowały stosowanie do oceny ryzyka metod eksploracji danych, takich jak drzewa decyzyjne i algorytmy regułowe. Z kolei pocz ˛atek XXI przyniósł rozwój hybrydowych i zło˙zonych metod klasyfikacji [61, 138, 150, 152].

Rysunek 6.2: Proces przydziału kredytu klientowi bankowemu.

Proces biznesowy charakteryzuj ˛acy procedur˛e przydziału kredytu klientowi został umiesz-czony na Rysunku 6.2. W pierwszej kolejno´sci zbierane s ˛a dane na temat klienta, które maj ˛a istotny wpływ na decyzj˛e kredytow ˛a. Dane te wprowadzane s ˛a nast˛epnie do systemu, któ-ry wykonuje ocen˛e analizy ryzyka kredytowego i wspomaga pracownika w podj˛eciu osta-tecznej decyzji o przydzieleniu kredytu. W obecnych systemach wspomagaj ˛acych decyzje kredytowe stosowane s ˛a tzn. tablice scoringowe (ang. scoring tabels) [91, 117], w ramach której ka˙zdemu z atrybutów charakteryzuj ˛acych kredytobiorc˛e przyporz ˛adkowywana jest okre´slona liczba punktów.2Im wy˙zsza jest warto´s´c przyporz ˛adkowywanych punktów, tym wi˛ekszy jest wpływ danej cechy na pozytywn ˛a decyzj˛e kredytow ˛a. Model w postaci tabe-li scoringowej konstruowany jest za pomoc ˛a eksperta, b ˛ad´z te˙z z wykorzystaniem metod uczenia maszynowego, głównie modeli regresji logistycznej. Podej´scia wykorzystuj ˛ace ta-blice scoringowe s ˛a powszechnie stosowane w wielu polskich bankach ze wzgl˛edu na zro-zumiał ˛a dla człowieka procedur˛e podejmowania decyzji, mo˙zliwo´s´c modyfikacji samego modelu decyzyjnego poprzez zmian˛e liczby punktów skojarzonych z atrybutem, oraz dzi˛ e-ki prostocie w implementacji. Tablice scoringowe charakteryzuj ˛a si˛e jednak ni˙zsz ˛a jako´sci ˛a klasyfikacji, ni˙z metody takie jak SVM, czy klasyfikatory wzmacnianie.

2Atrybuty numeryczne poddawane s ˛a dyskretyzacji, nast˛epnie wszystkie atrybuty nominalne s ˛a binaryzo-wane. W rezultacie ka˙zdy z atrybutów okre´sla wyst ˛apienie cechy u kredytobiorcy

Przyszło´s´c zagadnie´n dotycz ˛acych analizy ryzyka kredytowego nale˙ze´c b˛edzie do zaawan-sowanych technik uczenia maszynowego, takich jak opracowane w ramach rozprawy wzmac-niane algorytmy SVM. Konieczne jest wi˛ec opracowanie mechanizmów umo˙zliwiaj ˛acych systemom bankowym dost˛ep do tego typu rozwi ˛aza´n. Dzi˛eki opracowanej architekturze udost˛epniania metod uczenia maszynowego SODMA mo˙zliwe jest wykorzystanie tego ty-pu algorytmów poprzez uniwersalne interfejsy Webowe. W takim podej´sciu komponent zwi ˛azany z podejmowaniem decyzji w rozpatrywanym procesie biznesowym mo˙ze by´c re-alizowany poprzez wywołanie odpowiednich usług DMS. Zestaw modeli wspomagaj ˛acych decyzje kredytowe nie jest wi˛ec ograniczony do zaimplementowanych w ramach syste-mu bankowego tablic scoringowych. Dzi˛eki elastycznej, zunifikowanej komunikacji z DMS mo˙zliwe jest wykorzystanie dowolnego algorytmu klasyfikacji dost˛epnego w ramach sys-temu zgodnego z SODMA. Pracownik banku ma mo˙zliwo´s´c porównania wyników analizy ryzyka kredytowego z wykorzystaniem ró˙znych modeli klasyfikacyjnych. Dodatkowo, dla nowych metod udost˛epnianych za po´srednictwem DMS ze wzgl˛edu na ujednolicony sposób komunikacji z usługami mo˙zliwe jest wykorzystanie najnowszych rozwi ˛aza´n bez koniecz-no´sci ingerencji w implementacj˛e system informatycznego dost˛epnego w banku. Konieczna jest jedynie rejestracja usługi DMS w systemie informatycznym banku poprzez podanie lo-kalizacji jej opisu w j˛ezyku WSDL.

6.3.1 Analiza jako´sci metod niezbalansowanych w kontek´scie oceny

ryzyka dla kredytów 30-dniowych

Opracowane w ramach rozprawy zło˙zone metody klasyfikacji zostały wdro˙zone w przed-si˛ebiorstwie projektuj ˛acym systemy informatyczne dla instytucji parabankowych poprzez wykorzystanie architektury SODMA. W ramach wdro˙zenia wykorzystano usługi DMS do konstrukcji i pó´zniejszego wykorzystania modelu decyzyjnego okre´slaj ˛acego ryzyko spła-calno´sci kredytów 30-dniowych. Problem decyzyjny został zdefiniowany jako dychotomicz-ne zadanie klasyfikacji w którym jedna z mo˙zliwych klas reprezentowała sytuacj˛e w której klient spłacił kredyt (terminowo, b ˛ad´z z opó´znieniem bez konieczno´sci wszczynania pro-cedury windykacyjnej), druga natomiast dotyczyła sytuacji w której klientowi nie udało si˛e spłaci´c kredytu i konieczna była windykacja nale˙zno´sci.

Celem doboru odpowiedniej metody klasyfikacji dokonano analizy jako´sci dost˛epnej w ramach DMS algorytmów na rzeczywistym zbiorze danych dotycz ˛acym kredytów 30-dniowych. Wykorzystany w eksperymencie zbiór danych składał si˛e z 1146 obiektów, z których 1005 klientów spłaciło kredyt, natomiast w przypadku 141 osób wszcz˛eto pro-cedur˛e windykacyjn ˛a. Ka˙zdy z klientów był opisany wektorem 9 cech, takich jak kwota kredytu, miesi˛eczny dochód, czy te˙z rodzaj ´zródła dochodu. W badaniu przeanalizowa-no udost˛epnione w ramach DMS metody klasyfikacji: algorytm Naiwnego Bayesa (NB),

drzewo decyzyjne C 4.5 (J48), RIPPER (JRip), regresj˛e logistyczn ˛a (LR), sie´c neuronow ˛a (MLP), oraz opracowane w ramach rozprawy metody BSI, BSI1 i BSI2. Dodatkowo, ze

wzgl˛edu na wysoki stopie´n niezbalansowania danych, przeanalizowano jako´s´c najefektyw-niejszych metod rozwi ˛azuj ˛acych problem dysproporcji pomi˛edzy klasami:UB, RUS i SSVM.

Wyniki przeprowadzonych bada´n udost˛epniono w Tabeli 6.1.

Metoda TPrate TNrate Acc GMean

UB 63.83 59.30 59.86 61.53 RUS 44.68 73.93 70.33 57.47 SSVM 65.96 55.92 57.16 60,73 BSI 59.57 64.48 63.87 61,98 BSI1 62.41 63.18 63.09 62.80 BSI2 63.12 63.88 63.79 63.50 JRip 0.00 100.00 87.70 0.00 J48 0.00 100.00 87.70 0.00 NB 25.53 87.76 80.10 47.34 MLP 4.26 96.42 85.08 20.26 LR 0.00 100.00 87.70 0.00

Tabela 6.1: Wyniki dla zbioru danych dotycz ˛acego analizy ryzyka kredytowego.

Tradycyjne metody klasyfikacji udost˛epnione w ramach DMS charakteryzowały si˛e ze-row ˛a, b ˛ad´z bardzo nisk ˛a warto´sci ˛a GM ean. Najwy˙zsz ˛a warto´s´c wska´znika spo´sród metod nieposiadaj ˛acych mechanizmów obsługi danych niezbalansowanych zaobserwowano dla algorytmu Naiwnego Bayesa. W przypadku metod UB, RUS i SSVM posiadaj ˛acych wbudo-wane mechanizmy redukuj ˛ace niezbalansowanie danych najwy˙zsza warto´s´c GM ean

zosta-ła zaobserwowana dla metodyUB. Metoda ta, podobnie jak w przypadku bada´n opisanych w poprzednich rozdziałach charakteryzowała si˛e najwy˙zsz ˛a warto´sci ˛a wska´znika T Prate, przy najni˙zszej warto´sci T Nrate. Najwy˙zsz ˛a warto´s´c wska´znika GM ean zaobserwowano dla metod opracowanych w ramach rozprawy: BSI, BSI1 oraz BSI2. Algorytmy BSI1 oraz BSI2, które wykorzystuj ˛a mechanizmy eliminacji obserwacji nieinformacyjnych osi ˛agn˛eły wy˙zsz ˛a warto´s´c wska´znika GM ean. Potwierdza to tez˛e, ˙ze metody wykorzystuj ˛ace elimi-nacj˛e charakteryzuj ˛a si˛e wy˙zsz ˛a jako´sci ˛a działania dla danych wysoce niezbalansowanych (Wska´znik niezbalansowania dla danych dotycz ˛acych ryzyka kredytowego był równy 7.13).