• Nie Znaleziono Wyników

content/uploads/2018/06

N/A
N/A
Protected

Academic year: 2021

Share "content/uploads/2018/06"

Copied!
39
0
0

Pełen tekst

(1)

ML w problemie scoringu – case study

(2)

Cześć!

Mateusz Grzyb

(3)

3

(4)

Najważniejsze informacje na temat projektu:

• Klient: sektor finansowy, top 3 w swojej branży. • Start: listopad 2017, koniec: maj 2018.

• Przez projektem klient nie korzystał z systemu scoringowego. • Decyzje podejmowane w oparciu o dane przez ekspertów. • Zespół ITM – ok. 10 osób.

Zarys projektu

(5)

5

(6)

Definicja:

• System oceny pozwalającej na klasyfikację obserwacji na podstawie wybranych cech. • Pozwala sklasyfikować podmioty na dwie klasy: dobre i złe.

• Predykcja zostaje wyznaczona dla przyjętego horyzontu czasowego.

Zastosowanie:

• Sektor finansowy (ocena ryzyka kredytowego, wgląd w wypłacalność klienta).

Główne korzyści:

• Automatyzacja podejmowanych decyzji. • Ograniczanie ryzyka.

• Optymalizacja kosztów (np. kredytu). • Wyższe zyski.

Definicja systemu scoringowego

(7)

Definicja systemu scoringowego

7

Dobry klient Zły klient

0 0.5 1 Klient ABC Score: 0.71 Historia spłacalności Historia zadłużenia Typ prowadzonej działalności Forma prawna podmiotu Przykładowe zmienne:

(8)

Wybrany horyzont czasowy

wz

8

Linia życia danego klienta

Dziś

Dane historyczne

Horyzont czasowy

Dziś + n miesięcy

(9)

9

(10)

Proces budowy systemu scoringowego

(11)

1

Zrozumienie biznesu

Zrozumienie potrzeb klienta, ustalenie celu i pierwsze wyzwania.

(12)

2

Zrozumienie danych

Poznanie dostępnych źródeł danych, ich podziału i struktury.

(13)

3

Ustalenie finalnej definicji zmiennej celu

Definicja zmiennej objaśnianej zgodna z celem biznesowym.

(14)

KTO? - klientem nierzetelnym, nazywano klienta, u którego w ciągu ostatnich

n

miesięcy:

• Wystąpiły problemy ze spłatą zobowiązań. • Zmiana salda zobowiązań.

KIEDY? - wybór horyzontu czasowego:

• Wystarczająco wysoka zmienność danych (liczba transakcji w danym okresie). • Relatywnie krótki czas potrzebny do walidacji wyników modelu.

Ustalenie finalnej definicji zmiennej celu

(15)

4

Pozyskanie nowych danych

Wyjście naprzeciw oczekiwaniom klienta.

(16)

Dwa modele:

• Aplikacyjny i behawioralny.

• Dane z wewnętrznych źródeł klienta:

• Tabele opisujące klientów (teleadresowe). • Tabele opisujące historię transakcji.

• Tabele opisujące wierzycieli.

• Dane pochodzące ze źródeł zewnętrznych.

Pozyskanie nowych danych

16

Model danych

Dane ze źródeł

(17)

5

Przygotowanie danych

Odpowiedni okres czasu, filtrowanie danych o złej jakości, podział na „koszyki”, próbkowanie, przecieki.

(18)

6

Modelowanie

Budowa modelu aplikacyjnego i behawioralnego.

(19)

Model 1 (behawioralny):

• Dane klientów.

• Dane dotyczące historii prowadzenia konta. • Dane dotyczące historii spłat zobowiązań. • Dane produktów z jakich korzystał klient. • Dane ze źródeł zewnętrznych.

Model 2 (aplikacyjny)

• Dane ze źródeł zewnętrznych.

Modelowanie - opis dostępnych zmiennych

(20)

Charakterystyka modelu:

• Wykorzystano połączone źródła danych:

• Dane ze źródeł wewnętrznych. • Dane ze źródeł zewnętrznych.

• Dostęp do danych behawioralnych.

• Możliwość użycia jedynie dla podmiotów znajdujących się w bazie danych klienta.

Model 1 – połączone źródła danych

(21)

Charakterystyka modelu:

• Wykorzystano dane zewnętrzne.

• Brak dostępu do danych behawioralnych.

• Możliwość użycia dla wszystkich podmiotów znajdujących.

Model 2 – dane z rejestrów zewnętrznych

(22)

Jako miary jakości modeli przyjęto:

• Gini

• Podstawowa miara jakości modelu. • Przyjmuje wartość 0 - 1.

• Czułość

• Procentowa wartość wszystkich dobrze rozpoznanych defaultów. • Przyjmuje wartość 0 – 100.

• Stabilność

• Procentowa wartość wszystkich dobrze sklasyfikowanych klientów. • Przyjmuje wartość 0 – 100.

• Badana podczas walidacji krzyżowej z pomocą współczynnika zmienności.

Modelowanie - wybór odpowiedniej miary jakości

(23)

W ramach testów zbudowano modele:

• Naiwny klasyfikator Bayesa. • Drzewo decyzyjne.

• Regresja logistyczna.

Różne założenia:

• Naiwny Bayes

• Brak zależności pomiędzy zmiennymi. • Duże znaczenie ma przygotowanie danych.

• Drzewo decyzyjnego

• Niewrażliwe na odstające wartości.

• Optymalizacja parametrów > przygotowanie danych.

• Regresja logistyczna

• Problemy ze współliniowością zmiennych.

• Dobór zmiennych i przygotowanie danych > optymalizacja parametrów.

Modelowanie – algorytmy

(24)

7

Omówienie i przedstawienie wyników

Uzyskane rezultaty dla obu modeli, sposób prezentacji wyników scoringu.

(25)

• Każdemu klientowi zostaje nadany score będący wartością z zakresu <0, 1>.

• W oparciu o dane pozyskane z procesie uczenia i testowania modelu, zostanie wyznaczony punkt separacji. • Im bliżej wartości 0, tym większe prawdopodobieństwo, że klient okaże się rzetelny.

• Im bliżej wartości 1 tym większe prawdopodobieństwo, że klient okaże się nierzetelny.

Sposób przedstawiania wyników

25

Dobry klient Zły klient

0 0.5 1

Klient ABC Score: 0.71 0.xx

(26)

26

(27)

WNIOSEK #1

Przygotowanie danych to 80% sukcesu.

(28)

WNIOSEK #2

Regresja logistyczna – algorytm pierwszego wyboru dla problemu scoringu.

(29)

WNIOSEK #3

Interpretowalność wyników regresji logistycznej > interpretowalność drzewa decyzyjnego (wg biznesu).

(30)

WNIOSEK #4

Dobór zmiennych kluczem do sukcesu w modelu regresji logistycznej.

(31)

Dobór zmiennych do modelu regresji logistycznej

31

1.

Usunięcie zmiennych o małej zmienności.

2.

Usunięcie zmiennych o zbyt dużej liczbie brakujących wartości (uwaga: brak może być

informacją).

3.

Badanie współczynników korelacji pomiędzy zmiennymi objaśniającymi.

4.

Badanie istotności zmiennych (pozostało ok. 200 zmiennych).

5.

Wybór zmiennych objaśniających o możliwie najmniejszym współczynniku korelacji.

• Spośród par zmiennych wysoce skorelowanych wybieraliśmy tą zmienną, która miała wyższą istotność (< 100 zmiennych).

6.

Analiza współczynnika VIF.

(32)

WNIOSEK #5

Dobór parametrów modelu kluczem do sukcesu w modelu drzewa decyzyjnego (CART).

(33)

Dobór parametrów do modelu drzewa decyzyjnego

33

Drzewo decyzyjne (CART):

• Niewrażliwe na odstające wartości.

• Brak założeń dotyczących normalności rozkładu.

• GridSearch vs RandomizedSearch

• przeszukiwanie siatki wartości ciągłych,

(34)

WNIOSEK #6

Interpretowalność to nie sam algorytm.

(35)

Interpretowalność to nie sam algorytm

35

Na interpretację składają się m.in.:

• Odpowiedni algorytm.

• Intuicyjność zmiennych.

• Transformacje wykonane na zbiorze.

• Liczba zmiennych.

(36)
(37)

WNIOSEK #7

Finalny sukces, to nie tylko zasługa modelowania.

(38)

WNIOSEK #8

Siła tkwi w mocnym, zróżnicowanym zespole.

(39)

Dziękuję!

Pytania?

Kontakt: mateusz.grzyb@itmagination.com

Slajdy i materiały: MateuszGrzyb.pl/DSS

Cytaty

Powiązane dokumenty

adoptowania się do warunków życia i pracy w innym kraju europejskim dzięki poznaniu kultury innego narodu i doskonaleniu języka obcego, w tym zawodowego oraz poszerzania horyzontów

Do instrumentów tych zalicza siê nastê- puj¹ce prawa: do swobodnego przemieszczania siê i przebywania obywa- teli na terytorium pañstw cz³onkowskich; do korzystania na

97 Traktatu o EAUG, zarówno pracownik, cz³onek rodziny pracownika, jak i pracodaw- ca maj¹ prawo korzystaæ ze swobody przep³ywu na terytorium wszyst- kich piêciu pañstw

Zapo- wiedzi upolitycznienia Trybuna³u Konstytucyjnego, skoncentrowanie pra- cy resortu sprawiedliwoœci na dzia³aniach zmierzaj¹cych w kierunku ograniczenia samorz¹dnoœci

Intelektualny potencja³ rewolucyjnych konserwatystów czyni³ z nich niepoœledni czynnik kszta³towania siê nie tylko antyliberalnych koncep- cji ustrojowych, ale tak¿e

Podczas posiedzenia egzekutywy brudzeñskiego KG PZPR, które odby³o siê 13 maja 1982 r., omawiano „przebieg uroczystoœci na terenie gminy zwi¹zanych ze Œwiêtem Pracy”

konstytucyjny a praktyka ustrojowa, red.. przewodnicz¹cego Trybuna³u Stanu i cz³onków – sêdziów TS, pos³ów – cz³onków Krajowej Rady S¹downiczej, na podstawie ustawy

2 Traktatu o funkcjonowaniu Unii Europejskiej (TFUE): „Bez uszczerbku dla postanowieñ artyku³u 223 ustêp 1 i przepisów przyjêtych w celu jego wykonania, ka¿dy obywatel Unii