• Nie Znaleziono Wyników

Zastosowanie analiz Data Mining w przewidywaniu groźby upadłości lub konieczności prowadzenia postępowania układowego przedsię\ൢiorstwa – budowa modeli predykcyjnych, ocena ich jakości i wybór modelu

N/A
N/A
Protected

Academic year: 2021

Share "Zastosowanie analiz Data Mining w przewidywaniu groźby upadłości lub konieczności prowadzenia postępowania układowego przedsię\ൢiorstwa – budowa modeli predykcyjnych, ocena ich jakości i wybór modelu"

Copied!
15
0
0

Pełen tekst

(1)

MIROSŁAWA LASEK MAREK PCZKOWSKI DARIUSZ WIERZBA Uniwersytet Warszawski

Streszczenie

W artykule przedstawiono przydatnoĞü modeli Data Mining do przewidywania groĨby upadłoĞci lub postĊpowania układowego przedsiĊbiorstwa. Opisano zastoso-wanie modeli predykcyjnych: regresji logistycznej, drzew decyzyjnych oraz sieci neuronowych. RozwaĪania zilustrowano posługując siĊ danymi około szeĞciu tysiĊcy przedsiĊbiorstw, wĞród których czĊĞü była zagroĪona upadłoĞcią lub postĊpowaniem układowym.

Słowa kluczowe: prognozowanie upadło ci lub postpowania układowego przedsibiorstwa, modele predykcyjne Data Mining, regresja logistyczna, drzewa decyzyjne, sieci neuronowe

1. Wstp

Celem artykułu jest przedstawienie wyników bada przydatno ci analiz Data Mining w wyło-nieniu cech sygnalizujcych gro b upadło ci przedsibiorstwa lub skłaniajcych do podjcia postpowania układowego dla „uratowania” firmy oraz moliwo ci pozyskania wiedzy, jak na podstawie znajomo ci warto ci tych cech mona przewidzie zagroenie upadło ci lub koniecz-no ci prowadzenia postpowania układowego.

Pod pojciem cech rozumie si tu charakterystyki kondycji finansowej i majtkowej firmy, pochodzce ze sprawozda finansowych (bilans, rachunek zysków i strat, rachunek przepływów pieninych), takie jak majtek trwały, majtek obrotowy, stan rodków pieninych, przychody ze sprzeday, zobowizania oraz wska niki charakteryzujce kondycj ekonomiczn, do których nale wska niki płynno ci, zyskowno ci, aktywno ci i zadłuenia.

Analizy Data Mining s to analizy realizowane za pomoc zaawansowanych metod statystycz-nych oraz metod sztucznej inteligencji, które pozwalaj wykrywa zaleno ci midzy obiektami lub cechami opisujcymi obiekty na podstawie nagromadzonych duych zbiorów danych. Metody te pozwalaj na podstawie danych tworzy wiedz – budowa zaleno ci, wskazywa wzorce, okre la trendy [4], [8], [10], [11].

2. Dane wykorzystywane w prowadzeniu analiz

Wykorzystywany przez nas zbiór danych obejmował dane 5828 przedsibiorstw. Spo ród tych przedsibiorstw a 4954 to przedsibiorstwa bardzo dobre, tzw. „gazele biznesu” polskiej

(2)

gospo-darki. S to dynamicznie rozwijajce si firmy o czystej reputacji i nie majce problemów finan-sowych. Pozostałe 874 przedsibiorstwa to firmy, wobec których sd ogłosił upadło oraz firmy, wobec których sd ogłosił postpowanie układowe. Przedsibiorstw, wobec których sd ogłosił upadło – zgodnie z prawem upadło ciowym obowizujcym przed sierpniem 2003 r. lub upadło zakładajc likwidacj firmy zgodnie z prawem upadło ciowym i postpowaniem naprawczym, obowizujcym po sierpniu 2003 r., było w analizowanym zbiorze 402. Natomiast przedsibiorstw, wobec których sd ogłosił postpowanie układowe było 472. Przyjto rozumie postpowanie układowe zgodnie z prawem upadło ciowym obowizujcym przed 08.2003 lub reorganizacji firmy zgodnie z prawem upadło ciowym i postpowaniem naprawczym obowizuj-cym po 08.2003. Postpowanie naprawcze jest form ochrony przed wierzycielami zgodnie z prawem upadło ciowym i postpowaniem naprawczym, obowizujcym po 08.2003. Przedsibior-stwa upadłe i z postpowaniem układowym stanowiły 15,7% badanych przedsibiorstw, a 84,3% stanowiły „gazele”1. Pomijajc „gazele” przedsibiorstw upadłych było 46%, a przedsibiorstw z postpowaniem układowym 54%. Liczba analizowanych cech kondycji firm oraz wska ników - dalej nazywamy je take charakterystykami kondycji lub zmiennymi analizy - wynosiła łcznie 144. Zostały uwzgldnione wielko ci ze sprawozda finansowych, takie jak majtek trwały, majtek obrotowy, rodki pienine, suma aktywów, kapitał (fundusz) własny, zobowizania długoterminowe, zobowizania krótkoterminowe i fundusze specjalne, zobowizania krótkotermi-nowe, przychody ze sprzeday, amortyzacja, rodki pienine z działalno ci operacyjnej, rodki pienine z działalno ci inwestycyjnej, rodki pienine z działalno ci finansowej, zmiana stanu rodków netto, rodki na pocztek roku obrotowego, rodki na koniec roku obrotowego oraz wska niki, takie jak zysk lub strata (zysk/strata) ze sprzeday, zysk/strata na działalno ci operacyj-nej, zysk/strata brutto na działalno ci operacyjoperacyj-nej, zysk/strata brutto, zysk/strata netto. Uwzgld-niono wska niki nalece do 17 rónych grup: płynno ci, rotacji aktywów (majtku) trwałych, rotacji aktywów (majtku) w dniach, rotacji kapitału, rotacji kapitałem w dniach, struktury kapitałowej, struktury majtkowej, struktury majtkowo-kapitałowej, efektywno ci pracy i warto ci dodanej, rentowno ci, rozwoju, struktury przychodów, struktury kosztów, rynku kapitałowego, d wigni finansowej i operacyjnej, wiarygodno ci kredytowej, tendencji.

3. Prowadzone analizy

Przeprowadzono analizy danych, przyjmujc róne sposoby podziału przedsibiorstw na gru-py i uwzgldniania firm z grup o rónej kondycji ekonomicznej. W pierwszej z przeprowadzonych analiz przedsibiorstwa upadłe i z postpowaniem układowym traktowano łcznie i porównywano z przedsibiorstwami „gazelami”. W analizie wziły wic udział wszystkie badane przedsibior-stwa. W budowanych modelach Data Mining zmienn obja nian była zmienna binarna, przyjmu-jca warto 1, jeeli przedsibiorstwo upadło lub ma postpowanie układowe i 0, gdy jest „gazel”. W drugim przypadku starali my si zbada , czy istniej istotne rónice midzy przedsi-biorstwami upadłymi a przedsiprzedsi-biorstwami z postpowaniem układowym („gazele” nie były uwzgldniane). Analizowany zbiór przedsibiorstw liczył 874 przedsibiorstwa. Jako zmienn obja nian przyjto przedsibiorstwa upadłe, a zatem warto 1 zmiennej wskazywała przedsi-biorstwo upadłe, warto 0 – przedsiprzedsi-biorstwo z postpowaniem układowym. Trzeci przypadek

1Zgodnie z załoĪeniami analiz Data Mining, w celu przyspieszenia obliczeĔ, rozkłady cech są ustalane na podstawie zbioru metadanych, stanowiącego losowy zbiór 2000 obserwacji całego zbioru danych.

(3)

dotyczył przedsibiorstw upadłych i „gazel”. Przedsibiorstwa z postpowaniem układowym nie były brane pod uwag. Zbiór analizowanych przedsibiorstw obejmował 5356 firm (402 upadłych i 4954 „gazel”). Jako zmienn obja nian przyjto zmienn binarn, okre lajc - firm upadł (warto 1) i „gazel” (warto 0). W czwartym przypadku nie wzito pod uwag przedsibiorstw upadłych. Analizowane były przedsibiorstwa z postpowaniem układowym i „gazele”, łcznie 5426 przedsibiorstw. Interesowała nas analiza przedsibiorstw z postpowaniem układowym i „gazel”, bez uwzgldnienia sytuacji upadło ci. Jako zmienn obja nian przyjto zmienn binarn okre lajc firm z postpowaniem układowym (warto 1 zmiennej) i przeciwny przypadek – nie ma postpowania układowego, co oznacza „gazel”.

4. Zastosowane analizy i modele Data Mining

W badaniu wykorzystali my program Enterprise Miner firmy SAS [5], [7]. Zgodnie z metodo-logi modelowania Data Mining wymaga on zbudowania diagramu, wyznaczajcego przebieg przetwarzania. Diagram taki zamieszczono na rysunku 1. Elementami diagramu s wzły przetwa-rzania danych, połczone strzałkami wskazujcymi kierunek przetwaprzetwa-rzania. W celu identyfikacji wzłów maj one przypisane nazwy.

Rys. 1. Diagram przebiegu przetwarzania danych ródło: Opracowanie własne przy wykorzystaniu programu Enterprise Miner.

5. Wprowadzanie danych do analizy i podział zbioru danych na zbiór treningowy, walida-cyjny i testowy

Wzeł MINER.FIRMY jest wzłem wprowadzania danych wej ciowych (rys. 1). Jego nazwa jest jednocze nie nazw wej ciowego zbioru danych (nazwa ta składa si z nazwy biblioteki, w której umieszczony jest zbiór danych oraz nazwy tablicy z danymi). Wzeł Data Partition jest wzłem podziału zbioru danych na zbiory: treningowy, walidacyjny i testowy (rys. 1). Budowa modeli eksploracji danych Data Mining wymaga realizacji trzech etapów: trenowania, walidacji i testowania, i dla wykonania kadego z tych etapów musimy utworzy oddzielne zbiory: trenin-gowy (Training Set), walidacyjny (Validation Set), testowy (Testing Set). Powstaj one przez podział (na ogół losowy) wej ciowego zbioru danych na trzy cz ci. Zbiór treningowy jest zbiorem

(4)

danych, na podstawie których wykrywamy moliwe zaleno ci midzy zmiennymi. Zbiór trenin-gowy jest uywany do wstpnego oszacowania parametrów modelu. Zbiór walidacyjny jest uywany do dostrojenia parametrów modelu, które zostały oszacowane w oparciu o zbiór trenin-gowy. Uycie tego zbioru poprawia własno ci predykcyjne modelu, tzn. model pozwala lepiej przewidywa warto ci zmiennych obja nianych dla nowych obserwacji, niewystpujcych w dotychczas badanych zbiorach. Zbiór testowy jest zbiorem, który słuy do zbadania, na ile wykryte zaleno ci s prawdziwe dla innych zbiorów danych. Domy ln metod podziału ródłowego zbioru danych na zbiór treningowy, walidacyjny i testowy jest losowanie proste (opcja Simple Random w programie Enterprise Miner). Domy lna metoda Simple Random dokonuje podziału zbioru danych na podzbiory: treningowy, walidacyjny i testowy w sposób losowy, oparty na losowaniu prostym, gdzie prawdopodobiestwo wej cia do kadego z podzbiorów jest dla kadej obserwacji takie samo. Przy takim postpowaniu struktura kadego z tworzonych podzbiorów powinna by podobna do struktury całego zbioru i moemy przyj , e kady z podzbiorów dobrze reprezentuje cały zbiór. Taki sposób podziału na zbiory treningowy, walidacyjny i testowy przyjli my w analizach przedstawianych w tym artykule. Przedstawiony powyej sposób tworze-nia zbiorów: treningowego, walidacyjnego i testowego nie jest odpowiedni w sytuacji, gdy pewne warto ci zmiennych pojawiaj si w całym zbiorze bardzo rzadko (stanowic przykładowo 1%, 0,2% wszystkich obiektów). Wówczas próba liczca duo obserwacji (np. 1000) moe zawiera tylko kilka przypadków przyjmujcych okre lone warto ci danej zmiennej i nie jest moliwe wierne odzwierciedlenie struktury całego zbioru danych. Przykładem takiego zbioru moe by zbiór przedsibiorstw zawierajcych mał liczb bankrutów. W takiej sytuacji zamiast metody Simple Random proponuje si inny sposób losowania, np. polegajcy na losowaniu osobno z kadego typu obiektów, nazywanych warstwami. Taki sposób losowania nazywa si losowaniem warstwowym (Stratified) i moe on zapewni odpowiedni liczebno obserwacji posiadajcych rzadk warto cechy w zbiorze treningowym, walidacyjnym i testowym w opisywanej sytuacji nierównomiernego rozkładu warto ci danych. Moemy okre li udział procentowy, jaki bd stanowi dane treningowe, walidacyjne i testowe w zbiorze danych. Przyjli my w naszej analizie czsto stosowane ustalenie domy lne (40% - zbiór treningowy, 30% - zbiór walidacyjny, 30% - zbiór testowy).

6. Wstpna selekcja zmiennych dla przeprowadzania bada

Nastpny z umieszczonych wzłów na diagramie (rys. 1), to wzeł Variable Selection. Ten wzeł umoliwia wybór zestawu zmiennych, które najsilniej wpływaj na warto ci zmiennej obja nianej. Jako kryterium wyboru zmiennych, narzdzie Variable Selection umoliwia wykorzy-stanie współczynników determinacji R2.2 W przypadku stosowania R2 ocena zmiennych dokony-wana jest na podstawie kryterium dobroci dopasowania (goodness-of-fit). Wykorzystydokony-wana jest technika krokowa wyboru zmiennych. Jest to procedura iteracyjna, która powoduje, e w kolejnych krokach poprawiana jest warto współczynnika determinacji R2. Zakoczenie działania wyboru nastpuje, gdy poprawa R2 jest mniejsza ni 0,005. Domy lnie, odrzucane s zmienne, których wkład w polepszenie wyniku jest mniejszy ni 0,005. Proces wyboru zmiennych przy przyjciu

2 Alternatywą jest wybór zmiennych w oparciu o kryterium Chi-square, wykorzystujące miarĊ

χ

2.

(5)

kryterium R2 składa si w przypadku binarnej zmiennej obja nianej (binary target)3 z trzech kroków: (1) obliczane s kwadraty współczynników korelacji kadej zmiennej ze zmienn obja- nian i nastpnie odrzucane s zmienne, które maj kwadrat współczynnika korelacji poniej ustalonego poziomu (domy lnie 0,005), (2) pozostałe zmienne s brane pod uwag w procedurze regresji krokowej w przód (forward stepwise R2 regression). Zmienne, które powoduj polepszenie wyniku w stopniu mniejszym ni przyjte kryterium progowe s odrzucane, (3) dla binarnych zmiennych obja nianych przeprowadzana jest analiza regresji logistycznej z uyciem warto ci teoretycznych zmiennej obja nianej jako zmiennej niezalenej. Program podaje przyczyn odrzucenia zmiennej. W naszym przypadku zostało wybranych 30 zmiennych.4

7. Ocena jakoci modeli i wybór rodzaju przeprowadzanej analizy za pomoc modelu Zastosowali my trzy modele analizy danych [2], [3]: (1) regresji logistycznej (wzły RegStep, RegForw, RegBack), (2) drzew decyzyjnych (wzeł Tree), (3) sieci neuronowych (wzeł Neural Network). Porównanie jako ci tych modeli jest dokonywane w w le Assessment. Nim szczegóło-wo rozpatrzymy zastosowane modele, przyjrzyjmy si wykresom uzyskanym w w le Assessment. Wykresy te pozwalaj porówna tworzone modele pod wzgldem ich jako ci i wybra najlepszy model, który moe by zastosowany do wyja nienia zachowania si zmiennej zalenej i do prognozowania. Wzeł Assessment umoliwia otrzymanie wykresu wzrostu (lift chart) pozwalaj-cego oceni wizualnie jako dopasowania modelu do danych i oceni , który model jest pod tym wzgldem najlepszy. Wykresy wzrostu pozwalaj oceni efektywno modelu pod wzgldem trafno ci własno ci predykcyjno ci (przewidywania odpowiedzi). Na podstawie oszacowanego modelu, dla kadej obserwacji w zbiorze walidacyjnym jest obliczane przewidywane prawdopodo-biestwo sukcesu. Nastpnie obserwacje s ustawiane malejco według tych prawdopodobiestw i zbiór jest dzielony na 10 równych cz ci. Kada cz tworzy grup decylow w zbiorze walida-cyjnym.5 Na wykresie zaznaczane s decyle na osi poziomej (oznaczane jako percentyle: 10, 20,...). Na osi pionowej s zaznaczane odpowiednie charakterystyki zalene od liczby sukcesów w poszczególnych grupach decylowych. Enterprise Miner umoliwia wybór jednej z nastpujcych

3 JeĪeli zmienna objaĞniana nie jest binarna, są wykonywane tylko dwa pierwsze kroki.

4 Wybrane zmienne, to (kolejnoĞü alfabetyczna): Amortyzacja (AMORTYZACJA), Krótkoterminowe aktywa finansowe

(Ğrodki pieniĊĪne) do aktywów ogółem (KAFSPDAO), Kapitał (fundusz) własny (KAPWL), Koszty finansowe do przychodów ogółem (KFDPO), Kapitał obrotowy netto do aktywów (majątku) obrotowych (KONDAO), Korekty o pozycje (KORPOZ), Kapitał stały do aktywów ogółem (KSDAO), Kapitał własny do aktywów (majątku) trwałych (KWDAT), NadwyĪka finansowa do aktywów ogółem (NFDAO), NadwyĪka finansowa do zobowiązaĔ krótkoterminowych (NFDZK), Nakłady inwestycyjne do aktywów ogółem (NIDAO), ObciąĪenia finansowe (OF), Ryzyko likwidacji (RL), Wynik netto do aktywów ogółem (ROA) skorygowany (ROAS), Rotacja zobowiązaĔ krótkoterminowych (RZK), Udział aktywów (majątku) obrotowych netto w aktywach (UAMONWA), Udział krótkoterminowych aktywów finansowych (Ğrodków pieniĊĪnych) w aktywach (majątku) obrotowych (UKAFAO), Udział kosztów działalnoĞci operacyjnej w kosztach uzyskania przychodu (UKDOWKUP), Udział kosztów finansowych w kosztach uzyskania przychodów (UKFWKUP), Udział przychodów finansowych w przychodach ogółem (UPFWPO), Udział zobowiązaĔ z tytułu podatków, ceł, ubezpieczeĔ w zobowiąza-niach krótkoterminowych (UZPCUZK), Udział zapasów w aktywach (majątku) obrotowych (UZWAMO), Wynik na działalnoĞci operacyjnej do aktywów ogółem (WNDODAO), WskaĨnik unieruchomienia (WU), Zobowiązania z tytułu funduszy specjalnych do sprzedaĪy w dniach (ZFSDSD), Zobowiązania krótkoterminowe (ZOBKR), Zobowiązania krótkoterminowe i fundusze specjalne (ZOBKRIFS), Zysk/strata brutto (ZYNSB), Zysk/strata brutto na działalnoĞci operacyjnej (ZYNSBNDO), Zysk/strata ze sprzedaĪy (ZYNSZS).

5 W programie Enterprise Miner obserwacje są ustawiane malejąco, a grupy decylowe są tworzone w odwrotnej

(6)

charakterystyk (Vertical Axis Value): % Response, % Captured Response, Lift Value. Kady z wykresów moe przedstawia warto ci skumulowane (Cumulative) lub nieskumulowane (Non-Cumulative). Sposób tworzenia warto ci na osi pionowej wyja niamy na przykładzie – tabela 1.6 Przypu my, e zbiór walidacyjny ma 1000 obserwacji, zatem kada grupa decylowa ma 100 obserwacji. Załómy dalej, e w zbiorze walidacyjnym było 200 sukcesów (tzn. wystpiło badane zdarzenie) i rozkładały si one w nastpujcy sposób w grupach decylowych: 50, 40, 30, 20, 15, 20, 5, 5, 12, 3. W dobrze dopasowanym modelu udział pozytywnych odpowiedzi powinien by najwikszy w ostatnich grupach decylowych, a mały w pocztkowych grupach decylowych. Aby ułatwi interpretacj wykresu, jest on zaopatrzony w lini (baseline curve), która przedstawia wynik dla stałej liczby sukcesów wynikajcej z prawdopodobiestwa sukcesu w zbiorze walidacyj-nym. Jeeli krzywa jest zbliona do prostej Baseline, to oznacza, e model jest słabo dopasowany do danych. Na rysunku 2 (a) i 2 (b) przedstawili my wykresy, wybierajc opcj % Captured Response i Cumulative. Rysunek 2 (a) ilustruje przypadek analizy dwóch grup przedsibiorstw: grupy „gazel” oraz grupy przedsibiorstw z orzeczon upadło ci i prowadzeniem postpowania układowego. Rysunek 2 (b) przedstawia wyniki, gdy nie uwzgldniali my „gazel” i porównywali- my przedsibiorstwa z orzeczon upadło ci z przedsibiorstwami prowadzcymi postpowanie układowe. W pierwszym przypadku modele charakteryzuj si dobr jako ci, tzn. pozwalaj one odróni przedsibiorstwa dobre („gazele”) i złe (upadłe lub z postpowaniem układowym). W drugim przypadku wida , e na podstawie wybranych zmiennych obja niajcych nie mona zadowalajco prognozowa , do której grupy (z orzeczon upadło ci, czy te prowadzeniem postpowania układowego) naley przedsibiorstwo. Grupy te maj podobne własno ci. Dlatego w dalszych analizach zajmowali my si tylko przypadkiem porównywania własno ci „gazel” i traktowanych łcznie przedsibiorstw upadłych lub zagroonych postpowaniem układowym. Rysunek 2 (a) ukazał te, e najlepsze pod wzgldem własno ci predykcyjnych okazały si modele

6 W obliczeniach przyjĊto oznaczenia: N - liczba obserwacji w zbiorze walidacyjnym (1000), K - liczba sukcesów w

zbiorze walidacyjnym (200), n - liczba obserwacji w grupie decylowej (N/10=100), k - Ğrednia liczba sukcesów w grupie decylowej (K/10=20), m(j) - liczba pozytywnych odpowiedzi w j-tej grupie decylowej. Dla wykresów nieskumulowanych: % Response jest liczone jako udział (wyraĪony w procentach) odpowiedzi pozytywnych w danej grupie decylowej. Jest to ułamek, w którym licznik wynosi m(j), mianownik wynosi n (patrz kolumna % Response). Np. 1 decyl - 50/100=50% , 2 decyl - 40/100 =40%. % Captured Response – jest to udział pozytywnych odpowiedzi znajdujących siĊ w danej grupie decylowej do wszystkich pozytywnych odpowiedzi. Licznik ułamka wynosi m(j), a mianownik wynosi K (patrz kolumna % Captured Response). Np. 1 decyl - 50/200=25% , 2 decyl - 40/200 =20%. Lift Value - jest to stosunek pozytywnych odpowiedzi w danej grupie decylowej do Ğredniej liczby pozytywnych odpowiedzi przypadającej na grupĊ decylową. Licznik ułamka wynosi m(j), a mianownik wynosi k (patrz kolumna Lift Value). Np. 1 decyl - 50/20=2,50 , 2 decyl - 40/20 =2,00. Zatem dla wartoĞci nieskumulowanych licznik ułamka wynosi zawsze m(j), a mianownik ułamka jest stały, ale róĪny dla róĪnych rodzajów wykresów. Dla wykresów skumulowanych licznik ułamków zawiera skumulowaną liczbĊ pozytywnych odpowiedzi: M(1)=m(1), M(j)=M(j-1)+m(j) dla j=2,...,10. % Response jest liczone jako udział (wyraĪony w procentach) odpowiedzi pozytywnych w danej grupie decylowej i w grupach decylowych wczeĞniejszych. Licznik ułamka wynosi M(j), a mianownik wynosi jǜn (patrz kolumna % Response). Np. 1 decyl - 50/100=50% , 2 decyl - (50+40)/(2*100) =90/200=45%. % Captured Response – stosunek pozytywnych odpowiedzi znajdujących siĊ w danej grupie decylowej i w grupach decylowych poprzednich do wszystkich pozytywnych odpowiedzi. Licznik ułamka wynosi M(j), a mianownik jest stały i wynosi K (patrz kolumna % Captured Response). Np. 1 decyl - 50/200=25% , 2 decyl - (50+40)/200 =45%. Lift Value - jest to stosunek pozytywnych odpowiedzi w danej grupie decylowej i w grupach decylowych poprzednich do przewidywanej liczby pozytywnych odpowiedzi w tych grupach decylowych (gdyby pozytywne odpowiedzi rozkładały siĊ po równo w grupach decylowych). Licznik ułamka wynosi M(j), a mianownik wynosi jǜn (patrz kolumna Lift Value). Np. 1 decyl - 50/20=2,50, 2 decyl - (50+40)/(2*20) =90/40=2,25. W naszym przykładzie otrzymaliĞmy liniĊ bazową (baseline curve), gdy wszystkie m(j)=k=20.

(7)

regresji logistycznej i sieci neuronowych, a najgorzej dopasowanym do danych okazał si model drzew decyzyjnych Tree.

Tabela 1. Obliczenia wykonywane dla zbudowania wykresu wzrostu (lift chart)

Nieskumulowane Skumulowane Grupa decy-lowa Odpowiedzi pozytywne w decylu % Response %Cap-tured Response Lift Value Odpowiedzi pozytywne w decylu % Re-sponse %Cap-tured Response Lift Value 1 50 50,0% 25,0% 2,50 50 50,0% 25,0% 2,50 2 40 40,0% 20,0% 2,00 90 45,0% 45,0% 2,25 3 30 30,0% 15,0% 1,50 120 40,0% 60,0% 2,00 4 20 20,0% 10,0% 1,00 140 35,0% 70,0% 1,75 5 15 15,0% 7,5% 0,75 155 31,0% 77,5% 1,55 6 20 20,0% 10,0% 1,00 175 29,2% 87,5% 1,46 7 5 5,0% 2,5% 0,25 180 25,7% 90,0% 1,29 8 5 5,0% 2,5% 0,25 185 23,1% 92,5% 1,16 9 12 12,0% 6,0% 0,60 197 21,9% 98,5% 1,09 10 3 3,0% 1,5% 0,15 200 20,0% 100,0% 1,00

ródło: Opracowanie własne.

(a) (b)

Rys. 2. Wykresy oceny opracowywanych modeli ródło: Opracowanie własne przy wykorzystaniu programu Enterprise Miner. 8. Modele regresji

Regresja logistyczna umoliwia oszacowanie prawdopodobiestw, z jakimi dany obiekt naley do grup okre lonych przez kategorie jako ciowej zmiennej obja nianej. Generowana jest funkcja

(8)

nieliniowa, której warto ci s interpretowane jako prawdopodobiestwa lub warunkowe warto ci oczekiwane zmiennej zalenej. Do oszacowania parametrów funkcji logistycznej wykorzystywana jest Metoda Najwikszej Wiarygodno ci. Jest to technika iteracyjna. Jeeli stosujemy dobór zmiennych obja niajcych do modelu, to podczas realizacji procedury badane s własno ci statystyczne modelu i sprawdza si, czy dodanie lub usunicie zmiennej istotnie polepszyło model. Jeeli nie ma istotnej zmiany, to procedura zostaje zakoczona. W programie Enterprise Miner dostpne s nastpujce metody doboru zmiennych obja niajcych do modelu: (1) krokowa (stepwise) – zmienne obja niajce s kolejno wprowadzane do modelu, zaczynajc od modelu bazowego (bez zmiennych obja niajcych); dodawane s zmienne, które s znaczco powizane ze zmienn obja nian. Wprowadzona do modelu zmienna moe zosta usunita, jeeli polepszy to warto przyjtej miary jako ci modelu. W tej metodzie zmienne wprowadzane we wcze niejszym etapie mog zosta usunite pó niej, jeeli okae si, e bdc w ród zmiennych w modelu nie przyczyniaj si do jego polepszenia. (2) w przód (forward) – zmienne obja niajce s kolejno wprowadzane do modelu. Najpierw rozpatruje si model bez zmiennych obja niajcych. Potem dodaje si zmienn najsilniej skorelowan ze zmienn obja nian. Potem dodaje si kolejn zmienn, która polepsza model a osignie si najlepsz jako modelu. Zmienne wprowadzone do modelu nie s usuwane; (3) w tył (backward) – najpierw jest rozwaany model ze wszystkimi zmiennymi obja niajcymi, a nastpnie kolejno s usuwane zmienne, które nie wywieraj znaczcego wpływu na zmienn obja nian. Postpowanie kontynuuje si do momentu, gdy usunicie kolejnej zbadanej zmiennej nie daje znaczcej poprawy. Zmienne usunite nie s ju wprowadzane do modelu. Wyniki estymacji modelu mona przedstawi w postaci graficznej.

Rys. 3. Wyniki z modelu regresji krokowej ródło: Opracowanie własne przy wykorzystaniu programu Enterprise Miner.

Oznaczenia: ksdao – kapitał stały do aktywów ogółem, upfwpo – udział przychodów finansowych w przychodach ogółem, of – obcienia finansowe, nidao – nakłady inwestycyjne do aktywów ogółem, kwdat – kapitał własny do aktywów (majtku) trwałych, nfdao – nadwyka finansowa do aktywów ogółem, uzpcuzk – udział zobowiza z tytułu podatków, ceł, ubezpiecze w zobowizaniach, ukfwkup – udział kosztów finansowych w kosztach uzyskania przychodów, wu

(9)

– wska nik unieruchomienia, wndodao – wynik na działalno ci operacyjnej do aktywów ogółem, uu – zmienna obja niana: przedsibiorstwo z orzeczeniem upadło ci lub z postpowaniem układowym

Przyjrzyjmy si wynikom uzyskanym w przypadku poszczególnych modeli regresji. Rozpatrzmy przykładowo wykresy dla regresji krokowej (rys 3). Pierwszy wykres (w lewej cz ci) przedstawia zmienne obja niajce wystpujce w oszacowanym modelu, uporzdkowane malejco według warto ci bezwzgldnych współczynników t-Studenta (Effect T-scores). Warto ci ujemne s zaznaczone słupkami – jasnym kolorem, warto ci dodatnie – ciemnym. Legenda umieszczona w dolnej cz ci wykresów pozwala na prawidłow interpretacj warto ci wska nika Effect T-scores dla kadego ze słupków na wykresach. Współczynnik t-Studenta jest ilorazem oszacowania parametru stojcego przy zmiennej modelu i jego błdu szacunku. Warto bezwzgldna tego wska nika informuje o istotno ci zmiennej w oszacowanym modelu. Zmienne na wykresach s uporzdkowane malejco według warto ci bezwzgldnej wska nika. Na rysunku 3 – w prawej cz ci, przedstawiono wyniki w postaci wykresu, przedstawiajcego zaleno midzy warto ciami przewidywanymi (into) a obserwowanymi (from) warto ciami zmiennej obja nianej. Wykres jest graficzn ilustracj tablicy klasyfikacji krzyowej. Słupki na głównej przektnej dotycz przedsibiorstw, dla których model poprawnie przewiduje warto zmiennej obja nianej. Jeeli model jest dobry, to powinna istnie zgodno warto ci przewidywanych (oczekiwanych) z warto ciami obserwowanymi: słupki na wykresie na przeciciu tych samych warto ci into i from powinny by najwysze. Tak jest w naszym przypadku, co wskazuje, e model dobrze nadaje si do identyfikacji przedsibiorstw z orzeczon upadło ci lub postpowaniem układowym. Zmienne o najwikszej istotno ci w przypadku modelu regresji w przód oraz w tył zamieszczono w przypisie.7 W przypadku tych modeli, podobnie jak regresji krokowej, take istnieje zgodno warto ci przewidywanych z warto ciami obserwowanymi, co mogli my stwierdzi analizujc wykres ilustracji tablicy klasyfikacji krzyowej.

9. Drzewa decyzyjne

Drzewa decyzyjne stanowi graficzn reprezentacj algorytmu rekurencyjnego podziału, który polega na hierarchicznym podziale wielowymiarowej przestrzeni cech (w której znajduje si zbiór obiektów) na rozłczne podzbiory a do osignicia ich jednorodno ci ze wzgldu na wyrónion cech – zmienn obja nian. W praktyce proces podziału jest czsto zatrzymywany wcze niej, aby unikn tworzenia podzbiorów o bardzo małej liczbie elementów. Warunkiem zatrzymania procesu podziału, moe by maksymalna warto okre lajca liczb poziomów drzewa (oznacza to

7 Zmienne objaĞniające o najwiĊkszej istotnoĞci w przypadku modelu regresji w przód: nidao – nakłady inwestycyjne do

aktywów ogółem, upfwpo – udział przychodów finansowych w przychodach ogółem, ksdao – kapitał stały do aktywów ogółem, of – obciąĪenia finansowe, uzpcuzk – udział zobowiązaĔ z tytułu podatków, ceł, ubezpieczeĔ w zobowiązaniach, nfdao – nadwyĪka finansowa do aktywów ogółem, kwdat – kapitał własny do aktywów (majątku) trwałych, ukfwkup – udział kosztów finansowych w kosztach uzyskania przychodów, wu – wskaĨnik unieruchomienia, wndodao – wynik na działalnoĞci operacyjnej do aktywów ogółem, uzwamo – udział zapasów w aktywach (majątku) obrotowych.

Zmienne objaĞniające o najwiĊkszej istotnoĞci w przypadku modelu regresji w tył: nfdao – nadwyĪka finansowa do aktywów ogółem, upfwpo – udział przychodów finansowych w przychodach ogółem, of – obciąĪenia finansowe, ksdao – kapitał stały do aktywów ogółem, nidao – nakłady inwestycyjne do aktywów ogółem, uzpcuzk – udział zobowiązaĔ z tytułu podatków, ceł, ubezpieczeĔ w zobowiązaniach, kwdat – kapitał własny do aktywów (majątku) trwałych, kfdpo – koszty finansowe do przychodów ogółem, zynszs – zys/strata ze sprzedaĪy, amortyzacja, korpoz – korekty o pozycje.

(10)

osignicie maksymalnej „głboko ci drzewa”) lub osignicie minimalnej liczebno ci w wzłach podlegajcych podziałowi. Drzewa s grafami spójnymi, nie zawierajcymi cykli. Drzewa decy-zyjne umoliwiaj przedstawianie procesu podziału zbioru obiektów na jednorodne klasy, charak-teryzowane okre lonymi warto ciami atrybutów. Wewntrzne wierzchołki okre laj sposób dokonywania podziału w oparciu o warto ci cech obiektów. Wierzchołki kocowe, z których nie wychodz adne krawdzie, nazywane s li mi drzewa. Krawdzie drzewa wskazuj warto ci cech, na podstawie których dokonywany jest podział. Na podstawie drzewa klasyfikacyjnego moemy odczyta reguły przynaleno ci obiektów do poszczególnych klas. Istniej róne algoryt-my generowania drzew klasyfikacyjnych: Chaid, Exhaustive Chaid, C&RT, Quest. Algorytalgoryt-my róni si sposobem wyboru cech, w oparciu o które nastpuje podział zbioru obiektów, kryterium zakoczenia podziału powstajcego podzbioru obiektów, sposobem przydzielania obiektów znajdujcych si w li ciu drzewa do okre lonej klasy, postaci funkcji oceniajcej jako podziału, sposobem klasyfikacji obiektów o brakujcych warto ciach cech, charakterem rozpatrywanych zmiennych (cech obiektów): nominalne, porzdkowe, cigłe. Tworzone s drzewa klasyfikacyjne lub regresyjne. Algorytmy klasyfikacyjne pozwalaj na podstawie zbioru uczcego znale charakterystyki podzbiorów obiektów, tak aby w oparciu o uzyskane wyniki podziału mona było dokona klasyfikacji obiektów, których przynaleno do klas nie jest znana. W algorytmach regresyjnych celem jest znalezienie zwizku opisujcego wpływ jednej lub wybranej liczby cech na wskazan cech ilo ciow. Zalety drzew decyzyjnych w stosunku do metod takich jak analiza dyskryminacyjna, czy analiza regresji s nastpujce: (i) unika si konieczno ci weryfikowania załoe dotyczcych rozkładów zmiennych obja niajcych, (ii) w modelu mog wystpowa jednocze nie zmienne jako ciowe i ilo ciowe, (iii) metody s mało wraliwe na wystpowanie warto ci odstajcych (outliers) dla zmiennych obja niajcych, (iv) wykazuj tolerancj na poja-wianie si brakujcych warto ci obserwowanych zmiennych, (v) dobór zmiennych obja niajcych jest dokonywany automatycznie podczas działania algorytmu. Problemy czasem stwarza dua złoono drzewa, a take moliwo rónej interpretacji uzyskanych wyników. Nie ma take adnych wskazówek dotyczcych wyboru optymalnego modelu. Ustalenia takie jak chociaby wybór metody generowania drzewa, liczby poziomów drzewa, reguł zatrzymania procedury generujcej drzewo s podejmowane dosy arbitralnie. Przydatne jest przeprowadzanie wielu rónych eksperymentów przy zastosowaniu rónych modeli i załoe. W przypadku jako ciowej zmiennej obja nianej kady wzeł drzewa programu Enterprise Miner zawiera domy lnie informa-cje: w pierwszej kolumnie warto ci zmiennej obja nianej (1 lub 0) i nagłówek dla ostatniego wiersza (Total), w drugiej kolumnie dla danych ze zbioru danych treningowych - w dwóch pierwszych wierszach udział procentowy liczby obserwacji (firm) dla kadej warto ci zmiennej, w dwóch nastpnych wierszach: liczby obserwacji (firm) dla kadej warto ci zmiennej, w ostatnim wierszu łczn liczb obserwacji (firm), w trzeciej kolumnie te same dane co w drugiej, ale dla danych ze zbioru danych walidacyjnych.

Drzewo uzyskane w wyniku badania zbioru danych grupy „gazel” oraz grupy przedsibiorstw z orzeczeniem upadło ci lub postpowaniem układowym przedstawiono na rysunku 4. Wyniki przedstawiono w postaci tradycyjnej drzewa decyzyjnego, cho Enterprise Miner pozwala prze-prowadzi znacznie bogatsz analiz wyników i róne postacie wykresów ilustrujcych drzewa decyzyjne, np. w postaci pier cienia. Rysunek drzewa wskazuje, e o podziale na firmy upadłe i z postpowaniem układowym oraz „gazele” najsilniejszy wpływ ma zmienna zysk/strata brutto na działalno ci operacyjnej. Pozostałe zmienne decydujce o podziale, to wynik netto do aktywów

(11)

ogółem (ROA) skorygowany, kapitał (fundusz) własny, udział zobowiza z tytułu podatków, ceł, ubezpiecze w zobowizaniach, rotacja zobowiza krótkoterminowych.

Rys. 4. Drzewo decyzyjne analizy przedsiĊbiorstw ródło: Opracowanie własne przy wykorzystaniu programu Enterprise Miner.

Oznaczenia: zynsbndo – zysk/strata brutto na działalno ci operacyjnej, roas – wynik netto do aktywów ogółem (ROA) skorygowany, kapwl – kapitał (fundusz) własny, uzpcuzk – udział zobowiza z tytułu podatków, ceł, ubezpiecze w zobowizaniach, rzk – rotacja zobowiza krótkoterminowych

10. Sieci neuronowe

Algorytm wzła Neural Network umoliwia trenowanie, walidacj i testowanie wielowar-stwowych sieci neuronowych z zastosowaniem algorytmu propagacji wstecznej (multilayer feedforward neural networks). Domy lnie Neural Network tworzy sie , która ma jedn warstw ukryt. W modelach wielowarstwowych sieci neuronowych kady neuron warstwy wej ciowej odpowiadajcy jednej zmiennej obja niajcej jest powizany z kadym neuronem warstwy ukrytej, kady neuron warstwy ukrytej jest powizany z kadym neuronem kolejnej warstwy, a kady neuron ostatniej warstwy ukrytej jest powizany z kadym neuronem warstwy wyj ciowej sieci. Neurony z warstw, które nie s ssiednie, nie s powizane. Nie s te powizane neurony tej samej warstwy. Taka struktura sieci nosi nazw perceptronu wielowarstwowego (Multilayer Perceptron) [9] (por te [1], s. 162). Algorytm umoliwia utworzenie sieci wielowarstwowej o

(12)

rónej liczbie warstw i rónej liczbie neuronów w warstwach.8 Przebieg uczenia sieci neuronowej moemy obserwowa na monitorze podczas działania procedury. Moemy otrzyma wykresy warto ci funkcji błdów i statystyk dla kolejnych iteracji trenowania i walidacji sieci. Na rysunku 5 przedstawiono wykres przecitnego błdu trenowania i walidacji w kolejnych iteracjach tworzenia sieci.

Rys. 5. WielkoĞci przeciĊtnego błĊdu w kolejnych iteracjach trenowania i walidacji sieci neurono-wej analizy „gazel” oraz przedsiĊbiorstw z orzeczeniem upadłoĞci lub postĊpowaniem układowym ródło: Opracowanie własne przy wykorzystaniu programu Enterprise Miner.

8 Działanie sztucznej sieci w uproszczeniu odpowiada działaniu „biologicznych struktur nerwowych”, złoĪonych z

neuronów [9], (por teĪ [1], s. 158). NajwaĪniejsza róĪnica polega na tym, Īe neurony sztucznej sieci uporządkowane są w warstwy: warstwĊ wejĞciową, warstwĊ wyjĞciową i warstwy ukryte, a połączenia istnieją tylko pomiĊdzy neuro-nami sąsiednich warstw [9], (por. teĪ [1], s. 162). Sygnały przekazywane są w jednym kierunku: od warstwy wejĞcio-wej, poprzez kolejne warstwy ukryte do warstwy wyjĞciowej. Do neuronów docierają sygnały wejĞciowe, które w sztucznej sieci neuronowej mnoĪone są przez odpowiednie współczynniki zwane wagami połączeĔ, odpowiadające sile połączeĔ synaptycznych miĊdzy biologicznymi neuronami. Wagi sztucznej sieci neuronowej są modyfikowane na podstawie przedstawianych sieci danych wzorcowych w trakcie procesu zwanego uczeniem lub trenowaniem sieci. W przypadku neuronów warstwy wejĞciowej sygnałami wejĞciowymi są wartoĞci danych, podawanych do sieci z ze-wnątrz, a w przypadku neuronów pozostałych warstw wartoĞci poĞrednie, pochodzące z wyjĞü neuronów poprzednich warstw. W kaĪdym neuronie obliczana jest suma wartoĞci wejĞciowych pomnoĪonych przez wagi, która okreĞla siłĊ reakcji neuronu [6], (por teĪ [1], s. 159). Uaktywnienie neuronu zachodzi, jeĪeli zostanie przekroczona pewna wartoĞü zwana wartoĞcią progową zadziałania (pobudzenia) neuronu. WielkoĞü wyliczonego pobudzenia neuronu jest prze-kształcana przez tzw. funkcjĊ aktywacji, dając w wyniku sygnał wyjĞciowy (wartoĞü wyjĞciową) neuronu. WartoĞci wyjĞciowe neuronów warstwy wyjĞciowej stanowią wynik działania sieci. Uczenie sieci neuronowej, zwane takĪe trenowaniem sieci polega na modyfikacji wartoĞci wag połączeĔ pomiĊdzy neuronami w sieci. Wagi te modyfikowane są tak, aby sieü przyjĊła załoĪone wartoĞci wyjĞciowe dla okreĞlonych wartoĞci wejĞciowych. Podczas modyfikacji wag ulega takĪe zmianie struktura sieci. JeĪeli podczas modyfikacji waga połączenia miĊdzy neuronami w sieci przyjmie wartoĞü zero, to połączenie zostanie usuniĊte, poniewaĪ wartoĞü zerowa wagi jest równowaĪna brakowi połączenia. JeĪeli neuron bĊdzie miał wejĞciowe i wyjĞciowe wagi połączeĔ równe zero, to jako zbĊdny moĪe zostaü usuniĊty, co powoduje zmianĊ w strukturze sieci.

(13)

11. Zakoczenie

Analizy Data Mining s przydatne w poszukiwaniach charakterystyk kondycji finansowej i majtkowej przedsibiorstw. Poszukiwane s takie charakterystyki, których warto ci pozwalaj odróni przedsibiorstwa „słabe” (z zagroeniem upadło ci lub postpowaniem układowym) od przedsibiorstw „dobrych” (np. zaliczanych do „gazel biznesu” gospodarki). Przeprowadzone przez nas badania z wykorzystaniem licznego zbioru danych: przedsibiorstw z orzeczeniem upadło ci, postpowaniem układowym i „gazel biznesu” pozwoliły nam za pomoc metod Data Mining najpierw wstpnie wyznaczy istotne charakterystyki – za pomoc algorytmu selekcji zmiennych (wzeł Variable Selection), a nastpnie budowa modele umoliwiajce przewidywa-nie, którym przedsibiorstwom grozi upadło lub postpowanie układowe. Przetestowali my modele regresji logistycznej, drzew decyzyjnych i sieci neuronowych. Pokazali my, e w zaleno- ci od posiadanych zbiorów danych (wielkozaleno- ci finansowych i majtkowych) moemy otrzymywa modele o rónej jako ci dopasowania do danych i z tego powodu naley zbudowa róne modele, porówna ich jako (wzeł Assessment), a w kocu wybra model, który umoliwi nam uzyskanie jak najlepszych wyników w zakresie przewidywania kondycji przedsibiorstw. Przeprowadzona przez nas analiza wskazała na modele regresji logistycznej (krokowej, w przód, w tył) i sieci neuronowych jako modele najlepiej nadajce si do przewidywania gro by upadło ci lub prowa-dzenia postpowania układowego przedsibiorstwa. Odznaczaj si one przy tym bardzo podob-nym poziomem dopasowania do danych i zdolno ci prognostycznych. Spo ród zbudowanych modeli najgorszym pod wzgldem dopasowania do danych i zdolno ci prognostycznych okazał si model drzew decyzyjnych. Spo ród wzitych pocztkowo pod uwag 144 cech, wstpna selekcja przeprowadzona z wykorzystaniem współczynnika determinacji R2 wskazała na 30 cech o znacze-niu diagnostycznym (przewidywania gro by upadło ci lub podjcia postpowania układowego). W przypadku modeli regresji i modelu drzew decyzyjnych mogli my zidentyfikowa cechy, które w najwikszym stopniu rozstrzygały o tym, czy przedsibiorstwo powinni my zaliczy do przedsi-biorstw, którym grozi upadło lub konieczno prowadzenia postpowania układowego. Sie neuronowa jest modelem „czarnej skrzynki” – nie ukazuje nam cech ujtych w modelu i nie daje nam takich moliwo ci. Dla modeli regresji logistycznej i drzew decyzyjnych cechy te zostały wymienione w artykule. W przypadku modeli regresji krokowej, w przód i w tył, wiele cech powtarza si w kadym z tych modeli. W modelu drzew decyzyjnych znacznie róni si od uwzgldnionych w modelach regresji, co mogło zadecydowa o stwierdzonym zrónicowaniu pod wzgldem zdolno ci prognostycznych. Interpretacja merytoryczna (w naszym przypadku ekono-miczne uzasadnienie) obecno ci poszczególnych cech w modelach wykracza poza zakres analiz Data Mining, a niespodziewane pojawienie si pewnej cechy w modelu jako prognostycznej moe stanowi „twórczy” wkład metod Data Mining w dziedzin problemu (w naszym przypadku przewidywania upadło ci lub potrzeby prowadzenia postpowania układowego).

(14)

Bibliografia

1. Lasek M.: Data Mining. Zastosowania w analizach i ocenach klientów bankowych. Oficyna Wydawnicza „Zarzdzanie i Finanse”. Biblioteka Menedera i Bankowca, Warszawa 2002.

2. Lasek M.:, Od danych do wiedzy. Metody i techniki „Data Mining”. Optimum, nr 2, 2004, s. 17-37.

3. Lasek M.: Metody Data Mining w analizowaniu i prognozowaniu kondycji ekonomicznej przedsibiorstw. Zastosowania SAS Enterprise Miner. Centrum Doradztwa i Informacji Difin, Warszawa 2007.

4. Maimon O., Rokach L. (eds.): The Data Mining and Knowledge Discovery Handbook. Springer Science+Business Media, Inc., New York 2005.

5. Matignon R.: Data Mining Using SAS Enterprise Miner. John Wiley & Sons, Inc., New Jersey 2007.

6. Pczkowski M.: Program ORKA 4.0. Sieci neuronowe. „Materiały na zajcia laboratoryjne dla studentów szkół wyszych”, Wydział Nauk Ekonomicznych Uniwersytetu Warszawskiego, Warszawa 2007.

7. SAS Institute Inc.: Enterprise Miner Reference Help, SAS Institute Inc 2005.

8. Shmueli G., Patel N.R., Bruce P.C.: Data Mining for Business Intelligence. John Wiley & Sons, Inc., New Jersey 2007.

9. Tadeusiewicz R.: Wprowadzenie do praktyki stosowania sieci neuronowych, http://www.statsoft.pl , 2001.9

10. Triantaphyllou E., Felici G.: Data Mining and Knowledge Discovery Approaches Based on Rule Induction Techniques. Springer Science+Business Media, Inc., New York 2007. 11. Ye N. (ed.): The Handbook of Data Mining. Lawrence Erlbaum Associates, Inc., New

Jersey 2003.

(15)

APPLICATION OF DATA MINING IN THE ENTERPRISE BANKRUPTCY PREDICTION – CONSTRUCTION OF MODELS, THEIR EVALUATION

AND SELECTION

Summary

In the article usefulness of Data Mining models for bankruptcy prediction are discussed. Application of Data Mining prediction models such as logistic regression model, decision tree model and neural network model are described. Considerations are illustrated with the data from about six thousand enterprises, a proportion of which was in bankruptcy situation.

Keywords: enterprise bankruptcy prediction, Data Mining prediction models, logistic regression, decision trees, artificial neural networks

Mirosława Lasek Marek Pczkowski Dariusz Wierzba

Katedra Informatyki Gospodarczej i Analiz Ekonomicznych Wydział Nauk Ekonomicznych

Uniwersytet Warszawski

00-241 Warszawa, ul. Długa 44/50 e-mail: mlasek@wne.uw.edu.pl

Cytaty

Powiązane dokumenty

The spatial distribution of infection probabilities per manhole per year for children in the ‘Tuindorp’ catchment for one system state (i.e., one Monte Carlo run) and a threshold

Rozumienie w matematyce: jest wynikiem procesu, w którym znaczenie poj¦¢ ª¡czy si¦ z obja±nieniami intuicyjnymi.. Obja±nienia intuicyjne: s¡ wskazówkami naprowadzaj¡cymi

[r]

- nieobecność na zajęciach (punkty ujemne - 20 za każdą nieobecność; likwidacja punktów ujemnych może nastąpić przez rozlicznie nieobecności podczas dyżuru prowadzącego)

Takie dobranie parametrów modelu by suma kwadratów reszt była minimalna (wtedy model jest najlepiej dopasowany do danych empirycznych).. ZałoŜenia kmnk: zaleŜność

Je±li popatrzymy jaka byªa warto±¢ tego wspóªczynnika, gdy badali±my na pocz¡tku zale»no±¢ zmiennej obja±nianej tylko od jednej zmiennej obja±niaj¡cej (cukry) to warto±¢

Pytanie: Wªa±ciciel zaproponowaª klientce samochód, którego oczekuje lada moment (nie ma go w±ród danych analizowanych powy»ej). Wiadomo,.. »e oczekiwany samochód ma 7 lat,

Podstawowymi funkcjami elementarnymi nazywamy funkcje: staªe, pot¦gowe, wykªadnicze, loga- rytmiczne, trygonometryczne oraz cyklometryczne.. Funkcje elementarne, to takie które