• Nie Znaleziono Wyników

do 63.46 dla przypadków kategorii bankrut, i do 96.23 dla przypadków kategorii nie-bankrut,

W dokumencie Index of /rozprawy2/10687 (Stron 136-144)

z optymalizacją generowanych równocześnie reguł składniowych (lub reguł przekonań, w przypadku analizy sprzecznych danych),

od 0 do 63.46 dla przypadków kategorii bankrut, i do 96.23 dla przypadków kategorii nie-bankrut,

UKOM – Udział kapitału obrotowego w finansowaniu majątku ogółem – opisuje strukturę majątkowo-kapitałową. Wzrost wartości tego atrybutu wpływa na popra-wę stanu przedsiębiorstwa, natomiast jego zmniejszenie może sygnalizować trudno-ści poprawnego wywiązywania się ze zobowiązań krótkoterminowych. Wartość UKOM, w zbiorze badanych obiektów, zmienia się od -18.24 do 0.9 dla przypad-ków kategorii bankrut, i od -7.78 do 0.8 dla przypadprzypad-ków kategorii nie-bankrut, NKON – Niedobór kapitału obrotowego netto – należy do grupy atrybutów charak-teryzujących płynność finansową przedsiębiorstwa; im większa jest wartość, tego parametru,tym większe zagrożenie zachowania płynności finansowej, co w konse-kwencji może prowadzić do bankructwa. Wartość NKON, w zbiorze badanych obiektów, zmienia się od 0.68 do 269.18 dla przypadków kategorii bankrut, i od -5.36 do 262.46 dla przypadków kategorii nie-bankrut,

PRMA – Produktywność majątku – atrybut ten wskazuje pośrednio, ile złotówek (zysku) generuje jedna złotówka tzw. aktywów, wyrażonych umownie wartością środków gospodarczych zaangażowanych w działalności przedsiębiorstwa. Wartość PRMA, w zbiorze badanych obiektów, zmienia się od 0 do 13.86 dla przypadków kategorii bankrut, i od 0.03 do 25.94 dla przypadków kategorii nie-bankrut,

WFIB – Wynik finansowy brutto – jest wskaźnikiem, informującym o korzyściach ekonomicznych osiąganych z działalności przedsiębiorstwa, i zależy od przycho-dów i kosztów działania firmy.Ujemny wynik finansowy sygnalizuje istotne zagro-żenie bankructwem. Wartość WFIB, w zbiorze badanych obiektów, zmienia się od -4.47 do 3.89 dla przypadków kategorii bankrut, i od -3.04 do 8.3 dla przypadków kategorii nie-bankrut,

SZSP – Stopa zmian sprzedaży – obrazuje najważniejszy rezultat działalności przedsiębiorstwa, a mianowicie – wartość sprzedaży. Przyrost/zmniejszenie sprze-daży ujawnia wzrost/obniżenie pozycji rynkowej przedsiębiorstwa i warunkuje jego sukces finansowy. Wartość SZSP, w zbiorze badanych obiektów, zmienia się od -1

137 do 1.92 dla przypadków kategorii bankrut, i od -0.65 do 57.32 dla przypadków ka-tegorii nie-bankrut,

SZZA – Stopa zmian zatrudnienia – ujawnia ogólny trend rozwoju przedsiębior-stwa. Zmniejszenie zatrudnienia sygnalizuje obniżenie potencjału produkcyjnego, natomiast dodatnia wartość tego atrybutu jest elementem pozytywnej oceny stanu badanego przedsiębiorstwa. Wartość SZZA, w zbiorze badanych obiektów, zmienia się od -1 do 2.33 dla przypadków kategorii bankrut, i od -1 do 21 dla przypadków kategorii nie-bankrut.

Wartości tych atrybutów wyliczono na podstawie danych zawartych w Rocznej

an-kiecie przedsiębiorstwa (SP), które firma zobowiązana jest złożyć do

odpowiednie-go pod względem terytorialnym Urzędu Statystyczneodpowiednie-go. Wzory do ich wyliczenia przedstawiono w Tab. B-2. Nazwy wszystkich parametrów wymienionych w ko-lumnie Konstrukcja atrybutu są używane we wspomnianej wyżej ankiecie.

Tab. B-2. Konstrukcja atrybutów opisujących stan badanych obiektów Lp. Symbol Konstrukcja atrybutu

1 UZAO [zapasy] / [aktywa razem] * 100%

2 UKOM ([kapitał własny] + [zobowiązania długoterminowe] - [aktywa trwałe]) / [aktywa razem]

3 NKON ([zapasy] + [należności]) / 2 - ([kapitał własny]

+ [zobowiązania długoterminowe] – [aktywa trwałe]) 4 PRMA [przychody netto ze sprzedaży]

/ [średni stan aktywów ogółem] * 100% 5 WFIB ([przychody] – [koszty]) / 1000

6 SZSP

([przychody netto ze sprzedaży w roku T] - [przychody netto ze sprzedaży w roku T-1]) / [przychody netto ze sprzedaży w roku T-1]

7 SZZA

([zatrudnienie ogółem w roku T] - [zatrudnienie ogółem w roku T-1]) / [zatrudnienie ogółem w roku T-1]

W Tab. B-3 przedstawiono liczbę badanych obiektów (przedsiębiorstw typu MSP) w kolejnych latach (2000-2006) w rozbiciu na występujące w nich kategorie Kon-ceptu.

Tab. B-3. Liczebność przypadków w latach 2000-2006 Nazwa pliku Rok Liczba przypadków dla stanu

bankrut nie-bankrut MSP_2000 2000 66 66 MSP_2001 2001 75 75 MSP_2002 2002 72 72 MSP_2003 2003 65 65 MSP_2004 2004 64 64 MSP_2005 2005 66 66 MSP_2006 2006 66 66 Razem 474 474 Łącznie 948

Fragment struktury pliku z danymi o stanie badanych obiektów zamieszczono na Rys. B-1. W przyjętym formacie (wg porozumienia z Kansas University w Lawrence (KS), USA [Pomianek oraz Hemenway, 2002]), plik ujmujący dane o badanych obiektach reprezentuje domyślną tablicę decyzji wg Pawlaka [Pawlak, 1995]. Ciało pliku rozpoczyna linia sterująca, <…>, deklarująca liczbę, typ oraz rodzaj atrybu-tów. W naszym przypadku wszystkie atrybuty opisujące (zmienne niezależne, tutaj siedem) są numeryczne, (n), zaś zmienna zależna (atrybut decyzyjny, tylko jeden), (d), jest umieszczony w skrajnej, prawej kolumnie tablicy. Kolejnym elementem struktury pliku z danymi jest lista nazw atrybutów, ujęta w nawiasach kwadrato-wych, ([…]). Ostatnim członem struktury pliku z danymi jest zbiór n+1 elemento-wych wektorów (wierszy tablicy), które opisują w formacie tekstowym stacjonarny stan badanych obiektów.

Zgromadzone w bazach informacyjnych dane zostały na mocy specjalnego poro-zumienia uzyskane z Urzędu Statystycznego w Rzeszowie. Należy jednak zazna-czyć, że zgodnie z obowiązującymi aktualnie przepisami prawa, dane te mają utaj-niony kod odniesienia do analizowanych przedsiębiorstw, są zatem niejawne nawet dla osób realizujących badania. Sytuacja ta uniemożliwia przeprowadzenie bezpo-średniej (na terenie danej firmy) weryfikacji wygenerowanych modeli klasyfikacji (modeli uczenia), jak również uniemożliwia zastosowanie tych modeli do oceny stanu przedsiębiorstw nieznanych.

139 Rys. B-1. Plik tekstowy z bazą informacyjną w przyjętym formacie

ZAŁĄCZNIK C. WSKAŹNIKI JAKOŚCI PREDYKCJI MODELI

UCZE-NIA MASZYNOWEGO

W uczeniu maszynowym jakość systemów diagnostycznych, można ocenić na wiele sposobów [Ligęza, 2005]. Wyjątkowo często, a szczególnie w obszarze medycyny [Kraemer, 1992; Newton, Chokwe, Armstrong Schellenberg i inni, 1997; Enoe, Georgiadis oraz Johnson, 2000; Baumgartner, Bohm oraz Baumgartner, 2005; Tan-timongcolwat, Naenna, Isarankura-Na-Ayudhya i inni, 2008; Jekova, Bortolan oraz Christov, 2008; Krishnan, Banerjee, Chakraborty i inni, 2010; Sakuma, Ishitoya, Komatsu i inni, 2011; Chen, Liu, Yang i inni, 2011] znajdują zastosowanie miary czułości, C, oraz specyficzności, S [Hui oraz Walter, 1980; Moseley oraz Mead, 2008; Li oraz Sun, 2011]. Przedstawione na krzywej ROC (Receiver Operating Characteristics) [Garzon, Blazek, Neteler i inni, 2006; Ozcelik oraz Hardalac, 2011] służą do analizy pełnego zakresu pracy klasyfikatora.

Jeśli przyjmiemy, że badanie jest testem na występowanie wśród MSP stanu

ban-krut, to wynik testu jest dodatni (positive), gdy taki przypadek zostaje w wyniku

testu stwierdzony (niezależnie od tego jak jest w rzeczywistości). Wynik testu jest ujemny (negative), gdy test wykrywa stan nie-bankrut. Jeżeli liczbę poprawnie roz-poznanych przypadków firm w stanie bankructwa oznaczymy TP (true positive), a liczbę poprawnie rozpoznanych przypadków firm dobrych TN (true negative) oraz analogicznie, liczbę błędnie rozpoznanych przypadków firm w stanie bankruc-twa oznaczymy FP (false positive), a liczbę błędnie rozpoznanych przypadków firm dobrych FN (false negative), to czułość C i specyficzność S metody diagnostycznej oblicza się zgodnie ze wzorami C.1 i C.2 [Calisir oraz Dogantekin, 2011]:

C.1 FN TP TP C   C.2 FP TN TN S  

141 Należy zauważyć, że pełna ocena klasyfikatora zależy w takim przypadku od war-tości pary wskaźników C i S obliczanych na zbiorze dla obu kategorii przypadków. Ze względu na założony cel – poprawne zaklasyfikowanie przedsiębiorstwa do jed-nej z dwóch kategorii: bankrut, nie-bankrut – w każdym teście wystąpić mogą trzy stany: poprawnej klasyfikacji, błędnej klasyfikacji oraz brak możliwości sklasyfi-kowania obiektu.

Zastosowana w tych badaniach specyficzna metoda walidacji, walidacja kolejkowa, której zasadą jest wielokrotne testowanie modelu uczenia na bazach informacyjnych pochodzących z kolejnych lat, narzuciła konieczność opracowania własnego kryte-rium oceny skuteczności metody klasyfikacji.

W tym celu zdefiniowano parametr nazwany wskaźnikiem jakości predykcji mode-lu, Q, obliczany zgodnie ze wzorem:

C.3 n N P Q n i i i 2 ) 1 ( 1

gdzie:

n - jest liczbą niezależnych zbiorów testujących,

Pi - stosunkiemliczby poprawnie sklasyfikowanych przypadków do liczby

wszystkich przypadków i-tego podzbioru, natomiast

Ni - jest ilorazem liczby błędnie sklasyfikowanych przypadków przez licz-bęwszystkich przypadków i-tego podzbioru.

Należy zauważyć, że parametr Pi, jest tożsamy z powszechnie przyjętym w uczeniu maszynowym kryterium oceny jakości modeli, zwanym dokładnością klasyfikacji, a Ni jest błędem klasyfikacji i-tego zbioru testującego [Kukar, Kononenko, Groselj i inni, 1999; Yu, Kuo, Chou i inni, 2011; Wang, Cao oraz Yuan, 2011; Van den Bo-gaerd oraz Aerts, 2011].

Na Rys. C-1 pokazano dwa graniczne przykłady przebiegu zmienności wskaźnika jakości predykcji modelu, testowanego na przykładach pochodzących z i-tego zbio-ru testującego, jako funkcji Qi = f(Pi). Kolorem niebieskim oznaczono przebieg

czerwo-nym, gdy nie występują przypadki błędnie sklasyfikowane. W rzeczywistości, dla każdego testu, mamy do czynienia z jednym punktem należącym do obszaru ogra-niczonego przez te dwie, pokazane na rysunku proste. W związku z powyższym można stwierdzić, że dla każdego zbioru testującego Qi[0,1].

Rys. C-1. Przebieg zmienności wskaźnika jakości predykcji, Qi, modelu uczenia te-stowanego na i-tym podzbiorze w zależności od dokładności klasyfikacji

Dla modelu idealnego (wszystkie przypadki i-tego zbioru testującego są poprawnie sklasyfikowane, punkty C i C'), wartość Qi= 1. Model klasyfikujący błędnie wszystkie przypadki (punkt A), generuje wskaźnik Qi= 0, natomiast gdy poddawa-ny testom model nie klasyfikuje żadnego z obiektów (punkt A') lub poprawnie kla-syfikuje jedynie połowę z nich, a pozostałe błędnie (punkt B), wtedy Qi= 0.5.

Wartość wskaźnika jakości predykcji, Q, modelu poddanego testowaniu metodą walidacji kolejkowej, zgodnie z wzorem C-3, obliczana jest jako wartość średnia wyznaczonych wskaźników Qi, dla kolejnych zbiorów testujących. A zatem, rów-nież zawiera się w przedziale [0,1].

143 W celu uzyskania lepszego wglądu w specyfikę klasyfikowanych obiektów wskaź-nik, Q, w przeciwieństwie do miar C i S, obliczać można niezależnie dla obu kate-gorii obiektów. W tym przypadku jego wartość dla firm niezagrożonych bankruc-twem oznaczana będzie, Qn-b, a dla firm, które zbankrutowały, Qb.

Sposób obliczania wskaźnika Q powoduje, że „kara” za błędną klasyfikację jest dwukrotnie większa niż kara za nieklasyfikowanie obiektu. Z tej przyczyny model, który klasyfikuje poprawnie taką samą liczbę przypadków, a dla pozostałych, obok błędnych klasyfikacji występują przypadki nieklasyfikowane, uzyskuje wyższą ocenę jakości predykcji niż model, który wszystkie te pozostałe przypadki zaklasy-fikowałby błędnie.

W dokumencie Index of /rozprawy2/10687 (Stron 136-144)

Powiązane dokumenty