Index of /rozprawy2/10687

Pełen tekst

(1)AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA WYDZIAŁ ELEKTROTECHNIKI, AUTOMATYKI, INFORMATYKI I INŻYNIERII BIOMEDYCZNEJ KATEDRA AUTOMATYKI I INŻYNIERII BIOMEDYCZNEJ. ROZPRAWA DOKTORSKA. BADANIA NAD METODOLOGIĄ PROGNOZOWANIA STANU MAŁYCH I ŚREDNICH PRZEDSIĘBIORSTW. MGR INŻ. ANDRZEJ BURDA. Promotor: Prof. dr hab. inż. Zdzisław S. Hippe Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie. Kraków 2013.

(2) Pragnę wyrazić swoją wdzięczność promotorowi mojej pracy prof. Zdzisławowi S. Hippe za obdarzenie mnie zaufaniem, opiekę naukową, wielogodzinne, inspirujące dyskusje oraz wnikliwą i konstruktywną krytykę. Z głębi serca dziękuję moim Rodzicom i Dziadkom za ukazanie radości w cierpliwym dążeniu do poznania otaczającego nas świata. Mojej żonie Ani oraz Dzieciom za nieocenione wsparcie, którego nieustannie mi udzielali..

(3) SPIS TREŚCI Wykaz skrótów używanych w tekście. 5. ROZDZIAŁ 1 Wstęp. Cel i zakres pracy. 6. ROZDZIAŁ 2 MSP – zarys wiadomości. Dane prawdziwe i dane fałszywe. 9. ROZDZIAŁ 3 Koncepcja realizacji badań. Stosowane metody, algorytmy oraz sposoby oceny modeli uczenia – walidacja kolejkowa. 14. ROZDZIAŁ 4 Walidacja niepewnych danych MSP przy pomocy indukcyjnych modeli uczenia maszynowego. Modele sztucznych sieci neuronowych. 46. ROZDZIAŁ 5 Walidacja niepewnych danych MSP przy pomocy indukcyjnych modeli uczenia maszynowego. Modele uczenia w postaci zbioru reguł decyzji. 66. ROZDZIAŁ 6 Walidacja niepewnych danych MSP przy pomocy zespołu klasyfikatorów. 74. ROZDZIAŁ 7 Metodologia prognozowania stanu małych i średnich przedsiębiorstw. 85. ROZDZIAŁ 8 Implementacja opracowanej metodologii prognozowania stanu MSP. Możliwości i ograniczenia. 89. ROZDZIAŁ 9 Podsumowanie wyników badań. Wnioski. 102. LITERATURA. 108.

(4) Załącznik A. Sprzęt informatyczny i stosowane oprogramowanie. 133. Załącznik B. Opis badanych baz informacyjnych. 135. Załącznik C. Wskaźniki jakości predykcji modeli uczenia maszynowego. 140. Załącznik D. Wyniki rozeznania literaturowego na temat algorytmów (systemów informatycznych) do prognozowania stanu przedsiębiorstw. 144. Załącznik E. Szczegółowe wyniki badań. 147.

(5) WYKAZ SKRÓTÓW UŻYWANYCH W TEKŚCIE ANN – (Artificial Neural Network) sztuczna sieć neuronowa o dowolnej architekturze. BBN – reguły decyzji otrzymane w wyniku konwersji sieci Bayes’a (Bayesian Belief Network). LIN – liniowa, sztuczna sieć neuronowa, zbudowana z neuronów warstwy wejściowej, i warstwy wyjściowej. MSP – (Małe i Średnie Przedsiębiorstwa) firmy, które zatrudniają poniżej 250 pracowników, a ich obrót netto nie przekracza 50 mln €. RBF – sztuczna sieć neuronowa o radialnych funkcjach bazowych (Radial Basis Function, zbudowany z neuronów warstwy wejściowej, jednej (radialnej) warstwy ukrytej i warstwy wyjściowej. WMA – (weighted majority algorithm) meta-algorytm uczenia maszynowego używany do budowy zespołów klasyfikatorów z dostępnej puli algorytmów predykcyjnych. MLP3 – sztuczna sieć neuronowa o architekturze perceptronu trójwarstwowego (Multilayer Perceptron), zbudowana z neuronów warstwy wejściowej, jednej warstwy ukrytej i warstwy wyjściowej. MLP4 – sztuczna sieć neuronowa o architekturze perceptronu czterowarstwowego, zbudowana z neuronów warstwy wejściowej, dwóch warstw ukrytych i warstwy wyjściowej. NGTS – zamiennie, algorytm generowania reguł decyzji, bądź reguły decyzji otrzymane przy pomocy tegoż algorytmu. MSP_2006 – baza informacyjna przypadków małych i średnich przedsiębiorstw pochodzących z 2006 roku. Analogiczne bazy, dla innych lat, zróżnicowane są w nazwie wskaźnikiem roku. 5.

(6) Rozdział 1. WSTĘP. CEL I ZAKRES PRACY Od dość dawna interesowała mnie analiza i ocena stanu małych i średnich przedsiębiorstw (głównie – małych firm rodzinnych) [Burda, 2006; Burda oraz Hippe, 2010c; Burda oraz Hippe, 2010d], zwanych dalej MSP (od: Małe i Średnie Przedsiębiorstwa). Najważniejsze, ostatnie wyniki moich badań w tej dziedzinie zostały przedstawione w [Burda oraz Hippe, 2012]. Wiadomo, że MSP stanowią ważny element gospodarki wszystkich krajów Unii Europejskiej [Mikołajczyk oraz Krawczyk, 2006; Schmiemann, 2008; Woźniak, 2010], zaś szczególne znaczenie mają w obszarach słabo zurbanizowanych, na terenie ubogich regionów – u nas w województwie lubelskim i podkarpackim [Kłodziński, 2009]. Przeprowadzona przeze mnie analiza dostępnej literatury na temat prognozowania stanu MSP (wyniki rozeznania literaturowego zestawiono w Załączniku D), jednoznacznie wskazuje na brak dedykowanych rozwiązań (algorytmów, systemów informatycznych), przeznaczonych do oceny stanu (przetrwanie lub upadek) tego typu firm. Jest to przypuszczalnie spowodowane ograniczonym publicznym dostępem do danych o MSP. Dane te, wymuszone obowiązującymi normami prawnymi, są chronione tajemnicą statystyczną oraz zasadą prywatności [Walczak, 2008]. Są one gromadzone tylko w urzędach statystycznych i zastrzeżone do wyłącznego – niepublicznego – użytkowania przez te urzędy. Urząd Statystyczny w Rzeszowie, na podstawie specjalnego porozumienia, udostępnił mi dane dotyczące MSP województw podkarpackiego i lubelskiego z lat 2000-2006 [Cierpiał-Wolan, 2009] (ich format został opisany w Załączniku B). 6.

(7) Można z dużym prawdopodobieństwem założyć, że zostały one skażone działaniami tzw. kreatywnej księgowości [Nowak, 1998], opisanymi zwięźle w Rozdziale 2. Wydaje się, że działania kreatywnej księgowości wynikają z braku spójności i przejrzystości regulacji prawnych obowiązujących aktualnie w kraju, a w szczególności z przepisu o samoocenie przedsiębiorstwa przez właściciela, raz na cztery lata. Rozsądna metoda uporania się z zagadnieniem możliwie wiarygodnej oceny stanu małego i średniego (a właściwie – rodzinnego) przedsiębiorstwa, przypuszczalnie może polegać na zastosowaniu najnowszych mechanizmów uczenia maszynowego, wykorzystujących przede wszystkim modele uczenia wygenerowane sztucznymi sieciami neuronowymi, uzupełnione innymi jeszcze metodami ekstrakcji informacji i wiedzy z danych, a mianowicie generowaniem zbioru reguł decyzji przy pomocy algorytmu NGTS [Hippe oraz Grzymała-Busse, 2010; Hippe, 1997] oraz dodatkowo ekstrakcją tych reguł z sieci przekonań Bayes’a [Grzymała-Busse, Hippe oraz Mroczek, 2009]. Z tego względu zasadniczym celem moich badań jest podjęcie próby opracowania metodologii prognozowania stanu małych i średnich przedsiębiorstw, a na tej podstawie – zaprojektowanie, zbudowanie i upowszechnienie przyjaznego narzędzia informatycznego, realizującego wspomniane zadanie. Jednak pierwsze wyniki eksperymentów [Burda oraz Hippe, 2010c; Burda oraz Hippe, 2010d] wskazują, że wiąże się to z przetwarzaniem danych w warunkach niepewności, spowodowanej kreatywną księgowością. Uściślając zatem cel moich badań można powiedzieć, że dotyczy on opracowania nowego – przypuszczalnie NP-zupełnego – algorytmu prognozowania zagrożenia MSP bankructwem, stanowiącego podstawę wystarczająco wiarygodnej metodyki oceny stanu (przetrwanie lub upadek) wymienionych przedsiębiorstw. Omawiając w zarysie planowany zakres badań, główny zamysł (zastosowanie sztucznych sieci neuronowych) zamierzam zrealizować rezygnując z trywialnego sposobu ich wykorzystania, koncentrując się raczej na podejściu wynikającym ze szczególnych uwarunkowań udostępnionych mi baz informacyjnych o MSP. Podejście to, przedstawione w Rozdziale 3, wykorzystuje autorską metodę walidacji modeli, zwaną walidacją kolejkową [Burda oraz Hippe, 2010]. Jednakże należy – niejako in statu nascendi – przyjąć, że opracowana metodologia analizy danych 7.

(8) MSP przypuszczalnie nie będzie mogła osiągnąć dokładności większej od ok. 70%. Będzie to niewątpliwie skutkiem przetwarzania danych w warunkach niepewności, spowodowanych jak wspomniano kreatywną księgowością. Założenie to potwierdzają wyniki badań prowadzonych z zastosowaniem standardowych metod statystycznych [Burda, 2009], a także niektóre wyniki innych autorów [Pongsatat, Ramage oraz Lawrence, 2004; Mączyńska oraz Zawadzki, 2006; Rutkowska, 2006; Kim oraz Sohn, 2010; Derelioğlu oraz Gürgen, 2011; Ribeiro, Silva, Chen i inni, 2012]. Przeprowadzone w ramach niniejszej dysertacji badania, realizowano z zachowaniem zasady najpierw doświadczenie, a później wnioski, wynikającej z doświadczeń nauk przyrodniczych, stanowiących obecnie najważniejszy poligon badawczy nowoczesnej informatyki, inżynierii wiedzy, sztucznej inteligencji i systemów informacyjnych. Zasadę tę bardzo obszernie i przekonująco opisał w swoich dziełach (i wykładach) prof. Osman Achmatowicz (senior), członek rzeczywisty Polskiej Akademii Nauk, wybitny przedstawiciel rodów tatarskich w Polsce [Achmatowicz Jr., 2000], jeden z najznakomitszych i najświatlejszych umysłów Europy XX-go wieku, były wice-minister nauki i szkolnictwa wyższego, autor zapisu w ustawie o stopniach i tytule naukowym, dotyczącego konieczności realizowania – pod rygorem rotacji – doktoratów przez młodych nauczycieli akademickich. W związku z dostosowaniem się do wspomnianej zasady, nie powinno się na początku opisu prowadzonych badań umieszczać tego, co ma zostać wykazane, tego co jest zasadniczym wnioskiem z przeprowadzonych badań, czyli tzw. tezy rozprawy. Teza ta, czyli twierdzenie, które zostało naukowo udowodnione, pojawi się w sposób naturalny w końcowym rozdziale tekstu, zatytułowanym Podsumowanie wyników badań. Wnioski.. 8.

(9) Rozdział 2. MSP- ZARYS WIADOMOŚCI. DANE PRAWDZIWE I DANE FAŁSZYWE Z uwagi na fakt, że główny obszar badań niniejszej rozprawy dotyczy zastosowań metod i narzędzi informatycznych w analizie oraz krótkotrwałej prognozie stanu MSP, wyniki rozeznania literaturowego dotyczące teorii i struktury przedsiębiorstw, odnośnych przepisów prawa oraz wynikających z nich możliwości i ograniczeń, z zamysłem zamieszczono w Załączniku D. Tam także zgromadzono elementy informacji na temat metod i modeli prognozowania stanu przedsiębiorstw, bez względu na ich wielkość, czy wykrywania zagrożenia upadłością. Dane te mogą posłużyć zainteresowanemu Czytelnikowi jako kompendium dziedzinowo-zorientowanych informacji na temat wymienionych zagadnień.. MSP- zarys wiadomości Jak wiadomo, przedsiębiorstwa różnią się pomiędzy sobą zarówno w sensie prawnym [WWW-1, 1982; WWW-2, 1984; WWW-3, 2001; WWW-4, 2002; WWW-5, 2012; WWW-6, 2012], jak też pod względem potencjału ekonomiczno-finansowego. Przyjmuje się, że ze względu na wielkość (mierzoną liczbą zatrudnionych osób), przedsiębiorstwa można podzielić na: mikro, małe, średnie i duże [WWW-7, 2003; WWW-8, 2010]. Kryteriami tej uproszczonej klasyfikacji, w odniesieniu do trzech pierwszych rodzajów przedsiębiorstw, są: wielkość zatrudnienia (średniorocznego, wyrażona liczbą zatrudnionych osób), obrót netto (roczny) wynikający ze sprzedaży towarów, wyrobów, usług i operacji finansowych, oraz suma aktywów bilansu, sporządzonego na koniec co najmniej jednego z dwóch ostatnich lat. Wartości graniczne tych wskaźników przedstawiono w Tab. 2-1. 9.

(10) Tab. 2-1. Klasyfikacja małych i średnich przedsiębiorstw [WWW-7, 2003]. Kryterium podziału Rodzaj Mikro przedsiębiorstwo Małe przedsiębiorstwo Średnie przedsiębiorstwo. Wielkość zatrudnienia < 10 10-49 50-250. Obrót netto < 2 mln € < 10 mln € < 50 mln €. Suma aktywów < 2 mln € < 10 mln € < 43 mln €. Przedstawione w Tab. 2-1 kategorie przedsiębiorstw określa się wspólnym mianem podmiotów małych i średnich. Pozostałe podmioty, które nie spełniają powyższych kryteriów, zalicza się do grupy przedsiębiorstw dużych. Analiza dostępnej literatury wskazuje, że najliczniej reprezentowane są przedsiębiorstwa mikro. Tego typu przedsiębiorstwo/firma utrzymuje na ogół bliski i bezpośredni kontakt z klientami, a najczęściej jego/jej właściciel jest jednocześnie osobą zarządzającą [Łuczka, 2001]. Cechy te powodują, że MSP potrafią bardziej elastycznie reagować na zmiany w otoczeniu gospodarczym, co stanowi o ich przewadze konkurencyjnej nad podmiotami dużymi. Okazuje się, że o sile gospodarczej krajów wysoko rozwiniętych decydują dziś właśnie takie firmy, a nie duże koncerny. MSP stanowią 99,8% firm działających na obszarze Unii Europejskiej (oznaczanej dalej skrótem UE) i są miejscem pracy dla ponad 67% osób zatrudnionych w sektorze prywatnym [Schmiemann, 2008]. Także w Polsce udział sektora MSP jest dominujący, a do roku 2008 stale się zwiększał [Żołnierski, 2009]. Niewielki spadek liczby MSP zanotowano w 2009 r., po czym w kolejnych latach 2010-2011 odnotowano kontynuację trendu wzrostowego [Łapiński, 2011]. Badania prowadzone przez European Network for SME Research [Schmiemann, 2008; Iwanienko, 2009] na 7662 małych i średnich przedsiębiorstwach UE wykazały, że ok. 30% MSP upada w ciągu pierwszych 3 lat, a 50% w ciągu pierwszych 5 lat swojego istnienia. Ze względu na tak dużą niestabilność, badanie przyczyn tego zjawiska jest bardzo utrudnione, aczkolwiek jako główną (oprócz barier zewnętrznych) wymienia się nieprzemyślane decyzję przedsiębiorców o rozpoczęciu działalności gospodarczej oraz rażący brak kompetencji z zakresu organizacji i zarządza10.

(11) nia [Waniak-Michalak, 2007; Starczewska-Krzysztoszek, 2008]. Nie można też pomijać faktu, że ok. 78% MSP w Polsce, to przedsiębiorstwa rodzinne, którymi – jak się wydaje – rządzą dwie skrajnie różne logiki postępowania: racjonalna (ekonomiczna) i emocjonalna (rodzinna). Może to być równie często źródłem trwania firmy nawet wbrew logice biznesowej, a czasem (zwłaszcza w przypadku zaistnienia problemów rodzinnych), źródłem jej nieoczekiwanego upadku [Marjański, 2011].. Dane prawdziwe i dane fałszywe Jak wspomniano, o sile gospodarczej krajów wysoko rozwiniętych, decydują dziś głównie nie duże koncerny, lecz takie przedsiębiorstwa jak MSP. Z tego względu badania nad oceną stanu MSP nabrały ogromnego znaczenia – nie tylko dla samych przedsiębiorstw. Wyniki tych badań odgrywają bowiem także ważną społeczną rolę [Burda oraz Hippe, 2012]. Dane na temat właściwości gospodarczych MSP okazują się być niezwykle trudnymi do analizy, zatem także do wykrycia zawartych w nich regularności. Są zazwyczaj niepewne, z powodu wielu różnych przyczyn. Przypuszczalnie jedną z najważniejszych z nich jest świadome działanie właściciela(li) przedsiębiorstwa w procesie, zwanym kreatywną księgowością [Nowak, 1998]. Przez pojęcie to rozumie się stosowanie praktyk księgowości, które są formalnie zgodne z obowiązującymi regułami prawa, lecz z pewnością wykazują pewne odstępstwa od ducha tych reguł. Jeżeli działania są bezprawne, określane są mianem księgowości agresywnej. Zatem pojęcie kreatywna księgowość wiąże się z systematycznym i świadomym przekazywaniem urzędowi skarbowemu nie całkiem prawdziwych (często fałszywych) informacji o wartości zysków oraz wartości dóbr rzeczywistych przedsiębiorstwa, korporacji czy innej organizacji. Podsumowując zatem informacje na ten temat, można powiedzieć, że kreatywna księgowość może być działaniem wynikającym z pewnego marginesu swobody prowadzenia ksiąg rachunkowych i zgody na subiektywną interpretację sytuacji finansowej i majątkowej firmy. Stanowi to bardzo duże utrudnienie podczas budowy modeli upadłości przedsiębiorstw. 11.

(12) i powoduje, że obiekty (firmy MSP) zdefiniowane dokładnie takimi samymi wartościami atrybutów opisujących (wartościami wskaźników ekonomiczno-finansowych), mogą znajdować się w istotnie różnym stanie w sensie zagrożenia upadłością. Z uwagi na typowo informatyczny nurt oraz cel prowadzonych badań, nie należy zbyt wiele miejsca poświęcać zagadnieniom ekonomiczno-finansowym, związanym z dyskutowanym procesem. Jedynie dla ciekawości PT Czytelnika warto podać kilka ilustratywnych przykładów zastosowań kreatywnej księgowości, stwarzających możliwość naliczenia mniejszego podatku. Może to być: -. ewidencjonowanie fikcyjnych transakcji,. -. odpowiedni wybór sposobu wyceny inwestycji długoterminowych (wg ceny nabycia lub wartości rynkowej),. -. traktowanie remontów jako modernizacji, podwyższając tym samym wartość bilansową środków trwałych,. -. ujmowanie wpływów z tytułu umowy wieloletniej jako przychody roku bieżącego,. -. ukrywanie informacji o majątku przedsiębiorstwa, przechowywanego na zagranicznych kontach, czy. -. ukrywanie lub celowe opóźnianie księgowania faktur (zakupu lub sprzedaży),. -. wydłużanie okresu amortyzacji środków trwałych.. Z tego względu kreatywna księgowość może być jedną z najważniejszych przyczyn niezadawalających rezultatów oceny MSP, podanych w literaturze [Pongsatat, Ramage oraz Lawrence, 2004; Vieira, Ribeiro, Mukkamala i inni, 2004; Vieira oraz Neves, 2006; Haider oraz Bukhari, 2009; Kim oraz Sohn, 2010; Ribeiro, Lugovskaya, 2010]. Spostrzeżenia te zostały także potwierdzone w moich poprzednich badaniach [Burda, 2009]. Należy podkreślić, że w wielu państwach, w tym także w Polsce, Roczna ankieta przedsiębiorstwa (symbol formularza- SP) składana w urzędzie statystycznym, zawiera jedynie jakościową deklarację właściciela przedsiębiorstwa, czy jest ono w stanie trwania działalności, czy bankructwa. Ścisła ocena stanu przedsiębiorstwa 12.

(13) jest przeprowadzana raz na cztery lata, a w międzyczasie jest sporo miejsca na kreatywną księgowość. Z tego względu prowadząc w niniejszej rozprawie badania nad oceną MSP, podjąłem zamysł wzmocnienia typowego procesu klasyfikacyjnego procedurami nadzorowanego uczenia maszynowego, w celu uzyskania wiarygodnych modeli, opisujących status domyślnego (wirtualnego) przedsiębiorstwa badanego typu. Przyjęto zatem założenie, że modele te będą mogły później służyć do uzyskania wiarygodnej, krótkoterminowej (na przykład, rocznej) dychotomicznej (bankrut, nie-bankrut) prognozy stanu analizowanego przedsiębiorstwa. Opis zastosowanych algorytmów uczenia maszynowego oraz autorskiej metody walidacji uzyskanych wyników badań, wynikającej ze specyfiki analizowanych baz informacyjnych, która została przez mnie szczegółowo opisana w [Burda oraz Hippe, 2010], przedstawiłem w dalszym tekście rozprawy (Rozdział 3).. 13.

(14) Rozdział 3. KONCEPCJA REALIZACJI BADAŃ. STOSOWANE METODY, ALGORYTMY ORAZ SPOSOBY OCENY MODELI UCZENIA – WALIDACJA KOLEJKOWA. Osiągnięcie celu niniejszej rozprawy, tj. opracowanie wiarygodnej metody oceny stanu małego i średniego (a właściwie – rodzinnego) przedsiębiorstwa (MSP), może – jak założono – polegać na zastosowaniu mechanizmów uczenia maszynowego wykorzystujących modele uczenia, wygenerowane przede wszystkim za pomocą sztucznych sieci neuronowych, a także innych jeszcze narzędzi ekstrakcji informacji i wiedzy. Zamysł ten powinien być uzupełniony (niejako w tle) odpowiednią metodą oceny tych modeli. Toteż główny nurt narracji tego rozdziału dotyczy wybranych do badań struktur i algorytmów uczenia maszynowego, a kończy się na dyskusji sposobów oceny jakości tychże modeli. Zacznijmy jednak od próby zdefiniowania pojęcia modelu (w domyśle, modelu uczenia). Wg [Żółtowski oraz Niziński, 2002] ... model jest zastępującą oryginał, przyjętą formą reprezentacji, wykorzystywaną do wyjaśnienia i przewidywania zachowania się oryginału w sposób adekwatny z punktu widzenia celu rozważań … Proces tworzenia modelu powinien uwzględniać jego oczekiwaną dokładność, z jednoczesnym wzięciem pod uwagę kosztów tego procesu. W przypadku zjawisk społeczno-gospodarczych, a do takich zaliczyć należy pojęcie stanu MSP, ze względu na dużą złożoność zjawiska oraz brak dostatecznie sformalizowanych teorii, do budowy modeli wykorzystuje się zazwyczaj metody indukcyjne. Ich parametryzacja odbywa się z wykorzystaniem danych historycznych. Schemat takiego empirycznego podejścia, pokazany jest na Rys. 3-1. Jeżeli mode14.

(15) lowane zjawisko opisane jest atrybutami objaśniającymi (xi) oraz jedno lub wielowymiarowym atrybutem decyzyjnym (yi), to część dostępnych obserwacji wykorzystywanych jest w procesie parametryzacji modelu, a pozostałe do jego walidacji. W szczególnym przypadku dysponowania ograniczoną liczbą badanych obiektów, proces walidacji modelu może być realizowany na tym samym zbiorze danych, co proces jego parametryzacji. Ta szczególna technika sprawdzania poprawności modelu znana jest pod nazwą resubstytucji [Reich oraz Barai, 1999].. Parametryzacja. Walidacja. Dane treningowe: x1, x2,…, xi, y1, y2…, yi. Dane testujące: x1, x2,…, xi, y1, y2…, yi. Model yi=f(x1, x2,…, xi). Rys. 3-1. Schemat procesu modelowania. Wspomniane wnioskowanie indukcyjne polega na tym, aby ze zbioru dostępnych faktów (obserwacji danego zjawiska) wywieść najbardziej prawdopodobną hipotezę wyjaśniającą te fakty. Wykorzystanie metod indukcyjnych w procesie modelowania rzeczywistości wymaga sformalizowania sposobu reprezentacji wiedzy. Formalizacja opiera się o zasady logiki atrybutalnej, gdzie każdy obiekt opisany jest poprzez trójkę:. O(Obiekt) – A(Atrybut) – W(Wartość) Obiekt (O), to przykład, którego dotyczy pozyskiwana wiedza. Jego właściwości opisuje n-wymiarowy wektor cech, zwanych atrybutami (A). Każdy z nich przyjmuje określoną wartość (W). Ze względu na dziedzinę wyróżnia się następujące typy atrybutów:. 15.

(16)  nominalne (w danej dziedzinie możliwe jest określenie jedynie relacji równości atrybutów „=”, bądź nierówności „≠”),  porządkowe (możliwe jest określenie relacji mniejszości „<”),  liczbowe (dziedziny zdefiniowane są na liczbowych skalach pomiarowych). Jeżeli zbiór wszystkich znanych nam obiektów (przykładów) oznaczymy U, a zbiór wszystkich atrybutów A, to powstaje pewna reprezentacja wiedzy w postaci tablicy informacyjnej T, gdzie: T = (U, A) Jeżeli przynajmniej jeden z atrybutów ma charakter konkluzji bądź decyzji, to tablica T przyjmuje postać tablicy decyzji według koncepcji Pawlaka [Pawlak, 1995], co pokazano w Tab. 3-1. Przedstawiony przykład stanowi fragment bazy informacyjnej MSP_2000, wykorzystywanej do badań opisanych w kolejnych rozdziałach.. UZAO UKOM NKON PRMA WFIB. SZSP SZZA. Decyzja / Kategoria. Atrybut 7. Atrybut 6. Atrybut 5. Atrybut 4. Atrybut 3. Atrybut 2. Nazwa obiektu. Atrybut 1. Tab. 3-1. Przykładowa tablica decyzji z danymi MSP. Stan. MSP 1. 16.35. 0.30. 0.02. 6.06. 0.03. -0.16. -0.20 nie-bankrut. MSP 2. 3.39. 0.23. 0.20. 7.08. 0.04. -0.35. -0.79 bankrut. …. …. …. …. …. …. 36.17. 0.06. 0.92. 1.40. 0.00. 0.75. … MSP 132. … … -0.03 nie-bankrut. Wiersze tablicy reprezentują kolejne obiekty (O), przykłady małych i średnich przedsiębiorstw. Kolumny odpowiadają atrybutom (A) tych obiektów. W komórce znajdującej się na przecięciu określonego wiersza i kolumny zapisana jest wartość (W) odpowiedniego atrybutu dla reprezentowanego tym wierszem obiektu. W ostatniej (skrajnej prawej) kolumnie znajduje się atrybut o nazwie Stan, który 16.

(17) informuje o przynależności obiektu do określonej kategorii przedsiębiorstw. Ten typ reprezentacji danych znany jest w literaturze z obszaru uczenia maszynowego pod nazwą „danych typu 2A” [Varmuza, 1998]. Szczegółowy opis tej i pozostałych baz informacyjnych, wykorzystywanych do badań prowadzonych w ramach niniejszej rozprawy, zawiera Załącznik B.. Obraz bazy informacyjnej O specyfice trudności, jakich możemy doświadczyć w procesie tworzenia modelu, w największym stopniu decydują zgromadzone dane. Z tego powodu powinny być one poddane szczegółowej inspekcji, a przy zauważeniu usterek, jeśli to tylko jest możliwe, należy podjąć próby ich naprawienia. Do typowych „zanieczyszczeń” występujących w danych zaliczamy:  błędne dane,  redundancja informacji,  brakujące wartości danych,  niespójność dziedzinowa. W bazie danych MSP pozyskanej z urzędu statystycznego spodziewamy się błędnych danych (co było już komentowane) oraz niespójności dziedzinowej. Aby wyeliminować te pierwsze, należałoby mieć wgląd do dokumentów źródłowych, co z powodu ograniczeń prawnych wspomnianych w Rozdziale 1, nie było możliwe. Bez możliwości choćby fragmentarycznej ich weryfikacji, stosowanie statystycznych metod wyszukiwania niespójności baz informacyjnych byłoby obarczone dużym ryzykiem. W tym miejscu należy podkreślić, że wszelkie ingerencje w źródłowe dane należy czynić z wielką rozwagą i uwzględnieniem celów modelowania. Aby uniknąć konsekwencji związanych z niespójnością dziedzinową, bazę informacyjną podzielono na podzbiory, które zawierają dane firm zgromadzone w jednym roku kalendarzowym. Za celowe można by też uznać dalszy podział – branżowy, ale z uwagi na ograniczoną w tym przedziale czasu (lata 2000-2006) liczbę firm kategorii bankrut uznano to za niewykonalne. 17.

(18) Wykorzystana do badań baza informacyjna pozwala na dychotomiczną kategoryzację stanu przedsiębiorstwa. Jedne przypadki należą do kategorii bankrut, pozostałe nie-bankrut. Aby uzmysłowić skalę trudności zadania klasyfikacyjnego, dokonano klasteryzacji na obiektach bazy informacyjnej MSP_2001 metodą k-średnich [Hartigan, 1975]. Baza liczy 150 przypadków i jest równoliczna ze względu na obie występujące kategorie. Przyjęto następujące parametry uczenia: centra skupień wybierano z zastosowaniem maksymalizacji odległości pomiędzy nimi, liczba skupień zawierała się w przedziale [2, 25], metoda walidacji – 10-krotny sprawdzian krzyżowy. Uzyskane wyniki eksperymentu przedstawiono na Rys. 3-2. Wykresy rozkładu prawdopodobieństwa cech, dla 2 otrzymanych skupień, a szczególnie dla atrybutów: Stopa zmian zatrudnienia (SZZA) i Stopa zmian sprzedaży (SZSP), świadczyć mogą o dużych możliwościach dyskryminacyjnych przykładowej bazy informacyjnej. Graficznym potwierdzeniem tej tezy jest wykres rozrzutu obiektów (Rys. 3.3). Jednakże, gdy przy pomocy uzyskanego modelu dokonamy klasyfikacji obiektów tej bazy, to wyniki pokazane w Tab. 3-2 i na Rys. 3-4 pokazują coś zgoła odmiennego.. Tab. 3-2. Klasyfikacja przypadków bazy informacyjnej MSP_2001 metodą k-średnich Kategoria bankrut nie-bankrut. Wynik klasyfikacji bankrut nie-bankrut 36 39 4 71. Mimo że liczba błędnie sklasyfikowanych przypadków L = 43 (39 przypadków przypisanych w bazie informacyjnej do kategorii bankrut zaklasyfikowanych zostało przez model do kategorii nie-bankrut oraz 4 przypadki nie-bankrut model sklasyfikował jako bankrut) nie odbiega od oczekiwań, to niezwykle interesujące jest występowanie bardzo tak dużych różnic w liczbie błędnych klasyfikacji w zależności od kategorii przypadków.. 18.

(19) Wykres rozkładu atrybutu: UZAO. Wykres rozkładu atrybutu: UKOM. Udział zapasów w aktyw ach ogółem Skupienie 1 ~ normal(x;17,733909;19,161100) Skupienie 2 ~ normal(x;8,736250;11,903386). Udział kapitału obrotow ego w finansow aniu maj ątku ogółem Skupienie 1 ~ normal(x;0,058091;0,398174) Skupienie 2 ~ normal(x;-2,345750;3,243365). 0,04. 1,2. Gęstość prawdopodobieństwa. Gęstość prawdopodobieństwa. 1,0. 0,03. 0,02. 0,01. 0,8. 0,6. 0,4. 0,2. 0,00 -60. -40. -20. 0. 20. 40. x ( UZAO. 60. 80. 100. 0,0 -16. Skupienie 1 Skupienie 2. -14. -12. -10. -8. ). -6. -4. -2. 0. x ( UKOM. 2. 4. Wykres rozkładu atrybutu: NKON. Wykres rozkładu atrybutu: PRMA. Niedobór kapitału obrotow ego netto Skupienie 1 ~ normal(x;0,258545;1,020567) Skupienie 2 ~ normal(x;3,324000;4,301963). Produktyw ność maj ątku Skupienie 1 ~ normal(x;3,707273;3,974244) Skupienie 2 ~ normal(x;1,085750;0,715657). 0,5. 6. 8. 10. Skupienie 1 Skupienie 2. 20. Skupienie 1 Skupienie 2. 2,5. Skupienie 1 Skupienie 2. ). 0,7. Gęstość prawdopodobieństwa. Gęstość prawdopodobieństwa. 0,6 0,4. 0,3. 0,2. 0,1. 0,5 0,4 0,3 0,2 0,1. 0,0 -15. -10. -5. 0. 10. 15. 20. 0,0 -15. Skupienie 1 Skupienie 2. -10. -5. ). 0. 5. x ( PRMA. 10. Wykres rozkładu atrybutu: SZSP. Wynik finansow y brutto Skupienie 1 ~ normal(x;0,105636;0,343407) Skupienie 2 ~ normal(x;-0,399500;0,774296). Stopa zmian sprzedaży Skupienie 1 ~ normal(x;-0,078818;0,586026) Skupienie 2 ~ normal(x;-0,558500;0,350539). 1,4. 1,4. 1,2. 1,2. 1,0 0,8 0,6 0,4 0,2. 15. ). Wykres rozkładu atrybutu: WFIB. Gęstość prawdopodobieństwa. Gęstość prawdopodobieństwa. x ( NKON. 5. 1,0 0,8 0,6 0,4 0,2. 0,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 x ( WFIB. 0,0. 0,5. 1,0. 1,5. 2,0. 2,5. Skupienie 1 Skupienie 2. ). 0,0 -2,5. -2,0. -1,5. -1,0. -0,5. 0,0. x ( SZSP. 0,5. 1,0. 1,5. 2,0. ). Wykres rozkładu atrybutu: SZZA Stopa zmian zatrudnienia Skupienie 1 ~ normal(x;-0,001636;0,351867) Skupienie 2 ~ normal(x;-0,757250;0,274171) 1,8. Gęstość prawdopodobieństwa. 1,6 1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0 -2,0. -1,5. -1,0. -0,5 x ( SZZA. 0,0. 0,5. 1,0. 1,5. Skupienie 1 Skupienie 2. ). Rys. 3-2. Wykresy rozkładów prawdopodobieństwa skupień dla 7 atrybutów objaśniających w bazie informacyjnej MSP_2001 19.

(20) Rys. 3-3. Wykres rozrzutu obiektów dla 2 skupień wyróżnionych metodą k-średnich. Rys. 3-4. Wykres rozrzutu obiektów sklasyfikowanych metodą k-średnich. Wydaje się, że uzyskane tą metodą wyniki predykcji potwierdziły wstępnie przyjęte założenie, że pozyskane bazy zawierają pewną liczbę przypadków skażonych błędami. Co ważne, dotyczy to częściej przypadków kategorii bankrut. Spośród 75 aż 20.

(21) 39 z nich (Tab. 3-2) wykazuje cechy obiektów nie-bankrut (punkty koloru czerwonego na obszarze prostokąta ograniczonego linią przerywaną na Rys. 3-4). Z tego powodu uznano za wiarygodne przypuszczenie, że dokumentacja księgowa firm znajdujących się w stanie zagrożenia upadłością, częściej niż w przypadku firm będących w dobrej kondycji finansowej, skażona jest metodami kreatywnej księgowości. Przedstawiony obraz baz informacyjnych skłania więc do przypuszczenia, że prognozowanie stanu MSP nie jest zadaniem trywialnym. Zgromadzona w tych danych wiedza należy do grupy wiedzy ukrytej (ang. hidden knowledge). Stąd wynika głębokie przekonanie, że skuteczne metody prognozowania stanu tej grupy przedsiębiorstw powinny być realizowane poprzez specyficzne wykorzystanie możliwości ukrytych w istniejących algorytmach uczenia maszynowego (Hippe, 2007).. Wybrane metody uczenia maszynowego Uczenie maszynowe (ML, ang. Machine Learning) zaliczane jest do metod sztucznej inteligencji obliczeniowej. Rozumiane jest również jako sposób analizy zjawisk związanych z procesem uczeniem się, ale na potrzeby tej rozprawy termin ten określa mechanizmy tworzenia systemów, które na podstawie doświadczeń z przeszłości (przykładów uczących), tworzą nowe, łatwe do interpretacji reprezentacje wiedzy. Systemy takie zdolne są do samokorekcji prostych błędów oraz potrafią w sposób ciągły doskonalić swoje działanie. Do tej grupy metod zaliczane są sztuczne sieci neuronowe. Ważną zaletą sieci neuronowych jako urządzeń prognozujących jest fakt, że w wyniku procesu uczenia sieć może nabyć zdolności przewidywania wyjściowych sygnałów (odpowiedzi systemu ekonomicznego) wyłącznie na podstawie obserwacji tak zwanego ciągu uczącego (tj. określonej liczby sekwencji sygnałów wejściowych i wyjściowych stanowiących materiał empiryczny z przeszłości) bez konieczności stawiania w sposób jasny hipotez o naturze związku pomiędzy wejściowymi danymi, a przewidywanymi wynikami. Innymi słowy sieć może nauczyć się prognozować 21.

(22) sygnały wyjściowe także wtedy, gdy korzystający z niej badacz nie wie nic o naturze związków łączących przesłanki z wnioskami. [Tadeusiewicz, 1993] Sens powyższego cytatu oddaje w pełni sytuację opisaną w treści tego i poprzednich rozdziałów. Z tego też powodu pierwszą klasą metod, które zastały wykorzystane przeze mnie do zbudowania modelu stanu MSP, były sztuczne sieci neuronowe.. Sztuczne sieci neuronowe – perceptron wielowarstwowy Na podstawie analizy dostępnych danych literaturowych, przedstawionej w Załączniku D wynika, że w dziedzinie prognozowania bankructwa przedsiębiorstw, najczęściej korzystano ze sztucznych sieci neuronowych o architekturze perceptronu wielowarstwowego (MLP- Multilayer Perceptron) [Odom oraz Sharda, 1990; Piramuthu, Ragavan oraz Shaw, 1998; Atiya, 2001]. Podstawowym elementem takiego układu jest neuron (Rys. 3-5).. x0 = -1 x1 x2. w0. w1 w2. u. Σ. f(u). y. wn. xI Rys. 3-5. Model neuronu McCullocha-Pittsa. W jego wnętrzu dokonuje się obliczanie sumy ważonej sygnałów wejściowych (xi), skorygowanej o stałą wielkość progową pochodzącą od wejścia o stałym sygnale, zgodnie ze wzorem: I. 3.1. u   xi wi i 0. 22.

(23) Dodatkowo, na wyjściu neuronu, aby przekształcenie sygnału wejściowego w sygnał wyjściowy miało charakter nieliniowy, wprowadza się nieliniową funkcję aktywacji y = f(u). Przy wyborze tej funkcji należy kierować się rolą jaką pełni neuron w sieci. Najczęściej, również ze względu na ich łatwą różniczkowalność, wykorzystywane są funkcje: logistyczna (3.2) i funkcja tangensa hiperbolicznego (3.3): 3.2. f (u ) . 1 1  e net. 3.3. f (u ) . enet  e net enet  e net. Budowę przykładowej sieci neuronowej jednokierunkowej, o architekturze perceptronu trójwarstwowego, na potrzeby tej pracy zwanej MLP3, przedstawiono na Rys. 3-6. Należy zwrócić uwagę, że w tego typu sieciach nie występują połączenia między neuronami tej samej warstwy. Nie ma też połączeń zwrotnych do neuronów znajdujących się w warstwie poprzedzającej. -1. -1 w10. x1 x2. xI. w11 w21. V1. W11. V2. VJ. y1. W21 WK1. WJ1. WJI. W10. WKJ. y2. yK. Rys. 3-6. Sieć jednokierunkowa, trójwarstwowa. Jeżeli przyjęte na Rys. 3-6 oznaczenia zapiszemy w postaci: 3.4. X = [-1, x1, …, xN]T – wektor sygnałów wejściowych,. 23.

(24) 3.5. V = [-1, v1, …, vJ]T – wektor sygnałów na wejściu neuronów warstwy wyjściowej,. 3.6. Y = [y1, y2, …, yK]T – wektor sygnałów wyjściowych,. 3.7.  w10 w11 w w w   20 21  ... ...   wJ 0 wJ 1. 3.8.  W10 W11 W W 21 W   20  ... ...  WK 0 WK 1. ... W1J  macierz współczynników wagowych połączeń ... W2 J  pomiędzy warstwą wyjściową, a warstwą ukry– ... ...  tą,  ... WKJ . 3.9.  f () 0  0 f () ()    ... ...  0  0. ... 0  ... 0  – operator nieliniowy, ... ...   ... f (). ... w1N  ... w2 N  macierz współczynników wagowych połączeń – pomiędzy warstwą ukrytą, a warstwą wej... ...   ściową, ... wJN . to sposób przetwarzania sygnałów wejściowych w wyjściowe można zapisać w postaci równania macierzowego: 3.9. Y = Γ[WV] = Γ[WΓ[wX]],. a w konsekwencji prowadzi to do postaci analitycznej: 3.10. J J I yk  f  Wkj v j   f  Wkj f (  w ji xi )  i 0  j 0   j 0 . Algorytmy uczenia perceptronów wielowarstwowych Uczenie sieci neuronowej może odbywać się w trybie nadzorowanym (z nauczycielem) bądź nienadzorowanym (bez nauczyciela). W przypadku uczenia nadzorowanego (Rys. 3-7) dysponujemy zbiorem przykładów uczących złożonych z par sygnałów wejściowych i wyjściowych (x, d), gdzie d jest oczekiwaną odpowiedzią 24.

(25) sieci na sygnał wejściowy x. Proces uczenia polega na zmianie wartości wag połączeń – w pomiędzy neuronami sieci proporcjonalnie do sygnału błędu ujawnionego na jej wyjściu – r oraz sygnału na wejściu sieci – x.. x. Sztuczna sieć neuronowa y = f(w). ∆w = f(r,x). y. sygnał błędu r = f(d,y). d – oczekiwana odpowiedź. Rys. 3-7. Tryb uczenia nadzorowanego. W tym celu stosuje się różne algorytmy. Jednym z nich, najczęściej stosowanym ze względu na dużą skuteczność, jest algorytm wstecznej propagacji błędu (ang. backpropagation algorithm). Użyta w nim strategia polega na propagowaniu wstecz błędu wyliczonego na wyjściu sieci, na wszystkie neurony warstw ukrytych, z zastosowaniem gradientowych metod optymalizacyjnych [Fausett, 1994]. Istotą tego algorytmu jest minimalizacja określonej funkcji błędu ujawnionego na wyjściu sieci. Funkcję tę definiuje się najczęściej w postaci: 3.11. E (W ) . 1K 2  ( d k  yk ) 2 k 1. Przyjmijmy następujące oznaczenia:  parametr η, zwany najczęściej stałą uczenia, jest współczynnikiem proporcjonalności pomiędzy wartościami błędu uczenia i poprawką współczynników wagowych sieci,  Emax jest przyjętą wartością dopuszczalnego błędu uczenia i określa stan, który decyduje o zakończeniu procesu uczenia oraz  parametr l, jako numer kroku wewnątrz cyklu uczenia. Przez cykl uczenia rozumiemy podanie na wejście sieci wszystkich dostępnych przypadków ze zbioru uczącego. Parametr p – jest liczbą przypadków w zbiorze uczącym. Poniżej przedstawiono przebieg tego algorytmu [Żurada, Barski oraz Jędruch, 1996]. 25.

(26) Krok 1: Wybór η > 0, Emax > 0. Krok 2: Wybór elementów macierzy wag w (3.7) i W (3.8) jako niewielkich liczb losowych. Krok 3: Ustawienie wartości początkowych licznika kroków oraz zerowanie wartości błędu: l ← 1,. E ← 0.. Krok 4: Podanie na wejście sieci przykładu uczącego i obliczenie sygnału wyjściowego: x ← xl ,. d ← dl, I. v j  f (  w ji xi ), i 0. J y k  f  Wkj v j ,  j 0 . gdzie: funkcja aktywacji f(∙) dana jest wzorem (3.2) dla neuronu unipolarnego, a wzorem (3.3) dla neuronu bipolarnego. Krok 5: Aktualizacja błędu: 1K E  E   ( d k  yk ) 2 . 2 k 1. Krok 6: Obliczenie sygnałów błędu δy i δv obu warstw. Dla bipolarnej funkcji aktywacji odbywa się zgodnie ze wzorem: 1 2.  yk  (d k  yk )(1  yk2 ), 1 2. K.  vj  (1  v 2j )   ykWkj , k 1. k  1, 2, ..., K j  1, 2, ..., J .. Dla unipolarnej funkcji aktywacji:  yk  (d k  yk ) yk (1  yk ), K.  vj  v j (1  v j )   ykWkj , k 1. k  1, 2, ..., K j  1, 2, ..., J .. 26.

(27) Krok 7: Aktualizacja współczynników wagowych warstwy wyjściowej: Wkj ← Wkj + ηδykvj,. k = 1, 2, …, K j = 1, 2, …, J.. Krok 8: Aktualizacja współczynników wagowych warstwy ukrytej: wji ← wji + ηδyjxi,. j = 1, 2, …, J i = 1, 2, …, I.. Krok 9: Jeżeli l < p, to l ← l + 1 i przejdź do kroku 4. Krok 10: Koniec cyklu uczenia. Jeżeli E < Emax, to zakończ proces uczenia, w przeciwnym razie rozpocznij nowy cykl uczenia – przejdź do kroku 3.. Innym kryterium zakończenia procesu uczenia może być osiągnięcie założonej liczby cykli uczenia. Takie właśnie kryterium zastosowano w cyklu badań opisanych w Rozdziale 4 niniejszej rozprawy. Odmiana tego algorytmu, algorytm gradientów sprzężonych [Bishop, 1995] modyfikuje współczynniki wagowe w sposób skumulowany, jednorazowo na koniec realizacji jednej epoki uczenia: 3.12. p. w   wi i 1. gdzie ∆wi jest wektorem korekcji wag po podaniu wektora uczącego xi. Zmiana ta wpływa na znaczne przyspieszenie tego procesu, jednocześnie eliminuje wpływ kolejności (podawanych na wejście sieci) przypadków na wynik procesu uczenia. W klasycznej wersji algorytmu, aby temu zapobiec, stosuje się losowanie kolejności przypadków w zbiorze uczącym, osobne dla każdej epoki uczenia. Wprowadzenie dodatkowej warstwy ukrytej (model MLP4) powoduje zwiększenie zdolności dyskryminacyjnych układu. O ile sieć dwuwarstwowa dokonuje separacji liniowej, sieć trójwarstwowa (z jedną warstwą ukrytą) wyznacza w przestrzeni wejść spójne obszary wypukłe dla przypadków tej samej kategorii. Sieć o dwóch warstwach ukrytych nie podlega w tym względzie żadnym ograniczeniom, co pokazano na Rys. 3-8.. 27.

(28) Rys. 3-8. Sposób separacji przestrzeni wejść perceptronów trójwarstwowych MLP3 (z lewej) i czterowarstwowych MLP4 (z prawej). Sztuczne sieci neuronowe o radialnych funkcjach bazowych Kolejnym rodzajem sztucznych sieci neuronowych, które zostały użyte do prezentowanych w Rozdziale 4 badań, jest sieć o radialnych funkcjach bazowych (ang. Radial Basis Functions, RBF). Ta trójwarstwowa, jednokierunkowa sieć, ze względu na swoją architekturę, inaczej separuje obszary w przestrzeni wejściowej niż perceptrony trójwarstwowe (MLP3) i czterowarstwowe (MLP4). Te ostatnie realizują zadanie klasyfikacyjne przy pomocy hiperpłaszczyzn, sieci RBF, ze względu na stosowane w nich radialne funkcje aktywacji G(∙), w postaci hipersfer. Ta ich odmienność była główną przyczyną ich zastosowania. Schemat takiej sieci przedstawiono na Rys. 3-9. -1 w10. x1 x2. w11 w21. W10. G0 G1. W11. W20. y1. G2. wm1. y2 WK2 W1J. xI. WJI. GJ. WKJ. yK. Rys. 3-9. Schemat sieci RBF 28.

(29) W sieciach RBF neurony Gj warstwy ukrytej (Rys. 3-9), rozmieszczane są na początku procesu uczenia, jako centra, proporcjonalnie do gęstości skupień występujących w danych [Bishop, 1995; Powell, 2001]. Związaną z nimi radialną funkcją bazową G(∙) można przedstawić w postaci: 3.13 G(x,c) = G(r(x,c)), gdzie: x, c  Rn to dwa punkty położone w n-wymiarowej przestrzeni liczb rzeczywistych, a r(x,c) jest odległością pomiędzy tymi punktami. Odległość tę w przestrzeni euklidesowej opisuje formuła: 3.14 r = r(x,c) = ||x-c|| = {(x-c)T (x-c)}1/2. A zatem, wartość funkcji G(∙) dla przyjętej wartości argumentu x zależy od jego odległości od ustalonego położenia centrum c, który pełni rolę parametru tej funkcji. W zastosowaniach praktycznych najczęściej do tego celu wykorzystywana jest funkcja Gaussa, której wykres pokazano na Rys. 3-10, a określona jest wzorem:. 3.15. G ( x, c,  )  exp{ 2. xc. 2. 2. }. Rys. 3-10. Funkcja Gaussa w przestrzeni trójwymiarowej. Funkcja ta, ze względu na kształt, określana jest też mianem funkcji dzwonowej. Jej rozpiętość, szerokość dzwonu, regulowana jest parametrem ϭ2. Wzrost tego parametru powoduje, że staje się on coraz szerszy i niższy. Działanie sieci RBF, pokazanej na Rys. 3-9, rozpoczyna podanie na jej wejściu kolejnych N-wymiarowych wektorów x – przykładów z bazy informacyjnej. Każdy 29.

(30) neuron warstwy ukrytej Gj posiada swoje centrum cj  RN. Są one inicjowane na etapie tworzenia sieci, a ich położenie ulega przemieszczaniu we wstępnej fazie procesu uczenia, adaptacyjnie do naturalnych skupisk występujących w danych. Dla każdego wektora xn (n = 1, 2, …, N) obliczane są aktywacje gn wszystkich neuronów Gj, zgodnie ze wzorem: 3.16 gn = [g1n, g2n, …, gJN] = [G(xn, c1), G(xn, c2), …, G(xn, cJ)]. Każdy neuron Yk warstwy wyjściowej działa podobnie jak neurony wyjściowe w sieciach MLP. Dokonuje on sumowania iloczynów sygnałów gn i współczynników wagowych Wkj (3.1), a następnie taki sygnał (yk), przy zastosowaniu liniowej (tożsamościowej) funkcji aktywacji, przekazuje na wyjście sieci. Wartości wag, istotne z punktu widzenia wartości sygnału yk, ustalane są w trakcie drugiej fazy procesu uczenia.. Algorytmy uczenia sieci RBF Przed rozpoczęciem procesu uczenia tego typu sieci, należy ustalić arbitralnie liczbę J neuronów warstwy ukrytej Gj. Jak już wspomniano wcześniej, proces uczenia sieci RBF przebiega dwuetapowo. Etap I: na początku dokonywane jest rozmieszczenie centrów skupień cj neuronów Gj. Można to zrealizować na kilka sposobów: losowo lub poprzez grupowanie przestrzeni wejść na J obszarów metodą k-średnich [Hartigan, 1975] bądź korzystając z algorytmu EM [Witten oraz Frank, 2005]. W badaniach opisanych w Rozdziale 4 w procesie klasteryzacji korzystano z metody k-średnich w przestrzeni euklidesowej, zgodnie z poniższym algorytmem: Krok 1: wybór lmax > 0 (liczba cyklów uczenia). Krok 2: losowe rozmieszczenie J punktów, pełniących rolę początkowych centrów w przestrzeni danych RN.. 30.

(31) Krok 3: dla każdego punktu xp  RN zostaje odszukane najbliższe centrum. Dla otrzymanych podzbiorów Sj, o liczebności Mj, obliczana jest wartość średniej arytmetycznej – środek ciężkości – zgodnie ze wzorem: 1 p x . M j pS. mj . j. Krok 3: średnie mj wyznaczane są na nowe centra skupień i obliczany jest błąd podziału: J. 2. E    x p  mj . j 1. pS j. Krok 5: jeżeli wartość l < lmax, to przejdź do kroku 3 (Innym kryterium zakończenia tego procesu jest osiągnięcie stabilizacji błędu E). Krok 6: koniec cyklu wyznaczania centrów skupień.. Parametr spłaszczenia ϭ2 szacuje się na podstawie postępowania heurystycznego. Najczęściej przyjmuje on wartość średniej odległości każdego z centrów mi od najbliższego sąsiada mj: 3.17. 2 . 1 J  mi  m j . J i 1. Etap II: wyznaczanie wartości współczynników wagowych Wkj. Przyjmijmy, że wektor wyjściowy Yk jest jednowymiarowy, czyli k=1, co ma miejsce w realizowanych przeze mnie badaniach stanu MSP. Mamy wtedy tylko jeden wektor wag modyfikowanych w procesie uczenia: 3.18 W = [W0, W1, …, WJ]. Wartość sygnału yp na wyjściu sieci, w odpowiedzi na podanie wektora xp na jej wejściu, można zapisać wzorem: 3.19 yp = G(xp, c1)W1 + G(xp, c2)W2+ … + G(xp, cJ)WJ – W0.. 31.

(32) Jeżeli przyjmiemy błąd wskazań sieci jako sumę kwadratów odchyleń między wartościami oczekiwanymi na jej wyjściu dp, a prognozowanymi yp, to funkcję tę można wyrazić wzorem: 3.20. J. E   (d p  y p ) 2 . i 1. Jeżeli do wzoru 3.20 podstawimy odpowiednią wartość yp ze wzoru 3.19, to łatwo można zauważyć, że błąd E jest funkcją kwadratową wag Wj. Odpowiedni dobór ich wartości, to minimalizacja funkcji kwadratowej, co oznacza, że optymalizacja realizowana może być z wykorzystaniem tradycyjnych technik modelowania liniowego, np. algorytmu pseudoinwersji [Haykin, 1994; Golub oraz Kahan, 1965]. A to w konsekwencji oznacza, że nie wystąpią problemy związane z istnieniem tzw. minimów lokalnych, z którymi spotykamy się przy uczeniu sieci MLP.. Sztuczne sieci neuronowe – liniowe Sieci neuronowe liniowe (LIN) de facto zostały przedstawione już na Rys. 3-9. Jeżeli usuniemy na nim warstwę neuronów radialnych, a sygnały z warstwy wejściowej podamy wprost na jeden neuron warstwy wyjściowej, to otrzymamy autonomicznie działającą sieć LIN. Sposób jej uczenia, jest dokładnie taki sam, jaki został opisany w Etapie II uczenia sieci RBF. Należy w tym miejscu zaznaczyć, że sieci liniowe nadają się jedynie do klasyfikacji wzorców separowalnych liniowo, niezależnie od liczby zastosowanych warstw ukrytych. Skoro dowolną wielowarstwową sieć liniową można zastąpić równoważną siecią dwuwarstwową [Minsky oraz Papert, 1969], w sieciach tego typu warstwy ukryte nie występują. Rozmiar warstwy wejściowej zależy od wymiaru wektora wejściowego, a warstwa wyjściowa składa się z jednego neuronu. Wszystkie neurony posiadają liniowe funkcje aktywacji.. 32.

(33) Algorytm NGTS Algorytm NGTS, pierwotnie został opisany w [Hippe, 1999]. Informacje uzupełniające, dotyczące najnowszej wersji tego algorytmu przedstawiono w [Burda oraz Hippe, 2010]. W procesie uczenia generuje on zbiór reguł decyzji (w formacie JEŻELI … TO …) począwszy od najbardziej ogólnych do bardziej szczegółowych (Rys. 3.11). Istotą algorytmu jest użycie specyficznej formuły H służącej do walidacji i generowania kolejnych reguł: 3.21 H = G + sqrt(A) gdzie: G (ogólność) – łączna liczba przykładów klasyfikowanych poprawnie oraz błędnie, podzielona przez liczbę wszystkich przykładów w tabeli decyzji; A (dokładność) jest obliczana jako liczba poprawnie sklasyfikowanych przykładów podzielona przez całkowitą liczbę poprawnie i nieprawidłowo klasyfikowanych przykładów. Algorytm NGTS startuje od utworzenia pustego zbioru reguł R. W każdym etapie postępowania, pierwszy obiekt ze zbioru U zwany u1 jest używany do tworzenia zbioru stanów obiektu U’ i zbioru decyzji dla tego obiektu D’. Dodatkowo tworzony jest pusty zbiór W’, który służy do przechowywania akceptowalnych warunków reguł. Tak długo, jak W’ nie jest równe U’, wykonywane są następujące czynności:  tworzony jest zbiór S’, zawierający wszystkie możliwe kombinacje niewykorzystanych (jak dotąd) i niepustych stanów obiektu – do formalnego opisu stosuje się następujący wzór: S’ ← P {U’\W’} \ {Ø}, gdzie P oznacza zbiór potęgowy, będący zbiorem wszystkich podzbiorów tego argumentu (w tym zbiór pusty) – dlatego na koniec zbiór pusty należy usunąć;  dla każdego elementu s’i ze zbioru S’ tworzony jest zbiór potencjalnych warunków reguł zgodnie z formułą:. 33.

(34) wi ← W’  s’i  następnie zbiór potencjalnych warunków reguł wi podlega walidacji na podstawie wyliczonych wartości wcześniej opisanych parametrów G, A i H;  jeżeli dokładność (A) potencjalnych reguł równa się 1, to bieżący zbiór wi przyjmuje się do utworzenia warunków bieżącej reguły; reguła r jest tworzona i dodana do zbioru R, a w końcu ze zbioru U wszystkie obiekty występujące w nowej regule są usuwane, co opisuje poniższa formuła: U ← U \ [R];  jeżeli dokładność (A) potencjalnych reguł jest mniejsza od 1, to brany jest pod uwagę następny element s’i+1;  jeżeli nie ma już więcej elementów w zbiorze S', to ze wszystkich egzaminowanych zbiorów warunków wybierany jest ten, o maksymalnej wartości H do utworzenia nowej reguły, co można zapisać jako: Hmax ← max{H(w)} W’ ← w(Hmax). Jeżeli żaden z testowanych zestawów warunków nie prowadzi do reguł mających A=1, to W’ wzrasta do U’ i reguły muszą być zbudowane ze wszystkich warunków U’, następnie dodawane są do R, i wreszcie wszystkie użyte w regule obiekty są usuwane ze zbioru U. Przetwarzanie jest kontynuowane aż do momentu, gdy wejściowy zbiór obiektów U jest pusty. W rezultacie końcowym zwracany jest zbiór reguł R.. 34.

(35) Start. DT = (U,C,D,V,f). R := Ø. U≠Ø. Tak. Nie. W’ = Ø U’ = {u1 × C} D’ = {u1 × D}. R. Stop W’ ≠ U’. Tak S’ := P{U’ \ W’} \ {Ø} i := 1. Nie. i := i + 1. i ≤ |S’|. Tak wi := W’ È s’i H(wi) := G + sqrt(A). Nie. Hmax := max{H(w)} W’ := w(Hmax). Tak A<1. Nie W’ := wi r := {JEŻELI W’ TO D’} R := R È r U := U \ [R]. Objaśnienia: DT. – tablica decyzji (Decision Table), DT = (U, C, D, V, f), gdzie: − U, C, D niepuste zbiory elementów. Gdzie U jest zbiorem obiektów (przypadków), C jest zbiorem atrybutów opisujących, D jest zbiorem atrybutów decyzyjnych, − C, D  A, C  D = A, C  D =  (A jest skończonym zbiorem atrybutów), − V=. V. a. aA. (Va jest dziedziną atrybutu a  A),. − f: U  A  V jest funkcją informacyjną, taką jak.  f(x, a)  Va. xU a A. Rys. 3.11. Schemat algorytmu NGTS. 35.

(36) Algorytm generowania reguł decyzji z sieci przekonań Bayes’a Zastosowanie teorii Bayes’a w uczeniu maszynowym wiąże się z poszukiwaniem takiej hipotezy, dla której prawdopodobieństwo a posteriori jej poprawności, w kontekście zgromadzonego zbioru przypadków uczących, osiąga wartość maksymalną. Obliczamy je ze wzoru: 3.22. P ( h | D) . P ( D | h)  P ( h) , P ( D). gdzie: P(D|h) – jest prawdopodobieństwem obserwowanych danych D przy założeniu poprawności hipotezy h (wiarygodność), P(h). – jest prawdopodobieństwem a priori hipotezy h, natomiast. P(D). – określa prawdopodobieństwo obserwowanych danych D.. Przyjęta w Rozdziale 5 metodyka poszukiwania najlepszego modelu, zbioru reguł decyzji wygenerowanych w oparciu o teorię Bayes’a [Mroczek, 2009] realizowana jest w następujących krokach: Krok 1: oczyszczenie danych (eliminacja błędnych danych, poprawa błędów typograficznych, wykrywanie przypadków sprzecznych i redundantnych). Dyskretyzacja atrybutów numerycznych. Krok 2: generowanie modelu uczenia – sieci przekonań Bayes’a – w oparciu o zachłanny algorytm K2. Obliczenie rozkładów prawdopodobieństwa. Wygenerowanie zbioru sieci przekonań, będących reprezentacją najlepszego dopasowania struktury sieci do rozkładu prawdopodobieństwa warunkowego badanych hipotez [Mroczek, 2009]. Otrzymany model uczenia umożliwia wizualizację relacji zachodzących pomiędzy atrybutami. Pozwala to na zdefiniowanie hierarchii ważności atrybutów opisujących oraz analizę ich wpływu na przypisanie określonej kategorii (bankrut, niebankrut) dla obserwowanego przypadku. Krok 3: konwersja sieci przekonań Bayes’a do zbioru reguł przekonań (decyzji). Istotnym parametrem tego procesu jest ustalenie parametru PA, poziomu. 36.

(37) akceptacji – czyli minimalnej wartości prawdopodobieństwa warunkowego w zbiorze reguł (prawdopodobieństwo wystąpienia konkluzji na podstawie określonych przesłanek). Drugim parametrem jest liczba pokoleń. Przyjęcie wartości 1 dla tego parametru powoduje, że uwzględniane są tylko węzły sieci (atrybuty opisujące) bezpośrednio oddziaływujące na atrybut decyzyjny. Krok 4: zapisanie zbioru reguł w ogólnie przyjęty formacie JEŻELI … TO …, do pliku tekstowego.. Metody optymalizacji reguł decyzji Wiedza zawarta w zbiorach reguł decyzji generowanych metodami uczenia maszynowego może odbiegać od oczekiwań użytkownika. Znany paradygmat sztucznej inteligencji stwierdza, że zastosowanie różnych narzędzi nadzorowanego uczenia maszynowego do analizy danego (tego samego) zbioru danych, prowadzi zazwyczaj do utworzenia odmiennych modeli uczenia, objaśniających z różnym skutkiem i z różną precyzją ukrytą w nim wiedzę [Winston, 1992]. Ogólnie rzecz ujmując kryteria oceny zależeć będą od celu, dla którego wiedza była generowana. W sposób usystematyzowany anomalie występujące w odniesieniu do regułowej reprezentacji wiedzy można pogrupować następująco [Ligęza, 2005]: a) redundancja: reguły identyczne (ang. identical rules), reguły pochłaniające się (ang. subsumed rules), reguły równoważne (ang. equivalent rules), reguły nieużywane (ang. unusable rules), b) konsystencja (spójność): reguły niejednoznaczne (ang. ambiguous rules), reguły z konfliktem (ang. conflict rules), reguły z niespójnością logiczną, c) redukcja: redukcja reguł, kanoniczna redukcja reguł, specyficzna redukcja reguł, eliminacja zbędnych atrybutów, d) kompletność: logiczna kompletność, fizyczna kompletność, wykrywanie niekompletności, identyfikacja reguł brakujących.. 37.

(38) Zazwyczaj, główną wadą metod generujących ten rodzaj reprezentacji wiedzy jest tworzenie zbiorów o zbyt dużej liczbie reguł, co utrudnia ich percepcję oraz interpretację. Warto też pamiętać, że bardzo duża liczba reguł w danym modelu, może wynikać nie tylko z charakterystyki stosowanych algorytmów uczenia maszynowego, ale równie często ze specyfiki analizowanej bazy przypadków [Preece i Shinghal, 1994; Spreeuwenberg i Gerrits, 2002; Ligeza, 2005]. Procedura optymalizacji (Rys. 3-12), z zastosowaniem operacji generycznych, reguł decyzji otrzymanych w wyniku zastosowania algorytmu NGTS oraz reguł powstałych wskutek konwersji sieci przekonań Bayes’a do zbioru reguł decyzji, przedstawia się następująco [Paja, 2007]: Krok 1: usuniecie reguł zbędnych – tj. takich, które nie klasyfikują żadnego przypadku z bazy informacyjnej, Krok 2: usuniecie reguł redundantnych – tj. takich, które posiadają identyczne warunki i ich wartości (w części warunkowej reguły), w ramach tej samej klasy decyzji, Krok 3: usuniecie reguł pochłaniających – tj. takich, które posiadają wspólną z innymi regułami część warunkową, wzbogaconą dodatkowo warunkami uzupełniającymi, Krok 4: usunięcie warunków zbędnych – tj. usuniecie tych warunków z danej reguły, które nie powodują zmiany liczby prawidłowo klasyfikowanych przypadków z bazy informacyjnej, Krok 5: łączenie reguł – tj. tych reguł, które zawierają ten sam zestaw atrybutów numerycznych w części warunkowej. Wartości tych atrybutów na ogół stanowią przedziały liczbowe, zawierające się w sobie lub zachodzące na siebie, natomiast zestaw atrybutów symbolicznych i ich wartości w części warunkowej musi być identyczny, a cała operacja odbywa się w ramach tej samej klasy decyzji,. 38.

(39) START. Model uczenia zawiera reguły zbędne? Nie Model uczenia zawiera reguły redundantne? Nie Model uczenia zawiera reguły pochłaniające? Nie Model uczenia zawiera warunki zbędne? Nie Model uczenia zawiera reguły łączące się? Nie. Tak. Usunięcie reguł zbędnych Tak. Usunięcie reguł redundantnych Tak. Usunięcie reguł pochłaniających Tak. Usunięcie warunków zbędnych Tak. Połączenie reguł. Model uczenia pokrywa wszystkie przypadki ze zbioru uczącego?. Nie Utworzyć brakujące reguły algorytmem NGTS? Nie. Tak. Model uczenia jest optymalny?. Tak. Utworzenie reguł brakujących metodą standardową. Tak Utworzenie reguł brakujących algorytmem NGTS. Nie. Wybór reguł finanlnych. STOP. Rys. 3-12. Algorytm optymalizacji wtórnych źródeł wiedzy [Paja, 2007] 39.

(40) Krok 6: utworzenie reguł brakujących – czasem obserwuje się, że opracowany model uczenia (zbiór reguł) nie klasyfikuje wszystkich przypadków z bazy informacyjnej. W celu uniknięcia takiej sytuacji tworzone są tzw. reguły brakujące. Zawierają one warunki utworzone na podstawie występujących atrybutów opisujących i ich wartości dla przypadków niesklasyfikowanych, lub alternatywnie, reguły te są generowane z zastosowaniem algorytmu NGTS, Krok 7: wybór reguł finalnych – polegający na wyborze spośród zbioru wszystkich utworzonych, poprawnych reguł tylko tych, które posiadają największą istotność H, obliczaną zgodnie z formułą: 3.23 H(r) = [Siła(r) * Liczba warunków(r)] + Specyficzność(r) – Słabość(r) gdzie: Siła(r) – jest liczbą poprawnie klasyfikowanych przypadków ze zbioru uczącego przez regułę r, Liczba warunków(r) – to liczba warunków zawartych w części warunkowej reguły r, Specyficzność(r) – to stosunek liczby poprawnie klasyfikowanych przypadków z bazy informacyjnej przez regułę r do liczby przypadków w tej bazie, należących do danej klasy decyzyjnej, a Słabość(r) to stosunek liczby przypadków błędnie klasyfikowanych przez regułę r do liczby przypadków klasyfikowanych poprawnie. Zakłada się przy tym, że przedstawione powyżej operacje przypuszczalnie doprowadzą do wyeliminowania wspomnianego zjawiska nadmiarowości w modelach uczenia, uzupełniając je nowymi, brakującymi regułami, a nawet spowodują utworzenie optymalnego (lub quasi-optymalnego) zbioru reguł decyzji.. Optymalizacja klasyfikatora zespołowego z zastosowaniem algorytmu ważonej większości Jak wspomniano w poprzednim podrozdziale niezadawalająca jakość modeli uczenia maszynowego wynikać może ze specyfiki zbioru uczącego. Przedstawiona na początku tego rozdziału analiza baz informacyjnych MSP stosowanych w części eksperymentalnej pokazuje, że autonomiczne modele utworzone przy pomocy za40.

(41) prezentowanych wcześniej metod doprowadzić mogą do utworzenia odmiennych modeli uczenia, objaśniających z różnym skutkiem i z różną precyzją ukrytą w nich wiedzę. Dlatego celowym wydaje się być sprawdzenie, czy zespół klasyfikatorów zbudowany w oparciu o filozofię WMA (ang. Weighted Majority Algorithm) nie ustabilizuje tych wyników na odpowiednio wysokim, dorównującym najlepszemu z modeli, poziomie [Littlestone oraz Warmuth, 1994, Awerbuch oraz Kleinberg, 2008]. Poszukiwanie optymalnej architektury zespołu klasyfikatorów jest problemem nietrywialnym i w zależności od przyjętej procedury, może być dość złożone obliczeniowo [Giacinto, 1998]. Wykorzystana w Rozdziale 6 strategia poszukiwania takiego rozwiązania realizowana była z wykorzystaniem poniżej przedstawionego algorytmu [Shapire, 2006]. Przyjęte założenia i oznaczenia:  dla każdego przypadku p ze zbioru uczącego P o liczebności P, obserwowaną kategorię oznaczymy y {b, nb} – b, jak bankrut i nb jak nie-bankrut,  dysponujemy N modelami uczenia Mi połączonymi równolegle (Rys. 3-13), a predykcję i-tego modelu oznaczymy i {b, nb},  predykcję modelu zespołowego oznaczymy ŷ {b, nb},  wi, oznaczać będzie współczynnik wagowy modelu Mi.. Model M1. i w1. X. Model M2. 2. w2. Model zespołowy. ŷ. wN. Model MN. N. Rys. 3-13. Architektura klasyfikatora zespołowego do prognozowania stanu MSP 41.

(42) Krok 1: p ← 1, wi ← 1 Krok 2: obliczamy i podstawiamy qb   wi i: i b. q nb   wi i: i nb. Krok 3: predykcję modelu zespołowego ŷ ustalamy zgodnie z formułą:  b dla qb  qnb  y  nb w przeciwnym przypadku . Krok 4: wagi wi korygujemy zgodnie z formułą: i : jezeli  i  y, to wi    wi , dla  [0, 1). Krok 5: jeżeli p < P, to przejdź do kroku 2. Krok 6: zakończ procedurę korekcji wag wi. Parametr  obliczamy ze wzoru (3.24): 3.24.  . 1 2 ln N 1 K. ,. gdzie K  P / 2. Metody walidacji modeli uczenia Należy przyjąć, że modele układów złożonych, a zwłaszcza modele tworzone i eksploatowane w warunkach niepewności – stanowiące obszar moich badań – zawsze będą się różnić się od pierwowzoru. Z tego względu kluczową rolę w prowadzonych badaniach, niezależnie od przyjętych metod modelowania, spełnia opracowanie wiarygodnej metody walidacji modelu, z uwzględnieniem przyjętego celu jego powstania. W szczególnym przypadku dysponowania ograniczoną liczbą badanych obiektów, proces walidacji modelu może być realizowany na tym samym zbiorze danych, co proces jego parametryzacji. Ta szczególna technika sprawdzania poprawności mo42.

(43) delu znana jest pod nazwą resubstytucji [Reich oraz Barai, 1999]. Metoda ta jest często stosowana, mimo że uzyskiwany z jej pomocą wskaźnik błędu jest zazwyczaj zbyt optymistyczny [Krzanowski oraz Hand, 1997; Braga-Neto oraz Dougherty, 2004]. Należy podkreślić, że najważniejszym kryterium skuteczności metod indukcyjnych jest wskaźnik oszacowania błędu klasyfikacji oraz jego wiarygodność. Sposób wyznaczenia tego wskaźnika wynika z liczby dostępnych przypadków (obiektów). Jeśli ich liczba jest mniejsza od 100, do oszacowania błędu modelu uczenia najczęściej ma zastosowanie metoda leave-one-out [Geisser, 1993]. W metodzie tej liczba eksperymentów sekwencyjnego uczenia i testowania, jest równa liczbie przypadków w zbiorze danych. Podczas i-tego eksperymentu, i-ty przypadek usuwany jest z zestawu danych. Następnie model otrzymany przy pomocy pozostałych przypadków, zgodnie z zasadą indukcji, służy do klasyfikacji pomijanego przypadku, a wynik klasyfikacji jest rejestrowany. Błąd klasyfikacji wyznacza się, jako stosunek całkowitej liczby błędnych klasyfikacji do liczby przypadków w analizowanym zbiorze. Gdy liczba przypadków w zbiorze danych jest większa lub równa 100, najczęściej stosuje się metodę dziesięciokrotnej walidacji krzyżowej [Stone, 1974]. Technika ta jest podobna do metody leave-one-out i oparta jest na podobnym paradygmacie uczenia i testowania. Procedura rozpoczyna się od losowego sortowania wszystkich przypadków zbioru, a następnie zbiór wszystkich przypadków jest dzielony na 10 wzajemnie rozłącznych podzbiorów, w przybliżeniu równolicznych. Dla każdego n-tego podzbioru, wszystkie pozostałe przypadki wykorzystywane są do uczenia, tj. do indukcji założonej reprezentacji wiedzy, a podzbiór ten jest używany do testów. Jeśli istnieje uzasadnienie, wynikające najczęściej z uwarunkowań zbioru badawczego, liczba podzbiorów może różnić się od 10. Metoda ta jest powszechnie stosowana ze względu na oszczędność czasu przy jednoczesnym braku istotnego wpływu na dokładność oceny błędu. Jest powszechnie akceptowana jako standardowy sposób walidacji systemów indukcyjnych [Hand, Mannila oraz Smyth, 2005; Koronacki oraz Ćwik, 2005].. 43.

(44) W przypadku dużych zbiorów danych (liczba obiektów > 1000), przyjmuje się paradygmat testowania znany pod nazwą train-and-test (technika ta znana jest również pod nazwą holdout). Tutaj 2/3 przypadków powinno być wykorzystane do uczenia, a 1/3 do testowania [Weiss oraz Kulikowski, 1991]. Wstępna analiza udostępnionych mi do badań danych przez Urząd Statystyczny w Rzeszowie [WWW-9, 2013] wykazała, że pochodzą one z różnych okresów sprawozdawczych – przedziałów czasowych. Zmienność w czasie środowiska gospodarczego, jak się można domyślać, nie pozostaje bez wpływu na obiekty gospodarcze w nim funkcjonujące. Przypuszczalnie zatem, najlepszym sposobem zminimalizowania odstępstw wskazań modeli byłoby ciągłe pozyskiwanie danych i wykorzystywanie ich do cyklicznego, prawdopodobnie corocznego, uczenia lub douczania modeli na aktualnych danych. Taka sytuacja, w obecnych realiach, jest niezmiernie utrudniona ze względu na okoliczności formalnoprawne, takie jak wspomniane już ograniczenia w dostępie do danych zawartych w Rocznej ankiecie przedsiębiorstwa (SP), jak również opóźnienia w ich otrzymaniu, co z kolei wynika ze sposobu gromadzenia i przetwarzania tych danych w urzędach statystycznych. Biorąc pod uwagę powyższe ograniczenia przyjęto, że uda się opracować model klasyfikacji stanu MSP, który zachowywałby wystarczająco dokładne i stabilne wskazania w dostatecznie długim przedziale czasowym. Spodziewany, pewien nieznaczny wzrost błędu klasyfikacji, rekompensowany byłby większą użytecznością modeli oraz obniżeniem kosztów ich pozyskiwania. Powracając do zamysłu (i konieczności) uzupełnienia prowadzonych badań opracowaniem odpowiedniej metody oceny wygenerowanych modeli uczenia, zwróciłem uwagę na możliwość połączenia techniki resubstytucji (stosowana w celu sprawdzenia i-tego modelu, z wykorzystaniem danych z tego samego, i-tego roku) i walidacji opartej na zmodyfikowanym paradygmacie learn-and-test. Przykład takiej walidacji w odniesieniu do modelu uczenia uzyskanego na podstawie danych z 2003 roku, pokazany jest na Rys. 3-14. W paradygmacie tym model uczenia z i-tego roku jest kolejno stosowany i oceniany jako model dla roku i-tego±1, i-tego±2, i-tego±3, itp. Modyfikacja paradygmatu 44.

(45) badań opiera się zatem na niezależnej walidacji (klasyfikacji) na wszystkich zbiorach danych z roku i, i±1, i±2, i±3, itd. Procedurze tej nadano nazwę – walidacji kolejkowej (queue validation).. MSP_2000. MSP_2001. MSP_2003. proces uczenia testowanie (resubstytucja). Model_2003. walidacja kolejkowa. MSP_2002. MSP_2004. MSP_2005. MSP_2006. Rys. 3-14. Walidacja kolejkowa modelu uczenia z 2003 roku. W kolejnych rozdziałach pracy przedstawię wyniki badań nad metodologią prognozowania stanu małych i średnich przedsiębiorstw z użyciem wybranych i wyżej opisanych metod uczenia maszynowego, głównie z zastosowaniem różnorodnych topologii i metod uczenia sztucznych sieci neuronowych.. 45.

(46) Rozdział 4. WALIDACJA NIEPEWNYCH DANYCH MSP PRZY POMOCY INDUKCYJNYCH MODELI UCZENIA MASZYNOWEGO. MODELE SZTUCZNYCH SIECI NEURONOWYCH. Cel badań: przyjmując założenie (uzasadnione w części teoretycznej pracy), że analizowane dane mogą być celowo zniekształcone procedurami kreatywnej księgowości, podjęto próbę klasyfikacji badanych przypadków stosując modele indukcyjnego uczenia maszynowego, utworzone z wykorzystaniem (kolejno) literaturowych algorytmów stosowanych w sztucznych sieciach neuronowych, a mianowicie: sieci liniowej (LIN) [Golub oraz Kahan, 1965], sieci o radialnych funkcjach bazowych (RBF) [Powell, 1985; Powell, 2001; Michalski, Bratko oraz Kubat, 1998], perceptronu trójwarstwowego (MLP3) oraz perceptronu czterowarstwowego (MLP4) [Rumelhart oraz McClelland, 1986]. Pierwszy etap badań związany był ze znalezieniem odpowiedzi na pytanie, który algorytm uczenia – i w powiązaniu z jaką architekturą samej sieci – można będzie uznać za quasi-optymalny w odniesieniu do zamysłu opracowania uogólnionej metodyki analizy rzeczywistych danych o stanie małych i średnich przedsiębiorstw. Natomiast w drugim etapie badań, zrealizowano cykl wyczerpujących zastosowań wybranych (quasi-optymalnych) sieci neuronowych do sprawdzenia ich przydatności w opracowaniu wspomnianej metodyki analizy danych MSP. Algorytmy uczenia: sieci liniowe (LIN) uczone były przy pomocy standardowego algorytmu optymalizacji liniowej, opartego na technice tzw. pseudoinwersji (SVD) [Golub oraz Kahan, 1965]. W przypadku sieci o radialnych funkcjach bazowych (RBF) przypisywanie centrów funkcji bazowych realizowano metodą k-średnich 46.

(47) [Moody oraz Darkin,1989; Duda, Hart oraz Stork, 2001]; po określeniu centrów i odchyleń dla warstwy ukrytej, warstwę wyjściową optymalizowano z wykorzystaniem standardowej liniowej techniki optymalizacyjnej algorytmu pseudoinwersji (dekompozycji według wartości osobliwych) [Haykin, 1994; Golub oraz Kahan, 1965]. Natomiast w odniesieniu do sieci MLP3 oraz MLP4, w pierwszym etapie uczenia zastosowano metodę wstecznej propagacji błędu [Fausett, 1994] przez 100 epok, a następnie metodę gradientów sprzężonych [Bishop, 1995] przez kolejnych 500 epok.. Etap I. Wybór quasi-optymalnej architektury stosowanych sztucznych sieci neuronowych Metodyka badań: Dla każdej topologii sieci przeprowadzono 50 niezależnych procesów uczenia na zbiorze badawczym MSP_2000, bliżej opisanym w Załączniku B. Wszystkie próby rozpoczynano od losowego wyboru wag początkowych z przedziału (0,1). Liczba neuronów na wejściu sieci była zawsze równa liczbie atrybutów opisujących, tj. 7. Liczba neuronów w warstwie ukrytej modeli MLP3 i RBF, dobierana była w zakresie od 1 do 20. W przypadku modelu MLP4, liczba neuronów w pierwszej warstwie ukrytej zmieniała się od 1 do 20, a w drugiej warstwie ukrytej od 1 do 10. Liczba neuronów wyjściowych była zawsze równa liczbie atrybutów decyzyjnych, (1). Najlepszy model spośród 50-ciu, wybrany metodą resubstytucji, przetestowano omówioną w poprzednim rozdziale, autorską metodą walidacji kolejkowej, na zbiorach danych z lat 2001-2006. Jakość modeli oceniono przy pomocy własnego wskaźnika jakości predykcji, Q, szczegółowo opisanego w Załączniku C. Ze względów omówionych w Rozdziale 3, sieci liniowe LIN, nie poddawano tego typu optymalizacji. Wyniki badań: przedstawiono kolejno na: Rys. 4-1, 4-2, 4-3 (sieć o radialnych funkcjach bazowych), Rys. 4-4, 4-5 i 4-6 (perceptron trójwarstwowy, MLP3) oraz w tablicach od Tab. 4-1 do Tab. 4-6 (perceptron czterowarstwowy, MLP4). 47.

(48) Rys. 4-1. Wpływ liczby neuronów warstwy ukrytej sztucznej sieci neuronowej o radialnych funkcjach bazowych (RBF 7-n-1) na jakość predykcji modelu. Rys. 4-2. Wpływ liczby neuronów warstwy ukrytej sztucznej sieci neuronowej o radialnych funkcjach bazowych (RBF 7-n-1) na jakość predykcji modelu dla przypadków kategorii nie-bankrut 48.

(49) Rys. 4-3. Wpływ liczby neuronów warstwy ukrytej sztucznej sieci neuronowej o radialnych funkcjach bazowych (RBF 7-n-1) na jakość predykcji modelu dla przypadków kategorii bankrut. Rys. 4-4. Wpływ liczby neuronów warstwy ukrytej perceptronu trójwarstwowego (MLP3 7-n-1) na jakość predykcji modelu dla przypadków kategorii nie-bankrut 49.

(50) Rys. 4-5. Wpływ liczby neuronów warstwy ukrytej perceptronu trójwarstwowego (MLP3 7-n-1) na jakość predykcji modelu dla przypadków kategorii bankrut. Rys. 4-6. Wpływ liczby neuronów warstwy ukrytej perceptronu trójwarstwowego (MLP3 7-n-1) na jakość predykcji modelu. 50.