Zastosowanie algorytmu maszyny wektorów wspierających do klasyfikacji podatników z wykorzystaniem bazy danch Oracle 11G

(1)

LESZEK MISZTAL

Zachodniopomorski Uniwersytet Technologiczny

Streszczenie

Zastosowanie wydajniejszych systemów informatycznych spowodowało imple-mentacjĊ algorytmów eksploracji danych oraz moĪliwoĞü zastosowania ich w roz-wiązywaniu rzeczywistych problemów. Dotyczy to równieĪ algorytmu maszyny wek-torów wspierających w klasyfikacji. W opisanym rozwiązaniu zastosowano MWW z liniową funkcją jądra do klasyfikacji podatników ze wzglĊdu na pozytywny lub ne-gatywny wynik kontroli przy uwzglĊdnieniu specyficznych cech ich opisujących. Od-powiedni dobór danych, budowa modelu oraz jego uĪycie umoĪliwiło osiągniĊcia w/w celu ze zwiĊkszoną dokładnoĞcią w stosunku do „intuicyjnego” wyboru. DziĊki temu moĪliwe staje siĊ bardziej dokładne typowanie podatników, których naleĪy poddaü kontroli. Tym samym zwiĊksza siĊ skutecznoĞü egzekwowania prawa podat-kowego.

Słowa kluczowe: bazy danych, eksploracja danych, maszyna wektorów wspierajcych, klasyfikacja

1. Wprowadzenie

Eksploracja danych jest procesem odkrywania nowej wiedzy w duych wolumenach danych, która moe zosta wykorzystana w celu osignicia celów biznesowych danej organizacji. Techni-ki eksploracji danych wykorzystuj modele utworzone na podstawie zebranych danych oraz z wy-korzystaniem okrelonego algorytmu.

Algorytm maszyny wektorów wspierajcych jest technik tzw. uczenia nadzorowanego, gdzie wykorzystywane istniejce dane zawierajce zbiory atrybutów wejciowych oraz atrybut wyjcio-wy zawierajcy interesujcy nas poszukiwany element. Na podstawie istniejcych danych algorytm uczy si rozpoznawa okrelone zestawy danych przynalece do okrelonego atrybutu wyjcio-wego. W ten sposób tworzy si model, który mona zastosowa do istniejcych ju danych [2].

Celem naszego zadania jest odnalezienie w grupie podatników, osób które uchylaj si od płacenia lub te zmniejszaj wartoci płaconego podatku z wykorzystaniem MWW jako algorytmu klasyfikujcego, czyli takiego który wykonuje proces uczenia modelu opisujcego róne klasy da-nych [3]. Na podstawie istniejcych dada-nych wejciowych zawierajce dane opisujce „klientów” oraz znanego atrybutu wyjciowego informujcego o problemach z prawem podatkowych, bdzie stworzony model, którego póniejsze zastosowanie na nowej grupie danych wejciowych umoliwi zawenie oraz okrelenie z dokładniejsz precyzj poszukiwanych osób majcych problemy z prawem.

(2)

Ryszard BudziĔski, Leszek Misztal

Zastosowanie algorytmu maszyny wektorów wspierających do klasyfikacji podatników z wykorzystaniem bazy danch Oracle 11G

29

2. Przedstawienie algorytmu

Algorytm MWW jest wykorzystywany w zadaniach klasyfikacji, regresji jak równie do wy-krywania anomalii. Algorytm wykonuje transformacj zbioru danych reprezentowanego przez N atrybutów do punktów w N-wymiarowej przestrzeni. Nastpnie podejmowana jest próba podziele-nia uzyskanych punktów w podzbiory z okrelon wartoci poprzez atrybut wyjciowy (docelo-wy). Podział ten jest realizowany za pomoc hiperprzestrzenni w przypadku zastosowania liniowej funkcji jdra, lub te w wykorzystaniem nie liniowego separatora dla nie liniowej funkcji jdra. MWW odnajduje wektory wsparcia, które definiuj separatory dajce najwiksz separacj po-midzy klasami danych.

Zakładajc, e posiadamy nastpujcy zbiór danych:

D = {(xi, yi) dla xi∈ R, yi∈ {-1, 1}, 1 i n gdzie xi – wektor danych wejciowych, yi – przynaleno do klasy Wówczas wzór dla przestrzeni separujcej mona zapisa jako:

w * x + b = 0 gdzie w – wektor wsparcia

Przy czym dla separacji liniowej wybieramy dwie przestrzenie marginalne, pomidzy którymi nie ma adnych punktów, oraz maksymalizujemy odległo pomidzy nimi (dobieramy w i b w celu maksymalizacji marginesu).

w * x + b = 1 w * x + b = -1

Nastpnie dodajemy ograniczenie, które uniemoliwia znalezienie si punktów w wyznaczanym marginesie:

w * xi + b 1 dla xi w pierwszej klasie

w * xi + b -1 dla xi w drugiej klasie

Co mona zapisa jako:

yi (w * xi + b) 1, dla 1 i n Ostatecznie otrzymujemy do rozwizania ostateczn posta [1]:

min ||w||2/2, dla yi (w * xi + b) 1, dla 1 i n

Poniej znajduje si rysunek reprezentujcy graficzn reprezentacj działania algorytmu dla prze-strzeni dwuwymiarowej, oraz binarnego klasyfikatora.

(3)

Rys.1 Graficzna reprezentacja funkcjonowania MWW z maksymalną separacją

W naszym przypadku zostanie wykorzystana funkcja klasyfikacji dla algorytmu. Oznacza to tak funkcj, która przypisze kolekcj danych wejciowych do wyjciowych kategorii lub klas. Celem jest jak najdokładniejsze przewidzenie klasy wyjciowej dla kadego przypadku danych wejciowych. Realizacja tego zadania odbywa si z wykorzystaniem nauki z nauczycielem (tzn. nauczanie nadzorowane), która została opisana na wstpie.

3. Algorytm maszyny wektorów wspierajcych w ODM

Algorytm zastosowany w bazie danych Oracle (w tym przypadku Oracle 11g) dysponuje kil-koma interesujcymi cechami [5]:

• wsparcie dla liniowej oraz nieliniowej funkcji jdra (funkcja Gaussa),

• wybór funkcji jdra oraz jej parametrów moe by wykonywany automatycznie, jest równie moliwo rcznego doboru oraz parametryzowania,

• zastosowanie mechanizmu aktywnego nauczania - metod optymalizacji słuc do kon-troli przyrostu modelu oraz zredukowania czasu budowy modelu. Takie rozwizanie wymusza na algorytmie MWW na wykorzystaniu najbardziej reprezentatywnego zbioru danych, zamiast wykorzystania wszystkich danych. Najczciej model uzyskany w ten sposób ma dokładno porównywaln z modelem bazujcym na standardowym modelu, • wsparcie dla binarnych oraz wieloklasowych atrybutów wyjciowych,

• wsparcie dla przygotowania danych, które zostan poddane badaniu tzn.: wsparcie dla próbkowania danych wejciowych, podział danych na dane do budowy oraz testów, eli-minacja danych bdcych poza zakresem, uzupełniania brakujcych wartoci, normaliza-cja danych np. do zakresu z przedziału 0 do 1.

• dostp do funkcji algorytmu ODM, poprzez interfejs programowy PL/SQL, interfejs pro-gramowy Java API, dostp do funkcji z narzdzia Oracle Data Miner

W przypadku manualnego doboru parametrów, aby wykorzysta moliwoci narzdzia, nale-y skonfigurowa parametry dla funkcji realizujcych budow modelu MWW. Poniej znajduje si

(4)

31

tabela z funkcjami:

Tabela 1. Opis parametry funkcji dla algorytmu MWW

Parametr Nazwa w funkcjach Opis

Jdro SVMS_KERNEL_FUNCTION Funkcja liniowa lub Gausa. Algorytm

auto-matycznie uywa funkcji jdra, która jest najbardziej adekwatna do danych.

MWW wykorzystuje jdro liniowe, gdy jest wicej ni 1000 atrybutów w danych do na-uki, w pozostałych przypadkach uywa jdro Gausa.

Liczba atrybutów nie odpowiada liczbie ko-lumn w danych do nauki. MWW przekształca atrybuty zawierajce kategorie na binarne, numeryczne wartoci. Dodatkowo ODM interpretuje kady wiersz w zagniedonych kolumnach jak oddzielny atrybut.

Odchylenie standardowe dla jdra z funkcj Gausa

SVMS_STD_DEV Kontroluje rozpito dla jdra z funkcj

Gausa.

MWW wykorzystuje metod uzalenion od danych, która odnajduje warto standardo-wego odchylenia, która jest na tym samym poziomie, jak odległoci pomidzy typowymi przypadkami w danych.

Wielko

pa-mici podrcz-nej dla jdra z funkcj Gausa.

SVMS_KERNEL_CACHE_SIZE Ilo pamici zaalokowanej dla jdra z

funk-cj Gausa, w celu poprawienia czasu budowy modelu.

Aktywne

na-uczanie

SVMS_ACTIVE_LEARNING Wykorzystanie opcji aktywnego uczenia.

Szczególnie wane dla modelu nieliniowego z funkcj Gausa.

Domylnie aktywne nauczanie jest włczone. Czynnik

złoo-noci

SVMS_COMPLEXITY_FACTOR Ustawienia regulujce balans pomidzy

zło-onoci modelu, a prdkoci modelu.

4. Przebieg procesu eksploracji danych w narzdziach Oracle

Etapy rozwizywanie problemów eksploracji danych z wykorzystaniem narzdzia ODM s nastpujce:

• definicja problemu z punktu widzenia eksploracji danych i celów zadania • zebranie danych oraz ich przygotowanie

• budowa modelu, a nastpnie jego ocena • uruchomienie procesu produkcyjnie

(5)

Opis w/w etapów:

Definicja problemu z punktu widzenia eksploracji danych i celów zadania

Cel zadania musi by dobrze zdefiniowany oraz okrelony z punktu widzenia funkcjonalnoci oraz moliwoci systemu eksploracji danych. W naszym przypadku jestemy zainteresowani klasy-fikacj podatników z punktu widzenia moliwych uszczuple dochodów budetowych. Oznacza to wiksze zainteresowania osobami, które zostan dodane do grupy potencjalnie ograniczajcych, opóniajcych lub ukrywajcych płatnoci podatkowe, celem zmotywowania ich do postpowania zgodnie z ordynacj podatkow.

Zebranie danych oraz ich przygotowanie

Ogóln zasad w procesie eksploracji danych jest zebranie moliwie najwikszej iloci in-formacji o kadej jednostce, co umoliwi podczas procesu eksploracji danych wykrycie danych, które mog by wykorzystane. Nie powinno si eliminowa atrybutów w danych, które potencjal-nie uwaamy za mało istotne lub potencjal-nie istotne, popotencjal-niewa algorytmy istotnoci atrybutów mog wyka-za ich przydatno. Naley podda dane równie procesowi czyszczenia oraz normalizacji, nie-zbdnymi dla poprawnoci działania algorytmu klasyfikujcego [4].

W przypadku naszej klasyfikacji bdziemy wykorzystywali dane dotyczce danych demogra-ficznych „klientów” oraz danych zwizanych z kwotami deklarowanymi na składanych przez nich deklaracjach. Okrelone zostanie równie metoda okrelenia problemów z płatnociami, która b-dzie powodowa dodanie kolumny z okreleniem problemów (tak/nie).

Budowa modelu, a nastĊpnie jego ocena

Narzdzie ODM umoliwia automatyzowanie wielu złoonych zada podczas budowy oraz testowania modelu z wykorzystaniem algorytmu MWW. Naley jednak uwzgldni fakt, e prak-tycznie aden model nie jest perfekcyjny. Naley równie zauway, e czasami model z najwik-sz dokładnoci nie jest tym właciwym, w praktyce naley uwzgldni jakie poziomy błdów s akceptowalne z punktu widzenia naszego zadania.

Uruchomienie procesu produkcyjnie

Po ocenie modelu oraz uznaniu jego akceptowalnej jakoci mona uruchomi model na da-nych produkcyjda-nych, aby uzyska wyniki dla pełnego zakresu dada-nych. W wyniku tego uzyskami list sklasyfikowanych „klientów”, którzy potencjalnie wykazuj lub nie wykazuj problemów z płatnociami. Umoliwi to działania na mniejszej grupie podmiotów, które maj na celu ich zwe-ryfikowanie oraz zmotywowanie do przestrzegania prawa podatkowego.

Naley jednak pamita, e uzyskane wyniki s na okrelonym, ulepszonym poziomie do-kładnoci w stosunku do dotychczasowej wiedzy, jednak nie stanowi niezbitego dowodu na przy-naleno do tej grupy.

5. Wykorzystanie algorytm maszyny wektorów wspierajcych

Problem polega na sklasyfikowaniu podatników za pomoc MWW, posiadajcych okrelone cechy/atrybuty, którzy mog mie problemy podatkowe zwizane z uszczuplaniem dochodów bu-detowych na podstawie zebranych wyników kontroli podatkowych. Dane zostały zebrane oraz przekształcone z systemów podatkowych za pomoc narzdzi imp, exp oraz jzyka SQL i PL/SQL, opisane w [7]. Tablica do budowy modelu przyjmuje nastpujc posta (jzyk SQL):

(6)

33

CREATE TABLE PODATNIK ( ID NUMBER, MIASTO VARCHAR2(40), IMIE VARCHAR2(20), NAZWISKO VARCHAR2(40), STATUS_M CHAR(1), PLEC CHAR(1), WIEK NUMBER, DOCHOD NUMBER, ODLICZENIA_POD NUMBER, WYN_KONTROLI NUMBER ) gdzie, DANE WEJ CIOWE:

ID – identyfikator podatnika w bazie danych MIASTO – miasto płacenia podatków

IMIE, NAZWISKO – imi i nazwisko podatnika STATUS_M – w stanie małeskim, lub odwrotnie PLEC – płe podatnika

DOCHOD – dochód roczny podatnika

ODLICZENIA_POD – wielko odlicze podatkowych ATRYBUT WYJ CIOWY:

WYN_KONTROLI – wynik kontroli podatkowej (neg., poz.)

Nastpnie budujemy model, korzystajc z narzdzia ODM, zgodnie z opisami w [6]. Wykonujemy nastpujce kroki:

• wybór algorytmu (SVM) oraz metody klasyfikacji • wybór tablicy z zebranymi danymi (poniej obraz)

• wybór docelowej wartoci atrybutu wyjciowego (1 – wynik kontroli pozytywnej) oraz nazwy modelu – w naszym przypadku PODATNIK_SVM_M1

• wybór podziału danych (60% - dane do budowy, 40% dane do weryfikacji)

• dla przygotowania danych: sposób postpowania z danymi poza zakresem – maksymalna wielko nie wiksza ni 3 standardowe odchylenia od redniej, zastpienie brakujcych wartoci redni atrybutu lub najczciej wystpujc wartoci, normalizacja danych w zakresie od 0 do 1.

(7)

Rys. 2. Wybór danych poddanych badaniem SVM

• ustalenie parametrów jdra dla algorytmu MWW tzn. liniowa funkcja jdra, warto tole-rancji na poziomie 0.001, automatyczny dobór i optymalizacja czynnika złoonoci, wy-korzystanie aktywnego nauczania (poniej obraz):

(8)

35

Nastpnie zostan przygotowane dane wejciowe zgodnie z ustawieniami, oraz nastpi budowa modelu z liniow funkcj jdra, który nastpnie zostanie przetestowany na wybranych wczeniej danych. Zbudowany model charakteryzuje si nastpujc dokładnoci:

Rys. 4. Tabela z dokładnoĞcią przewidywaĔ

Oznacza to, e podatnicy z pozytywn kontrol zostali przewidywani z dokładnoci 82,86%, natomiast z negatywn z dokładnoci 67,78%. Równie ogólna ocena modelu została oceniona jako dobra z dokładnoci przewidywa o 50,63% wiksz w porównaniu z losowym wybieraniem (predictive confidence opisane w .[6]).

Poniewa zastosowany model cechuje si dobr dokładnoci, mona zastosowa go do da-nych rzeczywistych z brakiem atrybutu docelowego, celem dokonania klasyfikacji. Wynikiem jest tabela z identyfikatorem podatnika, prawdopodobiestwem wyniku pozytywnej kontroli podatko-wej oraz kosztu uzyskania wyniku, z które moemy pobra dane podatników, których naley pod-da kontroli (obraz poniej).

(9)

6. Uwagi kocowe

W wyniku zastosowania modelu matematycznego algorytmu MWW w implementacji zasto-sowanej w bazie danych Oracle 11g został rozwizany problem klasyfikacji podatników ze wzgl-du na potencjalne problemy z przestrzeganiem prawa podatkowego. Dziki temu moliwe staje si bardziej dokładne typowanie podatników, których naley podda kontroli, a tym samym zwiksza si skuteczno egzekwowania prawa podatkowego.

Bibliografia

1. Bernhard Schoelkopf, Alexander J.Smola: Learning with kernels, Support Vector Machines, Regularization, Optimization, and Beyond, The MIT Press 2002

2. Ian H.Witten, eibe Frank: Data Mining Practical Machine Learning Tools and Techniques, Morgan Kaufmann 2005

3. Ramez Elmasri, Shamkant B. Navathe: Fundamentals of Database Systems, Addison-Wesley 2004

4. Matthias Jarke, Maurizio Lenzerini, Yannis Vassiliou, Panos Vassiliadis: Fundamentals of Data Warehouse”, Springer-Verlag 2002,2003

5. Oracle Data Mining Concepts 11g Release 1 (11.1), Oracle Corp. 2005-2007 6. Oracle Data Miner 11.1.0.1.0, Oracle Corp. 2005-2007

(10)

37

APPLYING OF ALGORITHM SUPPORT VECTOR MACHINES IN CLASSIFICATION OF TAX PAYERS WITH USAGE OF ORACLE 11G DATABASE

Summary

Introduction to more efficient IT systems led to implementation of data mining algorithms and possibility of applying them in solving real-world problems. It also functions for algorithm Support Vector Machines in classification problems. In the described solution SVM with linear kernel function was applied for classification of tax payers because of positive or negative result of taxation control by considering specific features describing payers. Appropriate choice of data, building the model and applying the model led to reaching the above described goal with better accu-racy in comparing to “intuitive” choice. Applying the solution gives opportunity of more accurate typing of tax payers, that should by controlled by tax authorities, and this leads for the better observance of the tax law.

Keywords: databases, data mining, Support Vector Machines, classification

Ryszard Budziski Leszek Misztal

Zachodniopomorski Uniwersytet Technologiczny w Szczecinie e-mail:R.Budzinski@man.szczecin.pl