Recenzja rozprawy doktorskiej mgra inż. Adama Skowrona pt. Sequential covering regression rule induction and optimization of regression rule-based data models

(1)

Gliwice, 01.06.2015

Prof. dr hab. inż. Katarzyna Stąpor

Politechnika Śląska

Wydział Automatyki, Elektroniki i Informatyki

Instytut Informatyki

R

e c e n z j a

p r a c y d o k t o r s k i e j m g r inż. A d a m a S k o w r o n a

p.t. „ I n d u k c j a i o p t y m a l i z a c j a r e g u ł o w y c h m o d e l i d a n y c h za p o m o c ą

p o k r y c i o w y c h a lg or y t m ó w i n d u k c j i r egu ł r e g r e s y j n y c h ”

(ang.

“S e q u e n t i a l c o v e r i n g r e g r e s s i o n rule i n d u c t i o n a n d o p t i m i z a t i o n

o f r e g r e s s i o n r u l e - b a s e d d a t a m o d e l s ”)

1. O b s z a r p r o b l e m o w y r o z p r a w y o r a z jej p o z yc j a w s t o s u n k u d o a k t u a l n e g o s t anu w i e d z y

Recenzowana praca doktorska jest rozprawą z obszaru uczenia maszynowego, a konkretnie

dotyczy problemu indukcji reguł dla problemów regresyjnych. W dziedzinie klasyfikacji

przykładów opracowano wdele algorytmów indukcji, stosujących różnorodne strategie

poszukiwania reguł.

Można tutaj

wymienić metody:

bazujące

na teorii

zbiorów

przybliżonych, poszukujące reguł asocjacyjnych, stosujące strategie ewolucyjne oraz przede

wszystkim metody polegające na tzw. sekwencyjnym pokrywaniu dostępnego zbioru

przykładów. Idea sekwencyjnego pokrywania polega na iteracyjnej indukcji kolejnych reguł

w taki sposób, aby kolejna z wyznaczanych reguł pokrywała jak najwięcej niepokrytych

dotychczas przykładów reprezentujących pojęcie, które w danej chwili działania algorytmu

jest klasą docelową. Efektywność podjeść pokryciowych w zastosowaniu do różnego rodzaju

danych (syntetycznych oraz opisujących rzeczywiste i praktyczne problemy) potwierdzona

jest w dużej liczbie publikacji.

(2)

Szerokie zastosowanie algorytmów pokryciowych do rozwiązywania zadań klasyfikacji nie

przełożyło się jak dotąd na analizę możliwości zastosowania pokryciowych algorytmów

indukcji reguł do rozwiązywania problemów regresyjnych (takich w których atrybut

decyzyjnych jest typu numerycznego). W literaturze przedmiotu można znaleźć zaledwie

kilka prób adaptacji algorytmów indukcji reguł klasyfikacyjnych do rozwiązania problemów

regresyjnych.

Przygotowana przez mgr inż. Adama Skowrona praca doktorska, podejmuje - moim zdaniem

z sukcesem - tematykę indukcji i optymalizacji reguł regresyjnych za pomocą podejścia

pokryciowego, zapełniając w ten sposób istniejącą lukę.

Tematykę rozprawy uważam za oryginalną, ważną oraz aktualną dla współczesnych prac

z zakresu indukcji reguł. Podjęta przez Doktoranta tematyka jest oryginalna i istotna

z naukowego punktu widzenia, a opracowane w ramach rozprawy metody i algorytmy

z pewnością będą mieć duże znaczenie dla praktyki .

2. Z a w a r t o ś ć r o z p r a w y

Rozprawa składa się z siedmiu rozdziałów oraz bibliografii liczącej 137 pozycji.

W rozdziale pierwszym scharakteryzowano strukturę pracy, jej cele oraz wartości

dodane. Rozdział drugi jest wprowadzeniem w regułowe modele danych. W rozdziałach -

trzecim i czwartym opisane zostały zaproponowane przez Doktoranta sposoby realizacji

dwóch podstawowych celów pracy: w rozdziale trzecim - modyfikacje dwóch strategii:

bottom-up i top-dowm dla indukcji reguł regresyjnych, w czwartym natomiast optymalizacja

reguł. W rozdziale piątym przedstawiono przeprowadzone badania empiryczne mające na

celu ewaluację zaproponowanych algorytmów, w rozdziale szóstym natomiast dokonano tej

ewaluacji na zbiorach rzeczywistych. W ostatnim, siódmym rozdziale znajduje się

podsumowanie pracy i wskazówki dalszego rozwoju zaproponowanych metod.

(3)

3. U z y s k a n e w y n i k i

Realizacja postawionych celów doprowadziła do szeregu oryginalnych, szczegółowych i

konkretnych osiągnięć. W pracy przedstawiono w sumie cztery algorytmy: dwa działające na

zasadzie wstępującego budowania przesłanki reguły; oraz dwa - zstępującego budowania

przesłanki. N o w ą strategią nazwaną przez Doktoranta

Jixed, jest strategia polegająca na

budowaniu reguły w taki sposób, aby jej konkluzja miała z góry określoną postać (atrybut

decyzyjny ma określoną w-artość). Jest to podejście nowe, gdyż w przypadku reguł

rcgresyjnych konkluzja reguły zmienia się wraz ze zmieniającymi się w trakcie indukcji

przesłankami, co nie pozwala kontrolować modelu. Doktorant zbadał również wpływ miar

oceniających jakości reguł na błąd i liczbę reguł generowanych przez algorytm, efektywność

różnych strategii rozstrzygania konfliktów „klasyfikacji" - proponując również własne

nazwane w pracy miary intersection o f

coverage. Podejście to podczas rozstrzygania

konfliktu uwzględnia część wspólną pokrywaną przez reguł biorące udział w „klasyfikacji".

W pracy zaproponowano (bądź zaadaptowano) kilka algorytmów filtracji reguł --

Doktorant zaproponował dwa własne algorytmy

DisjohU oraz ForwBack. Praca zawiera także

elementy statystycznej analizy wyznaczanych reguł. Efektywność wszystkich algorytmów

zbadano eksperymentalnie na wielu zbiorach danych.

Do szczególnie wartościowych elementów pracy o charakterze oryginalnym należy

zaliczyć:

• Opracowanie zmodyfikowanej strategii zstępującej indukcji reguł regresyjnych.

• Poprzez wprowadzenie modyfikacji polegającej na wprowadzeniu pewnej stałej do

konkluzji każdej generowanej reguły - opracowanie quasi-pokryciowej wersji

wstępującej i zstępującej.

• Zaproponowanie metody przeszukiwania tabu do znalezienia optymalnej reguły w

fazie jej przycinania.

• Zaproponowanie dwóch metod filtracji reguł regresyjnych - metody Disjoint i

ForwBack.

• Zaproponowanie nowej metody rozwiązywania konfliktów pomiędzy regułami

pokrywającymi przykład testowy.

• Zaproponowanie statystycznej korekty na liczbę przykładów pozytywnych i

negatywnych pokrywających indukowaną (tworzoną) regułę.

(4)

4. Uwagi o char akt er ze dys ku sy j ny m

Praca napisana jest zwięzłym językiem oraz cechuje się bardzo staranną stroną

edytorską. Podczas czytania pracy nasuwają się pewne uwagi, nie wpływające jednakże na

ogólnie w ysoką ocenę pracy.

• W pracy brakuje informacji na temat jakości generowanych reguł, rozważanej z

punktu widzenia ich konkluzji.

• Brak uzasadnienia wyboru tych, a nie innych miar jakości reguł jakie wykorzystano w

pracy.

• Podczas fazy przycinania reguł usuwano całe warunki elementarne (chodzi o atrybuty

numeryczne). Dlaczego nie próbowano również zmieniać zakresu warunków elementarnych ?

• Dlaczego podczas przycinania reguł jako alternatywną strategię przeszukiwania

zbadano jedynie algorytm tabu, mimo że liczba warunków elementarnych w

przesłankach reguł nie jest chyba zbyt duża i można było porównać ze strategią

przeszukiwania wyczerpującego

5. O c e n a k o ń c o w a r o z p r a w y

Cele pracy zostały jasno sformułowane, a ich realizacja wymagała obszernych badań

tcoretyczno-eksperymentalnych. Cele te zostały osiągnięte.

Praca napisana jest przejrzyście i stanowi przemyślaną całość. Zawiera także wszystkie

niezbędne elementy dobrej rozprawy naukowej: krytyczny przegląd literatury, wskazanie

zagadnień wymagających rozwiązania, postawienie celów, propozycję nowych rozwiązań

oraz badanie ich przydatności. Zawarte w niej rezultaty obejmujące są oryginalne i zostały

przedstawione na wysokim, matematycznym poziomie.

Reasumując stwierdzam, że mgr inż. Adam Skowron wykazał się odpowiednią wiedzą

z zakresu uczenia maszynowego, indukcji reguł, a także dobrym opanowaniem i posłu

giwaniem się warsztatem badawczym.

U w a ż a m , że r e c e n z o w a n a p r a c a d o k t o r s k a m g r inż. A d a m a S k o w r o n a w pełni sp eł ni a w s z y s t k i e w y m a g a n i a s t a w i a n e p r a c o m d o k t o r s k i m p r z e z o d p o w i e d n i ą U s t a w ę i w n i o s k u j ę o j e j p r z y j ę c i e i d o p u s z c z e n i e d o p ub l i c z n e j o b r o n y .