Prof. dr hab. inz. Slawomir T. Wierzchon Gdansk, 17 wrzesnia 2012 r.
Instytut Podstaw Informatyki PAN ut. Brzegi 55, 80-045 Gdansk
Recenzja rozprawy doktorskiej mgr inz. Marty Kukier
p.t.
Zastosowanie intuicjonistycznych zbior6w rozmytych do klasyfikacji obiekt6w w przypadku niezr6wnowaionych klas
Przedmiotem recenzji jest rozprawa doktorska mgr inz. Marty Kukier
0podanym wyzej tytule, napisana w Instytucie Badan Systemowych PAN pod kierunkiem naukowym prof. dr hab. inz. Eulalii Szmidt.
Recenzj~
przygotowano na zlecenie Dyrektora IBS PAN, Pana prof. dr hab. inz. Zbigniewa Nahorskiego, przeslane nizej podpisanemu listem dato
wanym 22 czerwca 2012
r.1 Przedmiot pracy
Praca dotyczy waznego z praktycznego punktu widzenia zagadnienia kon
strukcji klasyfikatora przeznaczonego do wykrywania obiektow nalezCl:cych do niezbyt licznej klasy. Dobrym przykladem takiego zadania jest klasyfikator wykrywajCl:cy rzadkie schorzenie u pacjentow.
2 Uklad i zawartosc pracy
Recenzowana praca liczy 154 strony, sklada
si~z osmlU rozdzialow, spisu tresci, podsumowania i spisu literatury. Ma starannie przemyslany uklad.
W rozdziale pierwszym krotko scharakteryzowano problem klasyfikacji obiektow nalezCl:cych do klas
0zroznicowanej liczebnosci wskazujCl:c podsta
wowe grupy wykorzystywanych t.u metod.
Nast~pniesformulowano (dosyc ogolnie)
tez~rozprawy wskazujCl:C na uzytecznosc intuicjonistycznych zbio
row rozmytych.
Kolejne trzy rozdzialy to wprowadzenie do "klasycznej" (zadehowskiej) teorii zbiorow rozmytych, intuicjonistycznych zbiorow rozmytych, oraz szcze
golnego wariantu teorii Dempstera-Shafera nazwanego przez
Autork~"teoriCl:
przypisywania mas". Vv'arto odnotowac, ze tego typu rozwazania zainicjowali
1
3
(korzystaj~c
z prac I.R. Goodmana) Didier Dubois i Henri Prade w pocho
dz~cej
z 1982 roku pracy "On several representations of an uncertain body of evidence" opublikowanej w
ksi~zceFuzzy Information and Decision Processes (M.M. Gupta, E. Sanchez, eds.), North-Holland, Amsterdam, 167-181.
Rozdzial 5
poswi~conokonstrukcji funkcji przynaleznosci
podsumowuj~cych zbior obserwacji. Rozwazono zarowno przypadek "kJasycznego" zbioru rozmytego jak i intuicjonistycznego zbioru rozmytego.
Kolejny rozdzial zawiera (niestety, dosyc ogolne) informacje na temat kla
syfikatorow, dyskretyzacji atrybutow
ci~glychoraz agregacji ocen dokonywa
nych dla oddzielnych atrybutow. Sposob konstrukcji rozmytego ("klasyczne
go" i intuicjonistycznego) klasyfikatora przedstawiono w
nast~pnymrozdzia
Ie, natomiast w kolejnym, osmym, rozdziale omowiono
wlasn~ implementacj~klasyfikatorow i przedstawiono wyniki przeprowadzonych eksperymentow.
Uwagi
jak juz stwierdzilem, praca dotyczy ciekawego i
wa~megoz praktyczne
go punktu widzenia problemu. Ma
przemyslan~i klarowna
konstrukcj~.Jednakie sposob, w jaki zrealizowano ow klarowny zarnysl jest srednio zadowalajq.cy.
Ponizejzamieszczam kilka szczegolowych uwag:
• Autorka nagminnie stosuje
mieszank~polskiej i angielskiej terminologii.
Mamy np. "Dilation (Rozszerzenie)" jako tresc definicji 3.13. A prze
ciei w
j~zykupolskim funkcjonujc termin "dyla.tacja" na oznaczenie operatora morfologicznego (co
wi~cejrozumianego niemal w analogicz
ny spos6b jak to rna miejsce w teorii zbiorow rozmytych). W rowna
niu (6.7) pojawia
si~termin "geometic mean"
(zachowuj~oryginalna
pisowni~),
a przeciei "srednia geometryczna" to
cz~stostosowany ter
min. Maniera ta jest szczegolnie
irytuj~caw punkcie 6.2, gdzie Autor
ka uzywa
poj~c"Accuracy", "Confusion Matrix", "Error", itp.
Gor~copolecam przestudiowanie punktu 2.3.2 zatytulowanego "Wybor i oce
na klasyfikatora" ze znanej Autorce ksi~zki (Koronacki, Cwik, 2005).
Zdumienie
granicz~cez irytacja spos6b sformulowania twierdzenia 4.1.
Drugie zdanie tego twierdzenia
wygl~da nast~pujq.co:"Wowczas P jest least prejudice distribution na rozmytym zbiorze AT wtedy i tylko wte
dy, gdy mass assignment zbioru AT jest
nast~puj~cy... ".
• W definicji 4.1 nalezalo dodac warunek
f.tn+!= O.
• Niedosyt budzi podana w punkcie 6.1 charakterystyka problemu kla
syfikacji. Ponownie odsylam
Autork~do punktu 1.1 cytowanej wyzej mOllografii.
• Omawiajq.c metody dyskretyzacji (granulacji) bye moze warto bylo po
wolac
si~na punkt 7.2 monografii Pawla Cichosza p. t. Systemy uczqce
si~
(WNT, Warszawa 2000).
• Proponowany w punkcie 6.4 operator agregacji wydaje
si~bardzo pro
sty. V,r teorii zbiorow rozmytych operuje
si~ cal~ rodzin~operatorow
2
agregacji - por. np. R.R. Yager, Generalized OWA aggregation ope
rators, Fuzzy Optimization and Decision Making, 3(2004) 93-107. Mo
im zdaniem punkt 6.4 zyskalby na jasnosci, gdyby Autorka odwolala
si~
do filozofii stprownik6w rozrnytych i napisala, ie w gruncip rze
czy poszukuje
si~zbioru regul postaci "JEZELI < warunek > TO
< konkluzja >", gdzie < warunek > oznacza oznacza lE!;czny stopien
przynaleinosci poszczeg61nych atrybutow badanego obiektu do wyr6i
nionych przedzia16w.
• Punkt 7.1 opracowano bardzo niestarannie. Opis tabeli 7.1 jest myb:!;cy.
Rozumiem, ie Autorce chodzilo tu
0wskazanie punkt6w charaktery
stycznych rozIllytych przedzia16w
0tr6jkE!;tnych funkcjacb przynaleino
sci. Owe funkcje uiyte SE!; we wzorach (7.1) - (7.4). Jednak i te wzory SE!; podane niezbyt poprawnie.
• Autorka por6wnuje sw6j klasyfikator wylE!;cznie z naiwnym kla
syfikatorem bayesowskim,
0kt6rym z g6ry wiadomo, ie nie jest najdoskonalszy oraz z innym klasyfikatorem rozmytym. Szkoda, ie do por6wnan nie wykorzystano bardziej zaawansowanych metod, np.
tych, jakie orn6wiono w pracy S. Garcia, F. Herrera. Evolutionary undersampling for classification with imbalanced datasets: Propo
sals and taxonomy. Evolutionary Computation, 17 (2009) 275-306 (doi:10.1162/evco.2009.17.3.275). Praca ta jest tym bardziej godna polecenia, ie na stronie http://www.keel.es/jest
dost~pnygotowy pakiet KEEL, w kt6rym zaimplementowano m.in. wiele algorytmow klasyfikacji niezr6wnowaionych danych. Opis pakietu zawiera praca J. Alcala-Fdez, et al. KEEL: A Software Tool to Assess Evolutionary Algorithms to Data Mining Problems. Soft Computing 13:3 (2009) 307-318, doi: 10.1007/s00500-008-0323-y.
Odnosz~