Uklad Przedmiot

(1)

Prof. dr hab. inz. Slawomir T. Wierzchon Gdansk, 17 wrzesnia 2012 r.

Instytut Podstaw Informatyki PAN ut. Brzegi 55, 80-045 Gdansk

Recenzja rozprawy doktorskiej mgr inz. Marty Kukier

p.t.

Zastosowanie intuicjonistycznych zbior6w rozmytych do klasyfikacji obiekt6w w przypadku niezr6wnowaionych klas

Przedmiotem recenzji jest rozprawa doktorska mgr inz. Marty Kukier

⁰

podanym wyzej tytule, napisana w Instytucie Badan Systemowych PAN pod kierunkiem naukowym prof. dr hab. inz. Eulalii Szmidt.

Recenzj~

przygotowano na zlecenie Dyrektora IBS PAN, Pana prof. dr hab. inz. Zbigniewa Nahorskiego, przeslane nizej podpisanemu listem dato

wanym 22 czerwca 2012

r.

1 Przedmiot pracy

Praca dotyczy waznego z praktycznego punktu widzenia zagadnienia kon

strukcji klasyfikatora przeznaczonego do wykrywania obiektow nalezCl:cych do niezbyt licznej klasy. Dobrym przykladem takiego zadania jest klasyfikator wykrywajCl:cy rzadkie schorzenie u pacjentow.

2 Uklad i zawartosc pracy

Recenzowana praca liczy 154 strony, sklada

si~

z osmlU rozdzialow, spisu tresci, podsumowania i spisu literatury. Ma starannie przemyslany uklad.

W rozdziale pierwszym krotko scharakteryzowano problem klasyfikacji obiektow nalezCl:cych do klas

0

zroznicowanej liczebnosci wskazujCl:c podsta

wowe grupy wykorzystywanych t.u metod.

Nast~pnie

sformulowano (dosyc ogolnie)

tez~

rozprawy wskazujCl:C na uzytecznosc intuicjonistycznych zbio

row rozmytych.

Kolejne trzy rozdzialy to wprowadzenie do "klasycznej" (zadehowskiej) teorii zbiorow rozmytych, intuicjonistycznych zbiorow rozmytych, oraz szcze

golnego wariantu teorii Dempstera-Shafera nazwanego przez

Autork~

"teoriCl:

przypisywania mas". Vv'arto odnotowac, ze tego typu rozwazania zainicjowali

1

(2)

3

(korzystaj~c

z prac I.R. Goodmana) Didier Dubois i Henri Prade w pocho

dz~cej

z 1982 roku pracy "On several representations of an uncertain body of evidence" opublikowanej w

ksi~zce

Fuzzy Information and Decision Processes (M.M. Gupta, E. Sanchez, eds.), North-Holland, Amsterdam, 167-181.

Rozdzial 5

poswi~cono

konstrukcji funkcji przynaleznosci

podsumowuj~

cych zbior obserwacji. Rozwazono zarowno przypadek "kJasycznego" zbioru rozmytego jak i intuicjonistycznego zbioru rozmytego.

Kolejny rozdzial zawiera (niestety, dosyc ogolne) informacje na temat kla

syfikatorow, dyskretyzacji atrybutow

_ci~glych

oraz agregacji ocen dokonywa

nych dla oddzielnych atrybutow. Sposob konstrukcji rozmytego ("klasyczne

go" i intuicjonistycznego) klasyfikatora przedstawiono w

nast~pnym

rozdzia

Ie, natomiast w kolejnym, osmym, rozdziale omowiono

wlasn~ implementacj~

klasyfikatorow i przedstawiono wyniki przeprowadzonych eksperymentow.

Uwagi

jak juz stwierdzilem, praca dotyczy ciekawego i

wa~mego

z praktyczne

go punktu widzenia problemu. Ma

przemyslan~

i klarowna

konstrukcj~.

Jednakie sposob, w jaki zrealizowano ow klarowny zarnysl jest srednio zadowalajq.cy.

Ponizej

zamieszczam kilka szczegolowych uwag:

• Autorka nagminnie stosuje

mieszank~

polskiej i angielskiej terminologii.

Mamy np. "Dilation (Rozszerzenie)" jako tresc definicji 3.13. A prze

ciei w

_j~zyku

polskim funkcjonujc termin "dyla.tacja" na oznaczenie operatora morfologicznego (co

wi~cej

rozumianego niemal w analogicz

ny spos6b jak to rna miejsce w teorii zbiorow rozmytych). W rowna

niu (6.7) pojawia

si~

termin "geometic mean"

(zachowuj~

oryginalna

pisowni~),

a przeciei "srednia geometryczna" to

cz~sto

stosowany ter

min. Maniera ta jest szczegolnie

irytuj~ca

w punkcie 6.2, gdzie Autor

ka uzywa

poj~c

"Accuracy", "Confusion Matrix", "Error", itp.

Gor~co

polecam przestudiowanie punktu 2.3.2 zatytulowanego "Wybor i oce

na klasyfikatora" ze znanej Autorce ksi~zki (Koronacki, Cwik, 2005).

Zdumienie

granicz~ce

z irytacja spos6b sformulowania twierdzenia 4.1.

Drugie zdanie tego twierdzenia

wygl~da nast~pujq.co:

"Wowczas P jest least prejudice distribution na rozmytym zbiorze AT wtedy i tylko wte

dy, gdy mass assignment zbioru AT jest

nast~puj~cy

... ".

• W definicji 4.1 nalezalo dodac warunek

f.tn+!

= O.

• Niedosyt budzi podana w punkcie 6.1 charakterystyka problemu kla

syfikacji. Ponownie odsylam

Autork~

do punktu 1.1 cytowanej wyzej mOllografii.

• Omawiajq.c metody dyskretyzacji (granulacji) bye moze warto bylo po

wolac

_si~

na punkt 7.2 monografii Pawla Cichosza p. t. Systemy uczqce

si~

(WNT, Warszawa 2000).

• Proponowany w punkcie 6.4 operator agregacji wydaje

_si~

bardzo pro

sty. V,r teorii zbiorow rozmytych operuje

si~ cal~ rodzin~

operatorow

2

(3)

agregacji - por. np. R.R. Yager, Generalized OWA aggregation ope

rators, Fuzzy Optimization and Decision Making, 3(2004) 93-107. Mo

im zdaniem punkt 6.4 zyskalby na jasnosci, gdyby Autorka odwolala

si~

do filozofii stprownik6w rozrnytych i napisala, ie w gruncip rze

czy poszukuje

si~

zbioru regul postaci "JEZELI < warunek > TO

< konkluzja >", gdzie < warunek > oznacza oznacza lE!;czny stopien

przynaleinosci poszczeg61nych atrybutow badanego obiektu do wyr6i

nionych przedzia16w.

• Punkt 7.1 opracowano bardzo niestarannie. Opis tabeli 7.1 jest myb:!;cy.

Rozumiem, ie Autorce chodzilo tu

0

wskazanie punkt6w charaktery

stycznych rozIllytych przedzia16w

⁰

tr6jkE!;tnych funkcjacb przynaleino

sci. Owe funkcje uiyte SE!; we wzorach (7.1) - (7.4). Jednak i te wzory SE!; podane niezbyt poprawnie.

• Autorka por6wnuje sw6j klasyfikator wylE!;cznie z naiwnym kla

syfikatorem bayesowskim,

0

kt6rym z g6ry wiadomo, ie nie jest najdoskonalszy oraz z innym klasyfikatorem rozmytym. Szkoda, ie do por6wnan nie wykorzystano bardziej zaawansowanych metod, np.

tych, jakie orn6wiono w pracy S. Garcia, F. Herrera. Evolutionary undersampling for classification with imbalanced datasets: Propo

sals and taxonomy. Evolutionary Computation, 17 (2009) 275-306 (doi:10.1162/evco.2009.17.3.275). Praca ta jest tym bardziej godna polecenia, ie na stronie http://www.keel.es/jest

dost~pny

gotowy pakiet KEEL, w kt6rym zaimplementowano m.in. wiele algorytmow klasyfikacji niezr6wnowaionych danych. Opis pakietu zawiera praca J. Alcala-Fdez, et al. KEEL: A Software Tool to Assess Evolutionary Algorithms to Data Mining Problems. Soft Computing 13:3 (2009) 307-318, doi: 10.1007/s00500-008-0323-y.

Odnosz~

wraienie, ie Autorka nie przyklada zbytniej uwagi do strony edytorskiej pracy. Poniiej kr6tka (ale daleka od kompletnej) lista przykla

dowych usterek.

• Brakuje objaSnien do rys. 3.1. Poprzedza go jedynie kr6tki tekst: "In

tuicjonistyczne zbiory rozIllyte doczekaly

si~

wielu geornetrycznych in

terpretacji. Oto kilka z nich:".

• Liczne liter6wki. Np. slowo "zbi6r"

wyst~puje

w pracy pod postaciami

"zbir" (def. 2.14 na s. 14) lub "zb6r" (def. 3.6 na s. 20, def. 6.1 na s. 56, s. 71). W opisie tabeli 7.12 (s. 74) pojawia

si~

"klasyfikator biesowski"

• Pod koniec s. 41 czytamy: "InterpretujE!;c z Twierdzenia 4.1 wartosci jako stopnie possibility, wyniki uzyskane za pierwszym razem z Twier

dZ8nia 41 (... ) uzyskujemy stopnie rnoiliwosci Pos+ ..."

• Na s. 54 mamy taki oto fragment: "BiorE!;c pod

uwag~ struktur~

prze

dzia16w. Metody dzielimy na: "

• Na s. 56 znajdujemy stwierdzenie: "Powstale przedzialy zachodzE!; na siebie, co powoduje, ie jednoczesnie dzielimy obiekty na przedzialy ... ".

3

(4)

4 Pytam

si~:

"J ak moina dzielic obiekty na przedzialy?"

Konkluzja

Rozprawa dotyczy ciekawego pl'Oblemu. A utorka przedstawila jego oryginalne rozwiCl:zanie. Uzyskane przez NiCl: wyniki SCl: podstawa szesciu publikacji.

_Cz~sc

z nich byla prezentowana na

mi~dzynarodowych