• Nie Znaleziono Wyników

Recenzja rozprawy doktorskiej mgr. in

N/A
N/A
Protected

Academic year: 2021

Share "Recenzja rozprawy doktorskiej mgr. in"

Copied!
4
0
0

Pełen tekst

(1)

Prof. dr hab. inŜ. Olgierd Hryniewicz Warszawa, 2012-01-10 Instytut Badań Systemowych PAN

Recenzja

rozprawy doktorskiej mgr. inŜ. Szymona Łukasika

nt. „Algorytm redukcji wymiaru i liczności próby dla celów procedur eksploracyjnej analizy danych”

1. Ogólna charakterystyka rozprawy

Recenzowana rozprawa została wykonana pod kierunkiem prof. dr. hab. inŜ. Piotra Kulczyckiego z Instytutu Badań Systemowych PAN i Politechniki Krakowskiej, a jej Autor jest słuchaczem zaocznych studiów doktoranckich prowadzonych w IBS PAN, a takŜe pracownikiem IBS PAN oraz Politechniki Krakowskiej. Rozprawa poświęcona jest opracowaniu uniwersalnej metody redukcji wymiaru i liczności próbki danych wykorzystywanych w procedurach eksploracyjnej analizy danych (data miningu). Przez redukcję wymiaru próbki Autor rozprawy rozumie zmniejszenie liczby zmiennych (cech, atrybutów) opisujących dane, zaś przez redukcję liczności próbki Autor rozprawy rozumie zarówno jej proste zmniejszenia jak teŜ i eliminację elementów nietypowych (odosobnionych, odstających). Zaproponowana w rozprawie metoda została zastosowana w rozwiązywaniu problemów waŜnych dziedzin eksploracji danych (data miningu) jakimi są analiza skupień oraz analiza dyskryminacyjna (klasyfikacja obiektów), a takŜe problematyka wykrywania obiektów (elementów) nietypowych.

Podstawowym problemem współczesnej analizy danych są olbrzymie rozmiary dostępnych zbiorów danych. Dane poszczególnych obiektów mogą być opisywane dziesiątkami a nawet setkami zmiennych, zaś ich liczby mogą być rzędu milionów. Tego typu dane nie mogą być analizowane z wykorzystaniem typowych procedur wielowymiarowej statystyki, gdyŜ liczba niezbędnych do wykonania obliczeń w przypadku takich procedur bardzo szybko (czasami wręcz wykładniczo) wzrasta wraz ze wzrostem rozmiaru problemu. Badacze stoją więc często przed alternatywą: albo stosować efektywne obliczeniowo proste (a nawet prymitywne) techniki badawcze, albo teŜ dokonać redukcji rozmiaru danych w celu umoŜliwienia stosowania bardziej wyrafinowanych technik statystycznych. Rozpatrywane w rozprawie zadania analizy skupień oraz analizy dyskryminacyjnej (klasyfikacji) są dobrym przykładem problemu, którego dotyczy powyŜszy dylemat.

Zagadnieniu redukcji liczby zmiennych opisujących analizowane obiekty poświęcono setki prac, głównie z obszaru statystyki i ekonometrii. W przypadku wektorów danych o bardzo duŜym wymiarze pewne propozycje metod redukcji wymiaru danych powstały równieŜ na gruncie data miningu. Wszystkie proponowane metody polegają na takim zredukowaniu zbioru danych, by przetworzone dane były „bliskie” (w ustalonym sensie) danym oryginalnym. W swojej rozprawie mgr inŜ. Szymon Łukasik przyjął dobrze znane i sprawdzone rozwiązanie polegające na dokonaniu liniowej transformacji danych mającej charakter rzutowania danych oryginalnych na przestrzeń o mniejszym wymiarze. Problemem jest w takim przypadku znalezienie takiej transformacji, by spełniała ona pewne warunki optymalności. Jednym z moŜliwych rozwiązań jest znana od kilkudziesięciu lat metoda składowych głównych (Principal Component Analysis - PCA). W swojej rozprawie doktorskiej mgr inŜ. Szymon Łukasik proponuje inne, oryginalne, rozwiązanie.

(2)

RównieŜ zagadnienie redukcji liczby danych było przedmiotem badań wielu autorów.

Najprostszym rozwiązaniem jest tu próbkowanie (jedno- lub wielowarstwowe) analizowanego zbioru danych. Takie proste rozwiązanie jest efektywne tylko wtedy, gdy znana jest struktura danych, a w szczególności gdy dane są w miarę jednorodne. W przypadku danych rzeczywistych, a zwłaszcza w przypadku danych zawierających wiele przypadków nietypowych takie proste podejście moŜe nie wystarczać i konieczne jest stosowanie

„sterowanego” sposobu doboru danych do analizowanej próbki.

PowyŜszym problemom poświęcono w obszarze data miningu wiele prac. W swojej rozprawie doktorskiej mgr inŜ. Szymon Łukasik wykorzystuje pewne zaproponowane wcześniej na gruncie analizy skupień i zagadnień pokrewnych rozwiązania i wiąŜe je ze znaną heurystyczną metodą optymalizacji jaką jest metoda równoległego szybkiego wyŜarzania (S.A.). W rezultacie takiego połączenia powstała oryginalna uniwersalna metoda obliczeniowa mogąca być wykorzystywana zarówno do rozwiązywania problemów analizy skupień jak teŜ i zagadnień klasyfikacji.

2. Zawartość rozprawy

Recenzowana praca liczy w sumie 91 stron i składa się z przedmowy, wstępu, trzech zasadniczych rozdziałów oraz podsumowania. Ponadto rozprawa zawiera spis treści oraz zawierający 94 pozycje wykaz cytowanej literatury.

Wstępną częścią rozprawy są dwa krótkie rozdziały zatytułowane „Przedmowa” i „Wstęp”.

W „Przedmowie” mgr inŜ. Szymon Łukasik omawia w duŜym skrócie tematykę pracy oraz jej zawartość. Więcej informacji na ten temat znajduje się we „Wstępie”, gdzie Doktorant przedstawia podstawowe załoŜenia rozprawy oraz definiuje jej cel oraz sposób jego osiągnięcia. Drugi rozdział pracy poświęcony jest prezentacji zastosowanych technik obliczeniowych i ma charakter skondensowanego przeglądu literatury. Poszczególne podrozdziały Autor poświęca wprowadzeniu do metodologii analizy skupień i niektórych stosowanych w niej podejść, proponowanym w literaturze metodom redukcji wymiaru i liczności próby oraz algorytmowi symulowanego wyŜarzania. W rozdziale tym podano wyłącznie informacje o charakterze podstawowym, a czytelnik zainteresowany szczegółami odsyłany jest do cytowanej literatury.

Trzeci rozdział rozprawy zawiera jej najwaŜniejsze i oryginalne wyniki. Rozpoczyna go opis algorytmu redukcji wymiaru zadania wykorzystujący algorytm równoległego szybkiego wyŜarzania (FSA). Opis algorytmu obejmuje sposób kodowania rozwiązań, metodę generacji kolejnych (początkowego i następnych) rozwiązań oraz regułę przerwania procedury.

Następnie przedstawiony został algorytm redukcji liczności próbki, w którym wykorzystano wyniki obliczeń przeprowadzonych w algorytmie redukcji wymiaru. Wyznaczane przez ten algorytm wagi są równieŜ wykorzystywane do identyfikacji obiektów nietypowych. Rozdział kończy krótkie omówienie związanych z implementacją tych algorytmów problemów praktycznych.

PoniewaŜ zaproponowana w rozprawie metoda ma charakter heurystyczny jej ewentualna skuteczność moŜe być oceniona wyłącznie metodami eksperymentalnymi. W czwartym rozdziale rozprawy znajduje się wyczerpujący opis wielu przeprowadzonych przez jej Autora eksperymentów numerycznych. W eksperymentach tych oceniono efektywność proponowanych rozwiązań i porównano je z najczęściej stosowanymi rozwiązaniami

(3)

klasycznymi. Do porównań wykorzystano zarówno zbiory rzeczywistych danych testowych jak teŜ i zbiory danych wysymulowanych komputerowo.

Do eksperymentu numerycznego Doktorant wykorzystał 5 zestawów rzeczywistych danych testowych, a w tym zestawy powszechnie znane i stosowane do tego celu przez wielu badaczy. Działanie proponowanego algorytmu w przypadku eliminacji danych odstających badane było na duŜym zestawie danych wygenerowanych komputerowo. W pierwszej części rozdziału przedstawione zostały wyniki eksperymentów, których celem był wybór najlepszego wariantu zaproponowanego algorytmu. Analizowano takie zagadnienia jak:

metoda generacji rozwiązania początkowego, postać funkcji kosztu oraz wybór parametrów algorytmu FSA. Analizowano takŜe wybór parametru odcięcia w procedurze redukcji rozmiaru próbki. W dalszej części rozdziału przedstawiono rezultaty wielu eksperymentów, których celem było porównanie efektywności zaproponowanego algorytmu z efektywnością innych, znanych z literatury, algorytmów realizujących podobne zadania.

Rozprawę kończy krótkie podsumowanie uzyskanych w niej wyników. W podsumowaniu tym wskazano równieŜ inne moŜliwe zastosowania zaproponowanego w rozprawie algorytmu.

3. Ocena rozprawy

Tematyka rozprawy dotyczy waŜnej i aktualnej tematyki eksploracyjnej analizy danych (data miningu), a więc jednego z najwaŜniejszych obszarów współczesnej informatyki. Problemom podobnym do rozpatrywanego w rozprawie poświęcono dziesiątki artykułów, w których zaproponowano wiele rozwiązań szczegółowych. Mgr inŜ. Szymon Łukasik w swojej rozprawie doktorskiej postanowił zaproponować nowe rozwiązanie będące twórczym połączeniem rozwiązań dotyczących podobnych problemów badawczych (sposób generowania rozwiązań początkowych, przyjęte funkcje kosztów, algorytmy analizy skupień, algorytmy klasyfikacyjne, algorytmy poszukiwania danych odstających) z rozwiązaniami znanymi z innych obszarów informatyki (algorytmy równoległego szybkiego wyŜarzania). W rezultacie powstało oryginalne i uniwersalne narzędzie data miningu odznaczające się konkurencyjnymi własnościami w stosunku do wielu stosowanych w praktyce rozwiązań. Jest to więc oryginalne rozwiązanie o charakterze konstrukcyjnym, które moŜe stanowić temat rozprawy doktorskiej z dziedziny nauk technicznych.

Od strony merytorycznej rozprawa opracowana została niemal bez zarzutu. Przedstawiono w niej stosowane narzędzia formalne i informatyczne, zaproponowano sposób ich oryginalnego wykorzystania w rozwiązywaniu istotnych problemów praktycznych, a na koniec wykazano eksperymentalnie, Ŝe zaproponowane w rozprawie rozwiązanie jest konkurencyjne w stosunku do wielu znanych z literatury algorytmów realizujących podobne zadania. Jedyna uwaga dyskusyjna o charakterze merytorycznym dotyczy sposobu badania skutków działania algorytmu redukcji rozmiaru próbki. Dokonano tego na danych zredukowanych, a nie na danych oryginalnych. Takie podejście było niejako wymuszone przez rodzaj algorytmu realizującego zadanie podstawowe (np. analizy dyskryminacyjnej). Mocniejszy wynik uzyskano by, gdyby algorytm wyznaczony na podstawie badania próbki o zredukowanej liczności wykorzystano do analizowania pełnego zestawu danych. Wydaje się, Ŝe takie potwierdzenie uzyskano wyłącznie w przypadku algorytmu realizującego zadanie zmniejszenia wymiarowości problemu.

(4)

Praca jest napisana czytelnie, choć moim zdaniem w wielu przypadkach zbyt skrótowo.

Brakuje formalnych opisów wielu proponowanych rozwiązań, a czytelnik odsyłany jest do odpowiednich pozycji literatury. Na przykład, do generacji rozwiązań początkowych stosowany jest algorytm Pala i Mitry wykorzystujący tzw. indeks maksymalnej kompresji informacji. Niestety, w rozprawie nie moŜna znaleźć wzoru opisującego ten indeks. Podobnie, w algorytmie FSA do poszukiwania sąsiednich rozwiązań wykorzystuje się wielkości generowane z wielowymiarowego rozkładu Cauchyego. TakŜe i w tym przypadku nie znajdujemy odpowiednich wzorów opisujących ten proces. Wydaje się, Ŝe Autor mógł zachować ogólnie bardzo czytelny tok prezentacji algorytmu, a jego opis formalny, wraz ze szczegółami o charakterze matematycznym, zamieścić w załączniku do rozprawy.

W rozprawie zauwaŜono niewielką liczbę usterek o charakterze technicznym.

Przykładowo:

a) str.65^4 wartości funkcji kosztu przedstawiono na rysunku 4.3, a nie na rysunku 4.4.

b) zapis pary (wartość średnia, odchylenie standardowe) w postaci jest niefortunny, gdyŜ sugeruje on symetrie rozkładu obserwacji, co w większości zaprezentowanych wyników jest w sposób oczywisty nieprawdziwe.

W oryginalnej wersji rozprawy błędnie zapisano wzór (3.12). Doktorant zauwaŜył ten błąd redakcyjny i dostarczył erratę z odpowiednią poprawką.

3. Podsumowanie

Recenzowana rozprawa jest przykładem oryginalnego połączenia wielu znanych technik informatyki w celu uzyskania rozwiązania waŜnego problemu praktycznego. Zaproponowane rozwiązanie odznacza się nie tylko oryginalnością, ale takŜe efektywnością w sensie czysto praktycznym. Zostało to wykazane w obszernych eksperymentach numerycznych. Rozprawa jest napisana bardzo dobrze, a nieliczne uwagi krytyczne mają charakter dyskusyjny.

Konkludując uwaŜam, Ŝe rozprawa doktorska mgr. inŜ. Szymona Łukasika spełnia wszystkie wymagania stawiane w odpowiednich przepisach rozprawom doktorskim w dziedzinie nauk technicznych i dyscyplinie informatyka i wobec tego stawiam wniosek o jej dopuszczenie do dalszych, przewidzianych Ustawą, etapów przewodu doktorskiego.

Cytaty

Powiązane dokumenty

Mariusza Grajka uważam, że postawiony przez Autora rozprawy problem badawczy ma charakter dysertabilny i w pełni nawiązuje do współczesnych osiągnięć oraz

Autor, na stronie 36., zdefiniował cel i zakres badań odnoszący się do ilościowej oceny emisji związków toksycznych z pojazdów samochodowych, ale w dużej

Cele i zadania badawcze ogólny cel pracy formułuje następująco: „Określenie wpływu oddziaływań mechanicznych na zmiany parametrów fizykochemicznych, wybranych owoców,

Teza I: Na podstawie badań emisji gazów wylotowych autobusów miejskich w rzeczywistych warunkach eksploatacji, możliwe jest wskazanie najkorzystniejszego rozwiązania

Ernesta Pujszo jest analiza niskorozdzielczych widm mas, wykonanych techniką jonizacji strumieniem elektronów (EI ), za pomocą połączonych metod chemometrycznych i

Autor przytacza definicje metod wyższych rzędów: metody są określane jako k-tego rzędu, jeżeli błąd rozwiązania jest proporcjonalny do h k , gdzie h to rozmiar siatki

Przeprowadzenie badań wpływu topografii terenu na emisję związków szkodliwych spalin i określenie ilościowych zależności tej emisji w zależności od nachylenia terenu

„Materiały mikro- i mezoporowate jako napełniacze aktywne” oraz przedstawionej aktywności naukowej jednoznacznie stwierdzam, że recenzowana rozprawa spełnia