Prof. dr hab. inż. Sławomir T. Wierzchoń Warszawa, 21 kwietnia 2011 r.
Instytut Podstaw Informatyki PAN ul. Brzegi 55, 80-045 Gdańsk
Recenzja rozprawy doktorskiej mgr Victora B. Taylora
p.t.
HeBIS: A Biologically Inspired Data Classification System
Przedmiotem recenzji jest rozprawa doktorska mgr Victora B. Taylora o podanym wyżej tytule, która została przygotowana w Instytucie Badań Systemowych PAN pod kierunkiem naukowym prof. dr hab. inż. Janusza Kacprzyka.
Recenzję przygotowano na zlecenie Zastępcy Dyrektora IBS PAN, Pa- na doc. dr hab. Sławomira Zadrożnego, przesłane niżej podpisanemu listem datowanym 29 października 2010 r.
1 Przedmiot pracy
Autor koncentruje się na ciekawym problemie dotyczącym tworzenia systemu klasyfikującego z wykorzystaniem mechanizmów tzw. ewolucji rozwoju (ang.
evolution of development, w skrócie evo-devo). Istotą tej nowej doktryny1 będącej syntezą biologii ewolucyjnej i biologii rozwoju, jest próba ustalenia w jaki sposób modyfikacje genotypowe przekładają się na zróżnicowanie fe- notypowe, a przede wszystkim jak owe mutacje genów przekładają się na ewolucję fenotypową2. I w jaki sposób ewoluuje sam proces rozwojowy.
O ile tradycyjnie zajmowano się aspektami dziedziczenia, a więc poszu- kiwano odpowiedzi na pytanie jak geny przechodzą z jednego pokolenia na następne, to badacze z kręgu evo-devo badają jak geny programują budowę
1Pierwszy ważny zbiór publikacji z tego zakresu ukazał się w Proc. Natl. Acad. Sci, vol.
97, no. 9, 2000
2Przypomnijmy, że przez genotyp rozumiemy zespół genów danego osobnika, natomiast oddziaływanie między genotypem a środowiskiem daje fenotyp. W algorytmach genetycz- nych np. genotyp utożsamiany jest z obiektem poddawanym operacjom selekcji, krzyżo- wania i mutacji, natomiast w celu określenia jego jakości należy przekształcić go fenotypu reprezentującego potencjalne rozwiązanie. W najprostszym przypadku genotypem jest tu łańcuch binarny, a fenotypem – w zależności od kontekstu – odpowiadająca mu liczba rzeczywista, albo wektor o składowych rzeczywistych.
nowego organizmu. Uznaje się bowiem, że to właśnie faza rozwoju embrio- nalnego kształtuje historię życia na Ziemi. Odpowiedzi na to pytanie dostar- cza obserwacja mówiąca, że w każdym organizmie istnieje system regulujący działanie genów. Za włączania i wyłączania genów odpowiedzialne są białka (określane terminem „małe RNA”) sterujące sieciami genów. To tłumaczy fakt, że nieznaczna, na poziomie genotypowym, różnica między człowiekiem a np. muszką owocówką przekształca się na ogromną różnicę na poziomie fenotypowym. Mechanizmy sterujące włączaniem/wyłączaniem genów oraz sekwencją w jakiej owe przełączenia sa dokonywane określa się terminem sieci regulacji genetycznej (ang. genetic regulatory network, w skrócie GRN ).
Powyższe przesłanki zostały wykorzystane przez Autora do zaprojekto- wania samo-organizującego się systemu HeBIS – Heterogeneous Biologically Inspired System, przeznaczonego do zadań klasyfikacji binarnej. Stanowi go kompozycja różnorodnych jednostek, określanych w pracy jako komórki. Każ- da taka jednostka zawiera w sobie sztuczny genom wraz z zestawem przełącz- ników umożliwiających włączanie/wyłączanie konkretnych genów. Przełącz- niki sterowane są procesami dyfuzji sztucznych protein (białek) wędrujących w kracie, w węzłach której rezydują komórki.
Rolą GRN jest sterowanie wzrostem struktury klasyfikującej jak też za- chowaniem (własnościami) konkretnych komórek.
W implementacji omawianej w pracy założono, że każda komórka sta- nowi odrębną samo-organizującą się sieć Kohonena, natomiast rolą systemu HeBIS jest nauczenie się rozpoznawania chmur na zdjęciach satelitarnych.
Wybór takiego właśnie zastosowania wynika zapewne z faktu, że mgr V.
Taylor pracował przez pewien okres w Lincoln Lab na MIT, a więc w jednym z najbardziej znanych laboratoriów badawczych na świecie.
2 Układ i zawartość pracy
Recenzowana praca liczy 245 stron, składa się z sześciu rozdziałów, spisów treści, rysunków i tabel, listy skrótów używanych w tekście, a także dodatku i spisu literatury.
Rozdział pierwszy to krótkie wprowadzenie, w którym Autor omawia tak- że układ pracy.
Rozdział drugi to blisko 30-stronicowy przegląd literatury dotyczącej za- gadnień uczenia maszynowego, obliczeń ewolucyjnych oraz biologicznych i obliczeniowych aspektów ewolucji rozwoju. Za najciekawszy uważam pod- rozdział 2.3, w którym Autor dokonuje przeglądu piśmiennictwa dotyczą- cego różnorodnych aspektów ewolucji rozwoju. Znajdujemy tu uwagi o po- wstawaniu, przełączających białek (protein), niezwykle ważnej teorii Stuarta Kaufmanna i jego losowych sieciach booleowskich wykorzystywanych do mo- delowania sieci regulacji genów, czy sztucznych systemach immunologicznych i ich zastosowaniu w zadaniach klasyfikacji (algorytm CLONALG).
Rozdział trzeci poświęcony jest systemowi HeBIS. Omawia sie tu strukturę genotypową pojedynczej komórki, sposób komunikacji międzykomórkowej, a
przede wszystkim algorytm uczenia. Tak naprawdę jest to jedyny algorytm opisany w miarę precyzyjnie w pracy.
W liczącym ponad 120 stron rozdziale czwartym opisano wyniki różnorod- nych eksperymentów (przeprowadzono ich 16). Wyniki tych eksperymentów podsumowano w 4-stronicowym rozdziale 5, a w rozdziale 6 przedstawiono kierunki przyszłych badań.
3 Uwagi
Chociaż każdy rozdział poprzedzony jest krótkim wstępem, a zakończony podsumowaniem, sama rozprawa jest raczej trudna w odbiorze. Autor wprowadza „bez ostrzeżenia” wiele niekonwencjonalnych pojęć. Wymieńmy chociażby „artificial chemistry”, czy „artificial immune systems”. Są to niewątpliwie ważne nurty w inteligencji obliczeniowej czy sztucznym życiu, ale przypuszczam, że należało czytelnikowi wyjaśnić celowość ich użycia.
Część takich pojęć pojawia sie w rozdziale 2 i dalej nie jest wykorzystana.
jednak np. termin „random Boolean networks” odgrywa istotną rolę w modelowaniu sieci regulacji genetycznej. Na marginesie, polecam Autorowi bardzo dobrą pracę przeglądową
Th. Schlitt, A. Brazma. Current approaches to gene regulatory network modelling. BMC Bioinformatics 2007, 8(Suppl 6):S9 doi:10.1186/1471-2105- 8-S6-S9
gdzie omawia się różnorodne modele takich sieci.
To co mnie zaskakuje, to brak szczegółów dotyczących implementacji za- proponowanego rozwiązania. Z pracy nie dowiemy się w jakim języku za- programowano system HeBIS, nie wiemy też nic o złożoności (czasowej i pa- mięciowej) autorskiego rozwiązania. Szereg bardzo szczegółowych i wcześniej nieobjaśnionych informacji zamieszczono w dodatku. Nie jestem pewien jak np. należy interpretować rys. 121 ze s. 234, ani jak interpretować rysunki 124-125 ze s. 236. Nie bardzo też wiadomo w jaki sposób otrzymano te ry- sunki.
Z uwag technicznych wymieniłbym brak indeksu ułatwiającego porusza- nie sie po pracy. Ponadto uważam za nietrafne uszeregowanie w tak dużej pracy pozycji bibliograficznych wg kolejności ich cytowania.
Poniżej zamieszczam kilka specyficznych uwag:
• Nie bardzo rozumiem dlaczego Autor wprowadza rozróżnienie między sztucznymi sieciami neuronowymi a samoorganizujacymi sie sieciami Kohonena, skoro te ostatnie także dyskutowane są zazwyczaj w kon- tekście sieci neuronowych. Podstawowa różnica dotyczy faktu, że o ile
„klasyczne” sieci neuronowe przeznaczone są do zadań uczenia nad- zorowanego, to sieci Kohonena – do zadań uczenia nienadzorowanego.
Pewne uzasadnienie podano wprawdzie w pierwszym akapicie punktu
2.3.1 (s. 31).
• s. 37 PSO to nie wariant EC. Wprawdzie Autor odwołuje się do numeru specjalnego IEEE Trans. on Evo. Comput., poz. [90] w spisie publikacji, ale wystarczyło zajrzeć np. do wikipedii, gdzie znajdujemy następujące i trafne objaśnienie
(...) PSO is originally attributed to Kennedy, Eberhart and Shi [1][2] and was first intended for simulating social be- haviour[3], as a stylized representation of the movement of organisms in a bird flock or fish school. The algorithm was simplified and it was observed to be performing optimiza- tion. The book by Kennedy and Eberhart [4] describes ma- ny philosophical aspects of PSO and swarm intelligence. An extensive survey of PSO applications is made by Poli [5],[6].
(cytowane za: http://en.wikipedia.org/wiki/Particle_
swarm_optimization)
Brakuje uzasadnienia, dlaczego spośród różnorodnych metaheurystyk wybrano akurat PSO. Ponadto, w pracy pominięto analizę wpływu wartości parametrów na skuteczność algorytmu. Do podstawowych pa- rametrów zaliczamy: rozmiar roju, wielkość i typ sąsiedztwa oraz tzw.
współczynniki przyspieszania (acceleration coefficients). Ten ostatni problem badali m.in. Clerc i Kennedy3Efektywność algorytmu PSO za- leży istotnie od doboru parametrów.
• Dlaczego jako miarę powinowactwa (11) przyjęto kosinus kąta między dwoma wektorami?
• Dlaczego w definicji laplasjanu (16) ze s. 60 przyjęto h = 2, a nie h = 1?
• W moim egzemplarzu pracy brakuje sekcji Acknowledgements
• Literówka przy komentarzu do równania (8) na s. 37: powinno być Pi zamiast P i.
• Na s. 53 wspominając o dyskretnym czasie Autor pisze t ∈ [0, ∞]. Skoro czas jest dyskretny powinno stosować sie notację t ∈ {0, 1, . . . , }. Iden- tyczna uwaga odnosi się do użytego na s. 54 zapisu x ∈ [0, MAX − 1], który należałoby zastąpić przez x ∈ {0, . . . , MAX − 1}
• Niekompletne dane w pozycjach [38], [101]
4 Konkluzja
Biorąc pod uwagę dobór tematu, cel i zakres pracy oraz uzyskane wyniki stwierdzam, że:
• Praca zawiera oryginalne i bardzo nowatorskie elementy nowości nauko- wej będące własnym dorobkiem Autora. W szczególności zaproponował On bardzo ciekawe i niestandardowe zastosowanie teorii biologicznych
3Por. M. Clerc, J. Kennedy. The particle swarm explosion, stability and convergence in multidimensional complex space. IEEE Trans. Evo. Comput., 6(1):58-73, 2002.
do tworzenia systemów decyzyjnych droga ewolucji ich komponentów.
Podejście takie mogłoby być wykorzystywane w autonomicznych syste- mach przeznaczonych do rozwiązywania różnego rodzaju problemów.
• Temat rozprawy, zastosowane metody oraz uzyskane wyniki odpowia- dają randze rozpraw doktorskich.
W związku z powyższym stwierdzam, że opiniowana rozprawa, mimo pew- nych wymienionych wcześniej usterek, spełnia wymagania obowiązujących przepisów ustawy o stopniu naukowym doktora i wnoszę o dopuszczenie jej Autora do publicznej obrony.
Proponuję także wyróżnić Autora za rozwój nowatorskich metod klasyfi- kacji danych.