2 Układ i zawartość pracy

(1)

Prof. dr hab. inż. Sławomir T. Wierzchoń Warszawa, 21 kwietnia 2011 r.

Instytut Podstaw Informatyki PAN ul. Brzegi 55, 80-045 Gdańsk

Recenzja rozprawy doktorskiej mgr Victora B. Taylora

p.t.

HeBIS: A Biologically Inspired Data Classification System

Przedmiotem recenzji jest rozprawa doktorska mgr Victora B. Taylora o podanym wyżej tytule, która została przygotowana w Instytucie Badań Systemowych PAN pod kierunkiem naukowym prof. dr hab. inż. Janusza Kacprzyka.

Recenzję przygotowano na zlecenie Zastępcy Dyrektora IBS PAN, Pa- na doc. dr hab. Sławomira Zadrożnego, przesłane niżej podpisanemu listem datowanym 29 października 2010 r.

1 Przedmiot pracy

Autor koncentruje się na ciekawym problemie dotyczącym tworzenia systemu klasyfikującego z wykorzystaniem mechanizmów tzw. ewolucji rozwoju (ang.

evolution of development, w skrócie evo-devo). Istotą tej nowej doktryny¹ będącej syntezą biologii ewolucyjnej i biologii rozwoju, jest próba ustalenia w jaki sposób modyfikacje genotypowe przekładają się na zróżnicowanie fe- notypowe, a przede wszystkim jak owe mutacje genów przekładają się na ewolucję fenotypową². I w jaki sposób ewoluuje sam proces rozwojowy.

O ile tradycyjnie zajmowano się aspektami dziedziczenia, a więc poszu- kiwano odpowiedzi na pytanie jak geny przechodzą z jednego pokolenia na następne, to badacze z kręgu evo-devo badają jak geny programują budowę

1Pierwszy ważny zbiór publikacji z tego zakresu ukazał się w Proc. Natl. Acad. Sci, vol.

97, no. 9, 2000

2Przypomnijmy, że przez genotyp rozumiemy zespół genów danego osobnika, natomiast oddziaływanie między genotypem a środowiskiem daje fenotyp. W algorytmach genetycz- nych np. genotyp utożsamiany jest z obiektem poddawanym operacjom selekcji, krzyżo- wania i mutacji, natomiast w celu określenia jego jakości należy przekształcić go fenotypu reprezentującego potencjalne rozwiązanie. W najprostszym przypadku genotypem jest tu łańcuch binarny, a fenotypem – w zależności od kontekstu – odpowiadająca mu liczba rzeczywista, albo wektor o składowych rzeczywistych.

(2)

nowego organizmu. Uznaje się bowiem, że to właśnie faza rozwoju embrio- nalnego kształtuje historię życia na Ziemi. Odpowiedzi na to pytanie dostar- cza obserwacja mówiąca, że w każdym organizmie istnieje system regulujący działanie genów. Za włączania i wyłączania genów odpowiedzialne są białka (określane terminem „małe RNA”) sterujące sieciami genów. To tłumaczy fakt, że nieznaczna, na poziomie genotypowym, różnica między człowiekiem a np. muszką owocówką przekształca się na ogromną różnicę na poziomie fenotypowym. Mechanizmy sterujące włączaniem/wyłączaniem genów oraz sekwencją w jakiej owe przełączenia sa dokonywane określa się terminem sieci regulacji genetycznej (ang. genetic regulatory network, w skrócie GRN ).

Powyższe przesłanki zostały wykorzystane przez Autora do zaprojekto- wania samo-organizującego się systemu HeBIS – Heterogeneous Biologically Inspired System, przeznaczonego do zadań klasyfikacji binarnej. Stanowi go kompozycja różnorodnych jednostek, określanych w pracy jako komórki. Każ- da taka jednostka zawiera w sobie sztuczny genom wraz z zestawem przełącz- ników umożliwiających włączanie/wyłączanie konkretnych genów. Przełącz- niki sterowane są procesami dyfuzji sztucznych protein (białek) wędrujących w kracie, w węzłach której rezydują komórki.

Rolą GRN jest sterowanie wzrostem struktury klasyfikującej jak też za- chowaniem (własnościami) konkretnych komórek.

W implementacji omawianej w pracy założono, że każda komórka stanowi odrębną samo-organizującą się sieć Kohonena, natomiast rolą systemu HeBIS jest nauczenie się rozpoznawania chmur na zdjęciach satelitarnych.

Wybór takiego właśnie zastosowania wynika zapewne z faktu, że mgr V.

Taylor pracował przez pewien okres w Lincoln Lab na MIT, a więc w jednym z najbardziej znanych laboratoriów badawczych na świecie.

2 Układ i zawartość pracy

Recenzowana praca liczy 245 stron, składa się z sześciu rozdziałów, spisów treści, rysunków i tabel, listy skrótów używanych w tekście, a także dodatku i spisu literatury.

Rozdział pierwszy to krótkie wprowadzenie, w którym Autor omawia tak- że układ pracy.

Rozdział drugi to blisko 30-stronicowy przegląd literatury dotyczącej za- gadnień uczenia maszynowego, obliczeń ewolucyjnych oraz biologicznych i obliczeniowych aspektów ewolucji rozwoju. Za najciekawszy uważam pod- rozdział 2.3, w którym Autor dokonuje przeglądu piśmiennictwa dotyczą- cego różnorodnych aspektów ewolucji rozwoju. Znajdujemy tu uwagi o po- wstawaniu, przełączających białek (protein), niezwykle ważnej teorii Stuarta Kaufmanna i jego losowych sieciach booleowskich wykorzystywanych do mo- delowania sieci regulacji genów, czy sztucznych systemach immunologicznych i ich zastosowaniu w zadaniach klasyfikacji (algorytm CLONALG).

Rozdział trzeci poświęcony jest systemowi HeBIS. Omawia sie tu strukturę genotypową pojedynczej komórki, sposób komunikacji międzykomórkowej, a

(3)

przede wszystkim algorytm uczenia. Tak naprawdę jest to jedyny algorytm opisany w miarę precyzyjnie w pracy.

W liczącym ponad 120 stron rozdziale czwartym opisano wyniki różnorod- nych eksperymentów (przeprowadzono ich 16). Wyniki tych eksperymentów podsumowano w 4-stronicowym rozdziale 5, a w rozdziale 6 przedstawiono kierunki przyszłych badań.

3 Uwagi

Chociaż każdy rozdział poprzedzony jest krótkim wstępem, a zakończony podsumowaniem, sama rozprawa jest raczej trudna w odbiorze. Autor wprowadza „bez ostrzeżenia” wiele niekonwencjonalnych pojęć. Wymieńmy chociażby „artificial chemistry”, czy „artificial immune systems”. Są to niewątpliwie ważne nurty w inteligencji obliczeniowej czy sztucznym życiu, ale przypuszczam, że należało czytelnikowi wyjaśnić celowość ich użycia.

Część takich pojęć pojawia sie w rozdziale 2 i dalej nie jest wykorzystana.

jednak np. termin „random Boolean networks” odgrywa istotną rolę w modelowaniu sieci regulacji genetycznej. Na marginesie, polecam Autorowi bardzo dobrą pracę przeglądową

Th. Schlitt, A. Brazma. Current approaches to gene regulatory network modelling. BMC Bioinformatics 2007, 8(Suppl 6):S9 doi:10.1186/1471-2105- 8-S6-S9

gdzie omawia się różnorodne modele takich sieci.

To co mnie zaskakuje, to brak szczegółów dotyczących implementacji za- proponowanego rozwiązania. Z pracy nie dowiemy się w jakim języku za- programowano system HeBIS, nie wiemy też nic o złożoności (czasowej i pa- mięciowej) autorskiego rozwiązania. Szereg bardzo szczegółowych i wcześniej nieobjaśnionych informacji zamieszczono w dodatku. Nie jestem pewien jak np. należy interpretować rys. 121 ze s. 234, ani jak interpretować rysunki 124-125 ze s. 236. Nie bardzo też wiadomo w jaki sposób otrzymano te rysunki.

Z uwag technicznych wymieniłbym brak indeksu ułatwiającego porusza- nie sie po pracy. Ponadto uważam za nietrafne uszeregowanie w tak dużej pracy pozycji bibliograficznych wg kolejności ich cytowania.

Poniżej zamieszczam kilka specyficznych uwag:

• Nie bardzo rozumiem dlaczego Autor wprowadza rozróżnienie między sztucznymi sieciami neuronowymi a samoorganizujacymi sie sieciami Kohonena, skoro te ostatnie także dyskutowane są zazwyczaj w kon- tekście sieci neuronowych. Podstawowa różnica dotyczy faktu, że o ile

„klasyczne” sieci neuronowe przeznaczone są do zadań uczenia nad- zorowanego, to sieci Kohonena – do zadań uczenia nienadzorowanego.

Pewne uzasadnienie podano wprawdzie w pierwszym akapicie punktu

(4)

2.3.1 (s. 31).

• s. 37 PSO to nie wariant EC. Wprawdzie Autor odwołuje się do numeru specjalnego IEEE Trans. on Evo. Comput., poz. [90] w spisie publikacji, ale wystarczyło zajrzeć np. do wikipedii, gdzie znajdujemy następujące i trafne objaśnienie

(...) PSO is originally attributed to Kennedy, Eberhart and Shi [1][2] and was first intended for simulating social be- haviour[3], as a stylized representation of the movement of organisms in a bird flock or fish school. The algorithm was simplified and it was observed to be performing optimization. The book by Kennedy and Eberhart [4] describes ma- ny philosophical aspects of PSO and swarm intelligence. An extensive survey of PSO applications is made by Poli [5],[6].

(cytowane za: http://en.wikipedia.org/wiki/Particle_

swarm_optimization)

Brakuje uzasadnienia, dlaczego spośród różnorodnych metaheurystyk wybrano akurat PSO. Ponadto, w pracy pominięto analizę wpływu wartości parametrów na skuteczność algorytmu. Do podstawowych pa- rametrów zaliczamy: rozmiar roju, wielkość i typ sąsiedztwa oraz tzw.

współczynniki przyspieszania (acceleration coefficients). Ten ostatni problem badali m.in. Clerc i Kennedy³Efektywność algorytmu PSO za- leży istotnie od doboru parametrów.

• Dlaczego jako miarę powinowactwa (11) przyjęto kosinus kąta między dwoma wektorami?

• Dlaczego w definicji laplasjanu (16) ze s. 60 przyjęto h = 2, a nie h = 1?

• W moim egzemplarzu pracy brakuje sekcji Acknowledgements

• Literówka przy komentarzu do równania (8) na s. 37: powinno być P_i zamiast P i.

• Na s. 53 wspominając o dyskretnym czasie Autor pisze t ∈ [0, ∞]. Skoro czas jest dyskretny powinno stosować sie notację t ∈ {0, 1, . . . , }. Iden- tyczna uwaga odnosi się do użytego na s. 54 zapisu x ∈ [0, MAX − 1], który należałoby zastąpić przez x ∈ {0, . . . , MAX − 1}

• Niekompletne dane w pozycjach [38], [101]

4 Konkluzja

Biorąc pod uwagę dobór tematu, cel i zakres pracy oraz uzyskane wyniki stwierdzam, że:

• Praca zawiera oryginalne i bardzo nowatorskie elementy nowości nauko- wej będące własnym dorobkiem Autora. W szczególności zaproponował On bardzo ciekawe i niestandardowe zastosowanie teorii biologicznych

3Por. M. Clerc, J. Kennedy. The particle swarm explosion, stability and convergence in multidimensional complex space. IEEE Trans. Evo. Comput., 6(1):58-73, 2002.

(5)

do tworzenia systemów decyzyjnych droga ewolucji ich komponentów.

Podejście takie mogłoby być wykorzystywane w autonomicznych systemach przeznaczonych do rozwiązywania różnego rodzaju problemów.

• Temat rozprawy, zastosowane metody oraz uzyskane wyniki odpowia- dają randze rozpraw doktorskich.

W związku z powyższym stwierdzam, że opiniowana rozprawa, mimo pew- nych wymienionych wcześniej usterek, spełnia wymagania obowiązujących przepisów ustawy o stopniu naukowym doktora i wnoszę o dopuszczenie jej Autora do publicznej obrony.

Proponuję także wyróżnić Autora za rozwój nowatorskich metod klasyfikacji danych.