Akademia Górniczo-Hutnicza im. Stanisława Staszica

(1)

Akademia Górniczo-Hutnicza

im. Stanisława Staszica

Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Katedra Informatyki

Exploring complex networks with topological descriptors Analiza sieci złożonych za pomocą deskryptorów topologicznych

Wojciech Czech

Autoreferat rozprawy doktorskiej

Promotor: Prof. dr hab. inż. Witold Dzwinel

Kraków, 2012

(2)

1 Wstęp

Grafy są uniwersalnymi strukturami danych znajdującymi szerokie zastosowanie w wielu dziedzinach współczesnej nauki takich jak rozpoznawanie wzorców strukturalnych, teoria sieci złożonych, biologia, medycyna, socjologia, fizyka. W ostatnich latach obserwujemy znaczący wzrost objętości danych eksperymentalnych, które często zostają przekształco- ne w graf i przechowywane w jego postaci. W szczególności, dotyczy to zbiorów danych opisujących różnego typu relacje pomiędzy obiektami, takie jak podobieństwo, korela- cja, przyczyna-skutek, fizyczne połączenie, znajomość między osobami. Wyliczenie zbioru binarnych relacji pomiędzy elementami pozwala w wygodny, wstępujący sposób opisać złożone systemy. Jest to jedna z przyczyn dużej przydatności grafowych reprezentacji danych. Ponadto, wierzchołki grafu tworzą warstwę abstrakcji nad obiektami różnych ty- pów, a wagi krawędzi umożliwiają uwzględnienie heterogeniczności relacji pomiędzy nimi.

Grafy pozwalają na integrację danych o znacznej objętości w jedną strukturę wyższego poziomu, opisującą system całościowo. Przydatne jest to szczególnie w biologii moleku- larnej i chemii, w których eksperymenty typu high throughput dostarczają olbrzymich ilości danych, syntetyzowanych następnie do postaci grafów interakcji białko-białko, sieci metabolicznych lub sieci fałdowania protein [21]. W informatyce grafy stosowane są w klasycznych problemach optymalizacji oraz teorii obliczeń i złożoności obliczeniowej (Ry- sunek 1). Dodatkowo w ostatnich latach można zaobserwować rosnące zainteresowanie strukturalnymi reprezentacjami w takich dziedzinach jak widzenie komputerowe, eksploracja danych oraz strukturalne rozpoznawanie wzorców [23]. Ze względu na powszechność grafowych reprezentacji danych w wielu interdyscyplinarnych obszarach badań oraz stały wzrost rozmiaru grafów będących przedmiotem analiz, rozwijanie nowych, szybkich metod analizy i porównywania grafów jest dzisiaj ważnym problemem naukowym.

W niniejszej pracy rozpatrujemy problem efektywnego porównywania grafów, propo- nując narzędzia algorytmiczne i programowe pozwalające na obliczanie miar podobień- stwa grafów oraz ich wykorzystanie w problemach typu klasteryzacja, klasyfikacja [12], budowanie strukturalnych baz danych z szybkim wyszukiwaniem lub walidacja wyników symulacji, których rezultatem są grafy [32]. Pomiar podobieństwa lub niepodobieństwa między grafami pozwala na zastosowanie metod statystycznego rozpoznawania wzorców do elementów przestrzeni grafowej, która nie posiada wbudowanej metryki. Wraz ze wzro- stem rozmiaru danych, porównywanie grafów staje się zadaniem złożonym i kosztownym obliczeniowo. Współcześnie stosowane metody mają najczęściej złożoność czasową rzę- du O(n³), która znacznie utrudnia analizę grafów o liczbie wierzchołków większej niż 10³, szczególnie dla dużych zbiorów danych wykorzystywanych w uczeniu maszynowym.

Dodatkowo, rezultat porównania musi być niezmiennikiem izomorfizmu grafowego. Pomi- mo stale wzrastającej dostępnej mocy obliczeniowej komputerów, dwa wyżej wymienione problemy powodują, że projektowanie efektywnych algorytmów porównywania struktur grafowych pozostaje nadal aktualnym wyzwaniem informatyki.

1.1 Cele rozprawy

Celem niniejszej pracy jest opracowanie nowej, efektywnej metody porównywania grafów, umożliwiającej obliczanie miar podobieństwa/niepodobieństwa dla obiektów o znacznej liczbie wierzchołków. Główna część przedstawionych rozważań jest związana metodami bazującymi na przekształceniach grafu w wektor cech. Transformując kombinatoryczną

(3)

Rysunek 1: Zastosowania grafów w informatyce

strukturę jaką jest graf do algebraicznej reprezentacji w postaci wektora, dokonujemy osadzenia grafu w przestrzeni metrycznej, co pozwala na zastosowanie algorytmów statystycznego porównywania wzorców dla danych strukturalnych. Szczegółowe cele rozprawy przedstawiają się następująco

• Zbadanie w jaki sposób, informacja niesiona przez miary niepodobieństwa między wierzchołkami grafu takie jak długość najkrótszej ścieżki lub commute time [25], może zostać wykorzystana do osadzenia grafów w przestrzeni metrycznej. Zapro- ponowanie nowych, użytecznych deskryptorów grafowych bazującyh na macierzach odległości grafu.

• Zbudowanie wydajnego i kompleksowego oprogramowania pozwalającego na ilościo- wą analizę grafowych zbiorów danych z zastosowaniem niezmienników grafu oraz klasycznych metod klasyfikacji i klasteryzacji. Aplikacja powinna również zawierać moduły do wizualizacji, transformacji i porównywania grafów.

• Analiza wydajności i użyteczności zaproponowanych nowych metod generacji i selekcji cech grafu w oparciu o rzeczywiste, strukturalne zbiory danych, w tym benchmarkowe bazy danych grafów oraz sieci naczyń krwionośnych uzyskane z symulacji procesu angiogenezy.

1.2 Tezy rozprawy

1. Grafy k-odległości, skonstruowane na podstawie miar niepodobieństwa między wierzchołkami grafu G, tworzą uporządkowany zbiór pochodnych grafów, który pozwala na wygenerowanie niezmienników izomorfizmu dla grafu G, efektywnych w klasteryzacji i klasyfikacji benchmarkowych zbio- rów danych strukturalnych. W szczególności metryka najkrótszej ścieżki, zasto- sowana do budowy wierzchołkowych grafów k-odległości i krawędziowych grafów k-odległości, pozwala na przekształcenie grafu do postaci tzw. B-macierzy. Wy- generowanie B-macierzy grafu jest mniej kosztowne obliczeniowo niż wyznaczenie niezmienników grafu opartych na dekompozycji spektralnej macierzy Laplace’a grafu. Wektory cech grafu, otrzymane przy użyciu B-macierzy pozwalają na separację

(4)

grafów o nietrywialnych różnicach w strukturze i dają lepsze wyniki w eksploracji grafowych zbiorów danych niż aktualnie stosowane deskryptory spektralne. Gene- racja cech w oparciu o niezmienniki grafów k-odległości jest ogólnym podejściem do problemu porównywania grafów i może być zastosowana zarówno dla grafów bez wag, jak i grafów ważonych.

2. Wzrost wydajności obliczeniowej uzyskany dzięki realizacji metod gene- racji cech grafu na procesorze graficznym (GPU) pozwala na zwiększenie rozmiaru grafów analizowanych w sposób interaktywny o dwa rzędy wiel- kości. Zoptymalizowana, rekurencyjna wersja algorytmu wyznaczającego długości wszystkich najkrótszych ścieżek w grafie (R-Kleene) zaimplementowana w środowi- sku CUDA może zostać wykorzystana do wygenerowania B-macierzy grafu o liczbie wierzchołków rzędu 10⁴w czasie krótszym niż 3 sekundy (Nvidia Tesla C2070). Apli- kacja Graph Investigator udostępnia zbiór narzędzi potrzebnych do klasteryzacji danych strukturalnych i pozwala na obliczenie ponad stu deskryptorów grafowych.

2 Porównywanie grafów

Grafy reprezentowane są za pomocą struktur danych, które bazują na identyfikatorach i uporządkowaniu wierzchołów. Jako przykłady takich reprezentacji możemy wymienić listy sąsiedztwa oraz macierze adjacencji i incydencji. W związku z tym pojawia się problem określania strukturalnej równoważności między grafami, czyli znalezienia odpowiadają- cych sobie wierzchołków - izomorfizmu [13, 14]. W literaturze określane jest to często jako dokładne porównywanie grafów (exact graph matching) [9]. Poszukiwanie izomorfizmu jest ciekawym problemem teorii złożoności obliczeniowej (do tej pory nie został znaleziony algorytm wielomianowy ani nie udowodniono, że problem ten jest NP-zupełny), nie mniej jego praktyczne zastosowania są ograniczone. Z kolei przybliżone porównywanie grafów (inexact graph matching), równoważne z obliczaniem miary podobieństwa/niepodobień- stwa między grafami ma szereg zastosowań w strukturalnym rozpoznawaniu wzorców, w którym zmieniająca się liczba wierzchołków grafu odzwierciedlać może zarówno rzeczywi- stą różnicę między obiektami jak i szum.

2.1 Przegląd współczesnych metod przybliżonego porównywa- nia grafów

Przybliżone porównywanie grafów może zostać zrealizowane na kilka sposobów. Najważ- niejsze grupy algorytmów przedstawione są na Rysunku 2. Na pierwszym poziomie wy- różniamy metody porównujące pary grafów, które do wyznaczenia odległości potrzebują obydwu tych obiektów na raz. Wśród algorytmów porównujących pary grafów, jednymi z najczęściej używanych są metody bazujące na pojęciu grafowej odległości edycyjnej.

Mogą one zostać wykorzystane również dla grafów z etykietami wierzchołków i krawędzi, niestety charakteryzują się eksponencjalną złożonością obliczeniową [29]. Istnieją również sub-optymalne wersje tego algorytmu działające w czasie O(n³) [28]. W alternatywnym podejściu dokonuje się osadzenia grafów w przestrzeni metrycznej, przy czym można to zrobić bezpośrednio transformując graf do wektora cech (deskryptora) lub pośrednio - wykorzystując grafowe funkcje jądra (graph kernels). Osadzanie pośrednie może zostać

(5)

zrealizowane zarówno poprzez porównanie par, jak i z wykorzystaniem deskryptorów grafowych. Osadzanie bezpośrednie jest szczególnie przydatną metodą, ponieważ umożliwia przejście z dziedziny kombinatorycznej do klasycznych metod rozpoznawania wzorców wy- korzystujących reprezentacje wektorowe. Wielowymiarowe wektory cech grafu pozwalają uchwycić skomplikowane własności jego struktury, a algorytmy selekcji cech umożliwiają wybór deskryptorów najlepszych do konkretnego zastosowania. Dodatkowo, deskryptory grafowe mogą zostać obliczone w fazie wstępnej obróbki danych, co znacznie ułatwia budowę i utrzymanie strukturalnych baz danych z szybkim wyszukiwaniem, w którym porównuje się jedynie wektory cech.

Rysunek 2: Schematyczny podział algorytmów przybliżonego porównywania grafów

Wektory reprezentujące graf powinny być niezmiennikami izomorfizmu. Ta kluczowa własność może zostać uzyskana na kilka sposobów. W najprostszym podejściu uporząd- kowany zbiór skalarnych deskryptorów grafowych takich jak np. efficiency, diameter lub clustering coefficient [10], tworzy wektor cech [11]. Bardziej ogólnie, do ekstrakcji cech grafu możemy wykorzystywać funkcje niezmienne względem permutacji argumentów, takie jak np. symetryczne wielomiany [36]. Również momenty statystyczne deskryptorów przypisanych do elementów grafu, takie jak np. średnie wartości i odchylenia standardowe stopni wierzchołków lub długości najkrótszych ścieżek mogą zostać wykorzystane jako cechy grafu [11, 12, 15]. Ekstrakcja odpowiednich cech, pozwalających na uchwycenie subtelnych różnic pomiędzy dwoma strukturami i dodatkowo odpornych na szum, jest sporym wyzwaniem. Często łatwe w interpretacji, proste deskryptory skalarne lub momenty statystyczne nie są wystarczające do analizy trudniejszych zbiorów danych, takich jak na przykład IAM - referencyjna baza danych dla strukturalnego rozpoznawania wzorców [27]. Jedne z ciekawszych metod generacji cech grafu wykorzystują niezmienniki oparte na dekompozycji spektralnej macierzy grafowych. Przykładowo, wartości własne i wektory własne macierzy Laplace’a grafu, tworzące tak zwaną macierz spektralną, zostały użyte w pracy [22] do wyznaczenie deskryptorów takich jak eigenmode volume i eigenmo- de perimeter. Wielowymiarowe wektory cech, uzyskane z macierzy spektralnej za pomocą symetrycznych wielomianów zostały wprowadzone w pracy [36]. Wymienione deskryptory okazały się bardzo skuteczne w rozpoznawaniu obrazów transformowanych w grafy. W ostatnim czasie wykazana została duża przydatność cech opartych na skalowanej czasem macierzy transportu ciepła (heat kernel matrix) na grafie [37]. Również deskryptory od- zwierciedlające częstotliwość występowania pewnych podgrafów w danym grafie okazały

(6)

się efektywne w rozpoznawaniu wzorców strukturalnych. Przykładem tego typu niezmien- ników są np. współczynniki wielomianu uzyskanego z funkcji Ihara zeta dla grafu, które zawierają informację na temat częstości cykli o danej długości [26]. W rozprawie omó- wiono szereg innych algorytmów dokładnego i przybliżonego porównywania/dopasowania grafów.

Celem niniejszej pracy jest opracowanie metody generacji cech grafu, która będzie mniej kosztowna obliczeniowo od obecnie stosowanych metod spektralnych, jednocześnie nie dając gorszych wyników w rozpoznawaniu wzorców strukturalnych. Metoda ta zostanie zastosowana do analizy szeregu zbiorów danych, z których najważniejsze opisane zostały następnym rozdziale.

2.2 Przykładowe zbiory danych strukturalnych

W tym rozdziale prezentujemy krótko przykładowe zbiory danych grafowych pochodzące z różnych dziedzin i omawiamy praktyczne problemy z nimi związane.

Grafy reprezentujące obrazy

Rozpoznawanie wzorców strukturalnych reprezentujących obrazy jest szczególnie przydatne w takich zastosowaniach jak widzenie komputerowe, przetwarzanie obrazu lub budowanie semantycznych baz danych zdjęć [2]. Graf reprezentuje strukturę obrazu w sposób niezmienny względem rotacji, skalowania, zmiany kąta widzenia i częściowo translacji.

Przekształcenie macierzy pikseli w graf wymaga wskazania obiektów mapowanych na wierzchołki oraz binarnych relacji pomiędzy nimi, pozwalających na utworzenie krawędzi.

Tego typu reprezentacja stanowi abstrakcyjny opis sceny. Problematyczna jest zmienna liczba wierzchołków i krawędzi grafu spowodowana błędami segmentacji oraz szumem.

W rozprawie doktorskiej omówione zostały metody transformacji obrazu w graf takie jak szkieletyzacja, segmentacja i grafy sąsiedztwa regionów oraz wykrywanie rogów i triangulacja Delaunaya, przedstawiona schematycznie na Rysunku 3.

a b c

Rysunek 3: Transformacja obrazu w graf z użyciem triangulacji Delaunaya na zbiorze rogów: a. oryginalne zdjęcie, b. zastosowanie detektora rogów Harris’a [20], c. triangulacja Delaunaya.

W szczególności czysto strukturalna (brak atrybutów wierzchołków i krawędzi) reprezentacja obrazu w postaci grafu Delaunaya dobrze odzwierciedla strukturę obrazu i posiada cechy predestynujące ją do zastosowań w rozpoznawaniu wzorców. Rogi wyzna- czane są jako charakterystyczne punkty, w których jakość obrazu zmienia się gwałtownie w dwóch prostopadłych kierunkach. Częściowe przysłonięcia na obrazie nie wpływają na

(7)

strukturę pozostałej części grafu, a dodatkowe rogi będące rezultatem szumu modyfikują jedynie jego lokalną strukturę. Ponadto, rozkład stopni wierzchołków grafu Delaunaya odzwierciedla gęstość rogów na obrazie.

Omawiana grafowa reprezentacja zdjęć jest wykorzystywana w rozprawie do testowania klasyfikatorów działających w oparciu o nowe deksryptory grafowe.

Sieci metaboliczne

Sieci metaboliczne przechowują informację o reakcjach chemicznych zachodzących we- wnątrz komórki. Zazwyczaj reakcje te są katalizowane przez białka zwane enzymami. Stę- żenie enzymów zmienia się w zależności od warunków środowiska. Jednym z zadań biologii molekularnej jest odkrywanie szlaków metabolicznych, czyli sekwencji reakcji tworzących bądź rozkładających daną substancję. Przykładem szlaku metabolicznego jest glikoliza, w której glukoza zostaje przekształcona w pirogronian z jednoczesnym uwolnieniem energii.

Podstawowym elementem szlaku metabolicznego jest pojedyncza reakcja z wieloma sub- stratami i wieloma produktami, katalizowana przez enzym. Z tego powodu konstrukcja grafowej reprezentacji metabolizmu nie jest oczywista i może zostać dokonana na kilka sposobów. Najczęściej stosowaną metodą jest identyfikacja tak zwanej wiodącej przemia- ny (principal link) [21], to jest pary substrat-produkt takiej, że większość atomów węgla obecnych w substracie zostaje zachowana w produkcie. W tym sposobie budowy sieci metabolicznych obecność enzymów nie jest bezpośrednio uwzględniana. Wierzchołki grafu modelują substacje biorące udział w wiodącej przemianie, a skierowana krawędź - fakt występowania reakcji. Na Rysunku 4 przedstawiono uzyskaną w ten sposób sieć metabo- liczną bakterii Helicobacter pylori.

Rysunek 4: Sieć metaboliczna Helicobacter pylori (940 wierzchołów, 2281 krawędzi) Ilościowa analiza sieci metabolicznych stosowana jest w projektowaniu nowych leków [38] oraz przy badaniu powiazań ewolucyjnych między organizmami. W pracy doktorskiej

(8)

przedstawiona została budowa drzewa filogenetycznego organizmów na podstawie ich sieci metabolicznych [3].

Sieci naczyń krwionośnych

Sieci naczyń krwionośnych dostarczają tlen i substancje odżywcze do tkanek, dlatego modelowanie ich wzrostu w różnych warunkach środowiska pozwala zrozumieć procesy zachodzące w organizmach w skali makro. Normalna sieć kapilarna ma formę regularnej struktury (Rysunek 5a). W większej skali, zdrowe naczynia krwionośne tworzą hierar- chiczną, drzewiastą sieć żył i tętnic. Sytuacja zmienia się diametralnie, w przypadku naczyń położonych blisko nowotworu (Rysunek 5b). Tutaj, obserwujemy heterogeniczne, nie-hierarchiczne, pofragmentowane struktury o różnej gęstości (Rysunek 5c) [34]. Złożona topologia takich sieci naczyniowych odzwierciedla skomplikowane mechanizmy rządzące procesem wzrostu naczyń krwionośnych (angiogeneza) w obecności nowotworu.

a b c

Rysunek 5: Przykłady sieci naczyń krwionośnych: a. normalna podskórna sieć kapilarna [19], b. obraz z mikroskopu konfokalnego przedstawiający sieć naczyń krwionośnych w obecności nowotworu [24], c. dwuwymiarowa sieć naczyń krwionośnych uzyskana z tkanki myszy laboratoryjnej z wszczepionym nowotworem [5, 19].

Zrozumienie procesu narastania nowotworu począwszy od jego genezy, aż do fazy una- czynienia, w której uzyskuje on dostęp do sieci transportowej i innych zasobów organizmu jest niezwykle ważne. Po osiągnięciu tej fazy rozwoju nowotworu rokowania dla pacjen- ta znacznie się pogarszają ze względu na możliwość powstania przerzutów. W ostatnich latach podjęto szereg badań związanych z modelowaniem procesu wzrostu naczyń krwio- nośnych w obecności nowotworu, ilościową analizą własności strukturalnych i transpor- towych takich sieci oraz wpływem czynników anty-angiogennych na rozwój komórek ra- kowych. Część modeli wzrostu naczyń daje wyniki w formie grafów. Walidacja takich modeli polega na porównaniu wygenerowanych sieci z sieciami rzeczywistymi i analizie ich topologicznych cech. Nowe metody porównywania grafów opisane w tej pracy zostały zastosowane do analizy sieci naczyń krwionośnych wygenerowanych za pomocą modeli opisanych w pracach [30, 33].

(9)

3 Wyniki

W niniejszym rozdziale zostaną omówione w skrócie najważniejsze wyniki pracy doktorskiej. Na początku zaprezentowana została autorska metoda generacji cech grafu, wyko- rzystująca miary niepodobieństwa między jego wierzchołkami takie jak najkrótsze ścieżki bądź commute time [25]. W dalszej kolejności przedstawiono aplikację Graph Investigator, która pozwala na kompletną analizę grup grafów z zastosowaniem metod rozpoznawania wzorców. Następnie opisano, w jaki sposób możliwości obliczeniowe tej aplikacji zosta- ły znacząco poprawione z wykorzystaniem programowania GPU w środowisku CUDA.

Przykładowe wyniki eksperymentów zaprezentowane zostały na końcu rozdziału.

3.1 Niezmienniki grafów k-odległości

Grafy k-odległości [7] generowane na podstawie metryk wierzchołkowych źródłowego gra- fu G tworzą uporządkowany zbiór pochodnych grafów, dlatego stanowią dobrą bazę do wyznaczania niezmienników izomorfizmu grafu G. W pracy doktorskiej wprowadzamy de- finicję krawędziowych grafów k-odległości, które przechowują więcej informacji o struktu- rze oryginalnego grafu niż wierzchołkowe grafy k-odległości. Następnie pokazujemy w jaki sposób, poprzez agregowanie niezmienników kolejnych grafów k-odległości możemy uzy- skać wielowymiarowe wektory cech grafu, wydajne w klasyfikacji i klasteryzacji trudnych zbiorów danych strukturalnych. W szczególności wykorzystujemy do tego celu histogramy rozkładu stopni wierzchołków grafów k-odległości, które tworzą dwuwymiarową reprezen- tację grafu w postaci tzw. B-macierzy [4, 16]. Obliczanie B-macierzy jest mniej kosztowne obliczeniowo (O(n²)) i mniej wrażliwe na błędy związane z reprezentacją zmiennopozy- cyjną niż wyznaczanie deskryptorów spektralnych (O(n³)). Równocześnie w pracy zostaje wykazane, że deskryptory grafowe otrzymane z B-macierzy są w wielu przypadkach bardziej przydatne niż najlepsze, obecnie stosowane niezmienniki spektralne.

Grafy k-odległości

Zanim zostaną przedstawione definicje grafów k-odległości oraz nowych deskryptorów grafowych, wprowadzamy kilka podstawowych pojęć i oznaczeń.

Definicja 3.1 Nieskierowany, prosty graf G definiujemy jako uporządkowaną parę G = (V (G), E(G)), taką że V (G) jest zbiorem wierzchołków, a E(G) jest zbiorem krawędzi.

Krawędź euv = {u, v} ∈ E(G) jest nieuporządkowaną parą wierzchołków. Mówimy, że dwa wierzchołki u oraz v są adjacentne (u ∼ v) jeśli łączy je krawędź.

Definicja 3.2 Ścieżką o długości k od wierzchołka u do wierzchołka v nazywamy sekwen- cję k krawędzi łączących u oraz v. Dla zamkniętej ścieżki, początkowy wierzchołek jest taki sam jak końcowy.

Definicja 3.3 Ścieżką prostą nazywamy ścieżkę bez powtarzających się wierzchołków.

Definicja 3.4 Odległością między wierzchołkami u oraz v, oznaczaną symbolem d_G(u, v), nazywamy długość najkrótszej ścieżki pomiędzy wierzchołkami u i v. Jeśli ścieżka pomiędzy wierzchołkami u i v nie istnieje, to d_G(u, v) = ∞.

(10)

Definicja 3.5 Średnicą grafu G nazywamy największą odległość między jego wierzchołka- mi diam(G) = max_{u,v∈V (G)}d_G(u, v).

Definicja 3.6 Dla grafu G = (V (G), E(G)) definiujemy wierzchołkowy graf k-odległości G^V_k jako graf ze zbiorem wierzchołków V (G^V_k) = V (G) i zbiorem krawędzi E(G^V_k) takim, że {u, v} ∈ E(G^V_k) wtedy i tylko wtedy gdy d_G(u, v) = k.

Z powyższej definicji wynika, że G^V₁ = G, natomiast dla k > diam(G) G^V_k jest grafem pustym.

a. k = 1, 30 krawędzi b. k = 2, 60 krawędzi c. k = 3, 60 krawędzi

d. k = 4, 30 krawędzi e. k = 5, 10 krawędzi

Rysunek 6: Wierzchołkowe grafy k-odległości dla grafu Desargues’a (20 krawędzi, 20 wierz- chołków, średnica 5).

Wierzchołkowe grafy k-odległości niosą informację o strukturze źródłowego grafu G, która ewoluuje od poziomu lokalnego do globalnego wraz ze wzrastającą wartością k. W pracy doktorskiej przedstawione zostały przykłady pokazujące dyskryminujące własności pro- stych niezmienników skalarnych dla kolejnych wierzchołkowych grafów k-odległości. W dalszej części pracy wprowadzona została definicja krawędziowych grafów k-odległości, które zapewniają bardziej pełny opis topologii bazowego grafu. Wykazano, że niosą one więcej informacji pozwalającej na uchwycenie subtelnych różnic strukturalnych między grafami. Definicja krawędziowych grafów k-odległości opiera się na pojęciu odległości wierzchołkowo-krawędziowej, które wprowadzone jest poniżej.

Definicja 3.7 Niech G = (V (G), E(G)) będzie nieskierowanym, prostym grafem. Odle- głość wierzchołka w ∈ V (G) od krawędzi e_uv= {u, v} ∈ E(G) oznaczamy jako d^E_G(w, e_uv), i definiujemy jako średnią arytmetyczną odległości d_G(w, u) i d_G(w, v).

(11)

Dla nieskierowanych grafów bez wag odległości wierzchołkowo-krawędziowe mogą przyj- mować wartości będące wielokrotnościami ¹₂.

Definicja 3.8 Definiujemy krawędziowy graf k-odległości jako dwudzielny graf GÊ_k = (U (GÊ_k), V (GÊ_k), E(GÊ_k)) = (V (G), E(G), E(GÊ_k)) taki, że dla każdego w ∈ V (G) oraz euv ∈ E(G), {w, e_uv} ∈ E(GÊ_k) wtedy i tylko wtedy gdy dÊ_G(w, e_uv) = k.

Przykładowe, krawędziowe grafy k-odległości przedstawione są na Rysunku 7.

a b c

Rysunek 7: a. Spójny graf G, b. Krawędziowy graf 1-odległości grafu G, c. Krawędziowy graf 1.5-odległości grafu G.

B-macierze

B-macierze są niezmiennikami grafu przedstawiającymi rozkłady stopni wierzchołków w grafach k-odległości (wierzchołkowych, bądź krawędziowych). Alternatywnie, definiujemy je wykorzystując pojęcie k-sąsiedztwa w grafie G (przykłady na Rysunku 8).

Definicja 3.9 Definiujemy wierzchołkowe k-sąsiedztwo wierzchołka v jako podzbiór wierz- chołków grafu odległych o k od v.

Definicja 3.10 Wierzchołkowa B-macierz grafu o n wierzchołkach jest zdefiniowana na- stępująco: B_k,l^V = liczba wierzchołków, które mają l elementów w swoim k-sąsiedztwie, gdzie k ≤ diam(G) oraz l ≤ n.

Na Rysunku 9b pokazana została wierzchołkowa B-macierz dla sieci naczyń krwionośnych ludzkiego mózgu. Wiersz k jest histogramem stopni wierzchołków dla wierzchołkowego grafu k-odległości, przedstawionym za pomocą logarytmicznej skali kolorów. W pracy

(12)

a b

Rysunek 8: a. Wierzchołkowe 2-sąsiedztwo wierzchołka v, b. Krawędziowe 1.5-sąsiedztwo wierzchołka v.

doktorskiej omówiono, w jaki sposób struktura macierzy B^V odzwierciedla takie własności oryginalnego grafu jak: stopień rozgałęzienia, gęstość, regularność. Niestety wierzchołkowa B-macierz nie jest zupełnym niezmiennikiem grafu, tzn. istnieje para nie-izomorficznych grafów posiadająca identyczne macierze B^V. Ciekawszym wariantem B-macierzy jest B- macierz krawędziowa, która zawiera histogramy stopni wierzchołków, dla wierzchołków należących do zbioru U (G^E_k) kolejnych, krawędziowych grafów k-odległości. Równoważnie, możemy ją zdefiniować korzystając z pojęcia krawędziowego sąsiedztwa wierzchołków.

Definicja 3.11 Krawędziowe k-sąsiedztwo wierzchołka v jest podzbiorem krawędzi grafu odległych o k od v.

Definicja 3.12 Krawędziowa B-macierz grafu jest zdefiniowana następująco:

B^E_i,l= liczba wierzchołków, które mają l krawędzi w swoim krawędziowym (¹₂i)-sąsiedztwie.

a b c

Rysunek 9: a. Fragment sieci naczyń krwionośnych mózgu człowieka - graf G mający 1090 wierzchołków i 1438 krawędzi, b. wierzchołkowa B-macierz grafu G, c. krawędziowa B-macierz grafu G.

Na Rysunku 9c widoczna jest krawędziowa B-macierz sieci naczyń krwionośnych ludzkie- go mózgu. W pracy doktorskiej pokazano, że parzyste rzędy macierzy B^E przechowują informację o nieparzystych ścieżkach zamkniętych w grafie i mogą zostać wykorzystane między innymi do określania czy graf jest dwudzielny lub czy zawiera jakieś podgrafy trójkątne. Dodatkowo wprowadzone zostały uogólnione grafy k-odległości i B-macierze, które mogą zostać wyznaczone dla grafów ważonych lub wierzchołkowo-wierzchołkowych miar niepodobieństwa innych niż długość najkrótszej ścieżki (np. metryka commute time).

(13)

Nowe deskryptory grafowe

W oparciu o B-macierze zaproponowane zostały następujące sparametryzowane wektory cech grafu (za ? podstawiamy V lub E , w ten sposób B^? oznacza macierz B^V lub B^E dla grafu G).

• Długi wektor cech pakujący fragment B-macierzy

D_long^? (k_min, k_max, l_min, l_max) = [B_k,l^? ] kmin ≤ k ≤ kmax, lmin ≤ l ≤ lmax

(1)

• Względne odchylenie standardowe wiersza B-macierzy D^?_rstd(k) = σ^?(k)

µ^?(k) (2)

• Entropia wiersza B-macierzy

p(k, l) = B_k,l^?

P

lB_k,l^? (3)

D^?_ent(k) = −^X

l

p(k, l) log(p(k, l)) (4)

• Różnica średnich wartości kolejnych wierszy B-macierzy

D_avgd^? (k) = µ^?(k − 1) − µ^?(k) (5) W pracy opisano, jakie własności strukturalne grafu ujęte są powyższymi deskryptorami oraz jaki jest ich związek z innymi niezmiennikami grafu, takimi jak na przykład Wiener index lub efficiency.

3.2 Przykładowe eksperymenty

Przydatność deskryptorów grafowych opartych na B-macierzach grafu i grafach k- odległości oceniono porównując je z najnowszymi deskryptorami spektralnymi oblicza- nymi na podstawie skalowanej czasem macierzy transportu ciepła (heat kernel matrix) oraz standardowymi deskryptorami skalarnymi. Przeprowadzono szereg eksperymentów typu klasteryzacja/klasyfikacja na danych syntetycznych i rzeczywistych. Poniżej przed- stawiony jest krótki opis części eksperymentalnej.

1. Badanie stabilności deskryptorów opartych na B-macierzach poprzez porównanie od- ległości edycyjnej losowo zaburzanych grafów (dodawanie/usuwanie krawędzi, usuwanie wierzchołków) z odległością Euklidesową dla ich wektorów cech. Wykazano w przybliżeniu liniową zależność między odległością edycyjną, a odległością Euklide- sową.

2. Klasteryzacja na syntetycznym zbiorze danych. Grupy grafów zostały wygenerowane poprzez zastosowanie losowych operacji edycyjnych na czterech bazowych grafach.

Zastosowano metody redukcji wymiaru takie jak PCA (Principal Component Analy- sis) i LPMIP (Locality-Preserved Maximum Information Projection [31]). Separacja grup oceniona została za pomocą wskaźników walidacji klasteryzacji takich jak C- index, Davies-Bouldin index, Rand index.

(14)

3. Budowa drzewa filogenetycznego w oparciu o deskryptory sieci metabolicznych. Do eksperymentu wybrane zostały sieci metaboliczne 23 organizmów udostępnione w bazie danych CCNR [1]. Wyznaczono różnego typu deskryptory grafowe dla tych sieci, a następnie użyto metod metody PCA oraz LLE (Locally Linear Embedding) w celu uzyskana dwuwymiarowej reprezentacji wzorców. Na tej podstawie zbudowano ich drzewo filogenetyczne (zostosowany został program PHYLIP). Najlepsze wyniki zostały uzyskane na deskryptorów opartych na B-macierzach (Rysunek 10).

4. Rozpoznawanie zdjęć satelitarnych w oparciu o ich reprezentację w postaci grafów Delaunay’a i deskryptory grafowe. Za pomocą programu Google Earth uzyskano zdjęcia przedstawiające trzy różne obiekty (Rysunek 11). Dla każdej grupy pobrano próbki z różnych wysokości, zastosowano również obroty i przesunięcia. Następnie za pomocą transformacji opisanej w rozdziale 2.2 otrzymano grafową reprezentację zbioru danych. Zbiór ten został podzielony na część treningową i testową. W dalszej części eksperymentu, wykorzystując metody LDA (Linear Discriminant Analysis) i MMC (Maximum Margin Criterion) i w oparciu o zbiór treningowy obliczono wektory przydatne w rzutowaniu wektorów cech ze zbioru testowego do przestrzeni 2D lub 3D. W tej przestrzeni został użyty klasyfikator najbliższej centroidy. Porówna- no nowe deskryptory z referencyjnymi deskryptorami spektralnymi i statystycznymi, uzyskując znacznie lepsze wyniki klasyfikacji dla niezmienników grafów k-odległości.

5. Klasyfikacja mutagennych związków chemicznych w oparciu i ich grafową, czysto strukturalną reprezentację. Zbiór danych pochodzi z referencyjnej bazy strukturalnego rozpoznawania wzorców (IAM). W eksperymencie zaproponowano metodę selekcji cech krawędziowej B-macierzy, która pozwala uzyskać dobre wyniki klasyfikacji, tylko nieznacznie gorsze od wyników uzyskanych dla klasyfikatorów działa- jących w oparciu o grafowe odległości edycyjne (bardziej kosztowne obliczeniowo) i wykorzystujące etykiety wierzchołków i krawędzi.

a b

Rysunek 10: Wektory cech sieci metabolicznych osadzone w przestrzeni 2D, a.

D^V_long(1, 14, 1, 18), PCA, b. D_rstd^V , 1 ≤ k ≤ 14, LLE. Oś X - pierwsza składowa głów- na, oś Y - druga składowa główna. Kolorem zielonym zaznaczono domenę Archeonów, czerwonym - Eukariontów, niebieskim - Bakterii.

(15)

Zdjęcie

Liczba elementów 90 90 90

Etykieta BO (Bochnia) MO (Rondo Mogilskie) OK (Rondo Ofiar Katynia) Rysunek 11: Przykłady zdjęć trzech fragmentów miasta uzyskanych za pomocą aplikacji

Google Earth.

3.3 Oprogramowanie Graph Investigator

W tej części rozprawy opisana została aplikacja Graph Investigator [17] stworzona w ra- mach prac nad rozprawą doktorską. W aplikacji tej udostępniono omówioną w poprzed- nim rozdziale nową metodę generacji cech grafu oraz szereg innych metod porównywania, wizualizacji, klasteryzacji i klasyfikacji grafów. Oprócz tego przedstawione zostały eksperymenty związane z ilościową analizą sieci naczyń krwionośnych mózgu człowieka oraz śledzeniem procesu wzrostu naczyń krwionośnych w obecności nowotworu za pomocą de- skryptorów grafowych.

Aplikacja ta została stworzona z myślą o udostępnieniu klasycznych algorytmów statystycznego rozpoznawania wzorców działających w oparciu o wektory cech do analizy danych strukturalnych. Jej głównym zadaniem jest eksploracja grup grafów wykorzystu- jąca metody uczenia nienadzorowanego i nadzorowanego. Program pozwala na obliczenie ponad stu sparametryzowanych deskryptorów grafowych i ich agregację w postaci wektora cech grafu. Zaimplementowane zostały deskryptory skalarne, spektralne i statystyczne dla całego grafu, jak również deskryptory wierzchołkowe i krawędziowe. Dostępne są też wybrane liniowe i nieliniowe metody redukcji wymiaru, metody wizualizacji grafów oraz narzędzia edycji grafów. Dzięki temu program może być stosowany jako narzędzie nie- zależne. Aplikacja Graph Investigator została zaprojektowana i zrealizowana w postaci luźno powiązanych modułów, które mogą być łatwo rozszerzone, w szczególności w zakre- sie nowych deskryptorów grafowych.

3.4 Deskryptory grafowe obliczane na GPU

Wyznaczanie deskryptorów grafowych dla dużych zbiorów danych jest zadaniem kosztownym obliczeniowo. Nawet przy kwadratowej złożoności obliczeniowej, charakterystycznej tylko dla niewielkiej części najprostszych deskryptorów, analiza grafów o ilości wierz- chołków rzędu 10³ i większej jest czasochłonna. Efektywność tych obliczeń może zostać zwiększona przy użyciu masywnie równoległych architektur współczesnych procesorów graficznych (GPU). Aby wykorzystać moc obliczeniową GPU, algorytmy generujące niezmienniki grafowe muszą zostać odpowiednio dopasowane do modeli programowania ta- kich jak CUDA (Compute Unified Device Architecture). Projektowanie efektywnego al- gorytmu równoległego powinno uwzględniać dekompozycję problemu dokonywaną w celu uzyskania większej lokalności danych i zastosowanie struktur danych odpowiednich do przechowywania wielkich grafów w pamięci urządzenia.

Celem tej części rozprawy jest przedstawienie ulepszenia aplikacji Graph Investigator,

(16)

które pozwala na porównywanie grafów o znacznym rozmiarze (liczba wierzchołków rzędu 10⁴) w sposób interaktywny tzn. czas obliczeń deskryptora jest nie większy niż 3 sekundy.

Cel ten został osiągnięty poprzez realizację dwóch algorytmów grafowych (przeszukiwa- nie grafu wszerz oraz wszystkie najkrótsze ścieżki) na procesorze graficznym i integrację modułu GPU z aplikacją Graph Investigator poprzez JNI (Java Native Interface). Po- niżej przedstawiono listę deskryptorów grafowych obliczanych na podstawie informacji o wszystkich najkrótszych ścieżkach w grafie (macierz odległości między wierzchołkami).

• B-macierze oparte na najkrótszych ścieżkach i obliczane na ich podstawie deskryptory grafowe (Rodział 3.1)

• Wydajność sieci (Efficiency [6])

• Średnica grafu

• Promień grafu [17]

• Indeks Wiener’a (Wiener index [35])

• Średnia długość najkrótszej ścieżki

• Vertex distance [17]

• Ekscentryczność wierzchołka (Vertex eccentricity)

• Bliskość wierzchołka (Vertex closeness)

Jak ostatnio zostało wykazane w pracy [8], macierz odległości dla grafu może zostać efek- tywnie obliczona na procesorze graficznym za pomocą rekurencyjnego algorytmu Kleene’a.

W ten sposób, wykorzystując jeden szybki algorytm, możemy zwiększyć rozmiar grafów analizowanych interaktywnie (za pomocą B-macierzy i innych deskryptorów z powyższej listy) o dwa rzędy wielkości [18].

Rekurencyjny algorytm Kleene’a (patrz Algorytm 1) wykorzystuje równoległą bloko- wą wersję szybkich algorytmów mnożenia macierzy w algebrze {min, +}. Algorytm ten działa w miejscu przechowując całą macierz odległości w pamięci GPU, dlatego przy do- stępnej pamięci o rozmiarze 6GB (NVidia Tesla C2070) można z jego pomocą wyznaczyć wszystkie najkrótsze ścieżki w grafie o maksymalnej liczbie wierzchołków 56281. W pracy doktorskiej przedstawiono szczegóły implementacyjne i ulepszenia algorytmu Kleene’a pozwalające uzyskać znaczne przyspieszenie w porównaniu z wersjami sekwencyjnymi.

Zaprezentowane zostały czasy obliczania najkrótszych ścieżek dla zbioru grafów o rozmiarze od 100 do 5600, przedstawiających kolejne fazy rozwoju sieci naczyń krwionośnych w obecności nowotworu (symulacja). Przykładowe wyniki, otrzymane dla procesorów graficznych Nvidia Tesla C2070, GeForce GTX 260 oraz CPU i7-950 przedstawione są na Rysunku 12. Algorytm wykonywany na procesorze graficznym jest szybszy o dwa rzędy wielkości. W części eksperymentalnej zaprezentowano również obliczenia deskryptorów i B-macierzy dla grafów z bazy danych Stanford Large Network Dataset Collection oraz kilku grafów syntetycznych o znacznym rozmiarze (najmniejszy graf 28900 wierzchołków, a największy 36863).

(17)

Algorithm 1 RKleene

Require: X {macierz zainicjowana wagami krawędzi}

Ensure: X {wyjście - macierz odległości}

1: {wykorzystany półpierścień tropical (R⁺, min, +, ∞, 0)}

2: {mnożenia wykonywane w miejscu}

3: X =

"

A B

C D

#

; {podziel macierz na bloki}

4: {wierzchołki w dwóch rozłącznych zbiorach S₁ oraz S₂}

5: RKleene(A);

6: B=A ⊗ B;

7: C=C ⊗ A;

8: D=D ⊕ C ⊗ B;

9: RKleene(D);

10: B=B ⊗ D;

11: C=D ⊗ C;

12: A=A ⊕ B ⊗ C;

0.0001 0.001 0.01 0.1 1 10 100 1000 10000 100000

0 1000 2000 3000 4000 5000 6000

Computation time [s]

Graph size

’cpu-i7-950’

’cpu-i7-950-8’

’gpu-gtx’

’gpu-tesla’

Rysunek 12: Porównanie czasów obliczeń macierzy odległości dla grafów będących rezultatem symulacji angiogenezy [30] i różnych implementacji algorytmu. Niebieska i fioletowa seria danych odpowiada rekursywnemu algorytmowi Kleene’a zaimplementowanemu w środowisku CUDA i wykonanemu na procesorach graficznych GeForce GTX 260 i odpowiednio Tesla C2070. Czerwona linia - sekwencyjna implementacja algorytmu R-Kleene wykonana na jednym rdzeniu (i7-950). Zielona linia pokazuje czas obliczeń sekwencyj- nych podzielony przez 8 - imitacja równoległej implementacji wykorzystującej wszystkie 4 rdzenie procesora i7-950 z hyper threadingiem.

4 Podsumowanie i wnioski

Praca doktorska podejmuje problem porównywania grafów i jego zastosowania w ilościo- wej analizie danych strukturalnych pochodzących z obszarów rozpoznawania wzorców i

(18)

sieci złożonych. Wynikiem przeprowadzonych badań jest nowa metoda bezpośredniego osadzania grafów oparta na niezmiennikach grafów k-odległości, w tym w szczególności na niezmiennikach grafu zwanych B-macierzami. Przydatność tego typu deskryptorów w zadaniach rozpoznawania wzorców została wykazana w części eksperymentalnej rozprawy, w której wykorzystano dane syntetyczne i rzeczywiste, w tym benchmarkowe bazy danych.

W ramach prac nad projektem doktorskim stworzono również aplikację do porównywania grup grafów. Możliwości programu zostały znacząco zwiększone po wykorzystaniu rów- noległej implementacji algorytmu obliczającego długości wszystkich najkrótszych ścieżek, wykonywanego na procesorze graficznym.

Tezy rozprawy zostały podjęte i udowodnione w trzech rozdziałach drugiej części pracy doktorskiej. Deskryptory oparte na B-macierzach porównano m.in. z aktualnie stosowany- mi deskryptorami spektralnymi, dla których wcześniej wykazana została wysoka skutecz- ność w rozpoznawaniu wzorców strukturalnych [37]. Zaproponowana przez nas metoda generacji cech nie tylko daje lepsze rezultaty w zadaniach typu klasyfikacja i klasteryzacja, lecz również jest mniej kosztowna obliczeniowo, szczególnie dla grafów rzadkich, częściej występujących w rzeczywistych zastosowaniach.

(19)

Bibliografia

[1] http://nd.edu/ networks/resources.htm.

[2] http://www.greyc.ensicaen.fr/iapr-tc15/.

[3] T. Arodz. Clustering organisms using metabolic networks. In Proceedings of the 8th international conference on Computational Science, Part II, ICCS ’08, pages 527–

534, Berlin, Heidelberg, 2008. Springer-Verlag.

[4] JP Bagrow, EM Bollt, and JD Skufca. Portraits of complex networks. EPL (Euro- physics Letters), 81:68004, 2008.

[5] J.W. Baish and R.K. Jain. Fractals and cancer. Cancer research, 60(14):3683, 2000.

[6] S. Boccaletti, V. Latora, Y. Moreno, M. Chavez, and D.U. Hwang. Complex networks:

Structure and dynamics. Physics Reports, 424(4-5):175–308, 2006.

[7] A.E. Brouwer, A.M. Cohen, and A. Neumaier. Distance-regular graphs, volume 24.

Springer-Verlag Berlin, 1989.

[8] A. Buluç, J.R. Gilbert, and C. Budak. Solving path problems on the gpu. Parallel Computing, 36(5-6):241–253, 2010.

[9] D. Conte, P. Foggia, C. Sansone, and M. Vento. Thirty years of graph matching in pattern recognition. International Journal of Pattern Recognition and Artificial Intelligence, 18(3):265–298, 2004.

[10] L.F. Costa, F.A. Rodrigues, G. Travieso, and P.R.V. Boas. Characterization of com- plex networks: A survey of measurements. Advances in Physics, 56(1):167–242, 2007.

[11] W. Czech. Application of algebraic graph descriptors for clustering of real-world structures. In Photonics applications in astronomy, communications, industry, and high-energy physics experiments VII, volume 6937 of Proceedings of SPIE, 2007.

[12] W. Czech. Clustering of real-world data using multiple-graph representation and centrality measures. In Leszek Rutkowski, Ryszard Tadeusiewicz, Lotfi A. Zadeh, and Jacek Zurada, editors, Computational Intelligence: methods and applications, Proceedings of 9th Conference on Artificial Intelligence and Soft Computing, 2008.

[13] W. Czech. Determining graph isomorphism with topological descriptors. Software engineering - theory and applications. Transport and Communication Publishers, 2008. (in Polish).

(20)

[14] W. Czech. The methods for graph isomorphism testing. Zeszyty Studenckiego Towa- rzystwa Naukowego, (14), 2008. (in Polish).

[15] W. Czech. Methods for graph feature extraction in satellite photo recognition. Pro- ceedings of Electrotechnical Institute, (243), 2009. (in Polish).

[16] W. Czech. Graph descriptors from b-matrix representation. In Graph-Based Re- presentations in Pattern Recognition, Proceedings of GbRPR 2011, volume 6658 of LNCS, pages 12–21. Springer, 2011.

[17] W. Czech, S. Goryczka, T. Arodz, W. Dzwinel, and A. Dudek. Exploring complex networks with graph investigator research application. Computing and Informatics, 30(2), 2011.

[18] W. Czech and D. A. Yuen. Efficient graph comparison and visualization using gpu.

Proceedings of the 14th IEEE International Conference on Computational Science and Engineering (CSE 2011), pages 561–566, 2011.

[19] Y. Gazit, D.A. Berk, M. Leunig, L.T. Baxter, and R.K. Jain. Scale-invariant behavior and vascular network formation in normal and tumor tissue. Physical review letters, 75(12):2428–2431, 1995.

[20] C. Harris and M. Stephens. A combined corner and edge detector. In Alvey vision conference, volume 15, page 50. Manchester, UK, 1988.

[21] F. Képès. Biological networks. World Scientific Pub Co Inc, 2007.

[22] B. Luo, R.C. Wilson, and E.R. Hancock. Spectral embedding of graphs. Pattern Recognition, 36(10):2213–2230, 2003.

[23] R. Marfil, F. Escolano, and A. Bandera. Graph-based representations in pattern recognition and computational intelligence. In Proceedings of the 10th International Work-Conference on Artificial Neural Networks: Part I: Bio-Inspired Systems: Com- putational and Ambient Intelligence, IWANN ’09, pages 399–406, Berlin, Heidelberg, 2009. Springer-Verlag.

[24] D.M. McDonald and P. Baluk. Imaging of angiogenesis in inflamed airways and tumors: Newly formed blood vessels are not alike and may be wildly abnormal. Chest, 128(6 suppl):602S, 2005.

[25] H.J. Qiu and E.R. Hancock. Clustering and embedding using commute times. IEEE Transactions on Pattern Analysis and Machine Intelligence, 29(11):1873–1890, 2007.

[26] P. Ren, R.C. Wilson, and E.R. Hancock. Graph characterization via ihara coefficients.

Neural Networks, IEEE Transactions on, 22(2):233–245, 2011.

[27] K. Riesen and H. Bunke. Iam graph database repository for graph based pattern recognition and machine learning. Structural, Syntactic, and Statistical Pattern Re- cognition, pages 287–297, 2008.

[28] K. Riesen and H. Bunke. Approximate graph edit distance computation by means of bipartite graph matching. Image and Vision Computing, 27(7):950–959, 2009.

(21)

[29] A. Sanfeliu and Fu King-Sun. A distance measure between attributed relational graphs for pattern recognition. IEEE transactions on systems, man, and cybernetics, 13(3):353–362, 1983.

[30] P. Topa. Dynamically reorganising vascular networks modelled using cellular auto- mata approach. Cellular Automata, pages 494–499, 2010.

[31] H. Wang, S. Chen, Z. Hu, and W. Zheng. Locality-preserved maximum information projection. Neural Networks, IEEE Transactions on, 19(4):571–585, 2008.

[32] R. Wcisło, W. Dzwinel, P. Gosztyla, D. A. Yuen, and W. Czech. Interactive visualization tool for planning cancer treatment. University of Minnesota Supercomputing Institute Research Report UMSI 2011/7, CB number 2011-4, January 2011.

[33] R. Wcisło, W. Dzwinel, D.A. Yuen, and A.Z. Dudek. A 3-d model of tumor progres- sion based on complex automata driven by particle dynamics. Journal of Molecular Modeling, 15(12):1517–1539, 2009.

[34] M. Welter and H. Rieger. Physical determinants of vascular network remodeling during tumor growth. Eur. Phys. J. E, 33:149–163, 2010.

[35] H. Wiener. Structural determination of paraffin boiling points. Journal of the Ame- rican Chemical Society, 69(1):17–20, 1947.

[36] R.C. Wilson, E.R. Hancock, and B. Luo. Pattern vectors from algebraic graph theory.

IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(7):1112–1124, 2005.

[37] B. Xiao, E.R. Hancock, and R.C. Wilson. Graph characteristics from the heat kernel trace. Pattern Recognition, 42(11):2589–2606, 2009.

[38] M.A. Yildirim, K.I. Goh, M.E. Cusick, A.L. Barabási, and M. Vidal. Drug-target network. Nature biotechnology, 25(10):1119, 2007.