Grafy etykietowalne i sieci Petriego w analizie procesów biochemicznych i biologicznych

(1)

POLITECHNIKA POZNAŃSKA

Wydział Informatyki Instytut Informatyki

Grafy etykietowalne i sieci Petriego w analizie procesów biochemicznych i

biologicznych

Adam Kozak

Rozprawa doktorska Promotor:

dr hab. inż. Piotr Formanowicz, prof. PP

Poznań 2014

(2)

Serdecznie dziękuję

dr. hab. inż. Piotrowi Formanowiczowi, prof. PP

za nadzór nad prowadzonymi badaniami, wskazówki w trakcie ich realizacji, wyrozumiałość oraz poświęcony czas,

a także dr n. med. Dorocie Formanowicz, za nadzór i wkład w biologiczne aspekty poruszane w rozprawie.

i

(3)

Spis treści

Spis Rysunków

iv

Spis Tabel

vi

1 Wstęp

1 1.1 Wprowadzenie . . . . 1

1.2 Cel i zakres pracy . . . . 3

2 Podstawowe zagadnienia biologii molekularnej i obliczeniowej

5 2.1 Wprowadzenie . . . . 5

2.2 Budowa kwasu DNA . . . . 5

2.3 Sekwencjonowanie DNA . . . . 6

2.4 Sekwencjonowanie przez hybrydyzację . . . . 7

2.5 Komputery DNA . . . . 8

2.6 Podsumowanie . . . 11

3 Podstawowe zagadnienia teorii grafów i informatyki teoretycznej

14 3.1 Wprowadzenie . . . 14

3.2 Podstawowe pojęcia teorii grafów . . . 14

3.3 Grafy etykietowalne . . . 16

3.4 Grafy i sekwencje de Bruijna . . . 19

3.5 Wprowadzenie do zagadnień teorii złożoności obliczeniowej . . . 21

4 Grafy bazowo-etykietowalne i leksykalne

25 4.1 Wprowadzenie . . . 25

4.2 Definicje i podstawowe własności . . . 25

4.3 Relacje grafów bazowo etykietowalnych i leksykalnych z grafami etykieto- walnymi i grafami de Bruijna . . . 33

4.4 Problemy kombinatoryczne . . . 41

5 Algorytm budowy bibliotek oligonukleotydów oparty na grafach leksy- kalnych

44 5.1 Wprowadzenie i motywacja . . . 44

5.2 Model i reprezentacja problemu . . . 45

5.3 Opis algorytmu . . . 49

5.3.1 Algorytm budowy łańcucha wewnętrznie antykomplementarnego . 50 5.3.2 Wyprowadzenie zależności dla parametrów algorytmu . . . 50

ii

(4)

Spis Treści iii

5.3.3 Algorytm usuwania relacji komplementarności między łukami w

grafie leksykalnym . . . 66

5.3.4 Złożoność obliczeniowa . . . 69

5.4 Optymalizacja . . . 70

5.4.1 Konstrukcja tablic decyzyjnych . . . 70

5.4.2 Generowanie rozwiązania . . . 71

5.5 Podsumowanie, implementacja i przykłady . . . 71

6 Sieci Petriego

81 6.1 Wprowadzenie . . . 81

6.2 Podstawowe definicje . . . 82

6.3 Reprezentacja . . . 84

6.4 Analiza sieci . . . 87

6.4.1 Analiza strukturalna . . . 87

6.4.2 Analiza behawioralna . . . 95

7 Modelowanie i analiza regulacji hepcydyny za pomocą sieci Petriego

98 7.1 Wprowadzenie . . . 98

7.2 Sieci Petriego w analizie metabolizmu żelaza w organizmie ludzkim . . . . 98

7.3 Opis procesów biologicznych i biochemicznych . . . 101

7.4 Model oparty na sieci Petriego . . . 103

7.5 Analiza strukturalna modelu . . . 106

7.6 Wnioski . . . 114

8 Modelowanie i analiza stresu oksydacyjnego w procesie rozwoju miaż- dżycy za pomocą sieci Petriego

119 8.1 Wprowadzenie . . . 119

8.2 Opis procesów biologicznych i biochemicznych . . . 120

8.3 Model oparty na sieci Petriego . . . 122

8.4 Analiza i porównanie . . . 126

8.4.1 Analiza i wnioski dla sieci częściowo ważonej . . . 127

8.4.2 Analiza porównawcza sieci zwykłej . . . 131

9 Podsumowanie

135

A Ilustracje kastrów w sieci z rozdziału 7

140

B Tabele t-niezmienników

152 B.1 Tabele t-niezmienników dla sieci z rozdziału 7 . . . 152

B.2 Tabele t-niezmienników dla sieci z rozdziału 8 . . . 162

Bibliografia

191

(5)

Spis rysunków

2.1 Nukleotydy . . . 12

2.2 Metoda Sangera . . . 13

2.3 Reprezentacja danych w eksperymencie Adlemana . . . 13

3.1 Przykłady grafów i sekwencji de Bruijna . . . 21

4.1 Zestawienie własności fragmentów funkcjonalnych etykiet wierzchołków dla grafów dowolnie bazowo etykietowalnych dla poszczególnych zakresów odległości baz ω . . . 28

4.2 Przykładowy graf leksykalny L(2, 3, 2) oraz jego graf odwrotnie sprzężony 28 4.3 Przykładowy graf leksykalny L(4, 3, 2) . . . 29

4.4 Graf L(2, 3, 2) na którym zaznaczono przebieg obwodu Eulera . . . 30

4.5 Przykład zależności pomiędzy liczbą łuków równoległych w multigrafie, oraz liczbą wierzchołków równoważnych i wierzchołków słabo równoważ- nych w jego grafie sprzężonym . . . 32

4.6 Diagram relacji pomiędzy klasami grafów etykietowalnych, grafami linio- wymi oraz sprzężonymi . . . 35

4.7 Izomorficzne grafy L(2, 4, 2) oraz B(4, 2) . . . 38

4.8 Graf L(2, 5, 2) . . . 39

4.9 Konstrukcja cyklu Hamiltona . . . 41

4.10 Ilustracja transformacji wielomianowej problemu kliki do problemu pod- grafu leksykalnego . . . 43

5.1 Grafy L(4, 2, 1) i L

^6∼

(4, 2, 1) . . . 73

5.2 Grafy L

^6∼

(4, 2, 1) i L

^6∼

(4, 4, 3) . . . 74

5.3 Niespójny podgraf grafu L(4, 2, 1) po usunięciu połowy łuków . . . 75

5.4 Spójny i niespójny graf L

^6∼

(4, 2, 1) . . . 76

5.5 Porównanie grafów L

^6∼

(4, 3, 2) . . . 77

5.6 Graf L

^6∼

(4, 4, 1) . . . 78

5.7 Graf L(4, 3, 1) po eliminacji relacji komplementarności . . . 79

5.8 Graf L(4, 3, 1) po częściowej eliminacji relacji komplementarności . . . 80

6.1 Przykład modelu syntezy wody . . . 81

6.2 Modele warunków logicznych sieci Petriego . . . 84

6.3 Przykładowy model automatu . . . 85

6.4 Przykład dla reprezentacji macierzowej i analizy strukturalnej . . . 85

6.5 Przykład wpływu szczegółowości modelu na klastry . . . 93

7.1 Sieć Petriego modelująca regulację hepcydyny . . . 117

iv

(6)

Lista Rysunków v

7.2 Dendrogram dla klastrów opisanych szczegółowo w tabelach B.1, 7.4, 7.5 . 118 8.1 Sieć Petriego modelująca stres oksydacyjny wraz zaznaczonymi zbiorami

MCT . . . 125

8.2 Dendrogram dla klastrów opisanych szczegółowo w tabelach B.2, 8.4, 8.5 . 130 8.3 Dendrogram dla klastrów (zbioru X

^o\X^q

) opisanych szczegółowo w tabe- lach B.5, 8.7 . . . 134

A.1 Klaster c

₁

. . . . 141

A.2 Klaster c

₂c₃

. . . . 141

A.3 Klaster c

₄

. . . . 142

A.4 Klaster c

₅

. . . . 142

A.5 Klaster c

₆

. . . . 143

A.6 Klaster c

₇

. . . . 143

A.7 Klaster c

₈

. . . . 144

A.8 Klaster c

₉

. . . . 144

A.9 Klaster c

₁₀

. . . . 145

A.10 Klaster c

₁₁

. . . . 145

A.11 Klaster c

₁₂

. . . . 146

A.12 Klaster c

₁₃

. . . . 146

A.13 Klaster c

_14a

. . . . 147

A.14 Klaster c

_14b

. . . . 147

A.15 Klaster c

₁₅

. . . . 148

A.16 Klaster c

₁₆

. . . . 148

A.17 Klaster c

₁₇

. . . . 149

A.18 Klaster c

₁₈

. . . . 149

A.19 Klaster c

₁₉

. . . . 150

A.20 Klaster c

₂₀

. . . . 150

A.21 Klaster c

₂₁

. . . . 151

(7)

Spis tablic

5.1 Minimalne wartości długości łańcucha dla których można wybrać wartość

swobody łuków dla alfabetu DNA . . . 53

5.2 Zestawienie wartości j = f (p, α, σ) . . . 54

5.3 Zestawienie własności okien kontrolnych dla słowa z oknem antykomple- mentarnym z przesunięciem 2 . . . 55

5.4 Zestawienie własności okien kontrolnych dla różnych grafów . . . 56

6.1 Macierz sąsiedztwa sieci Petriego z rysunku 6.4. . . . 86

7.1 Lista miejsc modelu sieci . . . 103

7.2 Lista tranzycji sieci modelującej regulację hepcydyny . . . 104

7.3 Lista zbiorów MCT . . . 109

7.4 Lista własności klastrów z uwzględnieniem zmian linii odcięcia . . . 110

7.5 Lista klastrów z opisem biologicznym . . . 112

8.1 Lista miejsc sieci Petriego modelującej stres oksydacyjny . . . 122

8.2 Lista tranzycji sieci Petriego modelującej stres oksydacyjny . . . 123

8.3 Lista zbiorów MCT. . . . 126

8.4 Cechy klastrów zbioru X

^q

. . . . 127

8.5 Znaczenia biologiczne klastrów dla zbioru X

^q

. . . . 127

8.6 Zestawienie klastrów z Tabeli B.2 z odpowiadającymi im przedziałami t-niezmienników w tabelach B.3 i B.4. . . . 131

8.7 Cechy klastrów zbioru X

^o\X^q

. . . . 132

B.1 Lista t-niezmienników i klastrów sieci modelującej regulację hepcydyny. . 152

B.2 Lista t-niezmienników i klastrów w sieci częściowo ważonej (zbiór X

^q

). . . 162

B.3 Lista t-niezmienników wspólnych dla sieci częściowo ważonej i zwykłej (X

^q∩ X^o

) oraz mapowania na klastry X

^q

. . . 172

B.4 Lista t-niezmienników występujących tylko w sieci częściowo ważonej (X

^q\X^o

) oraz mapowania na klastry X

^q

. . . 176

B.5 Lista t-niezmienników i klastrów występujacych tylko w sieci zwykłej (X

^o\X^q

) . . . 184

vi

(8)

Rozdział 1

Wstęp

1.1 Wprowadzenie

Metody badawcze stosowane w wielu dziedzinach nauki opierają się na teoretycznych mo- delach badanych obiektów. Uproszczone modele nieformalne, np. modele koncepcyjne, mogą służyć lepszemu zrozumieniu natury badanych obiektów. Jednak dopiero modele, które pozwalają na formułowanie nowych hipotez lub wniosków są szczególnie warto- ściowe z naukowego punktu widzenia. Modele formalne są podstawą wszystkich ścisłych rozumowań oraz ułatwiają automatyzację analizy modelowanego systemu.

W niniejszej pracy będą rozważane wybrane formalne modele zagadnień związanych bioinformatyką, które oparte są na teorii grafów. Bioinformatyka jest dziedziną interdy- scyplinarną, która przeżywa w ostatnich latach gwałtowny rozwój wraz z biologią mo- lekularną oraz informatyką. Teoria grafów jest natomiast matematycznym narzędziem używanym szeroko w informatyce w algorytmach oraz do modelowania relacji między obiektami.

Zagadnienia poruszane w tej pracy można podzielić na dwa odrębne obszary badawcze, oparte na różnych aspektach teorii grafów.

Pierwszy obszar dotyczy analizy własności i zastosowań zdefiniowanych przez autora klas grafów bazowo-etykietowalnych i grafów leksykalnych [54]. Przedstawione są defi- nicje oraz szereg twierdzeń wraz z dowodami, które obrazują relacje tych klas z innymi klasami grafów i w niektórych przypadkach stanowią uogólnienia istniejących twierdzeń.

Grafy leksykalne, które są nadklasą grafów de Bruijna [19] zostały ponadto wykorzystane do modelowania struktury danych dla sformułowanego algorytmu budowy bibliotek oli- gonukleotydów antykomplementarnych.

Drugi obszar dotyczy modelowania i analizy procesów biologicznych i biochemicznych za pomocą sieci Petriego, które mogą służyć do przedstawiania relacji miedzy równolegle zachodzącymi procesami i określenia warunków zmiany stanów. Reakcje chemiczne są najprostszym przykładem procesów, które można modelować za pomocą sieci Petriego, w których obiektami wymaganymi są substraty a obiektami wynikowymi produkty reakcji.

Siecie Petriego mogą być wykorzystane do modelowania procesów w różnych dziedzinach – za ich pomocą mogą być modelowane np. procesy biznesowe [94]. Sieci Petriego są jednocześnie intuicyjne dla człowieka (mogą być przedstawione graficznie) oraz łatwe do analizy matematycznej.

Rozważane w niniejszej rozprawie zagadnienia biologiczne i biochemiczne dotyczą mechanizmów regulacji homeostazy żelaza w organizmie człowieka na osi regulacyjnej hepcydyna-hemojuwelina (rozdział 7) oraz stresu oksydacyjnego w procesie powstawa- nia i rozwoju miażdżycy (rozdział 8). Prace nad oboma zagadnieniami są inspirowane potrzebą lepszego zrozumienia istotnych procesów zachodzących w organizmie ludzkim.

1

(9)

Wstęp 2

Utrzymanie homeostazy żelaza jest jednym z kluczowych mechanizmów regulacyjnych człowieka z uwagi na fundamentalne znaczenie żelaza np. w dostarczaniu tlenu do oddy- chania komórkowego. Zarówno niedobór żelaza jak i jego nadmiar prowadzi do ciężkich chorób. W przypadku niedoboru żelaza występuje anemia, natomiast nadmiar prowadzi do hemochromatozy. Mechanizmy regulacji żelaza uwzględniają ponadto inne czynniki niezależne od poziomu żelaza, np. procesy zapalne lub wystąpienie hipoksji.

Miażdżyca jest natomiast powszechną chorobą naczyń, która często prowadzi do śmierci wskutek zawału spowodowanego zamknięciem światła naczynia przez narasta- jącą blaszkę miażdżycową lub przez jej pęknięcie. Proces rozwoju miażdżycy jest skom- plikowany i zależy od wielu czynników regulacyjnych, wśród których stres oksydacyjny odgrywa kluczową rolę.

W niniejszej pracy przeanalizowano modele wyżej opisanych procesów za pomocą me- tod analizy strukturalnej. Zaprezentowane są modele jakościowe, przy czym sieć doty- cząca stresu oksydacyjnego w procesie rozwoju miażdżycy zawiera częściowe informacje ilościowe w postaci wag na łukach.

Analiza strukturalna pozwala na badanie własności niezależnych od danych ilościo- wych, np. identyfikowanie grup podprocesów i relacji między nimi. Analiza ilościowa pozwala na badanie zależności ilościowych m. in. w procesie symulacji. Symulacja taka, podobnie jak symulacja każdego złożonego układu dynamicznego może być wrażliwa na wartości stanu początkowego oraz dokładność i kompletność danych opisujących zależno- ści ilościowe. Z uwagi na brak dostępności takich danych w literaturze dla modelowanych systemów, ograniczono się do analizy strukturalnej. Wprowadzono jednak częściowe in- formacje ilościowe (w postaci wag na łukach) do sieci modelującej stres oksydacyjny w procesie miażdżycy i wykonano analizę wpływu takiej informacji na analizę strukturalną.

Rozprawa podzielona jest na następujące rozdziały:

– Rozdział 1 – zawiera wprowadzenie do tematyki rozprawy oraz uzasadnienie pod- jęcia badań i ich znaczenia.

– Rozdział 2 – zawiera wprowadzenie do podstawowych zagadnień biologii moleku- larnej i obliczeniowej, które będą przydatne w dalszych częściach pracy; w szcze- gólności opis komputerów DNA i sekwencjonowania DNA.

– Rozdział 3 – zawiera opis podstawowych pojęć z zakresu teorii grafów i informatyki teoretycznej, w szczególności przedstawiono w nim grafy etykietowalne opisane w pracy [7] oraz sekwencje de Bruijna.

– Rozdział 4 – zawiera definicje oraz analizę własności grafów bazowo- etykietowalnych oraz grafów leksykalnych, które zostały opisane przez autora także w publikacji [54].

– Rozdział 5 – zawiera opis problemu budowy bibliotek oligonukleotydów oraz algo- rytm rozwiązujący ten problem oparty na grafach leksykalnych.

– Rozdział 6 – zawiera opis formalny sieci Petriego oraz metod analizy.

– Rozdział 7 – zawiera przegląd dotychczasowych prac związanych z modelowaniem metabolizmu żelaza za pomocą sieci Petriego, opis biologicznych zagadnień zwią- zanych z regulacją hepcydyny oraz opis i analizę ich modelu sieci Petriego.

– Rozdział 8 – zawiera opis biologicznych zagadnień związanych ze stresem oksyda-

cyjnym w procesie miażdżycy oraz opis i analizę modelu sieci Petriego; przepro-

wadzono także analizę porównawczą wpływu częściowej informacji ilościowej na

wyniki analizy strukturalnej.

(10)

Wstęp 3

– Rozdział 9 – zawiera podsumowanie rozprawy, w szczególności charakterystykę poruszonych w pracy zagadnień w kontekście zastosowań w analizie procesów bio- chemicznych i biologicznych oraz wnioski i potencjalne kierunki badawcze.

1.2 Cel i zakres pracy

Zgodnie z powyższym wprowadzeniem, rozprawa dzieli się na dwa główne kierunki ba- dawcze oparte na teorii grafów.

Pierwszy kierunek badawczy dotyczy grafów bazowo-etykietowalnych oraz grafów lek- sykalnych i ich zastosowania w problemie budowy bibliotek oligonukleotydów. Grafy bazowo-etykietowalne są uogólnieniem grafów etykietowalnych zdefiniowanych w pracy [7]. Motywacją do zdefiniowania grafów etykietowalnych był problem asemblacji łańcu- chów DNA otrzymanych w procesie sekwencjonowania przez hybrydyzację, którego opis biologiczny znajduje się w rozdziale 2.4, a opis formalny znajduje się w rozdziale 3.3.

Grafy bazowo-etykietowalne mogą reprezentować model danych pewnego teoretycz- nego wariantu sekwencjonowania przez hybrydyzację z regularnymi błędami, jednak ana- liza ich własności w niniejszej pracy ma charakter i motywację czysto matematyczną (choć zainspirowaną użyciem grafów leksykalnych w algorytmie budowy bibliotek, który jest opisany w rozdziale 5 – grafy bazowo-etykietowalne są bowiem podgrafami induko- wanymi grafów leksykalnych).

Grafy leksykalne zostały zdefiniowane również na potrzeby tego algorytmu, a analiza ich własności jest szczególnie interesująca z uwagi na fakt, że stanowią one nadklasę grafów de Bruijna, które mają wiele ciekawych własności oraz zastosowań w dziedzinach takich jak biologia obliczeniowa i elektronika [16]. W rozprawie udowodniono, że niektóre własności grafów de Bruijna są także prawdziwe dla grafów leksykalnych.

Problem budowy biblioteki oligonukleotydów opisany w rozdziale 5 dotyczy konstruk- cji takiego zbioru oligonukleotydów o zadanej liczności i długości łańcuchów, którego elementy będą miały możliwie małą tendencję do hybrydyzacji ze sobą nawzajem. Są to zatem biblioteki sztuczne, dla których można sformułować matematyczne kryterium oceny jakości. Biblioteki takie mogą mieć zastosowanie np. do kodowania instancji dla komputerów DNA, które są opisane w rozdziale 2.5.

Drugi kierunek badawczy dotyczy analizy modeli opartych na sieciach Petriego dla wybranych procesów zachodzących w organizmie ludzkim – związanych z regulacją hep- cydyny (która jest głównym regulatorem homeostazy żelaza w organizmie ludzkim) oraz ze stresem oksydacyjnym w procesie rozwoju miażdżycy. Modele te zostały skonstru- owane na podstawie wiedzy eksperckiej oraz dostępnej literatury przez dr n. med. Do- rotę Formanowicz. Model związany z regulacją hepcydyny został opublikowany wraz z analizą w pracy [26]. Pierwsza wersja sieci modelującej stres oksydacyjny w proce- sie miażdżycy została opublikowana w pracy [25]. W ramach tych prac autor rozprawy zajmował się analizą strukturalną sieci i jej opisem.

W niniejszej rozprawie autor proponuje pewne modyfikacje struktury sieci w porówna- niu do pracy [26] (opisane w rozdziale 7.4), które wymagały przeprowadzenia ponownej analizy. Głównym obszarem badawczym w zakresie tego modelu była analiza własno- ści strukturalnych oraz formułowanie na podstawie tej analizy wniosków biologicznych.

Istotne znaczenie procesów regulacyjnych hepcydyny wynika z ważnej dla organizmu roli

homeostazy żelaza, dla której hepcydyna jest głównym regulatorem. Analiza modelu for-

malnego może bowiem prowadzić do nietrywialnych wniosków biologicznych, które mogą

się przyczynić do lepszego zrozumienia relacji między różnymi czynnikami wpływającymi

na zachowanie analizowanego systemu biologicznego. Utrzymanie homeostazy żelaza jest

(11)

Wstęp 4

kluczowe dla organizmu człowieka, gdyż uczestniczy ono w procesach enzymatycznych metabolizmu tlenowego i jest składnikiem hemoglobiny i mioglobiny.

W przypadku sieci modelującej stres oksydacyjny w procesie rozwoju miażdżycy wy- konano analizę podobną jak dla sieci hepcydynowej. Model sieci został rozszerzony w porównaniu do pracy [25] oraz uzupełniony o częściowe informacje ilościowe. W tym przypadku dodatkowym celem była ocena wpływu częściowej informacji ilościowej na wyniki analizy strukturalnej.

Zakres analizy strukturalnej dotyczy w głównej mierze zbiorów niezmienników tran- zycji (t-niezmienników), zbiorów MCT (Maximum Common Transition set), a także klastrów jakie tworzą zbiory t-niezmienników. Przedstawiono interpretacje biologiczne zbiorów MCT oraz klastrów i ich znaczenie oraz zaprezentowano wnioski biologiczne wyciągnięte na podstawie zauważonych cech klastrów.

Dla podsumowania poniżej wypunktowano opisane cele i zakres pracy.

1. Zdefiniowanie nowych klas grafów bazowo-etykietowalnych i leksykalnych (będą- cych uogólnieniem grafów etykietowalnych i grafów de Bruijna) oraz zdefiniowanie sekwencji leksykalnych (będących uogólnieniem sekwencji de Bruijna).

2. Przeanalizowanie własności matematycznych grafów bazowo-etykietowalnych i lek- sykalnych.

3. Zaprojektowanie algorytmu budowy bibliotek oligonukleotydów antykomplemen- tarnych opartego na zdefiniowanych grafach leksykalnych.

4. Przeprowadzenie analizy parametrów i wyników algorytmu budowy bibliotek oli- gonukleotydów antykomplementarnych.

5. Wykonanie analizy sieci Petriego modelującej oś regulacyjną hepcydyna- hemojuwelina oraz postawienie wniosków biologicznych.

6. Wykonanie analizy sieci Petriego modelującej stres oksydacyjny w procesie rozwoju miażdżycy oraz postawienie wniosków biologicznych.

7. Wykonanie analizy wpływu częściowej informacji ilościowej w sieci modelującej

stres oksydacyjny w procesie rozwoju miażdżycy na wyniki i wnioski płynące z

analizy strukturalnej.

(12)

Rozdział 2

Podstawowe zagadnienia biologii molekularnej i obliczeniowej

2.1 Wprowadzenie

W niniejszym rozdziale zostaną przedstawione wybrane zagadnienia z zakresu biologii molekularnej. Na potrzeby rozdziału wybrano tematy istotne dla zrozumienia istoty pro- blemów omawianych w dalszej części tej rozprawy. W pierwszym podrozdziale zostanie omówiona budowa kwasów DNA. W kolejnym podrozdziałach zostaną omówione metody ustalania sekwencji DNA, czyli tzw. sekwencjonowanie. Ostatni podrozdział przedsta- wia ideę komputerów DNA, które stanowią model obliczeń dokonywanych za pomocą cząsteczek DNA i stanowiących inspirację dla problemu omawianego w rozdziale 5.

2.2 Budowa kwasu DNA

DNA (kwas deoksyrybonukleinowy) to wielocząsteczkowy organiczny związek chemiczny (tzw. polimer), którego podstawowym elementem budującym jest nukleotyd (tzw. mo- nomer) [89, 96]. Nukleotyd składa się z jednej cząsteczki cukru prostego (ogólnie pentozy – w przypadku DNA jest to deoksyryboza), jednej cząsteczki reszty kwasu fosforowego oraz jednej cząsteczki zasady azotowej. W skład DNA wchodzą cztery rodzaje zasad azotowych: adenina, guanina, tyrozyna lub cytozyna (Rysunek 2.1 (a)).

Nukleotydy, w zależności od zasady azotowej którą zawierają, oznaczane są często poprzez pierwszą literę tej zasady i tak nukleotyd A zawiera adeninę, G - guaninę, T - tyrozynę, C - cytozynę. Kolejne nukleotydy połączone są ze sobą wiązaniami 3’- 5’ diestrowymi tworząc długie nierozgałęziające się łańcuchy. W tej rozprawie pojęcia cząsteczka DNA, nić DNA oraz łańcuch DNA są używane zamiennie.

Końce nici DNA nie są jednakowe. W DNA wyróżnia się tak zwany koniec 3’ oraz koniec 5’. Oba pojęcia określają skrajne nukleotydy łańcucha DNA. Przez koniec 5’

określa się pierwszy nukleotyd posiadający wolną grupę fosforanową, a przez koniec 3’ ostatni nukleotyd łańcucha posiadający resztę cukrową, gdyż zgodnie z konwencją nukleotydy w cząsteczce wymienia się poczynając od 5’ a kończąc na 3’ (Rysunek 2.1 (c)).

Jak wspomniano, dany łańcuch DNA można opisać podając kolejność nukleotydów w tej cząsteczce, przykładowo ACCG oznacza łańcuch składający się z 4 nukleotydów, zawierających kolejno adeninę, cytozynę, cytozynę i ostatnią guaninę.

Ważnym pojęciem dla przedstawionych w rozprawie rozważań jest komplementar- ność zasad azotowych [89]. Zasady te są do siebie parami komplementarne, co oznacza

5

(13)

Podstawowe zagadnienia biologii molekularnej i obliczeniowej 6

że adenina łączy się podwójnym wiązaniem wodorowym z tyminą, natomiast guanina wiąże się potrójnym wiązaniem wodorowym z cytozyną (Rysunek 2.1 (b)). W Defini- cji 5.1 określono ponadto formalne uogólnienie komplementarności jako symetryczną, przeciwzwrotną relację binarną określoną na alfabecie o parzystej mocy.

DNA najczęściej występuje w postaci tzw. podwójnej helisy - składającej się z dwóch łańcuchów DNA, które owijają się w około wspólnej osi (Rysunek 2.1 (d)).

Jeden z łańcuchów jest ułożony w kierunku 3’-5’ drugi natomiast 5’-3’. Kolejne za- sady azotowe obu tak położonych nici DNA są do siebie komplementarne i połączone podwójnym wiązaniem wodorowym (A-T) lub potrójnym takim wiązaniem (C-G).

Mówimy, że dwie nici DNA są do siebie komplementarne, jeśli ich kolejne zasady są do siebie komplementarne. Przykładowo nić 5’-CGGA-3’ jest komplementarna do nici 3’-GCCT-5’.

2.3 Sekwencjonowanie DNA

Istotnym zagadnieniem biologii molekularnej jest sekwencjonowanie DNA, czyli ustalanie kolejności (sekwencji) nukleotydów w łańcuchu. Istnieje wiele metod sekwencjonowania [86]. Niektóre z nich polegają na przeprowadzeniu eksperymentu biochemicznego, któ- rego wynik jednoznacznie określa sekwencję nukleotydów [84]. Inne metody wymagają zaangażowania metod obliczeniowych, w celu analizy wyników eksperymentu bioche- micznego [106].

Przykładowe metody sekwencjonowania to m. in. metoda Sangera [84], sekwencjo- nowanie przez hybrydyzację (SBH) [106] oraz pyrosekwencjonowanie [65]. W niniejszej rozprawie największy nacisk zostanie położony na omówienie metod sekwencjonowania przez hybrydyzację, gdyż metody te stanowią istotną inspirację do rozważań dotyczących grafów etykietowalnych przedstawionych w rozdziale 4.

Metoda SBH zostanie opisana w podrozdziale 2.4, poniżej zostanie krótko omówiona metoda Sangera, jako jedna z pierwszych metod sekwencjonowana i taka, która nie wy- maga dodatkowego komputerowego przetwarzania wyników. Nazwa tej metody pochodzi od nazwiska jej twórcy – Fredericka Sangera. Metoda ta wykorzystuje syntezę DNA przy wykorzystaniu polimerazy DNA jako katalizatora tej syntezy. Reakcja ta syntezuje łań- cuch DNA, który jest komplementarny do pewnego replikowanego wzorca (tzw. matrycy DNA). W tym wypadku to właśnie sekwencjonowana cząsteczka stanowi wzorzec.

Reakcje syntezy przeprowadza się w czterech różnych próbówkach - każda dla innego typu nukleotydu (kolejno A, C, G, T). W wyniku reakcji w każdej próbówce otrzymuje się podłańcuchy badanej sekwencji o różnej długości, ale zakończone tylko jednym z czerech rodzajów nukleotydów.

Łańcuchy te można następnie rozdzielić za pomocą elektroforezy. Jest to technika analityczna, która rozdziela mieszaninę substancji poprzez wymuszenie poruszania się cząsteczek w polu elektrycznym. Jak wspomniano, krótkie łańcuchy uzyskane w proce- sie syntezy w każdej próbówce zawsze zakończone są jednym tym samym (w zależności która to próbówka) nukleotydem. Dzięki wykorzystaniu tzw. starterów, łańcuchy te od- powiadają fragmentowi zsyntezowanej nici od jej początku do pewnego aminokwasu znanego typu. Bazując na wyniku elektroforezy, można więc określić w którym miejscu w cząsteczce występuje jaki nukleotyd.

Uzyskane w syntezie fragmenty DNA są komplementarne do sekwencjonowanej nici, w

ten sposób można więc uzyskać informacje o kolejności nukleotydów w tej badanej czą-

steczce. Metoda Sangera jest metodą chemiczną i – jak już wspomniano – nie wymaga

wykorzystania metod obliczeniowych do znalezienia rozwiązania. Rysunek 2.2 przedsta-

wia wynik uzyskany przy pomocy tej metody.

(14)

Podstawowe zagadnienia biologii molekularnej i obliczeniowej 7

2.4 Sekwencjonowanie przez hybrydyzację

Kolejną metodą sekwencjonowania jest tzw. sekwencjonowanie przez hybrydyzację (SBH - ang. Sequencing By Hybridization). W metodzie tej wykorzystuje się komplementar- ność nici. W metodzie tej przygotowuje się tzw. chipy DNA (lub macierze DNA). Są to płytki, na których w pewnych wydzielonych obszarach (sondach), znajdują się okre- ślone sekwencje DNA o długości kilkunastu do kilkuset nukleotydów (oligonukleotydy).

W podejściu klasycznym dana sonda zawiera tylko jeden typ oligonukleotydów. W tym podejściu chip zawiera wszystkie możliwe fragmenty DNA o pewnej długości l [45].

Przykładowo, jeśli chip zawiera wszystkie oligonukleotydy o długości l = 10, to na po- wierzchni chipu znajduje się 4

¹⁰

sond.

Część biochemiczna metody SBH polega na namnożeniu sekwencjonowanej nici DNA, a następnie taką próbkę DNA oznacza się znacznikami fluorescencyjnymi i przeprowadza hybrydyzację z macierzą DNA. Jeśli sekwencjonowana nić zawiera pewien fragment DNA znajdujący się w danej sondzie, to nastąpi hybrydyzacja tych dwóch nici. Następnie następuje odczyt macierzy za pomocą mikroskopu lub lasera, dzięki fluorescencji możliwe jest stwierdzenie na której sondzie nastąpiła hybrydyzacja.

Fakt wystąpienia hybrydyzacji oznacza, że w sekwencjonowanej cząsteczce znajduje się fragment komplementarny do tego, który znajduje się w hybrydyzującej sondzie.

Jako wynik eksperymentu otrzymuje się informacje, które fragmenty znajdujące się w macierzy DNA występują w sekwencjonowanej cząsteczce.

Zbiór wszystkich takich fragmentów uzyskanych z eksperymentu nazywany jest spek- trum. Analiza danych z eksperymentu SBH wymaga zaangażowania metod obliczenio- wych.

W literaturze rozważa się różne warianty problemu SBH, w zależności od tego jaki typ chipu został zastosowany [73], jakie błędy pojawiły się podczas eksperymentu bio- chemicznego [6] oraz fakt, czy sposób odczytu danych pozwala na poznanie informacji o krotności występowania danego fragmentu DNA w sekwencjonowanej nici [27, 40].

Jak wspomniano wcześniej, podejście klasyczne zakłada, że na chipie znajdują się wszystkie możliwe łańcuchy DNA o zadanej długości. Istnieje również odmiana SBH nazywana izotermicznym sekwencjonowaniem przez hybrydyzację [9]. Wykorzystywana w niej biblioteka izotermiczna zawiera wszystkie możliwe łańcuchy DNA, których tem- peratura topnienia (energia potrzebna do rozdzielenia DNA dwuniciowego do jednoni- ciowego) jest taka sama. Zakłada się, że para nukleotydów A-T dodaje do temperatury topnienia łańcucha 2 stopnie Celsjusza, natomiast para C-G podwyższa tą temperaturę o 4 stopnie. Zostało pokazane, że każdą cząsteczkę DNA można zsekwencjonować wyko- rzystując taki chip DNA, który zawiera dwie biblioteki izotermiczne, dla których różnica temperatury topnienia oligonukleotydów wynosi 2 stopnie [9].

Istnieją również chipy DNA, które zawierają jedynie pewne wybrane oligonukleotydy.

Takie chipy mogą zostać przykładowo wykorzystane do rozpoznania znanych cząsteczek DNA. Ciekawym podejściem do SBH jest sekwencjonowanie wielofazowe [3, 55]. W tym wypadku wykonuje się kilka eksperymentów hybrydyzacyjnych, a kolejny chip DNA jest przygotowywany w oparciu o wyniki otrzymane z poprzedniego eksperymentu. Zostało pokazane, że sumaryczna liczba sond niezbędna do zsekwencjonowania nici DNA jest w tym wypadku mniejsza niż w przypadku klasycznym.

Jak wspomniano, w trakcie eksperymentu hybrydyzacyjnego mogą pojawić się błędy.

Zasadniczo wyróżnia się dwa typy błędów: pozytywne i negatywne. Błędem negatywnym

jest sytuacja, gdy w spektrum brakuje elementu, który występuje w badanej sekwencji

(tj. nie występuje w odczycie eksperymentu). Do takiej sytuacji może dojść, gdy nie

nastąpiła hybrydyzacja sekwencjonowanej nici do odpowiedniej sondy lub gdy nastąpiło

(15)

Podstawowe zagadnienia biologii molekularnej i obliczeniowej 8

przekłamanie w fazie odczytu wyniku hybrydyzacji. Źródłem błędu negatywnego może być również brak informacji o powtórzeniach krótkich fragmentów w cząsteczce. W takim wypadku w spektrum pojawia się tylko informacja, że dany fragment wystąpił. Błędem pozytywnym jest sytuacja, gdy w spektrum pojawia się element, którego nie ma w badanej sekwencji. Może to nastąpić w przypadku, gdy dana sonda hybrydyzowała do cząsteczki pomimo, że nie była całkowicie do niej komplementarna. Błąd pozytywny może również nastąpić w przypadku niewłaściwego odczytania wyniku eksperymentu hybrydyzacyjnego – gdy do spektrum zaliczy się fragment, dla którego odpowiadająca mu na chipie sonda nie hybrydyzowała podczas eksperymentu.

Ciekawym wariantem sekwencjonowania jest SBH z informacją o powtórzeniach. W takim wypadku każdy element spektrum otrzymuje dodatkową informację – czy element występuje w sekwencjonowanej cząsteczce raz czy wiele razy (lub w innej wersji problemu – raz, dwa albo wiele razy). Pokazano, że taka dodatkowa informacja może poprawić uzyskane wyniki [40].

2.5 Komputery DNA

W tym podrozdziale zostaną omówione komputery DNA. Stanowią one bowiem inspi- rację do podjęcia przez autora rozprawy badań dotyczących bibliotek oligonukleotydów opisanych w podrozdziale 5.1. Komputery DNA mogą mieć różne formy i zasady dzia- łania, jednak ich cechą wspólną jest wykorzystanie DNA do wykonania obliczeń. Można wyróżnić następujące modele obliczeń wykorzystujące materiał genetyczny: tzw. kla- syczne podejście zaproponowane przez Adlemana w 1994 roku [1] oraz nowsze podej- ścia takie jak zaproponowane przez Shapiro w 2001 roku [12] oraz DNA self-assembly [11, 77, 98].

W podejściu klasycznym do komputerów DNA [1] cząsteczki kodują pewne informacje, a obliczenia są przeprowadzane poprzez reakcje chemiczne z udziałem tych cząsteczek.

Najłatwiej można opisać działanie komputera DNA na przykładzie, który przedstawił w swojej pracy Adleman.

W eksperymencie zaproponowanym przez Adlemana, rozwiązany został problem ścieżki Hamiltona opisany w rozdziale 3.2 w Definicji 3.13. Zbiór krótkich łańcuchów DNA o stałej długości koduje wierzchołki grafu, natomiast drugi zbiór łańcuchów o tej samej długości koduje łuki pomiędzy tymi wierzchołkami.

Jeśli istnieje łuk pomiędzy dwoma wierzchołkami, to modeluje się to w ten sposób, że w roztworze znajdzie się nić częściowo komplementarna do końcowej części cząsteczki DNA modelującej poprzednika oraz częściowo komplementarna do początkowej części cząsteczki DNA modelującej następnika. W ten sposób, może nastąpić hybrydyzacja tych trzech łańcuchów w taki sposób, jaki został przestawiony na Rysunku 2.3.

Takie połączenie tych trzech nici opisuje przejście z jednego wierzchołka do drugiego.

Pierwszym krokiem przy tworzeniu algorytmu na komputery DNA jest zaprojekto- wanie cząsteczek, które będą reprezentowały różnego rodzaju obiekty, na których będą przeprowadzane obliczenia. W przypadku eksperymentu zaproponowanego przez Ad- lemana zaprojektowano krótkie łańcuchy będące odpowiednikami wierzchołków grafu.

Na podstawie tych sekwencji dla wierzchołków, tworzy się następnie sekwencje, które odpowiadają łukom w tym grafie.

Kolejnym krokiem jest synteza tych fragmentów DNA, a następnie namnożenie każdej z tych nici za pomocą łańcuchowej reakcji polimerazy (PCR). Tak przygotowany mate- riał DNA umieszcza się w jednej naczyniu, gdzie będzie zachodzić reakcja hybrydyzacji.

Należy zauważyć, że nici DNA odpowiadające wierzchołkom będą częściowo hybrydy-

zować z nićmi DNA odpowiadającymi łukom, do których z kolei znów będą częściowo

(16)

Podstawowe zagadnienia biologii molekularnej i obliczeniowej 9

hybrydyzować następne nici odpowiadające wierzchołkom. W ten sposób utworzy się podwójna nić DNA, z której będzie możliwe odczytanie sekwencji wierzchołków składa- jących się na ścieżkę w analizowanym grafie.

Rozwiązaniem problemu ścieżki Hamiltona jest więc pewne dwuniciowe DNA, które zawiera wszystkie krótkie fragmenty modelujące wierzchołki i dodatkowo każdy taki frag- ment jedynie raz. Jak wspomniano, w roztworze istnieje wiele nici tego samego typu.

Wynikiem obliczeń takiego komputera DNA jest pewna podwójna nić DNA. Reakcje hybrydyzacji różnych nici zachodzą w roztworze równolegle, więc obliczenia przeprowa- dzane przez komputer DNA również zachodzą równolegle. W pewnym sensie koncepcja komputerów DNA jest więc implementacją idei maszyny NDTM. Ważnym ograniczeniem dla komputerów DNA jest jednak ilość materiału DNA wymaganego do przeprowadze- nia takiego eksperymentu. Znacznie ogranicza to możliwość praktycznego zastosowania tych komputerów do rozwiązywania dużych instancji problemów trudnych obliczeniowo.

Należy zauważyć, że nie wszystkie hybrydyzacje łańcuchów DNA prowadzą do prawi- dłowych wyników obliczeń. W omawianym eksperymencie Adlemana należy przykła- dowo zminimalizować prawdopodobieństwo hybrydyzacji nici kodujących dwa wierz- chołki, gdyż takie połączenie nie reprezentuje prawidłowej decyzji, która może prowadzić do rozwiązania problemu. Dodatkowo, takie sklejenie nici prowadzi do zmniejszenia ilo- ści dostępnego materiału DNA. Aby uniknąć tego typu sytuacji, w niniejszej rozprawie zaproponowano algorytm budowy biblioteki oligonukleotydów antykomplementarnych.

Biblioteki takie są zbiorami krótkich nici DNA, których wzajemna zdolność do hybry- dyzacji jest minimalna i zostaną dokładnie omówione w rozdziale 5.

Elementy takiej biblioteki mogą posłużyć przykładowo do zakodowania reprezentacji wierzchołków i w ten sposób ograniczyć w pewien sposób liczbę niechcianych hybrydyza- cji, a co za tym idzie, przyczynić się w ten sposób do zwiększenia efektywności obliczeń.

Przy założeniu, że w próbówce była wystarczająca ilość materiału DNA oraz graf nie posiada cykli, w roztworze mogą powstać wszystkie możliwe połączenia wielu nici, czyli - przekładając na język teorii grafów - wiele różnych ścieżek w takim grafie.

Oprócz reakcji hybrydyzacji różnych łańcuchów DNA, w doświadczeniu następuje również reakcja ligacji. Jest to reakcja łączenia się szeregowo dwóch łańcuchów DNA w taki sposób, że koniec 3’ przylega do końca 5’. Można powiedzieć, że jest to odwrotna reakcja do cięcia enzymem restrykcyjnym. W wyniku takich reakcji powstają długie łańcuchy DNA.

Po wykonaniu powyższych kroków należy jeszcze odczytać wynik obliczeń. W ekspe- rymencie Adlemana wykonano kolejne trzy kroki:

1. Zawężenie możliwości do tych nici, które odpowiadają ścieżkom zaczynającym się i kończącym w odpowiednim wierzchołku – rozwiązywany był problem ścieżki Ha- miltona (Definicja 3.13).

2. Zawężenie możliwości do tych nici, które odpowiadają odpowiedniej liczbie wierz- chołków.

3. Zawężenie możliwości do tych nici DNA, które odpowiadają wszystkim wierzchoł- kom.

W celu wyselekcjonowania fragmentów, które odpowiadają ścieżkom zaczynającym

się i kończącym się w odpowiednich wierzchołkach, należy przeprowadzić reakcję PCR

z starterami odpowiadającymi wierzchołkowi, w którym zaczyna się ścieżka i w którym

ścieżka się kończy. W ten sposób namnożone zostaną tylko nici, które odpowiadają szu-

kanym w grafie ścieżkom. Reakcja PCR namnaża ilość materiału w sposób wykładniczy.

(17)

Podstawowe zagadnienia biologii molekularnej i obliczeniowej 10

W ten sposób po kilku iteracjach w roztworze będą głównie łańcuchy, które odpowiadają wymogom zadania.

Następnie stosuje się elektroforezę w żelu [89]. Jest to eksperyment, który pozwala zbadać długość łańcucha DNA. W tym celu cząsteczki umieszcza się w polu elektrycz- nym. Następnie przemieszczają się one w żelu zgodnie ze swoim ładunkiem. Szybkość ich przemieszczenia zależy od ich wielkości. Wiedząc ile par zasad koduje każdy wierzchołek, należy wybrać fragmenty, których długość odpowiada liczbie wszystkich wierzchołków (dla ścieżki Hamiltona).

W ostatnim kroku należy wybrać te spośród rozwiązań, które zawierają wszystkie wierzchołki. Aby to zrobić wykorzystuje się tak zwany system kulek magnetycznych.

Zawierają one krótkie łańcuchy DNA, do których za pomocą hybrydyzacji mogą przy- czepiać się łańcuchy z roztworu. Aby wyekstrahować odpowiednie nici DNA, należy przygotować tyle kulek magnetycznych, ile jest wierzchołków i każda nić reprezentu- jąca wierzchołek z takiej kulki powinna być komplementarna do nici innego wierzchołka.

Po zanurzeniu takiej kulki w roztworze, przyczepią się do niej te nici, które reprezen- tują ścieżkę zawierającą odpowiedni, związany z tą kulką wierzchołek. Wykonując to doświadczenie dla każdej kulki i za każdym razem na wynikach poprzedniej iteracji do- świadczenia w fazie końcowej otrzyma się te cząsteczki DNA, które reprezentują ścieżki zawierające wszystkie możliwe wierzchołki grafu, czyli rozwiązanie problemu.

Należy tutaj zauważyć, że kolejność w jakiej zostaną przeprowadzone eksperymenty z kulką nie ma żadnego znaczenia. Zawsze jako wynik otrzyma się odpowiednio zawę- żony podzbiór cząsteczek. Ostatnią fazą eksperymentu jest odczytanie wyników, czyli kolejności fragmentów DNA opisujących wierzchołki w uzyskanej po eksperymentach cząsteczce. W tym celu można uzyskaną cząsteczkę zsekwencjonować.

Podsumowując, klasyczne komputery DNA kodują problem za pomocą cząsteczek DNA i realizują obliczenia przy wykorzystaniu reakcji chemicznych (hybrydyzacja, re- akcja PCR oraz reakcja ligacji). Stworzenie algorytmu na taki komputer polega na zapro- jektowaniu odpowiednich cząsteczek oraz eksperymentu chemicznego, w którym wezmą one udział.

Inne podejście do obliczeń wykonywanych za pomocą komputerów DNA zaprezento- wane zostało przez profesora Shapiro [12]. W tej koncepcji komputer DNA to biologiczna realizacja automatów skończonych (pewnej podklasy deterministycznej maszyny Turinga (DTM)). W przypadku tej koncepcji nić DNA można traktować jako taśmę, na której zapisane są dane. Specjalnie dobrane cząsteczki odczytują i interpretują te informacje oraz wykonują działania zgodnie z zapisanym programem. Zaprojektowane tak zwane molekuły wyjściowe rozpoznają stan końcowy osiągnięty przez taki program.

Automat skończony, który został zaproponowany w pracy [12], składa się z dwóch liter i dwóch stanów. Automat ten umożliwia 255 różnych przejść i posiada trzy stany końcowe, co umożliwia wykonanie 765 różnych programów (istnieje też rozszerzenie tej koncepcji umożliwiające wykonanie 1 835 001 programów [93]). Każda litera oraz sym- bol kończący wykonanie programu są przedstawione w postaci 6 nukleotydów. Łańcuch DNA będący odpowiednikiem taśmy zawiera zapisany stan początkowy programu oraz sekwencję wejściową symboli. Możliwe przejścia projektuje się z wykorzystaniem krót- kich cząsteczek DNA. Istnieją dwie cząsteczki rozpoznające stany końcowe programu.

W celu przeprowadzenia obliczeń należy zmieszać cząsteczki DNA z zapisanymi danymi,

cząsteczki opisujące przejścia oraz restryktazę FokI. Związek ten rozcina podwójną nić

DNA w dobrze określonym miejscu. Istota działania komputera polega na odpowiednim

sklejaniu fragmentów takiej nici.

(18)

Podstawowe zagadnienia biologii molekularnej i obliczeniowej 11

2.6 Podsumowanie

W rozdziale tym przedstawiono jedynie najważniejsze, z punktu widzenia zawartości tej pracy doktorskiej, zagadnienia dotyczące biologii molekularnej. Przedstawiona została ogólna budowa cząsteczek DNA, gdyż jej znajomość jest niezbędna do zrozumienia algo- rytmu budowy bibliotek oligonukleotydów antykomplementarnych oraz omówiono ideę komputerów DNA zaproponowaną w 1994 roku przez Adlemana - jako dziedzinę, gdzie możliwe jest zastosowanie takich bibliotek. W rozdziale przedstawiono również krótko zagadnienia biologiczne, które nie są głównym przedmiotem rozważań tej rozprawy, ta- kie jak: elektroforeza, sekwencjonowanie Sangera, sekwencjonowanie przez hybrydyzajcę, czy koncepcję komputerów DNA zaproponowaną przez Shapiro. Zagadnienia te znalazły się jednak w tej rozprawie, gdyż część z nich stanowi dobre uzupełnienie wiedzy bio- logicznej dotyczącej przedstawionych w rozprawie problemów kombinatorycznych (np.

elektroforeza i sekwencjonowanie), a inne uzupełniają wiedzę czytelnika dotyczącą alter-

natywnych podejść dotyczących wykorzystania cząsteczek DNA do obliczeń.

(19)

Podstawowe zagadnienia biologii molekularnej i obliczeniowej 12

Rysunek 2.1: (a) wzory chemiczne zasad azotowych, (b) wiązania wodorowe między zasadami (przerywaną linią), (c) fragment nici DNA 5’-AC-3’ wraz z komplementarną

nicią 3’-TG-5’.

(20)

Podstawowe zagadnienia biologii molekularnej i obliczeniowej 13

Rysunek 2.2: Przykładowy wynik sekwencjonowania metodą Sangera. Dane mogą być odczytane bezpośrednio i nie wymagają metod obliczeniowych.

3'-ACTGGTCA-5'

5'-GGCTTGAC-3' 5'-CAGTATTA-3'

5'-GGCTTGACCAGTATTA-3' 3'-ACTGGTCA-5'

Rysunek 2.3: Przykład reprezentacji kodowania i łączenia dwóch wierzchołków oraz łuku w eksperymencie Adlemana.

(21)

Rozdział 3

Podstawowe zagadnienia teorii grafów i informatyki teoretycznej

3.1 Wprowadzenie

W niniejszym rozdziale wprowadzone zostaną pojęcia z zakresu teorii grafów oraz infor- matyki teoretycznej niezbędne, które będą używane w dalszej części pracy. W szczegól- ności rozdziały 4 oraz 5 bazują na pojęciach przytoczonych w tej części.

3.2 Podstawowe pojęcia teorii grafów

W niniejszym podrozdziale zostaną przytoczone podstawowe definicje z zakresu teorii grafów, które stosowane są kolejnych rozdziałach. Definicje te są przytoczone z uwagi na istniejące rozbieżności w rozumieniu niektórych pojęć w literaturze. Pominięte zostały definicje dla grafów nieskierowanych, gdyż omawiane w niniejszej pracy grafy są wyłącz- nie grafami skierowanymi (tj. grafy etykietowalne i sieci Petriego). Definicje poniższych pojęć można znaleźć np. w pracach [13, 18].

Definicja 3.1. Graf skierowany

Niech V będzie niepustym zbiorem, oraz A ⊆ V × V . Grafem skierowanym (digrafem), nazywamy uporządkowaną parę G = (V, A), w której V jest zbiorem wierzchołków, a A jest zbiorem łuków. Dodatkowo, jeśli a = (v

_i

, v

j

) ∈ A to mówimy, że łuk a jest incydentny z wierzchołkiem v

_i

oraz wierzchołkiem v

_j

.

Definicja 3.2. Podgraf

Podgrafem grafu G = (V, A) nazywamy graf G

⁰

= (V

⁰

, A

⁰

) taki, że V

⁰

⊆ V oraz A

⁰

⊆ A ∩ V

⁰

× V

⁰

.

Definicja 3.3. Podgraf indukowany

Podgraf G

⁰

= (V

⁰

, A

⁰

) grafu G = (V, A) nazywamy podgrafem indukowanym, jeśli A

⁰

= A ∩ V

⁰

× V

⁰

.

Definicja 3.4. Skierowany graf dwudzielny

Graf skierowany G = (V, A) nazywamy grafem dwudzielnym, jeśli V = V

₁

∪ V

₂

, V

₁

∩ V

₂

=

∅ oraz A ⊆ (V

₁

× V

₂

) ∪ (V

₂

× V

₁

).

Definicja 3.5. Łańcuch skierowany

Niech G = (V, A) będzie grafem skierowanym. Łańcuchem skierowanym w grafie G o długości n nazywamy sekwencję: C = (v

₀

, a

1

, v

1

, a

2

, v

2

, ..., a

n

, v

n

) gdzie ∀

i∈{1,2,...,n}

a

i

=

14

(22)

Podstawowe zagadnienia teorii grafów i informatyki teoretycznej 15

(v

_i−1

, v

i

) ∈ A. Długość łańcucha jest zatem liczbą krawędzi w nim zawartych. Łańcuch o niezerowej długości może być zatem oznaczony w sposób uproszczony jako sekwencja łuków, tj. C = (a

₁

, a

₂

, ..., a

_n

) pod warunkiem, że:

∀

i∈{2,...,n}

(a

_i−1

= (x

_i−1

, y

_i−1

) ∧ a

_i

= (x

_i

, y

_i

)) ⇒ y

_i−1

= x

_i

Definicja 3.6. Łańcuch skierowany otwarty i zamknięty

Niech C = (v

₀

, a

₁

, v

₁

, a

₂

, v

₂

, ..., a

_n

, v

_n

) będzie łańcuchem skierowanym w grafie G = (V, A). Jeśli v

₀

= v

_n

, to łańcuch nazywamy zamkniętym. W przeciwnym wypadku łań- cuch jest otwarty.

Definicja 3.7. Droga skierowana

Niech C = (v

₀

, a

₁

, v

₁

, a

₂

, v

₂

, ..., a

_n

, v

_n

) będzie łańcuchem skierowanym w grafie G = (V, A). Jeśli żaden łuk nie powtarza się w C, to taki łańcuch nazywany jest skierowaną drogą pomiędzy v

₀

i v

_n

.

Definicja 3.8. Obwód skierowany

Niech C = (v

₀

, a

1

, v

1

, a

2

, v

2

, ..., a

n

, v

n

) będzie łańcuchem skierowanym w grafie G = (V, A). Jeśli C jest zamkniętym także skierowaną drogą, to nazywany jest skierowanym obwodem.

Definicja 3.9. Ścieżka skierowana

Niech C = (v

₀

, a

1

, v

1

, a

2

, v

2

, ..., a

n

, v

n

) będzie łańcuchem w grafie G = (V, A). Jeśli żaden wierzchołek nie powtarza się w C, to taki łańcuch nazywamy ścieżką między wierzchoł- kami v

₀

i v

_n

.

Definicja 3.10. Cykl skierowany

Niech C = (v

₀

, a

₁

, v

₁

, a

₂

, v

₂

, ..., a

_n

, v

_n

) będzie łańcuchem w grafie G = (V, A). Jeśli C jest skierowaną ścieżką oraz łańcuchem zamkniętym, to taki łańcuch nazywamy cyklem skierowanym.

Definicja 3.11. Skierowana droga Eulera

Niech C = (v

₀

, a

₁

, v

₁

, a

₂

, v

₂

, ..., a

_n

, v

_n

) będzie skierowaną drogą w grafie G = (V, A). Jeśli n = |A|, to drogę taką nazywamy drogą Eulera.

Definicja 3.12. Skierowany obwód Eulera

Niech C = (v

₀

, a

₁

, v

₁

, a

₂

, v

₂

, ..., a

_n

, v

_n

) będzie skierowaną drogą Eulera w grafie G = (V, A). Jeśli v

₀

= v

_n

, to droga C jest nazywana skierowanym obwodem Eulera.

Definicja 3.13. Skierowana ścieżka Hamiltona

Niech C = (v

₀

, a

1

, v

1

, a

2

, v

2

, ..., a

n

, v

n

) będzie skierowaną ścieżką w grafie G = (V, A).

Jeśli C zawiera wszystkie wierzchołki, tj. {v

₀

, . . . , v

_n

} = V , to ścieżkę taką nazywamy skierowaną ścieżką Hamiltona.

Definicja 3.14. Skierowany cykl Hamiltona

Niech C = (v

₀

, a

1

, v

1

, a

2

, v

2

, ..., a

n

, v

n

) będzie skierowanym cyklem w grafie G = (V, A).

Jeśli C zawiera wszystkie wierzchołki, tj. {v

₀

, . . . , v

n

} = V , to cykl taki nazywamy skierowanym cyklem Hamiltona.

Definicja 3.15. Spójność grafu, silna spójność grafu, spójne składowe Niech G = (V, A) będzie grafem skierowanym oraz niech

A

⁰

= {(x, y) : x, y ∈ V ∧ ((x, y) ∈ A ∨ (y, x) ∈ A)}

(23)

Podstawowe zagadnienia teorii grafów i informatyki teoretycznej 16

Jeśli w grafie G

⁰

= (V, A

⁰

) istnieje ścieżka między dowolną parą wierzchołków, to graf G jest grafem spójnym. Jeśli bezpośrednio w G istnieje ścieżka między dwoma dowolnymi wierzchołkami, to graf G jest grafem silnie spójnym. W przeciwnym wypadku graf jest niespójny, a każdy jego spójny podgraf jest nazywany spójną składową.

Notacja. Niech G = (V, A) będzie grafem skierowanym oraz x ∈ V . Wtedy N

⁺

(x) ozna- cza zbiór bezpośrednich następników wierzchołka x, a N

⁻

(x) oznacza zbiór bezpośred- nich poprzedników wierzchołka x. Formalnie zbiory te można zdefiniować w następujący sposób: N

⁺

(x) = {y ∈ V : (x, y) ∈ A} oraz N

⁻

(x) = {y ∈ V : (y, x) ∈ A}.

Definicja 3.16. Stopień wejściowy i stopień wyjściowy wierzchołka

Niech G = (V, A) będzie grafem skierowanym oraz x ∈ V . Wtedy in(x) = |N

⁻

(x)|

nazywa się stopniem wejściowym wierzchołka x, oraz out(x) = |N

⁺

(x)| nazywa się stop- niem wyjściowym wierzchołka x.

Problem wyznaczenia ścieżki lub cyklu Hamiltona jest w ogólnym przypadku silnie NP-trudny, co oznacza, że o ile P 6= N P nie istnieje algorytm rozwiązujący ten pro- blem w czasie wielomianowym. Inaczej wygląda sytuacja w przypadku drogi lub ob- wodu Eulera, dla których istnienia poniższe twierdzenie definiuje warunek konieczny i wystarczający:

Twierdzenie 3.1. Warunek konieczny i wystarczający istnienia cyklu/drogi Eulera w grafie skierowanym

Niech G = (V, A) będzie spójnym grafem skierowanym. W grafie G istnieje obwód Eulera wtedy i tylko wtedy, gdy stopień wejściowy każdego wierzchołka jest równy jego stopniu wyjściowemu, tj. ∀

v∈V

in(v) = out(v). Jeśli natomiast istnieje dokładnie jedna para wierzchołków x, y ∈ V taka, że in(x) − out(x) = 1 oraz out(y) − in(y) = 1, a dla pozostałych wierzchołków zachodzi warunek ∀

v∈V \{x,y}

in(v) = out(v), to graf G zawiera drogę Eulera.

3.3 Grafy etykietowalne

Grafy mogą być w ogólności etykietowane na różne sposoby poprzez przypisanie etykiety nad pewnym alfabetem do wierzchołka (etykietowanie wierzchołkowe) lub do łuku (ety- kietowanie łukowe). Grafy rozważane w niniejszym rozdziale są skierowanymi grafami etykietowanymi wierzchołkowo, w których zależności między etykietami indukują łuki oraz etykiety łuków. Zależności te określone są przez nałożenie pewnych części etykiety poprzednika oraz następnika. Grafy etykietowalne przedstawione w pracy [7] są grafami indukowanymi grafów de Bruijna. Jeśli dla takiego grafu istnieje etykietowanie nad al- fabetem o mocy 4, to dodatkowo taki graf został nazwany grafem DNA. Motywacją dla definicji grafów etykietowalnych było zastosowanie w algorytmie asemblacji sekwen- cji oligonukleotydowych pochodzących z procesu sekwencjonowania przez hybrydyzację (SBH [4, 5, 7, 45, 72]) opisanego także w rozdziale 2.

Grafy bazowo-etykietowalne stanowią jednolitą reprezentację grafów etykietowalnych oraz grafów dowolnie etykietowalnych przedstawionych w pracy [7]. Grafy leksykalne stanowią nadklasę grafów de Bruijna, natomiast grafy bazowo-etykietowalne są ich pod- grafami indukowanymi. Grafy leksykalne są w takiej samej relacji z grafami bazowo- etykietowalnymi co grafy de Bruijna z grafami etykietowalnymi.

Grafy etykietowalne i dowolnie etykietowalne mają ważną własność strukturalną,

dzięki której problem szukania cyklu Hamiltona może być zredukowany do problemu

szukania obwodu Eulera w pewnej transformacji grafu. Oznacza to, że dla tych grafów

(24)

Podstawowe zagadnienia teorii grafów i informatyki teoretycznej 17

problem szukania ścieżki Hamiltona jest problemem łatwym obliczeniowo (transforma- cja grafu również jest wielomianowa), podczas gdy w ogólności jest problemem trudnym – wersja decyzyjna problemu ścieżki Hamiltona jest silnie NP-zupełna (wyjaśnienie w podrozdziale 3.5).

Poniżej przedstawiona jest formalna definicja problemu sekwencjonowania przez hy- brydyzację dla przypadku idealnego (tj. bez błędów mogących wystąpić w eksperymencie biochemicznym), który stanowił motywację dla definiowania grafów DNA.

Problem 3.1. Asemblacja spektrum słowa Instancja

Dany jest zbiór S (spektrum) wszystkich fragmentów o długości l pewnego nieznanego słowa w o długości n > l nad alfabetem Σ, tj.

S = spectrum(w, l) =

ⁿ

s ∈ Σ

^l

: w = asb , gdzie a, b ∈ Σ

^∗^o

|S| = n − l + 1 Odpowiedź

Słowo w, dla którego S = spectrum(w, l).

W literaturze zaprezentowane zostały dwa podejścia do rozwiązania tego problemu:

1. Słowo w odpowiada ścieżce Hamiltona w grafie H = (S, A) (tzw. graf Lysova [60]), którego wierzchołki odpowiadają zbiorowi S, a łuki indukowane są z nałożeń między etykietami wierzchołków w następujący sposób:

A =

ⁿ

(s

₁

, s

₂

) : s

₁

, s

₂

∈ S, s

₁

= ab, s

₂

= bc gdzie a, c ∈ Σ, b ∈ Σ

^l−1^o

2. Słowo w odpowiada drodze Eulera w grafie G = (V, S) (tzw. graf Pevznera [72]),

którego łuki odpowiadają zbiorowi S, a wierzchołki zdefiniowane są w następujący sposób:

V =

^S

s∈S

n

b ∈ Σ

^l−1

: (s = ab ∨ s = bc) ∧ a, c ∈ Σ

^o

∀

_s∈S

s = (b

₁

, b

₂

) ⇔ (s = b

₁

a = cb

₂

∧ b

₁

, b

₂

∈ V ∧ a, c ∈ Σ)

Powyższe podejścia są sobie równoważne z uwagi na fakt, że graf Lysova jest grafem sprzężonym grafu Pevznera. Grafy sprzężone, liniowe oraz ich relacje z grafami etykie- towalnymi są wyjaśnione w poniższych definicjach.

Definicja 3.17. p-graf

Graf G = (V, A) nazywamy p-grafem jeśli dla dowolnej pary wierzchołków x, y ∈ V istnieje co najwyżej p równoległych łuków z x do y.

Definicja 3.18 ([13]). Grafy sprzężone

Graf H = (A, U ) jest grafem sprzężonym grafu G = (V, A), jeśli jest 1-grafem ze zbiorem wierzchołków A takim, że istnieje łuk (x, y) ∈ U wtedy i tylko wtedy, gdy w grafie G następnik łuku x jest poprzednikiem łuku y, tj. ∀

_x=(v₁_,v₂_),y=(v₃_,v₄_)∈A

(x, y) ∈ U ⇔ v

₂

= v

₃

. Zależność między H i G będzie oznaczana za pomocą operatora sprzężenia L, tj.

H = L(G). W niniejszej pracy graf G będzie nazywany grafem odwrotnie sprzężonym grafu H.

Twierdzenie 3.2 ([13]). Rozpoznanie grafu sprzężonego

Graf H = (A, U ) jest grafem sprzężonym innego grafu wtedy i tylko wtedy, gdy zachodzi

(25)

Podstawowe zagadnienia teorii grafów i informatyki teoretycznej 18

następujący warunek:

∀

_x,y∈A

N

⁺

(x) ∩ N

⁺

(y) 6= ∅ ⇒ N

⁺

(x) = N

⁺

(y) Definicja 3.19 ([7]). Skierowany graf liniowy

Graf jest skierowanym grafem liniowym wtedy i tylko wtedy gdy jest grafem sprzężonym 1-grafu.

Twierdzenie 3.3 ([7]). Rozpoznanie skierowanego grafu liniowego

Graf H = (A, U ) jest skierowanym grafem liniowym wtedy i tylko wtedy, gdy:

∀

_x,y∈A

N

⁺

(x) ∩ N

⁺

(y) 6= ∅ ⇒

N

⁺

(x) = N

⁺

(y) ∧ N

⁻

(x) ∩ N

⁻

(y) = ∅

Twierdzenie 3.4 ([7]). Zależność między cyklem Hamiltona i obwodem Eulera

Niech graf H będzie grafem sprzężonym grafu G (H = L(G)). W grafie G istnieje obwó- d/droga Eulera wtedy i tylko wtedy, gdy w grafie H istnieje cykl/ścieżka Hamiltona.

Poniżej zdefiniowano grafy dowolnie etykietowalne i etykietowalne, które stanowią uogólnienie grafów Lysova dla dowolnego alfabetu. Grafy etykietowalne zostały zdefinio- wane jako odzwierciedlenie danych eksperymentalnych, które nie zawierały informacji o liczbie powtórzeń danej sekwencji w słowie. W pracy [7] zdefiniowano więc grafy do- wolnie etykietowalne, które odzwierciedlają sytuację, w której każdy element spektrum miałby przyporządkowaną liczność, czyli spektrum S byłoby multizbiorem.

Definicja 3.20 ([7]). Grafy dowolnie etykietowalne

Niech k > 0, α > 0 będą liczbami całkowitymi. Wtedy 1-graf G = (V, A) jest grafem (α, k)-dowolnie etykietowalnym, jeśli możliwe jest przyporządkowanie każdemu wierz- chołkowi x ∈ V etykiety (l

₁

(x), . . . , l

_k

(x)) o długości k takiej, że:

1 ) ∀

i∈{1,2,...,k},x∈V

l

i

(x) ∈ {0, . . . , α − 1},

2 ) (x, y) ∈ A ⇔ (l

₂

(x), . . . , l

_k

(x)) = (l

₁

(y), . . . , l

_k−1

(y)).

Etykieta wierzchołka x będzie oznaczona jako [x].

Powyższa definicja grafu dowolnie etykietowalnego została zmodyfikowana w porów- naniu do definicji z pracy [7]. Rozszerzona została bowiem dziedzina długości etykiety k o wartość k = 1, co pozwoliło na ujednolicenie własności grafów dowolnie etykieto- walnych z przedstawionymi w rozdziale 4 grafami bazowo etykietowalnymi. W przy- padku, gdy k = 1 grafy dowolnie etykietowalne są pełnymi grafami skierowanymi z pętlami własnymi. Długość nałożenia między etykietą poprzednika i następnika wynosi zero, więc dla dowolnej pary wierzchołków spełniony jest warunek wystąpienia łuku ((l

₂

(x), . . . , l

_k

(x)) = (l

₁

(y), . . . , l

_k−1

(y)) = λ).

Definicja 3.21 ([7]). Grafy etykietowalne

Niech graf G = (V, A) będzie grafem (α, k)-dowolnie etykietowalnym. Graf ten jest także grafem (α, k)-etykietowalnym, jeśli etykiety wszystkich wierzchołków są unikalne, tj.

∀

_x,y∈V,x6=y

(l

₁

(x), . . . , l

_k

(x)) 6= (l

₁

(y), . . . , l

_k