• Nie Znaleziono Wyników

Bioinformatyczne metody modelowania i weryfikacji hipotezy Świata RNA

N/A
N/A
Protected

Academic year: 2021

Share "Bioinformatyczne metody modelowania i weryfikacji hipotezy Świata RNA"

Copied!
189
0
0

Pełen tekst

(1)

POLITECHNIKA POZNAŃSKA

Bioinformatyczne metody modelowania i weryfikacji hipotezy Świata RNA

ROZPRAWA DOKTORSKA mgr Natalia Szóstak

Promotor

prof. dr hab. inż. Jacek Błażewicz

Promotor pomocniczy dr inż. Szymon Wąsik

Instytut Informatyki Wydział Informatyki

Poznań 2017

(2)
(3)

Pracę dedykuję Mamie, wiem że nikt, tak jak Mama, nie byłby z niej tak dumny.

(4)
(5)

Podziękowania

Serdecznie dziękuję

prof. dr hab. inż. Jackowi Błażewiczowi za powierzenie ciekawej tematyki badawczej,

wsparcie oraz nieocenione wskazówki w trakcie realizacji badań

dr inż. Szymonowi Wąsikowi

za wsparcie oraz nieocenione wskazówki, a także za przyjaźń

mgr inż. Iwo Błądkowi za prace nad wczesną wersją symulatora

inż. Jarosławowi Synakowi za prace nad kodem prezentowanej wersji symulator oraz zaangażowanie w prowadzone badania

Tacie

za możliwości oraz wsparcie

mojemu Michałowi za wsparcie i cierpliwość, za to że zawsze był obok

mojemu małemu Jacusiowi

za to, że nie pozwolił mi oddać się pracy w całości oraz jeszcze mniejszemu Olkowi

za to, że jego zbliżające się narodziny zmotywowały mnie do napisania niniejszej pracy

(6)

Oświadczenie:

Autorka uzyskała środki w ramach finansowania stypendium doktorskiego z Narodowego Centrum Nauki (nr 2016/20/T/ST6/00395).

(7)

Spis treści

Spis rysunków ... v

Spis tablic ... ix

Spis algorytmów ... xi

Abstract ... 1

Wstęp ... 5

1.1 Rozwój technologii informatycznych a modelowanie złożonych systemów biologicznych ... 5

1.2 Cel i zakres pracy ... 10

Podstawy matematyczne i informatyczne ... 15

2.1 Równania różniczkowe ... 15

2.2 Teoria gier i ewolucyjna teoria gier ... 17

2.3 Automat komórkowy ... 21

2.4 Systemy wieloagentowe ... 22

Podstawy biologiczne i chemiczne ... 25

3.1 Życie w ujęciu biologicznym ... 25

3.2 Podstawowe zagadnienia biologii molekularnej ... 27

3.3 Ewolucja ... 34

3.4 Hipoteza Świata RNA ... 35

3.5 Równanie replikatorowe ... 37

3.6 Quasi-gatunek ... 38

3.7 Hipercykl ... 40

3.8 Zbiór autokatalityczny ... 42

3.9 Kinetyka chemiczna ... 43

Modelowanie systemów biologiczno-chemicznych ... 45

4.1 Modele deterministyczne ... 45

4.2 Modele stochastyczne ... 46

(8)

4.3 Metody dokładne ... 47

4.4 Automaty komórkowe ... 48

4.5 Systemy wieloagentowe ... 49

Definicja problemu hipotezy Świata RNA ... 51

5.1 Poziomy organizacji prebiotycznego życia ... 51

5.2 Definicja problemu hipotezy Świata RNA ... 54

5.3 Koncepcja rozwiązania problemu hipotezy Świata RNA ... 59

Model wykorzystujący ewolucyjną teorię gier ... 63

6.1 Model ... 63

6.2 Dynamika ewolucyjna rozgrywki na podstawie równań replikatorowych ... 65

6.3 Analiza dynamiki ewolucyjnej rozgrywki pomiędzy strategią pasożyta a replikazy ... 66

6.4 Podsumowanie ... 68

Model wykorzystujący równania różniczkowe ... 69

7.1 Model ... 70

7.2 Analiza ilościowa i bifurkacje ... 71

7.3 Podsumowanie ... 75

Model wykorzystujący automat komórkowy ... 77

8.1 Projekt modelu ... 78

8.2 Algorytm i implementacja ... 83

8.2.1 Algorytm ... 83

8.2.2 Implementacja ... 84

8.2.3 Złożoność obliczeniowa ... 86

8.3 Eksperyment obliczeniowy ... 86

8.3.1 Eksperyment 1: mutacja powinowactwa pasożyta do replikazy oraz prawdopodobieństwa przebywania przez pasożyta w stanie zwiniętym ... 90

8.3.2 Eksperyment 2: mutacja prawdopodobieństwa przebywania przez pasożyta w stanie zwiniętym, różne wartości początkowe prawdopodobieństwa przebywania przez pasożyta w stanie zwiniętym ... 92

8.3.3 Eksperyment 3: mutacja prawdopodobieństwa przebywania przez pasożyta w stanie zwiniętym, różne wartości początkowe powinowactwa pasożyta do replikazy ... 93

8.4 Podsumowanie ... 96

Model wykorzystujący systemy wieloagentowe ... 99

9.1 Projekt modelu ... 100

9.1.1 Dyfuzja ... 101

9.1.2 Reakcje pierwszorzędowe ... 102

(9)

9.1.3 Reakcje drugorzędowe ... 104

9.2 Algorytm i implementacja ... 105

9.2.1 Algorytm ... 105

9.2.2 Implementacja ... 108

9.2.3 Złożoność obliczeniowa ... 111

9.3 Eksperyment obliczeniowy ... 112

9.3.1 Plan eksperymentów analizujących mutację pasożytów ... 116

9.3.2 Mutacja pasożytów i replikaz ... 127

9.4 Podsumowanie ... 130

Omówienie wyników w kontekście wcześniejszych badań ... 133

10.1 Stabilność systemu RP ... 133

10.2 Rola sekwencji pasożytniczych ... 136

10.3 Ewolucja wydajniejszych replikaz ... 137

Podsumowanie ... 143

Bibliografia ... 147

Dodatek A. Kod źródłowy skryptu analizującego równania różniczkowe w programie Mathematica ... 159

A.1 Model różniczkowy systemu składającego się z pasożyta i replikazy ... 159

A.2 Analiza stanów bistabilnych ... 160

A.2.1 kP=0,55 ... 160

A.2.2 kP=0,7 ... 160

A.2.3 kP=1 ... 161

A.3 Model różniczkowy systemu składającego się z dwóch populacji pasożytów i replikazy ... 162

Dodatek B. Automat komórkowy – listing programu ... 163

(10)
(11)

Spis rysunków

Rys. 3.1 Porównanie RNA z DNA ... 29 Rys. 3.2 Elementy struktury drugorzędowej dla RNA ... 31 Rys. 3.3 Struktura czwartorzędowa dwóch jednostek rybosomowych ... 32 Rys. 3.4 Poziomy organizacji strukturalnej dla cząsteczki RNA na przykładzie

rybozymu VS z Neurospora (PDB 4R4V) ... 33 Rys. 3.5 Schematyczny rysunek przedstawiający zasadę działania hipercyklu złożonego z 5 cząsteczek RNA ... 41 Rys. 5.1 Wyodrębnione w ramach bioinformatycznego modelu powstania życia na Ziemi poziomy organizacji oraz przejścia pomiędzy nimi kluczowe dla powstania życia ... 53 Rys. 5.2 Schematyczne przedstawienie koncepcji rozwiązania problemu powstania życia na Ziemi na podstawie modelu RP przedstawionego w pracy doktorskiej ... 60 Rys. 7.1 Wykres przedstawiający wyniki numerycznej symulacji układu równań

różniczkowych (równania od 7.1 – 7.5) przeprowadzonej z wykorzystaniem funkcji NDSolve pakietu Mathematica ... 73 Rys. 7.2 Wykres przedstawiający wyniki numerycznej analizy stanów równowagi układu równań różniczkowych (równania od 7.1 – 7.5) przeprowadzonej w pakiecie Mathematica dla różnych wartości parametru 𝑎𝑃 ... 73 Rys. 7.3 Wykres przedstawiający wyniki numerycznej symulacji układu równań

różniczkowych (równania od 7.6 –7.12) przeprowadzonej z wykorzystaniem funkcji NDSolve pakietu Mathematica ... 75 Rys. 8.1 Graficzna reprezentacja reguł dla modelu hipotezy Świata RNA opartego o automat komórkowy ... 82

(12)

Rys. 8.2 Zrzut ekranu ze środowiska NetLogo dla zaimplementowanego symulatora umożliwiającego przeprowadzenie symulacji modelu Hipotezy Świata RNA w oparciu

o automat komórkowy ... 85

Rys. 8.3 Skala kolorów obrazująca zależność pomiędzy kolorem pola obrazującego cząsteczkę a wartością przypisanego mu parametru obserwowanego na wizualizacji w trakcie symulacji, w tym przypadku 𝑙𝑃 ... 85

Rys. 8.5 Wyniki symulacji dla eksperym𝑙𝑃u 1 przeprowadzonego z wykorzystaniem modelu opartego o automat komórkowy (𝑎) średnie wartości 𝑎𝑃, (𝑏) średnie wartości 𝑙𝑃 w trakcie symulacji. Mutują 𝑎𝑃 i 𝑙𝑃 ... 91

Rys. 8.4 Wyniki symulacji dla eksperymentu 2 dla sytuacji gdy system przeżywa czyli 𝑙𝑃0 < 0,8 ... 93

Rys. 8.6 Wyniki symulacji dla eksperymentu 3 z wykorzystaniem automatów komórkowych dla sytuacji gdy system przeżywa (𝑎𝑃0= 0,3; 𝑎𝑃0= 0,4; 𝑎𝑃0 = 0,5; 𝑎𝑃0 = 0,6) ... 95

Rys. 8.7 Wizualizacja systemu dla czterech różnych wartości parametru 𝑎𝑃0 w tej samej chwili t = 30 000 kroków. (𝑎) 𝑎𝑃0= 0,3 brak wyodrębnionych fal (𝑏) 𝑎𝑃0 = 0,4 fale zaczynają się wyodrębniać (𝑐) 𝑎𝑃0 = 0,5 średniej wielkości, ustrukturyzowane fale, (𝑑) 𝑎𝑃0 = 0,6 duże, dobrze ustrukturyzowane fale ... 96

Rys. 9.1 Widok okna głównego symulatora wieloagentowego ... 109

Rys. 9.2 Widok okna służącego do wprowadzania wartości parametrów dla symulacji przeprowadzanej w symulatorze wieloagentowym ... 110

Rys. 9.3 Wyniki symulacji dla eksperymentu 1 przeprowadzonego z wykorzystaniem modelu opartego o system wieloagentowy (𝑎) średnie wartości 𝑎𝑃 (𝑏) średnie wartości 𝑙𝑃 w trakcie symulacji. Mutują 𝑎𝑃 i 𝑙𝑃 ... 119

Rys. 9.4 Zrzuty ekranu obrazujące wizualizacje symulacji w sześciu punktach czasowych. Kolorami oznaczone są wartości parametru 𝑙𝑃 ... 120

Rys. 9.5 Wyniki symulacji dla eksperymentu 2 dla sytuacji gdy system wymiera ... 122

Rys. 9.6 Wyniki symulacji dla eksperymentu 2 dla sytuacji gdy system przeżywa ... 123

Rys. 9.7 Wyniki symulacji dla eksperymentu 3 dla sytuacji gdy system przeżywa ... 124

Rys. 9.8 Wizualizacja systemu dla trzech różnych wartości parametru 𝑎𝑃0 w tej samej chwili t = 80 000 kroków. (𝑎) 𝑎𝑃0= 0,4 brak fal (𝑏) 𝑎𝑃0= 0,5 niewielkie, dobrze wyodrębnione fale (𝑐) 𝑎𝑃0= 0,6 duże, dobrze ustrukturyzowane fale ... 125

(13)

Rys. 9.9 Wyniki symulacji dla eksperymentu 4. Koegzystencja nie jest możliwa

niezależnie od wartości parametru 𝑎𝑃0 ... 127 Rys. 9.10 Wyniki symulacji dla eksperymentu 5 dla ustawienia „z półkola” i wartości parametrów 𝑎𝑃0= 0,55, 𝑎𝑅0 = 0,7, 𝑙𝑃0= 0,2, 𝑙𝑅0 = 0,2. (𝑎) Średnia wartość parametru 𝑎𝑃 (𝑏) Średnia wartość parametru 𝑎𝑅 (𝑐) Średnia wartość parametru 𝑙𝑃(𝑑) Średnia wartość parametru 𝑙𝑅 ... 129

(14)
(15)

Spis tablic

Tabela 2.1 Macierz wypłat dla dylematu więźnia ... 18 Tabela 5.1 Oznaczenia zastosowane w definicji hipotezy Świata RNA ... 57 Tabela 6.1 Rozgrywka pomiędzy dwiema strategiami, pasożyta i replikazy, opisana macierzą dostosowania ... 64 Tabela 6.2 Rozgrywka pomiędzy dwiema strategiami, pasożyta i replikazy, opisana macierzą dostosowania przy założeniu kosztu powielenia replikazy ... 67 Tabela 7.1 Wartości parametrów używanych w symulacjach wykonanych na podstawie modelu opartego o równania różniczkowe ... 72 Tabela 8.1 Wartości parametrów używanych w symulacjach wykonanych na podstawie modelu opartego o automat komórkowy ... 88 Tabela 9.1 Pełna lista argumentów używanych w trybie konsolowym symulatora

wieloagentowego ... 110 Tabela 9.2 Wartości parametrów używanych w symulacjach wykonanych na podstawie modelu opartego o systemy wieloagentowe ... 114 Tabela 9.3 Wartości parametrów 𝑎𝑃 oraz 𝑎𝑅 testowane w trakcie eksperymentu 5 uzupełnione o informację dotyczącą zdolności systemu do zachowania stabilnej

koegzystencji replikaz i pasożytów ... 128

(16)
(17)

Spis algorytmów

Algorytm 8.1 Pseudokod algorytmu pozwalającego na przeprowadzenie symulacji modelu RP w oparciu o automat komórkowy. ... 83 Algorytm 9.1 Pseudokod algorytmu symulacji wieloagentowej opracowany

na podstawie modelu RP – Model z niedozwolonym rozpadem skompleksowanych agentów. ... 107 Algorytm 9.2 Pseudokod algorytmu procedury opisującej dysocjację kompleksu

opracowany na podstawie modelu RP. ... 108 Algorytm 9.3 Pseudokod algorytmu procedury opisującej tworzenie kompleksu

opracowany na podstawie modelu RP. ... 108

(18)
(19)

Abstract

Even though, since the discovery of DNA molecule pasts merely 150 years and from the resolving its structure pasts more than 60 years (Crick and Watson 1953) and although DNA is called the blueprint of life, we still do not fully understand what the life is. Moreover, we do not understand how life began and how the evolution at the early stages of life looked like. Currently, the most recognized hypothesis of the origins of life is the RNA World hypothesis. It assumes that life was sparked by prebiotic, rep- licating RNA chains. There are many evidences coming from different fields of study that support the RNA World hypothesis (Neveu et al. 2013). Surprisingly, mathematical and computing proofs are among the most prominent. Nevertheless, despite all the evi- dences, we are still far from finding an answer to the problem of origins of life and prebiotic evolution.

Biological experiments usually do not allow for controlling multiple factors sim- ultaneously in order to determine their effect on the behaviour of the whole system.

Moreover, they are often very time-consuming, expensive, and they demand extreme precision. Although modern biology has an access to enormous variety of advanced equipment, it is often unable to produce meaningful results without the accompanying information technology developed especially for the purpose of processing biological data. Since the construction of the first computer in the forties of the last century (Gold- stein 1980) the tremendous technical progress has been made in the field of computing science and technology. Thanks to this, solving more and more advance biological problems has become possible. Crucial role in modelling biological phenomenon plays an adequate model describing it.

This work is devoted to bioinformatics methods of modelling and verification of the RNA World hypothesis. The main scope of this thesis includes:

1. Integration of computing science and biological methodologies.

(20)

2. Design of a bioinformatics model of the origins of life according to the RNA World hypothesis.

3. Creation of a formal definition of the RNA World hypothesis.

4. Modelling RNA World hypothesis using methodologies that describe the sys- tem on various levels of complexity.

5. Designing simulation framework and underlying algorithms for analysis and verification of the RNA World hypothesis.

6. Investigation of a possibility of coexistence of RNA replicases and RNA par- asites.

7. Investigation of a function of RNA parasites in the analysed system and their influence on the evolution of the system.

Achievement of the above mentioned objectives demanded the following tasks:

 analysis of the biological problem under the consideration and definition of bio- logical hypotheses;

 design and analysis of models consisting of RNA replicases and RNA parasites using the following methodologies:

o evolutionary game theory (EGT);

o ordinary differential equations (ODE);

o cellular automata (CA);

o multi-agent systems (MAS);

 analysis of the EGT model of a system consisting of RNA replicases and RNA parasites;

 numerically solving designed ODEs and stability and bifurcation analyses of the solutions;

 implementation of the CA model of a system consisting of RNA replicases and RNA parasites in NetLogo;

 designing, implementing and testing the simulator allowing for simulations of MAS model of a system of RNA replicases and RNA parasites;

 designing, implementing and optimization of reaction-diffusion algorithms for simulations of a system of RNA replicases and RNA parasites.

The thesis begins with a description of the basic mathematical and computing science definitions and concepts (Chapter 2) that are used through the paper, as well as biological and chemical ones (Chapter 3). This is followed by the review of the existing

(21)

approaches for the modelling of biological systems, especially taking into account the reaction-diffusion systems (Chapter 4).

The main part of the thesis is opened by the description of the RNA World hy- pothesis model (Chapter 5). It contains the proposed bioinformatics model of the origins of life on Earth that includes four levels of organization of prebiotic world. Moreover, in the same chapter the reader can find the definition of the RNA World hypothesis in the ML-Rules language. The core of the thesis presents four models of the system con- sisting of RNA replicases and RNA parasites, RP models for short, and results of their analysis (Chapters 6-9).

First, comes the evolutionary game theory RP model (Chapter 6). ETG allows for modelling of interactions between RNA parasites and RNA replicases in a form of a game between two strategies. This enables the analysis of the evolutionary dynamics of the game based on the replicator equations. Based on this, it was possible to determine the boundary conditions of the existence of the solution of the analysed problem.

Second, the ordinary differential equation RP model was described (Chapter 7).

The knowledge gained thanks to the ETG RP model was used to determine the parame- ters of the ODE RP model. ODEs allowed for modelling the structure of the interaction between molecules, namely the fact of formation of the replication complex between two molecules. It also allowed for the quantitative analysis of the ODE RP model and investigation of the direction of evolution of the modelled system. ODE model made possible a determination of the influence of the values of the analysed parameters on the stability of the system.

Third, cellular automaton model of the RP system was introduced (Chapter 8). In this model not only mutations during the replication were included explicitly, but more importantly, the spatial aspect of the problem was taken into account. The action can be performed only between cells that are next to each other. Unlike ODEs, CAs do not allow for non-physical solutions because each molecule is modelled as one cell on the grid. Thanks to the CA model it was possible to verify the values of the parameters tak- en from ODEs analysis, observe some emerging behaviours such as traveling waves, and reduce the space of the values of the parameters.

Forth, multi-agent model of the RP system was created (Chapter 9). This model is the closest approximation of the reality from all of the presented models. It is free of the limits of the ODEs and CAs models. Molecules, similarly to CA model, are mod- elled explicitly, however, the space is continuous and the movement of the molecules is

(22)

modelled in a way that is a close approximation of the real process. This makes possible in silico verification of the behaviour of the system in an environment that resembles the real world. Extensive computer simulations with the MAS simulator were per- formed. The results gave interesting insights into the role of the parasites for the evolu- tion of the replicases. It seems that despite the stability of the spatial RP model, para- sites pose an obstacle for the evolution of efficient replicases. This is because of the dual role of the replicases that serve as a matrix and catalyst. The result could explain why a separation of function into the DNA matrix and protein catalyst was an inevitable event and one of the most important transition in a history of evolution of life.

The results of experiments that were performed during work on the thesis were summarized and compared to the results obtained by other scientist (Chapter 10). This gave an interesting insights into the role of the model for obtaining the meaningful re- sults. The stability of the system, the role of parasites and the evolution of the efficient replicases were discussed.

The thesis ends with the summary of the whole work (Chapter 11). It contains the verification of the goals that should have been achieved during the work on the the- sis. Moreover, it elaborates the future directions in term of the investigated problem of the simulations of biological systems.

For an understanding of the analysed problem it was necessary to understand not only the biological motivation behind it, but also the issues related to the methodology of the study. It should be emphasised that more important than an input of the described research in each of the fields of study separately (biology and computer science) are the results that could be obtained by the integration of these two completely distinct disci- plines. That is why the basic value of the thesis is an attempt to solve the multidimen- sional problem of integration of biological and informatics methods in order to provide answers for the questions that bothers humankind from centuries.

(23)

Wstęp

Chociaż od odkrycia cząsteczki DNA minęło niemal 150 lat (Dahm 2008), od odkrycia jej struktury ponad 60 (Crick i Watson 1953), a wiek XXI, pomimo, że znajdujemy się dopiero na jego początku, uznany został za wiek wielkich odkryć biologicznych, to wciąż tak naprawdę niewiele wiemy na temat funkcjonowania organi- zmów żywych. Wydaje się, że wraz z pojawianiem się nowej wiedzy biologicznej do- piero uświadamiamy sobie jak wiele nie wiemy i jak wiele pozostaje jeszcze do odkrycia. Przytoczone odkrycie cząsteczki DNA stanowi tylko ułamek tego, jaką wiedzę na temat struktury genomu i jego regulacji obecnie posiadamy, a i to stanowi bardzo niewiele z tego, ile zrozumieć byśmy chcieli. Wciąż nie rozumiemy co tak na- prawdę jest zapisane w genach, wciąż nie rozszyfrowaliśmy maestrii złożonej sieci inte- rakcji budujących organizmy żywe. Wiele procesów życiowych i jeszcze więcej ich zaburzeń przejawiających się w chorobach dręczących ludzkość wciąż stanowi dla nas zagadkę. I wreszcie, wciąż tak naprawdę nie rozumiemy, czym życie jest w swej istocie, jak powstało i jak przebiegała jego ewolucja na najwcześniejszych etapach.

Współczesna biologia posiada wiele narzędzi mających za zadanie przybliżyć nas do rozwiązania zagadki życia i zrozumienia mechanizmów nim zawiadujących.

Posiadamy mikroskopy o rozdzielczości atomowej, umiemy określać sekwencję mate- riału genetycznego z dokładnością do nukleotydu, badać ekspresję genów w odpowiedzi na zmieniające się warunki środowiska, obserwować transport cząsteczek w komórkach. Poświęcamy ogromne fundusze na zrozumienie podłoża chorób, na opracowywanie terapii mających na celu ich wyleczenie, lub pozwalających

1.1 Rozwój technologii informatycznych a modelowanie

złożonych systemów biologicznych

(24)

na opracowanie skutecznej profilaktyki. Posiadamy wiele danych, ale, paradoksalnie, to właśnie ten ogrom danych jest głównym problemem, przed którym stoi dzisiejsza biologia. Łatwość oraz szybkość pozyskiwania danych sprawiły, że pojawił się problem z ich analizą. Dodatkowo fakt, że aby zrozumieć całość nie wystarczy zrozumieć po- szczególnych części składowych systemu, ale także poznać zależności pomiędzy nimi stanowi problem z którym mierzy się współczesna biologia. Jak przeanalizować złożone sieci interakcji? Jak na podstawie tej analizy określić to, co jest istotne? Z pomocą przy- chodzą technologie informatyczne.

Eksperymenty biologiczne w większości przypadków nie pozwalają na kontrolowanie wielu czynników równocześnie i określania ich wpływu na zachowanie systemu. Ponadto są często niezwykle czasochłonne i kosztowne, a także wymagają ogromnej precyzji wykonania. I chociaż to eksperyment oraz teoria stanowią od wieków dwa paradygmaty odkryć naukowych, to na horyzoncie pojawił się trzeci – obliczenia oraz symulacje (Bell 1989), rozumiane jako wielodziedzinowa kombinacja nauk matematycznych oraz informatycznych ze szczególnym ukierunkowaniem na zastosowania w fizyce, inżynierii oraz naukach o życiu. Rozwój współczesnej biolo- gii nie byłby możliwy bez wsparcia informatyki, która jest obecnie najszybciej rozwija- jącą się nauką. Od momentu zbudowania pierwszego komputera w latach czterdziestych zeszłego wieku (Eckert Jr i Mauchly 1964), do czasów obecnych, w których dysponu- jemy superkomputerami przetwarzającymi ogromne ilości danych, poczynił się w tej dziedzinie niewyobrażalny postęp. Powstała też nowa dziedzina wiedzy, bioinformaty- ka, która rozwinęła się na styku biologii, matematyki i informatyki. Jest to interdyscyplinarna dziedzina nauki wykorzystująca metody i narzędzia informatyczne do rozwiązywania problemów powstałych na gruncie nauk biologicznych.

Wraz ze wzrostem mocy obliczeniowej współczesnych komputerów oraz powstaniem systemów umożliwiających korzystanie z połączonej mocy wielu komputerów, takich jak systemy rozproszone czy też obliczenia w chmurze, rozwiązy- wanie za pomocą komputerów coraz bardziej złożonych problemów biologicznych stało się możliwe. Aby jednak za pomocą obliczeń komputerowych można przeprowadzić eksperyment obliczeniowy, kluczową rolę odgrywa zbudowanie modelu danego zjawi- ska. Modele takie mają za zadanie w precyzyjny sposób opisywać skomplikowane sys- temy biologiczne i procesy w nich zachodzące. Umożliwiają też analizę zachowania systemu w zależności od zmian wprowadzanych w modelu lub wartości parametrów.

(25)

Aby model był użyteczny, musi zawierać kluczowe dla zrozumienia analizowanego systemu informacje oraz relacje pomiędzy jego wewnętrznymi częściami.

Budowa modelu biologicznego jest procesem wieloetapowym, wymagającym in- tegracji wiedzy z wielu dziedzin nauki. Niezwykle istotny jest też odpowiedni dobór metodyki. Gotowy model można analizować analitycznie, lecz coraz częściej wykorzy- stywane są do tego symulacje komputerowe. Na tym etapie następuje weryfikacja mo- delu w oparciu o rzeczywiste dane. Dopiero gdy model jest zweryfikowany i dostrojony, wtedy wyniki symulacji mogą posłużyć do wyciągania wniosków.

Moc obliczeniowa, którą obecnie dysponujemy i ogromny rozwój technologii in- formatycznych umożliwił modelowanie i obserwowanie na ekranie monitora zjawisk takich jak na przykład przebieg infekcji wirusowych, rozwój nowotworów, wpływ tera- pii na te procesy, zwijanie się polimerów w złożone trójwymiarowe kształty, czy też tworzenie się kompleksów makrocząsteczek. Okazuje się jednak, że nawet gdy mode- lowane zjawisko nie jest w pełni poznane, to tworzenie modeli oraz symulacje na ich podstawie mogą dostarczyć bezcennej wiedzy na temat zachodzących procesów. Mode- le matematyczne, informatyczne, czy też bioinformatyczne, pozwalają na abstrahowanie od biochemicznych szczegółów i pozwalają eksperymentatorowi na skoncentrowanie się na wewnętrznej dynamice zachodzących procesów odpowiedzialnej za powstawanie badanego zjawiska. W szczególności modelowanie może pozwalać na badanie proce- sów, które w rzeczywistości odbywają się na przestrzeni dekad lub nawet milionów lat, lub które zachodzą błyskawicznie, a których zrozumienie jest często niemożliwe przy użyciu bardziej tradycyjnych technik eksperymentalnych.

Taka sytuacja zachodzi przykładowo w przypadku modelowania procesów klu- czowych dla powstania życia na Ziemi. Obecnie najbardziej uznaną hipotezą wyjaśnia- jącą to zagadnienie jest hipoteza Świata RNA sięgająca lat 60 XX wieku (Rich 1962;

Gesteland 2005; Cech 2012). RNA jest niezwykłe w swych właściwościach, może za- równo służyć jako bank informacji, analogicznie do cząsteczek DNA, jak i pełnić funk- cje enzymatyczne (Kruger et al. 1982; Guerrier-Takada et al. 1983), podobnie do białek.

Teoria Świata RNA zakłada, że to właśnie samoreplikujące się cząsteczki RNA, a nie białka były prekursorem życia na Ziemi.

Od początku sformułowania hipotezy Świata RNA wielu badaczy przeprowadza- ło badania mające na celu dostarczenie dowodów na poparcie tej hipotezy (Neveu et al.

2013). Są wśród nich między innymi badania nad szlakami umożliwiającymi syntezę podstawowych związków budujących łańcuchy RNA (Oro i Kimball 1961; Powner et

(26)

al. 2009; Saladino et al. 2012; Wang et al. 2013). Zakładając istnienie nukleotydów w tak zwanej prebiotycznej zupie, badano możliwość samorzutnego tworzenia się polime- rów w warunkach pierwotnej Ziemi (Ferris et al. 1996; Zaher i Unrau 2007; Costanzo et al. 2009; Adamala i Szostak 2013). Kluczową rolę dla tego procesu odegrać mogły po- wierzchnie minerałów spełniające funkcje katalizatorów (Ferris et al. 1996; Luther et al.

1998; Orgel 1998; von Kiedrowski i Szathmáry 2001). Sam proces powielania się poli- merów RNA także jest przedmiotem wielu badań (Bartel i Szostak 1993; Ekland et al.

1995; Ekland i Bartel 1996; Jaeger et al. 1999; Johnston et al. 2001; Sczepanski i Joyce 2014; Horning i Joyce 2016). Badaniom nad tworzeniom się pierwszych komórek po- święciła się z kolei grupa Jacka Szostaka (Szostak, J.W. i et al. 2015). Przytoczone do- niesienia zostały szerzej opisane w Rozdziale 3 niniejszej pracy doktorskiej.

Jednym z ważniejszych problemów, z jakim zmierzyć musiało się pierwotne ży- cie jest stabilność systemu złożonego z replikujących cząsteczek RNA (Eigen 1971;

Eigen i Schuster 1979). Powielanie cząsteczek RNA skutkuje powstaniem quasi- gatunku, czyli populacji podobnych do siebie łańcuchów polinukleotydowych (Eigen i Schuster 1977). Jest to spowodowane wysokim tempem mutacji powielanych cząste- czek RNA. Z tego też względu w populacji tworzącej quasi-gatunek nie wszystkie czą- steczki posiadają funkcję katalizowania replikacji, a służą jedynie jako wzorzec do po- wielania. Informacja przechowywana w populacji może być zatem łatwo utracona na skutek tak zwanej katastrofy błędu (ang. error catastrophe).

Oparty o równania różniczkowe model hipercyklu stworzony przez Manfreda Eigena miał według autora posiadać właściwości pozwalające na uniknięcie utraty in- formacji z systemu samopowielających się cząsteczek RNA (Eigen i Schuster 1979;

Szostak et al. 2016a). Jednakże model ten, nawet jeśli stabilny w sensie ekologicznym, okazał się niestabilny ewolucyjnie (Smith 1979). Innymi słowy, hipercykl okazał się nieodporny na pasożyty, które na skutek mutacji powstają w systemie złożonym z samopowielających się łańcuchów RNA. Co więcej dla hipercyklu złożonego z więcej niż 5 cząsteczek system wpada w oscylacje, które na skutek stochastycznej natury pro- cesów obserwowanych w naturze, bardzo łatwo mogą skutkować unicestwieniem sys- temu na skutek zniszczenia jednego z jego składników.

Dalsze prace poświęcone zagadnieniu stabilności systemu samopowielających się cząsteczek RNA przeprowadzone przez innych autorów (Bresch et al. 1980;

Szathmáry i Demeter 1987; Boerlijst i Hogeweg 1991a, b; Mccaskill et al. 2001; Szabó et al. 2002; Takeuchi i Hogeweg 2009) wykazały, że brak stabilności przytaczanych

(27)

systemów opartych o równania różniczkowe jest spowodowany ich homogeniczną natu- rą. Istnienie struktury populacyjnej wśród cząsteczek RNA sprawia że struktura hiper- cyklu przestaje być warunkiem istnienia choćby ekologicznej stabilności (Czárán i Szathmáry 2000).

Model wprowadzający strukturę populacyjną analizowany był także w pracach Paulien Hogweg oraz jej współpracowników (Boerlijst i Hogeweg 1991b; Takeuchi i Hogeweg 2009, 2012). Badania wykazały, że istnienie przestrzennego aspektu analizo- wanego systemu pozwala na zachowanie stabilności systemu także w sensie ewolucyj- nym.

Symulacje komputerowe oparte na różnych modelach, a mające na celu badanie hipotezy Świata RNA przeprowadzali także inni badacze. Scheuring (Scheuring 2001) używając narzędzi matematycznych rozważał teoretycznie możliwość uniknięcia grani- cy błędu w systemie pierwotnych replikatorów uwzględniając replikację zarówno en- zymatyczną jak i nieenzymatyczną. Szabó i współpracownicy (Szabó et al. 2002) za pomocą modelu opartego o automat komórkowy dokładniej przyjrzeli się zdolności systemu złożonego z replikujących się cząsteczek RNA do ewolucji i zachowania w systemie lepszych replikaz. Praca Ma i współpracowników (Ma et al. 2007) oparta o siatkowy model Monte-Carlo z rozdzielczością na poziomie nukleotydów pokazuje, że wczesne replikazy RNA mogą pojawić się w zbiorze nukleotydowym, rozprzestrze- nić i ewoluować przy założeniu, że replikazy te są w stanie rozpoznawać swoją własną sekwencję nukleotydową i jej dopełnienia jako cel katalityczny. Könnyű i współpracownicy (Könnyu et al. 2008) używając stochastycznego automatu komór- kowego wykazali, że koegzystencja korzystnych dla systemu katalizatorów i cząsteczek o charakterze pasożytniczym jest możliwa. Ma i Hu (Ma i Hu 2012) ponownie za po- mocą siatkowego model Monte-Carlo badali stabilność systemu złożonego z replikaz i pasożytów. Najnowszą pracą, w której poruszono zagadnienie ewolucji wydajniejszych replikaz jest artykuł Colizzi i Hogeweg (Colizzi i Hogeweg 2016), w którym za pomo- cą modelu opartego o automat komórkowych analizowano minimalny system replikato- rowy złożony z replikaz i pasożytów.

Z punktu widzenia strategii ewolucyjnych, replikazy w obliczu istnienia pasoży- tów są silnymi altruistami, to znaczy poświęcają swój sukces reprodukcyjny aby powie- lać cząsteczki innego gatunku, w tym wypadku pasożyta. Badania pokazały, że silni altruiści aby przetrwać potrzebują preferencyjnego grupowania się gwarantującego zwiększenie interakcji w ramach grupy (Nunney 1985).

(28)

Powyższe wyniki wcześniejszych badań zostaną bardziej szczegółowo przedsta- wione w Rozdziale 10 w kontekście wyników przedstawionych w tej rozprawie doktor- skiej. Chociaż z przytoczonego powyżej pokrótce stanu badań wynika, że istnieje wiele dowodów na poparcie hipotezy Świata RNA, to wciąż jednak jesteśmy dalecy od znalezienia odpowiedzi na pytanie o początki życia i mechanizmy prebiotycznej ewolucji. Prawdopodobnie nigdy nie będziemy wiedzieć na pewno, jak dokładnie życie powstało na Ziemi, ale różne teorie dotyczącego jego powstania mają za zadanie nie tylko przybliżyć nas do znalezienia odpowiedzi na to pytanie, ale też dostarczyć wiedzy na temat fizykochemicznych procesów odpowiedzialnych za tworzenie życia z materii nieożywionej.

Niniejsza praca podejmuje zagadnienie bioinformatycznych metod modelowania hipotezy Świata RNA oraz jej weryfikacji. W pracy przedstawiony został opracowany przez autorkę bioinformatyczny model organizacji prebiotycznego świata ze szczególnym uwzględnieniem hipotezy Świata RNA. Model ten uwzględnia cztery wyodrębnione poziomy organizacji, począwszy od materii nieorganicznej, przez związ- ki organiczne i polimery, po interakcje pomiędzy polimerami. Opisane w niniejszej pra- cy badania, z biologicznego punktu widzenia, są skoncentrowane na najwyższym wy- mienionym poziomie, to jest interakcjach pomiędzy cząsteczkami RNA.

Głównym założeniem przyjętym w modelu jest występowanie interakcji pomię- dzy polimerami o charakterze replikaz oraz pasożytów. Replikazy to cząsteczki RNA posiadające zdolność katalizowania replikacji łańcuchów RNA, których to istnienie jest podstawą hipotezy Świata RNA. Pasożyty natomiast to cząsteczki RNA służące jedynie jako matryca, będące według teorii Świata RNA głównym zagrożeniem dla przetrwania replikaz. Dla rozważanego modelu opracowana została formalna definicja w opartym o reguły języku ML-Rules służącym do opisu modeli biologicznych oraz chemicznych.

Ponadto opisane zostały szczegółowo modele wyodrębnionego poziomu organizacji prebiotycznego świata wykorzystujące metody takie jak ewolucyjna teoria gier, równa- nia różniczkowe oraz automaty komórkowe i systemy wieloagentowe.

Ewolucyjna teoria gier pozwoliła modelować interakcje pomiędzy cząsteczkami RNA typu replikaza oraz pasożyt, co umożliwiło określenie warunków brzegowych istnienia trwałego systemu pasożyt – replikaza. Następnie zaprojektowany został model

1.2 Cel i zakres pracy

(29)

w oparciu o równania różniczkowe, które pozwoliły na uwzględnienie struktury inte- rakcji, a więc faktu formowania kompleksu replikacyjnego pomiędzy cząsteczką repli- kującą a matrycą. Równania różniczkowe umożliwiły przeprowadzenie analizy ilościo- wej dla modelowanego systemu, co pozwoliło na określenie wpływu wartości parame- trów na stabilność systemu.

W celu uwzględnienia aspektu przestrzennego modelowanego zagadnienia wy- korzystane następnie zostały automaty komórkowe zaimplementowane w NetLogo.

Symulacje przeprowadzone w NetLogo umożliwiły ograniczenie wartości parametrów uwzględnionych w systemie. Następnie zaprojektowany został model systemu w oparciu o systemy wieloagentowe. Modele wieloagentowe pozbawione są ogranicze- nia jakie nakłada siatka, przestrzeń w nich jest traktowana w sposób ciągły. Pozwalają dzięki temu na bardziej realistyczne potraktowanie ruchu (ruchy Browna) i interakcji pomiędzy cząsteczkami (kinetyka reakcji). Modele wieloagentowe pozwalają zatem na weryfikację in silico zachowania systemu w środowisku jak najbardziej zbliżonym do rzeczywistego.

Zbudowane modele miały na celu weryfikację postawionych w niniejszej pracy hipotez badawczych natury biologicznej i podejmują, przede wszystkim, zagadnienie zachowania w systemie informacji zakodowanej w RNA oraz ewolucję systemu złożo- nego z replikaz i pasożytów. W ramach pracy opisane zostały także opracowane w celu analizy i weryfikacji hipotezy Świata RNA środowisko symulacyjne oraz uzupełniające je algorytmy. Jako że celem tworzenia modeli przedstawionych w niniejszej pracy była weryfikacja hipotez biologicznych, praca zawiera także dyskusję wyników w odniesieniu do obecnego stanu wiedzy biologicznej.

Główna hipoteza badawcza analizowana w tej pracy brzmi następująco:

 Możliwe jest informatyczne modelowanie początków życia

Dodatkowo równolegle do weryfikacji głównej hipotezy rozważane były następu- jących hipotezy badawcze:

 Cząsteczki RNA mające charakter pasożytniczy są czynnikiem sprawczym ewolucji w ujęciu hipotezy świata RNA.

 Możliwa jest stabilna koegzystencja cząsteczek o charakterze pasożytniczym z cząsteczkami o charakterze replikaz.

(30)

 Dla ewolucji konieczny był rozdział funkcji z pierwotnych rybozymów peł- niących zarówno funkcje matrycy jak i katalizatora na cząsteczki będące no- śnikami materiału genetycznego lub umożliwiającymi replikację.

Głównymi celami niniejszej pracy były:

1. Integracja metod informatycznych i biologicznych.

2. Opracowanie bioinformatycznego modelu początków życia.

3. Formalne zdefiniowanie problemu hipotezy Świata RNA.

4. Opracowanie modeli hipotezy Świata RNA.

5. Opracowanie środowiska symulacyjnego oraz uzupełniających je algorytmów w celu analizy i weryfikacji hipotezy Świata RNA.

6. Zbadanie możliwości koegzystencji cząsteczek RNA o właściwościach paso- żytniczych z cząsteczkami posiadającymi zdolność katalizowania replikacji.

7. Zbadanie funkcji jakie cząsteczki RNA o właściwościach pasożytniczych pełnią w analizowanym systemie i ich wpływu na ewolucję systemu.

Realizacja postawionych wyżej celów głównych wymagała realizacji następujących zadań szczegółowych:

 Przeanalizowanie problemu biologicznego i zdefiniowanie biologicznych hipo- tez badawczych.

 Opracowanie i przeanalizowanie modelu systemu złożonego z replikaz i pasożytów w oparciu o:

o ewolucyjną teorię gier, o równania różniczkowe, o automaty komórkowe, o systemy wieloagentowe.

 Rozwiązanie numeryczne opracowanych równań różniczkowych oraz wykonanie analiz stabilności i bifurkacji rozwiązań.

 Zaimplementowanie w języku NetLogo oraz przetestowanie systemu złożonego z replikaz i pasożytów w oparciu o automat komórkowych.

 Zaprojektowanie, zaimplementowanie i przetestowanie symulatora systemu zło- żonego z replikaz i pasożytów w oparciu o systemy wieloagentowe umożliwia- jącego weryfikację postawionych hipotez badawczych.

(31)

 Zaproponowanie, zaimplementowanie i zoptymalizowanie algorytmów reakcji- dyfuzji dla systemów złożonych z replikaz i pasożytów.

 Zweryfikowanie postawionych hipotez biologicznych.

 Przeanalizowanie wpływu sposobu modelowania na wyniki.

Dla zrozumienia analizowanego problemu konieczne było zarówno zrozumienie motywacji biologicznej, jak i problematyki związanej z metodologią przeprowadzania badań. Należy również podkreślić, że dużo ważniejsze niż wkład prowadzonych badań w każdą z dyscyplin osobno (szczególnie biologię i informatykę) są wyniki, które mo- gły być osiągnięte dzięki połączeniu tych dwóch zupełnie różnych dyscyplin, posługu- jących się różnymi metodami badawczymi i innym znaczeniem nawet podstawowych pojęć. Dlatego podstawową wartością przeprowadzonych badań jest próba rozwiązania wielowymiarowego problemu integracji metod informatycznych i biologicznych w celu udzielenia odpowiedzi na nurtujące ludzkość pytania.

Struktura pracy jest następująca. W rozdziale 2 przedstawione zostały podsta- wowe definicje matematyczne oraz informatyczne stosowane w pracy. W rozdziale 3 znajdują się podstawy biologiczne niezbędne do zrozumienia motywacji do napisania niniejszej pracy oraz zrozumienia jej istoty, a także podstawowe zagadnienia z tematyki ewolucji, w szczególności w ujęciu matematycznym. W rozdziale 4 opisane zostały podejścia do modelowania systemów biologicznych z uwzględnieniem reakcji bioche- micznych oraz dyfuzji. Rozdział 5 opisuje problem hipotezy Świata RNA. Znajduje się w nim opis zaproponowanego bioinformatycznego modelu początków życia na Ziemi wyróżniający cztery poziomy organizacji prebiotycznego świata. Ponadto rozdział ten zawiera formalną definicję w języku ML-Rules opracowaną dla najwyższego wyodręb- nionego w ramach proponowanego modelu poziomu organizacji. Przedstawione w pracy w kolejnych rozdziałach 6-9 modele zostały opracowane dla tego wyodrębnio- nego poziomu organizacji i opisują interakcje pomiędzy replikazami a cząsteczkami o charakterze pasożytniczym. W rozdziale 6 opisany i przeanalizowany został model opracowany w oparciu o ewolucyjną teorię gier. W rozdziale 7 ten sam model opisano i przeanalizowano za pomocą metody równań różniczkowych. Znajduje się w nim także opis wykonanych analiz stabilności i bifurkacji rozwiązań. Rozdział 8 poświęcony zo- stał na opis i analizę modelu w oparciu o automaty komórkowe. W rozdziale 9 znajduje się opis modelu w oparciu o systemy wieloagentowe oraz opis zaimplementowanego symulatora systemu złożonego z replikaz i pasożytów. W tym miejscu opisano też za-

(32)

proponowany algorytm reakcji-dyfuzji dla systemów złożonych z replikaz i pasożytów.

Rozdział 10 zawiera obszerne omówienie i porównanie wyników uzyskanych podczas prac nad doktoratem w kontekście prac innych autorów. Omówiono w nim szczegółowo zagadnienia stabilności analizowanego systemu, roli pasożytów oraz ewolucji replikaz.

Pracę kończy przedstawione w rozdziale 11 podsumowanie całej pracy. Znajduje się tam weryfikacja osiągnięcia jej celów, jak również omówienie przyszłych kierunków badawczych w zakresie rozpatrywanej problematyki.

(33)

Podstawy matematyczne i informatyczne

W rozdziale tym przedstawione zostały podstawowe definicje matematyczne oraz informatyczne stosowane w pracy. Podstawy zawarte w tym rozdziale zostały wy- korzystane nie tylko do opracowania wyników prezentowanych w niniejszej pracy, ale także do zrozumienia przedstawionych w niej konceptów biologicznych. Sekcja 2.1 poświęcona została bardzo krótkiemu wprowadzeniu do równań różniczkowych. Sekcja 2.2 zawiera wprowadzenie do teorii gier oraz ewolucyjnej teorii gier. W sekcji 2.3 zna- lazła się definicja automatu komórkowego, natomiast w sekcji 2.4 znalazło się wprowa- dzenie do systemów wieloagentowych.

Równanie różniczkowe to równanie wyznaczające zależność między pewną nie- znaną funkcją a jej pochodnymi. Równania różniczkowe wykorzystywane są gdy zmie- niająca się, ciągła i deterministyczna wartość jest zdefiniowana poprzez tempo tych zmian. Tempo to jest wyrażone jako pochodna funkcji opisująca tę zmienną. Przykła- dem prostego równania różniczkowego jest poniższe równanie

𝒅𝒖

𝒅𝒙 = 𝒄𝒖 + 𝒙 (2.1)

gdzie 𝑢 jest nieznaną funkcją zależną od zmiennej 𝑥, natomiast 𝑐 jest pewną stałą.

W przypadku gdy rozważany jest zbiór zależnych od siebie wartości, to sytuacja taka może być opisana za pomocą układu równań różniczkowych.

2.1 Równania różniczkowe

(34)

Równania różniczkowe można podzielić według wielu kryteriów. Najczęściej spotykany jest podział na równania liniowe i nieliniowe. Jeżeli w równaniu różniczko- wym wszystkie zmienne zależne i ich pochodne występują w potędze pierwszej, i nie występują iloczyny funkcji i jej pochodnych, to równanie różniczkowe nazywamy rów- naniem różniczkowym liniowym, a w przypadku przeciwnym – nieliniowym.

Pod względem typów zmiennych oraz pochodnych występujących w równaniach, równania różniczkowe mogą być podzielone na:

 Równania różniczkowe zwyczajne (ang. Ordinary differential equations, ODE), które zawierają funkcję jednej niezależnej zmiennej i jej pochodne. ODE zwykle modelują jednowymiarowe systemy dynamiczne.

 Równania różniczkowe cząstkowe (ang. Partial differential equations, PDE), które zawierają nieznaną funkcję wielu zmiennych i ich pochodne cząstkowe.

PDE są wykorzystywane do formułowania problemów, w których występuje wiele zmiennych i często modelują systemy wielowymiarowe. PDE są często wykorzystywane do tworzenia modeli komputerowych.

 Równania różniczkowe z opóźnionym argumentem (ang. Delay differential equations, DDE), które są równaniami funkcji jednej zmiennej, zwykle czasu, w której pochodna funkcji w danym momencie czasu jest uzależniona od wartości jakie funkcja przyjęła wcześniej.

 Równania różniczkowe stochastyczne (ang. Stochastic differential equations, SDE), w których niewiadoma jest procesem stochastycznym, co sprawia że roz- wiązanie także jest procesem stochastycznym.

Rozwiązanie równania różniczkowego polega na znalezieniu funkcji, która speł- nia to równanie. Jednak tylko najprostsze równania różniczkowe posiadają rozwiązania, które można wyznaczyć analitycznie, i które można wyrazić w postaci jawnej.

W praktyce matematycznej często ważniejsza od samej postaci rozwiązania jest infor- macja o jego istnieniu. Dlatego dla analizy równań różniczkowych istotne jest określe- nie:

 Istnienia rozwiązania, nawet jeśli samego rozwiązania nie można znaleźć.

 Unikalności rozwiązania, to znaczy stwierdzenie, czy jeśli rozwiązanie istnieje, to jest to jedyne rozwiązanie.

 Stabilność rozwiązania, a więc odpowiedź na pytanie, czy małe zmiany w wartościach parametrów równania różniczkowe, na przykład warunków po-

(35)

czątkowych, brzegowych lub wartościach stałych, prowadzą do dużych zmian w rozwiązaniu. Innymi słowy, jeśli małe zmiany w wartościach parametrów prowadzą do jedynie małych zmian w rozwiązaniu, to mówimy, że rozwiązanie jest stabilne.

Ponadto na podstawie wyników analiz wyznaczyć można wiele przydatnych charakte- rystyk równań różniczkowych, z których najważniejsze dla zrozumienia niniejszej pracy są:

 Stany stabilne systemu, a więc określone wartości, na których stabilizują się po pewnym czasie wartości funkcji i które pozostają dalej niezmienne.

 Bifurkacje, czyli krytyczne wartości parametrów lub zmiennych dla których na- stępuje skokowa zmiana zachowania równania.

W przypadku równań różniczkowych posiadających rozwiązanie, którego nie da się podać w postaci dokładnej, często wystarczające jest zastosowanie metod numerycz- nych pozwalających na podanie rozwiązania przybliżonego.

Teoria gier to nauka zajmująca się modelami matematycznymi opisującymi sy- tuacje współzawodnictwa i kooperacji pomiędzy graczami lub agentami. Każdy z graczy ma swoje preferencje, które określają jego sposób działania. Od sposobu dzia- łania gracza zależy jego zysk lub strata, które są określane terminem wypłaty. Zakłada się, że gracze podejmują racjonalne decyzje, co oznacza, że każdy z graczy i) jest świa- domy możliwych rozwiązań, a więc wyników w grze; ii) jest w stanie określać decyzje prowadzące do określonych wyników, iii) działa tak, aby zmaksymalizować swoją wy- płatę. Teoria gier bada strategie, które mogą być realizowane przez graczy w zależności od przyjętych przez nich preferencji.

Grę zwykle obrazuje się za pomocą macierzy wypłat, w której wymienia się graczy, możliwe strategie oraz wypłaty przypisane tym strategiom. Elementy macierzy wypłat są postaci [𝑎𝑖𝑗, 𝑏𝑖𝑗], gdzie 𝑎𝑖𝑗 i 𝑏𝑖𝑗 są wypłatami gracza 1 i gracza 2 w sytuacji, gdy gracz 1 podjął decyzję 𝑖, a gracz 2 decyzję 𝑗. W tabeli 2.1 przedstawiono macierz wypłat dla jednego z najbardziej znanych problemów nazwanego dylematem więźnia.

Problem ten jest opisany następująco:

2.2 Teoria gier i ewolucyjna teoria gier

(36)

Dwóch podejrzanych o popełnienie przestępstwa zostaje ujętych przez policję. Brak jednak wystarczających dowodów na postawienie zarzu- tów. Policja rozdziela więc więźniów i każdego z nich przesłuchuje osobno. Każdemu z więźniów przedstawiona jest ta sama oferta:

 Jeśli więzień będzie zeznawać przeciwko drugiemu, a drugi będzie milczeć, to zeznający wyjdzie na wolność, a milczący dostanie dziesięcioletni wyrok.

 Jeśli obaj będą milczeć, obaj odsiedzą 6 miesięcy za inne przewinienia.

 Jeśli obaj będą zeznawać, obaj dostaną pięcioletnie wyroki.

Więźniowe muszą podjąć decyzję, każdy z nich niezależnie, bez możli- wości kontaktowania się ze współoskarżonym. Tak więc żaden nie jest w stanie dowiedzieć się, czy drugi milczy czy też zeznaje przeciwko niemu, aż do momentu zebrania zeznań i ogłoszenia wyroku. Pytanie brzmi, jak powinni postąpić oskarżeni?

Tabela 2.1 Macierz wypłat dla dylematu więźnia. Liczby w tabeli oznaczają ilość lat spędzo- nych w więzieniu, która zostanie zasądzona oskarżonym w sytuacji przejawiania przez nich

określonego zachowania w trakcie przesłuchań.

Gracz 2 kooperacja

Gracz 2 zdrada Gracz 1

kooperacja

-1/2, -1/2 -10, 0

Gracz 1 zdrada

0, -10 -5, -5

W dylemacie więźnia mamy zatem do czynienia z dwiema strategiami: koopera- cją (milcz) i zdradą (zeznawaj). Zakładamy, że gracze są zainteresowani dostaniem jak najkrótszego wyroku, obojętny jest im natomiast wyrok drugiego oskarżonego. W grze tej zdradzenie partnera zapewnia wyższą wypłatę niż kooperacja. Jeśli współwięzień milczy, zdradzanie skróci wyrok z sześciu miesięcy do zera. Jeśli współwięzień zeznaje,

(37)

zdradzanie skróci wyrok z dziesięciu lat do pięciu. Dlatego każdy racjonalny oskarżony wybrałby w tej sytuacji zdradzanie zamiast kooperacji. Paradoksalnie, doprowadza to do sytuacji gdy obaj gracze dostają pięcioletni wyrok, podczas gdy kooperacja spra- wiłaby, że dostaną niższy wyrok sześciu miesięcy.

W dylemacie więźnia zdrada jest strategią ściśle dominującą, czyli zawsze da- jącą lepszą wypłatę od jakiejś innej strategii, niezależnie od tego, jaką strategię wybie- rze przeciwnik. Równowagą Nasha jest określany taki zestaw strategii, że dowolna zmiana strategii przez jednego gracza nie spowoduje wzrostu wypłaty tego gracza. Za- tem w przypadku dylematu więźnia obopólna zdrada jest równowagą Nasha.

Teoria gier znalazła zastosowanie w wielu dziedzinach takich jak ekonomia, so- cjologia, psychologia, nauki polityczne, logika, informatyka, czy też biologia.

W biologii ewolucyjnej zastosowanie znalazła odmiana teorii gier nazwana ewo- lucyjną teorią gier (ang. evolutionary game theory, EGT), ETG. W ewolucyjnej teorii gier graczami mogą być między innymi gatunki, osobniki danej płci lub geny.

W przeciwieństwie do tradycyjnej teoria gier, ETG zakłada, że gracze nie są racjonalni, a ich strategie są wrodzone i powodują określone zachowania. Gracze nie mogą też zmieniać swoich strategii. Reguły gry określone są przez naturalną selekcję, która okre- śla zmienianie się i wymieranie gatunków. Reguły w ETG zawierają element dynamiki replikatorowej, to znaczy, że reguły mówią jak lepiej dostosowani gracze pozostawią więcej kopii samych siebie w populacji i jak gorzej dostosowani będą usuwani z populacji, co jest wyrażone poprzez równanie replikatorowe będące równaniem róż- niczkowym (por. równanie 3.1). Wypłata jest tutaj rozumiana jako dostosowanie roz- rodcze (ang. fitness), a więc każdy osobnik danego gatunku ma tym większą wypłatę, im większą liczbę potomków wyprodukuje dzięki swoim cechom.

W ETG rozważamy nie graczy wybierających poszczególne strategie, ale same strategie grające ze sobą. Strategia jest lepsza, jeśli pozwala na pozostawienie po sobie większej liczby kopii siebie samej. Ewolucyjna teoria gier bada zmiany rozkładu róż- nych strategii w populacji wraz z kolejnymi grami, a więc jest to gra iteracyjna.

ETG jest fenotypowym podejściem do dynamiki ewolucyjnej (Smith 1982). Opi- suje selekcję naturalną strategii (rozumianą jako fenotypy). Kluczowym aspektem ETG jest zależna od częstości występowania selekcja: dostosowanie jednostki zależy od częstości innych strategii w populacji. Innymi słowy, kluczowe w modelach opar- tych o ewolucyjną teorię gier jest to, że sukces strategii jest określony nie tylko

(38)

na podstawie tego, jak dobra dana strategia jest sama w sobie, ale raczej na podstawie tego, jak dobra jest dana strategia w obecności innych, alternatywnych strategii.

Dla ETG wprowadzono pojęcie strategii ewolucyjnie stabilnej (ang. evolutio- nary stable strategy, ESS), które dotyczy stanu dynamiki w grze, dla którego w nieskończenie dużej populacji współzawodniczących ze sobą graczy, pojawiająca się w bardzo małej ilości strategia mutanta nie może zaburzyć istniejącej dynamiki. Zatem ESS określa taki stan w grze, dla którego:

i. żaden osobnik nie może zwiększyć swojego dostosowania (rozrodczego) po- przez zmianę strategii na inną,

ii. żaden mutant korzystający z innej strategii nie ma szans dokonania „inwazji”

na badaną populację.

Strategia prowadząca do ESS musi być efektywna nie tylko względem strategii alterna- tywnych, ale także względem siebie samej. ESS jest pokrewna w stosunku do równowagi Nasha, jednak równowaga Nasha zakłada sytuację gdy gracze są racjo- nalni, natomiast w przypadku ESS strategie nie są kwestią wyboru, a właściwości, czy też możliwości gracza. Czasem jednak przyjmuje się, że ESS jest równowagą Nasha, która może przeciwstawić się mutantom.

ESS nie jest:

 Strategią optymalną – strategia optymalna maksymalizuje dostosowanie, nato- miast wiele strategii ewolucyjnie stabilnych opisuje stan dostosowania dużo po- niżej teoretycznie możliwego do osiągnięcia dostosowania.

 Unikalnym rozwiązaniem – często wiele strategii ewolucyjnie stabilnych może istnieć w alternatywnych sytuacjach. Konkretne starcie może prowadzić do stabilizacji konkretnego stanu dynamiki będącego w tej sytuacji ESS, jednak zmiana warunków może doprowadzić później do sytuacji, w której faworyzo- wane będzie inne rozwiązanie i stan systemu zmieni się na inną strategię ewolu- cyjnie stabilną.

 Zawsze dostępna – możliwa jest sytuacja w której brak jest ESS. Przykładem ta- kiej gry jest gra kamień-papier-nożyce przejawiana przez wiele organizmów.

 Strategią niepokonaną – ESS jest tylko strategią, na którą nie można dokonać inwazji, nie oznacza to, że nie można jej pokonać.

(39)

ETG okazała się niezwykle przydatna do modelowania i wyjaśnienia wielu zło- żonych zjawisk natury biologicznej, w szczególności wyjaśnienia postaw altruistycz- nych w kontekście darwinowskiego doboru naturalnego.

Automat komórkowy (ang. cellular automata, CA) to regularna siatka ze skończoną liczbą stanów dla każdego z pól, które zmieniają się w dyskretnych kro- kach czasowych (JR Weimar 1994; Alber et al. 2002). Stan konkretnego pola w siatce w określonym czasie zależy od jego własnego stanu oraz stanów sąsiednich pól w poprzednim kroku czasu i jest określony konkretną funkcją przejścia. Stan danej ko- mórki można zdefiniować w następujący sposób:

𝒙𝒕+𝟏 = 𝒇(𝒖(𝒙𝒕), 𝒙𝒕) (2.2)

gdzie: 𝑥𝑡 oznacza stan komórki 𝑥 w chwili 𝑡, 𝑢(𝑥𝑡) stan sąsiedztwa komórki 𝑥 w chwili 𝑡, a 𝑓 określa funkcję przejścia postaci:

𝒇: 𝑺 × 𝚺 → 𝑺 (2.3)

gdzie 𝑆 oznacza skończony zbiór stanów, jaki może przyjąć komórka, a Σ jest sąsiedz- twem komórki 𝑥 (Σ ∈ S𝑤, gdzie 𝑤 oznacza liczbę sąsiadów). Funkcja przejścia może być opisana różnego rodzaju zależnościami, na przykład jako tabela przejść, w postaci algorytmicznej lub jako zbiór reguł. Sąsiedztwo może być definiowane na różne sposo- by, najczęściej jest to sąsiedztwo:

 Moore’a – 8 komórek dookoła rozpatrywanej komórki na siatce prostokątnej;

 von Neumanna – 4 komórki przylegające bokiem.

Jednym z pierwszych i najbardziej znanych przykładów realizacji automatu ko- mórkowego jest Gra w życie (ang. game of life) Johna Conwaya (Gardner 1970).

W grze tej komórki automatu mogą przyjmować dwa stany: żywy lub martwy. Funkcja przejścia określa zależność pomiędzy liczbą komórek żywych i martwych w sąsiedztwie. Na podstawie bardzo prostych reguł możliwe jest osiągnięcie bardzo złożonych wzorców pojawiających się podczas obserwacji ewoluującego automatu ko- mórkowego.

Obecnie automaty komórkowe używane są do symulacji komputerowych mają- cych przyczynić się do znalezienia odpowiedzi na gruncie wielu dziedzin nauki

2.3 Automat komórkowy

(40)

i techniki. CA znalazły też zastosowanie w ewolucyjnej teorii gier do sytuacji, gdy roz- ważane jest rozszerzenie tradycyjnego konceptu ETG na gry przestrzenne.

Systemy wieloagentowe (ang. multiagent system, MAS) składają się ze zbioru agentów które oddziałują ze sobą w dynamicznym środowisku. Według definicji poda- wanej przez Wooldrige i Jennings, agent zdefiniowany jest jako system komputerowy, który jest osadzony w pewnym środowisku, i który jest zdolny do podejmowania auto- nomicznych akcji w tym środowisku po to aby osiągnąć swój zamierzony cel. (Woold- ridge i Jennings 1995)

Agent podejmuje decyzje biorąc pod uwagę swój stan oraz środowisko. Każdy agent działa w lokalnym otoczeniu i ma wiedzę ograniczoną tylko do elementów znajdują- cych się w jego pobliżu. Z punktu widzenia pojedynczego agenta brak jest wiedzy na temat całego systemu, co sprawia że podejmowane przez niego decyzje mogą być nieoptymalne globalnie. Nie ma globalnej kontroli systemu, a zachowanie systemu jest wynikiem równoległego zachodzenia interakcji lokalnych. Co więcej interakcje mogą zachodzić w dowolnej kolejności, a nie w z góry zaplanowanym porządku, tak więc symulacja jest asynchroniczna. Dane na temat systemu są zdecentralizowane i przechowywane lokalnie a nie w centralnej bazie danych. Decyzje mogą zmieniać stan wewnętrzny agenta, jego zachowanie oraz morfologię, a także środowisko, w którym agent się znajduje. W celu analizy zachowania systemu należy przeprowadzić symula- cję jego działania. Technikę taką nazywa się symulacją opartą o agenty (ang. agent- based modeling and simulation) lub symulacją wieloagentową (ang. multiagent simula- tion) (Oren et al. 2000; Klügl i Bazzan 2012).

Symulowanie lokalnych interakcji sprawia, że w systemie wieloagentowym przetwarzanie następuje w kierunku oddolnym (ang. bottom-up approach). Jako rezultat występowania tych lokalnych interakcji obserwowane jest zachowanie globalne syste- mu (Seredynski 1997; Epstein 2006). Zachowanie takie często jest zaskakujące i trudne do przewidzenia biorąc pod uwagę tylko lokalne interakcje zachodzące w systemie, co określa się jako zachowanie wyłaniające się (ang. emergent behavior).

Podejście stosowane w systemach wieloagentowych jest przydatne do modelowania i symulacji systemów biologicznych, ponieważ umożliwia w sposób naturalny reprezentowanie interakcji pomiędzy jednostkami. Pozwala

2.4 Systemy wieloagentowe

(41)

to na modelowanie złożonych systemów biologicznych jako sumę interakcji pomiędzy poszczególnymi jego elementami. Co więcej systemy wieloagentowe nadają się do modelowania stanów o wysokim upakowaniu cząsteczek, takich jak stan wewnątrz komórek żywych, ponieważ modelują globalne zachowanie poprzez interakcje indywi- dulanych agentów. Ponieważ interakcje występują lokalnie, można łatwo zrównoleglić implementację takiej symulacji, co pozwala na modelowanie i symulowanie dużych i skomplikowanych systemów biologicznych.

(42)
(43)

Podstawy biologiczne i chemiczne

Rozdział ten zawiera podstawy biologiczne niezbędne do zrozumienia dalszej pracy oraz jej istoty. Rozpoczyna się od kluczowej dla podejmowanej w niniejszej pra- cy tematyki próby zdefiniowania życia w ujęciu biologicznym (sekcja 3.1). Następnie w sekcji 3.2 przedstawiono podstawowe terminy i zagadnienia biologiczne wykorzy- stywane w pracy. Sekcja 3.3 poświęcona została zagadnieniu ewolucji, ponieważ praca ta w swej istocie traktuje o przejściu ze stanu materii nieożywionej w stan żywy oraz procesom ewolucji jakie mogły zachodzić w systemach prebiotycznych. Następnie w sekcji 3.4 przedstawiona została hipoteza Świata RNA wraz z krótkim przedstawie- niem dowodów na poparcie tej hipotezy. W kolejnych sekcjach 3.5-3.8 znajdują się opisy pojęć kluczowych dla modelowania zagadnienia życia na Ziemi. Sekcja 3.5 opisu- je koncept quasi-gatunku służący do opisania powielanej z błędami populacji cząsteczek RNA. W sekcji 3.6 znajduje się opis równania replikatorowego, które modeluje popula- cje oddziałujących ze sobą cząsteczek RNA. Sekcję 3.7 poświęcono na opis hipercyklu będącego specjalnym przypadkiem równania replikatorowego, a przedstawiającego po- łączone w cykl samoreplikujące się cząsteczki RNA. Ostatnia sekcja 3.8 zawiera opis zbioru autokatalitycznego, który często jest mylony z hipercyklem, zwłaszcza przy in- terpretacji wyników eksperymentalnych poświęconych powstaniu życia na Ziemi.

Życie jest zjawiskiem powszechnym na naszej planecie. Szacuje się, że na Ziemi żyje obecnie od 8,7 miliona (Mora et al. 2011) do biliona (1012) gatunków (Locey i Lennon 2016), z czego tylko nieco ponad 1,6 milionów zostało dotychczas skatalogo- wanych (Catalogue of Life: 2016 Annual Checklist 2016). Pomimo tej bioróżnorodno- ści, samo zdefiniowanie życia jest jednak rzeczą niełatwą i wzbudzającą wiele kontro-

3.1 Życie w ujęciu biologicznym

(44)

wersji (Tsokolov 2009; Benner 2010; Szostak et al. 2016b). Obecnie istnieje wiele defi- nicji życia prezentujących bardzo zróżnicowane punkty widzenia na opisywane zjawi- sko. W niniejszej sekcji zaprezentowanych zostanie kilka definicji, które są zdaniem autorki najbardziej uniwersalne lub znaczące.

Jedne z bardziej znanych definicji życia z perspektywy fizyki teoretycznej są au- torstwa Erwina Schrödingera, laureata Nagrody Nobla, oraz polskiego filozofa i kosmo- loga Michała Hellera. Definicja zaproponowana przez Schrödingera definiuje systemy żywe jako systemy, które samoorganizują się wbrew tendencji natury do nieporządku lub entropii (Schrödinger 1944; Schrodinger 2012). Podobnie, Heller twierdzi, że życie przetwarza energię słoneczną o niskiej entropii poprzez zamianę jej w porządek z rów- noczesnym uwalnianiem nieporządku w postaci ciepła w przestrzeń otaczającą to co żywe (Wójtowicz 2004).

Biolodzy i biochemicy zwracają większą uwagę na wewnętrzne procesy zacho- dzące w komórkach. Przykładowo, biochemik Andrzej Legocki twierdzi, że systemy żywe są charakteryzowane przez metabolizm, a więc zdolność do zdobywania energii oraz możliwość powielania samego siebie (Wójtowicz 2004). Włodzimierz Sedlak, twórca polskiej szkoły bioelektroniki i elektromagnetycznej teorii życia, natomiast defi- niuje życie z perspektywy biofizyki, jako złożony zbiór reakcji chemicznych i przemian elektronów w środowisku półprzewodnikowym białek (Wójtowicz 2004). Z punktu widzenia biologii molekularnej, Jan Barciszewski krótko definiuje życie jako minimal- ny zbiór istotnych genów (Wójtowicz 2004).

Najbardziej znana na świecie definicja życia przedstawia je z perspektywy ewo- lucyjnej. Jest to robocza definicja Narodowej Agencji Aeronautyki i Przestrzeni Ko- smicznej Stanów Zjednoczonych (ang. National Aeronautics and Space Administration of United States, NASA), która przedstawia życie jako samowystarczalny system che- miczny zdolny do ewolucji darwinowskiej (Joyce 1994). Ewolucja w tym kontekście jest podkreślana także przez biologa ewolucyjnego Jana Kozłowskiego, który zaznacza, że złożone struktury biochemiczne mogą być uznawane za żywe, jeśli podlegają ewolu- cji poprzez selekcję naturalną (Wójtowicz 2004).

Życie można by zdefiniować także z perspektywy nauk obliczeniowych. Defini- cja taka obejmowałaby zagadnienie przetwarzania informacji w systemach żywych jako istotny czynnik, który je określa. Życie z tego punktu widzenia może być zdefiniowane jako system przechowujący oraz przetwarzający informacje, który jest zdolny do samo- replikacji bez pomocy innych systemów, które nie przynależą do tego samego rodzaju.

Cytaty

Powiązane dokumenty

• nuclear RNA surveillance: polyadenylation by TRAMP (Trf4/5) followed by degradation by the exosome, Xrn1 or Rat1. • post-transcriptional gene silencing

APA is modulated by different factors: CP, RBPs, splicing and snRNPs, transcription, chromatin structure and histone modification (?).. Alternative cleavage and

APA is modulated by different factors: CP, RBPs, splicing and snRNPs, transcription, chromatin structure and histone modification (?).. Alternative cleavage and

• nascent RNAs couple RNA processing with transcription elongation and chromatin modification. • nascent RNAs modulate binding of proteins to regulatory

TREX-2 and TREX complexes link transcription (Pol II via THO, initiation complex SAGA via Sus1) to export receptors (Mex67, Yra1) and Nuclear Pore Complex. Ig lesia s an d S tu tz

TREX-2 and TREX complexes link transcription (Pol II via THO, initiation complex SAGA via Sus1) to export receptors (Mex67, Yra1) and Nuclear Pore Complex. Iglesias and Stutz,

In situ hybridization shows increse in MMP-9 expression in granular layer and molecular layer of dentate gyrus 2h after medial perforant path LTP... Figure 2 from Michael Doyle

• &gt; 17 short abundant tRFs (13-26 nts), generated by RNaseZ from mature (5’ and 3’ ends) and precursor (3’ trailer) tRNAs identified in the cytoplasm in prostate cancer