Praktyczne konsekwencje wyboru formatu zapisu modelu

4 Przegląd formatów reprezentacji modeli biologicznych

4.1 Praktyczne konsekwencje wyboru formatu zapisu modelu

W drugiej połowie dwudziestego wieku, modelowanie matematyczne rozwinęło się do postaci istotnego obszaru badawczego, który wspierał badania biologiczne. W obszarze medycyny dzięki mo-delowaniu możliwe stało się zrozumienie procesów biologicznych i ich analiza w celu projektowania odpowiednich terapii i metod leczenia. Jak już zostało przedstawione w sekcji 3.3.2 modelowanie mo-żemy podzielić na następujące fazy:

1. Formułowanie hipotez naukowych w oparciu o obserwacje.

2. Modelowanie systemu.

3. Analizę obliczeniową modelu.

4. Weryfikację eksperymentu w oparciu o dane eksperymentalne.

5. Ponowne formułowanie hipotez, jeżeli wyniki są z nimi sprzeczne.

Podczas prac związanych z modelowaniem z wykorzystaniem komputera, należy podjąć istotną decy-zję, który format zapisu wykorzystać do reprezentacji modeli. Najczęściej decyzja ta jest podjęta po-przez wybrane odpowiedniego narzędzia do modelowania i może mieć znaczny wpływ na wynik każdej z wymienionej powyżej faz modelowania.

Typ logicznej reprezentacji danych może wydawać się nieistotny dla badaczy, którzy projektują i analizują modele biologiczne z wykorzystaniem oprogramowania dostarczającego kompletny zestaw narzędzi w postaci graficznego interfejsu użytkownika, takiego jak SimBiology (Shengdi 2010), Cell Col-lective (Helikar et al. 2012), CellDesigner (Funahashi et al. 2008), czy COPASI (Hoops et al. 2006). Jed-nakże format zapisu tworzonych modeli, może mieć istotny wpływ na pracę naukowców. Może to być spowodowane następującymi powodami:

1. Wykorzystując popularny format, możliwe jest zmienienie narzędzi wykorzystując utworzone już modele, bez konieczności budowania ich na nowo. Pozwala to również na wykorzystanie zalet różnych narzędzi pracując nad tym samym modelem.

2. Współpracując z innymi naukowcami, łatwiej współpracować mogąc wykorzystywać znane nam i preferowane przez nas narzędzia, aby otwierać, analizować lub rozbudowywać modele, zaprojektowane przez innych naukowców w innych narzędziach.

3. Powszechnie wykorzystywane formaty ułatwiają wymianę pomysłów, ponieważ sformuło-wane za ich pomocą modele wykorzystują sposoby zapisu znane i zrozumiałe dla społeczności naukowej.

4. Elastyczne i dobrze udokumentowane formaty ułatwiają tworzenie nowego oprogramowania, a także dodawania nowych funkcjonalności do istniejących programów, ze względu na brak konieczności projektowania nowych sposobów zapisu, a także konieczności projektowania praktyk związanych z zapisywaniem.

5. Ze względu na dynamiczny rozwój technologiczny, z wykorzystaniem obecnych systemów ope-racyjnych często nie jest możliwe bezpośrednie wykorzystane oprogramowania, które było rozwinięte dekady temu. Stosowanie powszechnie znanego formatu zapisu, pozwala na wyko-rzystanie zapisów modeli powstałych dawniej, przez obecne narzędzia.

Rozwiązaniem kwestii wymienionych powyżej może być stosowanie translatorów formatów, które po-wstają również w obszarze formatów o tematyce biologicznej. Przykładami takich narzędzia są Vega software (Pedretti et al. 2002), DAMBE (Xia and Xie 2001), a także kilka translatorów związanych z formatem SBML (Hucka et al. 2003). Zasadniczym problemem takich narzędzi jest jednak fakt, że nie-zwykle rzadko cała informacja, którą reprezentuje format danych, może zostać przekazana do innego formatu danych, a co za tym idzie, konwersje często powodują pewne straty informacji. Jest również możliwe, że translator pewne informacje przetłumaczy niepoprawnie, jeżeli twórca narzędzia nie prze-widział wszystkich aspektów wykorzystania formatu. Podobne problemy związane są z funkcjonalno-ścią eksportu danych, która jest dostępna w wielu programach.

Istnieją setki narzędzi stworzone do przetwarzania modeli biologicznych. Dla przykładu lista oprogramowania, które wykorzystuje format SMBL, którą można znaleźć na stronie SBML zawiera obecnie ponad 250 wpisów. Część z tych narzędzi operuje wyłącznie na formacie SBML, jest jednak wiele narzędzi, które korzystają z innych formatów, często dedykowanych dla konkretnych rozwiązań.

Najpopularniejsze standardy biologii systemowej i powiązanych obszarów badawczych są obecnie roz-wijane pod auspicjami inicjatywy COMBINE, między innymi rozwijając SBML, SBGN, SED-ML, CellML i BioPAX (Hucka et al. 2015).

Pomiędzy licznymi formatami zapisu istnieją pewne powiązania i różnice, które pozwoliły na dokonanie klasyfikacji istniejących formatów. Autor niniejszej rozprawy zdefiniował trzy klasy, rozróż-niające strukturę formatów wykorzystanych do przechowywania informacji i dla każdej z nich, wyszu-kałem listę przykładów formatów. Następnie przeanalizowałem jak format jest skonstruowany i inter-pretowany przez oprogramowanie. W dalszej części tego rozdziału opisane zostały charakterystyki związane z przykładowymi formatami zapisu, a także wskazując na poziom doświadczenia, który był wymagany, aby stosować rozwiązania opisanych klas formatów. Pomimo różnic, które dzielą poszcze-gólne klasy formatów, każda z klas posiada swoje zalety i jest przydatna w określonych okolicznościach.

Tabela 1 przedstawia listę wybranych formatów reprezentacji modelów biologicznych. Opisane w dal-szej części rozdziału wyniki zostały opublikowane w czasopiśmie Current Bioinformatics z listy JCR (Prejzendanc et al. 2016).

Format Ref Strona internetowa

Języki z niejawną strukturą

SBML (Hucka et al. 2003) http://sbml.org/

SBGN (Novère et al. 2009) http://www.sbgn.org/

SED-ML (Köhn and Le http://sed-ml.org/

CellML (J Hedley et al.

2001)

https://www.cellml.org/

BioPAX (Demir et al. 2010) http://www.biopax.org/

CopasiML (Hoops et al. 2006) http://copasi.org/

CelleratorML (Shapiro et al.

2003)

Antimony (Smith et al. 2009) http://antimony.sourceforge.net/

MML (Raymond et al.

2003)

http://nsr.bioeng.washington.edu/jsim/

PySCeS Python Ba-sed language

(Olivier et al. 2005) http://pysces.sourceforge.net/

Logo (Tisue and Wilensky 2004)

https://ccl.northwestern.edu/netlogo/

RePAST (Collier 2001) http://repast.sourceforge.net/

SPiM (Phillips and

Cyto-Sim language (Sedwards and Mazza 2007)

http://www.cosbi.eu/Rpty_Soft_CytoSim.php

Kappa (Danos et al. 2008) http://www.kappalanguage.org/

Berkley Madonna language

(Macey et al. 2000) http://www.berkeleymadonna.com/

Matlab (Leros et al. 2010) http://www.mathworks.com/products/matlab/

Octave (Leros et al. 2010) https://www.gnu.org/software/octave/

VCell direct

ACE (Fuchs et al. 2008) http://attempto.ifi.uzh.ch/site/

PENG (White and Schwit-ter 2009)

http://web.science.mq.edu.au/~rolfs/peng/

CPL (Clark et al. 2010) http://meta-guide.com/computer-processable-lan-guage-cpl/

ModeLang (Wasik et al. 2013) http://modelang.cs.put.poznan.pl/

Tabela 1. Formaty zapisu modeli biologicznych.

W dokumencie Wykorzystanie kontrolowanych języków naturalnych do modelowania systemów dynamicznych w bioinformatyce (Stron 88-91)