• Nie Znaleziono Wyników

Cel pracy

4.2. Operacje zaimplementowane w programie ModeRNA

4.2.1. Przygotowanie danych wejściowych

4.2.1.1. Oczyszczanie struktury szablonu

Struktura szablonu wczytywana jest do programu ModeRNA z pliku PDB. Użytkownik musi podać jego nazwę oraz identyfikator łańcucha, który ma zostać wykorzystany do modelowania. Program ModeRNA sprawdza czy dana struktura nie zawiera cech, które utrudnią lub uniemożliwią modelowanie. Przygotowuje szczegółowy raport o zidentyfikowanych trudnościach i wymienia identyfikatory problematycznych reszt.

Część problemów może zostać usunięta z pliku PDB podczas operacji oczyszczania struktury.

Wszystkie cechy wskazane jako utrudniające modelowanie zostały ustalone przez testowanie programu na plikach z bazy PDB i są to:

 Cząsteczki ligandów, jonów lub wody.

 Nieciągłość łańcucha RNA.

 Łańcuch białkowy.

 Niekompletna lub brakująca zasada.

 Stara nomenklatura nazw atomów rybozy i grupy fosforanowej.

 Brakujące reszty fosforanowe.

 Reprezentacja uproszczona (reszta nukleotydu reprezentowana jest przez pojedynczy atom fosforu).

 Obecność alternatywnych współrzędnych dla atomu.

Obecność wody, jonów lub ligandów w łańcuchu może spowodować, że sekwencja szablonu nie będzie zgodna z sekwencją w przyrównaniu. Na końcu sekwencji szablonu odczytanej przez program ModeRNA pojawią się kropki oddzielone podkreśleniem dolnym.

Kropka (.) oznacza nierozpoznaną resztę, natomiast podkreślenie dolne (_) wskazuje, że nie jest ona połączona z innymi resztami cząsteczki RNA. Przykładowo, sekwencja łańcucha RNA, w którym występuje pojedynczy jon będzie wyglądała następująco:

AAAAA_.

A w przypadku, jeśli pojawi się w nim kilka (w poniższym przykładzie dziesięć) cząsteczek jonów:

AAAAA_._._._._._._._._._.

Seryjne występowanie wody i jonów jest częste w strukturach PDB i można je obserwować np. w tRNA fenyloalaninowym drożdży – kod PDB: 1EHZ (60 cząsteczek wody oraz sześć jonów magnezu i trzy jony manganu).

Nieciągłość łańcucha RNA może być spowodowana brakującymi atomami łańcucha głównego, zbyt dużą odległością między atomami (niepoprawna długość wiązania/wiązań), lub brakiem całej reszty/grupy reszt. Oznaczać może również, że dwie reszty nie są połączone np. stanowią końce 3′ i 5′ helisy, której obie nici mają ten sam identyfikator łańcucha.

W programie ModeRNA obecność przerwy jest reprezentowana w sekwencji przez znak podkreślenia dolnego (_), np.

AA_AAA

Cecha ta nie jest naprawiana podczas operacji oczyszczania szablonu, ponieważ wiązałoby się to ze zbyt dużą ingerencją w koordynaty struktury rozwiązanej doświadczalnie. Ciągłość łańcucha jest naprawiana w modelu. Użytkownik może też próbować poprawić ciągłość łańcucha w szablonie na własną odpowiedzialność, używając dedykowanej do tego celu operacji (funkcja fix_backbone()). Przyczyny nieciągłości łańcucha nie są jednoznaczne i w niektórych przypadkach jej usunięcie nie jest możliwe. Przykładowo, w strukturze większej podjednostki rybosomu Haloarcula marismortui (kod PDB: 1FFK) występuje dziewięć regionów nieciągłości łańcucha o identyfikatorze „0”. Wszystkie wynikają z nieobecności niektórych reszt nukleotydów. Brakuje fragmentów o długości od jednej reszty aż do stu (między resztami o identyfikatorach 2136 i 2237). Nieciągłości łańcucha wynikające z takiej przyczyny nie mogą być naprawione przez optymalizację długości wiązań, wymagają użycia opcji do modelowania i wstawienia brakujących reszt (rozdział 4.2.2.4), co w przypadku fragmentu o długości stu reszt może prowadzić do uzyskania cząsteczki o strukturze dalekiej od natywnej.

W przypadku wczytania do programu ModeRNA łańcucha białkowego jego sekwencja nie zostanie rozpoznana i będzie przedstawiona jako kropki (.) oddzielone podkreśleniami dolnymi (_):

._._._._._._._._._._.

Program ModeRNA nie modeluje białek i reszty aminokwasów nie są rozpoznawane.

Podczas procesu oczyszczania takiego szablonu wszystkie reszty zostaną usunięte, a wynikiem będzie pusty łańcuch. Użytkownik powinien użyć łańcucha zawierającego cząsteczkę kwasu nukleinowego do przeprowadzenia modelowania.

Niekompletna lub brakująca zasada nie zostanie zidentyfikowana przez program ModeRNA i w sekwencji pojawi się na miejscu takiej reszty znak kropki (.), tym razem wewnątrz sekwencji, np.

AAA.AA

Naprawienie takiej reszty nie jest możliwe podczas operacji oczyszczania struktury.

Jednak nadal może ona być wykorzystywana w procesie modelowania i jej zasada może zostać zastąpione przez dowolną inną, pod warunkiem, że reszta ma kompletny pierścień rybozy oraz posiada atom N1 (w przypadku pirymidyny) lub atom N9 (w przypadku puryny).

Stara nomenklatura nazw atomów rybozy i grupy fosforanowej (spotykana w przed ujednoliceniem nazewnictwa w 2008 roku), czyli obecność znaku gwiazdki (*) zamiast znaku prim (′) oraz niewłaściwy szyk liter (np. O1P zamiast OP1), uniemożliwia poprawne rozpoznawanie wiązania fosfodiestrowego pomiędzy resztami nukleotydów.

Skutkuje to pojawieniem się podkreśleń dolnych (_) w sekwencji, wskazujących na nieciągłości łańcucha:

A_A_A_A_A

Niestandardowe nazwy podczas operacji oczyszczania struktury są zastępowane nową nomenklaturą.

Brak grupy fosforanowej na końcu 5′ nie ma swoich konsekwencji w sekwencji odczytanej przez program ModeRNA, w innych miejscach spowoduje wstawienie znaku podkreślenia dolnego (_). Ponadto spowoduje to problemy gdy dana reszta ma zostać użyta jako reszta kotwicząca podczas wstawiania fragmentu (rozdział 4.2.2.4). Atom fosforu jest

bowiem niezbędny przy nakładaniu fragmentu tak, aby pasował do struktury modelu.

Brak grupy fosforanowej dotyczy najczęściej reszty nukleotydowej na końcu 5′ łańcucha (np. 16S RNA E. coli, kod PDB: 1YOU). Program ModeRNA podczas operacji oczyszczania struktury dobudowuje brakującą grupę fosforanową.

W przypadku, kiedy reszty mają reprezentację uproszczoną, np. jednej reszcie odpowiada pojedynczy atom fosforu lub atom fosforu i węgiel C4′, a pozostał atomy nie są obecne, modelowanie nie może zostać przeprowadzone. Program ModeRNA wymaga reprezentacji pełnoatomowej szablonu. Reszty zawierające jedynie pojedynczy atom fosforu zostaną usunięte podczas operacji oczyszczania szablonu.

Dla atomów posiadających alternatywne położenia używane są współrzędne wymienione jako pierwsze w pliku PDB. Większa liczba współrzędnych wynika z różnego położenia części populacji danego atomu podczas analizy kryształu, co jest spowodowane nieuporządkowaniem danego fragmentu bądź błędem podczas krystalizacji.

Podczas sprawdzania struktury na obecność cech mogących przeszkodzić w modelowaniu generowany jest komunikat o istnieniu takich atomów. Jeśli użytkownik chce zachować inne współrzędne niż te wymienione jako pierwsze musi redagować plik ze strukturą i zamienić odpowiednie linie.

Podsumowując, program ModeRNA nie tylko sprawdza występowanie problematycznych cech w strukturze, ale może również usunąć lub poprawić część z nich:

 Usuwa cząsteczki wody, jonów i ligandów z łańcucha.

 Usuwa reszty aminokwasowe z łańcucha.

 Zmienia nomenklaturę nazw atomów rybozy i grupy fosforanowej (C4*  C4′, O1P  OP1).

 Dodaje brakujące grupy fosforanowe.

 Usuwa reszty nukleotydów o reprezentacji uproszczonej do pojedynczych atomów fosforu.

Użytkownik może zatem sprawdzić i wyeliminować problematyczne cechy. Operacja ta może być wykonana niezależnie od procesu modelowania. Cechy takie mogą bowiem nie tylko utrudnić budowę modelu przez program ModeRNA, ale mogą również stanowić

przeszkodę we wczytaniu pliku do innych programów bioinformatycznych. Podsumowując, po oczyszczeniu szablonu użytkownik dostaje strukturę, która nie zawiera wody, jonów, ligandów, aminokwasów i reszt o uproszczonej reprezentacji, ma nową nomenklaturę nazw atomów, a wszystkie reszty zawierają kompletną grupę fosforanową.

Funkcje umożliwiające wykonanie operacji sprawdzenia i oczyszczenia struktury szablonu to: examine_structure() i clean_structure().