• Nie Znaleziono Wyników

Bazy rodzin białek

W dokumencie Bioinformatyczne bazy danych (Stron 52-60)

Mając pewną sekwencję białkową i przeszukując internetowe zasoby biologicz-nych baz dabiologicz-nych, poszukujemy najczęściej odpowiedzi, jakie cechy posiada oraz jakie funkcje biologiczne może pełnić białko reprezentowane przez

intere-sującą nas sekwencję. W przypadku jeżeli taka sekwencja istnieje już w bazie danych, uzyskanie takiej informacji jest bardzo łatwe – możemy wprost skorzy-stać ze zgromadzonej wcześniej informacji. Co jednak w przypadku, gdy pró-bujemy określić własności całkowicie nowej sekwencji białkowej? Dawno już zauważono, iż białka o podobnych sekwencjach charakteryzują się podobień-stwem pod względem funkcjonalnym, stąd też mając nieznaną wcześniej se-kwencję białkową i wiedząc, jakie funkcje pełnią białka o sekwencji podobnej, możemy przewidywać funkcje naszego nowego białka. Im mamy więcej białek o sekwencji podobnej pełniących podobne funkcje biologiczne, tym większe jest prawdopodobieństwo, że nasze przewidywania będą poprawne. Stąd też w dzisiejszej bioinformatyce ogromnie ważna rola przypada tak zwanym ba-zom rodzin białek (nazywanych również bazami danych wzorców sekwencji lub wtórnymi bazami danych).

Tworząc wtórne bazy danych, wykorzystuje się fakt, iż ogromna liczba se-kwencji umieszczonych w bazach danych takich jak UniProtKB może, na pod-stawie podobieństw pomiędzy sekwencjami, zostać podzielona na grupy na-zywane rodzinami białek. Okazuje się, że białka należące do poszczególnych rodzin zazwyczaj pełnią podobne funkcje biologiczne i często pochodzą od wspólnego przodka. Badając rodziny białek zaobserwowano, że pewne frag-menty sekwencji zostały w trakcie ewolucji lepiej zakonserwowane od innych elementów. Zachowane fragmenty zazwyczaj okazują się ważne z punktu wi-dzenia funkcjonowania białka, a także często mają wpływ na kształt przestrze-nnej struktury białka. Analizując stałe i zmienne fragmenty sekwencji białek należących do danej rodziny, można określić tak zwaną sygnaturę rodziny lub domeny, która pozwala na odróżnienie wszystkich członków należących do tej rodziny od pozostałych białek. Inne określenie takiego powtarzającego się frag-mentu sekwencji to motyw. Często stosowaną analogią jest tu porównywanie sygnatury do odcisku linii papilarnych. Tak jak odcisk linii papilarnych może być wykorzystany w celu identyfikacji konkretnej osoby, tak samo sygnatura białkowa może zostać wykorzystana, aby przyporządkować nowo zsekwencjo-nowane białka do właściwej im rodziny białek, co pozwala na formułowanie hipotez na temat biologicznych funkcji pełnionych przez dane białko. Z uwagi na fakt, że bazy rodzin białek tworzone są na podstawie dopasowań wielo-sekwencyjnych, wykrywanie odległego pokrewieństwa pomiędzy sekwencjami jest zazwyczaj skuteczniejsze niż bezpośrednie przeszukiwanie baz danych se-kwencji.

Podział sekwencji na rodziny białek może się odbywać według różnych kryteriów, stąd też istnieje wiele różnych baz rodzin białek. Niniejszy rozdział stanowi próbę przedstawienia czytelnikowi kilku najważniejszych baz danych rodzin białek wraz z krótki opisem metod, które każda z baz danych wykorzy-stuje do znajdowania rodzin białek. Istnieje wiele odmiennych podejść, które mogą być wykorzystywane do wyszukiwania takich sekwencji – na rysunku 5.3 przedstawiono różne schematy, które wykorzystywane są do tworzenia wzor-ców charakteryzujących poszczególne typy rodzin białek. Każda z metod wy-szukiwania rodzin białek ma swoje wady oraz zalety i każda z nich posiada

48 5 Bazy danych sekwencji białkowych

swój obszar zastosowań, w którym sprawdza się najlepiej. Żadnego z podejść nie można traktować jako podejścia najlepszego bądź najgorszego, a raczej należy uznać, że metody te uzupełniają się wzajemnie i oferują zróżnicowane możliwości tworzenia dopasowań wielosekwencyjnych.

Rysunek 5.3. Schemat obrazujący trzy główne podejścia do tworzenia baz rodzin białek. Klasyfikacja sekwencji może być prowadzona na podstawie: (1) istnienia po-jedynczego motywu, (2) jednoczesnego występowania wielu motywów lub (3) wy-znaczonego dopasowania sekwencji całych domen.

Na podstawie: [Higgs and Attwood, 2008]

5.2.1 PROSITE

Baza danych PROSITE [Hulo et al., 2008] powstała w 1988 roku i tym samym historycznie jest najstarszą bazą danych rodzin białek. Rekordy umieszczone w bazie PROSITE można podzielić na trzy grupy: dokumenty, które zawierają opis rodzin białek, domen i miejsc funkcyjnych (odcinków sekwencji białka o ustalonej funkcji biologicznej), oraz wzorce i profile, które pozwalają na ich identyfikację. Uzupełnieniem bazy PROSITE jest ProRule – zbiór reguł zbudowanych na podstawie wzorców i profili, które zwiększają zdolności dys-kryminacyjne wzorców oraz profile poprzez dostarczanie dodatkowej informa-cji o funkcjonalności iłub strukturze najważniejszych aminokwasów. Reguły ProRule wykorzystywane są w procesie anotacji i pozwalają na automatyczne wygenerowanie opisu białka w formacie UniProtKB/Swiss-Prot. W momen-cie powstania w bazie PROSITE dostępnych było 58 wzorców, podczas gdy w sierpniu 2009 roku w bazie znajdowało się 1308 wzorców, 862 profile i 868 reguł ProRule.

PROSITE Patterns

Twórcy bazy wzorców PROSITE uznali, że każdą rodzinę białek można scha-rakteryzować za pomocą krótkich, dobrze zakonserwowanych fragmentów se-kwencji aminokwasów. Zazwyczaj, poszukiwany wzorzec zawiera około 10-20 aminokwasów i jest bardzo istotnym fragmentem sekwencji z punktu widze-nia właściwości, jakie posiada dane białko. Istnienie takiego krótkiego, dob-rze zakonserwowanego motywu najczęściej związane jest z istnieniem akty-wnego miejsca enzymu, miejsca wiązania jonu metalu albo ligandu, czy też miejscem powstawania wiązań disulfidowyuch. Motyw sekwencyjny w bazie PROSITE reprezentowany jest w formie wyrażenia regularnego (ang. regular

expression) lub inaczej wzorca. Na każdej pozycji takiego wzorca znajdować

się może dowolny aminokwas lub pewien akceptowalny podzbiór aminokwa-sów, może również występować pewna ilość powtórzeń. Istnieją również takie miejsca wzorca, do których pasuje tylko jeden aminokwas lub można określić, jakie aminokwasy nie powinny się na danej pozycji znajdować. W szczególnych przypadkach niektóre rodziny białek są charakteryzowane przez współwystę-powanie kilku różnych wzorców.

Zalety stosowania wzorców to przede wszystkim łatwość ich zrozumienia przez użytkownika oraz fakt, że wzorce zorientowane są na najbardziej zakon-serwowane fragmenty sekwencji, co ma swoje uzasadnienie ewolucyjne z uwagi na znaczenie zachowanych motywów dla własności biologicznych białek. Po-nieważ zakonserwowane sekwencje są krótkie, przeszukiwanie bazy danych pod kątem wybranego wzorca jest operacją, którą można wykonać bardzo szybko. Natomiast podstawową wadą wzorców jest to, że są one wyrażeniami jakoś-ciowymi, to znaczy, że dany fragment sekwencji może pasować do wzorca lub jest przez ten wzorzec odrzucany i nie istnieje żaden sposób oceny, który po-zwoliłby określić, w jakim stopniu analizowana sekwencja podobna jest do wzorca. Taka wrażliwość na zmianę nawet pojedynczego aminokwasu w sek-wencji może rodzić problemy, szczególnie wtedy, gdy pokrewieństwo pomiędzy przedstawicielami niektórych rodzin jest zbyt odległe.

PROSITE Profiles

W celu zmniejszenia ograniczeń, jakie niesie ze sobą stosowanie wzorców, w ba-zie PROSITE stworzono profile, które pozwalają na szacowanie dopasowania analizowanej sekwencji do wzorca nie tylko pod względem jakościowym, ale również ilościowym. Profil (lub zamiennie – tablica wag) jest tablicą zawie-rającą punktację, którą przyznaje się za występowanie zmian na kolejnych pozycjach dopasowania. Każde wystąpienie w sekwencji określonego typu ami-nokwasu, zastąpienie go przez inny aminokwas, usunięcie lub wstawienie jest wartościowane. Na podstawie sumy punktów przyznanych dopasowywanej se-kwencji można wyznaczyć wartość podobieństwa dla dopasowania pomiędzy profilem a sekwencją. Możemy określić również pewną graniczną wartość do-pasowania i uznać, że dopasowanie, dla którego wyznaczona wartość podo-bieństwa przekracza wartość graniczną, oznacza wystąpienie motywu. Profile

50 5 Bazy danych sekwencji białkowych

pozwalają na wykrywanie odległych relacji ewolucyjnych pomiędzy sekwen-cjami, w których jedynie nieliczne fragmenty sekwencji są zakonserwowane. Różnią się również od wzorców tym, że charakteryzują rodziny domeny białek nie tylko na niewielkim, najbardziej zakonserwowanym fragmencie sekwencji, ale na całej jej długości.

Wzorce oraz profile PROSITE są dwoma narzędziami, które wzajemnie się uzupełniają. Wzorce ograniczone do niewielkich, zakonserwowanych ewolucyj-nie fragmentów sekwencji sprawdzają się znakomicie w zadaniach przewidy-wania biologicznych funkcji nowych białek – np. ich aktywności enzymatycz-nej. Z drugiej strony, profile, które wyznaczają podobieństwo w obszarze całej domeny białka, z powodzeniem wykorzystywane do przewidywania struktury białka.

5.2.2 PRINTS

Analizując dopasowania sekwencji, zaobserwowano, że większość rodzin białek charakteryzuje się występowaniem nie jednego, ale kilku silnie konserwatyw-nych motywów sekwencyjkonserwatyw-nych. Zbiór takich motywów (albo ich większości) występujących w rodzinie białek określa się mianem śladu rodziny białek (ang. fingerprint). Ślad jest zestawieniem charakterystycznych cech sekwen-cji definiujących ich przynależność do pewnej rodziny białek. Klasyfikowanie sekwencji na podstawie kilku różnych motywów charakteryzuje się lepszą zdol-nością rozpoznawczą, gdyż zwykle nie wymaga się, aby w dopasowaniu brały udział wszystkie motywy tworzące ślad danej rodziny białek. Przykładowo sekwencja, która dopasowuje cztery z siedmiu motywów definiujących rodzinę białek, może wciąż zostać uznana za sekwencję należącą do danej rodziny, je-żeli pasujące motywy ułożone są w odpowiedniej kolejności, a odległości po-między pasującymi motywami są zgodne z oczekiwanymi odległościami, jakie powinny występować pomiędzy motywami sekwencji należącej do danej ro-dziny białek.

Baza danych zawierająca ślady rodzin białek nazywa się PRINTS, a jej pierwsza elektroniczna wersja została wydana w 1993 roku [Attwood, 2002]. Obecnie baza danych zarządzana jest przez uniwersytet w Manchesterze (Wie-lka Brytania), a wersja bazy z lutego 2009 liczyła 1950 rekordów zawierających 11 625 indywidualnych motywów. W każdym kolejnym wydaniu bazy pojawia się 50 nowych rekordów ze śladami rodzin białek. Z uwagi na fakt, iż ślady rodzin białek wyszukiwane są ręcznie, przyrost nowych rekordów w bazie jest dość powolny. Do 2003 roku nowe wydania bazy pojawiały się regularnie co kwartał, natomiast w ostatnich latach tempo dodawania nowych rekordów do bazy wyraźnie zmalało – pomiędzy 2005 a 2009 rokiem w bazie pojawiło się tylko 100 nowych rekordów. Dlatego, aby przyspieszyć proces wyszuki-wania nowych sekwencji, opracowano dodatek do bazy PRINTS – narzędzie prePRINTS służące do automatycznego wyszukiwania śladów rodzin bia-łek. Znalezione przez prePRINTS ślady rodzin białek są potencjalnymi

kan-dydatami do umieszczenia w bazie PRINTS – po manualnym sprawdzeniu i uzupełnieniu przez kuratorów.

5.2.3 Pfam

Baza danych Pfam [Bateman et al., 2004] jest kolejną bazą domen oraz rodzin białek. Identyfikacja rodziny, do której należy białko w bazie Pfam, odbywa się na podstawie całej sekwencji (a nie jednego czy kilku wybranych motywów), a dopasowania reprezentowane są przez profile i przez ukryte modele Mar-kowa (HMM, ang. Hidden Markov Models). Ukryte modele MarMar-kowa są sta-tystyczną metodą klasyfikacji sekwencji zdarzeń. Łańcuch Markowa może być traktowany jako pewien proces stochastyczny, którego ewolucja zależy od jego aktualnego stanu. Stan reprezentuje zaistnienie pewnego zdarzenia (np. wy-stąpienie danego znaku, brak wystąpienia znaku) oraz istnieje pewien zestaw dopuszczalnych przejść pomiędzy stanami. W zastosowaniu do modelowania konserwatywnych odcinków sekwencji model HMM przybiera postać liniowego łańcucha trzech typów stanów: stanu dopasowującego element sekwencji (ang.

match state), stanu wstawiającego element sekwencji (ang. insert) oraz stanu

usuwającego element sekwencji (ang. delete state).

Rodziny białek znajdujące się w bazie Pfam podzielone są na dwie katego-rie: Pfam-A oraz Pfam-B. Każda rodzina należąca do bazy Pfam-A repre-zentowana jest za pomocą trzech odrębnych elementów: (1) zbioru dopasowań zalążkowych (ang. seed alignment) – ręcznie zweryfikowanego przez kuratora zbioru sekwencji reprezentatywnych dla danej rodziny, (2) profili HMM zbudo-wanych na podstawie dopasowań zalążkowych oraz (3) automatycznie wyge-nerowanego pełnego dopasowania, które zawiera wszystkich członków rodziny wykrytych podczas przeszukiwania podstawowych baz sekwencji. Różnica po-między zbiorem dopasowań zalążkowych a zbiorem pełnych dopasowań ułat-wia uaktualnianie bazy danych: dopasowania zalążkowe są stałe, podczas gdy pełne dopasowania oraz profile HMM mogą być generowane automatycznie dla każdego nowego wpisu pojawiającego się w bazie sekwencji. Wpisy umiesz-czone w bazie Pfam-B są automatycznie generowane na podstawie zasobów bazy ProDom i reprezentowane są poprzez pojedyncze dopasowanie. Tak więc z jednej strony użytkownik ma do wyboru bazę Pfam-A, która nadzorowana jest ręcznie przez kuratorów, co uwiarygadnia otrzymany w wyniku analizy zbiór dopasowań i zapewnia wysoką jakość anotacji, a z drugiej strony użyt-kownik może skorzystać z automatycznej bazy Pfam-B, dzięki czemu liczba pojawiających się nowych rekordów w bazie Pfam zwiększa się wraz z przy-rostem danych w bazach sekwencji.

Każda rodzina określona jest za pomocą nazwy, stałego numeru dostępu i zawiera opis parametrów modelu, który został wykorzystany do zidentyfi-kowania jej członków. Dołączony jest również krótki opis funkcjonalny, infor-macje na temat interakcji z innymi rodzinami oraz struktura domeny. Bardzo często umieszczone są również odnośniki do dokumentacji z innych źródeł takich jak bazy PROSITE czy PRINTS.

52 5 Bazy danych sekwencji białkowych

Większość rodzin znajdujących się w bazie Pfam powstała na bazie odpo-wiadającym tym rodzinom zbiorów motywów zdefiniowanych w bazie PRO-STIE lub w bazie PRINTS. W wielu przypadkach jednakże przyporządkowa-nia sekwencji do poszczególnych rodzin mogą się różnić pomiędzy bazą Pfam a bazami PROSTIE i PRINTS. Jest to oczywiście wynik różnych metod sto-sowanych do przyporządkowywania sekwencji do poszczególnych rodzin. Naj-częstsze różnice polegają na tym, że wzorce PROSTIE lub ślady PRINTS roz-poznają silnie zakonserwowany motyw, który dzielony jest pomiędzy członków nadrodziny białek, i traktują jej członków jako należących do jednej rodziny, podczas gdy w bazie Pfam wyróżnionych zostanie kilka rodzin białek. Z drugiej strony zdarzają się sytuacje, gdy baza Pfam rozpozna nadrodzinę białek, pod-czas gdy w bazach PROSTIE lub PRINTS sekwencje należące do tej nadro-dziny zostaną przyporządkowane do oddzielnych rodzin charakteryzowanych przez odrębne motywy.

5.2.4 ProDom

Zasoby bazy danych ProDom [Bru et al., 2005], utrzymywanej oraz rozwija-nej na Uniwersytecie Claude Bernard we Francji, generowane są w sposób au-tomatyczny. Do konstruowania rodzin białek w bazie ProDom wykorzystuje się programu MKDOM2, który iteracyjnie przegląda bazy danych sekwencji białkowych za pomocą algorytmu PSI-BALAST (Position specific iterative

BLAST ) w poszukiwaniu homologicznych domen. Sekwencje źródłowe

wyko-rzystywane do zbudowania bazy ProDom pochodzą z bazy UniProtKB i są to tylko sekwencje ciągłe (tj. pozbawione przerw), natomiast do inicjalizacji pro-cedury grupowania wykorzystano domeny pochodzące z bazy danych SCOP. Znalezione sekwencje tworzące rodzinę są do siebie dopasowywane.

Każdy wpis w bazie ProDom charakteryzowany jest przez unikalny numer dostępu. Z uwagi na fakt, że każde wydanie bazy budowane jest od nowa, ko-nieczne jest stworzenie takiego sposobu, który pozwoliłby w różnych wersjach bazy danych nadawać te same numery dostępu odpowiadającym sobie rodzi-nom białek. W tym celu napisany został program MatchDom, który na pod-stawie podobieństwa pomiędzy rekordami różnych wersji bazy ProDom prze-pisuje numery dostępu odpowiadającym sobie rodzinom białek. Zdefiniowano również zasady nadawania numeru dostępu w przypadku, gdy struktura rodzi-ny ulega zmianie. Jeżeli rodzina zostanie podzielona na dwie części, wówczas numer dostępu z poprzedniej wersji przypisywany jest jednej z nowo tworzo-nych rodzin oraz tworzony jest nowy numer dostępu dla drugiej rodziny. Jeśli natomiast kilka wpisów zostanie połączonych w jedną rodzinę, nowy rekord otrzymuje poprzedni numer dostępu jednej z rodzin tworzących nowy wpis. Numery dostępu pozostałych rodzin również wskazują na nowy rekord, niem-niej jednak oznaczone są komentarzem mówiących o ich dezaktualizacji (ang.

obsolete).

Wersja bazy ProDom z listopada 2008 roku zawierała 574656 rodzin domen posiadających co najmniej dwie sekwencje.

5.2.5 PIRSF

Baza danych PIRSF – (PIR SuperFamily) [Wu et al., 2004] jest bazą danych rodzin białek rozwijaną od 1993 roku przez grupę badawczą Protein Infor-mation Resources. Rodziny PIRSF uporządkowane są w sposób hierarchiczny wokół koncepcji rodzin i nadrodzin obejmujących białka o podobnej sekwen-cji. System klasyfikacji bazuje na poszukiwaniu podobieństwa między białkami poprzez analizę całych sekwencji, a nie poprzez porównywanie domen czy mo-tywów. Zależności pomiędzy rodzinami reprezentowane są jako sieć powiązań zbudowana na podstawie zależności ewolucyjnych występujących pomiędzy białkami. W sieci reprezentowanej w formie acyklicznego grafu skierowanego można wyróżnić trzy poziomy: poziom rodzin homeomorficznych, poziom nad-rodzin oraz poziom podnad-rodzin. Każdy węzeł grafu reprezentowany jest przez rodzinę, nadrodzinę lub podrodzinę PIRSF oraz unikalny identyfikator (UID), w postaci PIRSFxxxxxx (gdzie x oznacza cyfrę).

Podstawowe węzły tworzone są przez rodziny homeomorficzne, które zawierają białka będące równocześnie homologami (pochodzące od jednego przodka), jak i homomorfami (charakteryzującymi się podobieństwem na dłu-gości całej sekwencji oraz podobną architekturą domenową). Każde białko mo-że być przypisane tylko i wyłącznie do jednej rodziny, która momo-że posiadać jednego lub więcej rodziców oraz jednego lub więcej potomków. Każdy węzeł musi zwierać opis, na który składają się: nazwa rodziny, typ relacji rodzic/po-tomek, listę białek wchodzących w skład rodziny oraz sygnatura architektury domenowej białka. Opis może być rozszerzony o informacje na temat rodziny, odnośniki do literatury oraz słowa kluczowe/terminy GO opisujące daną rodzi-nę. Dodatkowo dla każdego węzła automatycznie generowane są dopasowania wielosekwencyjne, drzewo filogenetyczne rodziny oraz modele HMM rodziny.

Ponad węzłami podstawowymi zdefiniowana została sieć węzłów nadro-dzin (ang. superfamily nodes), które stanowią połączenia pomiędzy odległymi rodzinami białek i pojedynczymi białkami nie należącymi do żadnej z rodzin. Nadrodziny mogą być tworzone poprzez sekwencje homeomorficzne – rodziny homeomorficzne o wspólnej architekturze domenowej wraz z podobieństwem na całej długości sekwencji, chociaż częściej tworzone są na podstawie podo-bieństwa pomiędzy domenami – rodziny domenowe o wspólnej architekturze domenowej z częściowym podobieństwem na całej długości sekwencji. Opis węzłów poziomu nadrodzin zawiera nazwę nadrodziny, typ relacji rodzic/po-tomek, listę białek wchodzących w skład nadrodziny oraz listę wspólnych do-men nadrodziny. Dodatkowo opis może być rozszerzony o informacje na temat rodziny, odnośniki do literatury oraz słowa kluczowe/terminy Ontologii Ge-nowych.

Z kolei poniżej węzłów podstawowych znajdują się węzły podrodzin, któ-re któ-repktó-rezentowane są przez homeomorficzne i homologiczne grupy białek i two-rzą podział białek zgodny z pełnioną przez nie funkcją biologiczną iłub po-siadających zmienną architekturę domenową. Podobnie jak w przypadku wę-złów rodzin homeomorficznych, anotacje węwę-złów podrodzin zawierają nazwę

54 5 Bazy danych sekwencji białkowych

podrodziny, typ relacji rodzic/potomek, listę członków podrodziny i dodatko-wo mogą zawierać opis, listę publikacji oraz słowa kluczowe. Dodatkododatko-wo dla każdej podrodziny generowane są dopasowania wielosekwencyjne, drzewa filo-genetyczne, profile HMM, a także dostępne są dopasowania wielosekwencyjne ręcznie nadzorowane przez kuratorów.

5.3 Integracja zasobów pochodzących z odrębnych baz

W dokumencie Bioinformatyczne bazy danych (Stron 52-60)

Powiązane dokumenty