3. Materiały i metody
3.1. Przygotowanie danych
3.1.1. Białka o długości około 70 reszt aminokwasowych
Wykorzystując zaawansowane opcje wyszukiwania dostępne na stronie bazy PDB [223] wyse-lekcjonowano rekordy PDB (lipiec 2007) zawierające białka oraz spełniające kryterium długości 69-71 (448 unikalnych rekordów). Odrzucono struktury łańcuchów z brakującymi współrzęd-nymi atomów (brak co najmniej dwóch atomów łańcucha głównego lub braki w co najmniej 6 łańcuchach bocznych). Przy pomocy programu BLASTClust [224] przeprowadzono klastro-wanie sekwencji aminokwasowych otrzymanych na podstawie danych z plików PDB w celu wyeliminowania identycznych sekwencji (warunek klastrowania – 100% identyczności na całej
długości obu sekwencji). W ten sposób uzyskano 220 klastrów. Dla każdego klastra wybrano reprezentanta kierując się jakością danych strukturalnych (najlepsza rozdzielczość). Wybranym łańcuchom przypisano identyfikatory bazy UniProtKB [225] w celu określenia rzeczywistej dłu-gości sekwencji wybranych białek oraz usunięcia duplikatów białek (ewentualne mutanty). Na tym etapie wybierając reprezentanta kierowano się podobieństwem sekwencji struktury PDB do jej odpowiednika z bazy UniProtKB. Ostatecznie wybrano 61 białek, których sekwencja aminokwasowa nie przekracza 100 reszt (Tabela 3.1). W zbiorze tym na podstawie informacji o funkcji molekularnej (dostępnej w bazie UniProtKB w postaci terminów GO wyszczególniono następujące grupy: białka wiążące kwasy nukleinowe, inhibitory (w tym toksyny), chemokiny, nośniki elektronów, białka błonowe, białka opiekuńcze, białka, których funkcja nie została jesz-cze poznana (niescharakteryzowane) oraz pozostałe, czyli zbiór pojedynczych reprezentantów zróżnicowanych pod względem funkcji.
Nazwa białka Długość
sekwencji
Funkcja molekularna UP ID, PDB ID∗
Białka wiążące kwasy nukleinowe
50S białko rybosomalne L31 (Ec) 70 Wiązanie rRNA, element strukturalny ry-bosomu, wiązanie jonu cynku
P0A7M9, 1vs8Z
50S białko rybosomalne L29P (Hm) 71 (65) Wiązanie rRNA, element strukturalny ry-bosomu
P10971, 1jj2U
50S białko rybosomalne L37Ae 93 (73) jak L31 (Ec) P60619, 1jj2Y
50S białko rybosomalne L29 67 Element strukturalny rybosomu Q9LCY4, 2hgu1
50S białko rybosomalne L31 (Tt) 71 jak L31 (Ec) Q5SJE1, 2hgu3
30S białko rybosomalne S18 (Ec) 75 (69) jak L29P (Hm) P0A7T7, 2gybR
30S białko rybosomalne S18 (Tt) 88 (73) jak L29P (Hm) Q5SLQ0, 1hr0R
Podjednostka RPABC5 DNA-zależnej polimerazy RNA
70 (65) Wiązanie DNA, aktywność DNA-zale-żnej polimerazy, wiązanie białka, wiąza-nie jonu cynku
P22139, 1i50J
Histon A archeowca (Ph) 67 (66) Wiązanie DNA O74098, 1ku5A
Histon A archeowca (Mf ) 69 (68)
Wiązanie DNA
P48781, 1htaA
Histon B archeowca (Mf ) 69 P19267, 1bfmA
Białko represorowe CI 95 (69) P16117, 1praA
Białko regulatorowe cro (B 434 ) 71 P03036, 1zugA
Białko regulatorowe cro (B λ) 66 (71) Aktywność czynnika transkrypcyjnego P03040, 2orcA Czynnik inicjujący translację IF-1 (Ec) 72 (71)
Wiązanie RNA P69222, 1ah9A
Czynnik inicjujący translację IF-1 (Tt) 72 (71) Q8KLI6, 1hr0W
Białko szoku zimna cspA 70 (69) Wiązanie RNA, wiązanie podwójnego DNA
P0A9X9, 1mjcA
Białko represorowe, Gp39 71 (66) Wiązanie DNA Q37964, 2hinA
Inhibitory, toksyny
Eglina C 70
Aktywność inhibitora endopeptydazy serynowej
P01051, 1eglA
Inhibitor proteazy, LUTI 69 P82381, 1dwmA
Inhibitor trypsyny i czynnika Hagemana 68 P19873, 1tinA
Kontynuacja Tabeli na następnej stronie
3.1 Przygotowanie danych 27
Nazwa białka Długość
sekwencji
Funkcja molekularna UP ID, PDB ID∗
Uteroglobina 91 (70) aktywność inhibitora fosfolipazy A2, wią-zanie steroidów
P02779, 1utgA
Beta-toksyna owada, BmKIT1 88 (69) Aktywność inhibitora kanałów sodowych O61668, 1wwnA Długa neurotoksyna 1 71 (68) Aktywność inhibitora receptora
acetylo-cholinowego
P01391, 1yi5F
Podjednostka B toksyny 1 typu Shiga 89 (69)
Toksyna P69179, 1c4qA
Podjednostka B toksyny 2 typu Shiga 89 (70) P09386, 1r4pB
Chemokiny
Motyw C-C chemokiny 3 92 (69)
Aktywność chemokiny
P10147 , 1b53A
Motyw C-C chemokiny 4 92 (69) P13236, 1humA
Motyw C-C chemokiny 17 94 (69) Q92583, 1nr4E
Motyw C-C chemokiny 20 (Mm) 97 (70) O89093, 1ha6A
Motyw C-C chemokiny 20 (Hs) 96 (68) P78556, 2hciA
Motyw C-C chemokiny 26 94 (71) Q9Y258, 1g2tA
Wirusowa chemokina MIP-II 94 (71) Q98157, 1vmpA
Nośniki elektronów
Cytochrom c-553 92 (71) Aktywność nośnika elektronów,
wiązanie hemu
P82599, 1c75A
Cytochrom c3 91 (71) Q8GGK7, 1os6A
Wysokopotencjałowe białko żelazowo-siarkowe
71 Aktywność nośnika elektronów, wiązanie klastrów 4S4Fe, wiązanie jonów żelaza
P38524, 1hpiA
Białka błonowe
Białko wewnątrzbłonowe pufX 82 (70) – P13402, 2itaA
Podjednostka IV fotosystemu I (Aq) 70 (69)
Aktywność katalityczna P31969, 1psfA
Podjednostka IV fotosystemu I (N sp.) 70 Q9WWP1, 1qp2A
Białka opiekuńcze
Chaperon miedzi oksydazy cytochro-mu c
69 Aktywność chaperonu miedzi, wiązanie białka
Q12287, 1z2gA
Chaperon miedzi copZ 69 Wiązanie ATP, aktywność ATPazowa,
wiązanie jonów miedzi, aktywność trans-portu transmembranowego
O32221, 2qifA
Białka niescharakteryzowane
Białko MTH 1184 (Mt) 71 – O27252, 1gh9A
Prawdopodobne białko (Mt) 70 – O27775, 1ryjA
UPF0165 białko AF 2212 ( Pf ) 61 (69) – O28071, 2nwtA
Prawdopodobne białko (Tt) 69 (68) – Q8U1Z3, 1sf0A
Prawdopodobne białko (Tt) 69 (70) – Q5SH17, 1whzA
Prawdopodobne białko (Tt) 69 (68) – Q5SIE3, 2cz8D
Prawdopodobne białko (Tt) 69 – Q5SIT3, 2e6xA
Prawdopodobne białko (Mc) 63 (71) – Q60C73, 2js5A
UPF0434 białko BB2007 (Bb) 62 (70) – Q7WKU6, 2js4A
UPF0337 białko yjbJ (Ec) 69 Wiązanie białka P68206, 1rykA
Pozostałe
Białko przeciw zamarzaniu typu-3 66 (65) – P19614, 1kdeA
Dezintegryna triflawiny 70 (68) Wiązanie białka P21859, 1j2lA
Kontynuacja Tabeli na następnej stronie
Nazwa białka Długość sekwencji
Funkcja molekularna UP ID, PDB ID∗
Podjednostka 2 dehydrogenazy meta-nolowej
91 (69) Aktywność dehydrogenazy alkoholowej P38540, 2ad7B
Podjednostka regulatorowa cyklinozale-żnej kinazy
79 (69) Cyklino-zależna aktywność regulatorowa kinazy białkowej, wiązanie białka
P61024, 2astC
Ubikwityna 76 (73) Wiązanie białka, aktywność regulatorowa
transkrypcji
P62990, 2fifA
Hydrofobina-2 86 (71) – P79073, 2pl6A
Białko transportujące lipidy, nsLTP-2 86 (69) Wiązanie lipidów Q10ST8, 1l6hA
Białko eksportujące typu-III, pscE 67 (70) – Q9I317, 2uwjE
Białko de novo 68 – – , 2avpA
Tabela 3.1: Krótka charakterystyka wyselekcjonowanych białek o długości około 70 reszt ami-nokwasowych w strukturze. Podano długości pełnych sekwencji oraz w nawiasie liczbę reszt w strukturze. W przypadku tych samych białek pochodzących z różnych organizmów obok nazwy białka podano w nawiasie skrót nazwy organizmu.
Skróty nazw organizmów: Aq – Agmenellum quadruplicatum, B 434 – Bakteriofag 434, B λ – Bakteriofag λ, Bb – Bordetella bronchiseptica, Ec – Escherichia coli, Hm – Haloarcula marismortui, Mc – Methylococcus capsulatus, Mf – Methanothermus fervidus, Mt – Methanobacterium thermoautotrophicum, N sp. – Nostoc sp., Pf – Pyrococcus furiosus, Ph – Pyrococcus horikoshii, Tt – Thermus thermophilus.
∗ Na końcu identyfikatora PDB dodano nazwę łańcucha.
Sekwencje struktur PDB poddano analizie przy pomocy serwisu ClustalW [226, 227] dostęp-nego poprzez interfejs programu JalView [228]. Otrzymane nałożenie wielosekwencyjne (MSA) posłużyło do wstępnej analizy podobieństwa w wyselekcjonowanej grupie struktur. Na podsta-wie nałożenia MSA utworzono drzewo metodą najbliższych sąsiadów przyjmując jako metrykę podobieństwo sekwencji obliczone na podstawie macierzy BLOSUM62.