Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny
opis funkcji w ontologii GO
Bogumil Konopka
1, Jean-Christophe Nebel
2, Malgorzata Kotulska
1*
1
Politechnika Wrocławska , Wydział Podstawowych Problemów Techniki, Instytut Inżynierii Biomedycznej i Pomiarowej
2
Kingston University, Faculty of Computing Information Systems and Mathematics, UK
Plan prezentacji
• Czym są programy MQA?
• Proponowany algorytm oceny jakości
• Relacja struktura3D/funkcja białek
• Walidacja narzędzia
Slajd 2
Czym są programy MQA Model Quality Assessment - definicja problemu
• Programy MQA szacują jakość modeli białek, których struktura nie jest znana.
Obraz uzyskany w PyMOL
Slajd 3• Główne założenie:
– Istnieje silny związek pomiędzy funkcją i strukturą białka
STRUKTURA FUNKCJA
Określenie jakości modelu
Slajd 4
Określenie jakości modelu
Sekwencja aminokwasowa
Funkcja
Slajd 5a
Określenie jakości modelu
Sekwencja aminokwasowa
Funkcja
Model 3D białka
Slajd 5b
Określenie jakości modelu
Funkcje białek (terminy GO)
Sekwencja aminokwasowa
Funkcja
Białka podobne
(poszukiwania w bazie danych)
Model 3D białka
(L. Holm, C. Sander 1993) (L. Holm, C. Sander 1993)
Slajd 5c
Określenie jakości modelu
Gene Ontology
Funkcje białek (terminy GO)
Sekwencja aminokwasowa
Funkcja
FX
F
F F
F F
F F
Białka podobne
(poszukiwania w bazie danych)
Model 3D białka
(L. Holm, C. Sander 1993) (L. Holm, C. Sander 1993)
Slajd 5d (Nat. Genet.. May 2000;25(1):25-9)
Określenie jakości modelu
Gene Ontology
Funkcje białek (terminy GO)
Sekwencja aminokwasowa
Funkcja
FX
F
F F
F F
F F
Białka podobne
(poszukiwania w bazie danych)
Model 3D białka
(L. Holm, C. Sander 1993) (L. Holm, C. Sander 1993)
( J. Z. Wang,et. al 2007)
Slajd 5e (Nat. Genet.. May 2000;25(1):25-9)
Określenie jakości modelu
Gene Ontology
Funkcje białek (terminy GO)
Sekwencja aminokwasowa
Funkcja
FX
F
F F
F F
F F
Białka podobne
(poszukiwania w bazie danych)
Model 3D białka
(L. Holm, C. Sander 1993) (L. Holm, C. Sander 1993)
( J. Z. Wang,et. al 2007)
Slajd 5f (Nat. Genet.. May 2000;25(1):25-9)
• Prawdziwy pozytywny – struktura jest podobna do modelu i ma funkcję zbliżoną do funkcji celu przewidywania
• Fałszywy pozytywny –
struktura jest podobna do modelu, lecz funkcja jest różna niż funkcja celu
przewidywań
Określenie jakości modelu
Slajd 6
Określenie jakości modelu
Podobieństwo funkcji > wartość progowa
Podobieństwo funkcji < wartość progowa
• Prawdziwy pozytywny – struktura jest podobna do modelu i ma funkcję zbliżoną do funkcji celu przewidywania
• Fałszywy pozytywny –
struktura jest podobna do modelu, lecz funkcja jest różna niż funkcja celu
przewidywań
Slajd 6
Określenie jakości modelu
Gene Ontology
Funkcje białek (terminy GO)
Sekwencja aminokwasowa
Funkcja
FX
F
F F
F F
F F
Białka podobne
(poszukiwania w bazie danych)
Model 3D białka
(L. Holm, C. Sander 1993) (L. Holm, C. Sander 1993)
( J. Z. Wang,et. al 2007)
Slajd 5g (Nat. Genet.. May 2000;25(1):25-9)
Określenie jakości modelu
Krzywe dla wszystkich wartości progowych
Gene Ontology
Funkcje białek (terminy GO)
Sekwencja aminokwasowa
Funkcja
FX
F
F F
F F
F F
Białka podobne
(poszukiwania w bazie danych)
Model 3D białka
(L. Holm, C. Sander 1993) (L. Holm, C. Sander 1993)
( J. Z. Wang,et. al 2007)
Slajd 5h (Nat. Genet.. May 2000;25(1):25-9)
Określenie jakości modelu
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0
0.2 0.4
0.6 0.8 1
AUC calculated at different similarity tresholds
1py6a.pdb_pdb90
Similarity treshold
A U C
Pole pod krzywą jest miarą jakości badanego modelu
Slajd 7
GOBA – GeneOntology-Based Assessment
Proponowane miary jakości
• meta_AUC
• meta_AUC_y – uwzględnia stopień
podobieństwa strukturalnego poszczególnych sąsiadów strukturalnych
• meta_AUC2 – uwzględnia ogólny poziom podobieństwa sąsiadów strukturalnych
Slajd 8
GOBA – GeneOntology-Based Assessment
Walidacja narzędzia – modele idealne
• Cele CASP8
– 71 spośród 121 – znana funkcja
• Zbadano idealne modele – struktury natywne
Modele idealne - wyniki uzyskane przez struktury natywne
0 2 4 6 8 10 12 14 16
Less 0.421 0.489 0.558 0.627 0.696 0.765 0.834 0.903 More Przedziały meta_AUC
Czestotliwość
Meta_AUC
Meta_AUC
sr= 0.754 SD = 0.127
Slajd 9
Analiza związku struktura 3D/funkcja w białkach
Relacja podobieństwa strukturalnego i funkcyjnego
0 0.2 0.4 0.6 0.8 1 1.2
0 10 20 30 40 50
- Podobieństwo strukturalne DALI Z Score
Podobieństwosemantycznefunkcji
Pearson’s R = 0.597
Slajd 10
GOBA – GeneOntology-Based Assessment
Walidacja narzędzia – predykcje CASP8
• Analizie poddano:
– 13009 modeli*
– 27 różnych celów (31)
Punkt odniesienia – obiektywna miara jakości GDT_TS (A.Zemla, 2003)
*Modele pobrano z http://predictioncenter.org/download_area/CASP8
Slajd 11Walidacja aplikacji oraz miary "meta_AUC"
0 0.2 0.4 0.6 0.8 1 1.2
0 20 40 60 80 100 120
GDT_TS
m e ta _ A U C
meta_AUC
GOBA – GeneOntology-Based Assessment
Walidacja narzędzia – predykcje CASP8
Pearson ‘s R = 0.511
Slajd 12
meta_AUC correlations distribution
0 2 4 6 8 10 12
-0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
R Bins
F re q u e n c y
GOBA – GeneOntology-Based Assessment
Walidacja narzędzia – predykcje CASP8
• Korelacja stworzonych miar z GDT_TS, obliczona dla modeli poszczególnych celów
meta_AUCy correlation distribution
0 2 4 6 8 10 12 14
-0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
R Bins
F re q u e n c y
R
sr= 0.454 R
sr= 0.521
Slajd 13
GOBA – GeneOntology-Based Assessment
Walidacja narzędzia – predykcje CASP8
meta_AUC correlations distribution
0 2 4 6 8 10 12
-0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
R Bins
F re q u e n c y
meta_AUC2 correlations distribution
0 2 4 6 8 10 12
-0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
R Bins
F re q u e n c y
R
sr= 0.454 R
sr= - 0.167
Slajd 14
Podsumowanie
• Stworzono aplikację (GOBA) szacującą jakość modeli strukturalnych białek.
• Narzędzie poprawnie rozpoznaje idealne modele:
– Średni wynik 0.754
• Dla najlepszej testowanej miary uzyskano dodatnią korelację wyników z obiektywną miarą jakości - R = 0.51
• Dla badanej grupy białek, na podstawie podobieństwa funkcyjnego dwóch cząsteczek można wyznaczyć górną graniczną wartość ich podobieństwa strukturalnego.
Slajd 15
Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny
opis funkcji w ontologii GO
Bogumil Konopka
1, Jean-Christophe Nebel
2, Malgorzata Kotulska
1*
1
Politechnika Wrocławska , Wydział Podstawowych Problemów Techniki, Instytut Inżynierii Biomedycznej i Pomiarowej
2
Kingston University, Faculty of Computing Information Systems and Mathematics, UK
Slajdy dodatkowe
Opracowane miary jakości
meta_AUC meta_AUCy meta_AUC2
AUC
2= AUC∗max
Zmax
Z−median
Z x= 1 FP
total y = 1 TP
total x= 1 FP
total y=Z
sc∗ 1
TP
totalAnaliza związku struktura 3D/funkcja w białkach
Wpływ wielkości białka na związek struktura/funkcja
0 0.2 0.4 0.6 0.8 1
0 100 200 300 400 500 600 700 800
Długość łańcuch aminokwasowego
Pearson's R
Wpływ stopnia uszczegółowienia opisu funkcji białka na relację struktura/funkcja
0 0.2 0.4 0.6 0.8 1
0 2 4 6 8 10
Liczba przypisanych terminów GO
Pearson's R
• DALI – Distance mAtrix aLIgnement
• Obliczane są odległości między atomami C
α• Opierając się na odległościach można zindetyfikować:
– Struktury drugorzędowe (SS) – Odziaływania pomiędzy SS
• Metoda umożliwia wyszukiwanie podobjeństw między białkami,
bezwzględu na skład aminokwasowy
L.Holm , C. Sander, “Protein Structure Comparison by Alignment of Distance Matrices”, J.Mol.Biol 233 p.123-138 (1993)
Procedura oceny
• GO– Gene Ontology
• Terminy GO:
– Cellular Component – lokalizacja,
– Biological Process – proces biologiczny , – Molecular Function – pełniona funkcja
The Gene Ontology Consortium. Gene ontology: tool for the unification of biology.
Nat. Genet.. May 2000;25(1):25-9.