• Nie Znaleziono Wyników

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO

N/A
N/A
Protected

Academic year: 2021

Share "Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny opis funkcji w ontologii GO"

Copied!
30
0
0

Pełen tekst

(1)

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny

opis funkcji w ontologii GO

Bogumil Konopka

1

, Jean-Christophe Nebel

2

, Malgorzata Kotulska

1

*

1

Politechnika Wrocławska , Wydział Podstawowych Problemów Techniki, Instytut Inżynierii Biomedycznej i Pomiarowej

2

Kingston University, Faculty of Computing Information Systems and Mathematics, UK

(2)

Plan prezentacji

• Czym są programy MQA?

• Proponowany algorytm oceny jakości

• Relacja struktura3D/funkcja białek

• Walidacja narzędzia

Slajd 2

(3)

Czym są programy MQA Model Quality Assessment - definicja problemu

• Programy MQA szacują jakość modeli białek, których struktura nie jest znana.

Obraz uzyskany w PyMOL

Slajd 3

(4)

• Główne założenie:

– Istnieje silny związek pomiędzy funkcją i strukturą białka

STRUKTURA FUNKCJA

Określenie jakości modelu

Slajd 4

(5)

Określenie jakości modelu

Sekwencja aminokwasowa

Funkcja

Slajd 5a

(6)

Określenie jakości modelu

Sekwencja aminokwasowa

Funkcja

Model 3D białka

Slajd 5b

(7)

Określenie jakości modelu

Funkcje białek (terminy GO)

Sekwencja aminokwasowa

Funkcja

Białka podobne

(poszukiwania w bazie danych)

Model 3D białka

(L. Holm, C. Sander 1993) (L. Holm, C. Sander 1993)

Slajd 5c

(8)

Określenie jakości modelu

Gene Ontology

Funkcje białek (terminy GO)

Sekwencja aminokwasowa

Funkcja

FX

F

F F

F F

F F

Białka podobne

(poszukiwania w bazie danych)

Model 3D białka

(L. Holm, C. Sander 1993) (L. Holm, C. Sander 1993)

Slajd 5d (Nat. Genet.. May 2000;25(1):25-9)

(9)

Określenie jakości modelu

Gene Ontology

Funkcje białek (terminy GO)

Sekwencja aminokwasowa

Funkcja

FX

F

F F

F F

F F

Białka podobne

(poszukiwania w bazie danych)

Model 3D białka

(L. Holm, C. Sander 1993) (L. Holm, C. Sander 1993)

( J. Z. Wang,et. al 2007)

Slajd 5e (Nat. Genet.. May 2000;25(1):25-9)

(10)

Określenie jakości modelu

Gene Ontology

Funkcje białek (terminy GO)

Sekwencja aminokwasowa

Funkcja

FX

F

F F

F F

F F

Białka podobne

(poszukiwania w bazie danych)

Model 3D białka

(L. Holm, C. Sander 1993) (L. Holm, C. Sander 1993)

( J. Z. Wang,et. al 2007)

Slajd 5f (Nat. Genet.. May 2000;25(1):25-9)

(11)

• Prawdziwy pozytywny – struktura jest podobna do modelu i ma funkcję zbliżoną do funkcji celu przewidywania

• Fałszywy pozytywny –

struktura jest podobna do modelu, lecz funkcja jest różna niż funkcja celu

przewidywań

Określenie jakości modelu

Slajd 6

(12)

Określenie jakości modelu

Podobieństwo funkcji > wartość progowa

Podobieństwo funkcji < wartość progowa

• Prawdziwy pozytywny – struktura jest podobna do modelu i ma funkcję zbliżoną do funkcji celu przewidywania

• Fałszywy pozytywny –

struktura jest podobna do modelu, lecz funkcja jest różna niż funkcja celu

przewidywań

Slajd 6

(13)

Określenie jakości modelu

Gene Ontology

Funkcje białek (terminy GO)

Sekwencja aminokwasowa

Funkcja

FX

F

F F

F F

F F

Białka podobne

(poszukiwania w bazie danych)

Model 3D białka

(L. Holm, C. Sander 1993) (L. Holm, C. Sander 1993)

( J. Z. Wang,et. al 2007)

Slajd 5g (Nat. Genet.. May 2000;25(1):25-9)

(14)

Określenie jakości modelu

Krzywe dla wszystkich wartości progowych

Gene Ontology

Funkcje białek (terminy GO)

Sekwencja aminokwasowa

Funkcja

FX

F

F F

F F

F F

Białka podobne

(poszukiwania w bazie danych)

Model 3D białka

(L. Holm, C. Sander 1993) (L. Holm, C. Sander 1993)

( J. Z. Wang,et. al 2007)

Slajd 5h (Nat. Genet.. May 2000;25(1):25-9)

(15)

Określenie jakości modelu

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0

0.2 0.4

0.6 0.8 1

AUC calculated at different similarity tresholds

1py6a.pdb_pdb90

Similarity treshold

A U C

Pole pod krzywą jest miarą jakości badanego modelu

Slajd 7

(16)

GOBA – GeneOntology-Based Assessment

Proponowane miary jakości

• meta_AUC

• meta_AUC_y – uwzględnia stopień

podobieństwa strukturalnego poszczególnych sąsiadów strukturalnych

• meta_AUC2 – uwzględnia ogólny poziom podobieństwa sąsiadów strukturalnych

Slajd 8

(17)

GOBA – GeneOntology-Based Assessment

Walidacja narzędzia – modele idealne

• Cele CASP8

– 71 spośród 121 – znana funkcja

• Zbadano idealne modele – struktury natywne

Modele idealne - wyniki uzyskane przez struktury natywne

0 2 4 6 8 10 12 14 16

Less 0.421 0.489 0.558 0.627 0.696 0.765 0.834 0.903 More Przedziały meta_AUC

Czestotliwość

Meta_AUC

Meta_AUC

sr

= 0.754 SD = 0.127

Slajd 9

(18)

Analiza związku struktura 3D/funkcja w białkach

Relacja podobieństwa strukturalnego i funkcyjnego

0 0.2 0.4 0.6 0.8 1 1.2

0 10 20 30 40 50

- Podobieństwo strukturalne DALI Z Score

Podobieństwosemantycznefunkcji

Pearson’s R = 0.597

Slajd 10

(19)

GOBA – GeneOntology-Based Assessment

Walidacja narzędzia – predykcje CASP8

• Analizie poddano:

– 13009 modeli*

– 27 różnych celów (31)

Punkt odniesienia – obiektywna miara jakości GDT_TS (A.Zemla, 2003)

*Modele pobrano z http://predictioncenter.org/download_area/CASP8

Slajd 11

(20)

Walidacja aplikacji oraz miary "meta_AUC"

0 0.2 0.4 0.6 0.8 1 1.2

0 20 40 60 80 100 120

GDT_TS

m e ta _ A U C

meta_AUC

GOBA – GeneOntology-Based Assessment

Walidacja narzędzia – predykcje CASP8

Pearson ‘s R = 0.511

Slajd 12

(21)

meta_AUC correlations distribution

0 2 4 6 8 10 12

-0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

R Bins

F re q u e n c y

GOBA – GeneOntology-Based Assessment

Walidacja narzędzia – predykcje CASP8

• Korelacja stworzonych miar z GDT_TS, obliczona dla modeli poszczególnych celów

meta_AUCy correlation distribution

0 2 4 6 8 10 12 14

-0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

R Bins

F re q u e n c y

R

sr

= 0.454 R

sr

= 0.521

Slajd 13

(22)

GOBA – GeneOntology-Based Assessment

Walidacja narzędzia – predykcje CASP8

meta_AUC correlations distribution

0 2 4 6 8 10 12

-0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

R Bins

F re q u e n c y

meta_AUC2 correlations distribution

0 2 4 6 8 10 12

-0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

R Bins

F re q u e n c y

R

sr

= 0.454 R

sr

= - 0.167

Slajd 14

(23)

Podsumowanie

• Stworzono aplikację (GOBA) szacującą jakość modeli strukturalnych białek.

• Narzędzie poprawnie rozpoznaje idealne modele:

– Średni wynik 0.754

• Dla najlepszej testowanej miary uzyskano dodatnią korelację wyników z obiektywną miarą jakości - R = 0.51

• Dla badanej grupy białek, na podstawie podobieństwa funkcyjnego dwóch cząsteczek można wyznaczyć górną graniczną wartość ich podobieństwa strukturalnego.

Slajd 15

(24)

Ocena jakości modeli strukturalnych białek w oparciu o podobieństwo strukturalne i semantyczny

opis funkcji w ontologii GO

Bogumil Konopka

1

, Jean-Christophe Nebel

2

, Malgorzata Kotulska

1

*

1

Politechnika Wrocławska , Wydział Podstawowych Problemów Techniki, Instytut Inżynierii Biomedycznej i Pomiarowej

2

Kingston University, Faculty of Computing Information Systems and Mathematics, UK

(25)

Slajdy dodatkowe

(26)

Opracowane miary jakości

meta_AUC meta_AUCy meta_AUC2

AUC

2

= AUC∗max

Z

max

Z

−median

Z

x= 1 FP

total

y = 1 TP

total

x= 1 FP

total

y=Z

sc

∗ 1

TP

total

(27)

Analiza związku struktura 3D/funkcja w białkach

Wpływ wielkości białka na związek struktura/funkcja

0 0.2 0.4 0.6 0.8 1

0 100 200 300 400 500 600 700 800

Długość łańcuch aminokwasowego

Pearson's R

Wpływ stopnia uszczegółowienia opisu funkcji białka na relację struktura/funkcja

0 0.2 0.4 0.6 0.8 1

0 2 4 6 8 10

Liczba przypisanych terminów GO

Pearson's R

(28)

• DALI – Distance mAtrix aLIgnement

• Obliczane są odległości między atomami C

α

• Opierając się na odległościach można zindetyfikować:

– Struktury drugorzędowe (SS) – Odziaływania pomiędzy SS

• Metoda umożliwia wyszukiwanie podobjeństw między białkami,

bezwzględu na skład aminokwasowy

L.Holm , C. Sander, “Protein Structure Comparison by Alignment of Distance Matrices”, J.Mol.Biol 233 p.123-138 (1993)

Procedura oceny

(29)

• GO– Gene Ontology

• Terminy GO:

– Cellular Component – lokalizacja,

– Biological Process – proces biologiczny , – Molecular Function – pełniona funkcja

The Gene Ontology Consortium. Gene ontology: tool for the unification of biology.

Nat. Genet.. May 2000;25(1):25-9.

Procedura oceny

(30)

Model 3D

DALI

Terminy GO

sąsiadów strukturalnych

Krzywe ROC Terminy GO

celu

Procedura oceny

Cytaty

Powiązane dokumenty

Najważniejszym twierdzeniem feministek radykalnych jest to, że „nikt się nie rodzi kobietą”, czyli płeć - kobiecość czy męskość - nie jest dziełem

Jeśli bowiem interesuje nas granica funkcji w +∞, to przy +∞ muszą się skupiać punkty dziedziny, co sprowadza się do tego, że dziedzina musi być nieograniczona z

Referencja jest drugą nazwą, „przezwiskiem” - nie przezwiskiem klasy, ale danego egzemplarza jej obiektu. Wysyłając taki egzemplarz obiektu do funkcji na zasadzie

Nie należy też z tego powodu być dumnym i wynosić się nad innych.. Trzeba podchodzić do tego, kim się jest z prostotą

W tej wersji do

• Młodzi ludzie chcą się uczyć, gdy widzą sens swojego zaangażowania, gdy ich działalność jest praktyczna i dotyka bliskiej im rzeczywistości oraz trafia do podobnych do

„Prawa przyrodnicze tym się różnią od prawa pozytywnego, ustanowionego przez ludzi, że do poznania jego oczywistości dochodzi się samym rozumem i że skutkiem tej

Model FRAMA wykorzystujący globalny wymiar fraktalny wykresu oraz lokalne wartości tego wymiaru szybciej sygnalizuje zmiany trendu oraz określa sygnały kupna i sprzedaży