Podobieństwo semantyczne w ontologiach biomedycznych
Bogumił Konopka
Politechnika Wrocławska
Wydział Podstawowych Problemów Techniki Instytut Inżynierii Biomedycznej i Pomiarowej
KN “BioNanopor”
Plan prezentacji
●
Wstęp definicje
–
Ontologia
–
Podobieństwo semantyczne
●
GO (gene ontology) – Przykład ontologii
●
Miary podobieństwa semantycznego
–
Porównywanie terminów
–
Porównywanie zbiorów terminów
–
Ocena poprawności
●
Przykłady zastosowań
Wstęp Ontologia
Ontologia
[gr. on óntos ‘będący’, ‘byt’, óntos on ‘rzeczywiście będący, istniejący’, lógos ‘słowo’, ‘nauka’, ‘teoria’],filozficzna nauka o bycie; w sensie pierwotnym — termin używany od XVII w. (J. Clauberg, Ch. Wolff) zamiennie ze starszą nazwą metafizyka; odnosi się do arystotelesowskiej „filozofii pierwszej” jako do nauki o bycie jako bycie, następnie do kontynuacji jej rozważań w teorii bytu, zajmującej się bytem w jego naturze powszechnym;
Encyklopedia PWN
Ontologia od lat 70tych XX w. jest terminem
wykorzystywanym w informatyce.
Wstęp ontologia
Ontologia
[gr. on óntos ‘będący’, ‘byt’, óntos on ‘rzeczywiście będący, istniejący’, lógos ‘słowo’, ‘nauka’, ‘teoria’],filozficzna nauka o bycie; w sensie pierwotnym — termin używany od XVII w. (J. Clauberg, Ch. Wolff) zamiennie ze starszą nazwą metafizyka; odnosi się do arystotelesowskiej „filozofii pierwszej” jako do nauki o bycie jako bycie, następnie do kontynuacji jej rozważań w teorii bytu, zajmującej się bytem w jego naturze powszechnym;
Encyklopedia PWN
●
Ontologia w informatyce wykorzystuje:
–
Kategoryzację – przyporządkowanie obiektu do określonej klasy obiektów (na podstawie cech)
–
Hierarchizację – klasy umiejscowione są w hierarchicznej strukturze. Klasy dziedziczą cechy z klas nadrzędnych.
●
Ontologia – słownik, zbiór powiązanych terminów
Wstęp – ontologia
Wstęp – podobieństwo semantyczne
Semantyka językoznawcza – nauka o znaczeniu wyrazów
Wstęp – podobieństwo semantyczne
Semantyka językoznawcza – nauka o znaczeniu wyrazów
Podobieństwo semantyczne – podobieństwo znaczenia
● Cel
– Standaryzacja opisu genów oraz białek
● Zadania
– Tworzenie i kontrola słownika wyrażeń
– Opisywanie obiektów
– Dostarczenie narzędzi do przetwarzania zgromadzonych danych
● Struktura
– Molecular function (8660)
– Biological Process (17893)
– Cellular Component (2625)
Gene Ontology GO
Gene Ontology GO
Gene Ontology GO
Gene Ontology GO
Gene Ontology GO
Gene Ontology GO
Gene Ontology GO
● Opisywany obiekt: 2he4A > Q15599
Gene Ontology GO
Molecular function Biological Process Cellular Component
GO:0005515 GO:0006461 GO:0016324 GO:0008022 GO:0048839 GO:0016020
GO:0016247 GO:0012505
GO:0005886 GO:0005737 GO:0005634
● Opisywany obiekt: 2he4A > Q15599
Gene Ontology GO
Molecular function Biological Process Cellular Component
protein binding protein complex
assembly nucleus
protein Cterminus
binding inner ear development cytoplasm channel regulator
activity plasma membrane
membrane apical plasma
membrane
extrinsic to membrane
Miary podobieństwa semantycznego
Miary podobieństwa semantycznego
Miary podobieństwa semantycznego
Miary podobieństwa semantycznego
● Metody mierzące odległość pomiędzy terminami
Miary bazujące na krawędziach
● Metody mierzące wspólną drogę do korzenia drzewa
● Metody mierzące odległość pomiędzy terminami
Miary bazujące na krawędziach
● Metody mierzące wspólną drogę do korzenia drzewa
● Metody mierzące odległość pomiędzy terminami
Miary bazujące na krawędziach
● Metody mierzące wspólną drogę do korzenia drzewa
● Metody mierzące odległość pomiędzy terminami
Miary bazujące na krawędziach
● Metody mierzące wspólną drogę do korzenia drzewa
● Metody mierzące odległość pomiędzy terminami
Miary bazujące na krawędziach
● Metody mierzące wspólną drogę do korzenia drzewa
● Zaleta – bardzo intuicyjne, zbliżone do sposobu wnioskowania ludzi
● Podstawowe założenia:
– Węzły i krawędzie są rozmieszczone równomiernie
– Krawędzie na tym samym poziomie w grafie odpowiadają tej samej odległości
semantycznej (znaczeniowej)
Miary bazujące na krawędziach
Miary bazujące na węzłach
● Wykorzystują właściwości porównywanych terminów, terminów poprzedzających (“przodków”) lub
terminów następujących (“dzieci”).
– Np. Information Content IC (informatywność)
Miary bazujące na węzłach
IC=−log p c
p(c) – prawdopodobieństwo wystąpienia terminu “c” w określonej bazie● p (c) oblicza się jako częstotliwość przypisań danego terminu;
● IC oblicza się również wykorzystując liczbę “dzieci”
terminu;
● Wykorzystują właściwości porównywanych terminów, terminów poprzedzających (“przodków”) lub
terminów następujących (“dzieci”).
– Np. Information Content IC (informatywność)
Miary bazujące na węzłach
IC=−log p c
p(c) – prawdopodobieństwo wystąpienia terminu “c” w określonej bazie● p (c) oblicza się jako częstotliwość przypisań danego terminu;
● IC oblicza się również wykorzystując liczbę “dzieci”
terminu;
● MICA (Most Informative Common Ancestor)
Miary bazujące na węzłach
● DCA (Disjoint Common Ancestor)
● MICA (Most Informative Common Ancestor)
Miary bazujące na węzłach
● DCA (Disjoint Common Ancestor)
● Najbardziej popularne miary podobieństwa semantycznego korzystające z IC.
– Resnik
– Lin
– Jian & Conrath
– Schlicker
Miary bazujące na węzłach
simResc1,c2=IC cMICA
simLinc1,c2= 2xICcMCIA IC c1IC c2
simJCc1,c2=1−IC c1IC c2−2xICcMICA
simRelc1,c2=simLinc1,c2x 1− p cA
Cx – termin x
p(cA)- prawdopodobieństwo wystąpienia danego przodka w bazie (A -> Ancestor)
●
Zalety metod korzystających z IC:
–
Mniej wrażliwe na zmienną odległość znaczeniową pomiędzy terminami
–
Mniej wrażliwe na nierównomierny rozkład terminów w grafie
●
Wady:
–
Na częstotliwość przypisywania danego terminu mają wpływ trendy w nauce
Miary bazujące na węzłach
Porównywanie zbiorów terminów
Porównywanie zbiorów terminów
●
Porównywanie parami:
–
Wszystkie pary
–
Najlepsze pary
●
Metody łączenia wyników:
–
Średnia
–
Maksimum
–
Suma
GO:0043229 GO:0043231
GO:0043227 0.475 0.593
GO:0005622 0.700 0.588
Porównywanie zbiorów terminów
Porównywanie zbiorów terminów
●
Najlepsze rozwiązanie porównywania zbirów to średnia z najlepiej pasujących par.
–
wypośrodkowanie pomiędzy metodami wykorzystującymi maksimum, a
uśredniającymi
Porównywanie zbiorów terminów
●
Najlepsze rozwiązanie porównywania zbirów to średnia z najlepiej pasujących par.
–
wypośrodkowanie pomiędzy metodami wykorzystującymi maksimum, a
uśredniającymi
GO:0043229 GO:0043231
GO:0043227 0.475 0.593
GO:0005622 0.700 0.588
Ocena poprawności miary
●
Nie ma obiektywnego punktu odniesienia.
●
Można wykorzystywać inne właściwości, aby ocenić stopień podobieństwa:
–
Podobieństwo sekwencji aminokwasowej – korelacja (ograniczenie do nonIEA)
–
Ekseprymenty ekspresji genów – korelacja
–
Wyniki klasyfikacji białek
–
...
IEA – Inferred Electronically Annotation
Ocena poprawności miary
●
Żadna z metod opisanych w literaturze nie została uznana za najlepszą
●
Skuteczność metod zmienia się w zależności od:
–
Pierwotnego przeznaczenia
–
Bazy danych
–
Stosowanej miary skuteczności
Zastosowania
●
Ocena skuteczności metod przewidywania funkcji białek
●
Przewidywanie odziaływań białkobiałko
●
Przewidywanie lokalizacji białka
●
Ocena istotność powiązań pomiędzy koekspresjonowanymi genami
●
...
Bibligrafia
●
“Semantic Similarity in Biomedical Ontologies”, C.
Pesquita, D. Faria, A.´O. Falca, P. Lord, F. M. Couto, PLOS Computational Biology, July 2009, vol. 5, Iss. 7
●
“A new method to measure the semantic similarity of GO terms”, J. Z. Wang, Z. Du, R. Payattakool, P. S. Yu and ChinFu Chen, Bioinformatics, Vol. 23 no. 10 2007, p. 1274–1281
●
www.geneontology.org
●
http://bioinformatics.clemson.edu/GSESAME
●
Zdjęcia strona tytułowa:
– http://docs.huihoo.com/nltk/0.9.5/en/ch02.html
– http://nodebox.net/code/index.php/Graph
– http://lsdis.cs.uga.edu/projects/glycomics/report/Report2006.html