• Nie Znaleziono Wyników

Podobieństwo semantyczne w ontologiach biomedycznych Bogumił Konopka

N/A
N/A
Protected

Academic year: 2021

Share "Podobieństwo semantyczne w ontologiach biomedycznych Bogumił Konopka"

Copied!
42
0
0

Pełen tekst

(1)

Podobieństwo semantyczne w ontologiach  biomedycznych

Bogumił Konopka

Politechnika Wrocławska

Wydział Podstawowych Problemów Techniki Instytut Inżynierii Biomedycznej i Pomiarowej

KN “Bio­Nanopor”

(2)

Plan prezentacji

Wstęp ­ definicje

Ontologia

Podobieństwo semantyczne

GO (gene ontology) – Przykład  ontologii 

Miary podobieństwa  semantycznego

Porównywanie terminów

Porównywanie zbiorów  terminów

Ocena poprawności

Przykłady zastosowań

(3)

Wstęp ­ Ontologia

Ontologia  

 [gr.  on  óntos  ‘będący’,  ‘byt’,  óntos  on  ‘rzeczywiście  będący, istniejący’, lógos ‘słowo’, ‘nauka’, ‘teoria’], 

filozficzna nauka o bycie; w sensie pierwotnym — termin używany od  XVII  w.  (J.  Clauberg,  Ch.  Wolff)  zamiennie  ze  starszą  nazwą  metafizyka; odnosi się do arystotelesowskiej „filozofii pierwszej” jako  do nauki o bycie jako bycie, następnie do kontynuacji jej rozważań w  teorii bytu, zajmującej się bytem w jego naturze powszechnym;

Encyklopedia PWN 

Ontologia od lat 70­tych XX w.  jest terminem 

wykorzystywanym w informatyce. 

(4)

Wstęp ­ ontologia

Ontologia  

 [gr.  on  óntos  ‘będący’,  ‘byt’,  óntos  on  ‘rzeczywiście  będący, istniejący’, lógos ‘słowo’, ‘nauka’, ‘teoria’], 

filozficzna nauka o bycie; w sensie pierwotnym — termin używany od  XVII  w.  (J.  Clauberg,  Ch.  Wolff)  zamiennie  ze  starszą  nazwą  metafizyka; odnosi się do arystotelesowskiej „filozofii pierwszej” jako  do nauki o bycie jako bycie, następnie do kontynuacji jej rozważań w  teorii bytu, zajmującej się bytem w jego naturze powszechnym;

Encyklopedia PWN 

Ontologia w informatyce wykorzystuje:

Kategoryzację – przyporządkowanie obiektu  do określonej klasy obiektów (na podstawie  cech) 

Hierarchizację – klasy umiejscowione są w  hierarchicznej strukturze. Klasy dziedziczą  cechy z klas nadrzędnych.

Ontologia – słownik, zbiór powiązanych terminów

(5)

Wstęp – ontologia

(6)

Wstęp – podobieństwo semantyczne

Semantyka językoznawcza – nauka o znaczeniu wyrazów

(7)

Wstęp – podobieństwo semantyczne

Semantyka językoznawcza – nauka o znaczeniu wyrazów

Podobieństwo semantyczne  – podobieństwo znaczenia

(8)

Cel

Standaryzacja opisu genów oraz białek

Zadania

Tworzenie i kontrola słownika wyrażeń

Opisywanie obiektów

Dostarczenie narzędzi do przetwarzania zgromadzonych  danych

Struktura

Molecular function (8660)

Biological Process (17893)

Cellular Component (2625)

Gene Ontology ­ GO

(9)

Gene Ontology ­ GO

(10)

Gene Ontology ­ GO

(11)

Gene Ontology ­ GO

(12)

Gene Ontology ­ GO

(13)

Gene Ontology ­ GO

(14)

Gene Ontology ­ GO

(15)

Opisywany obiekt: 2he4A ­> Q15599

Gene Ontology ­ GO

Molecular function Biological Process Cellular Component

GO:0005515 GO:0006461 GO:0016324 GO:0008022 GO:0048839 GO:0016020

GO:0016247 GO:0012505

GO:0005886 GO:0005737 GO:0005634

(16)

Opisywany obiekt: 2he4A ­> Q15599

Gene Ontology ­ GO

Molecular function Biological Process Cellular Component

protein binding    protein complex 

assembly nucleus

protein C­terminus 

binding inner ear development cytoplasm channel regulator 

activity plasma membrane

membrane apical plasma 

membrane

extrinsic to membrane

(17)

Miary podobieństwa semantycznego

(18)

Miary podobieństwa semantycznego

(19)

Miary podobieństwa semantycznego

(20)

Miary podobieństwa semantycznego

(21)

Metody mierzące odległość  pomiędzy terminami

Miary bazujące na krawędziach

Metody mierzące wspólną  drogę do korzenia drzewa

(22)

Metody mierzące odległość  pomiędzy terminami

Miary bazujące na krawędziach

Metody mierzące wspólną  drogę do korzenia drzewa

(23)

Metody mierzące odległość  pomiędzy terminami

Miary bazujące na krawędziach

Metody mierzące wspólną  drogę do korzenia drzewa

(24)

Metody mierzące odległość  pomiędzy terminami

Miary bazujące na krawędziach

Metody mierzące wspólną  drogę do korzenia drzewa

(25)

Metody mierzące odległość  pomiędzy terminami

Miary bazujące na krawędziach

Metody mierzące wspólną  drogę do korzenia drzewa

(26)

Zaleta – bardzo intuicyjne, zbliżone do sposobu  wnioskowania ludzi

Podstawowe założenia:

Węzły i krawędzie są rozmieszczone  równomiernie

Krawędzie na tym samym poziomie w grafie  odpowiadają tej samej odległości 

semantycznej (znaczeniowej)

Miary bazujące na krawędziach

(27)

Miary bazujące na węzłach

(28)

Wykorzystują właściwości porównywanych terminów,  terminów poprzedzających (“przodków”) lub 

terminów następujących (“dzieci”).

Np. Information Content IC (informatywność) 

Miary bazujące na węzłach

IC=−log p c

p(c) – prawdopodobieństwo wystąpienia terminu “c” w określonej bazie

p (c) oblicza się jako częstotliwość przypisań danego  terminu;

IC oblicza się również wykorzystując liczbę “dzieci” 

terminu;

(29)

Wykorzystują właściwości porównywanych terminów,  terminów poprzedzających (“przodków”) lub 

terminów następujących (“dzieci”).

Np. Information Content IC (informatywność) 

Miary bazujące na węzłach

IC=−log p c

p(c) – prawdopodobieństwo wystąpienia terminu “c” w określonej bazie

p (c) oblicza się jako częstotliwość przypisań danego  terminu;

IC oblicza się również wykorzystując liczbę “dzieci” 

terminu;

(30)

MICA (Most Informative  Common Ancestor)

Miary bazujące na węzłach

DCA (Disjoint Common  Ancestor)

(31)

MICA (Most Informative  Common Ancestor)

Miary bazujące na węzłach

DCA (Disjoint Common  Ancestor)

(32)

Najbardziej popularne miary podobieństwa semantycznego  korzystające z IC.

Resnik

Lin

Jian & Conrath

Schlicker

Miary bazujące na węzłach

simResc1,c2=IC cMICA

simLinc1,c2= 2xICcMCIA IC c1IC c2

simJCc1,c2=1−IC c1IC c2−2xICcMICA

simRelc1,c2=simLinc1,c2x 1− p cA

Cx – termin x

p(cA)- prawdopodobieństwo wystąpienia danego przodka w bazie (A -> Ancestor)

(33)

Zalety metod korzystających z IC:

Mniej wrażliwe na zmienną odległość  znaczeniową pomiędzy terminami

Mniej wrażliwe na nierównomierny rozkład  terminów w grafie

Wady:

Na częstotliwość przypisywania danego terminu  mają wpływ trendy w nauce

Miary bazujące na węzłach

(34)

Porównywanie zbiorów terminów

(35)

Porównywanie zbiorów terminów

Porównywanie parami:

Wszystkie pary

Najlepsze pary

Metody łączenia wyników:

Średnia

Maksimum

Suma

GO:0043229 GO:0043231

GO:0043227 0.475 0.593

GO:0005622 0.700 0.588

(36)

Porównywanie zbiorów terminów

(37)

Porównywanie zbiorów terminów

Najlepsze rozwiązanie porównywania zbirów to  średnia z najlepiej pasujących par.

wypośrodkowanie pomiędzy metodami  wykorzystującymi maksimum, a 

uśredniającymi

(38)

Porównywanie zbiorów terminów

Najlepsze rozwiązanie porównywania zbirów to  średnia z najlepiej pasujących par.

wypośrodkowanie pomiędzy metodami  wykorzystującymi maksimum, a 

uśredniającymi

GO:0043229 GO:0043231

GO:0043227 0.475 0.593

GO:0005622 0.700 0.588

(39)

Ocena poprawności miary

Nie ma obiektywnego punktu odniesienia. 

Można wykorzystywać inne właściwości, aby ocenić  stopień podobieństwa:

Podobieństwo sekwencji aminokwasowej –  korelacja (ograniczenie do nonIEA)

Ekseprymenty ekspresji genów – korelacja

Wyniki klasyfikacji białek

...

IEA – Inferred Electronically Annotation

(40)

Ocena poprawności miary

Żadna z metod opisanych w literaturze nie została  uznana za najlepszą

Skuteczność metod zmienia się w zależności od:

Pierwotnego przeznaczenia

Bazy danych 

Stosowanej miary skuteczności

(41)

Zastosowania

Ocena skuteczności metod przewidywania funkcji  białek

Przewidywanie odziaływań białko­białko

Przewidywanie lokalizacji białka

Ocena istotność powiązań pomiędzy  koekspresjonowanymi genami

...  

(42)

Bibligrafia

“Semantic Similarity in Biomedical Ontologies”, C. 

Pesquita, D. Faria, A.´O. Falca, P. Lord, F. M. Couto,  PLOS Computational Biology, July 2009, vol. 5, Iss. 7

“A new method to measure the semantic similarity of  GO terms”, J. Z. Wang, Z. Du, R. Payattakool, P. S. Yu  and Chin­Fu Chen, Bioinformatics, Vol. 23 no. 10 2007,  p. 1274–1281

www.geneontology.org

http://bioinformatics.clemson.edu/G­SESAME

Zdjęcia ­ strona tytułowa:

http://docs.huihoo.com/nltk/0.9.5/en/ch02.html 

http://nodebox.net/code/index.php/Graph 

http://lsdis.cs.uga.edu/projects/glycomics/report/Report2006.html

Cytaty

Powiązane dokumenty

Jeżeli algebra A jest n-symetryczna, to A op

Zdanie proste (tzw. kategoryczne) to zdanie, którego żadna część nie jest odrębnym zdaniem np.. Monika

values were obtained in all cases for rolls having a maximum starting value of 10 degrees from upright ; no tests were done beyond this angle. Gawn defends the determination of

The experimental wind tunnel results are compared to three sets of beam properties: (i) the properties from the cross-sectional modeller including leading strips and epoxy to

Bilans godzinowy zgodny z CNPS (Całkowity Nakład Pracy Studenta) – studia stacjonarne Ilość godzin w kontakcie

In the case of steam this is necessary so that no condensation droplets settle on the turbine blades during expansion (see ); they would damage the blades, reducing

Etymologia słowa „bezpieczeństwo” w wielu językach (także w polskim) uwydatnia pierwotność poczucia zagrożenia w stosunku do poczucia pewności swego zabezpieczenia

nie jednak Martini podkreśla, iż komunikacja zbawcza, która dokonuje się za pomocą mediów ma jedynie charakter instrumentalny i nie niesie w sobie gwarancji pewności..