Sprz¦»enie zwrotne - Ekstrakcja relacji - Uczenie ontologii z tekstu

Ekstrakcja relacji

6.3 Sprz¦»enie zwrotne

Sprz¦»enie zwrotne dla ekstrakcji relacji nietaksonomicznych jest cyklicznym procesem, który posiada nast¦puj¡ce funkcjonalno±ci:

1. Wykorzystanie cech zbioru anotacji lingwistycznych LA do tworzenia nowych wyra»e« w ontologii (elementów zbiorów C, T R, NT R). 2. Wykorzystanie wiedzy dziedzinowej w postaci aksjomatów do tworzenia

nowych wyra»e« w ontologii (elementów zbiorów C, T R, NT R). 3. Umo»liwienie wykorzystania cech anotacji lingwistycznych LA w

ak-sjomatach dziedzinowych A.

4. Umo»liwienie wykorzystania aksjomatów dziedzinowych A w procesie ekstrakcji elementów ontologii ze zbioru anotacji lingwistycznych LA. Wykorzystanie pierwszych dwóch funkcjonalno±ci nie jest niczym nowym w zasadzie wszystkie obecnie istniej¡ce rozwi¡zania do ekstrakcji relacji nietaksonomicznych oparte na tek±cie dziaªaj¡ w ten sposób. Zarówno zbiór anotacji lingwistycznych LA, jak i zbiory aksjomatów A s¡ naturalnymi ¹ró-dªami wiedzy na temat dziedzinowych relacji nietaksonomicznych.

Pozostaªe dwie cechy przedstawionej metody ekstrakcji relacji wyró»niaj¡ j¡ w sposób unikatowy i umo»liwiaj¡ wykorzystanie obu ¹ródeª naprzemien-nie. Metoda umo»liwia bowiem wykorzystanie cech anotacji lingwistycznej w aksjomatach oraz zale»no±ci aksjomatycznych w ekstrakcji elementów on-tologii ze zbioru LA.

Powi¡zanie wszystkich czterech cech tworzy cykl sprz¦»enia zwrotnego, w którym informacje ze zbiorów LA oraz A uzupeªniaj¡ si¦ wzajemnie.

6.3.1 Wymagania

Przedstawione cechy metody wymagaj¡ znacz¡cych zmian w sposobie funk-cjonowania obecnie istniej¡cych narz¦dzi. Nale»y przede wszystkim zidenty-kowa¢ cechy obu ¹ródeª, które mog¡ by¢ wykorzystywane w procesie sprz¦-»enia zwrotnego.

Cechy zbioru aksjomatów A zostaªy zidentykowane w procesie analizy aksjomatów dziedzinowych dla testowych korpusów. Na podstawie wyników analizy proponuje si¦ wprowadzenie mechanizmów umo»liwiaj¡cych denicj¦ nast¦puj¡cych cech lingwistycznych tekstu:

Wyst¡pienie danego tokena wyst¡pienie w tek±cie etykiety instancji klasy z ontologii, np. etykiety pl: Znak3 przyporz¡dkowanej do in-stancji CentrumKomputeroweZnak klasy InternetShop4.

Wspóªwyst¦powanie danych dwóch tokenów w terminie dowolne dwie etykiety instancji z ontologii wspóªwyst¦puj¡ w terminie, np. pl: komputronik jako etykieta instancji klasy Organization oraz pl: komputery osobiste jako etykieta instancji klasy ComputerArchitec-ture wspóªwyst¦puj¡ w terminie skªadaj¡cym si¦ z trzech tokenów: komputery osobiste komputronik.

Wspóªwyst¦powanie dwóch terminów w dokumentach dwie ety-kiety instancji wspóªwyst¦puj¡ w dokumentach w kontek±cie caªego korpusu D, np. pl: komputronik jako etykieta instancji klasy Orga-nization oraz wsparcie techniczne jako etykieta instancji klasy Se-rvice wspóªwyst¦puj¡ w dokumentach.

Uogólniona posta¢ przedstawionych wymaga« w stosunku do ekspresyw-no±ci zbioru aksjomatów A wygl¡da w sposób nast¦puj¡cy:

1. Wyst¡pienie danego tokena:

includesTerm(x, klasa:ID)

gdzie x oznacza dowoln¡ instancj¦ ontologii, a klasa : ID oznacza ID klasy ontologii, np. Organization.

3Peªna nazwa etykiety w j¦zyku OWL skªada si¦ z preksu oznaczaj¡cego j¦zyk etykiety (np. pl) oraz nazwy w danym j¦zyku

4Nazwy klas oraz relacji zgodnie ze specykacj¡ OWL powinny by¢ pisane w j¦zy-ku angielskim. Dopuszcza si¦ stosowanie innych j¦zyków naturalnych w przypadj¦zy-ku nazw instancji (zarówno klas, jak i relacji)

2. Wspóªwyst¦powanie dwóch tokenów w terminie:

co-occurInTerm(x,y)

gdzie x i y oznaczaj¡ dowolne instancje ontologii, np. Organization(Kom-putronik) AND ComputerArchitecture(KomputerOsobisty) AND co-occur-InTerm(Komputronik,KomputerOsobisty).

3. Wspóªwyst¦powanie dwóch terminów w dokumentach:

co-occurInDocument(x,y)

gdzie x i y oznaczaj¡ dowolne instancje ontologii, np. Organization(Komput-ronik) AND Service(WsparcieTechniczne) AND co-occurInDocument (Kom-putronik,WsparcieTechniczne).

Kluczowa w powy»szych wyra»eniach jest relacja pomi¦dzy nazwami (ID) klas oraz instancji a etykietami. Denicja wyra»e« opiera si¦ na unikatowych nazwach klas lub instancji (ID), natomiast wszelkie operacje zwi¡zane z mo-delem uruchomieniowym wi¡»¡ si¦ z interpretacj¡ wszystkich skojarzonych etykiet. Powoduje to, »e deniuj¡c np. Organization(CKZnak) model ope-ruje na etykietach instancji CKZnak, które dla j¦zyka polskiego to m.in.: Znak, Centrum Komputerowe Znak, czy CK Znak.

Semantyka zdeniowanych predykatów dodatkowych zwi¡zana jest z ce-chami lingwistycznymi. W zwi¡zku z tym, powy»sze predykaty nazwane zo-staªy predykatami lingwistycznymi.

6.3.2 Rozwi¡zanie

Predykaty lingwistyczne mog¡ by¢ wykorzystane na 2 ró»ne sposoby:

Anotacje kontekstowe (tzw. in-line annotations). Umieszczenie ano-tacji kontekstowych przed ka»d¡ reguª¡ SWRL w pliku SWRL. Anota-cja kontekstowa oznacza wi¦c informacj¦ na temat przetwarzania danej reguªy SWRL. Na przykªad predykat lingwistyczny co-occur(x,y) nie wyst¦puje w ciele elementu swrl:Imp w denicji reguªy, tylko w spe-cycznym znaczniku przed reguª¡, np. Processing information. Przed uruchomieniem mechanizmu wnioskuj¡cego odpowiedni procesor prze-twarza informacje w postaci anotacji kontekstowych i przeprze-twarza j¡.

Przetwarzanie polega na przeniesieniu deklaratywnych instrukcji w ano-tacji kontekstowej w ciaªo reguªy. Nast¦puje przepisanie reguªy do po-staci odwzorowuj¡cej »¡dane wªa±ciwo±ci. Gªówny wysiªek to przy-gotowanie procesora, który poprawnie odwzoruje anotacj¦ konteksto-w¡ na reguªy gotowe do przetwarzania standardowymi mechanizmami wnioskuj¡cymi.

Wªa±ciwo±ci obiektowe. Metoda polega na przedstawieniu predykatów ja-ko standardowych relacji obiektowych ontologii (tzw. object properties). Gªównym problemem jest wydajny sposób odwzorowania wszystkich predykatów na poprawne elementy ontologii.

Druga z wymienionych metod jest bardziej odpowiednia, poniewa» nie ma potrzeby deniowania skªadni i semantyki anotacji kontekstowej, a tak»e nie jest konieczne opracowanie procesorów przetwarzania. Traktowanie pre-dykatów lingwistycznych jako elementów ontologii przenosi caªy ci¦»ar ich interpretacji na metod¦ ich budowy oraz mechanizmy wnioskuj¡ce. Z tych powodów proponuje si¦ zastosowanie drugiej mo»liwo±ci, która skªada si¦ z nast¦puj¡cych kroków:

1. Ka»da poprawna ontologia5 zawiera dodatkowe wªa±ciwo±ci obiektowe b¦d¡ce odwzorowaniem predykatów lingwistycznych6:

(a) includesTerm(owl:Thing, owl:Class), (b) coOccurInTerm(owl:Thing, owl:Thing),

2. Dla danego korpusu D dodatkowe wªa±ciwo±ci obiektowe musz¡ zosta¢ rozwi¡zane tak, aby wskazywaªy na poprawne obiekty w zbiorze ano-tacji lingwistycznych LA. Na przykªad w celu rozwi¡zania predykatu lingwistycznego includesTerm, nale»y wyszuka¢ w zbiorze LA wszystkie wyst¡pienia etykiet klasy dla listy tokenów skªadaj¡cych si¦ na termi-ny. W rezultacie znane s¡ wszystkie instancje, w których wyst¡piªy etykiety danej klasy.

3. Model ontologii jest uzupeªniany realizacjami predykatów lingwistycz-nych dla instancji.

4. Uruchamiany jest mechanizm wnioskuj¡cy na podstawie stworzonej li-sty reguª zawieraj¡cej realizacje predykatów lingwili-stycznych.

5Terminem poprawna ontologia okre±la si¦ ontologi¦, która speªnia wymagania modelu formalnego.

5. Nowe fakty s¡ dodane do niemonotonicznego modelu ontologii zgodnie z modelem uruchomieniowym.

Dziedzina i zasi¦g predykatów lingwistycznych owl:Thing powinna zosta¢ dostosowana do faktycznie wykorzystywanych zasobów w konkretnej apli-kacji metody. Operacja ta znacz¡co zmniejsza liczb¦ analizowanych obiek-tów i rozmiar samej ontologii przetwarzanych przez mechanizm wnioskuj¡cy, a w konsekwencji obni»y zªo»ono±¢ obliczeniow¡ metody oraz zwi¦kszy wy-dajno±¢.

Ka»dy z predykatów lingwistycznych posiada odr¦bn¡ logik¦ i w zwi¡z-ku z tym potrzebuje oddzielnej implementacji. Nakªad implementacyjny jest ró»ny w zale»no±ci od predykatu. Wyst¡pienie danego tokena jest najprost-szym do zaimplementowania predykatem, poniewa» wymaga tylko sprawdze-nia wszystkich tokenów w korpusie pod k¡tem wyst¡piesprawdze-nia jednego z ele-mentów zbioru skªadaj¡cego si¦ z etykiet szukanej klasy. Zªo»ono±¢ relacji wspóªwyst¦powalno±ci jest znacznie wi¦ksza, poniewa» wymaga zastosowa-nia miar wspóªwyst¦powalno±ci, np. standardowych miar Jaccarda, Dice'a lub cosinusa (Kuropka, 2005). W szczególno±ci w przypadku obliczania miary wspóªwyst¦powalno±ci w dokumentach zªo»ono±¢ obliczeniowa jest wysoka. W tego powodu sugeruje si¦ przeprowadzenie oblicze« wst¦pnych w oderwa-niu od wªa±ciwego procesu ekstrakcji relacji.

Model ontologii oraz serializacja aksjomatów znajduje si¦ w plikach prze-wa»nie o du»ym rozmiarze. Umieszczanie modelu ontologii wraz z reguªami jest podatne na bª¦dy oraz kosztowne w zarz¡dzaniu. W warstwie zycznej proponuje si¦ wi¦c wydzielenie obu obszarów. Plik reguª SWRL, jako popraw-nie zbudowany plik OWL, powipopraw-nien importowa¢ model ontologii przechowy-wany w zycznie odr¦bnym pliku. W rezultacie zwi¦kszona jest spójno±¢ obu modeli, poniewa» ka»dy z nich jest wykorzystywany w odr¦bnych fazach model ontologii zmienia si¦ w wyniku ekstrakcji relacji, natomiast aksjomaty ulegaj¡ zmianie tylko w przypadku zmiany ogólnie przyj¦tych reguª w danej dziedzinie.

W dokumencie Uczenie ontologii z tekstu (Stron 155-159)