• Nie Znaleziono Wyników

Metody ekstrakcji relacji

W dokumencie Uczenie ontologii z tekstu (Stron 108-112)

i bez nadzoru

2.3 Narz¦dzia

2.4.2 Metody ekstrakcji relacji

Systematyka drugiej grupy metod, tj. metod ekstrakcji relacji taksonomicz-nych oraz nietaksonomicztaksonomicz-nych przedstawiona zostaªa na rysunku 2.6.

Klasykacji metod z tej grupy dokona¢ jest znacznie ªatwiej. Podziaª po-mi¦dzy relacje taksonomiczne i nietaksonomiczne jest precyzyjny. Warto jed-nak zaznaczy¢, »e niektóre metody dokonuj¡c ekstrakcji relacji nienazwanych, nie deniuj¡ jasnego podziaªu.

Metody przedstawione na rysunku podzieli¢ mo»na na dwie grupy: • wywodz¡ce si¦ z analizy lingwistycznej i statystycznej oraz • oparte na wzorcach syntaktyczno-leksykalnych.

Chronologicznie pierwsze metody do ekstrakcji relacji opracowane zosta-ªy w roku 1992 przez Marti Hearsta (Hearst, 1992). Praca ta przedstawiona zostaªa jeszcze raz, sze±¢ lat pó¹niej (Hearst, 1998), w wi¦kszo±ci w niezmie-nionej formie i dopiero wtedy doczekaªa si¦ licznych rozwini¦¢ w postaci ró»norodnych wzorców opracowanych na podobnych zasadach. Drug¡ grup¦ stanowi¡ metody oparte na analizie lingwistycznej lub statystycznej.

W centralnym punkcie schematu znajduj¡ si¦ dwie metody: Kietz i in. (2000) oraz Maedche i Staab (2000a). S¡ to prace ±rodowiska zwi¡zanego z produktem On-To-Knowledge, które jako pierwsze dokonaªo powi¡zania obu grup metod, tj. analizy statystyczno-lingwistycznej oraz wzorców Hear-sta.

Analiza metod ekstrakcji relacji taksonomicznych wykazuje, »e skutecz-no±¢ tych metod mierzona miar¡ precyzji i zwrotu jest obecnie na zadawa-laj¡cym poziomie. Poª¡czenie analizy skupie« wraz z analiz¡ lingwistyczn¡ zapocz¡tkowane przez Kietz i in. (2000); Maedche i Staab (2000a) i rozwi-ni¦te przez Cimiano (2006); Cimiano i in. (2005b); Cimiano i Staab (2005) powoduje, »e trudno jest poprawi¢ skuteczno±¢ obecnie stosowanych metod. Analiza metod ekstrakcji relacji nietaksonomicznych wykazuje natomiast zdumiewaj¡ce podobie«stwo stosowanych podej±¢. W przypadku ekstrakcji dowolnych relacji wszystkie przedstawione metody wymagaj¡ du»ego stop-nia nadzoru ze strony u»ytkownika. W przypadku metod nienadzorowanych ekstrakcja ogranicza si¦ do nazwanych wcze±niej relacji.

2.4.3 Wnioski

Przedstawiona w niniejszym rozdziale analiza poszczególnych metod oraz na-rz¦dzi, a tak»e ich synteza prowadz¡ do szeregu istotnych wniosków. ™ródªem

rozumowania jest problem biznesowy oraz badawczy okre±lone w rozdziale 1. Przegl¡d obecnie istniej¡cych metod oraz narz¦dzi pozwala wyprowadzi¢ na-st¦puj¡ce wnioski:

1. Brak ogólnego modelu uczenia ontologii z tekstu. Istniej¡ tylko modele poszczególnych metod lub cz¦±ci, np. Sintek i in. (2004), natomiast ca-ªo±¢ procesu jest opisana wyª¡cznie koncepcyjnie, np. Cimiano (2006). Istnieje zatem potrzeba opracowania ogólnego modelu uczenia ontologii z tekstu.

2. Brak kompleksowej metody dla j¦zyka polskiego. Nie istnieje »adna metoda dedykowana dla j¦zyka polskiego, a wi¦kszo±ci z istniej¡cych metod nie mo»na przenie±¢, poniewa» odwoªuj¡ si¦ do zasobów lingwi-stycznych specycznych dla danego j¦zyka naturalnego. Wi¦kszo±¢ me-tod konstruowana jest dla j¦zyka angielskiego, istniej¡ równie» podej-±cia dla j¦zyków: francuskiego, hiszpa«skiego, niemieckiego, japo«skie-go, chi«skiejapo«skie-go, wªoskiego. Istnieje zatem potrzeba zbudowania metod oraz narz¦dzia dla uczenia ontologii z j¦zyka polskiego.

3. Nieefektywno±¢ i nieadekwatno±¢ metod ekstrakcji terminologii. Eks-trakcja terminologii jest kluczow¡ cz¦±ci¡ caªo±ci procesu uczenia onto-logii z tekstu. Jednocze±nie nie istniej¡ podej±cia do ekstrakcji termi-nologii dedykowane dla zdeniowanego problemu. Najbardziej podobna metoda, tj. ekstrakcja produktów IT przedstawiona w Holzinger i in. (2006); Khandelwal (2007) zostaªa sklasykowana jako problem ucze-nia ontologii ze ¹ródeª póªustrukturyzowanych. Oznacza to potrzeb¦ opracowania metod ekstrakcji terminologii, które cechuj¡ si¦ wy»sz¡ efektywno±ci¡ ni» obecnie stosowane.

4. Wszystkie metody ekstrakcji relacji wymagaj¡ du»ego nakªadu pracy eksperta. Istnieje jedna praca, która wskazuje ten problem (Bunescu i Mooney, 2007), ale ma ona swoje powa»ne wady. Nale»y zatem opra-cowa¢ metod¦ ekstrakcji relacji, która b¦dzie minimalizowa¢ udziaª eks-perta (nadzór ekstrakcji).

Wnioski pªyn¡ce z przeprowadzonej analizy obecnie stosowanych metod wpªyn¦ªy na ksztaªt niniejszej pracy. Pierwsze dwa wnioski s¡ rozpatrywane w rozdziale 3., kolejne wnioski prowadz¡ do bada« przedstawionych w roz-dziaªach 5. oraz 6.

Rozdziaª 3

Metamodel

Metamodel opisuje uogólnion¡ metod¦ uczenia ontologii z tekstu zawieraj¡c¡ modele ekstrakcji poszczególnych obiektów ontologii oraz funkcje przej±cia pomi¦dzy modelami. Metamodel uczenia ontologii z tekstu M jest:

M = {D, LA, T, S, C, A, T R, N T R}. (3.1)

D jest zbiorem dokumentów D = {d1, . . . , dn}. Zbiór D deniuje korpus dla caªo±ci procesu uczenia ontologii z tekstu, okre±laj¡c mi¦dzy innymi dzie-dzin¦, styl narracji oraz j¦zyk naturalny. Dobór tego zbioru jest kluczowy dla uzyskanych wyników. Dyskusja nad po»¡danymi wªa±ciwo±ciami zbioru

D oraz ich doborem przedstawiona zostaªa w rozdziale 4.

Zbiór D nie jest bezpo±rednio wykorzystywany w procesach ekstrakcji z powodów wydajno±ci oraz wspóªoperatywno±ci. Zbiór D jest sprowadzany do postaci anotacji lingwistycznych LA. LA jest zbiorem anotacji lingwi-stycznych dla zbioru D uzyskanych przy pomocy funkcji Λ:

Λ : D × λ × LR × EC → LA, (3.2)

gdzie λ oznacza zbiór metod budowania anotacji, LR to zbiór zasobów lin-gwistycznych wykorzystanych w procesie budowania anotacji, a EC to tzw. klasykator wzorcowy.

Klasykator wzorcowy EC to anotacja dokonana przez eksperta, któ-ra uwa»ana jest za wzorcow¡. Wykorzystywany jest w procesach ekstktó-rakcji do ewaluacji efektywno±ci metod. Klasykator wzorcowy jest parametrem optymalizacyjnym funkcji Λ. Do najcz¦±ciej spotykanych wªa±ciwo±ci klasy-katora wzorcowego nale»¡:

• dobór liczebno±ci oraz stosunku zbioru trenuj¡cego oraz testuj¡cego, • jako±¢ optymalizacji, np. pod wzgl¦dem zgodno±ci z zaªo»eniami

• liczba wskaza« ekspertów decyduj¡ca o klasykacji (przy zaªo»eniu, »e dokument di jest anotowany przez wi¦cej ni» jednego eksperta). Zbiór LA jest w teorii otwarty, w praktyce jednak stosowa¢ si¦ powinno uznane standardy anotacji lingwistycznej. Dobór zbioru LA jest kluczowy dla porównywalno±ci metod uczenia ontologii z tekstu. Abstrakcyjny model LA skªada si¦ z trzech cz¦±ci: anotacji morfosyntaktycznej odnosz¡cej si¦ do po-szczególnych tokenów, analizy wyra»e« oraz funkcji gramatycznych wyra»e«. Obecno±¢ oraz wykorzystanie ka»dej z tych warstw pozycjonuje metody eks-trakcji do odmiennych zastosowa«. W przypadku ogólnym im bogatsza infor-macja lingwistyczna, tym skuteczno±¢ metod jest wy»sza, lecz powszechno±¢ zastosowania ni»sza. Dyskusja nad po»¡danymi cechami oraz doborem for-matu anotacji znajduje si¦ w rozdziale 4.

T jest zbiorem terminologii T = {t1, . . . , tn} b¦d¡cej przedmiotem eks-trakcji ze zbioru LA przy pomocy funkcji Γ:

Γ : LA × γ × Kterm → 2T, (3.3)

gdzie γ oznacza zbiór metod ekstrakcji terminologii, a Kterm stanowi zbiór progów klasykacji terminologii. Wynikiem funkcji Γ jest zbiór wszystkich podzbiorów zbioru T (2T).

Zgodnie ze standardami normalizacyjnymi organizacji ISO (ISO 1087-1:2000, 2000; ISO 704:2000, 2000) oraz Polskiego Komitetu Normalizacyj-nego (PN-ISO 1087-1:2004, 2004) terminy oznaczaj¡ desygnat lub etykiet¦ poj¦cia. Termin jest obecnym w zbiorze D ci¡giem znaków identykuj¡cym nienazwane poj¦cie. Poj¦cie jest wi¦c reprezentowane w dokumencie poprzez wyst¡pienie terminu. Denicja relacji poj¦cia do terminu jest zgodna z obo-wi¡zuj¡c¡ denicj¡ z reprezentacji wiedzy (Sowa, 2000a) oraz obowi¡zuj¡cych norm organizacji ISO (ISO 860:2007, 2007).

S jest zbiorem synonimów S = {s1, . . . , sn}, w którym ka»dy sn jest niepustym zbiorem terminów powi¡zanych relacj¡ synonimiczno±ci. Zbiór S uzyskuje si¦ przy pomocy funkcji Φ:

Φ : 2T × LR × Ksim × φ → S, (3.4) gdzie Ksim zbiór progów klasykacji synonimów, a φ zbiór metod ekstrakcji synonimów. Siªa relacji synonimiczno±ci pomi¦dzy terminami jest cz¦±ci¡ np. popularnych tezaurusów z rodziny WordNet. Cech¡ wyró»niaj¡c¡ poszcze-gólne modele jest warto±¢ ze zbioru φ.

C jest zbiorem poj¦¢ C = {c1, c2, . . . , cn}, który jest wynikiem ekstrakcji poj¦¢ przy pomocy funkcji ∆:

gdzie δ oznacza zbiór metod ekstrakcji poj¦¢, a Kcon stanowi zbiór progów klasykacji poj¦¢.

A jest zbiorem aksjomatów dziedzinowych:

A = {A1 ⇒ B11, B12, . . . B1m1; . . . An⇒ Bn1, . . . Bnmj}, (3.6) gdzie ka»de An jest nagªówkiem wyra»enia n oraz ka»de Bn1, . . . , Bnmj jest ciaªem wyra»enia n. Zbiór m1. . . mj skªada si¦ z elementów ciaªa dla których ka»de An mo»e by¢ ró»ne.

T R jest zbiorem relacji taksonomicznych, które zachodz¡ pomi¦dzy ele-mentami zbioru C:

T R = {isa(ci1, cj1), . . . isa(cin, cjm)}, (3.7) gdzie ci1. . . cin oznacza zbiór podmiotów relacji isa, natomiast cj1. . . cjm jest zbiorem obiektów relacji isa oraz ∀ isa i 6= j.

N T R jest zbiorem nazwanych relacji nietaksonomicznych:

N T R = {rel1(cx1, cy1), rel2(cx2, cy2), . . . reln(cxn, cyn)}, (3.8) gdzie rel1, . . . relnto zbiór nazwanych relacji nietaksonomicznych, cx1, . . . cxn

to podmioty NT R, cy1, . . . cyn to obiekty NT R. Ka»dy element NT R oznacza relacj¦ dla danej dziedziny. Na przykªad znaczenie nazwanej relacji nietak-sonomicznej worksAt(x, y) powinno by¢ interpretowane jako binarna relacja nietaksonomiczna, której pierwszym argumentem (podmiotem) jest instancja poj¦cia P erson, a drugim argumentem jest element zbioru Organization.

W dokumencie Uczenie ontologii z tekstu (Stron 108-112)