Ekstrakcja relacji z pyta«

i bez nadzoru

2.2.40 Ekstrakcja relacji z pyta«

Prosta, lecz zadziwiniaj¡co efektywna metoda przedstawiona zostaªa w Sund-blad (2003). Autor podszedª do problemu maªej precyzji uzyskiwanych rezul-tatów poprzez analiz¦ ¹ródªa korpusu, z którego proces uczenia ontologii nast¦puje. Zamiast dowolnego korpusu dokumentów, który przewa»nie cha-rakteryzuje si¦ niskim stopniem strukturyzacji, zastosowano korpus skªadaj¡-cy si¦ wyª¡cznie z pyta«. Pytania charakteryzuj¡ si¦ do±¢ wysokim stopniem strukturalizacji.

Ekstrakcja relacji z pyta« Referencje: Sundblad (2003)

Cel: ekstrakcja relacji z u»yciem korpusu pyta« rodek: wzorce syntaktyczno-leksykalne dla pyta« Wykorzystuje: Hearst (1998)

Rozszerzone w:

Warstwa: relacje taksonomiczne i nietaksonomiczne Wykorzystywane ontologie:

Powi¡zane narz¦dzia: Wykorzystanie w j. polskim: TAK

Ewaluacja: r¦czna: precyzja i zwrot

Dla korpusu zostaªy wyznaczone wzorce leksykalno-syntaktyczne, zgodnie z metod¡ Hearsta (Hearst, 1998). W odró»nieniu jednak od pracy Hearsta, wzorce przedstawione przez Sundblad (2003) nie s¡ ogólnymi wzorcami, tj. na ich podstawie nie mo»na dokona¢ ekstrakcji dowolnego terminu speªnia-j¡cego dan¡ relacj¦. Opracowano zestaw wzorców, które mo»na zastosowa¢ do ekstrakcji relacji taksonomicznych nast¦puj¡cych klas terminów:

• Osób:

Kim jest/byª X?

Z czego X jest najbardziej sªawny? • Lokacji:

Gdzie X jest poªo»ony? Gdzie znajduje si¦ X? • Skrótów i akronimów:

Co znaczy X?

Od czego skrótem/akronimem jest X? Jedynym ogólnym zidentykowanym wzorcem jest:

Jakim typem/rodzajem Y jest/byª X?

Metoda ekstrakcji relacji hiponimicznych daje bardzo dobre wyniki. Pre-cyzja jest równa lub bardzo bliska 100%.

Metoda zostaªa przetestowana równie» do jednego typu relacji nietakso-nomicznej, tj. relacji meronimicznej. Opracowane zostaªy nast¦puj¡ce wzorce:

Tworzenie modelu poj¦ciowego z dokumentacji Referencje: Aussenac-Gilles i in. (2000a,b) Cel: denicja ram i potrzebnych zasobów

w ramach uczenia ontologii z tekstu rodek: do±wiadczenia z modelowania dziedziny Wykorzystuje:

Rozszerzone w:

Warstwa: wszystkie Wykorzystywane ontologie:

Powi¡zane narz¦dzia: Wykorzystanie w j. polskim: NIE Ewaluacja: brak

What is the X of Y? (Jakie jest Y X?) What is the X for Y? (Jakie jest X dla Y?) What is X's Y (Jakie jest X Y?)

How many X are in/on Y? (Ile jest X na/w Y?)

Niestety, ekstrakcja relacji meronimicznych nie daªa ju» tak doskonaªych wyników jak ekstrakcja relacji hiponimicznych. Nie mniej jednak, zarówno precyzja jak i zwrot wynosiªy 83,2%.

2.2.41 Tworzenie modelu poj¦ciowego z dokumentacji

Metoda przedstawiona w Aussenac-Gilles i in. (2000a) deniuje proces kon-strukcji modeli poj¦ciowych wykorzystywanych w modelowaniu dziedziny dla potrzeb projektowania systemów informatycznych.

W my±l autorów, dla celów stworzenia modelu poj¦ciowego (w teorii pro-jektowania systemów modelu dziedzinowego) niezb¦dne jest zagwaranto-wanie nast¦puj¡cych zasobów:

1. Zestawu wymaga« dla modelowanej aplikacji. 2. Dokumentacji technicznej.

3. Cz¦±ci istniej¡cych modeli, które mog¡ by¢ wykorzystane. 4. Wiedzy eksperckiej.

5. Narz¦dzi przetwarzania tekstu naturalnego.

Ka»dy z zasobów jest wykorzystywany inaczej, w zale»no±ci od cech obiek-tywnych dziedziny, jak i subiekobiek-tywnych analityka. Wynikiem procesu jest mo-del poj¦ciowy. Sam proces rozwi¡zywania zasobów do momo-delu poj¦ciowego podzielony jest na cztery gªówne fazy:

Ekstrakcja nazwanych relacji binarnych Snowball Referencje: Agichtein i Gravano (2000);

Agichtein i in. (2001)

Cel: ekstrakcja nazwanych, binarnych relacji rodek: analiza pªytkiej struktury tekstu Wykorzystuje: Brin (1999)

Rozszerzone w: Warstwa: relacje Wykorzystywane ontologie:

Powi¡zane narz¦dzia: Snowball (Agichtein i in., 2001) Wykorzystanie w j. polskim: TAK

Ewaluacja: precyzja, zwrot

1. Tworzenie korpusu. Ekspert musi dokona¢ analizy dost¦pnych doku-mentów i wybra¢ te, które w najlepszy sposób opisuj¡ dziedzin¦. Gªów-n¡ rol¦ peªni¡ w tej fazie dokumenty oraz wiedza ekspercka.

2. Analiza lingwistyczna. Ekspert dokonuje wyboru najbardziej odpowied-nich narz¦dzi oraz metod przetwarzania tekstu. Nast¦pnie dokumenty s¡ przetwarzane w celu ekstrakcji podstawowych poj¦¢ z dziedziny. 3. Normalizacja. Po prostej analizie lingwistycznej nast¦puje faza

eksplo-racji korpusu w celu dodeniowania poj¦¢, nazwania ich oraz ekstrakcji powi¡za« pomi¦dzy nimi. Na tym etapie nast¦puje ekstrakcja relacji z tekstu. Faza analizy lingwistycznej oraz normalizacji mog¡ cyklicznie nast¦powa¢ po sobie, a» do satysfakcjonuj¡cego wyniku.

4. Formalizacja. Etap odpowiedzialny za budow¦ ontologii w postaci sfor-malizowanej, np. w postaci pliku. Faza obejmuje równie» walidacj¦ wy-niku.

Zaprezentowana metoda nie podaje szczegóªowego opisu mechanizmów w poszczególnych fazach. System zostaª przetestowany na dokumentach w j¦-zyku francuskim.

2.2.42 Snowball

Snowball to nadzorowana metoda i system przeznaczony do ekstrakcji binar-nych relacji nietaksonomiczbinar-nych. System potrzebuje próby zdeniowabinar-nych przez eksperta wzorców leksykalnych, na podstawie których dokonuje eks-trakcji. Proces ekstrakcji wspierany jest przez ci¡gª¡ ewaluacj¦ reguª przy u»yciu miar wsparcia.

Ekstrakcja nazwanych relacji binarnych LEILA Referencje: Suchanek i in. (2006b)

Cel: ekstrakcja nazwanych, binarnych relacji rodek: analiza gª¦bokiej struktury tekstu Wykorzystuje: Suchanek i in. (2006a)

Rozszerzone w: Kasneci i in. (2007); Suchanek i in. (2007) Warstwa: relacje

Wykorzystywane ontologie: Powi¡zane narz¦dzia: LEILA Wykorzystanie w j. polskim: NIE

Ewaluacja: precyzja, zwrot

Celem autorów (Agichtein i Gravano, 2000) byªa klasyczna informacja ekstrakcji tj. uzupeªnienie tabel, w których znajduje si¦ dokªadna informacja, jakiej klasy bytów nale»y szuka¢.

Metoda jest rozwini¦ciem podej±¢ opartych na wzorcach leksykalnych He-arsta (Hearst, 1998). Warto±ci¡ dodan¡ jest proces ci¡gªej ewaluacji reguª.

Ewaluacja metody przeprowadzona zostaªa na relacji pomi¦dzy organiza-cj¡ i miejscem siedziby (ang. Organization-Location). Wersja metody ze zna-kami interpunkcyjnymi na testowanej próbie osi¡ga rezultaty lepsze ni» me-toda bazowa.

2.2.43 LEILA

LEILA to system sªu»¡cy do nadzorowanej ekstrakcji nazwanych binarnych relacji nietaksonomicznych. System potra dokona¢ ekstrakcji danej relacji, któr¡ nale»y na wst¦pie zdeniowa¢ i scharakteryzowa¢, np. instanceOf lub birthdate. Ekstrakcja jest binarna tzn. pozyskiwany jest zarówno jej podmiot, jak i przedmiot, np. dla relacji birthdate b¦dzie to osoba oraz warto±¢ daty urodzenia.

System wykorzystuje metod¦ opart¡ na gª¦bokiej analizie lingwistycznej, która bada drzewo zale»no±ci w zdaniu. Algorytm metody skªada si¦ z na-st¦puj¡cych etapów:

1. W fazie odkrywania analizowane s¡ drzewa zale»no±ci w zdaniach w kor-pusie. Wyszukane zostaj¡ wcze±niej przygotowane pary, które s¡ tzw. pozytywnymi przykªadami. W miejscu drzewa, w którym zostan¡ wyszu-kane, wstawiane s¡ specjalne znaczniki tworz¡ce wzorce. S¡ one nast¦p-nie wykorzystane do wyszukania kolejnych przykªadów, nast¦p-niekonast¦p-niecznast¦p-nie zgodnych z poprawnymi wskazaniami (tzw. negatywne przykªady).

Ekstrakcja pami¦ciowa tzw. rote extractors Referencje: Alfonseca i in. (2006b,a) Cel: ekstrakcja nazwanych relacji

rodek: ekstrakcja pami¦ciowa tzw. rote extractors Wykorzystuje: Mann i Yarowsky (2005); Brin (1999);

Ravichandran i Hovy (2001) Rozszerzone w: Ruiz-Casado i in. (2007) Warstwa: relacje

Wykorzystywane ontologie: Powi¡zane narz¦dzia: Wykorzystanie w j. polskim: TAK Ewaluacja: precyzja

2. W fazie trenowania obliczane s¡ przy pomocy miar statystycznych kla-sykatory dla relacji. W przykªadowej implementacji zastosowano me-tod¦ klasykatora k-NN (k-tego najbli»szego s¡siada) oraz SVM (Su-chanek i in., 2006a).

3. W fazie testowej analizowane s¡ po raz kolejny wszystkie drzewa w kor-pusie. Dla ka»dego znacznika produkuje wszystkie mo»liwe pary pod-miotu i przedpod-miotu relacji. Je»eli klasykator daje wynik pozytywny, nowa para jest doª¡czana do wyników metody.

Ewaluacja metody zostaªa przeprowadzona na 4 ró»nych korpusach, tj. Wikicomposers, Wikigeography, Wikigeneral, Googlecomposers oraz 3 zde-niowanych relacjach, tj. birthdate, synonymy i instanceOf. Uzyskano wyniki miar precyzji oraz zwrotu w granicach odpowiednio 26-80% oraz 15-70%.

Metoda zostaªa zastosowana w wyszukiwarce opartej na semantyce sªów kluczowych NAGA (Kasneci i in., 2007). NAGA umo»liwia wyszukiwanie oparte na poj¦ciach i relacjach pomi¦dzy nimi.

Wyniki przeprowadzonych eksperymentów z wykorzystaniem systemu do-prowadziªy do powstania peªnowarto±ciowej ontologii YAGO charakteryzu-j¡cej si¦ du»¡ precyzj¡ zawartych w niej informacji (Suchanek i in., 2007).

2.2.44 Ekstrakcja pami¦ciowa

Ekstrakcja pami¦ciowa (tzw. rote extractors) szacuje prawdopodobie«stwo relacji r(p, q) przy danym kontek±cie zdaniowym A1pA₂qA₃ (Alfonseca i in., 2006b,a; Mann i Yarowsky, 2005; Brin, 1999; Ravichandran i Hovy, 2001). Warto±¢ szacowana jest na podstawie korpusu testowego jako cz¦sto±¢ wy-st¡pienia dwóch elementów r(x, y) w kontek±cie A1xA₂yA₃ podzielone przez

cz¦sto±¢ wyst¡pienia x w kontek±cie ka»dego innego wyrazu. Wtedy x jest nazywane hakiem, a y celem (zgodnie z Ravichandran i Hovy (2001)).

W porównaniu do Mann i Yarowsky (2005); Ravichandran i Hovy (2001) metoda przedstawiona w Alfonseca i in. (2006b,a) dodaje nast¦puj¡ce udo-skonalenia:

• Wyszukiwanie nast¦puje w kolekcji skªadaj¡cej si¦ zarówno z korpusu utworzonego na podstawie haku, jaki i na podstawie celu.

• Testowanie uzyskanych wzorców nast¦puje niezale»nie od konkretnej reguªy, tzn. testowanie danej reguªy przebiega na reguªach odnosz¡cych si¦ równie» do innych relacji.

• Zastosowanie dodatkowego mechanizmu werykacji poprawno±ci uzy-skanej pary przy pomocy zapytania ogólnego.

Uruchomienie metody wymaga znacz¡cego wysiªku polegaj¡cego na opra-cowaniu zestawu startowego reguª. Skªada si¦ on m.in. z: nazwy relacji, listy pozytywnych przykªadów, kwantykacji relacji.

Algorytm metody polega na: 1. Pozyskaniu korpusu dla haka. 2. Pozyskaniu korpusu dla celu.

3. Dla ka»dej relacji, dla ka»dego wzorca uzyskanego podczas trenowania modelu:

(a) sprawdzenie, czy znajduje si¦ na li±cie przykªadów,

(b) sprawdzenie, czy znajduje si¦ na li±cie przykªadów innej relacji, (c) sprawdzenie, czy zgadzaj¡ si¦ pozostaªe cechy w zestawie

starto-wym,

(d) wygenerowanie zapytania do Google API skªadaj¡cego si¦ z pozy-skanych informacji,

(e) obliczenie miary prawdopodobie«stwa.

Ewaluacja metody zostaªa przeprowadzona na wewn¦trznym korpusie i narz¦dziach anotacyjnych. Przedstawione wyniki precyzji byªy bardzo zró»-nicowane i ksztaªtowaªy si¦ w przedziale 3-100%. Autorzy nie podali warto±ci miar zwrotu.

Przedstawiona metoda zostaªa wykorzystana do wzbogacenia Simple En-glish Wikipedia oraz WordNet 1.7 (Ruiz-Casado i in., 2007). Uzyskane wyniki pozwoliªy na dodanie nowych relacji z precyzj¡ 60-70%.

Metody j¡dra

Referencje: Zhao i Grishman (2005) Cel: ekstrakcja relacji

rodek: metody j¡dra

Wykorzystuje: GuoDong i in. (2005); Zhou i Zhang (2007) Rozszerzone w: Zhang i in. (2006a,b); Yang i in. (2006) Warstwa: relacje

Wykorzystywane ontologie: Powi¡zane narz¦dzia: Wykorzystanie w j. polskim: TAK

Ewaluacja: wykrywanie relacji ACE (Doddington i in., 2004), precyzja i zwrot

W dokumencie Uczenie ontologii z tekstu (Stron 87-94)