i bez nadzoru
2.2.40 Ekstrakcja relacji z pyta«
Prosta, lecz zadziwiniaj¡co efektywna metoda przedstawiona zostaªa w Sund-blad (2003). Autor podszedª do problemu maªej precyzji uzyskiwanych rezul-tatów poprzez analiz¦ ¹ródªa korpusu, z którego proces uczenia ontologii nast¦puje. Zamiast dowolnego korpusu dokumentów, który przewa»nie cha-rakteryzuje si¦ niskim stopniem strukturyzacji, zastosowano korpus skªadaj¡-cy si¦ wyª¡cznie z pyta«. Pytania charakteryzuj¡ si¦ do±¢ wysokim stopniem strukturalizacji.
Ekstrakcja relacji z pyta« Referencje: Sundblad (2003)
Cel: ekstrakcja relacji z u»yciem korpusu pyta« rodek: wzorce syntaktyczno-leksykalne dla pyta« Wykorzystuje: Hearst (1998)
Rozszerzone w:
Warstwa: relacje taksonomiczne i nietaksonomiczne Wykorzystywane ontologie:
Powi¡zane narz¦dzia: Wykorzystanie w j. polskim: TAK
Ewaluacja: r¦czna: precyzja i zwrot
Dla korpusu zostaªy wyznaczone wzorce leksykalno-syntaktyczne, zgodnie z metod¡ Hearsta (Hearst, 1998). W odró»nieniu jednak od pracy Hearsta, wzorce przedstawione przez Sundblad (2003) nie s¡ ogólnymi wzorcami, tj. na ich podstawie nie mo»na dokona¢ ekstrakcji dowolnego terminu speªnia-j¡cego dan¡ relacj¦. Opracowano zestaw wzorców, które mo»na zastosowa¢ do ekstrakcji relacji taksonomicznych nast¦puj¡cych klas terminów:
• Osób:
Kim jest/byª X?
Z czego X jest najbardziej sªawny? • Lokacji:
Gdzie X jest poªo»ony? Gdzie znajduje si¦ X? • Skrótów i akronimów:
Co znaczy X?
Od czego skrótem/akronimem jest X? Jedynym ogólnym zidentykowanym wzorcem jest:
Jakim typem/rodzajem Y jest/byª X?
Metoda ekstrakcji relacji hiponimicznych daje bardzo dobre wyniki. Pre-cyzja jest równa lub bardzo bliska 100%.
Metoda zostaªa przetestowana równie» do jednego typu relacji nietakso-nomicznej, tj. relacji meronimicznej. Opracowane zostaªy nast¦puj¡ce wzorce:
Tworzenie modelu poj¦ciowego z dokumentacji Referencje: Aussenac-Gilles i in. (2000a,b) Cel: denicja ram i potrzebnych zasobów
w ramach uczenia ontologii z tekstu rodek: do±wiadczenia z modelowania dziedziny Wykorzystuje:
Rozszerzone w:
Warstwa: wszystkie Wykorzystywane ontologie:
Powi¡zane narz¦dzia: Wykorzystanie w j. polskim: NIE Ewaluacja: brak
What is the X of Y? (Jakie jest Y X?) What is the X for Y? (Jakie jest X dla Y?) What is X's Y (Jakie jest X Y?)
How many X are in/on Y? (Ile jest X na/w Y?)
Niestety, ekstrakcja relacji meronimicznych nie daªa ju» tak doskonaªych wyników jak ekstrakcja relacji hiponimicznych. Nie mniej jednak, zarówno precyzja jak i zwrot wynosiªy 83,2%.
2.2.41 Tworzenie modelu poj¦ciowego z dokumentacji
Metoda przedstawiona w Aussenac-Gilles i in. (2000a) deniuje proces kon-strukcji modeli poj¦ciowych wykorzystywanych w modelowaniu dziedziny dla potrzeb projektowania systemów informatycznych.W my±l autorów, dla celów stworzenia modelu poj¦ciowego (w teorii pro-jektowania systemów modelu dziedzinowego) niezb¦dne jest zagwaranto-wanie nast¦puj¡cych zasobów:
1. Zestawu wymaga« dla modelowanej aplikacji. 2. Dokumentacji technicznej.
3. Cz¦±ci istniej¡cych modeli, które mog¡ by¢ wykorzystane. 4. Wiedzy eksperckiej.
5. Narz¦dzi przetwarzania tekstu naturalnego.
Ka»dy z zasobów jest wykorzystywany inaczej, w zale»no±ci od cech obiek-tywnych dziedziny, jak i subiekobiek-tywnych analityka. Wynikiem procesu jest mo-del poj¦ciowy. Sam proces rozwi¡zywania zasobów do momo-delu poj¦ciowego podzielony jest na cztery gªówne fazy:
Ekstrakcja nazwanych relacji binarnych Snowball Referencje: Agichtein i Gravano (2000);
Agichtein i in. (2001)
Cel: ekstrakcja nazwanych, binarnych relacji rodek: analiza pªytkiej struktury tekstu Wykorzystuje: Brin (1999)
Rozszerzone w: Warstwa: relacje Wykorzystywane ontologie:
Powi¡zane narz¦dzia: Snowball (Agichtein i in., 2001) Wykorzystanie w j. polskim: TAK
Ewaluacja: precyzja, zwrot
1. Tworzenie korpusu. Ekspert musi dokona¢ analizy dost¦pnych doku-mentów i wybra¢ te, które w najlepszy sposób opisuj¡ dziedzin¦. Gªów-n¡ rol¦ peªni¡ w tej fazie dokumenty oraz wiedza ekspercka.
2. Analiza lingwistyczna. Ekspert dokonuje wyboru najbardziej odpowied-nich narz¦dzi oraz metod przetwarzania tekstu. Nast¦pnie dokumenty s¡ przetwarzane w celu ekstrakcji podstawowych poj¦¢ z dziedziny. 3. Normalizacja. Po prostej analizie lingwistycznej nast¦puje faza
eksplo-racji korpusu w celu dodeniowania poj¦¢, nazwania ich oraz ekstrakcji powi¡za« pomi¦dzy nimi. Na tym etapie nast¦puje ekstrakcja relacji z tekstu. Faza analizy lingwistycznej oraz normalizacji mog¡ cyklicznie nast¦powa¢ po sobie, a» do satysfakcjonuj¡cego wyniku.
4. Formalizacja. Etap odpowiedzialny za budow¦ ontologii w postaci sfor-malizowanej, np. w postaci pliku. Faza obejmuje równie» walidacj¦ wy-niku.
Zaprezentowana metoda nie podaje szczegóªowego opisu mechanizmów w poszczególnych fazach. System zostaª przetestowany na dokumentach w j¦-zyku francuskim.
2.2.42 Snowball
Snowball to nadzorowana metoda i system przeznaczony do ekstrakcji binar-nych relacji nietaksonomiczbinar-nych. System potrzebuje próby zdeniowabinar-nych przez eksperta wzorców leksykalnych, na podstawie których dokonuje eks-trakcji. Proces ekstrakcji wspierany jest przez ci¡gª¡ ewaluacj¦ reguª przy u»yciu miar wsparcia.
Ekstrakcja nazwanych relacji binarnych LEILA Referencje: Suchanek i in. (2006b)
Cel: ekstrakcja nazwanych, binarnych relacji rodek: analiza gª¦bokiej struktury tekstu Wykorzystuje: Suchanek i in. (2006a)
Rozszerzone w: Kasneci i in. (2007); Suchanek i in. (2007) Warstwa: relacje
Wykorzystywane ontologie: Powi¡zane narz¦dzia: LEILA Wykorzystanie w j. polskim: NIE
Ewaluacja: precyzja, zwrot
Celem autorów (Agichtein i Gravano, 2000) byªa klasyczna informacja ekstrakcji tj. uzupeªnienie tabel, w których znajduje si¦ dokªadna informacja, jakiej klasy bytów nale»y szuka¢.
Metoda jest rozwini¦ciem podej±¢ opartych na wzorcach leksykalnych He-arsta (Hearst, 1998). Warto±ci¡ dodan¡ jest proces ci¡gªej ewaluacji reguª.
Ewaluacja metody przeprowadzona zostaªa na relacji pomi¦dzy organiza-cj¡ i miejscem siedziby (ang. Organization-Location). Wersja metody ze zna-kami interpunkcyjnymi na testowanej próbie osi¡ga rezultaty lepsze ni» me-toda bazowa.
2.2.43 LEILA
LEILA to system sªu»¡cy do nadzorowanej ekstrakcji nazwanych binarnych relacji nietaksonomicznych. System potra dokona¢ ekstrakcji danej relacji, któr¡ nale»y na wst¦pie zdeniowa¢ i scharakteryzowa¢, np. instanceOf lub birthdate. Ekstrakcja jest binarna tzn. pozyskiwany jest zarówno jej podmiot, jak i przedmiot, np. dla relacji birthdate b¦dzie to osoba oraz warto±¢ daty urodzenia.
System wykorzystuje metod¦ opart¡ na gª¦bokiej analizie lingwistycznej, która bada drzewo zale»no±ci w zdaniu. Algorytm metody skªada si¦ z na-st¦puj¡cych etapów:
1. W fazie odkrywania analizowane s¡ drzewa zale»no±ci w zdaniach w kor-pusie. Wyszukane zostaj¡ wcze±niej przygotowane pary, które s¡ tzw. pozytywnymi przykªadami. W miejscu drzewa, w którym zostan¡ wyszu-kane, wstawiane s¡ specjalne znaczniki tworz¡ce wzorce. S¡ one nast¦p-nie wykorzystane do wyszukania kolejnych przykªadów, nast¦p-niekonast¦p-niecznast¦p-nie zgodnych z poprawnymi wskazaniami (tzw. negatywne przykªady).
Ekstrakcja pami¦ciowa tzw. rote extractors Referencje: Alfonseca i in. (2006b,a) Cel: ekstrakcja nazwanych relacji
rodek: ekstrakcja pami¦ciowa tzw. rote extractors Wykorzystuje: Mann i Yarowsky (2005); Brin (1999);
Ravichandran i Hovy (2001) Rozszerzone w: Ruiz-Casado i in. (2007) Warstwa: relacje
Wykorzystywane ontologie: Powi¡zane narz¦dzia: Wykorzystanie w j. polskim: TAK Ewaluacja: precyzja
2. W fazie trenowania obliczane s¡ przy pomocy miar statystycznych kla-sykatory dla relacji. W przykªadowej implementacji zastosowano me-tod¦ klasykatora k-NN (k-tego najbli»szego s¡siada) oraz SVM (Su-chanek i in., 2006a).
3. W fazie testowej analizowane s¡ po raz kolejny wszystkie drzewa w kor-pusie. Dla ka»dego znacznika produkuje wszystkie mo»liwe pary pod-miotu i przedpod-miotu relacji. Je»eli klasykator daje wynik pozytywny, nowa para jest doª¡czana do wyników metody.
Ewaluacja metody zostaªa przeprowadzona na 4 ró»nych korpusach, tj. Wikicomposers, Wikigeography, Wikigeneral, Googlecomposers oraz 3 zde-niowanych relacjach, tj. birthdate, synonymy i instanceOf. Uzyskano wyniki miar precyzji oraz zwrotu w granicach odpowiednio 26-80% oraz 15-70%.
Metoda zostaªa zastosowana w wyszukiwarce opartej na semantyce sªów kluczowych NAGA (Kasneci i in., 2007). NAGA umo»liwia wyszukiwanie oparte na poj¦ciach i relacjach pomi¦dzy nimi.
Wyniki przeprowadzonych eksperymentów z wykorzystaniem systemu do-prowadziªy do powstania peªnowarto±ciowej ontologii YAGO charakteryzu-j¡cej si¦ du»¡ precyzj¡ zawartych w niej informacji (Suchanek i in., 2007).
2.2.44 Ekstrakcja pami¦ciowa
Ekstrakcja pami¦ciowa (tzw. rote extractors) szacuje prawdopodobie«stwo relacji r(p, q) przy danym kontek±cie zdaniowym A1pA2qA3 (Alfonseca i in., 2006b,a; Mann i Yarowsky, 2005; Brin, 1999; Ravichandran i Hovy, 2001). Warto±¢ szacowana jest na podstawie korpusu testowego jako cz¦sto±¢ wy-st¡pienia dwóch elementów r(x, y) w kontek±cie A1xA2yA3 podzielone przez
cz¦sto±¢ wyst¡pienia x w kontek±cie ka»dego innego wyrazu. Wtedy x jest nazywane hakiem, a y celem (zgodnie z Ravichandran i Hovy (2001)).
W porównaniu do Mann i Yarowsky (2005); Ravichandran i Hovy (2001) metoda przedstawiona w Alfonseca i in. (2006b,a) dodaje nast¦puj¡ce udo-skonalenia:
• Wyszukiwanie nast¦puje w kolekcji skªadaj¡cej si¦ zarówno z korpusu utworzonego na podstawie haku, jaki i na podstawie celu.
• Testowanie uzyskanych wzorców nast¦puje niezale»nie od konkretnej reguªy, tzn. testowanie danej reguªy przebiega na reguªach odnosz¡cych si¦ równie» do innych relacji.
• Zastosowanie dodatkowego mechanizmu werykacji poprawno±ci uzy-skanej pary przy pomocy zapytania ogólnego.
Uruchomienie metody wymaga znacz¡cego wysiªku polegaj¡cego na opra-cowaniu zestawu startowego reguª. Skªada si¦ on m.in. z: nazwy relacji, listy pozytywnych przykªadów, kwantykacji relacji.
Algorytm metody polega na: 1. Pozyskaniu korpusu dla haka. 2. Pozyskaniu korpusu dla celu.
3. Dla ka»dej relacji, dla ka»dego wzorca uzyskanego podczas trenowania modelu:
(a) sprawdzenie, czy znajduje si¦ na li±cie przykªadów,
(b) sprawdzenie, czy znajduje si¦ na li±cie przykªadów innej relacji, (c) sprawdzenie, czy zgadzaj¡ si¦ pozostaªe cechy w zestawie
starto-wym,
(d) wygenerowanie zapytania do Google API skªadaj¡cego si¦ z pozy-skanych informacji,
(e) obliczenie miary prawdopodobie«stwa.
Ewaluacja metody zostaªa przeprowadzona na wewn¦trznym korpusie i narz¦dziach anotacyjnych. Przedstawione wyniki precyzji byªy bardzo zró»-nicowane i ksztaªtowaªy si¦ w przedziale 3-100%. Autorzy nie podali warto±ci miar zwrotu.
Przedstawiona metoda zostaªa wykorzystana do wzbogacenia Simple En-glish Wikipedia oraz WordNet 1.7 (Ruiz-Casado i in., 2007). Uzyskane wyniki pozwoliªy na dodanie nowych relacji z precyzj¡ 60-70%.
Metody j¡dra
Referencje: Zhao i Grishman (2005) Cel: ekstrakcja relacji
rodek: metody j¡dra
Wykorzystuje: GuoDong i in. (2005); Zhou i Zhang (2007) Rozszerzone w: Zhang i in. (2006a,b); Yang i in. (2006) Warstwa: relacje
Wykorzystywane ontologie: Powi¡zane narz¦dzia: Wykorzystanie w j. polskim: TAK
Ewaluacja: wykrywanie relacji ACE (Doddington i in., 2004), precyzja i zwrot