Wykorzystanie danych zarodkowych - Ekstrakcja informacji w j ezyku angielskim ,

4.1. Ekstrakcja informacji w j ezyku angielskim ,

4.1.4. Wykorzystanie danych zarodkowych

Zastosowanie opisanych wcze´sniej metod statystycznych przyczyni lo sie do przyspieszenia procesu ad-_, aptowania system´ow ekstrakcji wiedzy do nowych dziedzin. Przede wszystkim adaptacja system´ow mo-g la by´c wykonywana przez ekspert´ow dziedzinowych, kt´orzy zwykle nie posiadaja wiedzy z zakresu prze-_, twarzania jezyka. W po l_, aczeniu z konstrukcj_, a przyjaznych interfejs´_, ow u˙zytkownika, proces ten m´og l by´c realizowany przez system w trakcie jego adaptacji, poprzez zadawanie prostych pyta´n u˙zytkownikowi.

Jednak pomimo tak istotnego przyspieszenia i uproszczenia, procesu ten by l nadal do´s´c ˙zmudny. Konieczno´s´c oznakowania setek, bad´_, z tysiecy przyk lad´_, ow uczacych by la ci_, agle w_, askim gard lem, kt´_, ore istotnie utrudnia lo wykorzystywanie system´ow ekstrakcji informacji. Dlatego te˙z poszukiwano metod, kt´ore pozwoli lyby znaczaco ograniczy´_, c ilo´s´c informacji potrzebna do tego by dostosowa´_, c system do nowej

dziedziny. Ponadto rosnaca popularno´_, s´c Internetu jako ´zr´od la informacji, a tak˙ze dostepno´_, s´c du˙zych baz zawierajacych kolekcje tekst´_, ow (korpus´ow) pozwoli la na stworzenie metod, kt´ore minimalizowa ly nak lad pracy recznej._,

Podstawowy pomys l zastosowany w systemach ekstrakcji informacji powsta lych pod koniec poprzed-niego wieku, polega na wykorzystaniu tzw. danych zarodkowych (ang. seed data) oraz wzorc´ow zarodko-wych (ang. seed patterns). Praca reczna niezb_, edna do dostosowania systemu do nowej dziedziny sprowa-_, dza la sie do wprowadzenia zaledwie kilku przyk ladowych informacji, charakterystycznych dla analizowa-_, nego problemu. Informacje te mog ly by´c wype lnionymi szablonami ekstrakcyjnymi lub parami element´ow po laczonych okre´_, slona relacj_, a semantyczn_, a. Przyk ladowo: przy budowie systemu ekstrahuj_, acego informa-_, cje na temat autor´ow ksia˙zek, wystarczy lo poda´_, c kilka par, np.:

– Adam Mickiewicz – Pan Tadeusz, – William Szekspir – Romeo i Julia,

– Henryk Sienkiewicz – W pustyni i w puszczy.

Zadaniem systemu by lo odnalezienie fragment´ow tekstu, w kt´orych te pary wystepuj_, a oraz automa-_, tyczne zbudowanie wzorc´ow ekstrakcyjnych, kt´ore pozwoli lyby na wyekstrahowanie innych par: autor – dzie lo literackie. Tak uzyskane pary mog ly by´c powt´ornie wykorzystane do odkrycia nowych wzorc´ow eks-trakcyjnych, na podstawie kt´orych mo˙zna by lo uzyskiwa´c nowe dane. Proces ten m´og l zatem powtarza´c sie wielokrotnie, co pozytywnie wp lywa lo na zwi_, ekszenie pokrycia._,

Jeden z pierwszych system´ow tego rodzaj zosta l opisany w pracy Riloff i Jones Learning Dictionaries for Information Extraction by Multi-Level Bootstrapping [133]. W artykule tym opisany jest system, kt´ory s lu˙zy do automatycznego, jednoczesnego pozyskiwania wzorc´ow ekstrakcyjnych oraz s lownika termin´ow, kt´ore moga wyst_, epowa´_, c na okre´slonych pozycjach w szablonie ekstrakcyjnym.

Dzia lanie systemu by lo nastepuj_, ace: w pierwszej fazie system ekstrahowa l wszystkie frazy nominalne,_, kt´ore wystepowa ly w korpusie tekst´_, ow zawierajacym dane treningowe. Nast_, epnie we frazach wyszuki-_, wano wystapie´_, n jednego ze s l´ow zarodkowych przypisanych do okre´slonej kategorii semantycznej. Przy-k ladowo, dla Przy-kategorii location (miejsce) autorPrzy-ki u˙zy ly nastepuj_, acych s l´_, ow: australia, canada, china, england, france, germany, japan, mexico, switzerland, united states. Frazy zawierajace jedno z wymienio-_, nych s l´ow, po usunieciu tego s lowa, dodawane by ly do zbioru wzorc´_, ow ekstrahujacych miejsca. W kolejnej_, fazie wzorce te by ly sortowane ze wzgledu na metryk_, e uwzgl_, edniaj_, ac_, a liczb_, e unikalnych s l´_, ow, do kt´orych one pasowa ly. Na tej podstawie mo˙zna by lo r´ownie˙z okre´sli´c, kt´ore s lowa nale˙zace do danej kategorii_, semantycznej, sa najbardziej wiarygodne._,

Istotnym elementem ca lego procesu by lo to, ˙ze po kilku iteracjach na podstawie kt´orych pozyskiwano jednocze´snie nowe wzorce ekstrakcyjne oraz nowe s lowa nale˙zace do okre´_, slonej kategorii semantycznej, okre´slano najbardziej wiarygodne s lowa i ca ly proces powtarzano od poczatku (w szczeg´_, olno´sci odrzucano wszystkie wzorce ekstrakcyjne).

Algorytm Riloff i Jones zosta l przetestowany m.in na danych z konferencji MUC-4 [50]. Uzyskiwane wyniki zale˙za ly od liczby iteracji w zewnetrznej p_, etli algorytmu. Cho´_, c z rosnac_, a liczb_, a iteracji precyzja_, algorytmu zmniejsza la sie, to i tak utrzymywa la si_, e na do´_, s´c wysokim poziomie: po 10 iteracjach ´srednia precyzja wynosi la 75%, po 20: 76,8%, a po 50: 57,6%, natomiast pokrycie osiaga lo ´_, srednio 38,3%.

Inna prac_, a, kt´_, ora wywar la istotny wp lyw na rozw´oj algorytm´ow ekstrakcji informacji by l ekspery-ment opisany w artykule Sergeya Brina Extracting Patterns and Relations from the World Wide Web [18]. Praca ta by la o tyle istotna, ˙ze jako ´zr´od lo wiedzy s lu˙zace do budowy wzorc´_, ow ekstrakcyjnych u˙zyto danych zgromadzonych w Internecie. Pomys l ten zapoczatkowa l tendencj_, e, kt´_, ora utrzymuje sie do dzisiaj,_,

4.1. Ekstrakcja informacji w jezyku angielskim_, 49

tzn. wykorzystywanie olbrzymiego zbioru danych tekstowych dostepnych w sieciach rozleg lych. Podobnie_, jak Riloff i Jones, Brin zastosowa l zbi´or danych zarodkowych w celu zbudowania wzorc´ow ekstrakcyj-nych, jednak˙ze inaczej postawi l cel konstrukcji algorytmu. W tym przypadku chodzi lo o automatyczne zbudowanie bazy danych zawierajacej pary autor – tytu l ksi_, a˙zki. Zadanie to by lo wi_, ec du˙zo prostsze_, ni˙z uzupe lnianie rozbudowanych szablon´ow ekstrakcyjnych, tak jak to mia lo miejsce w eksperymentach realizowanych w ramach serii MUC.

Algorytm Brina by l nastepuj_, acy:_, 1. R⁰ ← Sample

W zbiorze krotek R0 umie´s´c krotki zarodkowe, 2. O ← F indOccurrences(R⁰, D)

Znajd´z wystapienia O krotek ze zbioru R_, ⁰ w zbiorze dokument´ow D, 3. P ← GenP atterns(O)

Zbuduj wzorce ekstrakcyjne P na podstawie zbioru wystapie´_, n krotek O, 4. R⁰ ← MD(P )

Przeszukaj baze dokument´_, ow w celu wykrycia krotek pasujacych do wzorc´_, ow P , 5. Je´sli R⁰ jest wystarczajaco du˙ze, zako´_, ncz, je´sli nie wr´o´c do punktu 2.

Najwa˙zniejsza innowacj_, a tego algorytmu by l punkt 3, tzn. budowa wzorc´_, ow ekstrakcyjnych. W algo-rytmie tym u˙zyto predefiniowanych wyra˙ze´n regularnych, do kt´orych musia lo pasowa´c nazwisko autora oraz tytu l ksia˙zki. W ten spos´_, ob eliminowano dopasowania, kt´ore nie wyglada ly jak pary autor – ksi_, a˙zka._, Sam wzorzec by l za´s 5-elementowa krotk_, a: (kolejno´_, s´c, prefiks url, prefiks, ´srodek, sufiks). Kolejno´s´c okre-´sla la czy autor wystepowa l przed tytu lem, czy po nim, prefiks url zawiera l prefiks adresu URL strony, na_, kt´orej znaleziono dana par_, e, za´_, s prefiks, ´srodek i sufiks by ly wyra˙zeniami, kt´ore wystepowa lo odpowied-_, nio przed, pomiedzy oraz po dopasowanych elementach (w zale˙zno´_, sci od porzadku: autorze i tytule, b_, ad´_, z tytule i autorze), tzn. stanowi ly lewy, ´srodkowy oraz prawy kontekst dopasowania.

Do tak uzyskanych wzorc´ow przypisywana by la miara specyficzno´sci zdefiniowana jak iloczyn liczby liter wystepuj_, acych w prefiksie adresu URL, prefiksie, ´_, srodku i sufiksie wzorca oraz liczbie wyekstrahowa-nych krotek. Wzorce poni˙zej ustalonego progu t oraz wzorce generujace mniej ni˙z 2 krotki by ly odrzucane._, Poczatkowo planowano, ˙ze eksperymenty z wykorzystaniem tego algorytmu przeprowadzone b_, ed_, a na_, zbiorze 24 milion´ow dokument´ow, lecz proces ten by l zbyto powolny, dlatego kolejne iteracje by ly wy-konywane na pewnym ich podzbiorze. Zbi´or danych zarodkowych obejmowa l 5 par autor – tytu l. Ich wystapie´_, n poszukiwano w podzbiorze zawierajacym 5 milion´_, ow dokument´ow, gdzie odnaleziono ich 199. Na tej podstawie zbudowano 3 wzorce ekstrakcyjne. U˙zycie tak uzyskanych wzorc´ow na tym samym pod-zbiorze da lo w wyniku 4047 unikalnych par autor – tytu l. Poszukiwanie tych par w kolejnym pod-zbiorze 5 milion´ow dokument´ow da lo 3972 wystapienia, kt´_, ore pozwoli ly na zbudowanie 105 wzorc´ow. U˙zycie tych wzorc´ow z kolei da lo 9369 unikalnych par autor – tytu l. Finalna iteracja wyprodukowa la za´s 346 wzorc´ow, kt´ore pozwoli ly wykry´c 15257 unikalnych par autor – tytu l. Analiza 20 losowo wybranych wynik´ow wy-kaza la, ˙ze tylko jeden z nich by l niepoprawny – zamiast pary autor – tytu l ksia˙zki by la to para autor –_, tytu l artyku lu.

Idea wykorzystana przez Riloff, Jones oraz Brina znalaz la swoje rozwiniecie w pracy Agichteina i Gra-_, vano. W artykule Snowball: Extracting Relations from Large Plain-Text Collections [2] opisali oni system ekstrakcji relacji semantycznych, w kt´orym wprost powo luja si_, e na prac_, e Brina, do kt´_, orej wprowadzili jednak istotne modyfikacje, skutkujace istotn_, a poprawn_, a precyzji dzia lania algorytmu. Pierwsza modyfi-_, kacja polega la na odej´sciu od wyra˙ze´n regularnych, stosowanych do wykrywania argument´ow relacji na

rzecz kategorii semantycznych przypisywanych za pomoca odr_, ebnego narz_, edzia – w tym wypadku sys-_, temu Alembic [32]. Dzieki temu system m´_, og l pomina´_,c te dopasowania wzorca ekstrakcyjnego, w kt´orych kategorie semantyczne argument´ow relacji nie by ly zgodne z kategoriami wystepuj_, acymi we wzorcu._,

Druga modyfikacja polega la na odej´sciu od ´scis lego dopasowania lewego, ´srodkowego oraz prawego kontekstu wystepuj_, acego we wzorcu na rzecz metryki opartej o wektorowy model j_, ezyka wykorzystywany_, w systemach wyszukiwania informacji. S lowom wystepuj_, acym w kontek´_, scie dopasowania przypisywano wage okre´_, slona na podstawie dopasowa´_, n krotek zarodkowych (a w p´o´zniejszych iteracjach – krotek uzy-skanych w iteracjach wcze´sniejszych). Decyzja o tym, czy dany wzorzec pasuje do okre´slonego fragmentu tekstu by la za´s okre´slana na podstawie warto´sci metryki cosinusowej – je´sli warto´s´c iloczynu skalarnego przekracza la okre´slony pr´og, uznawano, ˙ze wzorzec zosta l dopasowany.

Trzecia, wed lug autor´ow najwa˙zniejsza, modyfikacja dotyczy la sposobu wybierania krotek oraz wzor-c´ow, kt´ore przechodzi ly do kolejnej iteracji algorytmu. Poniewa˙z opisywany system by l wykorzystywany do ekstrakcji krotek o postaci przedsiebiorstwo – g l´_, owna siedziba, mo˙zliwe by lo wykorzystanie zale˙zno´sci funkcyjnych4do okre´slania, czy nowa krotka wyekstrahowana przez okre´slony wzorzec ekstrakcyjny jest zgodna z wcze´sniej wyekstrahowanymi krotkami, o ile pierwsza pozycja tej krotki (tzn. przedsiebiorstwo)_, znalaz la sie ju˙z w bazie danych. Na tej podstawie mo˙zna zdefiniowa´_, c poziom pewno´sci danego wzorca, jako stosunek liczby krotek zgodnych do liczby krotek zgodnych oraz niezgodnych z wcze´sniejszymi wyni-kami. Ponadto wszystkie wzorce, kt´ore mia ly wsparcie (tzn. liczbe dopasowa´_, n do krotek z poprzedniego kroku ekstrakcji) poni˙zej okre´slonego progu by ly odrzucane.

Podobny mechanizm zosta l zastosowany do oceny ekstrahowanych krotek – aby okre´slona krotka zosta la dodana do bazy, musia la pasowa´c (biorac pod uwag_, e wcze´_, sniej zdefiniowany poziom dopasowania) do odpowiedniej liczby wzorc´ow posiadajacych odpowiedni stopie´_, n pewno´sci.

System Snowball zosta l przetestowany na du˙zym zbiorze artyku l´ow prasowych, obejmujacym ponad_, 100 tysiecy pozycji. Wyniki uzyskiwane przez system zale˙za ly od tego ile razy okre´_, slona para przedsie-_, biorstwo – siedziba wystepowa la w tych tekstach. Dla par posiadaj_, acych tylko jedno wyst_, apienie, system_, uzyskiwa l pokrycie na poziomie niespe lna 80%, a precyzje na poziomie 85%. Tak wysoka jako´_, s´c wyni-k´ow w po laczeniu z bardzo niewielkim zbiorem danych zarodkowych obejmuj_, acym jedynie 5 pozycji,_, ´swiadczy la o istotnej przewadze tego rozwiazania nad wcze´_, sniej opracowanymi systemami. Pokazywa la r´ownie˙z, ˙ze ekstrakcja informacji jest problemem, kt´ory mo˙ze doczeka´c sie praktycznego rozwi_, azania, bez_, u˙zycia olbrzymich nak lad´ow finansowych.

4.1.5. Zastosowanie strukturalnych i quasi-strukturalnych ´zr´ode l wiedzy

Wraz z rozwojem system´ow zdolnych do ekstrakcji informacji nie ograniczajacych si_, e do wybranej_, dziedziny wiedzy zaczeto rozumie´_, c, ˙ze tradycyjne problemy z dziedziny przetwarzania jezyka natural-_, nego, w szczeg´olno´sci problem ujednoznacznianie sensu, maja r´_, ownie˙z istotne znaczenie dla problemu ekstrakcji informacji. O ile jednak w tradycyjnym NLP istnia ly s lowniki takie jak WordNet [41], kt´ore stara ly sie wyodr_, ebnia´_, c i opisywa´c zbiory znacze´n dla poszczeg´olnych s l´ow, niezbedne do rozstrzygania_, wieloznaczno´sci, o tyle w przypadku ekstrakcji informacji, ze wzgledu na jej charakter, obejmuj_, acy przede_, wszystkim nazwy w lasne, stworzenie s lownik´ow tego rodzaju by loby niezmiernie kosztowne i d lugotrwa le. Dlatego te˙z naukowcy szybko dostrzegli potencja l Wikipedii jako ´zr´od la wiedzy bardzo przydatnego w procesie ekstrakcji informacji. Jedna z pierwszych pr´ob wykorzystania tej encyklopedii do rozstrzygania wieloznaczno´sci opisana jest w artykule Mihalcea’y [84]. Algorytm ten zosta l u˙zyty w narzedziu Wikify!_,

4.1. Ekstrakcja informacji w jezyku angielskim_, 51

[83], kt´ore s lu˙zy lo do wzbogacania tekst´ow stron internetowych o automatycznie generowane odno´sniki do istotnych artyku l´ow w Wikipedii.

Na bazie Wikipedii zdefiniowano wiele metryk semantycznego podobie´nstwa miedzy poj_, eciami, kt´_, ore poza praca Mihalcea’y zosta ly r´_, ownie˙z opisane m.in. w pracach Gabrilovicha i Markovitcha [43] oraz Milnego i Wittena [160]. Ulepszony algorytm Milnego i Wittena jest wykorzystywany r´ownie˙z w niniejszej pracy, dlatego po jego om´owienie odsy lamy do punktu 7.3 oraz do pracy [123].

Obok algorytm´ow ujednoznaczniajacych na bazie Wikipedii zacz_, eto r´_, ownie˙z tworzy´c strukturalne ´zr´od la wiedzy, kt´ore maja istotne znaczenie w procesie ekstrakcji informacji. Do najbardziej znanych_, system´ow tego rodzaju nale˙za YAGO [149] oraz DBpedia [7]. Autorzy YAGO powi_, azali dane Wikipedii_, z ontologia SUMO [98] oraz angielskim WordNetem [33]. Wykorzystali w tym celu system kategorii struk-_, turyzujacy Wikipedi_, e bowiem zauwa˙zyli, ˙ze je´_, sli g l´owny rzeczownik w nazwie kategorii wystepuje w liczbie_, mnogiej, to taka kategoria zwykle stanowi kategorie semantyczn_, a poj_, e´_,c, kt´ore do niej nale˙za. Wi_, a˙z_, ac te_, rzeczowniki z pojeciami w WordNecie mogli przypisa´_, c artyku lom Wikipedii kategorie semantyczne wziete_, z tego s lownika.

DBpedia wykorzystuje natomiast inna cech_, e Wikipedii – ustrukturyzowane informacje wyst_, epuj_, ace_, w znacznej liczbie artyku l´ow nazywane infoboksami (patrz rys. 6.1). Zawieraja one informacje w formie_, tabelarycznej dzieki czemu mo˙zna latwo przekszta lci´_, c je do postaci nadajacej si_, e do przechowywania_, w relacyjnej bad´_, z semantycznej bazie danych. Co wiecej – na podstawie nazwy infoboksu mo˙zna r´_, ownie˙z okre´sli´c kategorie semantyczn_, a, do kt´_, orej przynale˙zy dane pojecie. Typy infoboks´_, ow zosta ly ujednolicone i uporzadkowane w wyniku czego powsta la niewielka ontologia obejmuj_, aca ponad 300 klas_, 5. Nale˙zy jednak zwr´oci´c uwage, ˙ze ontologia ta obejmuje swoim zasi_, egiem jedynie oko lo po lowy artyku l´_, ow wystepuj_, acych_, w angielskiej wersji Wikipedii – znaczna ich cze´_,s´c nie posiada infoboksu, kt´ory pozwala lby okre´sli´c ich kategorie semantyczn_, a._,

Na podstawie YAGO oraz DBpedii powsta ly systemy, takie jak Sofie [150] oraz DBpedia Spotlight [82], kt´orych celem jest ekstrakcja informacji. Obecnie systemy te pozwalaja g l´_, ownie na rozpoznawanie jednostek referencyjnych, cho´c w kontek´scie tych system´ow m´owi sie cz_, e´_,sciej o linkowaniu obiekt´ow (ang. entity linking). Trwaja r´_, ownie˙z intensywne prace nad zastosowaniem ich w problemie ekstrakcji rela-cji semantycznych. System tego rodzaju opisany jest miedzy innymi w pracy Exnera i Nuguesa Entity_, Extraction: From Unstructured Text to DBpedia RDF Triples [39]. Charakterystyczna cech_, a tego sys-_, temu jest to, ˙ze na etapie tworzenia klasyfikatora relacji semantycznych, dane zgromadzone w DBpedii wykorzystywane sa jako przyk lady zarodkowe._,

W dokumencie Index of /rozprawy2/10951 (Stron 47-51)