• Nie Znaleziono Wyników

Wykorzystanie danych zarodkowych

W dokumencie Index of /rozprawy2/10951 (Stron 47-51)

4.1. Ekstrakcja informacji w j ezyku angielskim ,

4.1.4. Wykorzystanie danych zarodkowych

Zastosowanie opisanych wcze´sniej metod statystycznych przyczyni lo sie do przyspieszenia procesu ad-, aptowania system´ow ekstrakcji wiedzy do nowych dziedzin. Przede wszystkim adaptacja system´ow mo-g la by´c wykonywana przez ekspert´ow dziedzinowych, kt´orzy zwykle nie posiadaja wiedzy z zakresu prze-, twarzania jezyka. W po l, aczeniu z konstrukcj, a przyjaznych interfejs´, ow u˙zytkownika, proces ten m´og l by´c realizowany przez system w trakcie jego adaptacji, poprzez zadawanie prostych pyta´n u˙zytkownikowi.

Jednak pomimo tak istotnego przyspieszenia i uproszczenia, procesu ten by l nadal do´s´c ˙zmudny. Konieczno´s´c oznakowania setek, bad´, z tysiecy przyk lad´, ow uczacych by la ci, agle w, askim gard lem, kt´, ore istotnie utrudnia lo wykorzystywanie system´ow ekstrakcji informacji. Dlatego te˙z poszukiwano metod, kt´ore pozwoli lyby znaczaco ograniczy´, c ilo´s´c informacji potrzebna do tego by dostosowa´, c system do nowej

dziedziny. Ponadto rosnaca popularno´, s´c Internetu jako ´zr´od la informacji, a tak˙ze dostepno´, s´c du˙zych baz zawierajacych kolekcje tekst´, ow (korpus´ow) pozwoli la na stworzenie metod, kt´ore minimalizowa ly nak lad pracy recznej.,

Podstawowy pomys l zastosowany w systemach ekstrakcji informacji powsta lych pod koniec poprzed-niego wieku, polega na wykorzystaniu tzw. danych zarodkowych (ang. seed data) oraz wzorc´ow zarodko-wych (ang. seed patterns). Praca reczna niezb, edna do dostosowania systemu do nowej dziedziny sprowa-, dza la sie do wprowadzenia zaledwie kilku przyk ladowych informacji, charakterystycznych dla analizowa-, nego problemu. Informacje te mog ly by´c wype lnionymi szablonami ekstrakcyjnymi lub parami element´ow po laczonych okre´, slona relacj, a semantyczn, a. Przyk ladowo: przy budowie systemu ekstrahuj, acego informa-, cje na temat autor´ow ksia˙zek, wystarczy lo poda´, c kilka par, np.:

– Adam Mickiewicz – Pan Tadeusz, – William Szekspir – Romeo i Julia,

– Henryk Sienkiewicz – W pustyni i w puszczy.

Zadaniem systemu by lo odnalezienie fragment´ow tekstu, w kt´orych te pary wystepuj, a oraz automa-, tyczne zbudowanie wzorc´ow ekstrakcyjnych, kt´ore pozwoli lyby na wyekstrahowanie innych par: autor – dzie lo literackie. Tak uzyskane pary mog ly by´c powt´ornie wykorzystane do odkrycia nowych wzorc´ow eks-trakcyjnych, na podstawie kt´orych mo˙zna by lo uzyskiwa´c nowe dane. Proces ten m´og l zatem powtarza´c sie wielokrotnie, co pozytywnie wp lywa lo na zwi, ekszenie pokrycia.,

Jeden z pierwszych system´ow tego rodzaj zosta l opisany w pracy Riloff i Jones Learning Dictionaries for Information Extraction by Multi-Level Bootstrapping [133]. W artykule tym opisany jest system, kt´ory s lu˙zy do automatycznego, jednoczesnego pozyskiwania wzorc´ow ekstrakcyjnych oraz s lownika termin´ow, kt´ore moga wyst, epowa´, c na okre´slonych pozycjach w szablonie ekstrakcyjnym.

Dzia lanie systemu by lo nastepuj, ace: w pierwszej fazie system ekstrahowa l wszystkie frazy nominalne,, kt´ore wystepowa ly w korpusie tekst´, ow zawierajacym dane treningowe. Nast, epnie we frazach wyszuki-, wano wystapie´, n jednego ze s l´ow zarodkowych przypisanych do okre´slonej kategorii semantycznej. Przy-k ladowo, dla Przy-kategorii location (miejsce) autorPrzy-ki u˙zy ly nastepuj, acych s l´, ow: australia, canada, china, england, france, germany, japan, mexico, switzerland, united states. Frazy zawierajace jedno z wymienio-, nych s l´ow, po usunieciu tego s lowa, dodawane by ly do zbioru wzorc´, ow ekstrahujacych miejsca. W kolejnej, fazie wzorce te by ly sortowane ze wzgledu na metryk, e uwzgl, edniaj, ac, a liczb, e unikalnych s l´, ow, do kt´orych one pasowa ly. Na tej podstawie mo˙zna by lo r´ownie˙z okre´sli´c, kt´ore s lowa nale˙zace do danej kategorii, semantycznej, sa najbardziej wiarygodne.,

Istotnym elementem ca lego procesu by lo to, ˙ze po kilku iteracjach na podstawie kt´orych pozyskiwano jednocze´snie nowe wzorce ekstrakcyjne oraz nowe s lowa nale˙zace do okre´, slonej kategorii semantycznej, okre´slano najbardziej wiarygodne s lowa i ca ly proces powtarzano od poczatku (w szczeg´, olno´sci odrzucano wszystkie wzorce ekstrakcyjne).

Algorytm Riloff i Jones zosta l przetestowany m.in na danych z konferencji MUC-4 [50]. Uzyskiwane wyniki zale˙za ly od liczby iteracji w zewnetrznej p, etli algorytmu. Cho´, c z rosnac, a liczb, a iteracji precyzja, algorytmu zmniejsza la sie, to i tak utrzymywa la si, e na do´, s´c wysokim poziomie: po 10 iteracjach ´srednia precyzja wynosi la 75%, po 20: 76,8%, a po 50: 57,6%, natomiast pokrycie osiaga lo ´, srednio 38,3%.

Inna prac, a, kt´, ora wywar la istotny wp lyw na rozw´oj algorytm´ow ekstrakcji informacji by l ekspery-ment opisany w artykule Sergeya Brina Extracting Patterns and Relations from the World Wide Web [18]. Praca ta by la o tyle istotna, ˙ze jako ´zr´od lo wiedzy s lu˙zace do budowy wzorc´, ow ekstrakcyjnych u˙zyto danych zgromadzonych w Internecie. Pomys l ten zapoczatkowa l tendencj, e, kt´, ora utrzymuje sie do dzisiaj,,

4.1. Ekstrakcja informacji w jezyku angielskim, 49

tzn. wykorzystywanie olbrzymiego zbioru danych tekstowych dostepnych w sieciach rozleg lych. Podobnie, jak Riloff i Jones, Brin zastosowa l zbi´or danych zarodkowych w celu zbudowania wzorc´ow ekstrakcyj-nych, jednak˙ze inaczej postawi l cel konstrukcji algorytmu. W tym przypadku chodzi lo o automatyczne zbudowanie bazy danych zawierajacej pary autor – tytu l ksi, a˙zki. Zadanie to by lo wi, ec du˙zo prostsze, ni˙z uzupe lnianie rozbudowanych szablon´ow ekstrakcyjnych, tak jak to mia lo miejsce w eksperymentach realizowanych w ramach serii MUC.

Algorytm Brina by l nastepuj, acy:, 1. R0 ← Sample

W zbiorze krotek R0 umie´s´c krotki zarodkowe, 2. O ← F indOccurrences(R0, D)

Znajd´z wystapienia O krotek ze zbioru R, 0 w zbiorze dokument´ow D, 3. P ← GenP atterns(O)

Zbuduj wzorce ekstrakcyjne P na podstawie zbioru wystapie´, n krotek O, 4. R0 ← MD(P )

Przeszukaj baze dokument´, ow w celu wykrycia krotek pasujacych do wzorc´, ow P , 5. Je´sli R0 jest wystarczajaco du˙ze, zako´, ncz, je´sli nie wr´o´c do punktu 2.

Najwa˙zniejsza innowacj, a tego algorytmu by l punkt 3, tzn. budowa wzorc´, ow ekstrakcyjnych. W algo-rytmie tym u˙zyto predefiniowanych wyra˙ze´n regularnych, do kt´orych musia lo pasowa´c nazwisko autora oraz tytu l ksia˙zki. W ten spos´, ob eliminowano dopasowania, kt´ore nie wyglada ly jak pary autor – ksi, a˙zka., Sam wzorzec by l za´s 5-elementowa krotk, a: (kolejno´, s´c, prefiks url, prefiks, ´srodek, sufiks). Kolejno´s´c okre-´sla la czy autor wystepowa l przed tytu lem, czy po nim, prefiks url zawiera l prefiks adresu URL strony, na, kt´orej znaleziono dana par, e, za´, s prefiks, ´srodek i sufiks by ly wyra˙zeniami, kt´ore wystepowa lo odpowied-, nio przed, pomiedzy oraz po dopasowanych elementach (w zale˙zno´, sci od porzadku: autorze i tytule, b, ad´, z tytule i autorze), tzn. stanowi ly lewy, ´srodkowy oraz prawy kontekst dopasowania.

Do tak uzyskanych wzorc´ow przypisywana by la miara specyficzno´sci zdefiniowana jak iloczyn liczby liter wystepuj, acych w prefiksie adresu URL, prefiksie, ´, srodku i sufiksie wzorca oraz liczbie wyekstrahowa-nych krotek. Wzorce poni˙zej ustalonego progu t oraz wzorce generujace mniej ni˙z 2 krotki by ly odrzucane., Poczatkowo planowano, ˙ze eksperymenty z wykorzystaniem tego algorytmu przeprowadzone b, ed, a na, zbiorze 24 milion´ow dokument´ow, lecz proces ten by l zbyto powolny, dlatego kolejne iteracje by ly wy-konywane na pewnym ich podzbiorze. Zbi´or danych zarodkowych obejmowa l 5 par autor – tytu l. Ich wystapie´, n poszukiwano w podzbiorze zawierajacym 5 milion´, ow dokument´ow, gdzie odnaleziono ich 199. Na tej podstawie zbudowano 3 wzorce ekstrakcyjne. U˙zycie tak uzyskanych wzorc´ow na tym samym pod-zbiorze da lo w wyniku 4047 unikalnych par autor – tytu l. Poszukiwanie tych par w kolejnym pod-zbiorze 5 milion´ow dokument´ow da lo 3972 wystapienia, kt´, ore pozwoli ly na zbudowanie 105 wzorc´ow. U˙zycie tych wzorc´ow z kolei da lo 9369 unikalnych par autor – tytu l. Finalna iteracja wyprodukowa la za´s 346 wzorc´ow, kt´ore pozwoli ly wykry´c 15257 unikalnych par autor – tytu l. Analiza 20 losowo wybranych wynik´ow wy-kaza la, ˙ze tylko jeden z nich by l niepoprawny – zamiast pary autor – tytu l ksia˙zki by la to para autor –, tytu l artyku lu.

Idea wykorzystana przez Riloff, Jones oraz Brina znalaz la swoje rozwiniecie w pracy Agichteina i Gra-, vano. W artykule Snowball: Extracting Relations from Large Plain-Text Collections [2] opisali oni system ekstrakcji relacji semantycznych, w kt´orym wprost powo luja si, e na prac, e Brina, do kt´, orej wprowadzili jednak istotne modyfikacje, skutkujace istotn, a poprawn, a precyzji dzia lania algorytmu. Pierwsza modyfi-, kacja polega la na odej´sciu od wyra˙ze´n regularnych, stosowanych do wykrywania argument´ow relacji na

rzecz kategorii semantycznych przypisywanych za pomoca odr, ebnego narz, edzia – w tym wypadku sys-, temu Alembic [32]. Dzieki temu system m´, og l pomina´,c te dopasowania wzorca ekstrakcyjnego, w kt´orych kategorie semantyczne argument´ow relacji nie by ly zgodne z kategoriami wystepuj, acymi we wzorcu.,

Druga modyfikacja polega la na odej´sciu od ´scis lego dopasowania lewego, ´srodkowego oraz prawego kontekstu wystepuj, acego we wzorcu na rzecz metryki opartej o wektorowy model j, ezyka wykorzystywany, w systemach wyszukiwania informacji. S lowom wystepuj, acym w kontek´, scie dopasowania przypisywano wage okre´, slona na podstawie dopasowa´, n krotek zarodkowych (a w p´o´zniejszych iteracjach – krotek uzy-skanych w iteracjach wcze´sniejszych). Decyzja o tym, czy dany wzorzec pasuje do okre´slonego fragmentu tekstu by la za´s okre´slana na podstawie warto´sci metryki cosinusowej – je´sli warto´s´c iloczynu skalarnego przekracza la okre´slony pr´og, uznawano, ˙ze wzorzec zosta l dopasowany.

Trzecia, wed lug autor´ow najwa˙zniejsza, modyfikacja dotyczy la sposobu wybierania krotek oraz wzor-c´ow, kt´ore przechodzi ly do kolejnej iteracji algorytmu. Poniewa˙z opisywany system by l wykorzystywany do ekstrakcji krotek o postaci przedsiebiorstwo – g l´, owna siedziba, mo˙zliwe by lo wykorzystanie zale˙zno´sci funkcyjnych4do okre´slania, czy nowa krotka wyekstrahowana przez okre´slony wzorzec ekstrakcyjny jest zgodna z wcze´sniej wyekstrahowanymi krotkami, o ile pierwsza pozycja tej krotki (tzn. przedsiebiorstwo), znalaz la sie ju˙z w bazie danych. Na tej podstawie mo˙zna zdefiniowa´, c poziom pewno´sci danego wzorca, jako stosunek liczby krotek zgodnych do liczby krotek zgodnych oraz niezgodnych z wcze´sniejszymi wyni-kami. Ponadto wszystkie wzorce, kt´ore mia ly wsparcie (tzn. liczbe dopasowa´, n do krotek z poprzedniego kroku ekstrakcji) poni˙zej okre´slonego progu by ly odrzucane.

Podobny mechanizm zosta l zastosowany do oceny ekstrahowanych krotek – aby okre´slona krotka zosta la dodana do bazy, musia la pasowa´c (biorac pod uwag, e wcze´, sniej zdefiniowany poziom dopasowania) do odpowiedniej liczby wzorc´ow posiadajacych odpowiedni stopie´, n pewno´sci.

System Snowball zosta l przetestowany na du˙zym zbiorze artyku l´ow prasowych, obejmujacym ponad, 100 tysiecy pozycji. Wyniki uzyskiwane przez system zale˙za ly od tego ile razy okre´, slona para przedsie-, biorstwo – siedziba wystepowa la w tych tekstach. Dla par posiadaj, acych tylko jedno wyst, apienie, system, uzyskiwa l pokrycie na poziomie niespe lna 80%, a precyzje na poziomie 85%. Tak wysoka jako´, s´c wyni-k´ow w po laczeniu z bardzo niewielkim zbiorem danych zarodkowych obejmuj, acym jedynie 5 pozycji,, ´swiadczy la o istotnej przewadze tego rozwiazania nad wcze´, sniej opracowanymi systemami. Pokazywa la r´ownie˙z, ˙ze ekstrakcja informacji jest problemem, kt´ory mo˙ze doczeka´c sie praktycznego rozwi, azania, bez, u˙zycia olbrzymich nak lad´ow finansowych.

4.1.5. Zastosowanie strukturalnych i quasi-strukturalnych ´zr´ode l wiedzy

Wraz z rozwojem system´ow zdolnych do ekstrakcji informacji nie ograniczajacych si, e do wybranej, dziedziny wiedzy zaczeto rozumie´, c, ˙ze tradycyjne problemy z dziedziny przetwarzania jezyka natural-, nego, w szczeg´olno´sci problem ujednoznacznianie sensu, maja r´, ownie˙z istotne znaczenie dla problemu ekstrakcji informacji. O ile jednak w tradycyjnym NLP istnia ly s lowniki takie jak WordNet [41], kt´ore stara ly sie wyodr, ebnia´, c i opisywa´c zbiory znacze´n dla poszczeg´olnych s l´ow, niezbedne do rozstrzygania, wieloznaczno´sci, o tyle w przypadku ekstrakcji informacji, ze wzgledu na jej charakter, obejmuj, acy przede, wszystkim nazwy w lasne, stworzenie s lownik´ow tego rodzaju by loby niezmiernie kosztowne i d lugotrwa le. Dlatego te˙z naukowcy szybko dostrzegli potencja l Wikipedii jako ´zr´od la wiedzy bardzo przydatnego w procesie ekstrakcji informacji. Jedna z pierwszych pr´ob wykorzystania tej encyklopedii do rozstrzygania wieloznaczno´sci opisana jest w artykule Mihalcea’y [84]. Algorytm ten zosta l u˙zyty w narzedziu Wikify!,

4.1. Ekstrakcja informacji w jezyku angielskim, 51

[83], kt´ore s lu˙zy lo do wzbogacania tekst´ow stron internetowych o automatycznie generowane odno´sniki do istotnych artyku l´ow w Wikipedii.

Na bazie Wikipedii zdefiniowano wiele metryk semantycznego podobie´nstwa miedzy poj, eciami, kt´, ore poza praca Mihalcea’y zosta ly r´, ownie˙z opisane m.in. w pracach Gabrilovicha i Markovitcha [43] oraz Milnego i Wittena [160]. Ulepszony algorytm Milnego i Wittena jest wykorzystywany r´ownie˙z w niniejszej pracy, dlatego po jego om´owienie odsy lamy do punktu 7.3 oraz do pracy [123].

Obok algorytm´ow ujednoznaczniajacych na bazie Wikipedii zacz, eto r´, ownie˙z tworzy´c strukturalne ´zr´od la wiedzy, kt´ore maja istotne znaczenie w procesie ekstrakcji informacji. Do najbardziej znanych, system´ow tego rodzaju nale˙za YAGO [149] oraz DBpedia [7]. Autorzy YAGO powi, azali dane Wikipedii, z ontologia SUMO [98] oraz angielskim WordNetem [33]. Wykorzystali w tym celu system kategorii struk-, turyzujacy Wikipedi, e bowiem zauwa˙zyli, ˙ze je´, sli g l´owny rzeczownik w nazwie kategorii wystepuje w liczbie, mnogiej, to taka kategoria zwykle stanowi kategorie semantyczn, a poj,,c, kt´ore do niej nale˙za. Wi, a˙z, ac te, rzeczowniki z pojeciami w WordNecie mogli przypisa´, c artyku lom Wikipedii kategorie semantyczne wziete, z tego s lownika.

DBpedia wykorzystuje natomiast inna cech, e Wikipedii – ustrukturyzowane informacje wyst, epuj, ace, w znacznej liczbie artyku l´ow nazywane infoboksami (patrz rys. 6.1). Zawieraja one informacje w formie, tabelarycznej dzieki czemu mo˙zna latwo przekszta lci´, c je do postaci nadajacej si, e do przechowywania, w relacyjnej bad´, z semantycznej bazie danych. Co wiecej – na podstawie nazwy infoboksu mo˙zna r´, ownie˙z okre´sli´c kategorie semantyczn, a, do kt´, orej przynale˙zy dane pojecie. Typy infoboks´, ow zosta ly ujednolicone i uporzadkowane w wyniku czego powsta la niewielka ontologia obejmuj, aca ponad 300 klas, 5. Nale˙zy jednak zwr´oci´c uwage, ˙ze ontologia ta obejmuje swoim zasi, egiem jedynie oko lo po lowy artyku l´, ow wystepuj, acych, w angielskiej wersji Wikipedii – znaczna ich cze´,s´c nie posiada infoboksu, kt´ory pozwala lby okre´sli´c ich kategorie semantyczn, a.,

Na podstawie YAGO oraz DBpedii powsta ly systemy, takie jak Sofie [150] oraz DBpedia Spotlight [82], kt´orych celem jest ekstrakcja informacji. Obecnie systemy te pozwalaja g l´, ownie na rozpoznawanie jednostek referencyjnych, cho´c w kontek´scie tych system´ow m´owi sie cz,,sciej o linkowaniu obiekt´ow (ang. entity linking). Trwaja r´, ownie˙z intensywne prace nad zastosowaniem ich w problemie ekstrakcji rela-cji semantycznych. System tego rodzaju opisany jest miedzy innymi w pracy Exnera i Nuguesa Entity, Extraction: From Unstructured Text to DBpedia RDF Triples [39]. Charakterystyczna cech, a tego sys-, temu jest to, ˙ze na etapie tworzenia klasyfikatora relacji semantycznych, dane zgromadzone w DBpedii wykorzystywane sa jako przyk lady zarodkowe.,

W dokumencie Index of /rozprawy2/10951 (Stron 47-51)