• Nie Znaleziono Wyników

Ekstrakcja relacji semantycznych

W dokumencie Index of /rozprawy2/10951 (Stron 52-55)

4.1. Ekstrakcja informacji w j ezyku angielskim ,

4.1.7. Ekstrakcja relacji semantycznych

W dotychczas przedstawionej historii ekstrakcji informacji dla jezyka angielskiego nie koncentrowali-, ´smy sie na relacjach semantycznych. W praktyce wi, ekszo´, s´c opisywanych system´ow stworzona zosta la albo po to by wype lnia´c szablony ekstrakcyjne, w kt´orych spo´sr´od relacji semantycznych najcze´,sciej pojawia

4.1. Ekstrakcja informacji w jezyku angielskim, 53

sie meronimia, albo po to by ekstrahowa´, c specyficzne relacje ontologiczne (jak np. autor – ksia˙zka, przed-, siebiorstwo – g l´, owna siedziba, itp.). Istnieje jednak kilka interesujacych prac po´, swieconych ekstrahowaniu, specyficznych relacji semantycznych, w szczeg´olno´sci hiponimii oraz meronimii.

Jedna z najlepiej znanych i najcz,,sciej cytowanych prac na ten temat jest artyku l Hearst [52]. Autorka przedstawi la w nim metode rozpoznawania hiponimii z wykorzystaniem prostych wzorc´, ow gramatyczny-tekstowych. Przyk ladowo wzorzec

N P0, such as {N P1, N P2. . . (and | or) N Pn } , (4.2) kt´ory mo˙ze by´c dopasowany do zdania

The bow lute, such as Bambara ndang is plucked and has an individual curved neck for each string6,

pozwala wyekstrahowa´c nastepuj, acy przyk lad hiponimii: (Bambara ndang, bow lute).,

W swojej pracy Hearst wskaza la 6 wzorc´ow tego rodzaju, kt´ore zdolne by ly do rozpoznawania relacji hiponimii z wysoka precyzj, a [52, s. 541], 7:

– such N P as {N P, } ∗ { (and | or ) }N P ,

np. works by such authors as Herrick, Goldsmith, and Shakespeare, – N P {N P, } ∗ {, } or other N P ,

np. Bruises, wounds, broken bones or other injuries ..., – N P {N P, } ∗ {, } and other N P ,

np. templates, treasuries, and other important civic buildings, – N P including {N P, } ∗ { (and | or ) }N P ,

np. All common-law countries, including Canada, England, ..., – N P {, } especially {N P, } ∗ { (and | or ) }N P ,

np. most European countries, especially France, England, and Spain.

Metoda pozwalajaca na znalezienie tych wzorc´, ow by la podobna jak w przypadku algorytm´ow opi-sanych w punkcie 4.1.4, z tym zastrze˙zeniem, ˙ze wzorce ekstrakcyjne by lyby tworzone recznie przez, eksperymentatora na podstawie zda´n, w kt´orych znaleziono wystapienia danych zarodkowych. Hearst, pr´obowa la r´ownie˙z u˙zy´c powy˙zszej metody do ekstrahowania meronimii. Okaza lo sie jednak, ˙ze uzyskane, wzorce by ly wieloznaczne (dominowa ly w nich wzorce postaci X of Y oraz X’s Y, wskazujace na pewien, typ relacji posesywnej) i autorka nie rozwija la tej metody.

Kolejne wa˙zne osiagni, ecia w zakresie rozpoznawania meronimii by ly opisane w pracy Berlanda i Char-, niaka [13]. W pierwszej kolejno´sci autorzy okre´slili na zasadzie analogicznej do metody Hearst, 5 wzorc´ow charakteryzujacych meronimi, e w j, ezyku angielskim [13, s. 58]:,

– N N [−P L]w’s N N [−P L]p, np. building’s basement,

– N N [−P L]p of { (the | a ) }[J J |N N ] ∗ N Nw, np. basement of a building,

6Lutnia lukowa, taka jak Bambara ndang jest instrumentem szarpanym i posiada osobny, wygiety zaczep dla ka ˙zdej, struny – t lum. autora.

– N NP in{ (the | a ) }[J J |N N ] ∗ N Nw, np. basement in a building, – N N − P Lp of N N − P Lw, np. basements of buildings, – N N − P Lp in N N − P Lw, np. basements in buildings, gdzie indeks: – w – oznacza ca lo´s´c, – p – oznacza cze´,s´c.

Poniewa˙z jako´s´c wynik´ow produkowanych przez poszczeg´olne wzorce mocno sie r´, o˙zni la, autorzy wy-korzystali tylko pierwsze dwa, gdy˙z charakteryzowa ly sie najwy˙zsz, a precyzj, a. Aby ograniczy´, c liczbe b l, e-, d´ow ekstrakcji, wyniki by ly w pierwszym rzedzie filtrowane ze wzgl, edu na wyst, epowanie w rzeczownikach, ko´nc´owek ing, ness oraz ity, charakterystycznych dla cech obiekt´ow, a nastepnie sortowane wzgl, edem, miary asocjacji s l´ow tworzacych relacj, e meronimii. Autorzy wykorzystali w tym wypadku miar, e sigdiff,, kt´ora oparta jest na r´o˙znicy prawdopodobie´nstwa wystapienia okre´, slonego s lowa oraz tego samego s lowa pod warunkiem wystapienia drugiego s lowa. W ten spos´, ob dla danego s lowa wyj´sciowego stanowiacego, ca lo´s´c (np. car lub building), tworzony by l ranking s l´ow odpowiadajacych cz,,sciom danego obiektu. Lista ta mog la by´c dalej wykorzystywane np. do uzupe lnienia zawarto´sci s lownika takiego jak WordNet.

Najciekawsza z naszego punktu widzenia sa jednak prace Girju i wsp´, o lpracownik´ow [47, 46]. Za-sadnicza r´o˙znica w stosunku do metody Hearst, a tak˙ze Berlanda i Charniaka dotyczy la okre´slenia ogranicze´n semantycznych dla ekstrahowanej relacji. Girju podobnie jak Hearst, r´ownie˙z zidentyfiko-wa la gramatyczno-tekstowe wzorce relacji (3 w przypadku meronimii), ale dopiero w nastepnym kroku, jej algorytm okre´sla l, czy dana para symboli jezykowych powi, azana jest odpowiedni, a relacj, a, badaj, ac czy, oba symbole spe lniaja ograniczenia semantyczne powi, azane z danym wzorcem.,

Bardzo istotnym elementem algorytmu opisanego w [47, s. 4-6] by lo automatyczne okre´slanie ograni-cze´n semantycznych na podstawie recznie oznakowanego zbioru danych ucz, acych, sk ladaj, acego si, e z pra-, wie 35 tys. par symboli (w tym niemal 28 tys. zaczerpnietych z angielskiego WordNetu). Algorytm ten, nazwany w p´o´zniejszej pracy iterative semantic specialization (ISS) [46] wyglada nast, epuj, aco. W pierw-, szej kolejno´sci fragmenty tekstu pasujace do wzorc´, ow ekstrakcyjnych sa r, ecznie oznaczane ze wzgl, edu, na wystepowanie w nich meronimii – w wyniku czego powstaj, a zbiory pozytywnych oraz negatywnych, przyk lad´ow wystapienia tej relacji. Nast, epnie napisy wyst, epuj, ace na pozycjach odpowiadaj, acych ca lo´, sci oraz cze´,sci ujednoznaczniane sa wzgl, edem angielskiego WordNetu (ten etap pomijany by l w przypadku, przyk lad´ow pochodzacych z korpusu SemCor, by ly ujednoznacznione wzgl, edem WordNetu). Wykorzy-, stujac przechodnio´, s´c hiponimii, specyficzne pojecia wyst, epuj, ace w przyk ladach odnalezionych w tek´, scie zastepowane by ly najbardziej og´, olnymi pojeciami, 8.

Uog´olnienie ogranicze´n semantycznych mog lo jednak prowadzi´c ponownie do problemu wieloznaczno-´sci – tzn. dla tych samych uog´olnionych par ogranicze´n wystepowa ly zar´, owno pozytywne jak i negatywne przyk lady meronimii. Dlatego te˙z og´olne ograniczenia posiadajace niejednoznaczne przyk lady tekstowe,, by ly zastepowane swoimi specjalizacjami, tak d lugo, a˙z niejednoznaczno´, s´c ta zosta la wyeliminowana. Przyk ladowo, je´sli w´sr´od przyk lad´ow pozytywnych wystapi la para (noga,pszczo la), kt´, ora uog´olniana jest do pary (entity#1,entity#1 ) a w´sr´od negatywnych para (ul,pszczo la), kt´ora uog´olniana jest do tej samej

W dokumencie Index of /rozprawy2/10951 (Stron 52-55)