Algorytm wyboru zda´ n zawieraj acych relacje semantyczne ,

6. Zasoby wykorzystywane przez algorytm

7.1. Algorytm wyboru zda´ n zawieraj acych relacje semantyczne ,

7.1.1. Metody pozyskiwania przyk ladowych zda´n

Celem 2 oraz 3 punktu g l´ownego algorytmu tworzenia wzorc´ow ekstrakcyjnych (por´ownaj p. 5.2) jest znalezienie przyk ladowych zda´n, w kt´orych wystepuj_, a wyra˙zenia po l_, aczone zadan_, a relacj_, a semantyczn_, a._, Przyk lady tego rodzaju moga by´_, c pozyskane na kilka sposob´ow:

1. przegladanie korpusu tekst´_, ow i reczne znakowanie zda´_, n zawierajacych wyst_, apie´_, n par wyra˙ze´n laczonych zadan_, a relacj_, a,_,

2. wyb´or kilku par symboli jezykowych (danych zarodkowych), wyszukanie ich wyst_, apie´_, n w korpusie tekst´ow i reczne oznakowanie zda´_, n zawierajacych wyst_, apienia zadanej relacji,_,

3. wyb´or kilku par symboli jezykowych (danych zarodkowych), wyszukanie ich wyst_, apie´_, n w korpusie i automatyczne okre´slenie ich przydatno´sci w konstrukcji wzorc´ow ekstrakcyjnych.

Pierwsze podej´scie promowane jest w jednym z popularniejszych narzedzi wykorzystywanych do bu-_, dowy algorytm´ow ekstrakcji informacji, tj. General Architecture for Text Engeneering (GATE) [31]. Na-rzedzie to u latwia przegl_, adanie zbioru tekst´_, ow i znakowanie wystepowania r´_, o˙znych zjawisk jezykowych,_, w tym wystepowa´_, n relacji semantycznych. Tak zbudowany korpus jest nastepnie analizowany w celu au-_, tomatycznej konstrukcji wzorc´ow pozwalajacych na rozpoznawanie okre´_, slonej relacji. Podej´scie to jest jednak do´s´c kosztowne, w szczeg´olno´sci je´sli relacja, kt´ora chcemy rozpoznawa´_, c w tek´scie, wystepuje do´_, s´c rzadko. Wtedy konieczne jest przegladni_, ecie du˙zej ilo´_, sci tekst´ow, a efektywno´s´c ca lego procesu jest do´s´c niska.

Dla jezyka polskiego nie istnieje ˙zaden korpus, w kt´_, orym wprost by lyby oznakowane wystapienia re-_, lacji semantycznych. Najwiekszy korpus zawieraj_, acy bogate znakowanie, tj. Narodowy Korpus J_, ezyka_, Polskiego (NKJP) [127] (a dok ladniej jego jednomilionowy podkorpus) zawiera dane przydatne z punktu widzenia ekstrakcji informacji jedynie w odniesieniu do ujednoznacznienia sensu wybranych poje´_,c oraz okre´slenia kategorii semantycznych wystepuj_, acych w nim jednostek referencyjnych. Chocia˙z dane po-_, zyskane przez szczeg´o lowa anotacj_, e korpusu by lyby niezwykle cenne, poniewa˙z pozwoli lyby nie tylko_, wytrenowa´c odpowiednie modele zdolne do rozpoznawania relacji, ale r´ownie˙z pozwoli lyby precyzyjnie okre´sli´c miare pokrycia opracowanej metody, nie zastosowano tego podej´_, scia ze wzgledu na jego koszto-_, i czasoch lonno´s´c.

Problem ten jest dobrze znany w literaturze z zakresu uczenia maszynowego i nosi nazwe knowledge_, acquisition bottleneck [95, s. 197-201]¹. Dlatego te˙z wiele metod, w szczeg´olno´sci w zakresie ekstrak-cji informaekstrak-cji, stara sie unikn_, a´_,c recznego znakowania korpus´_, ow. Lepszym rozwiazaniem jest podej´_, scie

1W cytowanej pozycji omawiany w kontek´scie problemu ujednoznaczniania s l´ow.

7.1. Algorytm wyboru zda´n zawierajacych relacje semantyczne_, 93

przedstawione w punkcie 2 – zamiast przeglada´_, c ca ly korpus, wyszukiwane sa w nim zdania, w kt´_, orych potencjalnie wystepuje zadana relacja semantyczna. W ten spos´_, ob mo˙zna pozyska´c wiele przyk lad´ow wy-stapienia relacji, gdy˙z zadanie, kt´_, ore musi wykona´c recznie osoba przegl_, adaj_, aca korpus, jest znacznie_, prostsze i polega jedynie na stwierdzeniu czy dana relacja wystepuje w znalezionym zdaniu._,

To podej´scie stosowane jest m.in. przez Girju w problemie ekstrakcji meronimii dla jezyka angielskiego_, [47]. Tzn. po odnalezieniu zda´n zawierajacych pary wyra˙ze´_, n, o kt´orych wiadomo, ˙ze zadana relacja wyste-_, puje pomiedzy nimi, zdania te s_, a r_, ecznie oznaczane jako zawieraj_, ace, b_, ad´_, z niezawierajace dan_, a relacj_, e se-_, mantyczna. Ten zbi´_, or stosowany jest nastepnie ( l_, acznie z przyk ladami negatywnymi) do wytrenowania_, klasyfikator´ow zdolnych do okre´slenia ogranicze´n semantycznych relacji meronimii.

Metoda opisana w punkcie 3 znana jest w literaturze przedmiotu pod nazwa active learning [95, s._, 199]. Polega ona na recznym wyborze kilku charakterystycznych par symboli i wytrenowaniu klasyfikatora_, zdolnego do rozpoznawania danego zjawiska jezykowego (np. wyst_, apienia relacji, b_, ad´_, z ujednoznacznienia sensu). Tak wytrenowany klasyfikator jest nastepnie u˙zywany do znajdowania w korpusie kolejnych przy-_, k lad´ow okre´slonego zjawiska. Przyk lady, kt´ore klasyfikator oznaczy l jako poprawne z du˙zym stopniem pewno´sci, w laczane s_, a do pocz_, atkowego zbioru przyk lad´_, ow uczacych. W kolejnej iteracji na podstawie_, nowego zbioru przyk lad´ow trenowany jest nowy klasyfikator, kt´ory rozpoznaje zjawisko w du˙zym korpusie tekst´ow.

Podej´scie to jest bardzo popularne w ekstrakcji informacji (patrz p. 4.1.4 oraz p. 4.2.2), gdy˙z (przy-najmniej teoretycznie) pozwala na ca lkowite pominiecie zaanga˙zowania cz lowieka w proces konstrukcji_, wzorc´ow zdolnych do ekstrakcji informacji. Niemniej jednak jako´s´c uzyskanych w ten spos´ob wzorc´ow eks-trakcyjnych rzadko pozwala na ich praktyczne zastosowanie. Zar´owno dla jezyka angielskiego jak i pol-_, skiego ich precyzja oscyluje w granicach 80-85%. Ponadto mo˙zna je zastosowa´c tylko wtedy, gdy uzyskany wzorzec jest semantycznie wysoce jednoznaczny. Jak zauwa˙za jednak Girju [47], najbardziej popularny wzorzec pozwalajacy na rozpoznawanie relacji meronimii, czyli zwi_, azek pomi_, edzy rzeczownikami, w kt´_, o-rych argument po lewej stronie wystepuje w dope lniaczu sakso´_, nskim (odpowiadajacy polskiemu zwi_, azkowi_, rzadu), to znaczy zako´_, nczony jest sekwencja ’s, nie pozwala na jej jednoznaczne rozpoznanie. Tym samym_, uniemo˙zliwia zastosowanie tego podej´scia dla tej relacji. Dlatego w jej algorytmie przyk lady wystepowania_, relacji oznaczane sa r_, ecznie._,

7.1.2. Koncepcja algorytmu wyszukiwania zda´n

Algorytm wyboru par symboli s lu˙zacych do odnajdowania przyk lad´_, ow zda´n zawierajacych wybran_, a re-_, lacje, wykorzystywany w niniejszej pracy, najbli˙zszy jest drugiemu podej´_, sciu zaprezentowanemu w punkcie 7.1.1. Podstawa prezentowanego algorytmu jest wykorzystanie relacji taksonomicznych, w tym wypadku_, relacji generalizacji wystepuj_, acej w ontologii Cyc. Przyjmuj_, ac, ˙ze okre´_, slona relacja wystepuje pomi_, edzy_, symbolami σa i σb, algorytm automatycznie generuje dodatkowe pary symboli, opierajac si_, e na wiedzy_, o pojeciach b_, ed_, acych ich specjalizacjami (poj_, eciami bardziej specyficznymi, hiponimami)._,

Podstawowa cech_, a relacji generalizacji (patrz p. 3.3.1) jest dziedziczenie opisu przez specjalizacje_, danego symbolu. Oznacza to, ˙ze je´sli symbol σa jest po laczony jak_, a´_,s relacja z symbolem σ_, b, to wszystkie specjalizacje σ_a powinny laczy´_, c sie za pomoc_, a tej relacji z symbolem σ_, _b. Podobnie wszystkie specjalizacje symbolu σb powinny laczy´_, c sie za pomoc_, a tej relacji z symbolem σ_, a. Przyk ladowo je´sli przyjmiemy, ˙ze Naczelny i Ramię po laczone s_, a relacj_, a ca lo´_, s´c-cze´_,s´c, to bedziemy oczekiwali, ˙ze wszystkie specjalizacje_, pojecia Naczelny l_, acz_, a si_, e za pomoc_, a tej relacji z poj_, eciem Ramię. Tym samym b_, edziemy poszukiwali_, przyk lad´ow wystepowania par symboli takich jak:_,

– Ramię, Orangutan – Ramię, Osoba – Ramię, Matka – Ramię, Strażak

Poniewa˙z Ramię nie posiada specjalizacji, na tej podstawie nie mo˙zna wygenerowa´c analogicznych przyk lad´ow, w kt´orych Ramię by loby zastapione innym symbolem j_, ezykowym. Pomimo tego na podstawie_, jednej pary symboli mo˙zliwe jest wygenerowanie dziesiatek, a nawet setek r´_, o˙znych par wyra˙ze´n.

Mo˙zliwo´s´c wygenerowania du˙zej liczby przyk lad´ow, zak lada dostepno´_, s´c wyj´sciowego zbioru par poje´_,c po laczonych okre´_, slona relacj_, a. W prezentowanym podej´_, sciu korzysta sie z wiedzy zgromadzonej w on-_, tologii Cyc, kt´ora zawiera szereg informacji (nie tylko taksonomicznych) na temat powiaza´_, n pomiedzy_, pojeciami. Mo˙zna by wykorzysta´_, c r´ownie˙z inne ´zr´od lo wiedzy zawierajacej przyk lady relacji semantycz-_, nych, np. WordNet albo DBpedie. Najistotniejsz_, a cech_, a algorytmu jest jednak mo˙zliwo´_, s´c automatycznego rozszerzenia bezpo´srednio dostepnych przyk lad´_, ow relacji z wykorzystaniem relacji taksonomicznych. Ta-kie podej´scie pozwala okre´sli´c czesto´_, s´c wystepowania wzorc´_, ow relacji (a zatem zmierzy´c ich poprawno´s´c), bez wielu iteracji. Tym samym mo˙zliwe jest pominiecie r_, ecznego okre´_, slania poprawno´sci przyk lad´ow od-nalezionych w tek´scie oraz unikniecie zjawiska dryfu semantycznego [69]._,

Og´olna struktura algorytmu znajdowania przyk lad´ow jest nastepuj_, aca:_,

– pozyskanie zbioru asercji, w kt´orych wystepuj_, a pary symboli po l_, aczone zadan_, a relacj_, a,_, – przet lumaczenie symboli ontologii Cyc na jezyk polski,_,

– wyszukiwanie przyk lad´ow w korpusie,

– weryfikacja uzyskanych przyk lad´ow wystepowania relacji._,

Najbardziej szczeg´o lowe om´owienie tego algorytmu znajduje sie w pracy [122]. W punktach 7.1.3-7.1.6_, om´owiono najwa˙zniejsze elementy tego algorytmu, a jego zastosowanie w algorytmie konstrukcji wzorc´ow ekstrakcyjnych znajduje sie w punkcie 8.2._,

7.1.3. Pozyskiwanie asercji zawierajacych relacj

e

Istnieje kilka sposob´ow znalezienia asercji, kt´ore zawieraja przyk lady wyst_, epowania symboli Cyc po-_, laczonych zadan_, a relacj_, a semantyczn_, a, b_, ad´_, z ontologiczna. Pierwszym, wydawa´_, c by sie mog lo, najbardziej_, oczywistym sposobem pozyskania takich par, jest znalezienie asercji, w kt´orych na pierwszym miejscu wy-stepuje predykat reprezentuj_, acy relacj_, e, tzn. asercji stwierdzaj_, acych jej wyst_, apienie. Okazuje si_, e jednak,_, ˙ze tego rodzaju asercje najcze´_,sciej stwierdzaja wyst_, epowanie okre´_, slonej relacji pomiedzy dwoma indywi-_, duami i w praktyce w ontologii Cyc wystepuj_, a one do´_, s´c rzadko. Dzieje sie tak dlatego, ˙ze asercje takie_, wykorzystywane sa do opisywania konkretnych obiekt´_, ow. Zatem je´sli mamy predykat #$anatomicalParts s lu˙zacy do reprezentacji relacji l_, acz_, acej okre´_, slony organizm z okre´slona cz_, e´_,scia jego cia la, znajdziemy_, przyk lady, w kt´orych np. konkretny cz lowiek (Bill Clinton) po laczony jest z cz_, e´_,scia swojego cia la (np._, noga). Jak mo˙zna si_, e domy´_, sla´c, ze wzgledu na og´_, olny charakter tej ontologii, asercji tego rodzaju jest bardzo niewiele, a czasami w og´ole nie wystepuj_, a (w szczeg´_, olno´sci w wersji OpenCyc), poniewa˙z ontologia nie zawiera tak szczeg´o lowych opis´ow indywidu´ow.

Innym mo˙zliwym sposobem pozyskania wyj´sciowych par symboli jest wykorzystanie informacji o ogra-niczeniach semantycznych relacji. Przyk ladowo z predykatem #$anatomicalParts stowarzyszone sa sym-_, bole #$Organism-Whole oraz #$OrganismPart. Mo˙zliwe by loby zatem wziecie specjalizacji tych poj_, e´_,c w celu

7.1. Algorytm wyboru zda´n zawierajacych relacje semantyczne_, 95

odnalezienia przyk lad´ow wystepowania odpowiedniej relacji w tek´_, scie. Niestety ma lo prawdopodobne jest wystepowanie par symboli takich jak np.:_,

– Organizm, Ręka, – Organizm, Noga, – Organizm, Głowa, – Pies, Część ciała, – Człowiek, Część ciała, – Strażak, Część ciała,

ze wzgledu na og´_, olny charakter poje´_,c naukowych takich jak Organizm i Część ciała, kt´ore wystepuj_, a_, cze´_,sciej w tekstach encyklopedycznych i naukowych, ni˙z np. w notatkach prasowych.

Najlepszym ´zr´od lem informacji na temat po lacze´_, n pomiedzy poj_, eciami okazuje si_, e rodzina pre-_, dykat´ow zawierajacych prefiksy #$relationAll oraz #$relationExist, w szczeg´_, olno´sci predykat #$relationAllExists. Predykat ten stosowany jest do wyra˙zania wiedzy na temat mo˙zliwych powiaza´_, n pomiedzy poj_, eciami, gdy˙z asercja postaci (#$relationAllExists RELATION X Y) oznacza, ˙ze ka˙zdy obiekt_, typu X laczy si_, e za pomoc_, a relacji RELATION z co najmniej jednym obiektem typu Y. Na przyk lad asercja_, (#$relationAllExists #$anatomicalParts #$Scorpion #$Stinger)oznacza, ˙ze ka˙zdy #$Scorpion (pol. skorpion) wyposa˙zony jest (domy´slnie) w #$Stinger (pol. kolec jadowy). Mankamentem tego rozwiazania_, jest fakt, ˙ze nie wszystkie predykaty w Cyc posiadaja informacje na temat tego rodzaju po l_, acze´_, n oraz to, ˙ze asercje tego rodzaju wystepuj_, a tylko w ResearchCyc._,

7.1.4. T lumaczenie poje´

c na jezyk polski

Ontologia Cyc pretenduje do zbioru wiedzy, kt´ory jest niezale˙zny od jezyk´_, ow naturalnych. W tym miejscu nie bedziemy podejmowa´_, c problemu, czy faktycznie mo˙zliwe jest zbudowanie takiego zasobu. Nie ulega jednak watpliwo´_, sci, ˙ze ontologia ta posiada jedynie mapowanie na symbole jezyka angielskiego._, Aby zatem mo˙zliwe by lo wykorzystanie asercji z punktu 7.1.3 do wyszukiwania przyk lad´ow w polskich tekstach, konieczne jest aby wystepuj_, ace w nich poj_, ecia posiada ly swoje polskie odpowiedniki._,

Zagadnienie t lumaczenia Cyc na jezyk polski podejmowane by lo przez autora w jego pracy magi-_, sterskiej [124] oraz w szeregu prac dotyczacych mo˙zliwo´_, sci automatycznego oraz p´o l-automatycznego przet lumaczenia tej ontologii [117, 120, 121]. Konkluzja tych bada´_, n by lo stwierdzenie, ˙ze uzyskanie au-tomatycznego t lumaczenia o zadowalajacej jako´_, sci jest bardzo trudne, dlatego skoncentrowano sie na_, metodach p´o l-automatycznych. W tym celu opracowane zosta lo narzedzie opisane w pracy [121], kt´_, ore dla zadanego pojecia Cyc proponuje szereg t lumacze´_, n. Rola t lumacza ogranicza sie zatem w wielu wypad-_, kach do wyboru jednego spo´sr´od nich. Korzystajac z tego narz_, edzia Perli´_, nski pod kierownictwem autora przet lumaczy l ponad 15 tys. poje´_,c ontologii Cyc2.

W celu zwiekszenia pokrycia, poza poj_, eciami, kt´_, ore wystepuj_, a bezpo´_, srednio w asercjach reprezentu-jacych dan_, a relacj_, e, konieczne jest r´_, ownie˙z przet lumaczenie poje´_,c, kt´ore stanowia ich specjalizacje. Dzi_, eki_, temu mo˙zliwe jest wygenerowanie dodatkowych par poje´_,c po laczonych zadan_, a relacj_, a._,

7.1.5. Wyszukiwanie zda´n w korpusie

W pewnym uproszczeniu wyb´or przyk ladowych zda´n przebiega nastepuj_, aco: w korpusie tekst´_, ow po-szukuje sie wyst_, apie´_, n ka˙zdego z cz lon´ow pary z osobna, a nastepnie weryfikuje si_, e, czy drugi cz lon r´_, ownie˙z wystepuje w znalezionym fragmencie tekstu. Zrezygnowano z bardziej oczywistego sposobu wyszukiwania_, par poje´_,c, polegajacego na tworzeniu zapyta´_, n zawierajacych oba poj_, ecia. Wynika to przede wszystkim_, z ogranicze´n serwera Poliqarp, kt´ory wymaga ´scis lego okre´slenia kolejno´sci poje´_,c. Biorac r´_, ownie˙z pod uwage fakt, ˙ze nazwy poj_, e´_,c moga by´_, c wielosegmentowe, konieczno´s´c generowania wielu zapyta´n do ser-wera skutkowa laby bardzo d lugim czasem przetwarzania.

Istotnym novum w stosunku do typowych algorytm´ow bazujacych na parach przyk ladowych poj_, e´_,c po laczonych zadan_, a relacj_, a jest to, ˙ze zar´_, owno pierwszy jak i drugi argument relacji nie musi wystepowa´_, c bezpo´srednio w znalezionym fragmencie tekstu. W zale˙zno´sci od konfiguracji eksperymentu, w odnie-sieniu do argumentu wyszukiwanego w korpusie mo˙zna ˙zada´_, c, aby w poszukiwanym fragmencie tekstu wystepowa l on bezpo´_, srednio lub poszukiwa´c fragment´ow, w kt´orych wystepuje jedna z jego specjalizacji._, Natomiast w stosunku do drugiego argumentu mo˙zna wymaga´c aby:

1. argument ten wystepowa l bezpo´_, srednio w znalezionym fragmencie tekstu, 2. w tek´scie wystepowa l ten argument b_, ad´_, z kt´orakolwiek z jego specjalizacji.

Wracajac do wcze´_, sniejszego przyk ladu – dla pary poje´_,c #$Primate – #$Arm, w fragmentach tek-st´ow zwr´oconych dla pojecia Naczelny mo˙zna poszukiwa´_, c pojecia Ramię i vice-versa – w fragmentach_, tekst´ow zwr´oconych dla pojecia Ramię poszukiwa´_, c pojecia Naczelny. Jest to typowy schemat dzia lania,_, realizujacy pierwszy wariant algorytmu._,

W drugim wariancie algorytmu, we fragmentach tekstu zwr´oconych dla pojecia Ramię mo˙zna poszuki-_, wa´c dowolnego przedstawiciela naczelnych – np. pojecia Człowiek i jego dalszych specjalizacji, np. poj_, ecia_, Matka. Dzieki temu na podstawie pary #$Primate – #$Arm mo˙zliwe jest odnalezienie fragmentu tekstu:_, ”^{p laka l rzewnie kryj}ac twarz w ramionach matki ”.,

7.1.6. Weryfikacja odnalezionych przyk lad´ow

Ostatnim istotnym etapem algorytmu wyboru przyk lad´ow jest okre´slenie, czy odnaleziony przyk lad jest pozytywny, czy negatywny. Mo˙zliwe sa tutaj dwie metody dzia lania – r_, eczna weryfikacja uzyskanych_, przyk lad´ow (por´ownaj [47]) oraz weryfikacja automatyczna (na wz´or algorytm´ow opierajacych si_, e na_, przyk ladach zarodkowych).

Aby u latwi´c reczn_, a weryfikacj_, e uzyskanych przyk lad´_, ow, stworzona zosta la aplikacja pozwalajaca na_, wykonanie tego zadania niewykwalifikowaniu u˙zytkownicy jezyka. Zasadnicz_, a jej cech_, a jest to, ˙ze wery-_, fikacja odbywa sie z wykorzystaniem pyta´_, n formu lowanych w jezyku polskim. Zak ladaj_, ac, ˙ze w tek´_, scie znaleziono zdanie:

”^{Drzewa s}a stare, a na ga l, eziach nie by lo a˙z takiej ilo´_, sci owoc´ow” program generuje nastepuj_, acy opis:_,

– Ga la´_,z jest cze´_,scia drzewa._, – Drzewo jest ro´slina drzewiast_, a._,

– Ga la´_,z jest zewnetrzn_, a cz_, e´_,scia organizmu._, a pod opisem pojawia sie pytanie:_,

”^{Czy opis odpowiada tekstowi?” oraz odpowiedzi: tak, nie, nie wiem.} Taka konstrukcja zadania sprawia, ˙ze po pierwsze: nie ma watpliwo´_, sci, ˙ze znaleziony przyk lad zawiera

7.1. Algorytm wyboru zda´n zawierajacych relacje semantyczne_, 97

napisy odnoszace si_, e do w la´_, sciwych symboli jezykowych (tzn. wyrazy nie zosta ly u˙zyte w innym znaczeniu,_, ni˙z wynika loby to z za lo˙ze´n algorytmu), a po drugie sprawia, ˙ze odpowied´z u˙zytkownika jest bardziej naturalna.

W celu automatycznego okre´slenia poprawno´sci przyk lad´ow konieczne jest wcze´sniejsze wyodrebnienie_, z nich wzorc´ow formalnych (patrz p. 8.5). Nastepnie licz_, ac cz_, esto´_, s´c wystepowania identycznych wzor-_, c´ow formalnych mo˙zna odrzuci´c te wzorce (a z nimi przyk lady zda´n), kt´ore wystepuj_, a sporadycznie (np._, raz) albo wzorce, kt´ore pojawia ly sie tylko dla jednej pary poj_, e´_,c. W ten spos´ob cze´_,s´c unikalnych, po-zytywnych przyk lad´ow mo˙ze zosta´c utracona, ale jako´s´c przyk lad´ow jest znacznie wy˙zsza (por´ownaj p. 9.5).

7.1.7. Skuteczno´s´c algorytmy wyboru zda´n

Aby w przybli˙zeniu oceni´c skuteczno´s´c algorytmu wyboru przyk ladowych zda´n, przeprowadzono eks-perymenty na bazie predykatu anatomicalParts (szczeg´o lowy opis wykorzystanych poje´_,c znajduje sie_, w punktach 9.1 oraz 9.2). Algorytm by l uruchomiony w czterech wariantach:

1. zapytanie do korpusu na podstawie jednego argumentu relacji, wyszukiwanie w wynikach bezpo-´sredniego wystapienia drugiego argumentu (direct-direct),_,

2. zapytanie do korpusu na podstawie jednego argumentu relacji, wyszukiwanie w wynikach dowolnej specjalizacji drugiego argumentu (direct-child),

3. zapytanie do korpusu na podstawie losowej specjalizacji jednego argumentu, wyszukiwanie w wyni-kach bezpo´sredniego wystapienia drugiego argumentu (child-direct),_,

4. zapytanie do korpusu na podstawie losowej specjalizacji jednego argumentu, wyszukiwanie w wyni-kach dowolnej specjalizacji drugiego argumentu (child-child).

Tak uzyskane wyniki zosta ly przefiltrowane aby usuna´_,c z nich nastepuj_, ace niepo˙z_, adane zjawiska:_, – powtarzajace si_, e przyk lady,_,

– argumenty rozdzielone znakami przestankowymi, – co najmniej jeden z argument´ow nie jest rzeczownikiem.

Nastepnie z ka˙zdego zbioru r_, ecznie oceniono 100 losowo wybranych zda´_, n.

Tablica 7.1: Wyniki dla r´o˙znych wariant´ow algorytmu wyboru przyk ladowych zda´n. Oznaczenia: ctotal

– liczba przyk lad´ow przed filtrowaniem, cf iltered – liczba przyk lad´ow po filtracji, qdirect−direct – wielo-krotno´s´c wielko´sci zbioru zawierajacego proste dopasowania argument´_, ow (direct-direct), P r – procent przyk lad´ow ocenionych jako poprawne (w pr´obie zawierajacej 100 przyk lad´_, ow), davg – ´srednia odleg lo´s´c miedzy argumentami (w s lowach)._,

Wariant algorytmu ctotal cf iltered qdirect−direct P r[%] davg

direct-direct 695 294 1,00 86 1,82 direct-child 6090 2276 7,74 79 1,97 child-direct 310 145 0,49 77 1,89 child-child 3123 877 2,98 66 2,17

Wyniki tego eksperymentu przedstawione sa w tabeli 7.1. Dla podstawowego wariantu algorytmu_, (direct-direct) liczba znalezionych przyk lad´ow pozosta lych po odfiltrowaniu nie jest du˙za i wynosi nie-spe lna 300. Dla wariantu najlepszego (direct-child) jest to prawie 2300 przyk ladowych zda´n – niemal 8 razy wiecej. Pozosta le warianty daj_, a znacznie mniej przyk lad´_, ow: child-direct jedynie 145, a child-child niespe lna 900. Jako´s´c otrzymanych wynik´ow przemawia za najprostszym algorytmem, dla kt´orego 86% zda´n zawiera faktyczne wystapienie relacji odpowiadaj_, acej predykatowi #$anatomicalParts. Warto zwr´_, o-ci´c jednak uwage, ˙ze wynik ten nie jest tak wysoki jak mo˙zna by si_, e spodziewa´_, c. Drugi w kolejno´sci jest wariant direct-child, w kt´orym 79% wynik´ow jest poprawnych. Pozosta le warianty maja jeszcze ni˙zszy_, udzia l poprawnych zda´n w´sr´od ca lo´sci wynik´ow (odpowiednio 77% i 66%). Wynika to najprawdopodob-niej z wiekszej odleg lo´_, sci pomiedzy argumentami w tych zbiorach danych._,

Wyniki te pozwalaja wysnu´_, c nastepuj_, ace wnioski:_,

– u˙zycie pierwszego wariantu algorytmu daje znacznie mniej przyk lad´ow uczacych ni˙z u˙zycie drugiego_, wariantu,

– wykorzystanie wariantu trzeciego i czwartego nie jest uzasadnione, chyba, ˙ze zostana one potrakto-_, wane jako uzupe lnienie wariantu pierwszego, bad´_, z drugiego,

– u˙zycie drugiego wariantu algorytmu wydaje sie by´_, c najlepszym wyborem, gdy˙z znacznie wieksza_, liczba przyk ladowych zda´n, okupiona jest niewielkim spadkiem ich jako´sci.

Podsumowujac – zaprezentowany algorytm wyboru przyk ladowych zda´_, n (w wariancie drugim, tj. direct-child) w istotny spos´ob przyczynia sie do pozyskania du˙zej liczby przyk lad´_, ow, bez istotnego spadku ich jako´sci. Mo˙ze by´c ona dodatkowo podniesiona, poprzez zastosowanie statystycznej analizy wzorc´ow formalnych uzyskanych na bazie przyk lad´ow, a bezwzglednie wi_, eksza liczba przyk lad´_, ow pozwala uzyska´c bardziej pewne i zr´o˙znicowane wzorce formalne.

W dokumencie Index of /rozprawy2/10951 (Stron 92-98)