• Nie Znaleziono Wyników

Algorytm wyboru zda´ n zawieraj acych relacje semantyczne ,

W dokumencie Index of /rozprawy2/10951 (Stron 92-98)

6. Zasoby wykorzystywane przez algorytm

7.1. Algorytm wyboru zda´ n zawieraj acych relacje semantyczne ,

7.1.1. Metody pozyskiwania przyk ladowych zda´n

Celem 2 oraz 3 punktu g l´ownego algorytmu tworzenia wzorc´ow ekstrakcyjnych (por´ownaj p. 5.2) jest znalezienie przyk ladowych zda´n, w kt´orych wystepuj, a wyra˙zenia po l, aczone zadan, a relacj, a semantyczn, a., Przyk lady tego rodzaju moga by´, c pozyskane na kilka sposob´ow:

1. przegladanie korpusu tekst´, ow i reczne znakowanie zda´, n zawierajacych wyst, apie´, n par wyra˙ze´n laczonych zadan, a relacj, a,,

2. wyb´or kilku par symboli jezykowych (danych zarodkowych), wyszukanie ich wyst, apie´, n w korpusie tekst´ow i reczne oznakowanie zda´, n zawierajacych wyst, apienia zadanej relacji,,

3. wyb´or kilku par symboli jezykowych (danych zarodkowych), wyszukanie ich wyst, apie´, n w korpusie i automatyczne okre´slenie ich przydatno´sci w konstrukcji wzorc´ow ekstrakcyjnych.

Pierwsze podej´scie promowane jest w jednym z popularniejszych narzedzi wykorzystywanych do bu-, dowy algorytm´ow ekstrakcji informacji, tj. General Architecture for Text Engeneering (GATE) [31]. Na-rzedzie to u latwia przegl, adanie zbioru tekst´, ow i znakowanie wystepowania r´, o˙znych zjawisk jezykowych,, w tym wystepowa´, n relacji semantycznych. Tak zbudowany korpus jest nastepnie analizowany w celu au-, tomatycznej konstrukcji wzorc´ow pozwalajacych na rozpoznawanie okre´, slonej relacji. Podej´scie to jest jednak do´s´c kosztowne, w szczeg´olno´sci je´sli relacja, kt´ora chcemy rozpoznawa´, c w tek´scie, wystepuje do´, s´c rzadko. Wtedy konieczne jest przegladni, ecie du˙zej ilo´, sci tekst´ow, a efektywno´s´c ca lego procesu jest do´s´c niska.

Dla jezyka polskiego nie istnieje ˙zaden korpus, w kt´, orym wprost by lyby oznakowane wystapienia re-, lacji semantycznych. Najwiekszy korpus zawieraj, acy bogate znakowanie, tj. Narodowy Korpus J, ezyka, Polskiego (NKJP) [127] (a dok ladniej jego jednomilionowy podkorpus) zawiera dane przydatne z punktu widzenia ekstrakcji informacji jedynie w odniesieniu do ujednoznacznienia sensu wybranych poje´,c oraz okre´slenia kategorii semantycznych wystepuj, acych w nim jednostek referencyjnych. Chocia˙z dane po-, zyskane przez szczeg´o lowa anotacj, e korpusu by lyby niezwykle cenne, poniewa˙z pozwoli lyby nie tylko, wytrenowa´c odpowiednie modele zdolne do rozpoznawania relacji, ale r´ownie˙z pozwoli lyby precyzyjnie okre´sli´c miare pokrycia opracowanej metody, nie zastosowano tego podej´, scia ze wzgledu na jego koszto-, i czasoch lonno´s´c.

Problem ten jest dobrze znany w literaturze z zakresu uczenia maszynowego i nosi nazwe knowledge, acquisition bottleneck [95, s. 197-201]1. Dlatego te˙z wiele metod, w szczeg´olno´sci w zakresie ekstrak-cji informaekstrak-cji, stara sie unikn,,c recznego znakowania korpus´, ow. Lepszym rozwiazaniem jest podej´, scie

1W cytowanej pozycji omawiany w kontek´scie problemu ujednoznaczniania s l´ow.

7.1. Algorytm wyboru zda´n zawierajacych relacje semantyczne, 93

przedstawione w punkcie 2 – zamiast przeglada´, c ca ly korpus, wyszukiwane sa w nim zdania, w kt´, orych potencjalnie wystepuje zadana relacja semantyczna. W ten spos´, ob mo˙zna pozyska´c wiele przyk lad´ow wy-stapienia relacji, gdy˙z zadanie, kt´, ore musi wykona´c recznie osoba przegl, adaj, aca korpus, jest znacznie, prostsze i polega jedynie na stwierdzeniu czy dana relacja wystepuje w znalezionym zdaniu.,

To podej´scie stosowane jest m.in. przez Girju w problemie ekstrakcji meronimii dla jezyka angielskiego, [47]. Tzn. po odnalezieniu zda´n zawierajacych pary wyra˙ze´, n, o kt´orych wiadomo, ˙ze zadana relacja wyste-, puje pomiedzy nimi, zdania te s, a r, ecznie oznaczane jako zawieraj, ace, b, ad´, z niezawierajace dan, a relacj, e se-, mantyczna. Ten zbi´, or stosowany jest nastepnie ( l, acznie z przyk ladami negatywnymi) do wytrenowania, klasyfikator´ow zdolnych do okre´slenia ogranicze´n semantycznych relacji meronimii.

Metoda opisana w punkcie 3 znana jest w literaturze przedmiotu pod nazwa active learning [95, s., 199]. Polega ona na recznym wyborze kilku charakterystycznych par symboli i wytrenowaniu klasyfikatora, zdolnego do rozpoznawania danego zjawiska jezykowego (np. wyst, apienia relacji, b, ad´, z ujednoznacznienia sensu). Tak wytrenowany klasyfikator jest nastepnie u˙zywany do znajdowania w korpusie kolejnych przy-, k lad´ow okre´slonego zjawiska. Przyk lady, kt´ore klasyfikator oznaczy l jako poprawne z du˙zym stopniem pewno´sci, w laczane s, a do pocz, atkowego zbioru przyk lad´, ow uczacych. W kolejnej iteracji na podstawie, nowego zbioru przyk lad´ow trenowany jest nowy klasyfikator, kt´ory rozpoznaje zjawisko w du˙zym korpusie tekst´ow.

Podej´scie to jest bardzo popularne w ekstrakcji informacji (patrz p. 4.1.4 oraz p. 4.2.2), gdy˙z (przy-najmniej teoretycznie) pozwala na ca lkowite pominiecie zaanga˙zowania cz lowieka w proces konstrukcji, wzorc´ow zdolnych do ekstrakcji informacji. Niemniej jednak jako´s´c uzyskanych w ten spos´ob wzorc´ow eks-trakcyjnych rzadko pozwala na ich praktyczne zastosowanie. Zar´owno dla jezyka angielskiego jak i pol-, skiego ich precyzja oscyluje w granicach 80-85%. Ponadto mo˙zna je zastosowa´c tylko wtedy, gdy uzyskany wzorzec jest semantycznie wysoce jednoznaczny. Jak zauwa˙za jednak Girju [47], najbardziej popularny wzorzec pozwalajacy na rozpoznawanie relacji meronimii, czyli zwi, azek pomi, edzy rzeczownikami, w kt´, o-rych argument po lewej stronie wystepuje w dope lniaczu sakso´, nskim (odpowiadajacy polskiemu zwi, azkowi, rzadu), to znaczy zako´, nczony jest sekwencja ’s, nie pozwala na jej jednoznaczne rozpoznanie. Tym samym, uniemo˙zliwia zastosowanie tego podej´scia dla tej relacji. Dlatego w jej algorytmie przyk lady wystepowania, relacji oznaczane sa r, ecznie.,

7.1.2. Koncepcja algorytmu wyszukiwania zda´n

Algorytm wyboru par symboli s lu˙zacych do odnajdowania przyk lad´, ow zda´n zawierajacych wybran, a re-, lacje, wykorzystywany w niniejszej pracy, najbli˙zszy jest drugiemu podej´, sciu zaprezentowanemu w punkcie 7.1.1. Podstawa prezentowanego algorytmu jest wykorzystanie relacji taksonomicznych, w tym wypadku, relacji generalizacji wystepuj, acej w ontologii Cyc. Przyjmuj, ac, ˙ze okre´, slona relacja wystepuje pomi, edzy, symbolami σa i σb, algorytm automatycznie generuje dodatkowe pary symboli, opierajac si, e na wiedzy, o pojeciach b, ed, acych ich specjalizacjami (poj, eciami bardziej specyficznymi, hiponimami).,

Podstawowa cech, a relacji generalizacji (patrz p. 3.3.1) jest dziedziczenie opisu przez specjalizacje, danego symbolu. Oznacza to, ˙ze je´sli symbol σa jest po laczony jak,,s relacja z symbolem σ, b, to wszystkie specjalizacje σa powinny laczy´, c sie za pomoc, a tej relacji z symbolem σ, b. Podobnie wszystkie specjalizacje symbolu σb powinny laczy´, c sie za pomoc, a tej relacji z symbolem σ, a. Przyk ladowo je´sli przyjmiemy, ˙ze Naczelny i Ramię po laczone s, a relacj, a ca lo´, s´c-cze´,s´c, to bedziemy oczekiwali, ˙ze wszystkie specjalizacje, pojecia Naczelny l, acz, a si, e za pomoc, a tej relacji z poj, eciem Ramię. Tym samym b, edziemy poszukiwali, przyk lad´ow wystepowania par symboli takich jak:,

– Ramię, Orangutan – Ramię, Osoba – Ramię, Matka – Ramię, Strażak

Poniewa˙z Ramię nie posiada specjalizacji, na tej podstawie nie mo˙zna wygenerowa´c analogicznych przyk lad´ow, w kt´orych Ramię by loby zastapione innym symbolem j, ezykowym. Pomimo tego na podstawie, jednej pary symboli mo˙zliwe jest wygenerowanie dziesiatek, a nawet setek r´, o˙znych par wyra˙ze´n.

Mo˙zliwo´s´c wygenerowania du˙zej liczby przyk lad´ow, zak lada dostepno´, s´c wyj´sciowego zbioru par poje´,c po laczonych okre´, slona relacj, a. W prezentowanym podej´, sciu korzysta sie z wiedzy zgromadzonej w on-, tologii Cyc, kt´ora zawiera szereg informacji (nie tylko taksonomicznych) na temat powiaza´, n pomiedzy, pojeciami. Mo˙zna by wykorzysta´, c r´ownie˙z inne ´zr´od lo wiedzy zawierajacej przyk lady relacji semantycz-, nych, np. WordNet albo DBpedie. Najistotniejsz, a cech, a algorytmu jest jednak mo˙zliwo´, s´c automatycznego rozszerzenia bezpo´srednio dostepnych przyk lad´, ow relacji z wykorzystaniem relacji taksonomicznych. Ta-kie podej´scie pozwala okre´sli´c czesto´, s´c wystepowania wzorc´, ow relacji (a zatem zmierzy´c ich poprawno´s´c), bez wielu iteracji. Tym samym mo˙zliwe jest pominiecie r, ecznego okre´, slania poprawno´sci przyk lad´ow od-nalezionych w tek´scie oraz unikniecie zjawiska dryfu semantycznego [69].,

Og´olna struktura algorytmu znajdowania przyk lad´ow jest nastepuj, aca:,

– pozyskanie zbioru asercji, w kt´orych wystepuj, a pary symboli po l, aczone zadan, a relacj, a,, – przet lumaczenie symboli ontologii Cyc na jezyk polski,,

– wyszukiwanie przyk lad´ow w korpusie,

– weryfikacja uzyskanych przyk lad´ow wystepowania relacji.,

Najbardziej szczeg´o lowe om´owienie tego algorytmu znajduje sie w pracy [122]. W punktach 7.1.3-7.1.6, om´owiono najwa˙zniejsze elementy tego algorytmu, a jego zastosowanie w algorytmie konstrukcji wzorc´ow ekstrakcyjnych znajduje sie w punkcie 8.2.,

7.1.3. Pozyskiwanie asercji zawierajacych relacj

,

e

,

Istnieje kilka sposob´ow znalezienia asercji, kt´ore zawieraja przyk lady wyst, epowania symboli Cyc po-, laczonych zadan, a relacj, a semantyczn, a, b, ad´, z ontologiczna. Pierwszym, wydawa´, c by sie mog lo, najbardziej, oczywistym sposobem pozyskania takich par, jest znalezienie asercji, w kt´orych na pierwszym miejscu wy-stepuje predykat reprezentuj, acy relacj, e, tzn. asercji stwierdzaj, acych jej wyst, apienie. Okazuje si, e jednak,, ˙ze tego rodzaju asercje najcze´,sciej stwierdzaja wyst, epowanie okre´, slonej relacji pomiedzy dwoma indywi-, duami i w praktyce w ontologii Cyc wystepuj, a one do´, s´c rzadko. Dzieje sie tak dlatego, ˙ze asercje takie, wykorzystywane sa do opisywania konkretnych obiekt´, ow. Zatem je´sli mamy predykat #$anatomicalParts s lu˙zacy do reprezentacji relacji l, acz, acej okre´, slony organizm z okre´slona cz,,scia jego cia la, znajdziemy, przyk lady, w kt´orych np. konkretny cz lowiek (Bill Clinton) po laczony jest z cz,,scia swojego cia la (np., noga). Jak mo˙zna si, e domy´, sla´c, ze wzgledu na og´, olny charakter tej ontologii, asercji tego rodzaju jest bardzo niewiele, a czasami w og´ole nie wystepuj, a (w szczeg´, olno´sci w wersji OpenCyc), poniewa˙z ontologia nie zawiera tak szczeg´o lowych opis´ow indywidu´ow.

Innym mo˙zliwym sposobem pozyskania wyj´sciowych par symboli jest wykorzystanie informacji o ogra-niczeniach semantycznych relacji. Przyk ladowo z predykatem #$anatomicalParts stowarzyszone sa sym-, bole #$Organism-Whole oraz #$OrganismPart. Mo˙zliwe by loby zatem wziecie specjalizacji tych poj,,c w celu

7.1. Algorytm wyboru zda´n zawierajacych relacje semantyczne, 95

odnalezienia przyk lad´ow wystepowania odpowiedniej relacji w tek´, scie. Niestety ma lo prawdopodobne jest wystepowanie par symboli takich jak np.:,

– Organizm, Ręka, – Organizm, Noga, – Organizm, Głowa, – Pies, Część ciała, – Człowiek, Część ciała, – Strażak, Część ciała,

ze wzgledu na og´, olny charakter poje´,c naukowych takich jak Organizm i Część ciała, kt´ore wystepuj, a, cze´,sciej w tekstach encyklopedycznych i naukowych, ni˙z np. w notatkach prasowych.

Najlepszym ´zr´od lem informacji na temat po lacze´, n pomiedzy poj, eciami okazuje si, e rodzina pre-, dykat´ow zawierajacych prefiksy #$relationAll oraz #$relationExist, w szczeg´, olno´sci predykat #$relationAllExists. Predykat ten stosowany jest do wyra˙zania wiedzy na temat mo˙zliwych powiaza´, n pomiedzy poj, eciami, gdy˙z asercja postaci (#$relationAllExists RELATION X Y) oznacza, ˙ze ka˙zdy obiekt, typu X laczy si, e za pomoc, a relacji RELATION z co najmniej jednym obiektem typu Y. Na przyk lad asercja, (#$relationAllExists #$anatomicalParts #$Scorpion #$Stinger)oznacza, ˙ze ka˙zdy #$Scorpion (pol. skorpion) wyposa˙zony jest (domy´slnie) w #$Stinger (pol. kolec jadowy). Mankamentem tego rozwiazania, jest fakt, ˙ze nie wszystkie predykaty w Cyc posiadaja informacje na temat tego rodzaju po l, acze´, n oraz to, ˙ze asercje tego rodzaju wystepuj, a tylko w ResearchCyc.,

7.1.4. T lumaczenie poje´

,

c na jezyk polski

,

Ontologia Cyc pretenduje do zbioru wiedzy, kt´ory jest niezale˙zny od jezyk´, ow naturalnych. W tym miejscu nie bedziemy podejmowa´, c problemu, czy faktycznie mo˙zliwe jest zbudowanie takiego zasobu. Nie ulega jednak watpliwo´, sci, ˙ze ontologia ta posiada jedynie mapowanie na symbole jezyka angielskiego., Aby zatem mo˙zliwe by lo wykorzystanie asercji z punktu 7.1.3 do wyszukiwania przyk lad´ow w polskich tekstach, konieczne jest aby wystepuj, ace w nich poj, ecia posiada ly swoje polskie odpowiedniki.,

Zagadnienie t lumaczenia Cyc na jezyk polski podejmowane by lo przez autora w jego pracy magi-, sterskiej [124] oraz w szeregu prac dotyczacych mo˙zliwo´, sci automatycznego oraz p´o l-automatycznego przet lumaczenia tej ontologii [117, 120, 121]. Konkluzja tych bada´, n by lo stwierdzenie, ˙ze uzyskanie au-tomatycznego t lumaczenia o zadowalajacej jako´, sci jest bardzo trudne, dlatego skoncentrowano sie na, metodach p´o l-automatycznych. W tym celu opracowane zosta lo narzedzie opisane w pracy [121], kt´, ore dla zadanego pojecia Cyc proponuje szereg t lumacze´, n. Rola t lumacza ogranicza sie zatem w wielu wypad-, kach do wyboru jednego spo´sr´od nich. Korzystajac z tego narz, edzia Perli´, nski pod kierownictwem autora przet lumaczy l ponad 15 tys. poje´,c ontologii Cyc2.

W celu zwiekszenia pokrycia, poza poj, eciami, kt´, ore wystepuj, a bezpo´, srednio w asercjach reprezentu-jacych dan, a relacj, e, konieczne jest r´, ownie˙z przet lumaczenie poje´,c, kt´ore stanowia ich specjalizacje. Dzi, eki, temu mo˙zliwe jest wygenerowanie dodatkowych par poje´,c po laczonych zadan, a relacj, a.,

7.1.5. Wyszukiwanie zda´n w korpusie

W pewnym uproszczeniu wyb´or przyk ladowych zda´n przebiega nastepuj, aco: w korpusie tekst´, ow po-szukuje sie wyst, apie´, n ka˙zdego z cz lon´ow pary z osobna, a nastepnie weryfikuje si, e, czy drugi cz lon r´, ownie˙z wystepuje w znalezionym fragmencie tekstu. Zrezygnowano z bardziej oczywistego sposobu wyszukiwania, par poje´,c, polegajacego na tworzeniu zapyta´, n zawierajacych oba poj, ecia. Wynika to przede wszystkim, z ogranicze´n serwera Poliqarp, kt´ory wymaga ´scis lego okre´slenia kolejno´sci poje´,c. Biorac r´, ownie˙z pod uwage fakt, ˙ze nazwy poj,,c moga by´, c wielosegmentowe, konieczno´s´c generowania wielu zapyta´n do ser-wera skutkowa laby bardzo d lugim czasem przetwarzania.

Istotnym novum w stosunku do typowych algorytm´ow bazujacych na parach przyk ladowych poj,,c po laczonych zadan, a relacj, a jest to, ˙ze zar´, owno pierwszy jak i drugi argument relacji nie musi wystepowa´, c bezpo´srednio w znalezionym fragmencie tekstu. W zale˙zno´sci od konfiguracji eksperymentu, w odnie-sieniu do argumentu wyszukiwanego w korpusie mo˙zna ˙zada´, c, aby w poszukiwanym fragmencie tekstu wystepowa l on bezpo´, srednio lub poszukiwa´c fragment´ow, w kt´orych wystepuje jedna z jego specjalizacji., Natomiast w stosunku do drugiego argumentu mo˙zna wymaga´c aby:

1. argument ten wystepowa l bezpo´, srednio w znalezionym fragmencie tekstu, 2. w tek´scie wystepowa l ten argument b, ad´, z kt´orakolwiek z jego specjalizacji.

Wracajac do wcze´, sniejszego przyk ladu – dla pary poje´,c #$Primate – #$Arm, w fragmentach tek-st´ow zwr´oconych dla pojecia Naczelny mo˙zna poszukiwa´, c pojecia Ramię i vice-versa – w fragmentach, tekst´ow zwr´oconych dla pojecia Ramię poszukiwa´, c pojecia Naczelny. Jest to typowy schemat dzia lania,, realizujacy pierwszy wariant algorytmu.,

W drugim wariancie algorytmu, we fragmentach tekstu zwr´oconych dla pojecia Ramię mo˙zna poszuki-, wa´c dowolnego przedstawiciela naczelnych – np. pojecia Człowiek i jego dalszych specjalizacji, np. poj, ecia, Matka. Dzieki temu na podstawie pary #$Primate – #$Arm mo˙zliwe jest odnalezienie fragmentu tekstu:,p laka l rzewnie kryjac twarz w ramionach matki ”.,

7.1.6. Weryfikacja odnalezionych przyk lad´ow

Ostatnim istotnym etapem algorytmu wyboru przyk lad´ow jest okre´slenie, czy odnaleziony przyk lad jest pozytywny, czy negatywny. Mo˙zliwe sa tutaj dwie metody dzia lania – r, eczna weryfikacja uzyskanych, przyk lad´ow (por´ownaj [47]) oraz weryfikacja automatyczna (na wz´or algorytm´ow opierajacych si, e na, przyk ladach zarodkowych).

Aby u latwi´c reczn, a weryfikacj, e uzyskanych przyk lad´, ow, stworzona zosta la aplikacja pozwalajaca na, wykonanie tego zadania niewykwalifikowaniu u˙zytkownicy jezyka. Zasadnicz, a jej cech, a jest to, ˙ze wery-, fikacja odbywa sie z wykorzystaniem pyta´, n formu lowanych w jezyku polskim. Zak ladaj, ac, ˙ze w tek´, scie znaleziono zdanie:

Drzewa sa stare, a na ga l, eziach nie by lo a˙z takiej ilo´, sci owoc´ow” program generuje nastepuj, acy opis:,

– Ga la´,z jest cze´,scia drzewa., – Drzewo jest ro´slina drzewiast, a.,

– Ga la´,z jest zewnetrzn, a cz,,scia organizmu., a pod opisem pojawia sie pytanie:,

Czy opis odpowiada tekstowi?” oraz odpowiedzi: tak, nie, nie wiem. Taka konstrukcja zadania sprawia, ˙ze po pierwsze: nie ma watpliwo´, sci, ˙ze znaleziony przyk lad zawiera

7.1. Algorytm wyboru zda´n zawierajacych relacje semantyczne, 97

napisy odnoszace si, e do w la´, sciwych symboli jezykowych (tzn. wyrazy nie zosta ly u˙zyte w innym znaczeniu,, ni˙z wynika loby to z za lo˙ze´n algorytmu), a po drugie sprawia, ˙ze odpowied´z u˙zytkownika jest bardziej naturalna.

W celu automatycznego okre´slenia poprawno´sci przyk lad´ow konieczne jest wcze´sniejsze wyodrebnienie, z nich wzorc´ow formalnych (patrz p. 8.5). Nastepnie licz, ac cz, esto´, s´c wystepowania identycznych wzor-, c´ow formalnych mo˙zna odrzuci´c te wzorce (a z nimi przyk lady zda´n), kt´ore wystepuj, a sporadycznie (np., raz) albo wzorce, kt´ore pojawia ly sie tylko dla jednej pary poj,,c. W ten spos´ob cze´,s´c unikalnych, po-zytywnych przyk lad´ow mo˙ze zosta´c utracona, ale jako´s´c przyk lad´ow jest znacznie wy˙zsza (por´ownaj p. 9.5).

7.1.7. Skuteczno´s´c algorytmy wyboru zda´n

Aby w przybli˙zeniu oceni´c skuteczno´s´c algorytmu wyboru przyk ladowych zda´n, przeprowadzono eks-perymenty na bazie predykatu anatomicalParts (szczeg´o lowy opis wykorzystanych poje´,c znajduje sie, w punktach 9.1 oraz 9.2). Algorytm by l uruchomiony w czterech wariantach:

1. zapytanie do korpusu na podstawie jednego argumentu relacji, wyszukiwanie w wynikach bezpo-´sredniego wystapienia drugiego argumentu (direct-direct),,

2. zapytanie do korpusu na podstawie jednego argumentu relacji, wyszukiwanie w wynikach dowolnej specjalizacji drugiego argumentu (direct-child),

3. zapytanie do korpusu na podstawie losowej specjalizacji jednego argumentu, wyszukiwanie w wyni-kach bezpo´sredniego wystapienia drugiego argumentu (child-direct),,

4. zapytanie do korpusu na podstawie losowej specjalizacji jednego argumentu, wyszukiwanie w wyni-kach dowolnej specjalizacji drugiego argumentu (child-child).

Tak uzyskane wyniki zosta ly przefiltrowane aby usuna´,c z nich nastepuj, ace niepo˙z, adane zjawiska:, – powtarzajace si, e przyk lady,,

– argumenty rozdzielone znakami przestankowymi, – co najmniej jeden z argument´ow nie jest rzeczownikiem.

Nastepnie z ka˙zdego zbioru r, ecznie oceniono 100 losowo wybranych zda´, n.

Tablica 7.1: Wyniki dla r´o˙znych wariant´ow algorytmu wyboru przyk ladowych zda´n. Oznaczenia: ctotal

– liczba przyk lad´ow przed filtrowaniem, cf iltered – liczba przyk lad´ow po filtracji, qdirect−direct – wielo-krotno´s´c wielko´sci zbioru zawierajacego proste dopasowania argument´, ow (direct-direct), P r – procent przyk lad´ow ocenionych jako poprawne (w pr´obie zawierajacej 100 przyk lad´, ow), davg – ´srednia odleg lo´s´c miedzy argumentami (w s lowach).,

Wariant algorytmu ctotal cf iltered qdirect−direct P r[%] davg

direct-direct 695 294 1,00 86 1,82 direct-child 6090 2276 7,74 79 1,97 child-direct 310 145 0,49 77 1,89 child-child 3123 877 2,98 66 2,17

Wyniki tego eksperymentu przedstawione sa w tabeli 7.1. Dla podstawowego wariantu algorytmu, (direct-direct) liczba znalezionych przyk lad´ow pozosta lych po odfiltrowaniu nie jest du˙za i wynosi nie-spe lna 300. Dla wariantu najlepszego (direct-child) jest to prawie 2300 przyk ladowych zda´n – niemal 8 razy wiecej. Pozosta le warianty daj, a znacznie mniej przyk lad´, ow: child-direct jedynie 145, a child-child niespe lna 900. Jako´s´c otrzymanych wynik´ow przemawia za najprostszym algorytmem, dla kt´orego 86% zda´n zawiera faktyczne wystapienie relacji odpowiadaj, acej predykatowi #$anatomicalParts. Warto zwr´, o-ci´c jednak uwage, ˙ze wynik ten nie jest tak wysoki jak mo˙zna by si, e spodziewa´, c. Drugi w kolejno´sci jest wariant direct-child, w kt´orym 79% wynik´ow jest poprawnych. Pozosta le warianty maja jeszcze ni˙zszy, udzia l poprawnych zda´n w´sr´od ca lo´sci wynik´ow (odpowiednio 77% i 66%). Wynika to najprawdopodob-niej z wiekszej odleg lo´, sci pomiedzy argumentami w tych zbiorach danych.,

Wyniki te pozwalaja wysnu´, c nastepuj, ace wnioski:,

– u˙zycie pierwszego wariantu algorytmu daje znacznie mniej przyk lad´ow uczacych ni˙z u˙zycie drugiego, wariantu,

– wykorzystanie wariantu trzeciego i czwartego nie jest uzasadnione, chyba, ˙ze zostana one potrakto-, wane jako uzupe lnienie wariantu pierwszego, bad´, z drugiego,

– u˙zycie drugiego wariantu algorytmu wydaje sie by´, c najlepszym wyborem, gdy˙z znacznie wieksza, liczba przyk ladowych zda´n, okupiona jest niewielkim spadkiem ich jako´sci.

Podsumowujac – zaprezentowany algorytm wyboru przyk ladowych zda´, n (w wariancie drugim, tj. direct-child) w istotny spos´ob przyczynia sie do pozyskania du˙zej liczby przyk lad´, ow, bez istotnego spadku ich jako´sci. Mo˙ze by´c ona dodatkowo podniesiona, poprzez zastosowanie statystycznej analizy wzorc´ow formalnych uzyskanych na bazie przyk lad´ow, a bezwzglednie wi, eksza liczba przyk lad´, ow pozwala uzyska´c bardziej pewne i zr´o˙znicowane wzorce formalne.

W dokumencie Index of /rozprawy2/10951 (Stron 92-98)