• Nie Znaleziono Wyników

Filtrowanie przyk lad´ ow

W dokumencie Index of /rozprawy2/10951 (Stron 146-158)

Wartość miary CD P

9.4. Filtrowanie przyk lad´ ow

5. W

Akwarium” mo˙zna dostrzec fragmenty sk´ory makreli i delikatne szkielety zbutwia lych li´sci; . . . 6. Dla przyk ladu, kilogram p letwy rekina kosztuje ´srednio prawie 600 USD.

7. . . . czepia ly sie ˙z´, o ltych li´sci akacji stojacych pod murem.,

W przytoczonych przyk ladach, z wyjatkiem przyk ladu drugiego, mamy do czynienia z relacj, a orga-, nizm-cze´,s´c organizmu. Drugi przyk lad r´ownie˙z zawiera te relacj, e, lecz samo u˙zycie jest metaforyczne, gdy˙z, wystepuje w nim metonimia, trudno bowiem uzna´, c, ˙ze jedynie rece, cz lonk´, ow Krajowej Rady Radiofonii i Telewizji, bra ly udzia l w tworzeniu projektu, o kt´orym mowa w przytoczonym zdaniu. Sformu lowanie to s lu˙zy raczej do okre´slenia os´ob, kt´ore bra ly udzia l w realizacji tego projektu. Poza tym jednym wyjatkiem,, przytoczone przyk lady sa dobrymi reprezentantami relacji ca lo´, s´c-cze´,s´c.

9.4. Filtrowanie przyk lad´ow

Obok tych pozytywnych przyk lad´ow, znaleziono r´ownie˙z nastepuj, ace fragmenty tekst´, ow, zawierajace, wybrane pary poje´,c:

1. . . . unios lem uspokajajaco d lonie. – Po ekshumacji cz lowiek wyobra˙za sobie B´, og wie co . . . 2.

9.5. Ekstrakcja wzorc´ow formalnych 147

0 5 10 15 20 25 30 35

Liczba różnych zdań CTP

10-1 100 101 102 103 104 Li czb a w zo rcó w

Rysunek 9.1: Wykres liczby wzorc´ow formalnych wzgledem liczby unikalnych zda´, n pasujacych do wzorca, – CTP.

3. . . . ´sciska´c bochenki pie´,sci i podaje ludziom kromki d loni. Dziel, e si, e sob, a, m´, owiac Ewa . . ., 4. Pola sa szare, drzewa bez li´, sci, a tw´orcy chca pokaza´, c barwy.

Przyk lady te wskazuja wyra´, znie na potrzebe odfiltrowania wynik´, ow. W pierwszym przyk ladzie oba argumenty wystepuj, a w dw´, och r´o˙znych zdaniach, dlatego poszukiwana relacja nie wystepuj, e pomi, edzy, tymi wyra˙zeniami. W drugim i trzecim przyk ladzie mamy do czynienia z dok ladnie tym samym fragmen-tem tekstu, kt´ory jednak obejmuje nieco inny kontekst. Wyeliminowanie przyk lad´ow tego rodzaju pozwoli uzyska´c bardziej wiarygodne czesto´, sci wystepowania poszczeg´, olnych wzorc´ow. W ostatnim przyk ladzie natomiast mamy do czynienia z sytuacja, w kt´, orej dopasowany wyraz jest wieloznaczny, zar´owno syntak-tycznie jak i semansyntak-tycznie. W tym zdaniu wystepuje w roli przyimka, dlatego nie mo˙ze by´, c argumentem relacji semantycznej ca lo´s´c-cze´,s´c.

W celu wyeliminowania ma lo wiarygodnych przyk lad´ow zastosowano mechanizm filtrowania opisany w punkcie 8.4. ˙Zeby jednak wyniki filtrowania by ly bardziej wiarygodne, w szczeg´olno´sci aby faktycznie unikna´,c wszystkich powtarzajacych si, e przyk lad´, ow, przed filtrowaniem przyk lady nale˙zace do osobnych, zbior´ow trafi ly do jednego wsp´olnego zbioru SR. Co prawda w wyniku po laczenia zbior´, ow, utracona zosta la informacja o pochodzeniu poszczeg´olnych przyk lad´ow, ale zbi´or wynikowy zawiera l wiecej przy-, k lad´ow, ni˙z ka˙zdy ze zbior´ow ´zr´od lowych. Co wiecej taki po l, aczony zbi´, or lepiej nadawa l sie do przeprowa-, dzenia analizy statystycznej, gdy˙z pojedynczy wzorzec formalny m´og l zosta´c wygenerowany na podstawie bardziej zr´o˙znicowanych przyk lad´ow. W wyniku filtrowania, z poczatkowej liczby 10218 przyk ladowych, zda´n, pozosta ly 3054 unikalne zdania.

9.5. Ekstrakcja wzorc´ow formalnych

Zdania, kt´ore pozosta ly w zbiorze SR po jego odfiltrowaniu, zosta ly u˙zyte do wyekstrahowania wzor-c´ow formalnych zgodnie z opisem w punkcie 8.5. Powtarzajace si, e wzorce zosta ly uto˙zsamione, co pozwo-, li lo okre´sli´c warto´sci miar CTP oraz CDP. W wyniku ekstrakcji powsta lo 2319 unikalnych wzorc´ow.

0 2 4 6 8 10 12 14 16 18

Liczba różnych par argumentów

CDP

10-1 100 101 102 103 104

Liczb

a w

zo

rcó

w

Rysunek 9.2: Wykres liczby wzorc´ow formalnych wzgledem liczby r´, o˙znych par argument´ow pasujacych, do wzorca – CDP.

Wykresy 9.1 oraz 9.2 zawieraja zestawienia ilo´, sciowe wzorc´ow o identycznej warto´sci miar CTP oraz CDP. Dominujac, a grup, e stanowi, a wzorce posiadaj, ace tylko jedno wyst, apienie w´, sr´od przyk ladowych zda´n oraz jedna par, e wyra˙ze´, n, na bazie kt´orej zosta l wygenerowany wzorzec. Biorac pod uwag, e nisk, a, jako´s´c tak otrzymanych wzorc´ow (patrz punkt 8.6), do dalszej analizy wybrane zosta ly wy lacznie wzorce, o CDP ≥ 2. W ten spos´ob otrzymano 156 unikalnych wzorc´ow wysokiej jako´sci.

Zestawienie wzorc´ow o najwy˙zszych warto´sciach miary CTP przedstawione jest w tabeli 9.4. W´sr´od wzorc´ow tych latwo mo˙zna zauwa˙zy´c pewna prawid lowo´, s´c – 1, 2 i 4 wzorzec posiadaja pusty, wewnetrzny kontekst, drugi argument, czyli cz,,s´c organizmu wystepuje po lewej stronie, a prawy argu-, ment ma prawie identyczne cechy formalne (r´o˙znica dotyczy wy lacznie rodzaju i w dw´, och przypadkach jest to rodzaj meski osobowy, a w jednym przypadku rodzaj m, eski ˙zywotny). Analizuj, ac je mo˙zna wy-, wnioskowa´c, ˙ze wzorce te zosta ly wyekstrahowane ze zda´n, w kt´orych argumenty relacji po laczone s, a, zwiazkiem rz, adu.,

Wzorzec 3 wyra´znie r´o˙zni sie od pozosta lych – w wewn, etrznym kontek´, scie pojawia sie wyra˙zenie za,, kolejno´s´c argument´ow jest odmienna (po lewej stronie wystepuje argument odnosz, acy si, e do pierwszego, argumentu relacji – czyli organizmu), a drugi argument wystepuje w bierniku. Wzorzec ten wyekstraho-, wany zosta l tylko z dw´och typ´ow przyk lad´ow, w kt´orych dopasowany zosta l fragment byka za rogi bad´, z tygrysa za wasy. Du˙za liczba przyk lad´, ow wynika z tego, ˙ze wyra˙zenie z lapa´c byka za rogi jest skostnia la, metafora, cz, esto wyst, epuj, ac, a w tek´, scie.

R´o˙znica pomiedzy przyk ladami 1, 2 i 4 a przyk ladem 3 pokazuje jeszcze raz wa˙zno´, s´c miary CDP – wzorzec 3 ma najni˙zsza warto´, s´c tej miary i nieco przypadkowo znalaz l sie w tym zestawieniu. Wiele, kolejnych wzorc´ow, kt´ore nie znalaz ly sie w tym kr´, otkim zestawieniu, podobnych by lo do wzorc´ow z pierw-szej grupy – w szczeg´olno´sci charakteryzowa ly sie tym, ˙ze argumenty wyst, epowa ly w szyku right_left,, a prawy argument wystepowa l w dope lniaczu.,

Te wyniki wskazuja, ˙ze rozpoznane wzorce formalne posiadaj, a wsp´, olne cechy, kt´ore w pewnym stopniu charakteryzuja relacj, e semantyczn, a ca lo´, s´c-cze´,s´c. Niemniej jednak, przedstawione w punkcie 9.7 wyniki dopasowania wzorc´ow formalnych do tekstu wskazuja, ˙ze wzorce te s, a zbyt og´, olne, aby w spos´ob precy-zyjny mo˙zna by lo na ich podstawie rozpoznawa´c te relacj, e.,

9.6. Ujednoznacznienie sensu wyra˙ze´n w korpusie PAP 149

Tablica 9.4: Najcze´,sciej powtarzajace si, e wzorce formalne o CD, P ≥ 2, wyekstrahowane na podstawie predykatu #$anatomicalParts.

Nazwa cechy Wzorzec 1 Wzorzec 2 Wzorzec 3 Wzorzec 4 direction right_left right_left left_right right_left pos_left noun noun noun noun number_left singular singular plural singular case_left genitive genitive accusative nominative gender_left feminine feminine masculine_2 feminine pos_right noun noun noun noun number_right singular singular plural singular case_right genitive genitive accusative genitive gender_right masculine_1 masculine_2 masculine_3 masculine_2 inner_context -- -- za --arg_left dłoni, nogi, tchawicy, . . . płetwy, skóry, łapy, . . . byka, tygrysa trąba, płetwa, skóra, . . . arg_right człowieka, mężczyzny, premiera, . . . rekina, wieloryba, bawołu, . . .

rogi, wąsy słonia, rekina, węża, rysia, . . . total 32 25 25 20 distinct 13 16 2 12

9.6. Ujednoznacznienie sensu wyra ˙ze´n w korpusie PAP

Poniewa˙z jeden z wariant´ow algorytmu okre´slania ogranicze´n semantycznych wykorzystuje zdania z korpusu PAP, w kolejnym etapie ujednoznaczniono sens wyra˙ze´n wystepuj, acych w tym korpusie, wzgl, e-, dem s lownika semantycznego zbudowanego na bazie Wikipedii (patrz punkty 6.3 oraz 7.3).

Tabela 9.5 zawiera statystyki procesu ujednoznaczniania. Ca lkowita liczba ujednoznacznionych wy-ra˙ze´n (prawie 700 tys.) stanowi niemal jedna pi, at, a liczby wszystkich segment´, ow tekstu wystepuj, acych, w korpusie. D lugo´s´c rozpoznanych wyra˙ze´n wynosi la od 1 do 7 segment´ow, przy czym ´srednia warto´s´c wynoszaca 1,34 wskazuje, ˙ze zdecydowana wi, ekszo´, s´c wyra˙ze´n sk lada la sie z jednego segmentu. Pewno´, s´c ujednoznaczniania Pdgobejmowa la ca ly zakres – od 0 do 1 – ale warto´s´c ´srednia wynoszaca 0,23 wskazuje,, ˙ze algorytm ujednoznaczniania musia l podejmowa´c decyzje, zwykle na podstawie zbyt ma lej ilo´sci informa-cji. Fakt ten koresponduje z ocena skuteczno´, sci algorytmu przedstawiona w punkcie 7.3.5. Chc, ac zachowa´, c minimalny poziom poprawno´sci ujednoznaczniania, konieczne jest zatem ustawienie progu pewno´sci po-wy˙zej zera. Ustawienie warto´sci pewno´sci nieco poni˙zej warto´sci ´sredniej, co prawda doprowadzi do utraty du˙zej liczby rozpoznanych wyra˙ze´n, ale jak wida´c na histogramie przedstawionym na rysunku 9.3, domi-nanta pewno´sci przypada w okolicach warto´sci 0,3 a nie warto´sci 0, dlatego w kolejnych eksperymentach liczba dostepnych ujednoznacznionych wyra˙ze´, n powinna by´c stosunkowo du˙za.

Tablica 9.5: Statystyki ujednoznaczniania korpusu PAP.

Cecha Warto´s´c

Ca lkowita liczba segment´ow 3595398 Liczba ujednoznacznionych wyra˙ze´n 697085 Minimalna d lugo´s´c ujednoznacznionych wyra˙ze´n 1 Maksymalna d lugo´s´c ujednoznacznionych wyra˙ze´n 7 ´

Srednia d lugo´s´c ujednoznacznionych wyra˙ze´n 1,34 Minimalna pewno´s´c rozpoznania 0 Maksymalna pewno´s´c ropoznania 1 ´

Srednia pewno´s´c rozpoznania 0,23

0.0 0.2 0.4 0.6 0.8 1.0

Pewność ujednoznacznienia P

dg 0 20000 40000 60000 80000 100000

Ilo

ść

w

yra

że

ń

Rysunek 9.3: Wykres ilo´sci wyra˙ze´n rozpoznanych w korpusie PAP, w zale˙zno´sci od pewno´sci ujedno-znacznienia Pdg.

9.7. Dopasowywanie wzorc´ow formalnych do zda´n 151

Tablica 9.6: 15 najcze´,sciej rozpoznawanych poje´,c w korpusie notatek PAP wraz z liczba wyst, apie´, n, przy Pdg≥ 2.

Pojecie – tytu l artyku lu Wikipedii, Liczba rozpozna´n

Polska 12387 Stany Zjednoczone 6642 Unia Europejska 6199 Złoty 4641 Warszawa 4484 Rosja 4210 Niemcy 3293 Dolar amerykański 3238 Policja 3034

Akcja Wyborcza Solidarność 2926

Ustawa 2584

Polacy 2540

Sojusz Lewicy Demokratycznej 2391

Europa 2258

Rząd (prawo) 2168

W tabeli 9.6 przedstawiono 15 najcze´,sciej rozpoznawanych symboli jezykowych wyst, epuj, acych w no-, tatkach, przy minimalnym progu pewno´sci ustalonym na 0,2. Symbole te bardzo dobrze odzwierciedlaja, charakter korpusu PAP, kt´ory w du˙zej mierze sk lada sie z informacji na temat bie˙z, acych wydarze´, n poli-tycznych i ekonomicznych, obejmujacych zdarzenia krajowe oraz zagraniczne. Obok dominuj, acych nazw, w lasnych – w szczeg´olno´sci nazw pa´nstw takich jak Polska, Stany Zjednoczone, czy Rosja – wystepuj, a, rzeczowniki pospolite, takie jak Ustawa i Rząd, kt´ore wprost wia˙z, a si, e z poruszan, a tematyk, a. Wa˙znymi, pojeciami, kt´, ore pojawiaja si, e w zestawieniu s, a r´, ownie˙z nazwy partii politycznych, kt´ore obecne by ly w sej-mie w okresie z kt´orego pochodza notatki – sprawuj, ace w ladz, e Akcja Wyborcza Solidarność oraz g l´, owna partia opozycyjna Sojusz Lewicy Demokratycznej. Wyniki te ´swiadcza, ˙ze algorytm ujednoznaczniania, realizuje stawiane przed nim zadanie, przynajmniej w odniesieniu do popularnych nazw i poje´,c czesto, pojawiajacych si, e w notatkach Polskiej Agencji Prasowej.,

9.7. Dopasowywanie wzorc´ow formalnych do zda´n

Uzyskane w punkcie 9.5 wzorce formalne zosta ly dopasowane do dokument´ow znajdujacych si, e w kor-, pusie PAP za pomoca algorytmu opisanego w punkcie 8.7. ˙, Zeby umo˙zliwi´c zbadanie wp lywu miary pew-no´sci ujednoznacznienia na skuteczno´s´c ca lego algorytmu, nie ustalono minimalnej warto´sci tej miary. W wyniku dopasowania 156 wzorc´ow do 51 tys. kr´otkich notatek prasowych uzyskano 20914 dopasowa´n, w kt´orych rozpoznano wystapienie jednego z wyekstrahowanych wzorc´, ow. Liczba ta jest stosunkowo du˙za, biorac pod uwag, e fakt, ˙ze ca lkowita liczba zda´, n w korpusie PAP wynosi la prawie 200 tys., a dopasowa-nia zosta ly ograniczone wy lacznie do tych wyra˙ze´, n, kt´ore zosta ly ujednoznacznione wzgledem s lownika, semantycznego.

Na rysunku 9.4 przedstawiony jest histogram liczby dopasowa´n dla poszczeg´olnych wzorc´ow. Z jednej strony mo˙zna zauwa˙zy´c, ˙ze istnieje du˙za grupa wzorc´ow posiadajacych bardzo niewielk, a licz, e dopasowa´, n –

0 200 400 600 800 1000 Liczba dopasowań 0 10 20 30 40 50 60 70 Ilo ść w zo rcó w

Rysunek 9.4: Wykres przedstawiajacy ilo´, s´c wzorc´ow posiadajacych okre´, slona liczb, e dopasowa´, n w korpusie PAP.

od 0 do 10. Najwiecej wzorc´, ow nie posiada lo ˙zadnego dopasowania, by lo ich a˙z 35. Z drugiej strony istnieje niewielka liczba wzorc´ow, kt´ore posiadaja od 100 do 1000 dopasowa´, n. Istnieje r´ownie˙z umiarkowanie du˙za grupa wzorc´ow, kt´ore posiadaja od 10 do 100 dopasowa´, n.

Poni˙zej przedstawione zosta ly wyniki dopasowania trzech wzorc´ow formalnych, z ka˙zdej z wymienio-nych grup: pierwszy z nich jest wzorcem dopasowanym najcze´,sciej, drugi posiada l ´srednia frekwencj, e, dopasowa´n, a trzeci zosta l dopasowany tylko do jednego przyk ladu. Przyk lady, w kt´orych wystepuje, relacja ca lo´s´c-cze´,s´c zosta ly zaznaczone poprzez wyt luszczenie punktora1

1. Szablon: rl, subst:sg:gen:f, --, subst:sg:gen:f, CTP = 13, CDP = 11, ilo´s´c dopasowa´n: 1000.

(a) Z udzia lem szef´ow dyplomacji Polski i USA Bronis lawa Geremka i Madeleine Albright od-by la sie w Departamencie Stanu uroczysta inauguracja Polsko-Ameryka´, nskiej Fundacji Wol-no´sci.

(b) Cena bary lki ropy Brent z Morza P´o lnocnego, z dostawa w marcu, wzros la w czwartek o 15.15, na Miedzynarodowej Gie ldzie Paliw w Londynie do 27,19 dolar´, ow.

(c) Si´odme zwyciestwo w 13. kolejce rozgrywek grupy B Euroligi, odnios ly koszykarki Polpharmy, VBW Clima Gdynia.

(d) Komitet Ekonomiczny Rady Ministr´ow przyja l dokument,

Za lo˙zenia polityki energetycznej Polski do 2020 roku”, po zweryfikowaniu przez resort gospodarki prognozy zapotrzebowania na energie.,

(e) Austriacka minister spraw zagranicznych odcie la si, e od wypowiedzi Joerga Haidera nt. posze-, rzenia UE i wezwa la kraje cz lonkowskie 15 do zako´nczenia izolacji Austrii na scenie europej-skiej.

2. Szablon: rl, subst:pl:gen:f, --, subst:sg:gen:m1, CTP = 13, CDP = 4, ilo´s´c dopasowa´n: 85.

1W poni ˙zszych przyk ladach zastosowano skr´ocony zapis wzorc´ow formalnych. Szczeg´o lowy opis tego formatu znajduje sie w dodatku D.,

9.7. Dopasowywanie wzorc´ow formalnych do zda´n 153

(a) Zdaniem pe lnomocnika rzadu ds. negocjacji Jana Ku lakowskiego data zako´, nczenia negocja-cji o cz lonkostwo Polski w Unii Europejskiej mo˙ze by´c podana pod koniec roku na szczycie europejskim w Nicei.

(b) W Austriackim Instytucie Kultury w Warszawie otwarta zosta la w sobote wystawa fotografii, Harry’ego Webera pt.

Wiede´n dzisiaj – wsp´o lczesno´c ˙zydowska w fotografii”. (c) Zabrzmia fragmenty ch´, oralne m.in. z oper Moniuszki i Verdiego.

(d) Sze´scioro sygnatariuszy Porozumie´n Sierpniowych z Gda´nska zaapelowa lo w piatek do Kole-, gium Instytutu Pamieci Narodowej o wyb´, or na szefa IPN wiceministra spraw wewnetrznych, i administracji Bogdana Borusewicza.

(e) Rzadowy samoch´, od ministra-koordynatora specs lu˙zb Janusza Pa lubickiego zderzy l sie, w centrum Warszawy z innym samochodem – poda la policja.

3. Szablon: lr, subst:sg:acc:f, --, subst:pl:inst:f, CTP = 4, CDP = 2, ilo´s´c dopasowa´n: 1.

(a) Polakom zarzuca sie niszczenie maj, atku (rozbijanie witryn) i czynn, a napa´, s´c na funkcjonariuszy publicznych (rzucanie w policje kostkami brukowymi).,

Pierwsza obserwacj, a jak, a mo˙zna poczyni´, c w odniesieniu do wynik´ow dopasowania wzorc´ow formalnych jest to, ˙ze wiekszo´, s´c spo´sr´od dopasowanych zda´n nie zawiera relacji ca lo´s´c-cze´,s´c. Ten wynik wskazuje, ˙ze uzyskane wzorce formalne nie sa wystarczaj, ace do tego by mo˙zna na ich podstawie poprawnie rozpoznawa´, c te relacj, e.,

Druga obserwacja dotyczy charakteru relacji ca lo´s´c-cze´,s´c: pomimo tego, ˙ze jako dane wyj´sciowe u˙zyte zosta ly wy lacznie pary poj,,c po laczonych predykatem #$anatomicalParts, to w przyk ladach pasuj, acych, do wzorca formalnego wystepuj, a inne podtypy relacji ca lo´, s´c-cze´,s´c. W pierwszym przyk ladzie (1.a) mamy do czynienia z organizacja (Polska) oraz jej funkcjonaln, a cz,,scia (dyplomacja). W drugim przyk ladzie, (1.b) mamy do czynienia z relacja wyodr, ebniaj, ac, a pewn, a cz,,s´c (bary lke) z abstrakcyjnej ca lo´, sci (ropa), kt´ora obejmuje

ca lo´c ropy we wszech´swiecie”. Trzeci przyk lad (1.3) podobny jest do pierwszego, gdy˙z ca lo´s´c stanowi organizacja (euroliga) ale relacja ta ma charakter strukturalny (cze´,s´c stanowi grupa B ). Wida´c zatem wyra´znie, ˙ze charakter rozpoznanej relacji nie jest jednolity, tzn. nie obejmuje wy lacznie, typ´ow obiekt´ow, na podstawie kt´orych zbudowane zosta ly wzorce formalne. Ten wynik ´swiadczy o uni-wersalno´sci prezentowanego podej´scia.

Ostatnia istotna obserwacja dotyczy zda´n, w kt´orych wzorzec zosta l dopasowany, ale w kt´orych nie wystepuje poszukiwana relacja. W niekt´, orych przypadkach mam do czynienia z inna relacj, a (np. tw´, orca-wytw´or, jak w przypadku oper Moniuszki, dzia laniem-przdmiotem dzia lania, jak w przypadku izolacji Austrii, czy relacja posesywn, a, jak w przypadku polityki energetycznej Polski ), zdarzaj, a si, e jednak sy-, tuacje, w kt´orych rozpoznanie wyra˙zenia wielosegmentowego nie by lo w la´sciwe. Np. we fragmencie na szefa IPN wiceministra spraw wewnętrznych i administracji – sprawy wewnetrzne i administracja, zosta ly wydzielone z nazwy stanowiska, co mo˙ze prowadzi´c do b lednego rozpoznania relacji.,

Ciekawa grup, e stanowi, a r´, ownie˙z przyk lady, kt´ore nie posiada ly ˙zadnego dopasowania. W´sr´od nich mo˙zna znale´z´c nastepuj, ace wzorce:,

1. lr, subst:sg:acc:m2, za, subst:pl:acc:m3, CTP = 25, CDP = 2, 2. lr, subst:sg:gen:m2, za, subst:pl:acc:m3, CTP = 6, CDP = 2, 3. rl, subst:sg:acc:f, z, subst:sg:gen:m2, CTP = 6, CDP = 5,

4. lr, subst:sg:nom:m1, doznał wstrząśnienia, subst:sg:gen:m3, CTP = 4, CDP = 2.

Ich charakterystyczna cech, a jest to, ˙ze wewn, etrzny kontekst dopasowania jest niepusty i pomimo, posiadania wysokiej warto´sci wsp´o lczynnik´ow CTP (pierwszy wzorzec) oraz CDP (trzeci wzorzec) nie zosta ly one ani razu dopasowane w korpusie PAP. Ten wynik pokazuje, ˙ze wystepowanie wewn, etrznego, kontekstu dopasowania by´c mo˙ze powinno skutkowa´c rozlu´znieniem ogranicze´n formalnych nak ladanych na argumenty, aby w og´ole mo˙zliwe by lo wykorzystanie wzorc´ow tego rodzaju.

Bardziej szczeg´o lowa analiza ilo´sciowa oraz jako´sciowa wynik´ow uzyskanych na podstawie dopasowa´n wzorc´ow formalnych przedstawiona jest w punktach 10.1.1 oraz 10.1.2.

9.8. Okre´slenie ogranicze´n semantycznych

Warunkiem wstepnym wykorzystania ogranicze´, n semantycznych do rozpoznawania relacji semantycz-nych jest to, aby oba wyra˙zenia dopasowane do wzorca formalnego mia ly przypisana kategori, e seman-, tyczna. Algorytm okre´, slania kategorii semantycznych opisany zosta l w punkcie 7.2. W punkcie 7.2.9 wskazano, ˙ze nie wszystkie artyku ly wystepuj, ace w polskiej Wikipedii otrzyma ly kategorie semantyczne –, pokrycie algorytmu wynios lo oko lo 80%. Z tego powodu nie wszystkie wyra˙zenia dopasowane do wzorc´ow formalnych otrzyma ly kategorie semantyczn, a. Z niespe lna 21 tys. dopasowa´, n wzorca formalnego (patrz p. 9.7) 13267 (63%) posiada lo przypisana przynajmniej jedn, a kategori, e semantyczn, a dla ka˙zdego z do-, pasowanych wyra˙ze´n. Wynik ten nie jest zaskakujacy je´, sli we´zmiemy pod uwage fakt, ˙ze podobnie jak, w przypadku ujednoznaczniania wyra˙ze´n wzgledem Wikipedii, konieczne jest okre´, slenie kategorii seman-tycznej dla obu wyra˙ze´n i przy 80% pokryciu, teoretyczne prawdopodobie´nstwo2 posiadania kategorii semantycznej przez oba wyra˙zenia wynosi dok ladnie 64%.

Biorac pod uwag, e ten fakt, mo˙zemy przyst, api´, c do przedstawienia rezultat´ow okre´slania ogranicze´n semantycznych relacji ca lo´s´c-cze´,s´c. W opisie algorytmu konstrukcji wzorc´ow ekstrakcyjnych w punkcie 8.8 przedstawiono trzy metody pozwalajace na okre´, slenie ogranicze´n semantycznych:

1. reczna ewaluacja zda´, n zawierajacych dopasowania wzorc´, ow formalnych, 2. ekstrakcja ogranicze´n semantycznych z predykat´ow ontologii Cyc, 3. ekstrakcja ogranicze´n semantycznych z wiedzy zgromadzonej w DBpedii.

Jednym z najwa˙zniejszych problem´ow postawionych w niniejszej pracy jest zweryfikowanie mo˙zliwo´sci w pe lni automatycznej konstrukcji wzorc´ow ekstrakcyjnych. Oczywi´scie nale˙zy wzia´,c pod uwage, ˙ze w pre-, zentowanym algorytmie to u˙zytkownik okre´sla jaka relacja ma by´c ekstrahowana. Co wiecej w podej´, sciu opartym o DBpedie konieczne jest r´, ownie˙z reczne okre´, slenie, kt´ore spo´sr´od predykat´ow zdefiniowanych w ontologii DBpedii odpowiadaja ekstrahowanej relacji. Zatem m´, owiac o automatyczno´, sci mamy tutaj na my´sli przede wszystkim mo˙zliwo´s´c unikniecia r, ecznej oceny du˙zej ilo´, sci danych (zda´n zawierajacych rela-, cje, wyekstrahowanych ogranicze´, n semantycznych, itp.), a nie ca lkowite zwolnienie u˙zytkownika systemu z podejmowania jakichkolwiek dzia la´n.

Dlatego te˙z okre´slenie ogranicze´n semantycznych realizowane jest na 3 sposoby. Pierwszy z nich re-prezentuje podej´scie, w kt´orym konieczne jest przeprowadzenie recznej oceny zda´, n, zatem nie spe lnia wymogu automatyczno´sci. Drugie podej´scie, oparte o ontologie Cyc, wymaga od u˙zytkownika jedynie, wskazania najbardziej og´olnego predykatu, kt´ory reprezentuje ekstrahowana relacj, e. Trzecie podej´, scie

9.8. Okre´slenie ogranicze´n semantycznych 155

oparte o DBpedie, wymaga pewnych dzia la´, n ze strony u˙zytkownika (okre´slenie zbioru predykat´ow od-powiadajacych relacji oraz okre´, slenie kolejno´sci wystepowania argument´, ow), ale ograniczone sa one do, niezbednego minimum. Mo˙zna r´, ownie˙z przypuszcza´c, ˙ze w trakcie rozwoju ontologii DBpedii wieksza cz,,s´c predykat´ow zostanie po laczona w hierarchi, e, dzi, eki czemu mo˙zliwe b, edzie wskazanie jedynie najbardziej, og´olnego predykatu, tak jak to ma miejsce w przypadku ontologii Cyc.

Je´sli oka˙ze sie, ˙ze podej´, scie drugie lub trzecie daja wyniki lepsze od podej´, scia pierwszego, bedzie, to znaczy lo, ˙ze teza niniejszej pracy jest obroniona. Oczywi´scie nale˙zy przyja´,c pewne za lo˙zenia wstepne, w odniesieniu do pierwszej metody, gdy˙z w skrajnym przypadku, w drodze recznej oceny wszystkich dopa-, sowa´n wzorca formalnego mo˙zliwe by loby pozyskanie dok ladnie tych samych ogranicze´n semantycznych, kt´ore zosta ly okre´slone w spos´ob automatyczny na bazie Cyc czy DBpedii. W takiej sytuacji metoda

W dokumencie Index of /rozprawy2/10951 (Stron 146-158)