Ekstrakcja innych relacji semantycznych

Wartość miary CD P

10.3. Ekstrakcja innych relacji semantycznych

wnioskiem jest r´ownie˙z to, ˙ze ˙zadne ze ´zr´ode l b led´_, ow nie dominuje, co z jednej strony oznacza, ˙ze ja-ko´s´c poszczeg´olnych modu l´ow jest do´s´c wysoka, ale z drugiej, ˙ze poprawienie uzyskiwanych wynik´ow jest trudne, ze wzgledu na konieczno´_, s´c jednoczesnej eliminacji wielu r´o˙znych przyczyn ich powstawania.

10.3. Ekstrakcja innych relacji semantycznych

Opisane dotychczas eksperymenty koncentrowa ly sie na rozpoznawaniu pojedyncznej – cho´_, c nie ho-mogenicznej – relacji semantycznej jaka jest relacja ca lo´_, s´c-cze´_,s´c. Istotna zalet_, a DBpedii, jako zasobu_, s lu˙zacego do okre´_, slania ogranicze´n semantycznych, jest mo˙zliwo´s´c jednoczesnego odkrycia wielu ograni-cze´n dla r´o˙znych relacji semantycznych. W celu zweryfikowania tej mo˙zliwo´sci przeprowadzono ekspe-rymenty z u˙zyciem dw´och predykat´ow: owner – lacz_, acego w la´_, sciciela z posiadanym przez niego dobrem oraz location – pozwalajacej na okre´_, slenie lokalizacji. Predykaty te reprezentuja odpowiadaj_, ace im re-_, lacje semantyczne – relacje posesywn_, a oraz relacj_, e lokalizacji. W odniesieniu do pierwszej spo´_, sr´od tych relacji wiadomo, ˙ze formalnie jest ona bardzo podobna do relacji ca lo´s´c-cze´_,s´c. Mo˙zna to zauwa˙zy´c por´ ow-nujac nast_, epuj_, ace wyra˙zenia: ręka matki oraz dom matki. W obu wyra˙zeniach wyst_, epuje ta sama relacja_, formalna – zwiazek rz_, adu._,

W odniesieniu do relacji lokalizacji sytuacja jest nieco inna – obie relacje nie wykazuja takiego podo-_, bie´nstwa formalnego. Niemniej jednak ekstrakcja tej relacji w oparciu o te same wzorce formalne powinna wzbogaci´c nasza wiedz_, e, na temat wp lywu wzorc´_, ow formalnych na poprawno´s´c ca lego procesu.

W celu zweryfikowania mo˙zliwo´sci ekstrahowania innych relacji semantycznych w oparciu o ograni-czenia semantyczne pozyskane z DBpedii przeprowadzono eksperyment, w kt´orym powt´orzono wszystkie etapy konstrukcji wzorca ekstrakcyjnego dla relacji ca lo´s´c-cze´_,s´c, z wyjatkiem ostatniego, tj. okre´_, slenia ogranicze´n semantycznych. Ograniczenia te zosta ly okre´slone na podstawie odpowiadajacych im predyka-_, t´ow z DBpedii – owner oraz location. Ponadto okre´slono kolejno´s´c argument´ow dla tych relacji, podobnie jak dla poszczeg´olnych predykat´ow relacji ca lo´s´c-cze´_,s´c (por´ownaj tabela E.1). W ten spos´ob skonstru-owano wzorce ekstrakcyjne, kt´orych wzorce formalne odpowiada ly relacji ca lo´s´c-cze´_,s´c, a ograniczenia semantyczne relacji posesywnej oraz relacji lokalizacji.

Szablony te zosta ly wykorzystane do ekstrakcji informacji z tego samego zbioru tekst´ow, tj. z korpusu notatek PAP. Eksperyment przeprowadzono jedynie dla najlepszej kombinacji parametr´ow (tj. z wykorzy-staniem relacji generalizacji oraz z wykluczeniem wyra˙ze´n, kt´orych ograniczenia semantyczne by ly iden-tyczne), dla wzorc´ow formalnych o CDP ≥ 2. Tak uzyskane wyniki zosta ly poddane recznej ewaluacji_, przez autora. Dla relacji posesywnej uzyskano precyzje wynosz_, ac_, a 79%, a dla relacji lokalizacji precyzj_, e_, wynoszac_, a 54%._,

Uzyskana precyzja ekstrakcji relacji posesywnej jest zatem nieco wy˙zsza ni˙z relacji ca lo´s´c-cze´_,s´c, co na-le˙zy uzna´c za wynik bardzo dobry. Poniewa˙z jednak nie przeprowadzono eksperyment´ow por´ownawczych w odniesieniu do pokrycia tej metody, a liczba odnalezionych instancji tej relacji by la niewielka (47 par wyra˙ze´n), wyniki te traktowa´c nale˙zy jako orientacyjne.

W odniesieniu do relacji lokalizacji wynik jest du˙zo gorszy. Nie jest on jednak zaskakujacy, poniewa˙z_, formalnie relacja ta jest znacznie mniej podobna do relacji ca lo´s´c-cze´_,s´c, ni˙z relacja posesywna. Wynik ten ´swiadczy zatem na korzy´s´c tezy g loszacej, ˙ze precyzyjna ekstrakcja relacji wymaga poprawnego okre´_, sle-nia zar´owno cech formalnych wzorca oraz jego cech semantycznych. Opierajac si_, e wy l_, acznie na cechach_, semantycznych nie mo˙zna skutecznie ekstrahowa´c relacji.

Wnioski

Szczeg´o lowa analiza przyk lad´ow dopasowania wzorc´ow formalnych dostarczy la wielu przyk lad´ow zda´n, kt´ore stanowia problem dla algorytmu ekstrakcji relacji. Najtrudniejsze z punktu widzenia konstruktora_, algorytmu sa zdania, w kt´_, orych mamy do czynienia z wypowiedziami metaforycznymi oraz cze´_,sciowo wadliwymi. Algorytm wymaga okre´slenia ´scis lych kryteri´ow dopasowania wzorc´ow, natomiast przytoczone przyk lady pokazuja, ˙ze analizowane zjawiska maj_, a charakter rozmyty._,

Druga grupa problem´ow obejmuje zjawiska, kt´ore da loby sie rozwi_, aza´_, c odpowiednio komplikujac al-_, gorytm (np. zjawiska zwiazane z wieloaspektow_, a klasyfikacj_, a poj_, e´_,c), ale kt´ore trudno jest wdro˙zy´c ze wzgled´_, ow praktycznych, gdy˙z wymaga lby albo istotnej rozbudowy s lownika semantycznego, albo zasto-sowania zaawansowanych mechanizm´ow wnioskowania na etapie ekstrakcji relacji. Tylko jedno z tego rodzaju zjawisk (zwiazane z relacj_, a typ-okaz ) mo˙zna stosunkowo latwo uwzgl_, edni´_, c w konstruowanym algorytmie.

Trzecia grup_, e problem´_, ow stanowia zjawiska zwi_, azane z problemami interpretacyjnymi. Wida´_, c wyra´ z-nie, ˙ze stworzenie algorytmu og´olnego przeznaczenia nie jest latwe, ze wzgledu na trudno´_, s´c jednoznacznej interpretacji wystepuj_, acych zjawisk. Dostosowanie algorytmu do okre´_, slonej dziedziny wiedzy, ogranicza-jacej zbi´_, or dopuszczalnych interpretacji, mo˙ze pom´oc rozwiaza´_, c ten problem w praktyce.

Wyniki ekstrakcji relacji semantycznych w oparciu o wzorce ekstrakcyjne, ´swiadcza na korzy´_, s´c tezy g lo-szacej, ˙ze korzystaj_, ac z odpowiedniego bogatego ´_, zr´od la wiedzy mo˙zliwa jest ich automatyczna konstrukcja. Je´sli przyjmiemy, ˙ze w celu okre´slenia ogranicze´n semantycznych analizie recznej podlega 10% zda´_, n za-wierajacych dopasowanie wzorc´_, ow formalnych, to wyniki automatycznej konstrukcji wzorc´ow uzyskanych na bazie DBpedii sa lepsze (w odniesieniu do miary F_, 1). Co prawda precyzja tych wzorc´ow jest ni˙zsza ´srednio o ok. 8 punkt´ow procentowych, ale jest ona rekompensowana przez znacznie wy˙zsze wzgledne_, pokrycie.

W tym wzgledzie znacznie gorzej wypadaj_, a ograniczenia semantyczne okre´_, slone automatycznie na podstawie ontologii Cyc, dla kt´orych wyniki zar´owno pod wzgledem precyzji, jak i pokrycia s_, a ni˙zsze._, ´

Swiadcza one, ˙ze wykorzystanie jedynie do´_, s´c og´olnej wiedzy zawartej w tej ontologii jest niewystarczajace_, do prawid lowego okre´slenia ogranicze´n semantycznych. Pokazuja r´_, ownie˙z, ˙ze skuteczna ekstrakcja relacji wymaga u˙zycia bardzo zr´o˙znicowanych zbior´ow danych. Nie nale˙zy bowiem zapomina´c, ˙ze w metodzie opartej o ograniczenia pozyskane z DBpedii r´ownie˙z wykorzystywana jest wiedza z ontologii Cyc.

Analiza b led´_, ow dla poszczeg´olnych metod pokazuje, ˙ze nie istnieje jedno dominujace ´_, zr´od lo tych b led´_, ow. W zale˙zno´sci od metody, wiekszy udzia l mo˙ze mie´_, c b ledne ujednoznacznianie wyra˙ze´_, n (jak w przypadku ogranicze´n okre´slonych recznie), czy te˙z niepoprawnie okre´_, slona kolejno´s´c argument´ow (jak w przypadku ogranicze´n okre´slonych na bazie Cyc). Wyra´znie wida´c jednak, ˙ze udzia l b led´_, ow zwiazanych_, z analiza semantyczn_, a jest wi_, ekszy i w tym kierunku powinny i´_, s´c dalsze prace zmierzajace do poprawy_, uzyskanych wynik´ow. Nie zmienia to jednak faktu, ˙ze poprawno´s´c wzorc´ow formalnych ma r´ownie˙z istotny wp lyw na uzyskanie zadowalajacych rezultat´_, ow, co mo˙zna by lo zaobserwowa´c poprzez zwiekszenie war-_, to´sci miary CDP oraz przeprowadzajac eksperymenty z ograniczeniami charakterystycznymi dla innych_, relacji semantycznych.

11. Podsumowanie

Teza rozprawy przedstawiona w punkcie 1.1 sk lada sie z trzech cz_, e´_,sci. Cze´_,s´c pierwsza dotyczy precy-zji wynik´ow uzyskiwanych przez hybrydowy algorytm ekstrakcji informacji. Na rzecz tej tezy ´swiadczy r´o˙znica w precyzji wynik´ow ekstrakcji uzyskanych na podstawie wzorc´ow formalnych oraz wynik´ow uzy-skanych na podstawie wzorc´ow wyposa˙zonych w ograniczenia semantyczne zdefiniowane z wykorzystaniem poje´_,c ontologii Cyc. Jak pokazane zosta lo w punkcie 10.1.1, wzorce formalne zbudowane na podstawie analizy statystycznej, daja wyniki ekstrakcji o precyzji w przedziale 20%-40%. Natomiast algorytm hy-_, brydowy uzyskuje wyniki charakteryzujace si_, e wy˙zsz_, a precyzj_, a – najgorszy wariant bazuj_, acy w ca lo´_, sci na ontologii Cyc ma precyzje wynosz_, ac_, a 41%, natomiast wariant najlepszy, oparty o ograniczenia seman-_, tyczne wyekstrahowane z recznie ocenionych zda´_, n, posiada precyzje wynosz_, ac_, a 92%. Te wyniki pokazuj_, a,_, ˙ze zastosowanie algorytmu hybrydowego istotnie przyczynia sie do poprawy precyzji uzy-_, skiwanych wynik´ow, co dowodzi s luszno´sci pierwszej cze´_,sci tezy.

Druga cze´_,s´c tezy dotyczy obszaru zastosowania algorytmu i zak lada, ˙ze nie ma by´c on ograniczony do pojedynczej dziedziny wiedzy. Ta cze´_,s´c tezy potwierdzona zosta la na kilka sposob´ow. Po pierwsze, na ˙zadnym etapie konstrukcji wzorc´ow ekstrakcyjnych nie by la wykorzystywana wiedza dziedzinowa. Co prawda, jako przyk lad´ow u˙zyto par poje´_,c z dziedziny anatomii, ale uzyskane wzorce okaza ly sie skuteczne_, w ekstrakcji informacji w innych dziedzinach.

Po drugie, wynikowe wzorce ekstrakcyjne wykorzystywane by ly do analizy notatek PAP. Zakres tema-t´ow poruszanych w notatkach nie jest ograniczony do jednej dziedziny wiedzy, cho´c dominuja informacje_, zwiazane z polityk_, a mi_, edzynarodow_, a. W efekcie, hybrydowy algorytm ekstrakcji relacji semantycznych_, rozpozna l wystapienia relacji ca lo´_, s´c-cze´_,s´c w nastepuj_, acych zdaniach_, 1:

– Prof. Edward Borowski, szef gda´nskiego oddzia lu tej organizacji, szacuje, ˙ze ok. 30 procent miesz-ka´nc´ow tr´ojmiejskiej aglomeracji stanowia osoby, kt´_, ore pochodza ze stolicy Litwy i okolic,_,

– Zdaniem pos l´ow koalicji

”^obowiazkiem Krajowej Rady Radiofonii i Telewizji oraz Rady Nadzorczej,

TVP jest przerwanie tych destruktywnych dzia la´n”,

– Koszykarze Portland Trail Blazers i Los Angeles Lakers zagraja w finale Konferencji Zachodniej_, ligi NBA,

– Pos lanka Unii doda la, ˙ze sama jest za jeszcze dalej idacym rozwi_, azaniem, kt´_, ore zak lada, ˙ze rady nadzorcze nie mia lyby wp lywu na sk lad zarzad´_, ow medi´ow publicznych.

W ka˙zdym z nich mamy do czynienia z inna dziedzin_, a wiedzy. W pierwszym wiedza dotyczy zale˙zno´_, sci geopolitycznych – stolica jest cze´_,scia pa´_, nstwa, w drugim wiedza dotyczy organizacji sp´o lek handlowych – cze´_,scia sp´_, o lki jest jej rada nadzorcza, w trzecim zdaniu rozpoznane sa zale˙zno´_, sci w obszarze sportu – liga NBA podzielona jest na dwie konferencje, natomiast w ostatnim zdaniu rozpoznane zosta ly zale˙zno´sci

1Przyk lady te pochodza z korpusu PAP._,

w organizacji politycznej – pos lanka jest cze´_,scia partii politycznej. Wida´_, c zatem, ˙ze algorytm zdolny jest do ekstrakcja relacji w wielu dziedzinach wiedzy.

Po trzecie za´s – wszystkie ´zr´od la wiedzy wykorzystywane w algorytmie maja charakter uniwersalny._, Dotyczy to s lownika fleksyjnego, Wikipedii, ontologii Cyc oraz semantycznej bazy wiedzy jaka jest DBpe-_, dia. Wszystkie te fakty ´swiadcza na rzecz tezy, ˙ze hybrydowy algorytm ekstrakcji relacji seman-_, tycznych jest uniwersalny, co dowodzi s luszno´sci drugiej cze´_,sci tezy.

Ostatnia cze´_,s´c tezy rozprawy dotyczy nak ladu pracy recznej, jaka musi zosta´_, c wykonana, aby mo˙zna by lo zastosowa´c prezentowany algorytm do ekstrakcji nowych relacji semantycznych. W za lo˙zeniu spe lnie-nie warunku o mlnie-niejszym nak ladzie pracy recznej, niezb_, ednej do wykorzystania algorytmu, ma umo˙zliwi´_, c jego praktyczne zastosowanie. Ta cze´_,s´c tezy zosta la potwierdzona poprzez wy˙zsza warto´_, s´c miary F1 uzy-skana przez wariant algorytmu oparty o DBpedi_, e, w stosunku do wariantu opartego o r_, eczn_, a ocen_, e_, zda´n. Czas kt´ory trzeba po´swieci´_, c na zidentyfikowanie w DBpedii predykat´ow reprezentujacych intere-_, sujac_, a nas relacj_, e oraz okre´_, slenie kolejno´sci argument´ow w tych predykatach jest znacznie kr´otszy, ni˙z czas potrzebny na reczn_, a weryfikacj_, e zbioru zda´_, n, kt´ory zosta lby u˙zyty w algorytmie o por´ownywalnej skuteczno´sci. W konsekwencji algorytm hybrydowy w wariancie wykorzystuj

acym ograniczenia semantyczne okre´slone na podstawie DBpedii, wymaga mniejszego nak ladu pracy recznej,_, ni ˙z analogiczny algorytm oparty o zbi´or danych oznaczonych recznie, oferuj_, ac wy ˙zsz_, a jako´_, s´c uzyskiwanych wynik´ow, co dowodzi s luszno´sci trzeciej cze´_,sci tezy.

Poniewa˙z wszystkie cze´_,sci tezy rozprawy zosta ly udowodnione nale˙zy uzna´c, ˙ze teza g loszaca,_, ˙ze mo ˙zliwe jest skonstruowanie hybrydowego algorytmu ekstrakcji relacji semantycznych zosta la obroniona.

W dokumencie Index of /rozprawy2/10951 (Stron 175-178)