• Nie Znaleziono Wyników

Ekstrakcja innych relacji semantycznych

W dokumencie Index of /rozprawy2/10951 (Stron 175-178)

Wartość miary CD P

10.3. Ekstrakcja innych relacji semantycznych

wnioskiem jest r´ownie˙z to, ˙ze ˙zadne ze ´zr´ode l b led´, ow nie dominuje, co z jednej strony oznacza, ˙ze ja-ko´s´c poszczeg´olnych modu l´ow jest do´s´c wysoka, ale z drugiej, ˙ze poprawienie uzyskiwanych wynik´ow jest trudne, ze wzgledu na konieczno´, s´c jednoczesnej eliminacji wielu r´o˙znych przyczyn ich powstawania.

10.3. Ekstrakcja innych relacji semantycznych

Opisane dotychczas eksperymenty koncentrowa ly sie na rozpoznawaniu pojedyncznej – cho´, c nie ho-mogenicznej – relacji semantycznej jaka jest relacja ca lo´, s´c-cze´,s´c. Istotna zalet, a DBpedii, jako zasobu, s lu˙zacego do okre´, slania ogranicze´n semantycznych, jest mo˙zliwo´s´c jednoczesnego odkrycia wielu ograni-cze´n dla r´o˙znych relacji semantycznych. W celu zweryfikowania tej mo˙zliwo´sci przeprowadzono ekspe-rymenty z u˙zyciem dw´och predykat´ow: owner – lacz, acego w la´, sciciela z posiadanym przez niego dobrem oraz location – pozwalajacej na okre´, slenie lokalizacji. Predykaty te reprezentuja odpowiadaj, ace im re-, lacje semantyczne – relacje posesywn, a oraz relacj, e lokalizacji. W odniesieniu do pierwszej spo´, sr´od tych relacji wiadomo, ˙ze formalnie jest ona bardzo podobna do relacji ca lo´s´c-cze´,s´c. Mo˙zna to zauwa˙zy´c por´ ow-nujac nast, epuj, ace wyra˙zenia: ręka matki oraz dom matki. W obu wyra˙zeniach wyst, epuje ta sama relacja, formalna – zwiazek rz, adu.,

W odniesieniu do relacji lokalizacji sytuacja jest nieco inna – obie relacje nie wykazuja takiego podo-, bie´nstwa formalnego. Niemniej jednak ekstrakcja tej relacji w oparciu o te same wzorce formalne powinna wzbogaci´c nasza wiedz, e, na temat wp lywu wzorc´, ow formalnych na poprawno´s´c ca lego procesu.

W celu zweryfikowania mo˙zliwo´sci ekstrahowania innych relacji semantycznych w oparciu o ograni-czenia semantyczne pozyskane z DBpedii przeprowadzono eksperyment, w kt´orym powt´orzono wszystkie etapy konstrukcji wzorca ekstrakcyjnego dla relacji ca lo´s´c-cze´,s´c, z wyjatkiem ostatniego, tj. okre´, slenia ogranicze´n semantycznych. Ograniczenia te zosta ly okre´slone na podstawie odpowiadajacych im predyka-, t´ow z DBpedii – owner oraz location. Ponadto okre´slono kolejno´s´c argument´ow dla tych relacji, podobnie jak dla poszczeg´olnych predykat´ow relacji ca lo´s´c-cze´,s´c (por´ownaj tabela E.1). W ten spos´ob skonstru-owano wzorce ekstrakcyjne, kt´orych wzorce formalne odpowiada ly relacji ca lo´s´c-cze´,s´c, a ograniczenia semantyczne relacji posesywnej oraz relacji lokalizacji.

Szablony te zosta ly wykorzystane do ekstrakcji informacji z tego samego zbioru tekst´ow, tj. z korpusu notatek PAP. Eksperyment przeprowadzono jedynie dla najlepszej kombinacji parametr´ow (tj. z wykorzy-staniem relacji generalizacji oraz z wykluczeniem wyra˙ze´n, kt´orych ograniczenia semantyczne by ly iden-tyczne), dla wzorc´ow formalnych o CDP ≥ 2. Tak uzyskane wyniki zosta ly poddane recznej ewaluacji, przez autora. Dla relacji posesywnej uzyskano precyzje wynosz, ac, a 79%, a dla relacji lokalizacji precyzj, e, wynoszac, a 54%.,

Uzyskana precyzja ekstrakcji relacji posesywnej jest zatem nieco wy˙zsza ni˙z relacji ca lo´s´c-cze´,s´c, co na-le˙zy uzna´c za wynik bardzo dobry. Poniewa˙z jednak nie przeprowadzono eksperyment´ow por´ownawczych w odniesieniu do pokrycia tej metody, a liczba odnalezionych instancji tej relacji by la niewielka (47 par wyra˙ze´n), wyniki te traktowa´c nale˙zy jako orientacyjne.

W odniesieniu do relacji lokalizacji wynik jest du˙zo gorszy. Nie jest on jednak zaskakujacy, poniewa˙z, formalnie relacja ta jest znacznie mniej podobna do relacji ca lo´s´c-cze´,s´c, ni˙z relacja posesywna. Wynik ten ´swiadczy zatem na korzy´s´c tezy g loszacej, ˙ze precyzyjna ekstrakcja relacji wymaga poprawnego okre´, sle-nia zar´owno cech formalnych wzorca oraz jego cech semantycznych. Opierajac si, e wy l, acznie na cechach, semantycznych nie mo˙zna skutecznie ekstrahowa´c relacji.

Wnioski

Szczeg´o lowa analiza przyk lad´ow dopasowania wzorc´ow formalnych dostarczy la wielu przyk lad´ow zda´n, kt´ore stanowia problem dla algorytmu ekstrakcji relacji. Najtrudniejsze z punktu widzenia konstruktora, algorytmu sa zdania, w kt´, orych mamy do czynienia z wypowiedziami metaforycznymi oraz cze´,sciowo wadliwymi. Algorytm wymaga okre´slenia ´scis lych kryteri´ow dopasowania wzorc´ow, natomiast przytoczone przyk lady pokazuja, ˙ze analizowane zjawiska maj, a charakter rozmyty.,

Druga grupa problem´ow obejmuje zjawiska, kt´ore da loby sie rozwi, aza´, c odpowiednio komplikujac al-, gorytm (np. zjawiska zwiazane z wieloaspektow, a klasyfikacj, a poj,,c), ale kt´ore trudno jest wdro˙zy´c ze wzgled´, ow praktycznych, gdy˙z wymaga lby albo istotnej rozbudowy s lownika semantycznego, albo zasto-sowania zaawansowanych mechanizm´ow wnioskowania na etapie ekstrakcji relacji. Tylko jedno z tego rodzaju zjawisk (zwiazane z relacj, a typ-okaz ) mo˙zna stosunkowo latwo uwzgl, edni´, c w konstruowanym algorytmie.

Trzecia grup, e problem´, ow stanowia zjawiska zwi, azane z problemami interpretacyjnymi. Wida´, c wyra´ z-nie, ˙ze stworzenie algorytmu og´olnego przeznaczenia nie jest latwe, ze wzgledu na trudno´, s´c jednoznacznej interpretacji wystepuj, acych zjawisk. Dostosowanie algorytmu do okre´, slonej dziedziny wiedzy, ogranicza-jacej zbi´, or dopuszczalnych interpretacji, mo˙ze pom´oc rozwiaza´, c ten problem w praktyce.

Wyniki ekstrakcji relacji semantycznych w oparciu o wzorce ekstrakcyjne, ´swiadcza na korzy´, s´c tezy g lo-szacej, ˙ze korzystaj, ac z odpowiedniego bogatego ´, zr´od la wiedzy mo˙zliwa jest ich automatyczna konstrukcja. Je´sli przyjmiemy, ˙ze w celu okre´slenia ogranicze´n semantycznych analizie recznej podlega 10% zda´, n za-wierajacych dopasowanie wzorc´, ow formalnych, to wyniki automatycznej konstrukcji wzorc´ow uzyskanych na bazie DBpedii sa lepsze (w odniesieniu do miary F, 1). Co prawda precyzja tych wzorc´ow jest ni˙zsza ´srednio o ok. 8 punkt´ow procentowych, ale jest ona rekompensowana przez znacznie wy˙zsze wzgledne, pokrycie.

W tym wzgledzie znacznie gorzej wypadaj, a ograniczenia semantyczne okre´, slone automatycznie na podstawie ontologii Cyc, dla kt´orych wyniki zar´owno pod wzgledem precyzji, jak i pokrycia s, a ni˙zsze., ´

Swiadcza one, ˙ze wykorzystanie jedynie do´, s´c og´olnej wiedzy zawartej w tej ontologii jest niewystarczajace, do prawid lowego okre´slenia ogranicze´n semantycznych. Pokazuja r´, ownie˙z, ˙ze skuteczna ekstrakcja relacji wymaga u˙zycia bardzo zr´o˙znicowanych zbior´ow danych. Nie nale˙zy bowiem zapomina´c, ˙ze w metodzie opartej o ograniczenia pozyskane z DBpedii r´ownie˙z wykorzystywana jest wiedza z ontologii Cyc.

Analiza b led´, ow dla poszczeg´olnych metod pokazuje, ˙ze nie istnieje jedno dominujace ´, zr´od lo tych b led´, ow. W zale˙zno´sci od metody, wiekszy udzia l mo˙ze mie´, c b ledne ujednoznacznianie wyra˙ze´, n (jak w przypadku ogranicze´n okre´slonych recznie), czy te˙z niepoprawnie okre´, slona kolejno´s´c argument´ow (jak w przypadku ogranicze´n okre´slonych na bazie Cyc). Wyra´znie wida´c jednak, ˙ze udzia l b led´, ow zwiazanych, z analiza semantyczn, a jest wi, ekszy i w tym kierunku powinny i´, s´c dalsze prace zmierzajace do poprawy, uzyskanych wynik´ow. Nie zmienia to jednak faktu, ˙ze poprawno´s´c wzorc´ow formalnych ma r´ownie˙z istotny wp lyw na uzyskanie zadowalajacych rezultat´, ow, co mo˙zna by lo zaobserwowa´c poprzez zwiekszenie war-, to´sci miary CDP oraz przeprowadzajac eksperymenty z ograniczeniami charakterystycznymi dla innych, relacji semantycznych.

11. Podsumowanie

Teza rozprawy przedstawiona w punkcie 1.1 sk lada sie z trzech cz,,sci. Cze´,s´c pierwsza dotyczy precy-zji wynik´ow uzyskiwanych przez hybrydowy algorytm ekstrakcji informacji. Na rzecz tej tezy ´swiadczy r´o˙znica w precyzji wynik´ow ekstrakcji uzyskanych na podstawie wzorc´ow formalnych oraz wynik´ow uzy-skanych na podstawie wzorc´ow wyposa˙zonych w ograniczenia semantyczne zdefiniowane z wykorzystaniem poje´,c ontologii Cyc. Jak pokazane zosta lo w punkcie 10.1.1, wzorce formalne zbudowane na podstawie analizy statystycznej, daja wyniki ekstrakcji o precyzji w przedziale 20%-40%. Natomiast algorytm hy-, brydowy uzyskuje wyniki charakteryzujace si, e wy˙zsz, a precyzj, a – najgorszy wariant bazuj, acy w ca lo´, sci na ontologii Cyc ma precyzje wynosz, ac, a 41%, natomiast wariant najlepszy, oparty o ograniczenia seman-, tyczne wyekstrahowane z recznie ocenionych zda´, n, posiada precyzje wynosz, ac, a 92%. Te wyniki pokazuj, a,, ˙ze zastosowanie algorytmu hybrydowego istotnie przyczynia sie do poprawy precyzji uzy-, skiwanych wynik´ow, co dowodzi s luszno´sci pierwszej cze´,sci tezy.

Druga cze´,s´c tezy dotyczy obszaru zastosowania algorytmu i zak lada, ˙ze nie ma by´c on ograniczony do pojedynczej dziedziny wiedzy. Ta cze´,s´c tezy potwierdzona zosta la na kilka sposob´ow. Po pierwsze, na ˙zadnym etapie konstrukcji wzorc´ow ekstrakcyjnych nie by la wykorzystywana wiedza dziedzinowa. Co prawda, jako przyk lad´ow u˙zyto par poje´,c z dziedziny anatomii, ale uzyskane wzorce okaza ly sie skuteczne, w ekstrakcji informacji w innych dziedzinach.

Po drugie, wynikowe wzorce ekstrakcyjne wykorzystywane by ly do analizy notatek PAP. Zakres tema-t´ow poruszanych w notatkach nie jest ograniczony do jednej dziedziny wiedzy, cho´c dominuja informacje, zwiazane z polityk, a mi, edzynarodow, a. W efekcie, hybrydowy algorytm ekstrakcji relacji semantycznych, rozpozna l wystapienia relacji ca lo´, s´c-cze´,s´c w nastepuj, acych zdaniach, 1:

– Prof. Edward Borowski, szef gda´nskiego oddzia lu tej organizacji, szacuje, ˙ze ok. 30 procent miesz-ka´nc´ow tr´ojmiejskiej aglomeracji stanowia osoby, kt´, ore pochodza ze stolicy Litwy i okolic,,

– Zdaniem pos l´ow koalicji

obowiazkiem Krajowej Rady Radiofonii i Telewizji oraz Rady Nadzorczej,

TVP jest przerwanie tych destruktywnych dzia la´n”,

– Koszykarze Portland Trail Blazers i Los Angeles Lakers zagraja w finale Konferencji Zachodniej, ligi NBA,

– Pos lanka Unii doda la, ˙ze sama jest za jeszcze dalej idacym rozwi, azaniem, kt´, ore zak lada, ˙ze rady nadzorcze nie mia lyby wp lywu na sk lad zarzad´, ow medi´ow publicznych.

W ka˙zdym z nich mamy do czynienia z inna dziedzin, a wiedzy. W pierwszym wiedza dotyczy zale˙zno´, sci geopolitycznych – stolica jest cze´,scia pa´, nstwa, w drugim wiedza dotyczy organizacji sp´o lek handlowych – cze´,scia sp´, o lki jest jej rada nadzorcza, w trzecim zdaniu rozpoznane sa zale˙zno´, sci w obszarze sportu – liga NBA podzielona jest na dwie konferencje, natomiast w ostatnim zdaniu rozpoznane zosta ly zale˙zno´sci

1Przyk lady te pochodza z korpusu PAP.,

w organizacji politycznej – pos lanka jest cze´,scia partii politycznej. Wida´, c zatem, ˙ze algorytm zdolny jest do ekstrakcja relacji w wielu dziedzinach wiedzy.

Po trzecie za´s – wszystkie ´zr´od la wiedzy wykorzystywane w algorytmie maja charakter uniwersalny., Dotyczy to s lownika fleksyjnego, Wikipedii, ontologii Cyc oraz semantycznej bazy wiedzy jaka jest DBpe-, dia. Wszystkie te fakty ´swiadcza na rzecz tezy, ˙ze hybrydowy algorytm ekstrakcji relacji seman-, tycznych jest uniwersalny, co dowodzi s luszno´sci drugiej cze´,sci tezy.

Ostatnia cze´,s´c tezy rozprawy dotyczy nak ladu pracy recznej, jaka musi zosta´, c wykonana, aby mo˙zna by lo zastosowa´c prezentowany algorytm do ekstrakcji nowych relacji semantycznych. W za lo˙zeniu spe lnie-nie warunku o mlnie-niejszym nak ladzie pracy recznej, niezb, ednej do wykorzystania algorytmu, ma umo˙zliwi´, c jego praktyczne zastosowanie. Ta cze´,s´c tezy zosta la potwierdzona poprzez wy˙zsza warto´, s´c miary F1 uzy-skana przez wariant algorytmu oparty o DBpedi, e, w stosunku do wariantu opartego o r, eczn, a ocen, e, zda´n. Czas kt´ory trzeba po´swieci´, c na zidentyfikowanie w DBpedii predykat´ow reprezentujacych intere-, sujac, a nas relacj, e oraz okre´, slenie kolejno´sci argument´ow w tych predykatach jest znacznie kr´otszy, ni˙z czas potrzebny na reczn, a weryfikacj, e zbioru zda´, n, kt´ory zosta lby u˙zyty w algorytmie o por´ownywalnej skuteczno´sci. W konsekwencji algorytm hybrydowy w wariancie wykorzystuj

,

acym ograniczenia semantyczne okre´slone na podstawie DBpedii, wymaga mniejszego nak ladu pracy recznej,, ni ˙z analogiczny algorytm oparty o zbi´or danych oznaczonych recznie, oferuj, ac wy ˙zsz, a jako´, s´c uzyskiwanych wynik´ow, co dowodzi s luszno´sci trzeciej cze´,sci tezy.

Poniewa˙z wszystkie cze´,sci tezy rozprawy zosta ly udowodnione nale˙zy uzna´c, ˙ze teza g loszaca,, ˙ze mo ˙zliwe jest skonstruowanie hybrydowego algorytmu ekstrakcji relacji semantycznych zosta la obroniona.

W dokumencie Index of /rozprawy2/10951 (Stron 175-178)