Wykorzystywane ´ zr´ od la wiedzy - Szkic algorytmu ekstrakcji relacji semantycznych

5. Szkic algorytmu ekstrakcji relacji semantycznych

5.4. Wykorzystywane ´ zr´ od la wiedzy

Opisany algorytm wymaga dostepno´_, sci szeregu ´zr´ode l wiedzy, bez kt´orych jego realizacja by laby nie-mo˙zliwa. W niniejszym punkcie przedstawiona zosta la jedynie ich kr´otka charakterystyka. Pe lne ich om´ o-wienie znajduje sie w rozdziale 6._,

5.4.1. Korpusy tekst´ow

W pierwszym rzedzie zak ladana jest dost_, epno´_, s´c korpusu tekst´ow, na podstawie kt´orego tworzone sa_, wzorce formalne pozwalajace na ekstrakcj_, e wybranej relacji. Odwo luj_, ac si_, e do terminologii wprowadzonej_, w rozdziale 3, korpus taki jest zbiorem napis´ow stanowiacych odwo lanie do odpowiednich symboli j_, ezy-_, kowych. Jest on zatem najbardziej pierwotnym ´zr´od lem danych jezykowych. Z tego powodu korpus taki_, stanowi zar´owno podstawe dla algorytmu tworz_, acego wzorce ekstrakcyjne oraz jest on zasobem pozwala-_, jacym oceni´_, c jego skuteczno´s´c.

Przy konstrukcji algorytmu wykorzystywane sa dwa korpusy: pierwszy, udost_, epniony przez Instytut_, Podstaw Informatyki Polskiej Akademii Nauk (w skr´ocie korpus IPI PAN), na podstawie kt´orego budo-wane sa wzorce ekstrakcyjne oraz drugi zgromadzony w Grupie Lingwistyki Komputerowej w Akademii_,

5.4. Wykorzystywane ´zr´od la wiedzy 73

G´orniczo-Hutniczej sk ladajacych si_, e z notatek Polskiej Agencji Prasowej (w skr´_, ocie korpus PAP), wyko-rzystywany do weryfikacji skuteczno´sci algorytmu.

5.4.2. S lowniki fleksyjne

Analiza morfologiczna jest jednym z istotniejszych etap´ow algorytmu, gdy˙z cechy morfologiczne, obok cech syntaktycznych oraz semantycznych wchodza w sk lad konstruowanych wzorc´_, ow ekstrakcyjnych. Ze wzgledu na fleksj_, e j_, ezyka polskiego, symbole j_, ezykowe powi_, azane s_, a z napisami wykorzystuj_, ac po´_, sred-nictwo zbior´ow form fleksyjnych, co pozwala na ich bardziej zwiez l_, a reprezentacj_, e (patrz p. 3.1.4). Dla_, jezyka polskiego analiza morfologiczna odbywa si_, e z wykorzystaniem s lownika fleksyjnego, czyli zbioru na-_, pis´ow uporzadkowanych w zbiory form fleksyjnych, uzupe lnione informacjami o formie podstawowej oraz_, cechach morfologicznych, zgodnie z definicja 3.2. Zastosowanie s lownika fleksyjnego pozwala na sprowa-_, dzenie wyra˙zenia do jego formy podstawowej, okre´slenie jego cech morfologicznych, a tak˙ze generowanie wyra˙ze´n posiadajacych okre´_, slone w lasno´sci morfologiczne.

Opisywany algorytm posi lkuje sie w pierwszym rz_, edzie s lownikiem fleksyjnym zbudowanym w Grupie_, Lingwistyki Komputerowej w Akademii G´orniczo-Hutniczej [112]. Ze wzgledu na charakterystyk_, e tego_, s lownika, kt´ory w obrebie kategorii gramatycznej rzeczownika zawiera g l´_, ownie rzeczowniki pospolite, jest on uzupe lniony wiedza dost_, epn_, a w s lowniku Morfologik autorstwa Mi lkowskiego [90]._,

5.4.3. S lownik semantyczny

Prezentowany algorytm ekstrakcji informacji zak lada, ˙ze w trakcie jego wykonania dostepne jest_, zbi´or symboli jezykowych, kt´_, orych opis zawiera informacje o kategorii semantycznej ka˙zdego symbolu_, (patrz p. 5.3.3). Najcze´_,sciej spotyka sie dwa rodzaje zasob´_, ow, kt´ore zawieraja opisy symboli j_, ezykowych_, wystepuj_, acych w j_, ezyku polskim i potencjalnie mog lyby zosta´_, c wykorzystane w prezentowanym algoryt-mie: jeden z polskich WordNet´ow [156, 108] albo otwarta encyklopedia Wikipedia7. R´o˙znica pomiedzy_, tymi zasobami dotyczy zar´owno sposob´ow ich konstruowania, zakresu dostepnych danych oraz sposobu_, organizacji wiedzy. Oba polskie WordNety konstruowane sa w spos´_, ob p´o l-automatyczny przez ekspert´ow, co z jednej strony zapewnia wysokiej jako´sci dane, z drugiej jednak powoduje, ˙ze proces ten jest powolny i drogi. Dane w WordNetach zorganizowane sa wok´_, o l teoretycznego pojecia synsetu oraz powi_, azane s_, a za_, pomoca relacji semantycznych [41] (por´_, ownaj p. 3.3). Ich organizacja powoduje zatem, ˙ze bezpo´srednio mo˙zna uzyska´c informacje dotyczace kategorii semantycznej analizowanego wyra˙zenia._,

Z drugiej strony Wikipedia jest projektem, kt´orego pierwszorzednym celem jest bezp latne dostarcze-_, nie wiedzy encyklopedycznej jak najwiekszej grupie ludzi. Podstawowym celem jej konstrukcji nigdy nie_, by lo utworzenie zasobu wykorzystywanego do przetwarzania jezyka naturalnego. Niemniej jednak po-_, wsta lo wiele projekt´ow [7, 149, 16, 23]8, kt´orych celem jest przekszta lcenie wiedzy dostepnej w Wikipedii_, w tym celu.

Skuteczna ekstrakcja informacji z tekst´ow o tematyce og´olnej, wymaga aby jak najwieksza ilo´_, s´c wyra-˙ze´n, w szczeg´olno´sci nazw w lasnych, mog la zosta´c rozpoznana. Niespe lnienie tego kryterium spowoduje, ˙ze wiele informacji mo˙ze zosta´c ca lkowicie zignorowanych przez algorytm, przez co jego zastosowanie w praktycznych aplikacjach bedzie sta lo pod znakiem zapytania. Dlatego te˙z prezentowany algorytm_, wykorzystuje Wikipedie jako podstawowe ´_, zr´od lo nazw w lasnych oraz wyra˙ze´n wielosegmentowych.

7http://pl.wikipedia.org

8Bardziej kompletna lista projekt´ow naukowych wykorzystujacych Wikipedi_, e znajduje si_, e na stronie http://www.mkberg-_, man.com/sweetpedia/.

Tablica 5.1: Liczba poje´_,c, relacji i asercji w ontologiach Cyc i SUMO. Ontologia Wersja Pojecia_, Relacje Asercje OpenCyc 2.0 150 tys. 20 tys. 1,5 mln ResearchCyc 1.1 542 tys. 24 tys. 3,4 mln SUMO 1.52 29 tys. 0,9 tys. 158 tys.

5.4.4. Ontologia

Kolejnym wa˙znym zasobem wykorzystywanym w algorytmie jest ontologia, kt´ora traktowana jest jako ´zr´od lo wiedzy na temat kategoryzacji poje´_,c, a tak˙ze informacji na temat relacji semantycznych. Wiedza taksonomiczna jest wykorzystywana do rozszerzenia zbioru symboli stanowiacych przyk lady rela-_, cji, a tak˙ze na etapie ekstrakcji relacji, kiedy dla danego symbolu o znanej kategorii semantycznej, trzeba okre´sli´c, czy spe lnia on ograniczenia semantyczne okre´slone dla wzorca ekstrakcyjnego.

Ze wzgledu na charakterystyk_, e algorytmu, kt´_, orego celem jest ekstrakcja informacji nieograniczonych dziedzinowo, wyb´or wykorzystywanej ontologii zosta l zawe˙zony wy l_, acznie do tych, kt´_, ore zawieraja szeroki_, zas´ob wiedzy – tzw. ontologii og´olnych. Liczba ontologii tego rodzaju nie jest du˙za, gdy˙z z jednej strony przy ich konstrukcji wymagana jest dog lebna wiedza na temat formalizacji wiedzy, a z drugiej strony, koszt_, wytworzenia systemu zawierajacego nietrywialne fakty jest znaczny. Spo´_, sr´od znanych system´ow tego rodzaju rozwa˙zane by ly dwie ontologie: Cyc [66, 67] oraz SUMO [98, 97]. Obie ontologie dostepne s_, a_, w wersjach darmowych (pierwsza posiada wersje OpenCyc, kt´_, ora mo˙ze by´c wykorzystywana zar´owno do bada´n naukowych jak i aplikacji komercyjnych, druga za´s od poczatku udost_, epniana jest na licencji GNU_, GLP). Ponadto pierwsza ontologia uwa˙zana jest za najwieksz_, a obecnie dost_, epn_, a ontologi_, e._,

O wyborze ontologii Cyc zadecydowa lo kilka czynnik´ow: obszerno´s´c i klarowno´s´c dostepnej dokumen-_, tacji, zakres reprezentowanej wiedzy, dostepno´_, s´c dodatkowych narzedzi oraz model licencyjny pozwalaj_, acy_, na wykorzystanie jej w aplikacjach, kt´ore nie sa otwarto´_, zr´od lowe. Bardzo istotnym czynnikiem decydu-jacym o wyborze tej ontologii by la dost_, epno´_, s´c zaawansowanego silnika inferencyjnego, kt´ory pozwala na efektywne wykorzystywanie wiedzy zgromadzonej w ontologii. R´ownie˙z proste por´ownanie statystyk tych ontologii przedstawione w tabeli 5.1 prowadzi do wniosku, ˙ze Cyc jest znacznie wieksz_, a ontologi_, a._,

5.4.5. Semantyczna baza wiedzy

Ostatnim zasobem wiedzy wykorzystywanym w algorytmie jest baza wiedzy, zawierajaca du˙z_, a liczb_, e_, fakt´ow, opisanych z wykorzystaniem relacji semantycznych. Ze wzgledu na rozw´_, oj technologii Semantic Web, a w szczeg´olno´sci inicjatywe Linked Data_, 9, kt´orej celem jest opublikowanie oraz powiazanie ze sob_, a_, wielu semantycznych zbior´ow danych, mo˙zliwe jest latwe znalezienie baz wiedzy, kt´ore moga pos lu˙zy´_, c do automatycznego okre´slenia ogranicze´n semantycznych ekstrahowanych relacji.

W prezentowanym algorytmie wykorzystywana jest DBpedia [7], gdy˙z jest to baza wiedzy bardzo podobna do Wikipedii (w istocie dane w DBpedii sa ekstrahowane z Wikipedii), zatem cz_, e´_,s´c algoryt-m´ow opracowanych na potrzeby analizy Wikipedii dzia la r´ownie˙z dla tej bazy wiedzy. Co wiecej, w ra-_, mach opracowywania algorytmu klasyfikujacego artyku ly Wikipedii [118], opracowane zosta lo mapowanie_, pomiedzy ontologi_, a Cyc a ontologi_, a wykorzystywan_, a w DBpedii. Dzi_, eki temu mo˙zliwe by lo latwe prze-_, kszta lcenie danych z DBpedii na dane zgodne z ontologia Cyc i w konsekwencji automatyczne okre´_, slenie ogranicze´n semantycznych relacji z wykorzystaniem poje´_,c zdefiniowanych w Cyc.

W dokumencie Index of /rozprawy2/10951 (Stron 72-75)