• Nie Znaleziono Wyników

Wykorzystywane ´ zr´ od la wiedzy

W dokumencie Index of /rozprawy2/10951 (Stron 72-75)

5. Szkic algorytmu ekstrakcji relacji semantycznych

5.4. Wykorzystywane ´ zr´ od la wiedzy

Opisany algorytm wymaga dostepno´, sci szeregu ´zr´ode l wiedzy, bez kt´orych jego realizacja by laby nie-mo˙zliwa. W niniejszym punkcie przedstawiona zosta la jedynie ich kr´otka charakterystyka. Pe lne ich om´ o-wienie znajduje sie w rozdziale 6.,

5.4.1. Korpusy tekst´ow

W pierwszym rzedzie zak ladana jest dost, epno´, s´c korpusu tekst´ow, na podstawie kt´orego tworzone sa, wzorce formalne pozwalajace na ekstrakcj, e wybranej relacji. Odwo luj, ac si, e do terminologii wprowadzonej, w rozdziale 3, korpus taki jest zbiorem napis´ow stanowiacych odwo lanie do odpowiednich symboli j, ezy-, kowych. Jest on zatem najbardziej pierwotnym ´zr´od lem danych jezykowych. Z tego powodu korpus taki, stanowi zar´owno podstawe dla algorytmu tworz, acego wzorce ekstrakcyjne oraz jest on zasobem pozwala-, jacym oceni´, c jego skuteczno´s´c.

Przy konstrukcji algorytmu wykorzystywane sa dwa korpusy: pierwszy, udost, epniony przez Instytut, Podstaw Informatyki Polskiej Akademii Nauk (w skr´ocie korpus IPI PAN), na podstawie kt´orego budo-wane sa wzorce ekstrakcyjne oraz drugi zgromadzony w Grupie Lingwistyki Komputerowej w Akademii,

5.4. Wykorzystywane ´zr´od la wiedzy 73

G´orniczo-Hutniczej sk ladajacych si, e z notatek Polskiej Agencji Prasowej (w skr´, ocie korpus PAP), wyko-rzystywany do weryfikacji skuteczno´sci algorytmu.

5.4.2. S lowniki fleksyjne

Analiza morfologiczna jest jednym z istotniejszych etap´ow algorytmu, gdy˙z cechy morfologiczne, obok cech syntaktycznych oraz semantycznych wchodza w sk lad konstruowanych wzorc´, ow ekstrakcyjnych. Ze wzgledu na fleksj, e j, ezyka polskiego, symbole j, ezykowe powi, azane s, a z napisami wykorzystuj, ac po´, sred-nictwo zbior´ow form fleksyjnych, co pozwala na ich bardziej zwiez l, a reprezentacj, e (patrz p. 3.1.4). Dla, jezyka polskiego analiza morfologiczna odbywa si, e z wykorzystaniem s lownika fleksyjnego, czyli zbioru na-, pis´ow uporzadkowanych w zbiory form fleksyjnych, uzupe lnione informacjami o formie podstawowej oraz, cechach morfologicznych, zgodnie z definicja 3.2. Zastosowanie s lownika fleksyjnego pozwala na sprowa-, dzenie wyra˙zenia do jego formy podstawowej, okre´slenie jego cech morfologicznych, a tak˙ze generowanie wyra˙ze´n posiadajacych okre´, slone w lasno´sci morfologiczne.

Opisywany algorytm posi lkuje sie w pierwszym rz, edzie s lownikiem fleksyjnym zbudowanym w Grupie, Lingwistyki Komputerowej w Akademii G´orniczo-Hutniczej [112]. Ze wzgledu na charakterystyk, e tego, s lownika, kt´ory w obrebie kategorii gramatycznej rzeczownika zawiera g l´, ownie rzeczowniki pospolite, jest on uzupe lniony wiedza dost, epn, a w s lowniku Morfologik autorstwa Mi lkowskiego [90].,

5.4.3. S lownik semantyczny

Prezentowany algorytm ekstrakcji informacji zak lada, ˙ze w trakcie jego wykonania dostepne jest, zbi´or symboli jezykowych, kt´, orych opis zawiera informacje o kategorii semantycznej ka˙zdego symbolu, (patrz p. 5.3.3). Najcze´,sciej spotyka sie dwa rodzaje zasob´, ow, kt´ore zawieraja opisy symboli j, ezykowych, wystepuj, acych w j, ezyku polskim i potencjalnie mog lyby zosta´, c wykorzystane w prezentowanym algoryt-mie: jeden z polskich WordNet´ow [156, 108] albo otwarta encyklopedia Wikipedia7. R´o˙znica pomiedzy, tymi zasobami dotyczy zar´owno sposob´ow ich konstruowania, zakresu dostepnych danych oraz sposobu, organizacji wiedzy. Oba polskie WordNety konstruowane sa w spos´, ob p´o l-automatyczny przez ekspert´ow, co z jednej strony zapewnia wysokiej jako´sci dane, z drugiej jednak powoduje, ˙ze proces ten jest powolny i drogi. Dane w WordNetach zorganizowane sa wok´, o l teoretycznego pojecia synsetu oraz powi, azane s, a za, pomoca relacji semantycznych [41] (por´, ownaj p. 3.3). Ich organizacja powoduje zatem, ˙ze bezpo´srednio mo˙zna uzyska´c informacje dotyczace kategorii semantycznej analizowanego wyra˙zenia.,

Z drugiej strony Wikipedia jest projektem, kt´orego pierwszorzednym celem jest bezp latne dostarcze-, nie wiedzy encyklopedycznej jak najwiekszej grupie ludzi. Podstawowym celem jej konstrukcji nigdy nie, by lo utworzenie zasobu wykorzystywanego do przetwarzania jezyka naturalnego. Niemniej jednak po-, wsta lo wiele projekt´ow [7, 149, 16, 23]8, kt´orych celem jest przekszta lcenie wiedzy dostepnej w Wikipedii, w tym celu.

Skuteczna ekstrakcja informacji z tekst´ow o tematyce og´olnej, wymaga aby jak najwieksza ilo´, s´c wyra-˙ze´n, w szczeg´olno´sci nazw w lasnych, mog la zosta´c rozpoznana. Niespe lnienie tego kryterium spowoduje, ˙ze wiele informacji mo˙ze zosta´c ca lkowicie zignorowanych przez algorytm, przez co jego zastosowanie w praktycznych aplikacjach bedzie sta lo pod znakiem zapytania. Dlatego te˙z prezentowany algorytm, wykorzystuje Wikipedie jako podstawowe ´, zr´od lo nazw w lasnych oraz wyra˙ze´n wielosegmentowych.

7http://pl.wikipedia.org

8Bardziej kompletna lista projekt´ow naukowych wykorzystujacych Wikipedi, e znajduje si, e na stronie http://www.mkberg-, man.com/sweetpedia/.

Tablica 5.1: Liczba poje´,c, relacji i asercji w ontologiach Cyc i SUMO. Ontologia Wersja Pojecia, Relacje Asercje OpenCyc 2.0 150 tys. 20 tys. 1,5 mln ResearchCyc 1.1 542 tys. 24 tys. 3,4 mln SUMO 1.52 29 tys. 0,9 tys. 158 tys.

5.4.4. Ontologia

Kolejnym wa˙znym zasobem wykorzystywanym w algorytmie jest ontologia, kt´ora traktowana jest jako ´zr´od lo wiedzy na temat kategoryzacji poje´,c, a tak˙ze informacji na temat relacji semantycznych. Wiedza taksonomiczna jest wykorzystywana do rozszerzenia zbioru symboli stanowiacych przyk lady rela-, cji, a tak˙ze na etapie ekstrakcji relacji, kiedy dla danego symbolu o znanej kategorii semantycznej, trzeba okre´sli´c, czy spe lnia on ograniczenia semantyczne okre´slone dla wzorca ekstrakcyjnego.

Ze wzgledu na charakterystyk, e algorytmu, kt´, orego celem jest ekstrakcja informacji nieograniczonych dziedzinowo, wyb´or wykorzystywanej ontologii zosta l zawe˙zony wy l, acznie do tych, kt´, ore zawieraja szeroki, zas´ob wiedzy – tzw. ontologii og´olnych. Liczba ontologii tego rodzaju nie jest du˙za, gdy˙z z jednej strony przy ich konstrukcji wymagana jest dog lebna wiedza na temat formalizacji wiedzy, a z drugiej strony, koszt, wytworzenia systemu zawierajacego nietrywialne fakty jest znaczny. Spo´, sr´od znanych system´ow tego rodzaju rozwa˙zane by ly dwie ontologie: Cyc [66, 67] oraz SUMO [98, 97]. Obie ontologie dostepne s, a, w wersjach darmowych (pierwsza posiada wersje OpenCyc, kt´, ora mo˙ze by´c wykorzystywana zar´owno do bada´n naukowych jak i aplikacji komercyjnych, druga za´s od poczatku udost, epniana jest na licencji GNU, GLP). Ponadto pierwsza ontologia uwa˙zana jest za najwieksz, a obecnie dost, epn, a ontologi, e.,

O wyborze ontologii Cyc zadecydowa lo kilka czynnik´ow: obszerno´s´c i klarowno´s´c dostepnej dokumen-, tacji, zakres reprezentowanej wiedzy, dostepno´, s´c dodatkowych narzedzi oraz model licencyjny pozwalaj, acy, na wykorzystanie jej w aplikacjach, kt´ore nie sa otwarto´, zr´od lowe. Bardzo istotnym czynnikiem decydu-jacym o wyborze tej ontologii by la dost, epno´, s´c zaawansowanego silnika inferencyjnego, kt´ory pozwala na efektywne wykorzystywanie wiedzy zgromadzonej w ontologii. R´ownie˙z proste por´ownanie statystyk tych ontologii przedstawione w tabeli 5.1 prowadzi do wniosku, ˙ze Cyc jest znacznie wieksz, a ontologi, a.,

5.4.5. Semantyczna baza wiedzy

Ostatnim zasobem wiedzy wykorzystywanym w algorytmie jest baza wiedzy, zawierajaca du˙z, a liczb, e, fakt´ow, opisanych z wykorzystaniem relacji semantycznych. Ze wzgledu na rozw´, oj technologii Semantic Web, a w szczeg´olno´sci inicjatywe Linked Data, 9, kt´orej celem jest opublikowanie oraz powiazanie ze sob, a, wielu semantycznych zbior´ow danych, mo˙zliwe jest latwe znalezienie baz wiedzy, kt´ore moga pos lu˙zy´, c do automatycznego okre´slenia ogranicze´n semantycznych ekstrahowanych relacji.

W prezentowanym algorytmie wykorzystywana jest DBpedia [7], gdy˙z jest to baza wiedzy bardzo podobna do Wikipedii (w istocie dane w DBpedii sa ekstrahowane z Wikipedii), zatem cz,,s´c algoryt-m´ow opracowanych na potrzeby analizy Wikipedii dzia la r´ownie˙z dla tej bazy wiedzy. Co wiecej, w ra-, mach opracowywania algorytmu klasyfikujacego artyku ly Wikipedii [118], opracowane zosta lo mapowanie, pomiedzy ontologi, a Cyc a ontologi, a wykorzystywan, a w DBpedii. Dzi, eki temu mo˙zliwe by lo latwe prze-, kszta lcenie danych z DBpedii na dane zgodne z ontologia Cyc i w konsekwencji automatyczne okre´, slenie ogranicze´n semantycznych relacji z wykorzystaniem poje´,c zdefiniowanych w Cyc.

W dokumencie Index of /rozprawy2/10951 (Stron 72-75)