• Nie Znaleziono Wyników

S lownik CLP

W dokumencie Index of /rozprawy2/10951 (Stron 77-81)

6. Zasoby wykorzystywane przez algorytm

6.1. Korpusy tekst´ ow

6.2.1. S lownik CLP

Srednia liczba zda´n w notatce 3,8 ´

Srednia liczba segment´ow w zdaniu 18,3

Tablica 6.4: Wyra˙zenia regularne u˙zyte do podzia lu tekst´ow na segmenty. s lowo \p{Alpha}\p{Word}*

liczba \p{Digit}+(?:[:., _/-]\p{Digit}+)* znak interpunkcyjny \p{Punct}

znak graficzny \p{Graph}

inny znak [^\p{Word}\p{Graph}]+

z pojedynczych segment´ow. Nale˙zy zwr´oci´c uwage, ˙ze w przeciwie´, nstwie do korpusu IPI PAN, segmenty korpusu PAP nie zosta ly oznakowane morfosyntaktycznie.

6.2. S lowniki fleksyjne

6.2.1. S lownik CLP

Przedstawiony algorytm ekstrakcji relacji semantycznych zak lada, ˙ze elementami sk ladowymi wzor-c´ow ekstrakcyjnych bed, a cechy morfologiczne. Algorytm wykorzystuje jako podstawowe ´, zr´od lo informacji na temat morfologii s l´ow jezyka polskiego s lownik fleksyjny stworzony w Grupie Lingwistyki Kompute-, rowej Akademii G´orniczo-Hutniczej o nazwie CLP [112, 44].

Podstawowym sposobem organizacji danych w tym s lowniku sa tradycyjne kategorie gramatyczne:, rzeczownik, czasownik, przymiotnik, liczebnik, zaimek, przys l´owek oraz kategoria obejmujaca wszyst-, kie pozosta le wyrazy nieodmienne. Poszczeg´olne kategorie wprowadzaja dalsze podzia ly, np. rzeczowniki, zosta ly podzielone wed lug ich rodzaju gramatycznego, a liczebniki na wielorodzajowe, dwurodzajowe, jed-norodzajowe, bezrodzajowe, nieokre´slone oraz nieodmienne. Ka˙zda z tych klas fleksyjnych mo˙ze by´c dalej podzielona ze wzgledu na spos´, ob odmiany wyraz´ow. Poniewa˙z pr´oba nadania nazwy tego rodzaju klasom fleksyjnym by laby ma lo efektywna, w s lowniku poza nazwami funkcjonuja tzw. etykiety fleksyjne – na, ka˙zdym poziomie podzia lu wyr´o˙znione klasy etykietowane sa za pomoc, a du˙zych liter alfabetu laci´, nskiego, poczawszy od litery A. Poniewa˙z klasyfikacja wyraz´, ow ma strukture ´, sci´sle hierarchiczna, uporz, adkowany, ciag liter reprezentuj, acych poszczeg´, olne poziomy hierarchii umo˙zliwia jednoznaczne zidentyfikowanie do-wolnej klasy fleksyjnej, a w powiazaniu z form, a has low, a wyrazu, umo˙zliwia jednoznaczne zidentyfikowanie, sposobu jego odmiany (por´ownaj wz´or 3.3). Przyk ladowo, para (robić,BBCA) pozwala jednoznacznie zi-dentyfikowa´c pe lny wzorzec odmiany czasownika robi´c.

Drugim istotnym elementem organizacji s lownika jest powiazanie etykiet fleksyjnych z wektorami form, wyrazowych. Mechanizm ten przyporzadkowuje poszczeg´, olnym formom identyfikatory liczbowe (pozycje w wektorze odmiany) w ramach okre´slonej kategorii fleksyjnej. Dla ka˙zdej pozycji w wektorze odmiany ustalone sa r´, ownie˙z warto´sci wszystkich kategorii gramatycznych, dzieki czemu dla okre´, slonej formy

Tablica 6.5: Wektor odmiany rzeczownika (adorator,AAAAAA). Warto´sci kategorii

gramatycznych Pozycja Forma Przypadek Liczba

1 adorator mianownik pojedyncza 2 adoratora dope lniacz pojedyncza 3 adoratorowi celownik pojedyncza 4 adoratora biernik pojedyncza 5 adoratorem narzednik, pojedyncza 6 adoratorze miejscownik pojedyncza 7 adoratorze wo lacz pojedyncza 8 adoratorowie mianownik mnoga 9 adorator´ow dope lniacz mnoga 10 adoratorom celownik mnoga 11 adorator´ow biernik mnoga 12 adoratorami narzednik, mnoga 13 adoratorach miejscownik mnoga 14 adoratorowie wo lacz mnoga

mo˙zna ustali´c warto´sci jej kategorii gramatycznych (por´ownaj wz´or 3.2). Przyk ladowo, rzeczownik po-siada 14 pozycji w wektorze odmiany: pozycja pierwsza zajmowana jest przez forme mianownika w liczbie, pojedynczej, druga przez forme dope lniacza w liczbie pojedynczej, trzecia przez form, e celownika w liczbie, pojedynczej, itd. W tabeli 6.5 podany jest przyk ladowy wektor odmiany wraz z interpretacja poszczeg´, ol-nych pozycji dla leksemu (adorator,AAAAAA).

Taka organizacja informacji pozwala na wykonanie dw´och podstawowych operacji: dla zadanej formy wyrazowej (napisu) okre´slenie jej etykiety fleksyjnej lub etykiet fleksyjnych w przypadku formy homoni-micznej oraz jej pozycji fleksyjnej lub pozycji fleksyjnych w przypadku formy homonihomoni-micznej, bad´, z formy wewnetrznie homonimicznej oraz dla leksemu o znanej formie podstawowej oraz etykiecie fleksyjnej okre-, ´slenie jego form wyrazowych dla poprawnych kombinacji warto´sci kategorii gramatycznych. Operacje te sa realizowane za pomoc, a interfejsu w j, ezyku C opisanego szczeg´, o lowo przez Gajeckiego w pracy [44]., Nale˙zy jednak zwr´oci´c uwage, ˙ze interfejs ten realizuje niskopoziomowy dost, ep do s lownika – programi-, sta operuje bezpo´srednio liczbowymi identyfikatorami leksem´ow oraz pozycji fleksyjnych. Dlatego istnieje r´ownie˙z bardziej wysokopoziomowy interfejs dla jezyka Icon, a autor niniejszej pracy opracowa l obiektowy, interfejs dla jezyka Ruby.,

S lownik CLP w wersji wykorzystywanej przez autora (2.1) zawiera informacje o 138331 leksemach. Szczeg´o lowa statystyka s lownika przedstawiona jest w tabeli 6.6. Wed lug jego autor´ow [112, s. 64-67] s lownik pokrywa 84% form tekstowych wystepuj, acych w korpusie notatek PAP. Istotnym mankamentem, s lownika w kontek´scie ekstrakcji informacji jest to, ˙ze nie zawiera on nazw w lasnych (z wyjatkiem imion, oraz niewielkiej liczby nazw geograficznych). Przyk ladowo w s lowniku nie wystepuje leksem rzeczowni-, kowy Polska, chocia˙z wystepuje powi, azany z nim relacj, a derywacji leksem przymiotnikowy polski. Z tego, wzgledu autor algorytmu uzupe lni l s lownik CLP danymi dost, epnymi w s lowniku Morfologik.,

6.2. S lowniki fleksyjne 79

Tablica 6.6: Liczba leksem´ow poszczeg´olnych klas gramatycznych w s lowniku CLP. Klasa gramatyczna Liczba leksem´ow

rzeczownik 74046 przymiotnik 38066 czasownik 20067 przys l´owek 5068 leksem nieodmienny 734 zaimek 182 liczebnik 168 razem 138331

Tablica 6.7: Przyk ladowe wpisy znajdujace si, e w s lowniku Morfologik., Forma tekstowa Forma podstawowa Opis morfologiczny Gliwicami Gliwice subst:pltant:inst:n

gliwickiej gliwicki adj:sg:dat.gen.loc:f:pos:aff chromatograficznie chromatograficznie adv:pos:aff

dosiec dosiec verb:inf:perf

6.2.2. Morfologik

Morfologik jest wolnodostepnym s lownikiem, kt´, ory powsta l poprzez wyekstrahowanie regu l tworzo-nych przez u˙zytkownik´ow programu ispell dla jezyka polskiego [90]. Z tego wzgl, edu dane w nim zawarte, z jednej strony w lepszym stopniu odzwierciedlaja zas´, ob s l´ow, wykorzystywany we wsp´o lczesnej polsz-czy´znie, ale z drugiej dane te sa ni˙zszej jako´, sci, ni˙z te zgromadzone w s lowniku CLP. Dlatego s lownik Morfologik wykorzystywany jest wy lacznie w sytuacji, w kt´, orej okre´slona forma tekstowa nie zosta la roz-poznana przez s lownik CLP. Prowadzi to do pewnych problem´ow (np. leksem rzeczownikowy Polska nie wystepuje w s lowniku CLP, ale forma Polska jest rozpoznawana jako przynale˙z, aca do przymiotnika pol-, ski ) – przeciwne rozwiazanie prowadzi loby jednak do jeszcze wi, ekszej liczby problem´, ow, gdy˙z dostepne, dane morfologiczne dublowa lyby sie, zwi, ekszaj, ac wieloznaczno´, s´c rozpoznania poszczeg´olnych form.

Morfologik jest dystrybuowany w postaci pliku tekstowego zawierajacego informacje o poszczeg´, olnych formach oraz skompilowanego automatu sko´nczonego. S lownik w postaci pliku tekstowego zawiera tr´ojki postaci: (forma tekstowa, forma podstawowa, znaczniki morfosyntaktyczne). Tabela 6.7 zawiera przyk ladowe wpisy znajdujace si, e w s lowniku, kt´, ore nie wystepuj, a w s lowniku CLP. Zestaw znaczni-, k´ow u˙zytych do opisu warto´sci kategorii gramatycznych w du˙zej mierze odpowiada formalizmowi sto-sowanemu w korpusie IPI PAN [162]. R´o˙znice pomiedzy tymi formalizmami s, a opisane w pracy [132]., Istotnym mankamentem tego sposobu organizacji informacji jest niejednoznaczno´s´c, kt´ora pojawia sie dla, niekt´orych form tekstowych. Przyk ladowo forma tekstowa rzad przynale˙zy do dw´, och leksem´ow rzeczow-nikowych rodzaju meskiego nie˙zywotnego posiadaj, acych r´, o˙zne paradygmaty odmiany (pierwszy z nich posiada w bierniku liczby pojedynczej forme rz, ady a drugi rz, edy). Niemniej jednak w s lowniku Morfologik, leksem´ow tych nie da sie odr´, o˙zni´c, przez co bez dodatkowej analizy nie spos´ob jest przyporzadkowa´, c im w la´sciwe formy tekstowe.

Chcac wykorzysta´, c s lownik Morfologik w algorytmie ekstrakcji relacji, konieczne by lo uzgodnienie sposobu organizacji informacji ze sposobem organizacji informacji w s lowniku CLP. Ze wzgledu na dobr, a,

Tablica 6.8: Liczba leksem´ow zaimportowanych ze s lownika Morfologik do s lownika CLP. Klasa gramatyczna Liczba leksem´ow

rzeczownik 168082 przymiotnik 69587 czasownik 21277 przys l´owek 10063

razem 269009

znajomo´s´c s lownika CLP, autor postanowi l przekszta lci´c dane Morfologika dostepne w postaci tekstowej,, do postaci wykorzystywanej w tym pierwszym s lowniku. Proces ten polega l na rozpoznaniu etykiety flek-syjnej, kt´ora mo˙zna by przyporz, adkowa´, c leksemom opisanym w s lowniku Morfologik. Spos´ob opisu form fleksyjnych w s lowniku Morfologik prowadzi do niejednoznaczno´sci wskazanej w poprzednim paragrafie, cze´,s´c wystepuj, acych w nim paradygmat´, ow odmiany nie wystepuje w s lowniku CLP oraz cz,,s´c danych w tym s lowniku jest b ledna (np. rzeczowniki opisane jako przymiotniki), dlatego te˙z do´, s´c du˙za cze´,s´c da-nych zosta la pominieta. Tabela 6.8 zawiera informacje o liczbie leksem´, ow, kt´ore zosta ly zaimportowane ze s lownika Morfologik do s lownika CLP.

6.3. S lownik semantyczny

Elementem niezwykle istotnym z punktu widzenia uniwersalno´sci konstruowanego algorytmu jest do-stepno´, s´c s lownika semantycznego definiujacego jak najwi, eksza liczb, e symboli j, ezykowych. W kontek´, scie ekstrakcji relacji s lownik ten powinien posiada´c nastepuj, ace cech: zawiera´, c informacje dotyczace nazw, w lasnych i wyra˙ze´n wielosegmentowych, okre´sla´c kategorie semantyczne wystepuj, acych w nim symboli, oraz pozwala´c identyfikowa´c w la´sciwy sens wyra˙ze´n synonimicznych. Prace nad s lownikiem tego rodzaju prowadzone sa w Katedrze Lingwistyki Komputerowej Uniwersytetu Jagiello´, nskiego [119], ale s lownik ten jest daleki od kompletno´sci. Dlatego autor algorytmu jako podstawowe ´zr´od lo wiedzy zbli˙zone do s lownika semantycznego wykorzysta l polska Wikipedi, e.,

Istotna barier, a stoj, ac, a na przeszkodzie w bezpo´, srednim wykorzystaniu Wikipedii w algorytmach ekstrakcji informacji jest to, ˙ze dane w niej zawarte sa s labo ustrukturyzowane. Znaczy to, ˙ze nie da, sie jej wykorzysta´, c tak latwo jak autentycznego s lownika semantycznego, w kt´orym relacje wystepuj, ace, pomiedzy wyra˙zeniami j, ezykowymi by lyby nazwane i zidentyfikowane bezpo´, srednio. Konieczne jest za-stosowanie mniej lub bardziej zaawansowanych algorytm´ow, pozwalajacych przekszta lci´, c je do postaci przydatnej w automatycznej ekstrakcji informacji.

Dostepne s, a dwa szeroko stosowane narz, edzia pozwalaj, ace na wydobycie z Wikipedii ustrukturyzowa-, nych danych: Wikiepdia Miner [86] oraz modu l ekstrakcji informacji stosowany przez tw´orc´ow DBpedii [15]. Autor zdecydowa l sie na wykorzystanie w tym celu Wikipedia Minera. Modu l ekstrakcyjny DBpedii, wykorzystywany jest przy konstrukcji s lownika semantycznego jedynie do wydobycia informacji o obecno-´sci infoboks´ow w tre´sci artyku l´ow. Pozwala to na dok ladniejsze okre´slenie kategorii semantycznej symboli jezykowych, zgodnie z algorytmem opisanym w punkcie 7.2. DBpedia wykorzystywana jest r´, ownie˙z jako ´zr´od lo wiedzy pozwalajace automatycznie okre´, sli´c ograniczenia semantyczne, co zosta lo opisane w punkcie 6.5.

6.3. S lownik semantyczny 81

W dokumencie Index of /rozprawy2/10951 (Stron 77-81)