• Nie Znaleziono Wyników

2.6. W kierunku zastosowania semantyki ramowej w wielojęzycznej leksykografii komputerowej –

2.6.2. FrameNet a inne semantyczne bazy leksykalne

W rozważaniach nad semantyką ramową w projekcie FrameNet nasuwa się dalej pytanie, czy istnieją inne, podobne bazy semantyczne, i jeśli tak, to czym się od siebie różnią. Ważnym zagadnieniem jest też ich metodologia, czyli system opisu relacji między warstwą semantyczną a składniową, gdyż potencjalnie mogłyby one stanowić alternatywę dla opisu ramowego w tworzeniu dziedzinowej reprezentacji wiedzy i leksyki dla tegoż projektu. Odpowiedzi na powyższe pytania znaleźć można np. u Marthy Palmer (Palmer i in., 2010), autorki VerbNetu i współautorki SEMLINK, jak też u Fillmore’a i Bakera (Fillmore & Baker, 2004).

Z lektury poprzednich rozdziałów oraz artykułu Fillmore’a i Bakera (Fillmore

& Baker, 2004), możemy wywnioskować, że opis ram we FrameNecie odbywa się na bardziej szczegółowym poziomie semantycznym niż w teorii przypadków głębokich lub ról teta – czyli przyjętym w NLP zestawie ról semantycznych (Palmer i in., 2010).

Także w porównaniu do innych dużych projektów leksykograficznych, takich jak VerbNet czy PropBank (Palmer i in., 2010), gdzie kategorie definiowane są na możliwie jak najbardziej ogólnym, czyli wyższym poziomie (ang. top level categories), ramy we FrameNecie faktycznie znajdują się na niższym poziomie kategoryzacji, przypisując wybranym częściom zdania role, jakie znamy ze scen życia codziennego, np. SĘDZIE-GO i OSKARŻONESĘDZIE-GO. Z drugiej strony ramy bardziej szczegółowe, co widać było w opisie relacji semantycznych w tym rozdziale, dziedziczą znaczenie ram bardziej ogólnych, czasem nieleksykalnych, czyli istnieje w projekcie również warstwa ram na bardziej ogólnym poziomie opisu, zbliżonym do poziomu teta.

W literaturze przedmiotu opisane zostały jeszcze minimum dwie analogiczne bazy leksykalne dla języka angielskiego z wykorzystaniem w funkcjach NLP, a miano-wicie VerbNet oraz PropBank (Palmer i in., 2010). Pierwszy z nich jest kontynuacją czy cyfryzacją wyżej opisanych badań walencji syntaktycznej z podziałem na gru-py znaczeniowe czasowników według Levin (oryginalnie Levin wyróżniła 240 klas czasowników, w VerbNecie dodano kolejne 200) z zestawem 24 ról semantycznych, będącym rozszerzeniem podstawowego zbioru ról teta (Palmer i in., 2010, ss. 21-22), a drugi to oryginalnie korpus do trenowania systemu uczenia maszynowego, ano-towany znacznikami numerycznymi dla argumentów predykatowych (Arg 0, Arg 1 itd.; Palmer i in., 2010), odpowiadających definicyjnie argumentom teta (np. Arg 0 odpowiada Agentowi, Arg 1- Patientowi itd. a elementy nieobowiązkowe oznaczane są podobnie do polskich okoliczników, np. Arg TEMP – odpowiada okolicznikowi czasu itd.).

Aby unaocznić powyższe porównanie, można sprawdzić wyniki wyszukiwania np. dla czasownika jeść / to eat (uwzględnia się tylko pierwsze, podstawowe znaczenie jeść, pomijając warianty typu eat up / wyjeść, eat at / nadgryźć itd.) kolejno w VerbNecie, Propbanku i FrameNecie:

Rysunek 6. Wyniki wyszukiwania dla hasła to eat w bazie Verbnetu. Źródło: http://verbs.colo-rado.edu/verb-index/index.php

Rysunek 7. Wyniki wyszukiwania dla hasła to eat w bazie PropBank. Źródło: http://verbs.colo-rado.edu/~mpalmer/projects/ace.html

Rysunek 8. Wyniki wyszukiwania dla hasła to eat w bazie FrameNet. Źródło: www.framenet.

icsi.berkeley.edu

Już na pierwszy rzut oka widoczne jest wyjście od alterancji syntaktycznych w VerbNecie, jak też analogia pomiędzy argumentami VerbNetu a rolami teta (Agent, Patient). Z drugiej strony zauważa się analizę od semantyki (definicja, elementy ramy) na poziomie POŁYKAJĄCEGO (ang. INGESTOR), czy POŁYKANEGO (ang.

INGESTIBLE) we FrameNecie. ProbBank, charakteryzujący się najmniejszą liczbą oznaczeń, opisuje argumenty na dwóch poziomach: argumentów odpowiadających mniej więcej rolom teta i oznaczonych symbolami liczbowymi oraz specyficznych dla każdego czasownika ról sytuacyjnych. Co ciekawe, ponieważ w obrębie projektu SEMLINK projekty te zostały już połączone (zakres uwspólniono również z amery-kańską Słowosiecią), w powyższych przykładach przytoczone zostały odpowiedniki hasłowe innych projektów (np. w Verbnecie przy czasowniku to eat wyświetla się informacja, iż jego odpowiednikiem we FrameNecie będzie pierwsze analizowane znaczenie hasła).

Obserwując powyższe charakterystyki, można dojść do wniosku, że sposoby opisu semantycznego zaproponowane w tych trzech projektach wcale nie będą roz-bieżne, że są jakby różnymi podejściami do tego samego problemu, stanowiącego podstawowe zagadnienie badawcze linking theory, czyli relacji między semantyką a składnią, prowadzonego na różnych poziomach opisu. Faktycznie to zazębianie się wyników umożliwiło ich połączenie w bazie SEMLINK. W analogiczny sposób na polskim gruncie planuje się połączenie zasobów słownika Walenty (Hajnicz, 2009),

w którym opis odbywa się w sposób podobny do ram syntaktycznych Levin z kate-goriami polskiej Słowosieci, dysponującymi grupami semantycznymi czasowników (por. rozdział 3 oraz Kotsyba, 2014; Przepiórkowski i in., 2014).

Charakterystyka ram syntaktycznych Levin (jak nazywa je Palmer i in., 2010) wymaga doszczegółowienia kategorii semantycznych dla ogólnych argumentów, po-dobnego do zbioru cech semantycznych, które w swoim słowniku zastosował Polański (por. rozdział 6) lub którymi posługuje się Słowosieć (np. rzeczownik osobowy HUM, ożywiony ANIM, organizacja ORG itd.). Ich zestaw wynosi w VerbNecie trzydzie-ści sześć cech (Palmer i in., 2010, s. 23). Poza tym opis ten wymaga dodatkowych parametrów, takich jak np. przechodniość czasownika. Z drugiej strony, innymi do-datkowymi parametrami są też symbole określające działanie predykatu (początek, trwanie, koniec – na powyższym przykładzie oznaczenie Duration). Zasoby projektu są połączone z ontologią, a więc pokazuje on zbliżony do ontologicznego charakter baz leksykalnych (Palmer i in., 2010, s. 23).

PropBank jest projektem ciekawym ze względu na kilka specyficznych cech.

Po pierwsze, w swoich założeniach PropBank nie miał być bazą leksykalną tylko korpusem, o dość ograniczonym do tekstów Wall Street Journal zakresie. Po drugie, jego autorzy nie chcąc brać udziału w polemice dotyczącej właściwego zestawu ról semantycznych, przyjęli następujące rozwiązanie metodologiczne: zestawy argumen-tów opisywane są dla każdego czasownika osobno, a argumenty oznaczane cyframi.

Z drugiej strony, w założeniu tym ma być pewna analogia do ról teta. W efekcie, założenie o oznaczeniu korpusu z minimalnymi różnicami w kategoryzacji pomię-dzy anotatorami zostało spełnione, ale materiał ten nie umożliwia ani wyciągnięcia wniosków o relacjach semantycznych, zachodzących między czasownikami czy też grupami czasowników, ani o polisemii danego czasownika, ani o ograniczeniach w jego doborze argumentów na różnych płaszczyznach (Palmer i in., 2010, s. 26).

Materiał ten nie umożliwia też wnioskowania na temat stałych elementów ramy (Pal-mer i in., 2010, s. 26). Oczywiście struktura powyższych baz leksykalnych ma wpływ na jej zastosowania w przetwarzaniu języka naturalnego. Po pierwsze, motywacją do zdefiniowania we FrameNecie ról na poziomie sytuacyjnym była nadzieja na stwo-rzenie systemu inferencyjnego na zasadzie wnioskowania z elementów ramowych, zarówno tematycznych, jak i ekstratematycznych, co znacznie zwiększa możliwości wyszukiwania danych w porównaniu z wydobywaniem opartym jedynie na katego-riach i danych syntaktycznych (Fillmore & Baker, 2004). Na przykład w przypadku opisywanej tu reprezentacji wiedzy zdefiniowanie jednostek leksykalnych na poziomie szczegółowym – ról w scenie – umożliwi docelowo ekstrakcję danych w kategorii NA-JEMCA bądź WYNAJMUJĄCY, podczas gdy na poziomie Agenta (których mamy tu w scenie przynajmniej dwóch) nie byłoby tej możliwości. Bez definicji ram nie byłoby możliwe także zbudowanie hierarchii relacji semantycznych pomiędzy ramami, na

których częściowo opierać się ma niniejsza reprezentacja wiedzy. Również zdaniem Palmer zarówno poziom szczegółowości opisu metodologicznego, jak i poziom opisu argumentów semantycznych, przekłada się na zastosowanie dziedzinowe lub ogólne projektu. Zbyt duża liczba danych przekłada się też na trudność w trenowaniu sys-temów uczenia maszynowego na bazie PropBanku ze względu na problem ze zdefi-niowaniem powtarzających się struktur. Z tego względu ogranicza się zasób danych do argumentów numerycznych (Palmer i in., 2010, s. 26). Inną wadą systemów NLP jest też dziedzinowy charakter korpusu, który sprawia, że na tekstach o innej tema-tyce wydajność pracy wytrenowanego na PropBanku (Wall Street Journal) systemu SRL (ang. semantic role labeling, por. rozdział 2) znacznie zmaleje. Dla zilustrowania problemu można podać liczbę ról w PropBanku, która wynosi około 6000 w porów-naniu do FrameNetu, który liczy około 2500 ról. Liczba ról we FramNecie również nie jest najmniejsza, co sprawia, że należy brać też pod uwagę rozwiązania regułowe.

Mimo to z powodzeniem prowadzone są badania nad automatyzacją procesu par-singu semantycznego w oparciu o maszynowe uczenie elementów ramowych wraz z argumentami ram celem rozpoznawania ram w nowych korpusach (Das i in., 2014).

Podstawową różnicą między opisem ramowym we FrameNecie a innymi pro-jektami semantyki leksykograficznej jest też opis semantyczny uwzględniający różne kategorie syntaktyczne. To znaczy, że w jednej ramie znaleźć się mogą nie tylko czasowniki, ale i rzeczowniki, np. w ramie KATEGORYZACJI/CATEGORIZATION znajdą się zarówno klasyfikować / to classify, jak i klasyfikacja/classification. I tak przy-kładowo dla poszczególnych części mowy przywołać można następujące przykłady ram (Fillmore & Baker, 2004; Ruppenhofer i in., 2010, s. 5):

Rama wokół czasownika

[COOK Matilde] fried [FOOD the catfish] [HEATING INSTRUMENT in a heavy iron skillet]. / [KUCHARKA Matylda] usmażyła [JEDZENIE suma] [NARZĘDZIE DO PODGRZEWANIA na ciężkiej żeliwnej patelni].

Rama wokół rzeczownika

…the reduction [ITEM of debt levels] [VALUE 2 to $665 million] [VALUE 1 from $2.6 billion]. / …obniżenie [POZYCJA poziomu długu] [WARTOŚĆ 1 z 2,6 miliarda USD]

[WARTOŚĆ 2 do 665 milionów USD].

Rama wokół przymiotnika

[SLEEPER They] [Copula were] asleep [DURATION for hours]. / [by[li ŚPIĄCY Oni]

czasownik posiłkowy] pogrążeni we śnie13 [CZAS TRWANIA godzinami].

Aspekt ten wydaje się również bardzo istotny dla niniejszej pracy, chociażby ze względu na substantywizacje lub inne rzeczowniki występujące w tekstach umów

13 W języku polskim nie jest to przymiotnik, ale tłumaczenie z imiesłowem wydaje się najbliższe oryginałowi.

najmu, często bez towarzyszącego im czasownika, np. umowa pomiędzy… Są to przypadki mogące zostać rozwiązane w dwojaki sposób: po pierwsze za pomocą włączenia rzeczowników jako jednostek leksykalnych do danej ramy albo po drugie zdefiniowania oznaczeń dla elementów domniemanych zgodnie z zasadami semantyki ramowej FrameNet, jak np. dla imiesłowu zawarta w częstej formule rozpoczynającej treść umowy umowa pomiędzy.

Poza opisanymi wyżej projektami dla języka angielskiego istnieją też semantyczne bazy leksykalne opisujące relacje predykatowo-argumentowe dla innych języków, np.

czeskiego. Więcej na ten temat można dowiedzieć się w Palmer i in. (2010), jednak z racji tego, że opis metodologiczny odbywa się w nich także na poziomie ról teta, nie będą one tutaj szerzej opisywane.