• Nie Znaleziono Wyników

Ogólne zasady podejścia oddolnego – system anotacji jednostek leksykalnych

w projekcie FrameNet

3. Elementy pozatematyczne, nie należą do danej ramy i nie są elementami po- po-wtarzającymi się niezależnie od ramy, ale wprowadzają element nowej, bardziej

4.4. Ogólne zasady podejścia oddolnego – system anotacji jednostek leksykalnych

4.4.1. Tryplety FrameNetu – warstwy opisu a rodzaje walencji

Głównym rodzajem anotacji we FrameNecie jest walencyjny opis jednostek leksykalnych, przy czym:

• wyjściowowym punktem analizy jest warstwa semantyczna, a więc opis elemen-tów poszczególnych ram jako ról semantycznych i oznaczanie nimi przykładów zdań, zawierających jednostki leksykalne reprezentujące daną ramę;

• autorzy (Ruppenhofer i in., 2010) piszą o trypletach analizy (Ruppenhofer i in., 2010, s. 10), gdyż jest ona trójwarstwowa. To znaczy, że oprócz warstwy seman-tycznej, analizowana jest warstwa syntaktyczna (w sposób automatyczny przez parser składnikowy według zasad gramatyki frazowej, por. Ruppenhofer i in., 2016) oraz morfosyntaktyczna (klasy gramatyczne analizowane automatycznie przez analizator morfoskładniowy). Wszelkie podawane automatycznie infor-macje są weryfikowane w trakcie analizy przez anotatorów.

W ten sposób bada się, jakimi częściami mowy (ang. grammatical function – GF) i częściami zdania (typami fraz, ang. phrase type – PT) wyrażane są argumenty opisywanego predykatu, które stanowią elementy ramy (ang. frame element – FE) opisywanych leksemów (element opisywany, cel analizy, ang. Target – T; Ruppenhofer i in., 2010, s. 15). Trójwarstwowość opisu umożliwia zastosowanie semantyki ramowej w ujęciu FrameNet do przeprowadzenia dwu- lub wielojęzycznej analizy konfron-tatywnej. Warstwa semantyczna (ramy) posłuży w niej jako tertium comparationis dla pozostałych poziomów opisu oraz do budowy wielojęzycznej bazy leksykalnej z zastosowaniami w przetwarzaniu języka naturalnego.

Innym problemem badawczym, powiązanym z opisem trójwarstwowym, jest kwestia wyboru sposobu opisu badanych jednostek leksykalnych na poziomie syn-taktycznym. Dla języka angielskiego jest to gramatyka frazowa, która jest rodzajem gramatyki składnikowej, często stosowanego systemu opisu zdań w automatycznych parserach gramatycznych. Parser składniowy zastosowany we FrameNecie najpraw-dopodobniej nie jest dostosowany do analizy języków innych niż angielski25. Ze względu na brak możliwości pełnego przejęcia kryteriów opisu składni danego języka bezpośrednio do analizy drugiego, głównie ze względu na pojawiające się różnice definicyjne, jak to jest np. w przypadku definicji dopełnienia bliższego w językach polskim i angielskim, zdecydowano się zastosować ręczny system anotacji składniowej w oparciu o tagset parsera właściwego dla języka polskiego. W niniejszym projekcie jest to tagset parsera składnikowego Gobio (Graliński, 2007; Graliński i in., 2012), rozszerzony o wybrane znaczniki FrameNetu. Formalizm Gobio nie osiąga wprawdzie parametrów takich jak najnowszy parser zależnościowy Combo (Rybak & Wróblew-ska, 2018), po konkursie PolEval 2018 uważany aktualnie za najlepszy parser dla języka polskiego, posiada natomiast inne zalety dla niniejszej pracy. Po pierwsze jest składnikowy, pozwala zatem analizować zależności między frazami, analogicznie do parsera FrameNetu dla języka angielskiego. Po drugie jest wielojęzyczny, czyli istnieje możliwość wytrenowania analogicznych formalizmów m.in. dla języka niemieckiego.

W przypadku, gdyby zaistniała potrzeba wykorzystania wyników niniejszej analizy w NLP, dzięki przeprowadzonej tu analizie składniowej będzie można rozważyć im-plementację parsera Gobio lub innego parsera gramatyki składnikowej.

Należy również zauważyć, że format przechowywanych w projekcie FrameNet danych stanowić mógłby temat osobnego rozdziału niniejszej pracy. Do anotacji przy-kładowych zdań służy panel anotacyjny, w którym – jak wspomniano wyżej – dwie

25 Fakt ten można wywnioskować na podstawie kilku informacji: po pierwsze autorzy podręcznika anotacji FrameNet (Ruppenhofer i in., 2016) podają, że korzystają z narzędzia do anotacji z wbudowa-nymi modułami analizy składniowej dla języka angielskiego, po drugie w literaturze przedmiotu można znaleźć prace opisujące mapowanie ram semantycznych FrameNet na dwujęzyczną analizę składniową, np. angielsko-szwedzką lub angielsko-niemiecką.

z trzech warstw opisu są zautomatyzowane a warstwa jednostek nazewniczych (ang.

named entity recognition – NER) – połączona jest z zasobami projektu WordNet (pol.

Słowosieć) w ramach budowy zbioru automatycznych narzędzi do analizy leksykal-nej, jakim jest MASC (Passoneau i in., 2012). Powodem korelacji z WordNetem jest możliwość wzajemnego rzutowania. W projekcie tym, dedykowanym rzeczownikom, przymiotnikom, relacjom hierarchicznym między bardziej lub mniej ogólnymi kate-goriami bytów itd. nie opisuje się relacji scenicznych. We FrameNecie – odwrotnie – kategorie semantyczne WordNetu egzemplifikują role semantyczne poszczególnych ram, głównie czasownikowych, poświęcając zdecydowanie mniej uwagi pozostałym częściom zdania (por. rozdział 2).

Warstwy anotacji, poszczególne znaczenia danej jednostki leksykalnej czy też hierarchia ramowa nie wyświetlają się jednocześnie, gdyż zaburzyłoby to obraz analizy, jednak dane w repozytorium są ze sobą powiązane (np. odniesienia o przynależności jednostki leksykalnej do różnych ram lub hierarchii ramowej; więcej na ten temat por. Ruppenhofer i in., 2010, ss. 93–97).

Metodologicznie rzecz ujmując, autorzy stosują w anotacji następujące zasady:

1. Frazy jako elementy ramy. Przyimki, przymiotniki i przysłówki, objęte za-kresem frazy, wchodzą w skład roli semantycznej. Jako element ramy opisuje się całą frazę, a nie tylko jej głowę semantyczną lub syntaktyczną (Ruppenhofer i in., 2010, ss.

16–18). Zasada ta rozszerza się też na zdania podrzędnie złożone, opisujące elementy zdania nadrzędnego, np.

I heard [a story about a man called Jed NP]

Usłyszałem [historię o mężczyźnie, który nazywał się Jed FR] (Ruppenhofer i in., 2010, s. 18).

W związku z powyższą zasadą historię o mężczyźnie, który nazywał się Jed, czyli dopełnienie ze zdaniem podrzędnie złożonym przydawkowym, jest traktowane jako jeden element ramy, a nie jak wiele elementów złożonych podrzędnie i nadrzędnie (jak w gramatyce zależnościowej, inaczej dependencyjnej, Ruppenhofer i in., 2010, s.

18). Oczywistą konsekwencją tej decyzji jest fakt, że wśród przykładów znajdują się jednostki leksykalne nienależące do danej ramy, a jedynie powiązane z elementem nadrzędnym w danym wyrażeniu. W myśl tej zasady wyrażenia przyimkowe nie są anotowane osobno.

Podobnie postępuje się w przypadku modyfikatorów. Choć w składniowej anali-zie zdania zwykło się oddanali-zielać modyfikatory od opisywanych przez nie podmiotów czy dopełnień, z obserwacji leksykograficznej wynika, iż często w innych przykła-dach stanowią one elementy ramy, np. fraza rzeczownikowa allergy clinic / klinika alergologiczna stanowi jeden element ramy, gdyż istnieją zwroty typu to treat allergy / leczyć alergię i pochodne od tego wyrażenia allergy treatment / leczenie alergii w ramie

LECZENIA/CURE. Autorzy zauważają też, że przypisują większą uwagę do modyfi-katorów niż inne gramatyki, a to z tego względu, że są one częstymi transformacjami fraz czasownikowych na rzeczownikowe, np. to treat an allergy → an allegry treatment.

Wszystkie rodzaje modyfikatorów (podobnie jak w tagsecie Universal Dependencies26) określa się mianem „elementów zależnych” (ang. dependents), uważając, iż dla celów projektu ważniejsze jest określenie jądrowości danej jednostki (por. poniżej). Zasada ta będzie przeniesiona do niniejszej pracy, to znaczy modyfikatory otrzymają znacznik DEP niezależnie od ich rodzaju.

Wynika z tego wniosek, który znaleźć można już u Korytkowskiej (Korytkow-ska, 1992, s. 22), że nie należy wiązać realizacji ról semantycznych z jednym typem realizacji syntaktycznej, a nawet – idąc dalej – z jedną klasą gramatyczną (np. fraza nominalna lub rzeczownik) realizującą dany element ramy. Różne typy gramatykali-zacji przypadków głębokich autorka rozpoznawała za pomocą parafraz zdaniowych, niezmieniających znaczenia pierwotnej wypowiedzi. W obecnej wersji semantyki ramowej dopuszcza się także realizację sceny (ramy) z pomocą innych niż czasownik środków leksykalnych.

2. Ramy wywoływać mogą nie tylko czasowniki. Według Ruppenhofera i in-nych (Ruppenhofer i in., 2010, s. 35) ramy mogą być wywoływane przez wyrazy reprezentujące różne klasy gramatyczne, czyli czasowniki, rzeczowniki, przymiotniki, przysłówki i przyimki. W zdecydowanej większości znajdują się jednak czasowniki, mające największą tendencję do opisu scen, a na drugim miejscu rzeczowniki (sub-stantywizacje lub rzeczowniki o złożonej strukturze semantycznej).

Substantywizacje lub inne rzeczowniki wywołujące ramy. Substantywizacje lub rzeczowniki innego rodzaj często występują z czasownikami, które z gramatycz-nego punktu widzenia stanowią nadrzędniki, jednak semantycznie to rzeczownik staje się docelowym leksemem opisu (ang. target). Ruppenhofer i inni (Ruppenhofer i in., 2016, s. 37) wyróżniają cztery rodzaje tego typu czasowników: posiłkowe (ang.

supports), typu „kontroler” (ang. controllers), łącznik lub kopula (ang. copulas) i nad-rzędne (ang. governors). Łącznik lub kopula to tradycyjne czasowniki posiłkowe być, stać się (ang. be, become):

John [is copula] a sailor. / Jan [jest copula] żeglarzem (orzeczenie imienne).

John [appears copula] smart enough. / Jan [wydaje się copula] wystarczająco bystry.

Czasowniki nadrzędne to takie, które nazywają specyficzne nazwy czynności związane z rzeczownikiem, np. dla rzeczownika nóż będzie to dźgnąć.

Kontroler to czasownik typu zaoferować, zasłużyć, rozważyć (offer, merit, con-sider), które swoją obecnością w zdaniu wprowadzają nową ramę, ale współdzielą z ramą rzeczownika niektóre elementy, np. agenta jak w zdaniu:

26 Zob. https://universaldependencies.org/u/dep/.

I [found CTRL] her scenes very funny. / [Uznałem CTRL] jej scenki za bardzo zabawne.

The minister [offered CTRL] help to get the various agencies coordinated. / Minister [za-oferował CTRL] pomoc w celu skoordynowania pracy różnych agencji.

Wreszcie czasowniki posiłkowe, takie jak np. give/dać, have/mieć lub take/brać, anotowane są na podstawie czterech kryteriów:

• najczęściej wnoszą mało znaczenia i jest ono związane z aspektem lub przyczy-nowością;

• w innym kontekście mają inne znaczenie, wpisane do innej ramy27 (np. lift a box – podnieść pudełko versus lift sanctions – znieść sankcje); analizowane znaczenie budują z określonym typem rzeczownika (rzeczowniki stanu, zdarzenia lub relacji otwierają dla ich tę pozycję argumentową);

• czasownik jest składniowym nadrzędnikiem rzeczownika;

• rzeczownik sam z siebie (lub w połączeniu z innymi predykatami) oznacza stan, zdarzenie lub relację.

Np. w zwrotach typu to give a lecture / zrobić lub poprowadzić wykład czasownik wydaje się nie wnosić innego znaczenia niż „zrobić / wykonać czynność”, a cała scena wydaje się wywołana przez rzeczownik. W zdaniu: Pat gave a lecture, Pat jest więc oznaczana jako MÓWCA/SPEAKER lub WYKŁADOWCA/LECTURER, lecture jako WYKŁAD/LECTURE a to give jako czasownik posiłkowy.

W polskim językoznawstwie (por. np. Jędrzejko 1993; Żmigrodzki, 2004) cza-sowniki odpowiadające posiłkowym (SUPP) w rozumieniu FrameNetu określa się mianem analityzmów werbo-nominalnych i wraz z łącznikami typu copula (być, stać się) zalicza do czasowników posiłkowych. Analityzmy definiuje się jako te, które towa-rzyszą substantywizacjom lub rzeczownikom abstrakcyjnym (w przeciwieństwie do konkretnych). Czasowniki te w towarzystwie rzeczowników abstrakcyjnych zmieniają swoje podstawowe znaczenie i stają się werbalizacjami przy nominalizacji predykatu.

Tego typu czasowniki z rzeczownikami, określane też jako czasowniki złożone, uwa-żane są za semantycznie nieredukowalne (nie da się zredukować żadnego z członów bez zmiany znaczenia, razem występują one w roli czasowników) (Żmigrodzki, 2004, s. 191). W językoznawstwie niemieckim również traktuje się je jako jedną jednostkę semantyczną i określa mianem Funktionsverbgefüge (np. Engel i in., 2000). Obie de-finicje wydają się być ze sobą zgodne, jeśli przyjmiemy, że nieredukowanle znaczenie analityzmu definiowane jest we FrameNecie jako osobna rama semantyczna względem podstawowego znaczenia czasownika.

27 Przykładowo rzeczownik argument w połączeniu z czasownikiem posiłkowym make oznacza argumentowanie (synonim to argue) i należy do ramy DYSKUSJI (MAKE AN ARGUMENT). Ten sam rzeczownik z czasownikiem to have stanowi synonim czasownika to fight w znaczeniu kłócić się i należy do ramy KONFLIKTU (CONFLICT).

3. Nakładanie się ram w obrębie jednego zdania, czyli frame conflation. Choć ogólną zasadą we FrameNecie jest to, że w jednym zdaniu opisuje się daną jednostkę leksykalną na tle określonej ramy, czasem zdarzają się przypadki nakładania się ram, zwane w projekcie frame conflation (pol. „zlepek ram”, Ruppenhofer i in., 2010, s.

19). Wtedy dana jednostka leksykalna opisana zostaje dwiema rolami. Przykładem nakładania się ram jest:

Doctor Miller managed to at last cure the epileptic. / Doktor Miller zdołał wreszcie wyle-czyć epileptyka.

Epileptyk ma tu z jednej strony funkcję elementu obowiązkowego PACJENTA w ramie LECZENIA, a z drugiej – wywołuje własną ramę EPILEPSJI. Najczęściej dzieje się tak w przypadku, gdy rzeczowniki bogate semantycznie, które same przywołują ramę, znajdą się w innej ramie czasownika jako jej element.

W literaturze częste są też przykłady, w których dana część ciała (rama CIAŁA lub profilowanie części do całości) przyjmuje funkcję okolicznika miejsca lub – roli Locativu w teorii przypadków głębokich (Korytkowska, 1992, s. 30). W języku polskim przykładem tego typu są metonimiczne Jana boli w piersi, czyli Coś boli Jana w piersi.

4. Discontinuous frame elements, czyli elementy ramy podzielone na kilka