• Nie Znaleziono Wyników

w projekcie FrameNet

4. Discontinuous frame elements, czyli elementy ramy podzielone na kilka jednostek leksykalnych. Gdy ten sam element ramy (rola) jest wyrażany kilkoma

7.2. Podejście oddolne, odgórne, monolingwalne i konfrontatywne

7.2.2. Definicja ram, badanie walencji semantycznej

Podobnie jak w projekcie RAMKI, na opis ramowy będą się składały:

• definicja danej ramy (schematyczny opis sytuacji);

• lista elementów obowiązkowych i dowolnych (walencja semantyczna);

• walencja morfosyntaktyczna i syntaktyczna w ujęciu tabelarycznym (typowe części mowy, zdania i konstrukcje wyrażające semantyczne argumenty czasow-nika, rzeczowczasow-nika, przymiotnika lub przysłówka);

• przykłady wyrażających daną ramę jednostek leksykalnych, pochodzące z tekstów umów najmu oraz (dla większej wariantywności realizacji wybranych elementów ramowych), wybrane z oznaczonych stu przykładów zdań z NKJP.

W pierwszym kroku analizy widocznym jest zastosowanie innego podejścia niż w większości FrameNetów, czyli rezygnacja z zastosowania ram angielskich, na rzecz definicji autorskich ram dziedzinowych na podstawie definicji słownikowych i praw-nych, a dopiero w drugiej kolejności – porównanie z ramami angielskimi. Decyzja ta była podyktowana kilkoma czynnikami:

• chęcią weryfikacji, czy faktycznie nie będzie żadnych różnic w kategoryzacji podczas budowy ram w nowym języku;

• sprawdzeniem, czy w obecnym kształcie projektu interesujące z punktu widzenia analizy umów najmu ramy są już kompletne;

• dziedzinowością słownictwa prawnego w stosunku do ogólnego (niedziedzino-wego) charakteru projektu FrameNet.

Rozpoczynając analizę tekstu metodą ramową w języku innym niż angielski, dla którego stworzone zostały oryginalnie ramy semantyczne, językoznawca staje przed koniecznością dokonania wielu wyborów dotyczących metodologii opisu. Wybory te opisać można nie tylko na podstawie rozważań własnych, ale też na przykładzie

ukończonych już projektów o dużych zasobach leksykalnych, np. niemieckiej SAL-SY oraz na przykładzie bliższych językowo RAMEK, o mniej licznym repertuarze ramowym.

Pierwszym i podstawowym problemem każdego projektu dla nowego języka jest najczęściej brak zestawu ram, z którego rodzi się pytanie o możliwość zastosowania ram semantycznych angielskiego projektu FrameNet (Padó, 2007). Poza argumentem uniwersalności ram z racji ich konceptualnego charakteru, wydaje się, że widać tu tendencję informatyczną do transponowania ram angielskich (ang. frame projection) na znaczenia leksemów w innych językach takich, jak np. niemiecki czy hiszpański.

Argumentem są tutaj względy ekonomiczne (istnienie oznaczonego korpusu dla języka angielskiego, finansowe i czasowe nakłady przy anotacji korpusu dla nowych języków, Padó, 2007). W takim układzie stosuje się systemy uczenia maszynowego na korpusach równoległych oraz bazę słownikową, dzięki którym system rozpoznaje najpierw potencjalne tłumaczenia słów, a następnie anotuje korpus równoległy ozna-czeniami elementów ram opisanych w języku angielskim.

Drugim, powiązanym problemem, w przypadku zastosowania analizy ręcznej, jest wybór sensów słów dla wyselekcjonowanego do opisu zbioru form wyrazowych (przypadek projektu RAMKI dla języka polskiego). Oczywistym wyborem języko-znawcy byłoby sięgnięcie do jednego ze słowników semantycznych języka polskiego po to, aby wyróżnić zdefiniowane i zbadane uprzednio pod kątem semantycznym znaczenia. Z drugiej strony, poszczególne ramy we FrameNecie również są defini-cjami znaczeń, których pojęciowy charakter powinien umożliwić zastosowanie ich do innych języków. Jednak w przypadku leksemów o innym zakresie semantycznym, a dokładniej innej liczbie homonimicznych znaczeń, mogłoby dojść tu do rozbieżności (np. czasownik chodzić).

Zdaniem Kierasia (Kieraś, 2010 w Zawisławska i in., 2010), każdy z wyborów ma swoje wady i zalety, a decyzja o tym, by wykorzystać jedną z opcji powoduje przyjęcie pierwszeństwa jednego ze źródeł nad drugim. Kieraś komentuje ten dylemat w następujący sposób:

Leksykograf staje zatem przed wyborem jednej z dwóch możliwości: utrzymać względ-nie ścisły związek ze znaczeniami wyodrębnionymi w ISJP na rzecz bliższego związku z FrameNetem. Obydwie możliwości mają swoje wady, ponieważ w oczywisty sposób stawiają wyżej jeden z dwu istniejących i dostępnych zasobów. […] Ostatecznie zdecy-dowano się zachować strukturę znaczeń zawartą w ISJP. Nie jest ona bowiem z gruntu sprzeczna z koncepcją framenetów, ale nieco inaczej rozkłada akcenty. Opisany przy-padek ilustruje jednak ogólniejszy problem pojawiający się przy okazji korzystania z dwóch zasobów, które stworzono przy różnych założeniach metodologicznych. Warto jednak zaznaczyć, że w trakcie pracy nad projektem RAMKI tego rodzaju problemy pojawiały się względnie rzadko (Kieraś, 2010, Zawisławska i in., 2010,s. 115).

Znaczenia ramowe we FrameNecie są najczęściej na poziomie bardziej ogól-nym niż znaczenie jednego czasownika i łączą całe grupy leksemów (np. ZMIANA POZYCJI W SKALI), dlatego z założenia nie są one w stanie pokryć się całkowicie z bardziej precyzyjnymi znaczeniami poszczególnych leksemów. Sama definicja homo-nimicznych znaczeń czasownika jest tu dla anotatorów i badaczy FrameNetu punktem wyjścia, ale dalej ramy definiuje się na bardziej ogólnym poziomie, umożliwiając w ten sposób ich zastosowanie do analizy innych języków. Można przypuszczać, że to wła-śnie dlatego, jak podaje wyżej współautor projektu RAMKI, dylematy spowodowane rozbieżnościami w znaczeniach nie należą do częstych przypadków.

Jednak każde z podejść ma bez wątpienia swoje metodologiczne implikacje.

Wybór znaczeń z tradycyjnego („nieramowego”) słownika ma tę zaletę, że daje pro-gnozę sensów słów, jakich możemy się w analizie spodziewać, czyli stanowi niejako podpowiedź, wśród jakich ram możemy poszukiwać definicji danego znaczenia wybranej jednostki leksykalnej. Zapobiega on też możliwości zapomnienia o którymś z sensów w przypadku, gdy opisujemy wszelkie znaczenia danej formy wyrazowej.

Analiza ramowa z wykorzystaniem ram FrameNet może okazać się niepełna w tym sensie, że nie wszystkie wymagane w naszej analizie znaczenia lub elementy mogły zostać już w projekcie opisane. Również w przypadku wyjścia od słowników składniowych może okazać się, że nie zawarto w nich wszelkich możliwych realizacji elementów semantycznych ramy. Niektóre definicje znaczeń mogły też ulec przedaw-nieniu od czasu powstania leksykonu.

Opis słownikowy nie zapewnia też danych o frekwencji występowania danego znaczenia wśród innych znaczeń homonimicznych i stąd warto przeprowadzić bada-nie korpusowe i zweryfikować oba powyższe źródła. Ciekawa wydaje się procedura:

• wyjście od definicji słownikowej i prawnej danego leksemu celem dokonania wstępnej definicji ram;

• zbadanie ich wszystkich realizacji w tekstach umów najmu;

• następnie analiza około 100 pierwszych zdań – wyników wyszukiwania w NKJP – wstępny podział na grupy względem wyrażanych ram i przypisanie im elementów ramowych (wraz z opisem konstrukcji w nich występujących);

• weryfikacja analizy w stosunku do ram projektu FrameNet.

Biorąc pod uwagę fakt, że NKJP istnieje w Polsce od stosunkowo niedawna, badanie powstałe w oparciu o jego zasoby wydaje się wnosić nowe spojrzenie na zasoby językowe i analizę językoznawczą. Na koniec można w ten sposób sprawdzić, które ze znaczeń pojawiających się w NKJP znajdują się na jakiej pozycji wśród tradycyjnych definicji słownikowych oraz jakie nowe sposoby realizacji ram wnosi badanie korpusowe.

W przypadku niniejszej pracy nie jest też celem opracowanie wszelkich znaczeń dla danej formy wyrazowej, ale znaczeń, w jakich pojawiają się one w umowach

prawnych. Koniecznym dla celów przetwarzania języka jest zatem określenie wszelkich możliwych wariantów realizacji elementów ram w tekstach umów najmu.

Inną kwestią jest dobór jednostek leksykalnych lub form wyrazowych do analizy.

W projekcie SALSA wybrano tutaj wszystkie znajdujące się na etapie powstawania projektu SALSA ramy we FrameNecie i dla nich poszukiwano ekwiwalentów, stąd kierowano się bardziej ramami niż wyborem poszczególnych form wyrazowych.

Wpływ na to miała również automatyczna forma pozyskiwania danych. W projekcie RAMKI, natomiast, wykorzystano zasoby NJKP, wybierając 100 najczęściej pojawia-jących się czasowników o dosyć powszechnie stosowanym znaczeniu, np. iść, chodzić, a także czasowniki percepcji wzrokowej. Wybór ten był podyktowany początkową fazą projektu polskiej wersji FrameNetu. W niniejszej pracy o charakterze dziedzinowym, dobór słownictwa podyktowany był zakresem pojęciowym powiązanym z umowami najmu. Analogicznie do projektów dziedzinowych typu BioFrameNet i w niniejszej pracy zasoby dziedzinowe poszerzą zasoby ontologii ogólnej.

Pierwotnym (ogólnym, a nie dziedzinowym) FrameNetem dla języka polskiego był projekt RAMKI autorstwa Linde-Usiekniewicz, Zawisławskiej i Derwojedowej (www.ramki.edu.pl). Jego zamierzeniem było „[…] stworzenie bazy danych, w której zostaną opisane ramy interpretacyjne dla wybranych jednostek czasownikowych na wzór angielskiej bazy leksykalnej FrameNet […]” (Zawisławska i in., 2010, s. 7).

W projekcie opisano przykłady dla około 200 jednostek leksykalnych (powierzchnio-we własności walencyjne, realizacja ról obowiązkowych i nieobowiązkowych przez poszczególne elementy ramy, schematyczny opis sytuacji, anotacja morfosyntaktyczna i semantyczna przykładów pochodzących z NKJP, www.ramki.uw.edu.pl). W po-niższej pracy, także wzorowanej na metodologii projektu FrameNet, opis jednostek leksykalnych zawierać będzie te same, powyższe warstwy opisu, wystąpi jednak kilka zasadniczych różnic w procedurze analizy.

Pierwszą z różnic między oboma podejściami jest wybór jednostek leksykalnych do opisu. Autorki projektu RAMKI wybrały do analizy werbalne (czasownikowe) jed-nostki leksykalne, najczęściej występujące w NKJP. W niniejszej pracy, choć niektóre analizowane przykłady również pochodzą z NKJP, to o ich doborze zadecydowało ich występowanie w różnych tekstach umów najmu.

W podejściu metodologicznym projektu RAMKI zastosowano systematyczną listę schematów czasownikowych według pracy Saloniego i Świdzińskiego (Saloni

& Świdziński, 2001). W niniejszej pracy, ze względu zastosowanie wyników analizy w celach informatycznych, wychodzi się poza schematy składniowe i semantyczne w kierunku realizacji elementów ramowych również na poziomie tekstu, np. w badaniu relacji pomiędzy ramami. Glosy słownikowe RAMEK pochodzą z Innego słownika języka polskiego, podczas gdy w pracy o tematyce prawniczej będą one wsparte defi-nicjami ze źródeł prawnych typu podręczników prawa, ustaw i kodeksów itd.

Niniejsza praca różni się od projektu RAMKI w procedurze przede wszystkim celem analizy, jakim jest stworzenie ontologii dziedzinowej wraz z hierarchią wystę-pujących w niej relacji, oraz przygotowanie wyników badań do bezpośredniego stwo-rzenia systemu wydobywania danych z tekstów prawnych, mającego usprawnić pracę analityków umów najmu. Z tego powodu też zdecydowano się zastosować w analizie składniowej system znaczników parsera dostępnego do analizy języka polskiego.

Nie wszystkie ramy zostały też w projekcie FrameNet zdefiniowane dla wybra-nego słownictwa umów najmu, stąd ramy w niniejszej pracy zostały przez autorkę samodzielnie zdefiniowane, a dopiero w drugiej kolejności porównane z projektem angielskim oraz niemieckim. Autorzy projektu RAMKI nie brali pod rozwagę nieją-drowych elementów danej ramy typu okoliczniki. Jednak w podejściu mającym na celu zastosowanie w wydobywania danych informacja ta będzie dosyć istotna (będzie zawierała dane zdefiniowane jako ważne do wyekstrahowania).

Jak zauważa Kieraś (Kieraś 2010 w Zawisławska i in., s. 107), w projekcie FrameNet na poziomie analizy czasowników nie wyróżnia się opozycji kierunkowości (przypadek iść/pójść), co czyni opis czasowników ruchu w języku polskiego uboższym.

Wynika to, jak podkreślono wcześniej, z koncentracji na opisie języka angielskiego, którego czasowniki ruchu typu to go nie posiadają. Z drugiej strony autorzy dzielą czasowniki ze względu na aspekt leksykalny, a np. iteratywność opisana została też dla poziomu elementów nieobowiązkowych typu okoliczniki (Rupperhofer i in., 2016, s. 105), które wpływają na zmianę aspektu leksykalnego jako argumenty czasownika.

Z tego względu wydaje się, że polskie czasowniki o tym samym znaczeniu, ale innym aspekcie gramatycznym również mogłyby się znaleźć w innych ramach semantycz-nych, ze wspólną ramą nadrzędną, co podyktowane jest różnicą jednego elementu znaczenia (elementu ramy).

Można przypuszczać, że również i w próbce języka prawniczego wybranej do niniejszej analizy znajdą się podobne różnice aspektowe, np. dla czasownika najmować, który ma dwie formy aspektowe nająć i najmować. Należy również zwrócić uwagę na bogactwo form pochodnych, powstałych za pomocą prefiksów (Aktionsart), np.

wynajmować, odnajmować, podnajmować, z której każda ma dwie wyżej wymienione formy aspektualne.