• Nie Znaleziono Wyników

Rozdział 4. Znakowanie fraz

4.2. Korpusy oznakowane frazami i problem definicji fraz

4.2.3. Frazy w NKJP

Znakowanie składniowe w NKJP zostało podzielone na dwa poziomy: poziom słów składniowych oraz poziom grup składniowych (Głowińska, 2012).

Słowa składniowe to poziom pośredni między drobnym podziałem tekstu na seg-menty (strategia segmentacji przyjęta w NKJP została omówiona w punkcie 2.2), a poziomem właściwych grup składniowych. Objawia się to m.in. tym, że każdy segment występujący w korpusie należy do jakiegoś słowa składniowego (większość słów skła-dniowych jest jednosegmentowa, choć występują też słowa nawet siedmiosegmentowe). Słowa składniowe pozwalają na złączenie niektórych ciągów segmentów w jednostki, dzięki czemu możliwe jest opisanie m.in. tradycyjnie rozumianych form czasownikowych

(np. ciąg segmentów robiła by ś czy będę robiła ), nieciągłych spójników, jednostek wielowyrazowych (np. po ludzku , Bachleda - Curuś ). Zdarzają się nieciągłe słowa składniowe, por. przykład (4.59) (Głowińska, 2012).

(4.59) [Verbfin niech1] tutaj [Verbfin przyjdzie 1]

Znakowanie słów składniowych wiąże się nie tylko z wyznaczeniem ich granic, lecz również z przypisaniem każdemu słowu tagu i lematu. Tagi przypisywane słowom skła-dniowym pochodzą ze specjalnie zaprojektowanego dla tego poziomu tagsetu. Dzięki temu, że opisywane są jednostki większe niż pojedyncze segmenty, w tagsecie można było uwzględnić kategorie gramatyczne właściwe takim jednostkom, np. czas i tryb czasownika. Obecne w tym tagsecie klasy gramatyczne są bliższe tradycyjnie rozumia-nym częściom mowy, a atrybuty bardziej przypominają tradycyjnie przypisywane tym częściom kategorie gramatyczne (Głowińska, 2012).

Granice niektórych słów składniowych można uznać ze ciekawe przypadki (płaskich) fraz. W szczególności można to powiedzieć o słowach, którym przypisano tagi należące do typowo czasownikowych klas gramatycznych. Za takie możemy uznać klasy Verbfin (formy osobowe), Winien (leksemy winien, powinien), Imps (formy bezosobowe), Inf (bezokoliczniki) oraz Pred (predykatywy). Jeśli słowa składniowe wszystkich tych klas złączymy w jedną grupę, uzyskujemy definicję frazy czasownikowej zbliżoną do stosowa-nej dla języka chorwackiego (por. punkt poprzedni). Tak rozumiana fraza czasownikowa wydaje się prostsza od ujęcia stosowanego w KPWr, gdyż nie pozwala na włączenie przysłówków do VP.

Zdarza się, że jeden segment należy jednocześnie do większej liczby słów składnio-wych. Jeśli słowa składniowe potraktować jako frazy, powoduje to, że mamy do czy-nienia z problemem nakładających się na siebie fraz (co, podobnie jak problem fraz nieciągłych, stoi w sprzeczności z przyjętą przez definicją znakowania fraz). Ilustruje to przykład (4.60). (4.60) [bał bał się] [się odezwać odezwać ]

Rozróżnienie między słowami a grupami składniowymi nie zawsze jest oczywiste. Nadrzędnym kryterium rozróżnienia jest oparcie definicji słów na konstrukcjach zlek-sykalizowanych, podczas gdy grupy zdefiniowane są głównie w oparciu o klasy gra-matyczne. Znakowanie grup składniowych polega na oznaczeniu granic frazy, ale także oznakowaniu dwóch centrów: nadrzędnika (składniowego) oraz centrum semantycznego (tj. składnika, który znaczeniowo reprezentuje grupę). W pracy podana jest przykła-dowa fraza nad morzem — nad jest nadrzędnikiem składniowym, podczas gdy morzem jest centrum semantycznym frazy.

W NKJP wyróżniono następujące rodzaje grup składniowych (na podstawie Gło-wińska, 2012):

1. grupy nominalne (NG), np. sala posiedzeń senatu, bieżących wydarzeń politycznych; 2. grupy liczebnikowe (NumG), np. dwie dziewczyny, ostatnie pięć minut;

3. grupy przymiotnikowe (AdjG), np. wyjątkowo piękny, przyzwyczajony pracować; 4. grupy przyimkowo-nominalne (PrepNG), np. nad głównym wejściem;

5. grupy przyimkowo-przymiotnikowe (PrepAdjG), np. na zmęczonego; 6. grupy przyimkowo-liczebnikowe (PrepNumG), np. z dwiema osobami;

7. grupy przysłówkowe (AdvG), np. gdzieś daleko, niemal natychmiast;

8. dyskurs — „elementy zdania, które nie sa składniowo zwiazane”, np. a nuż, m.in., moim zdaniem;

9. zdanie podrzędne z że, żeby, iż, aby, by (CG); 10. zdanie podrzędne pytajne (KG).

Powyższy zestaw fraz wydaje się niezwykle duży w porównaniu do przytaczanych wcześniej prac dla języków słowiańskich (a nawet w stosunku do fraz wyróżnianych w języku angielskim, por. Abney, 1996a). Uwzględniono w nim kilka szczegółowych rozróżnień — np. frazy rzeczownikowe wyraźnie oddzielono od liczebnikowych, zaś frazy przyimkowe podzielono na trzy grupy, w zależności od centrum semantycznego takiej grupy. Kolejną decyzją nietypową dla pracy z dziedziny płytkiej analizy składniowej jest uwzględnienie dwóch grup odpowiadającym całym zdaniom składowym (CG i KG). Obecność tego typu struktur jest cenna, gdyż zwiększa możliwości użycia fraz do badań lingwistycznych a także na potrzeby systemów przetwarzania języka naturalnego. W sytuacji, gdy rozróżnienie danego typu nie jest istotne, można zawsze złączyć kilka grup w jedną (z możliwości takiej będziemy korzystać podczas oceny algorytmów znakowania fraz).

W przypadku grup składniowych ustalono, że jedno słowo składniowe może być elementem co najwyżej jednej grupy składniowej (Głowińska, 2012). Nie wyklucza to jednak możliwości pokrywania się dwóch grup o tej samej nazwie. Przykładowo, w korpusie pojawia się równoważnik zdania (4.61). Oznakowano tam dwie grupy NG: siłowanie się oraz szarpanie się. Obie grupy tworzone są przez pojedyncze słowa skła-dniowe opisujące formy rzeczownika. Te słowa skłaskła-dniowe łączy użycie tego samego wystąpienia zaimka się.

(4.61) [Siłowanie Siłowanie się] [się 1] , , szarpanie [szarpanie 1]

Przypadki takie są jednak bardzo rzadkie, dzięki czemu można zastosować prymi-tywną heurystykę, która umożliwia „spłaszczenie” takiej struktury do rozłącznych fraz: jeśli dwie lub więcej fraz posiada segmenty wspólne, segmenty te przyporządkowujemy arbitralnie do frazy, której początek znajduje się najbliżej początku zdania.

Zdarza się również, że między grupami o innych nazwach zachodzi relacja zawie-rania. W szczególności to dotyczy grup CG i KG odpowiadającym całym zdaniom podrzędnym — w środku takich zdań oznaczono również inne typy grup, np. rzeczow-nikowe.

Występuje również zjawisko nieciągłych fraz omawiane już wcześniej. Podobnie jak w KPWr, zjawisko to występuje tu stosunkowo rzadko, dlatego też stosować będziemy to samo rozwiązanie, które omawialiśmy w punkcie 4.2.2: za frazy uznamy ciągłe frag-menty nieciągłych grup lub słów składniowych.

Nadrzędnikiem grupy nominalnej (czyli frazy rzeczownikowej) jest słowo skła-dniowe pełniące funkcję rzeczownika, zaimka osobowego lub zaimka siebie. Podrzędni-kiem grupy może być:

1. rzeczownik — w mianowniku (co tworzy apozycję, np. terroryści samobójcy), w dopełniaczu (brat ojca), a czasem w innym przypadku (spacer ulicami Wrocławia); 2. liczebnik (kurtki trojga dzieci, spacer trzema ulicami Wrocławia);

4. partykuło-przysłówek (prawie geniusz).

Podobne zasady dotyczą grup przyimkowych oraz grup przymiotnikowych. Jak już wspomnieliśmy, nadrzędną zasadą w NKJP jest „ucinanie” fraz rzeczowni-kowych, przymiotnikowych oraz przyimkowych na każdym wystąpieniu przyimka. W pracy Głowińska (2012) podano m.in. przykłady (4.62)–(4.64). Można zauważyć, że w przypadku znakowania KPWr, przykłady te stanowiłyby całe frazy.

(4.62) [AdjG odporny] [PrepNG na zabrudzenia] (4.63) [NG ochota] [PrepNG na kawę]

(4.64) [NG spektakl] [PrepNG pt. „Dziady”]

Wyjątkiem od tej reguły są tzw. konstrukcje elektywne, np. jeden z wielu, gdyż „dało się je precyzyjnie opisać za pomocą reguł” (Głowińska, 2012). Kolejny „punkt cięcia fraz” związany jest z obecnością imiesłowów przymiotnikowych określających rzeczowniki. Jeśli imiesłów taki występuje przed rzeczownikiem, zostaje włączony do frazy. Jeśli następuje natomiast po niej, nie jest już on włączany. Praca (Głowińska, 2011) podaje przykłady (4.65) i (4.66) oraz następującą motywację: imiesłowy poprze-dzające rzeczowniki „zachowują się bardziej jak przymiotniki”, zaś te następujące po rzeczownikach — „często jako ekwiwalent zdania względnego”. W KPWr imiesłowy oraz ich podrzędniki włączane są do NP niezależnie od ich umiejscowienia.

(4.65) [NG nadchodzące zmiany]

(4.66) [NG zapaleńcy] [AdjG prowadzący] [NG swoje wojenki]

Wytyczne NKJP dopuszczają także oznakowanie szeregowych fraz rzeczownikowych jako NG. Niestety prace nie podają bliższego określenia takich fraz; Głowińska (2012) podaje jedynie dwa przykłady: (4.67) i (4.68). W szczególności nie jest jasne, jak roz-budowane mogą być elementy takich szeregów — czy mogą być nimi dowolne elementy, które uznane byłyby samodzielnie za NG, czy też jakiś ich podzbiór. Głowińska (2011) zaznacza, że szeregi uwzględniają jedynie elementy połączone zaimkami szeregowymi, natomiast przecinki i inne znaki interpunkcyjne zawsze dzielą frazy. Można stąd wnio-skować, że szeregu (4.69) nie można by oznakować w NKJP jako jednego NG (podane tu oznakowanie frazami NG jest jedynie domysłem autora rozprawy).

(4.67) [NG Jan albo Maria] (4.68) [NG rządu i parlamentu]

(4.69) [NG Adam], [NG Jan albo Maria]

Nadrzędnikiem grupy przymiotnikowej jest przymiotnik. Podrzędnikiem może być czasownik (np. gotowy zostać, przyzwyczajony pracować) oraz przysłówek lub party-kuła (wyjątkowo piękny, dość głupi). Nie są za to włączane podrzędniki rzeczownikowe. Praca (Głowińska, 2012) podaje przykłady (4.70) i (4.71) oraz wyjaśnienie, że włącze-nie tych podrzędników wymagałoby informacji pochodzącej ze słownika walencyjnego (tj. określającego wymagania konkretnych czasowników). Według wytycznych KPWr przykłady te należałoby oznakować jako całe frazy przymiotnikowe.

(4.70) [AdjG miły] [NG sercu]