• Nie Znaleziono Wyników

Rozdział 4. Znakowanie fraz

4.2. Korpusy oznakowane frazami i problem definicji fraz

4.2.2. Frazy w KPWr

Frazy w korpusie KPWr zdefiniowano kierując się następującymi postulatami: 1. przydatność praktyczna, w szczególności w zadaniu wydobywania informacji, 2. zgodność z tradycyjnym opisem składniowym, a także z praktyką stosowaną przy

płytkiej analizie składniowej języków słowiańskich,

3. łatwość rozpoznawania fraz przez człowieka i podejmowania niezbędnych rozstrzy-gnięć.

Postulaty te są w pewnym stopniu sprzeczne, dlatego opracowane wytyczne są wy-nikiem szeregu kompromisów (z podobnym problemem zetknęli się Grác i inni, 2010 próbujący ustalić priorytety przy znakowaniu frazami czeskiego korpusu).

Dodatkowy wymóg związany był z następnym etapem znakowania składniowego, który zaplanowano w ramach projektu SyNaT. Etapem tym jest znakowanie wybranych relacji składniowych pomiędzy frazami, w szczególności relacji podmiot i dopełnienie (są to tzw. relacje predykatowo-argumentowe). Relacje te wiążą frazy czasownikowe z frazami rzeczownikowymi, przyimkowymi, a w niektórych sytuacjach — z frazami przymiotnikowymi. Semantyką tych relacji jest wskazanie frazy, która jest podmiotem danego czasownika lub jego dopełnieniem. Przykład (4.25) przedstawia oznakowanie takimi relacjami prostego zdania. Więcej szczegółów na ten temat, a także wytyczne znakowania relacjami można znaleźć w pracy Radziszewski i inni (2012). Sam problem znakowania relacji między frazami leży poza zakresem tej rozprawy i nie będzie tu dalej rozważany. Istotne tutaj jest jednak to, że decyzja o znakowaniu tych relacji miała wpływ na przyjęty kształt fraz. Przede wszystkim, istotne było to, aby frazy stanowiące podmiot bądź dopełnienie czasownika były w miarę możliwości oznako-wane jako całość. Było to głównym powodem podjęcia decyzji, że w odróżnieniu od większości przytaczanych w poprzednim punkcie prac, znakowane jako całość są także frazy rzeczownikowe zawierające w sobie frazy przyimkowe (innymi słowy, wytyczne KPWr nie nakazują „ucinania” fraz na każdym wystąpieniu przyimka, nakazują zaś podjęcie decyzji, czy dana fraza przyimkowa należy do innej większej frazy, czy nie).

(4.25) Kwiat wiśni symbolizuje ludność regionu .

PODMIOT DOPEŁNIENIE

Jedną z pierwszych decyzji było wprowadzenie do modelu dwóch zbiorów fraz, od-powiadających dwóm alternatywnym spojrzeniom na płytką analizę składniową zdania: 1. Frazy zdefiniowane „oddolnie” na podstawie lokalnych związków składniowych. Do

tego zbioru należą jedynie frazy uzgodnione.

2. Frazy zdefiniowane „odgórnie”, na podstawie związków predykatowo-argumentowych panujących w zdaniu. Definicje opierają się na wyliczeniu sytuacji, gdzie elementu nie można włączyć do frazy — w pozostałych wypadkach należy włączyć największe poddrzewo rozbioru składniowego odpowiadające frazie danego typu (wytyczne wskazują też pewne wyjątki, a także wskazówki uściślające rozstrzygnięcia w praktycznych sytuacjach). Do tej grupy należą frazy rzeczownikowe, frazy przymiotnikowe oraz frazy czasownikowe.

Frazy uzgodnione (AgP) zostały bezpośrednio zainspirowane uzgodnionymi fra-zami rzeczownikowymi rozpatrywanych przez Nenadić i Vitas (1998b) oraz Vu˘cković i inni (2008). Frazy AgP muszą być zatem uzgodnione co do liczby, rodzaju i przypadka. Podobnie jak w cytowanych pracach, dopuszczamy także elementy nieodmienne, które określają rzeczowniki, przymiotniki, bądź inne nieodmienne określenia, por. przykład (4.26). Do frazy AgP można także włączyć apozycje, jeśli nie naruszają one uzgodnie-nia, por. (4.27).

(4.26) [AgP wcześniej omawiany projekt]

(4.27) [AgP pan wicemarszałek Jerzy Szmajdziński]

W odróżnieniu od cytowanych prac, definicja AgP przyjęta w KPWr obejmuje za-równo uzgodnione frazy rzeczownikowe, jak i uzgodnione frazy przymiotnikowe (o ile nie stanowią one części większego AgP), por. (4.28).

(4.28) [AgP godny][AgP uwagi]

Ze względu na wymóg uzgodnienia, szeregowe frazy rzeczownikowe rozbijane są na osobne frazy AgP (szeregi rzeczownikowe nie gwarantują uzgodnienia). Jako że szeregi przymiotników określają i tak jedną frazę rzeczownikową, całe takie szeregi nie naruszają uzgodnienia. Dlatego też szeregi przymiotników włączane są do AgP, por. (4.29) i (4.30).

(4.29) [AgP ciekawa i trafna uwaga] (4.30) [AgP ciekawa uwaga] i [AgP riposta]

Dla uproszczenia, rząd przyimka traktowany tutaj jest na równi z uzgodnieniem, a zatem przyimki włączane są także do fraz AgP. Powoduje to, że proste frazy przyim-kowe też stanowią AgP. Ilustrują to przykłady (4.31) i (4.32). Zabieg ten jest podobny do złączenia fraz NP i PP przyjętego w pracy Grác i inni (2010).

(4.31) [AgP przez rzekę] pływa [AgP prom]

(4.32) [AgP miasto położone] [AgP w województwie dolnośląskim] [AgP nad Odrą] Wyjątkiem od wymogu uzgodnienia jest włączenie złożonych liczebników porządko-wych w większe frazy, nawet jeśli podrzędniki tych liczebników naruszają uzgodnienie. Nadrzędnik takiego liczebnika porządkowego nie może jednak naruszać uzgodnienia, por. przykłady (4.33) i (4.34).

(4.33) [AgP rok tysiąc dziewięćset dziewięćdziesiąty piąty] (4.34) [AgP dwudziesty piąty] [AgP stycznia]

W korpusie znakowane są także nieciągłe frazy AgP. Przedstawiają to poniższe przykłady (cyferka 1 oznacza, że fragmenty nią oznakowane należą do tej samej frazy).

(4.35) [AgP zapomniane 1] [AgP przez nas] [AgP książki 1]

(4.36) [AgP konsekwencje szybko 1] [AgP przez sąd] [AgP uznane 1]

Frazy rzeczownikowe (NP) to frazy, które w strukturze predykatowo-argumentowej mogą pełnić rolę argumentu (podmiotu bądź dopełnienia), bądź też okoliczników. Są to maksymalne frazy rzeczownikowe lub liczebnikowe bez zdań podrzędnych (zdania takie analizowane są z osobna w poszukiwaniu fraz). Podobnie jak w przypadku fraz AgP, nie dokonujemy rozróżnienia między prawdziwymi frazami rzeczownikowymi, a frazami przyimkowymi. Oba typy fraz są znakowane dla uproszczenia jako NP. Ilustrują to przykłady (4.37), (4.38). Przykład (4.39) pokazuje NP będącą okolicznikiem (przez okno).

(4.37) [NP przez rzekę] [VP pływa] [NP prom]

(4.38) [NP w mieście położonym w województwie dolnośląskim nad Odrą] (4.39) [VP wyrzucił][NP spaloną jajecznicę][NP przez okno]

Nadrzędnikiem frazy rzeczownikowej może być rzeczownik, liczebnik, zaimek peł-niący funkcję rzeczownika, odsłownik (gerundium), a także przymiotnik pełpeł-niący wy-raźną funkcję rzeczownika, por. (4.40) i (4.41).

(4.40) [NP niepalący] [VP stanowią] [NP większość społeczeństwa] (4.41) [NP palenie] [VP szkodzi] [NP zdrowiu]

Fraza rzeczownikowa w KPWr powinna mieć jeden nadrzędnik. Jeśli mamy do czy-nienia z frazą szeregową na poziomie nadrzędnym, szeregi takie są rozbijane. Motywacją do podjęcia tej decyzji było przybliżenie ram fraz rzeczownikowych do nazw własnych i utartych konstrukcji występujących w tekście (konstrukcje takie mają znaczenie prak-tyczne m.in. w wydobywaniu informacji z tekstu). Przykład (4.42) przedstawia szereg na poziomie nadrzędnym, zaś przykład (4.43) — na poziomie podrzędnym (elementy szeregu mają wspólny nadrzędnik Ministerstwo). Nadrzędniki fraz wyróżniono tłustym drukiem.

(4.42) [NP Minister Finansów] i [NP jego podwładni] (4.43) [NP Ministerstwo Nauki i Szkolnictwa Wyższego]

Jak wcześniej wspomnieliśmy, zasady znakowania nakazują podjęcia niezbędnego wysiłku, aby ustalić, czy fraza przyimkowa należy do większej frazy, czy nie. Ilustrują to przykłady (4.44) i (4.45).

(4.44) [VP wróciła] [NP do domu] [NP z podbitym okiem] (4.45) [VP wróciła] [NP do domu z odrapanym dachem]

Należy się liczyć z pojawieniem się sytuacji, gdzie obie decyzje będą wydawać się jednakowo sensowne. W takich sytuacjach wytyczne nakazują podjąć arbitralną decyzję o rozdzieleniu fraz.

Wytyczne dopuszczają także możliwość oznakowania nieciągłych fraz rzeczowniko-wych. Sytuacje te są jednak stosunkowo rzadkie.

Frazy przymiotnikowe (AdjP) rozumiane są jako maksymalne frazy przymiotni-kowe, zdefiniowane w sposób analogiczny do NP. W tym wypadku nadrzędnikiem jest przymiotnik lub imiesłów przymiotny. Frazy takie znakujemy jedynie w wypadku, gdy nie są one częścią większej frazy NP. Frazy te są najczęściej fragmentem konstrukcji predykatywnych, np. (4.46). Jak wspomniano wyżej, przymiotniki o użyciu wyraźnie rzeczownikowym tworzą frazy rzeczownikowe, a nie przymiotnikowe, np. (4.47). Zda-rzają się frazy nieciągłe, np. (4.48).

(4.46) [NP Książki te] [VP są] [AdjP nam wszystkim znane]. (4.47) [NP Młodzi] [VP witali] [NP gości].

(4.48) [NP Dwadzieścia pięć kwitnących okazów bluszczu] [AdjP uznanych1] [VP zostało] [AdjP za pomnik przyrody1].

Frazy czasownikowe (VP) to frazy zawierające czasownik główny w roli nadrzęd-nika. Ściślej rzecz biorąc, nadrzędnik ten może być:

1. formą osobową czasownika,

2. formą bezosobową zakończoną na -no lub -to,

3. imiesłowem czasownikowym zakończonym na -wszy, -łszy lub -ąc,

4. bezokolicznikiem, o ile nie jest on podrzędnikiem większej frazy czasownikowej, 5. predykatywem (np. widać).

Gerundia czy imiesłowy przymiotnikowe nie są uznawane za ośrodki fraz czasowni-kowych (mogą być ośrodkami fraz AgP, AdjP i NP).

Do fraz czasownikowych zaliczane są podrzędniki będące czasownikami. Jako całość traktujemy więc frazy typu (4.49), (4.50). Nie są zaś zaliczane doń podmioty, dopeł-nienia ani okoliczniki wyrażane frazami NP czy AdjP — por. (4.51). W przypadku

orzeczenia imiennego jako frazę czasownikową znakujemy tylko łącznik — orzecznik będzie już oznakowany jako NP lub AdjP; por. (4.52).

(4.49) [VP chcę śpiewać] (4.50) [VP boję się iść]

(4.51) [NP Jan][VP przyniósł] [NP we wtorek] [NP do domu] [NP karabin]. (4.52) [NP Ona] [VP jest] [AdjP piękna].

Do fraz czasownikowych można włączyć także określenia o charakterze przysłów-kowym, jeśli w wyraźny sposób należą one do frazy. Pokazuje to przykład (4.53). Nie włączamy do fraz przysłówków, które są wtrąceniami albo pełnią funkcję łączników międzyzdaniowych, np. (4.54). Znakowane też są frazy nieciągłe, np. (4.55).

(4.53) [VP chcę głośno śpiewać]

(4.54) Prawdopodobnie [VP uciekł] [NP do lasu]. (4.55) [VP Muszę szybko1] [NP ją] [VP odnaleźć 1]!

W wytycznych KPWr obowiązuje nadrzędna zasada, że zdania cząstkowe znakowane są z osobna. Jeśli zdanie podrzędne zawiera zaimek względny pełniący w nim funkcję podmiotu, zaimek ten znakowany jest jako fraza rzeczownikowa, choćby był to zaimek przymiotnikowy (np. który, jaki). Zaimek względny może się także łączyć z przyimkiem, wtedy w całości tworzy frazę, np. (4.58).

(4.56) [VP Wiedziałem], [NP co] [VP zamierzali zrobić].

(4.57) [VP Szanuję] [NP ludzi], [NP którzy] [VP mają] [NP cel] [NP w życiu]. (4.58) [NP Dom], [NP do którego] [VP chce się wracać].

Chociaż wytyczne KPWr nakazują znakować nieciągłe frazy wszystkich rozpatrywa-nych typów, nieciągłości pojawiają się stosunkowo rzadko. Zakres tej rozprawy ograni-czamy do rozpoznawania ciągłych fraz, zgodnie z definicją znakowania fraz przywołaną na początku tego rozdziału (strona 63). Będziemy w tym celu stosować następujące uproszczenie: każdy ciągły fragment nieciągłej frazy traktować będziemy jako osobną frazę tego samego typu. Uproszczenie to ma pewne wady (np. prowadzi do oznakowania niektórych przysłówków jako samodzielnych fraz czasownikowych), jednak z praktycz-nego punktu widzenia jest bardzo wygodne. Co więcej, jeśli opracowana metoda roz-poznawania fraz prawidłowo oznakuje takie ciągłe fragmenty nieciągłych fraz, istnieje możliwość opracowania kolejnego modułu odpowiedzialnego za rozpoznawanie, które fragmenty stanowią w rzeczywistości części większych fraz.