1. Zało˙zenia badawcze

(1)

1.

Zało˙ zenia badawcze

1.1. Referencja, koreferencja, anafora, asocjacja

Tworz ˛ ac i analizuj ˛ ac wypowiedzi, stale odnosimy si˛ e do rzeczy, które znamy. Zja- wisko to nazywamy referencj ˛ a (ang. reference), czyli aktem odwołania si˛ e do rzeczywisto´sci pozaj˛ ezykowej za pomoc ˛ a ´srodków j˛ ezykowych u˙ zytych w wypo- wiedzi. Obiekty, które przywołujemy, nie musz ˛ a oczywi´scie pochodzi´c ze ´swiata rzeczywistego – wystarczy, by nale˙zały do mentalnego ´swiata tekstu (´swiata dys- kursu, ang. discourse world) stworzonego na potrzeby komunikacji j˛ ezykowej. Na podobnej zasadzie odwołujemy si˛ e do stanów, zdarze´ n, czynno´sci, miejsc, czasu i innych zjawisk pozatekstowych (w dalszej cz˛ e´sci wywodu u˙ zywam okre´slenia

„obiekt” dla wszystkich typów bytów mog ˛ acych podlega´c referencji).

Wyra˙ zenia referencyjne, za pomoc ˛ a których tworzymy odwołania w tek´scie, na- zywam wzmiankami (ang. mentions). W skład wzmianki wchodz ˛ a, oprócz jej centrum semantycznego (ang. semantic head; rozdział 4.3.2), tak˙ze jego wszyst- kie podrz˛ edniki, zgodnie z zało˙ zeniem o konieczno´sci zapewnienia wzmiance semantycznej precyzji (np. wyra˙zenie samochód, który potr ˛ acił moj ˛ a ˙zon˛e jest zna- czeniowo pełniejsze ni˙ z samo jego centrum samochód). Zasadniczo odniesienia do obiektów realizowane s ˛ a jako uogólnione konstrukcje nominalne, ale czasem wzmiank ˛ a mo˙ze by´c tak˙ze dłu˙zszy fragment tekstu, np. opisuj ˛ acy pewn ˛ a sytuacj˛ e.

Wzmianki odpowiadaj ˛ ace obiektom przywołanym w tek´scie tylko raz nazywam

singletonami (ang. singleton). Kiedy odwołanie nast˛epuje wielokrotnie, pomi˛edzy

fragmentami wypowiedzi o wspólnym odniesieniu zachodzi zjawisko koreferencji

(ang. coreference); zbiór takich odwoła´ n nazywam klastrem koreferencyjnym

(ang. coreference cluster). W literaturze funkcjonuje tak˙ze nazwa ła´ ncuch koreferen-

cyjny (ang. coreference chain), moim zdaniem bł˛ ednie sugeruj ˛ aca sekwencyjno´s´c

wzmianek, która nie zawsze zachodzi; np. w sytuacji realizacji odwołania za po-

moc ˛ a powtórzenia nazwy, do interpretacji nast˛epnika nie jest wymagane odwołanie

do poprzednika.

(2)

20 Zało˙zenia badawcze

Ze wzgl˛ edów stylistycznych kolejne odwołania s ˛ a zwykle realizowane za pomoc ˛ a innych ´srodków j˛ ezykowych ni˙z proste powtórzenie – je´sli odnosimy si˛ e do wcze´s- niej wymienionego obiektu, np. cz˛ esto przylatuj ˛ acej do ogrodowego karmnika charakterystycznej sikorki, mo˙ zemy u˙ zy´c wyra˙ zenia bliskoznacznego z u˙ zytym wcze´sniej (sikora, bogatka), hiperonimu (ptak), zaimka (ona), neologizmu (sło- ninko˙zerca), nazwy własnej (Krzywodziobek), czy nawet wyra˙zenia idiolektalnego zrozumiałego tylko dla domowników (ten nasz wróbel). Koreferencja jest wi˛ ec zjawiskiem posługuj ˛ acym si˛e ´srodkami znacznie wykraczaj ˛ acymi poza czyst ˛ a skład- ni˛ e i semantyk˛ e, zachodz ˛ acym na poziomie cało´sciowego rozumienia struktury tekstu (ang. discourse) i ł ˛ acz ˛ acym ´swiat j˛ezykowy z pozaj˛ezykowym. Z tego powodu problem dekodowania koreferencji (ang. coreference resolution) jest uznawany za jeden z najtrudniejszych w przetwarzaniu j˛ ezyka naturalnego.

Interpretacja niektórych rodzajów wzmianek (np. zaimkowych) jest niemo˙ zliwa bez posłu˙ zenia si˛ e innym fragmentem tekstu i wówczas mi˛ edzy powi ˛ azanymi fragmentami zachodzi wewn ˛ atrztekstowa relacja anafory (ang. anaphora) lub katafory (ang. cataphora), odpowiadaj ˛ aca odniesieniu do elementu pełnoznacz- nego nast˛ epuj ˛ acego liniowo przed elementem niepełnoznacznym lub po nim.

Posturzy´ nska-Bosko (2015) za Maillardem (1974) zjawiska te okre´sla ł ˛ acznie ter- minem diafory (ang. diaphora); termin ten nie jest jednak powszechnie stosowany, zatem dla uproszczenia u˙ zywam dalej okre´slenia „anafora” w znaczeniu diafory, sygnalizuj ˛ ac rozró˙znienie szczegółowe w razie potrzeby. Anafora jest zatem relacj ˛ a wykorzystuj ˛ ac ˛ a zestaw cech konotowanych przez powi ˛ azane wzmianki (niezale˙z- nie od ich denotacji), podczas gdy koreferencja zakłada zgodno´s´c denotacji (por.

Topoli´ nska 1977). Warto zwróci´c uwag˛e, ˙ze referencja jako zjawisko na pograniczu tekstu i rzeczywisto´sci pozaj˛ ezykowej jest jednak ogólniejsza i mentalnie wcze-

´sniejsza od anafory: autor wypowiedzi najpierw podejmuje decyzj˛ e o odwołaniu si˛e danego obiektu, a nast˛epnie o u˙zyciu ´srodków j˛ezykowych, za pomoc ˛ a których zostanie ono zrealizowane, z uwzgl˛ ednieniem uwarunkowa´ n stylistycznych.

Bior ˛ ac pod uwag˛ e odwołania pozatekstowe, oprócz bezpo´srednich (ang. direct

reference), w przypadku których wzmianka odnosi si˛ e jawnie do opisywanego

obiektu, w tek´scie mog ˛ a wyst ˛ api´c odwołania po´srednie (ang. indirect reference),

nazywane te˙z cz˛ esto asocjacyjnymi (ang. associative anaphora, bridging) czy rza-

dziej – interreferencj ˛ a (ang. interreference, patrz Janssen 1980). Wzmianka odnosi

si˛ e wówczas do danego obiektu za po´srednictwem innego, pozostaj ˛ acego z nim

w okre´slonej zale˙zno´sci (np. odwołanie bezpo´srednie do schodów jest te˙z odwoła-

niem po´srednim do konkretnego domu, w którym te schody si˛ e znajduj ˛ a, a nie do

jakiego´s innego domu).

(3)

W tek´scie mog ˛ a si˛ e te˙z znajdować dodatkowe okre´slenia wzmianki, które rozsze- rzaj ˛ a zakres odnosz ˛ acych si˛ e do niej nazw. Mog ˛ a mieć one postać na przykład rzeczownika w narz˛edniku pełni ˛ acego funkcj˛e predykatywn ˛ a czy etykiety zawiera- j ˛ acej dodatkow ˛ a informacj˛e. Mimo ˙ze pomi˛edzy wzmiank ˛ a a tak podan ˛ a informacj ˛ a uzupełniaj ˛ ac ˛ a nie zachodzi relacja koreferencji, interpretacja ł ˛ acz ˛ acej je relacji mo˙ze być jednak bardzo pomocna w dekodowaniu dalszych odwoła´ n.

1.2. Motywacja

Teoria referencji jest uwa˙zana za jeden z wa˙zniejszych składników semantycznej analizy struktury tekstu. Temat ten jest obecnie przedmiotem bada´ n wielu grup naukowych na całym ´swiecie. Jakkolwiek problem nawi ˛ aza´ n poruszany był w pol- skiej literaturze lingwistyczno-informatycznej ju˙ z wielokrotnie, zjawisko to nie wydaje si˛ e jednak dostatecznie zbadane, co wida´c na przykładzie poj˛ ecia korefe- rencji: cz˛e´s´c badaczy u˙zywa go zamiennie z anafor ˛ a (np. Marciniak 2001), jeszcze inni uznaj ˛ a za podrz˛ edny w stosunku do anafory (np. Matysiak 2007, Broda i in.

2012a), co oznacza, ˙ze brakuje systematycznego opisu powszechnego i wa˙znego zjawiska w sposób mo˙zliwy do zastosowania w dalszych badaniach.

Istotn ˛ a przesłank˛e do podj˛ecia bada´ n lingwistyczno-komputerowych tego problemu stanowi to, ˙ze wi˛ ekszo´s´c prac teoretycznych dla polszczyzny powstało w czasach przedkomputerowych, przez co istniej ˛ ace teorie nie doczekały si˛ e jeszcze szeroko zakrojonej weryfikacji tekstowej. Wraz z rozwojem in˙zynierii lingwistycznej i do- st˛ epno´sci ˛ a mocy obliczeniowej komputerów badania teoretyczne coraz cz˛ e´sciej ł ˛ acz ˛ a si˛ e z praktycznymi, a podej´scie korpusowe zapewnia zarówno mo˙ zliwo´s´c ewaluacji istniej ˛ acych hipotez na szerok ˛ a skal˛ e, jak i tworzenie nowych teorii na podstawie obszernych zbiorów danych j˛ ezykowych. Celem opisanych dalej bada´ n jest zatem tak˙ ze weryfikacja obszernego, a niewykorzystywanego jeszcze w ten sposób materiału teoretycznego za pomoc ˛ a metod lingwistyczno-komputerowych.

Proponowane podej´scie wydaje si˛ e te˙z ogólniejsze od dotychczasowych z jeszcze jednego powodu: zarówno cz˛esta w literaturze analiza u˙zy´c anaforycznych (nie za- pewniaj ˛ aca pełnego pokrycia zjawisk koreferencyjnych – patrz np. Data-Bukowska 2008), jak te˙ z jej ograniczenie do grup okre´slonego typu (np. nazw własnych;

patrz Maziarz i in. 2016) skłaniaj ˛ a do podj˛ ecia bada´ n nad zjawiskiem referencji w wymiarze ogólnym, na bogatym i dost˛ epnym materiale korpusowym.

Równie˙ z z perspektywy narz˛ edziowej bie˙ z ˛ acy stan prac nad identyfikacj ˛ a relacji

referencyjnych wydaje si˛ e niewystarczaj ˛ acy – wyniki osi ˛ agane przez narz˛ edzia au-

(4)

tomatyczne s ˛ a w du˙zej mierze efektem ich poprawnego działania dla cz˛estych, ale prostych przypadków, w których do rozstrzygania zgodno´sci wystarcz ˛ a ´srodki ana- lizy powierzchniowej lub proste zale˙zno´sci morfoskładniowe, takie jak zgodno´sć rodzaju i liczby gramatycznej. Z kolei mo˙zliwo´sć zastosowania istniej ˛ acych teorii ogólnych utrudnia ich cz˛esta zale˙zno´sć od zło˙zonych własno´sci semantycznych czy pragmatycznych, takich jak konieczno´sć wcze´sniejszej znajomo´sci stanu kognityw- nego autora wypowiedzi (Gundel i in. 1993) czy struktury dyskursu (Grosz i in.

1995), które dzi´s nie wydaj ˛ a si˛ e mo˙ zliwe do zdekodowania za pomoc ˛ a ´srodków lingwistyczno-informatycznych.

Zadanie wydaje si˛ e te˙ z wa˙ zne z perspektywy krajowej – dla j˛ ezyka polskiego ta- kich bada´ n przed rokiem 2010 prawie nie prowadzono; o podejmowanych dot ˛ ad próbach pisz˛e dokładniej w rozdziale 2.5. Sam komponent do dekodowania relacji referencyjnych jest tak˙ze istotnym elementem warstwowego modelu przetwarzania j˛ezyka, stanowi ˛ acym punkt wyj´scia do bardziej zło˙zonych operacji, takich jak: auto- matyczne streszczanie, tłumaczenie, ekstrakcja i analiza tekstu. Prac˛e umieszczam zatem dodatkowo w kontek´scie zaznaczonych przeze mnie kierunków rozwoju lingwistyki komputerowej w Polsce (Ogrodniczuk 2017: rozdział 3), które dadz ˛ a si˛ e stre´sci´c hasłem „składnia, semantyka, dyskurs”. Relacje referencyjne nale˙z ˛ a do tej ostatniej, najtrudniejszej grupy.

1.3. Cele badawcze

Wymienione zagadnienia przeło˙zyły si˛e na kilka celów badawczych zrealizowanych w ramach opisywanych prac. Pierwszym i zasadniczym celem było stworzenie ogólnej, weryfikowalnej komputerowo typologii relacji referencyjnych. Zadanie to, podstawowe w przypadku ka˙zdego zjawiska naturalnego, jak si˛ e wydaje, nie było dot ˛ ad wykonane dla j˛ezyka polskiego, dla innych j˛ezyków za´s zostało zrealizowane fragmentarycznie. Zaproponowana typologia ma na celu zunifikowanie istniej ˛ acych cz ˛ astkowych opisów relacji referencyjnych i uwzgl˛ ednienie takich własno´sci, jak:

aspekt temporalny referencji, dysymilacja to˙zsamo´sci obiektów, niejednoznaczno´s´c czy niedookre´slenie.

Drugim celem, powi ˛ azanym z pierwszym, było przeprowadzenie weryfikacji po-

wstałej typologii. W odró˙znieniu od metod teoretycznych, wykorzystuj ˛ acych model

kompetencji j˛ ezykowej idealnego u˙zytkownika j˛ ezyka, do realizacji tego celu po-

słu˙zyłem si˛e metodologi ˛ a korpusow ˛ a, polegaj ˛ ac ˛ a na analizie rzeczywistych danych

j˛ ezykowych. Prace weryfikacyjne tego rodzaju były dotychczas prowadzone na

(5)

bazie korpusów małych (np. Poesio i in. 2004, Korzen i Buch-Kromann 2011), z liczb ˛ a i typami relacji ograniczonymi do szczególnych przypadków (np. Markert i in. 2003, Caselli i Prodanof 2006, Lassalle i Denis 2011) i ewaluacj ˛ a dokony- wan ˛ a niesystematycznie lub daj ˛ ac ˛ a mało obiecuj ˛ ace wyniki (np. Fraurud 1990, Riester i in. 2010). Na potrzeby prac opisywanych w niniejszej ksi ˛ a˙ zce powstał obszerny (jeden z najwi˛ ekszych na ´swiecie), zrównowa˙ zony i reprezentatywny zbiór tekstów anotowanych r˛ ecznie relacjami referencyjnymi – korpus zale˙zno´sci referencyjnych, zawieraj ˛ acy teksty wybrane z Narodowego Korpusu J˛ ezyka Pol- skiego (Przepiórkowski i in. 2012). Dzi˛ eki powi ˛ azaniu z NKJP korpus ten mo˙ ze korzysta´c z wielopoziomowego opisu lingwistycznego dost˛ epnego dla tekstów bazowych i stale rozszerzanego w badaniach niezale˙znych lingwistów.

Celem trzecim było stworzenie na bazie powstałego korpusu metod wykrywania relacji referencyjnych zgodnych z zaproponowan ˛ a typologi ˛ a, implementacja wy- korzystuj ˛ acych je narz˛ edzi oraz ewaluacja tych narz˛ edzi zgodnie ze stosowan ˛ a na ´swiecie metodologi ˛ a. Ten etap prac umo˙ zliwił przetestowanie ró˙ znych popu- larnych w nauce architektur rozwi ˛ aza´ n oraz wypracowanie własnego zestawu cech lingwistycznych zapewniaj ˛ acego najlepsze wyniki narz˛ edziowe. Ewaluacji ilo´sciowej towarzyszyła próba oceny u˙zytych algorytmów pod k ˛ atem popełnianych przez nie systemowych bł˛ edów.

1.4. Zakres bada´ n

Najistotniejsze dla moich bada´ n jest poj˛ ecie koreferencji, do zdekodowania której niezb˛ edne jest zarówno uwzgl˛ ednienie referencji bez współodniesie´ n (czyli fakt powi ˛ azania wzmianki tekstowej z jej desygnatem nawet w przypadku, gdy została przywołana w tek´scie tylko jeden raz), jak te˙ z wi˛ ekszo´sci przypadków anafory, której ła´ ncuchy odpowiadaj ˛ a zwykle w pewnym stopniu klastrom koreferencyjnym.

W opisie ograniczam si˛ e wył ˛ acznie do koreferencji oraz asocjacji z komponentem nominalnym.

Podstawow ˛ a jednostk ˛ a badawcz ˛ a jest dokument, co ogranicza moje działania do ko-

referencji wewn ˛ atrzdokumentowej (w odró˙znieniu od koreferencji mi˛ edzydo-

kumentowej, czyli rozró˙zniania w całym zestawie dokumentów, które wzmianki

odnosz ˛ ace si˛e na przykład do George’a Busha dotycz ˛ a ojca, a które syna). Przedmio-

tem bada´ n s ˛ a wszystkie dziedziny tematyczne i szeroki zestaw relacji (konfiguracja

okre´slana cz˛ esto w literaturze angielskim terminem unrestricted).

(6)

Interesuje mnie zarówno to˙ zsamo´s´c odwołania (ang. identity-of-reference), jak i to˙ zsamo´s´c sensu (ang. identity-of-sense; patrz definicje w rozdziale 3), a tak˙ze przypadki referencji cz˛ e´sciowej, w tym opisywane frazami kwantyfikowanymi, zaimkami upowszechniaj ˛ acymi, zaimkami wskazuj ˛ acymi z fraz ˛ a podrz˛ edn ˛ a inn ˛ a ni˙z wzgl˛edna czy nawi ˛ azaniami eliptycznymi (liczne przykłady wyra˙ze´ n tego typu zawiera rozdział 3.2). Opisuj˛ e tak˙ze przypadki rozmycia konceptualnego

¹

w rozu- mieniu Fauconniera (1985), gdy jedna ze wzmianek wyró˙ znia pewn ˛ a własno´s´c drugiej lub nast˛ epuje pozorne sklejenie referentów w jeden metaobiekt. Badam tak˙ ze pseudoreferencyjne ła´ ncuchy odwoła´ n do obiektów mentalnych wprowa- dzanych do tekstu za po´srednictwem zaimków nieokre´slonych i przecz ˛ acych oraz wpływ ró˙znorodnych zjawisk lingwistycznych na referencj˛ e.

Jak wynika z powzi˛etych deklaracji, przedmiotem bada´ n jest zatem tekst zastany –

´swiadomie rezygnuj˛ e z analizy kognitywnych podstaw referencji, jej aspektu po- znawczego czy logicznego; nie zamierzam tak˙ze prowadzi´c rozwa˙za´ n psycho- ani socjolingwistycznych. Lingwistom pozostawiam opis wpływu referencji na inne zjawiska j˛ ezykowe z dziedziny struktury tekstu, badania nad jego spójno´sci ˛ a czy stylistyk ˛ a. S ˛ a to tematy na tyle rozległe, ˙ze ka˙zdy z nich wymagałby osobnej ´scie˙zki bada´ n.

Do kwestii analizy i anotacji metatekstowej nawi ˛ azuj˛ e jednak w kontek´scie prac informatyczno-lingwistycznych rozpocz˛ etych w ramach innych projektów (patrz rozdziały 7.2 i 7.3). Dotychczasowym badaniom teoretycznym przygl ˛ adam si˛ e w rozdziale 2, ograniczaj ˛ ac si˛ e do przywołania tych prac j˛ ezykoznawczych, które znalazły odzwierciedlenie w ko´ ncowych wersjach opisanych dalej algorytmów.

Znacznie obszerniejszy wybór odwoła´ n do tekstów interesuj ˛ acych z punktu widze- nia polskich studiów nad zjawiskami referencyjnymi zawiera rozdział 2 monografii angielskoj˛ ezycznej (Ogrodniczuk i in. 2015).

1.5. Metodologia

Do analizy relacji referencyjnych została wykorzystana metoda korpusowa. Głów- nym zało˙zeniem tej metody jest próbkowanie rzeczywistych tekstów j˛ ezykowych z reprezentatywnego zbioru w celu uogólnienia otrzymanych wyników. Zalet u˙zy- cia korpusu jest wiele: rozszerzenie intuicji j˛ ezykowej pojedynczego badacza na szersz ˛ a zbiorowo´s´c, zapewnienie obiektywnej weryfikacji materiału czy oczywista

1Okre´slanego zwykle po angielsku jako quasi-identity lub near-identity; por. rozdział 3.4.5.

(7)

ju˙z dzi´s mo˙zliwo´s´c wykorzystania technik komputerowych do testowania hipotez naukowych na du˙zym zbiorze danych. Powstanie korpusu otwiera te˙z wiele mo˙zli- wo´sci jego wykorzystania jeszcze długo po zako´ nczeniu anotacji, czasem nawet do celów nieu´swiadamianych sobie przez jego autorów i przy u˙ zyciu narz˛ edzi tworzonych za pomoc ˛ a coraz to nowych metod.

Korpus zale˙zno´sci referencyjnych powstał na bazie tekstów Narodowego Korpusu J˛ ezyka Polskiego – zasobu wzorcowego współczesnej polszczyzny, za pomoc ˛ a do- bierania próbek metod ˛ a losowania w sposób zapewniaj ˛ acy zrównowa˙zenie zbioru wynikowego. Do r˛ ecznego oznaczenia tak powstałego korpusu relacjami referen- cyjnymi zostali zaanga˙zowani eksperci–poloni´sci. Jednorodno´sć opisu zapewniło opracowanie taksonomii i instrukcji anotacji, czyli dodawania informacji inter- pretacyjnej do danych tekstowych. Liczb˛ e bł˛ edów w tym procesie ograniczono za pomoc ˛ a porównywania wyników pracy wielu osób, działaj ˛ acych niezale˙ znie od siebie. Stabilno´sć uzyskiwanej anotacji przeanalizowano metod ˛ a obliczania współczynnika zgodno´sci anotatorów, eliminuj ˛ acego wpływ przypadku, ko´ ncow ˛ a postać danych uzyskano za´s wypracowuj ˛ ac optymaln ˛ a strategi˛ e superanotacji.

Po zako´ nczeniu fazy opracowania korpusu powstały narz˛edzia do automatycznego

wykrywania relacji referencyjnych kilkoma ró˙ znymi metodami. Algorytmy opra-

cowano metod ˛ a analizy – r˛ ecznej i automatycznej – wydzielonego podkorpusu

treningowego. Jako´s´c powstałych rozwi ˛ aza´ n oceniono metod ˛ a 10-krotnej wali-

dacji krzy˙ zowej na pozostałej cz˛ e´sci korpusu z wykorzystaniem standardowych,

uznanych w ´srodowisku miar efektywno´sci wykrywania wzmianek, koreferencji

i relacji po´srednich.