1.
Zało˙ zenia badawcze
1.1. Referencja, koreferencja, anafora, asocjacja
Tworz ˛ ac i analizuj ˛ ac wypowiedzi, stale odnosimy si˛ e do rzeczy, które znamy. Zja- wisko to nazywamy referencj ˛ a (ang. reference), czyli aktem odwołania si˛ e do rzeczywisto´sci pozaj˛ ezykowej za pomoc ˛ a ´srodków j˛ ezykowych u˙ zytych w wypo- wiedzi. Obiekty, które przywołujemy, nie musz ˛ a oczywi´scie pochodzi´c ze ´swiata rzeczywistego – wystarczy, by nale˙zały do mentalnego ´swiata tekstu (´swiata dys- kursu, ang. discourse world) stworzonego na potrzeby komunikacji j˛ ezykowej. Na podobnej zasadzie odwołujemy si˛ e do stanów, zdarze´ n, czynno´sci, miejsc, czasu i innych zjawisk pozatekstowych (w dalszej cz˛ e´sci wywodu u˙ zywam okre´slenia
„obiekt” dla wszystkich typów bytów mog ˛ acych podlega´c referencji).
Wyra˙ zenia referencyjne, za pomoc ˛ a których tworzymy odwołania w tek´scie, na- zywam wzmiankami (ang. mentions). W skład wzmianki wchodz ˛ a, oprócz jej centrum semantycznego (ang. semantic head; rozdział 4.3.2), tak˙ze jego wszyst- kie podrz˛ edniki, zgodnie z zało˙ zeniem o konieczno´sci zapewnienia wzmiance semantycznej precyzji (np. wyra˙zenie samochód, który potr ˛ acił moj ˛ a ˙zon˛e jest zna- czeniowo pełniejsze ni˙ z samo jego centrum samochód). Zasadniczo odniesienia do obiektów realizowane s ˛ a jako uogólnione konstrukcje nominalne, ale czasem wzmiank ˛ a mo˙ze by´c tak˙ze dłu˙zszy fragment tekstu, np. opisuj ˛ acy pewn ˛ a sytuacj˛ e.
Wzmianki odpowiadaj ˛ ace obiektom przywołanym w tek´scie tylko raz nazywam
singletonami (ang. singleton). Kiedy odwołanie nast˛epuje wielokrotnie, pomi˛edzy
fragmentami wypowiedzi o wspólnym odniesieniu zachodzi zjawisko koreferencji
(ang. coreference); zbiór takich odwoła´ n nazywam klastrem koreferencyjnym
(ang. coreference cluster). W literaturze funkcjonuje tak˙ze nazwa ła´ ncuch koreferen-
cyjny (ang. coreference chain), moim zdaniem bł˛ ednie sugeruj ˛ aca sekwencyjno´s´c
wzmianek, która nie zawsze zachodzi; np. w sytuacji realizacji odwołania za po-
moc ˛ a powtórzenia nazwy, do interpretacji nast˛epnika nie jest wymagane odwołanie
do poprzednika.
20 Zało˙zenia badawcze
Ze wzgl˛ edów stylistycznych kolejne odwołania s ˛ a zwykle realizowane za pomoc ˛ a innych ´srodków j˛ ezykowych ni˙z proste powtórzenie – je´sli odnosimy si˛ e do wcze´s- niej wymienionego obiektu, np. cz˛ esto przylatuj ˛ acej do ogrodowego karmnika charakterystycznej sikorki, mo˙ zemy u˙ zy´c wyra˙ zenia bliskoznacznego z u˙ zytym wcze´sniej (sikora, bogatka), hiperonimu (ptak), zaimka (ona), neologizmu (sło- ninko˙zerca), nazwy własnej (Krzywodziobek), czy nawet wyra˙zenia idiolektalnego zrozumiałego tylko dla domowników (ten nasz wróbel). Koreferencja jest wi˛ ec zjawiskiem posługuj ˛ acym si˛e ´srodkami znacznie wykraczaj ˛ acymi poza czyst ˛ a skład- ni˛ e i semantyk˛ e, zachodz ˛ acym na poziomie cało´sciowego rozumienia struktury tekstu (ang. discourse) i ł ˛ acz ˛ acym ´swiat j˛ezykowy z pozaj˛ezykowym. Z tego powodu problem dekodowania koreferencji (ang. coreference resolution) jest uznawany za jeden z najtrudniejszych w przetwarzaniu j˛ ezyka naturalnego.
Interpretacja niektórych rodzajów wzmianek (np. zaimkowych) jest niemo˙ zliwa bez posłu˙ zenia si˛ e innym fragmentem tekstu i wówczas mi˛ edzy powi ˛ azanymi fragmentami zachodzi wewn ˛ atrztekstowa relacja anafory (ang. anaphora) lub katafory (ang. cataphora), odpowiadaj ˛ aca odniesieniu do elementu pełnoznacz- nego nast˛ epuj ˛ acego liniowo przed elementem niepełnoznacznym lub po nim.
Posturzy´ nska-Bosko (2015) za Maillardem (1974) zjawiska te okre´sla ł ˛ acznie ter- minem diafory (ang. diaphora); termin ten nie jest jednak powszechnie stosowany, zatem dla uproszczenia u˙ zywam dalej okre´slenia „anafora” w znaczeniu diafory, sygnalizuj ˛ ac rozró˙znienie szczegółowe w razie potrzeby. Anafora jest zatem relacj ˛ a wykorzystuj ˛ ac ˛ a zestaw cech konotowanych przez powi ˛ azane wzmianki (niezale˙z- nie od ich denotacji), podczas gdy koreferencja zakłada zgodno´s´c denotacji (por.
Topoli´ nska 1977). Warto zwróci´c uwag˛e, ˙ze referencja jako zjawisko na pograniczu tekstu i rzeczywisto´sci pozaj˛ ezykowej jest jednak ogólniejsza i mentalnie wcze-
´sniejsza od anafory: autor wypowiedzi najpierw podejmuje decyzj˛ e o odwołaniu si˛e danego obiektu, a nast˛epnie o u˙zyciu ´srodków j˛ezykowych, za pomoc ˛ a których zostanie ono zrealizowane, z uwzgl˛ ednieniem uwarunkowa´ n stylistycznych.
Bior ˛ ac pod uwag˛ e odwołania pozatekstowe, oprócz bezpo´srednich (ang. direct
reference), w przypadku których wzmianka odnosi si˛ e jawnie do opisywanego
obiektu, w tek´scie mog ˛ a wyst ˛ api´c odwołania po´srednie (ang. indirect reference),
nazywane te˙z cz˛ esto asocjacyjnymi (ang. associative anaphora, bridging) czy rza-
dziej – interreferencj ˛ a (ang. interreference, patrz Janssen 1980). Wzmianka odnosi
si˛ e wówczas do danego obiektu za po´srednictwem innego, pozostaj ˛ acego z nim
w okre´slonej zale˙zno´sci (np. odwołanie bezpo´srednie do schodów jest te˙z odwoła-
niem po´srednim do konkretnego domu, w którym te schody si˛ e znajduj ˛ a, a nie do
jakiego´s innego domu).
W tek´scie mog ˛ a si˛ e te˙z znajdowa´c dodatkowe okre´slenia wzmianki, które rozsze- rzaj ˛ a zakres odnosz ˛ acych si˛ e do niej nazw. Mog ˛ a mie´c one posta´c na przykład rzeczownika w narz˛edniku pełni ˛ acego funkcj˛e predykatywn ˛ a czy etykiety zawiera- j ˛ acej dodatkow ˛ a informacj˛e. Mimo ˙ze pomi˛edzy wzmiank ˛ a a tak podan ˛ a informacj ˛ a uzupełniaj ˛ ac ˛ a nie zachodzi relacja koreferencji, interpretacja ł ˛ acz ˛ acej je relacji mo˙ze by´c jednak bardzo pomocna w dekodowaniu dalszych odwoła´ n.
1.2. Motywacja
Teoria referencji jest uwa˙zana za jeden z wa˙zniejszych składników semantycznej analizy struktury tekstu. Temat ten jest obecnie przedmiotem bada´ n wielu grup naukowych na całym ´swiecie. Jakkolwiek problem nawi ˛ aza´ n poruszany był w pol- skiej literaturze lingwistyczno-informatycznej ju˙ z wielokrotnie, zjawisko to nie wydaje si˛ e jednak dostatecznie zbadane, co wida´c na przykładzie poj˛ ecia korefe- rencji: cz˛e´s´c badaczy u˙zywa go zamiennie z anafor ˛ a (np. Marciniak 2001), jeszcze inni uznaj ˛ a za podrz˛ edny w stosunku do anafory (np. Matysiak 2007, Broda i in.
2012a), co oznacza, ˙ze brakuje systematycznego opisu powszechnego i wa˙znego zjawiska w sposób mo˙zliwy do zastosowania w dalszych badaniach.
Istotn ˛ a przesłank˛e do podj˛ecia bada´ n lingwistyczno-komputerowych tego problemu stanowi to, ˙ze wi˛ ekszo´s´c prac teoretycznych dla polszczyzny powstało w czasach przedkomputerowych, przez co istniej ˛ ace teorie nie doczekały si˛ e jeszcze szeroko zakrojonej weryfikacji tekstowej. Wraz z rozwojem in˙zynierii lingwistycznej i do- st˛ epno´sci ˛ a mocy obliczeniowej komputerów badania teoretyczne coraz cz˛ e´sciej ł ˛ acz ˛ a si˛ e z praktycznymi, a podej´scie korpusowe zapewnia zarówno mo˙ zliwo´s´c ewaluacji istniej ˛ acych hipotez na szerok ˛ a skal˛ e, jak i tworzenie nowych teorii na podstawie obszernych zbiorów danych j˛ ezykowych. Celem opisanych dalej bada´ n jest zatem tak˙ ze weryfikacja obszernego, a niewykorzystywanego jeszcze w ten sposób materiału teoretycznego za pomoc ˛ a metod lingwistyczno-komputerowych.
Proponowane podej´scie wydaje si˛ e te˙z ogólniejsze od dotychczasowych z jeszcze jednego powodu: zarówno cz˛esta w literaturze analiza u˙zy´c anaforycznych (nie za- pewniaj ˛ aca pełnego pokrycia zjawisk koreferencyjnych – patrz np. Data-Bukowska 2008), jak te˙ z jej ograniczenie do grup okre´slonego typu (np. nazw własnych;
patrz Maziarz i in. 2016) skłaniaj ˛ a do podj˛ ecia bada´ n nad zjawiskiem referencji w wymiarze ogólnym, na bogatym i dost˛ epnym materiale korpusowym.
Równie˙ z z perspektywy narz˛ edziowej bie˙ z ˛ acy stan prac nad identyfikacj ˛ a relacji
referencyjnych wydaje si˛ e niewystarczaj ˛ acy – wyniki osi ˛ agane przez narz˛ edzia au-
22 Zało˙zenia badawcze
tomatyczne s ˛ a w du˙zej mierze efektem ich poprawnego działania dla cz˛estych, ale prostych przypadków, w których do rozstrzygania zgodno´sci wystarcz ˛ a ´srodki ana- lizy powierzchniowej lub proste zale˙zno´sci morfoskładniowe, takie jak zgodno´s´c rodzaju i liczby gramatycznej. Z kolei mo˙zliwo´s´c zastosowania istniej ˛ acych teorii ogólnych utrudnia ich cz˛esta zale˙zno´s´c od zło˙zonych własno´sci semantycznych czy pragmatycznych, takich jak konieczno´s´c wcze´sniejszej znajomo´sci stanu kognityw- nego autora wypowiedzi (Gundel i in. 1993) czy struktury dyskursu (Grosz i in.
1995), które dzi´s nie wydaj ˛ a si˛ e mo˙ zliwe do zdekodowania za pomoc ˛ a ´srodków lingwistyczno-informatycznych.
Zadanie wydaje si˛ e te˙ z wa˙ zne z perspektywy krajowej – dla j˛ ezyka polskiego ta- kich bada´ n przed rokiem 2010 prawie nie prowadzono; o podejmowanych dot ˛ ad próbach pisz˛e dokładniej w rozdziale 2.5. Sam komponent do dekodowania relacji referencyjnych jest tak˙ze istotnym elementem warstwowego modelu przetwarzania j˛ezyka, stanowi ˛ acym punkt wyj´scia do bardziej zło˙zonych operacji, takich jak: auto- matyczne streszczanie, tłumaczenie, ekstrakcja i analiza tekstu. Prac˛e umieszczam zatem dodatkowo w kontek´scie zaznaczonych przeze mnie kierunków rozwoju lingwistyki komputerowej w Polsce (Ogrodniczuk 2017: rozdział 3), które dadz ˛ a si˛ e stre´sci´c hasłem „składnia, semantyka, dyskurs”. Relacje referencyjne nale˙z ˛ a do tej ostatniej, najtrudniejszej grupy.
1.3. Cele badawcze
Wymienione zagadnienia przeło˙zyły si˛e na kilka celów badawczych zrealizowanych w ramach opisywanych prac. Pierwszym i zasadniczym celem było stworzenie ogólnej, weryfikowalnej komputerowo typologii relacji referencyjnych. Zadanie to, podstawowe w przypadku ka˙zdego zjawiska naturalnego, jak si˛ e wydaje, nie było dot ˛ ad wykonane dla j˛ezyka polskiego, dla innych j˛ezyków za´s zostało zrealizowane fragmentarycznie. Zaproponowana typologia ma na celu zunifikowanie istniej ˛ acych cz ˛ astkowych opisów relacji referencyjnych i uwzgl˛ ednienie takich własno´sci, jak:
aspekt temporalny referencji, dysymilacja to˙zsamo´sci obiektów, niejednoznaczno´s´c czy niedookre´slenie.
Drugim celem, powi ˛ azanym z pierwszym, było przeprowadzenie weryfikacji po-
wstałej typologii. W odró˙znieniu od metod teoretycznych, wykorzystuj ˛ acych model
kompetencji j˛ ezykowej idealnego u˙zytkownika j˛ ezyka, do realizacji tego celu po-
słu˙zyłem si˛e metodologi ˛ a korpusow ˛ a, polegaj ˛ ac ˛ a na analizie rzeczywistych danych
j˛ ezykowych. Prace weryfikacyjne tego rodzaju były dotychczas prowadzone na
bazie korpusów małych (np. Poesio i in. 2004, Korzen i Buch-Kromann 2011), z liczb ˛ a i typami relacji ograniczonymi do szczególnych przypadków (np. Markert i in. 2003, Caselli i Prodanof 2006, Lassalle i Denis 2011) i ewaluacj ˛ a dokony- wan ˛ a niesystematycznie lub daj ˛ ac ˛ a mało obiecuj ˛ ace wyniki (np. Fraurud 1990, Riester i in. 2010). Na potrzeby prac opisywanych w niniejszej ksi ˛ a˙ zce powstał obszerny (jeden z najwi˛ ekszych na ´swiecie), zrównowa˙ zony i reprezentatywny zbiór tekstów anotowanych r˛ ecznie relacjami referencyjnymi – korpus zale˙zno´sci referencyjnych, zawieraj ˛ acy teksty wybrane z Narodowego Korpusu J˛ ezyka Pol- skiego (Przepiórkowski i in. 2012). Dzi˛ eki powi ˛ azaniu z NKJP korpus ten mo˙ ze korzysta´c z wielopoziomowego opisu lingwistycznego dost˛ epnego dla tekstów bazowych i stale rozszerzanego w badaniach niezale˙znych lingwistów.
Celem trzecim było stworzenie na bazie powstałego korpusu metod wykrywania relacji referencyjnych zgodnych z zaproponowan ˛ a typologi ˛ a, implementacja wy- korzystuj ˛ acych je narz˛ edzi oraz ewaluacja tych narz˛ edzi zgodnie ze stosowan ˛ a na ´swiecie metodologi ˛ a. Ten etap prac umo˙ zliwił przetestowanie ró˙ znych popu- larnych w nauce architektur rozwi ˛ aza´ n oraz wypracowanie własnego zestawu cech lingwistycznych zapewniaj ˛ acego najlepsze wyniki narz˛ edziowe. Ewaluacji ilo´sciowej towarzyszyła próba oceny u˙zytych algorytmów pod k ˛ atem popełnianych przez nie systemowych bł˛ edów.
1.4. Zakres bada´ n
Najistotniejsze dla moich bada´ n jest poj˛ ecie koreferencji, do zdekodowania której niezb˛ edne jest zarówno uwzgl˛ ednienie referencji bez współodniesie´ n (czyli fakt powi ˛ azania wzmianki tekstowej z jej desygnatem nawet w przypadku, gdy została przywołana w tek´scie tylko jeden raz), jak te˙ z wi˛ ekszo´sci przypadków anafory, której ła´ ncuchy odpowiadaj ˛ a zwykle w pewnym stopniu klastrom koreferencyjnym.
W opisie ograniczam si˛ e wył ˛ acznie do koreferencji oraz asocjacji z komponentem nominalnym.
Podstawow ˛ a jednostk ˛ a badawcz ˛ a jest dokument, co ogranicza moje działania do ko-
referencji wewn ˛ atrzdokumentowej (w odró˙znieniu od koreferencji mi˛ edzydo-
kumentowej, czyli rozró˙zniania w całym zestawie dokumentów, które wzmianki
odnosz ˛ ace si˛e na przykład do George’a Busha dotycz ˛ a ojca, a które syna). Przedmio-
tem bada´ n s ˛ a wszystkie dziedziny tematyczne i szeroki zestaw relacji (konfiguracja
okre´slana cz˛ esto w literaturze angielskim terminem unrestricted).
24 Zało˙zenia badawcze
Interesuje mnie zarówno to˙ zsamo´s´c odwołania (ang. identity-of-reference), jak i to˙ zsamo´s´c sensu (ang. identity-of-sense; patrz definicje w rozdziale 3), a tak˙ze przypadki referencji cz˛ e´sciowej, w tym opisywane frazami kwantyfikowanymi, zaimkami upowszechniaj ˛ acymi, zaimkami wskazuj ˛ acymi z fraz ˛ a podrz˛ edn ˛ a inn ˛ a ni˙z wzgl˛edna czy nawi ˛ azaniami eliptycznymi (liczne przykłady wyra˙ze´ n tego typu zawiera rozdział 3.2). Opisuj˛ e tak˙ze przypadki rozmycia konceptualnego
1w rozu- mieniu Fauconniera (1985), gdy jedna ze wzmianek wyró˙ znia pewn ˛ a własno´s´c drugiej lub nast˛ epuje pozorne sklejenie referentów w jeden metaobiekt. Badam tak˙ ze pseudoreferencyjne ła´ ncuchy odwoła´ n do obiektów mentalnych wprowa- dzanych do tekstu za po´srednictwem zaimków nieokre´slonych i przecz ˛ acych oraz wpływ ró˙znorodnych zjawisk lingwistycznych na referencj˛ e.
Jak wynika z powzi˛etych deklaracji, przedmiotem bada´ n jest zatem tekst zastany –
´swiadomie rezygnuj˛ e z analizy kognitywnych podstaw referencji, jej aspektu po- znawczego czy logicznego; nie zamierzam tak˙ze prowadzi´c rozwa˙za´ n psycho- ani socjolingwistycznych. Lingwistom pozostawiam opis wpływu referencji na inne zjawiska j˛ ezykowe z dziedziny struktury tekstu, badania nad jego spójno´sci ˛ a czy stylistyk ˛ a. S ˛ a to tematy na tyle rozległe, ˙ze ka˙zdy z nich wymagałby osobnej ´scie˙zki bada´ n.
Do kwestii analizy i anotacji metatekstowej nawi ˛ azuj˛ e jednak w kontek´scie prac informatyczno-lingwistycznych rozpocz˛ etych w ramach innych projektów (patrz rozdziały 7.2 i 7.3). Dotychczasowym badaniom teoretycznym przygl ˛ adam si˛ e w rozdziale 2, ograniczaj ˛ ac si˛ e do przywołania tych prac j˛ ezykoznawczych, które znalazły odzwierciedlenie w ko´ ncowych wersjach opisanych dalej algorytmów.
Znacznie obszerniejszy wybór odwoła´ n do tekstów interesuj ˛ acych z punktu widze- nia polskich studiów nad zjawiskami referencyjnymi zawiera rozdział 2 monografii angielskoj˛ ezycznej (Ogrodniczuk i in. 2015).
1.5. Metodologia
Do analizy relacji referencyjnych została wykorzystana metoda korpusowa. Głów- nym zało˙zeniem tej metody jest próbkowanie rzeczywistych tekstów j˛ ezykowych z reprezentatywnego zbioru w celu uogólnienia otrzymanych wyników. Zalet u˙zy- cia korpusu jest wiele: rozszerzenie intuicji j˛ ezykowej pojedynczego badacza na szersz ˛ a zbiorowo´s´c, zapewnienie obiektywnej weryfikacji materiału czy oczywista
1Okre´slanego zwykle po angielsku jako quasi-identity lub near-identity; por. rozdział 3.4.5.