________________________________________________________________________________________________________________________________________________________________________________ ______________________________________________________
INSTYTUT PODSTAW INFORMATYKI POLSKIEJ AKADEMII NAUK
ul. Jana Kazimierza 5, 01-248 Warszawa
tel.: +48 22 380 05 00 fax.: +48 22 380 05 10
e-mail: [email protected] www.ipipan.waw.pl
Dr hab. Maciej Ogrodniczuk, prof. IPI PAN [email protected]
Zakład Sztucznej Inteligencji tel. 22 380 05 63
Zespół Inżynierii Lingwistycznej 533 675 675
_____________________________________________________________________________________________________________________________ _________________________________________________________________________________________________________
Warszawa, 8 marca 2022 r.
RECENZJA ROZPRAWY DOKTORSKIEJ
Tytuł rozprawy: Lingwistyczna analiza zjawiska faktywności (na materiale współczesnej polszczyzny) Autor rozprawy: mgr Daniel Ziembicki
Dyscyplina: językoznawstwo
Promotor rozprawy: prof. dr hab. Magdalena Danielewiczowa
Recenzja została wykonana na zlecenie Rady Naukowej Dyscypliny Językoznawstwo Wydziału Neofilologii Uniwersytetu Warszawskiego.
Przedmiot rozprawy
Do oceny przedłożona została rozprawa w układzie klasycznym. Na 357 stronach Autor zawarł wstęp, trzy rozdziały opisujące badania własne, rozdział podsumowujący, objaśnienie użytych symboli i skrótów, bibliografię oraz streszczenie w języku polskim i angielskim.
Przedmiotem rozprawy jest analiza językoznawcza zjawiska faktywności we współczesnej polszczyźnie na materiale językowym obszernego korpusu języka polskiego. Faktywność rozumiana jest w pracy jako cecha semantyczna czasownika propozycjonalnego gwarantująca prawdziwość dopełnienia stanowiącego realizację prawostronnego argumentu zdaniowego tego czasownika użytego w wypowiedzeniu. Celami szczegółowymi pracy są: ustalenie podziału obszernej grupy czasowników na faktywne i niefaktywne, zbadanie ich użycia w tekstach oraz weryfikacja działania komputerowych modeli językowych wykrywających relacje wynikania, sprzeczności lub niezależności wypowiedzenia i jego dopełnienia.
Tak postawione zagadnienie wymagało dogłębnej analizy dostatecznie dużej liczby czasowników współczesnej polszczyzny, a następnie weryfikację ich użycia w dostępnym korpusie wypowiedzeń. Do tego celu użyty został Polski Korpus Koreferencyjny (PKK), stanowiący reprezentatywną próbkę Narodowego Korpusu Języka Polskiego (NKJP). Obiektem badań były takie wypowiedzenia z PKK, których predykatem głównym jest prymarnie propozycjonalny czasownik z segmentem że jako elementem struktury predykatowo-argumentowej. Po podziale 325 czasowników na faktywne i niefaktywne dla każdego z nich Autor dokonał analizy ok. 2350 zawierających je wypowiedzeń z PKK, określając relację między tezą stawianą w wypowiedzeniu a hipotezą stanowiącą jego dopełnienie zdaniowe jako wynikanie, sprzeczność lub niezależność.
W ostatnim kroku na bazie zgromadzonego materiału powstały modele komputerowe identyfikujące relacje z badanego zakresu oraz została dokonana analiza sposobu ich działania w celu ustalenia możliwości poprawy ich skuteczności.
Treść rozprawy
Rozdział 1. Wstęp
Rozdział wstępny prezentuje problemy stawiane w rozprawie w postaci trzech pytań i przedstawia metody badawcze wybrane do uzyskania odpowiedzi na te pytania. Autor opisuje zjawiska presupozycji i faktywności, ogranicza zakres prac do czasowników prymarnie propozycjonalnych, a materiał językowy do okresu powojennego. Podejmuje szereg decyzji ważnych dla przebiegu prowadzonych badań – od tych natury ogólnej, np. użycia ścisłej terminologii naukowej, po szczegółowe – dotyczące delimitacji obiektów językowych, dążenia do eliminacji polisemii, przewagi podejścia empirycznego nad intuicją badacza czy potrzeby uwzględnienia materiału negatywnego.
Autor opisuje szczegółowo stan dotychczasowych badań teoretycznych nad zjawiskiem presupozycji oraz wynikające z mnogości zaproponowanych koncepcji problemy terminologiczne. Następnie podaje propozycje własnych definicji terminów istotnych w kontekście pracy, przedstawia siatkę pojęciowo- terminologiczną oraz definiuje stosowane w pracy symbole i sposoby werbalizowania poszczególnych relacji.
Wstęp napisany jest w skondensowany sposób i świadczy o bardzo dobrym zaplanowaniu pracy przez Autora oraz jasnym postawieniu zadań badawczych. Dość obszerna część definicyjna jest niezwykle klarowna i bardzo pomocna w dalszej lekturze pracy.
Uwagi szczegółowe:
─ s. 8: z czego wynika różnica między liczbą 2348 wypowiedzeń z PKK a 2460 rekordów dla pary
<T, H> (ta liczba jest też w tabelach 7–9 na s. 265)?
─ s. 23: teza, że „rzeczywistość, również językową, da się opisać za pomocą »języka« matematyki” jest mocno dyskusyjna! Rozumiem intencję autora, ale istnieje wiele zjawisk, których nie umiemy opisać matematycznie, więc takie sformułowanie jest zdecydowanie za mocne.
Rozdział 2. Analiza czasowników
Rozdział rozpoczyna się określeniem instrumentarium wykorzystywanego w dalszych pracach, czyli kryteriów weryfikacji hipotezy faktywności czasowników, po czym następuje analiza wybranych przykładów ze źródeł wzbogacona w miarę potrzeby o analizę wypowiedzeń spreparowanych. Część analityczna stanowi główny komponent pracy (podrozdział 2.3 ma prawie 200 stron), z czego najwięcej miejsca (prawie 100 stron!) Autor poświęca czasownikowi wiedzieć, że_, stanowiącemu najważniejszy element w klasie wyrażeń faktywnych. Po nim następują szczegółowe rozstrzygnięcia dotyczące innych analizowanych czasowników epistemicznych, percepcyjnych, czasowników mówienia i emotywnych, ze szczególnym uwzględnieniem tych, które sprawiają problemy delimitacji lub ustalenia kategorii faktywności.
Oprócz własnych testów na faktywność Autor przytacza też (i często polemicznie je komentuje) argumenty innych badaczy, odwołując się do składniowej i semantycznej normy polszczyzny. Analiza jest szeroko zakrojona i uwzględnia takie konstrukcje jak wypowiedzenia o przyszłości, pytania, okresy warunkowe, użycia cudzysłowowe czy kwestię stopniowalności wiedzy. Mimo empirycznego charakteru pracy Autor poświęca też sporo uwagi filozoficznym podstawom niefaktywności, analizując argumenty odnoszące język do rzeczywistości.
Rozdział kończy liczbowe podsumowanie przeprowadzonych badań w postaci tabel z podziałem czasowników na wyróżnione klasy, listą czasowników o znaczącym udziale w analizowanym korpusie oraz listą czasowników faktywnych o najwyższej frekwencji.
Mimo obszernego materiału zaprezentowanego w rozdziale, najważniejszym z punktu widzenia celów badawczych pracy, jego struktura jest bardzo klarowna. Autor zdaje sobie sprawę ze szczegółowości niektórych opisów i ułatwia czytelnikowi lekturę zamieszczając śródtekstowe wprowadzenia i podsumowania ważniejszych tez obudowujące najważniejsze podrozdziały.
Uwagi szczegółowe:
─ s. 147: Autor pisze: „Zauważmy, że nie można czegoś wiedzieć np. na 70%, 80%, 90%.”, co jest oczywiście prawdą, natomiast nie mogłem w tym miejscu nie sprawdzić, czy poświadczeń wyrażeń tego typu nie zawiera NKJP. Okazuje się (zapytanie „wiedzieć**___na___procent” w wyszukiwarce PELCRA), że korpus zawiera wyrażenia potoczne takie jak „na 90 procent (nie wie)”, „na 95 procent (wiem)”, „wiem, że na 90 procent (będziemy mogli...)”, „(wie coś) na 99%” czy „na 99% (pewny jestem tego, że...)”. Nie jest to oczywiście dowód stopniowalności jednostki "wiedzieć, że", ale w pracy empirycznej zabrakło mi odniesienia do tego rodzaju konstrukcji, jednak obecnych w NKJP.
─ s. 261: od razu widać, że coś jest nie tak z liczbami w tabeli 2 (błędnie oznaczonej jako tabela 1):
1 – 0% i 15 – 100%; 15 + 124 nie równa się 141, 79 + 232 + 1 = 312, ale 1 + 15 + 1 nie równa się 16... Jak to wyjaśnić?
─ s. 262: dlaczego w tabeli 4 podano akurat 14 czasowników (a nie 15, 10 lub 17?) odpowiadających za ponad 65% wszystkich wypowiedzeń z czasownikami faktywnymi? Z kolei na s. 287 Autor mówi już o 15 prymarnie propozycjonalnych czasownikach faktywnych odpowiadających za 65% wszystkich wystąpień.
Rozdział 3. Analiza wypowiedzeń
Rozdział analizuje przykłady korpusowe w celu sprawdzenia sposobu użycia czasowników faktywnych w naturalnych wypowiedziach językowych. Tekst zawiera wyniki liczbowe dla kategorii faktywności czasownika oraz prawdziwości dopełnienia, umożliwiające analizę współwystępowania różnych cech wypowiedzeń, takich jak powiązanie kategorii faktywności z relacjami szczegółowymi. Autor podaje również przykłady wypowiedzeń sprawiających problemy analityczne.
Liczący 6 stron rozdział jest w zasadzie raczej zapowiedzią podsumowania pracy niż równorzędnym partnerem dla poprzedniej części, ale warto w nim docenić analizę przykładów problematycznych.
Uwagi szczegółowe:
─ s. 265, tabela 7 i 8: czy liczby w kolumnach 2–4 powinny sumować się do wartości z kolumny 1? nie wyjaśnia tego przypis 226.
─ s. 265: co nowego wnosi tabela 9 w stosunku do informacji już przedstawionej w tabelach 7 i 8?
─ s. 268 w punkcie d wymienia się 15 czasowników pokrywających 65% wystąpień – a tabela 4 na str.
262 zawiera ich 14. Gdzie podział się brakujący czasownik?
─ s. 269: czy wartość 73% z punktu (e) odpowiada wartości 72% z tabeli 8?
Rozdział 4. Analiza modeli
Rozdział, także dość krótki (16 stron) w porównaniu z rozdziałem 2, przedstawia wyniki trenowania modeli językowych do przewidywania relacji wynikania, sprzeczności i niezależności między analizowanym wypowiedzeniem a jego dopełnieniem. Autor zestawia ze sobą wyniki uzyskiwane przez różne modele, analizuje ich decyzje z pomocą specjalistycznego narzędzia oraz zastanawia się, jakie informacje lingwistyczne mogłyby pomóc w zwiększeniu ich skuteczności.
Warto docenić tę część pracy, najistotniejszą z punktu widzenia informatyka, ale jednak stanowiącą dodatek do materiału analitycznego, a w części technicznej wykonaną przez pracowników i studentów Politechniki Warszawskiej. W kontekście oceny rozprawy za istotne uważam zatem przygotowanie danych treningowych, przeprowadzenie anotacji testowej z udziałem anotatorów nie specjalizujących się w zagadnieniu presupozycji, porównanie poprawności wytworzonych przez nich anotacji z predykcjami modeli oraz interpretację raportów z działania modelu RandomForest. Ważną uwagę stanowi też odniesienie do badań zagranicznych, jakkolwiek trzeba mieć na względzie, że wyniki obu badań są nieporównywalne, z czego zdaje sobie sprawę także Autor (p. jego uwaga na s. 273).
Otrzymane wyniki wydają się obiecujące, a wytrenowane modele dostarczają predykcji zadowalającej jakości, co może pozwolić na ich wykorzystanie w dalszych pracach lingwistycznych oraz do preanotacji danych treningowych. Autor formułuje tego rodzaju wniosek jeszcze mocniej, sugerując, że „praca anotatorów okazuje się zbędna”. Zgadzam się z tym stwierdzeniem i dodatkowo cieszę, że jego autorem jest językoznawca.
Działanie modelu RandomForest analizowane jest za pomocą licznie przywoływanych raportów narzędzia DALEX, które pozwalają na obserwację kombinacji cech wpływających na klasyfikację wykrywanych relacji. Podane przez Autora interpretacje wyników działania narzędzia stanowią z jednej strony użyteczny materiał mogący wzbogacić przyszłe dane treningowe, a z drugiej – przykład analizy materiału badawczego, który może posłużyć jako model współpracy językoznawcy z narzędziem informatycznym. Jest to o tyle istotne, że w przyszłości należy się spodziewać właśnie takiego trybu pracy badacza-nieinformatyka, coraz częściej wspomaganego automatycznymi narzędziami analitycznymi, których wyniki można będzie z pożytkiem interpretować.
Na duży plus zasługuje Autor z powodu bardzo trafnego podsumowania trudności i ograniczeń wynikających z zastosowanej metody, którymi są konieczność zapewnienia jednoznaczności instrukcji anotacyjnej, sposobu prezentacji dopełnienia, rozumienia niektórych przykładów z uwzględnieniem ich kontekstu, potrzeby uzupełnienia danych o dodatkowe informacje czy konieczności weryfikacji wzorcowej.
Pytanie szczegółowe: na s. 270–271 podane są trzy zadania stawiane przed modelami języka. Czy mogę poprosić o przykład, na którym ciekawy czytelnik mógłby się najlepiej przekonać, czym te zadania się różnią? Może być nim zdanie, dla którego wszystkie trzy wyniki predykcji byłyby różne.
Rozdział 5. Podsumowanie
W treści rozdziału Autor zwięźle podsumowuje wykonane prace i omawia uzyskane odpowiedzi na postawione na wstępie pytania. Podaje też listę 325 zbadanych czasowników wraz z informacją o ich faktywności i przykładami zawierających je wypowiedzeń. Ta „leksykograficzna” część pracy również stanowi jej pożyteczny wynik i choć pewnie sam zamieściłbym ją w jednym z dodatków, nie przeszkadza to w żadnym stopniu w lekturze.
Zastanowił mnie brak typowego dla rozdziałów podsumowujących przedstawienia perspektyw dalszych badań (np. nad taksonomią czasowników faktywnych), ale również nie traktuję tego jako zarzut w stosunku do pracy, która broni się jako całość w zdefiniowanym przez Autora zakresie.
Realizacja celu i wartość rozprawy
Praca stanowi pomost między trzema dziedzinami: językoznawstwem teoretycznym, filozofią i informatyką techniczną, łącząc poziomy analizy językowej z wykorzystaniem elementów teorii presupozycji i faktywności oraz modeli informatyczno-lingwistycznych. Plan badawczy jest szeroko zakrojony i interdyscyplinarny: już sama analiza czasowników faktywnych w tekstach korpusowych byłaby bardzo interesująca, a w recenzowanej pracy podparta jest jeszcze wykorzystaniem metod informatycznych w najnowszym wydaniu.
Podjęty temat uznaję za ważny i nowy, gdyż niezależnie od wspominanych przez Autora prac teoretycznych nie powstała dotąd w języku polskim praca poświęcona analizie zjawiska faktywności na rzeczywistym materiale językowym, a tylko w ten sposób możemy przekonać się nie tylko o tym, które jednostki językowe są faktywne, ale także o skali i sposobie ich użycia w procesie komunikacji. Cenię sobie jasność wywodu i konsekwentne użycie terminologii, sygnalizowane już w rozdziale metodologicznym.
Problem badawczy uznaję za właściwie postawiony biorąc pod uwagę obecny stan wiedzy. Odniesienie do innych badań uważam za kompletne. Projekt nie jest powieleniem istniejących badań, lecz stanowi oryginalny wkład Autora w rozwój dyscypliny. Użyta procedura badań gwarantowała rozwiązanie
Jako twórcę Polskiego Korpusu Koreferencyjnego cieszy mnie jego wykorzystanie w pracach analitycznych, choć rozumiem, że powód był raczej praktyczny – znajomość korpusu przez Autora ze względu na jego udział we wcześniejszych pracach anotacyjnych oraz dostępność szerszych kontekstów niż w przypadku tzw. milionowego podkorpusu NKJP. W związku z użyciem danych z reprezentatywnej próbki referencyjnego korpusu języka ogólnego wyniki uznaję za reprezentatywne.
Oprócz realizacji głównego celu praca dostarcza ciekawych przemyśleń dot. słownikowego opisu jednostek języka. Np. komentarze Autora nt. stopniowalności czasowników (że można „trochę żałować”, ale nie można „trochę wiedzieć”) pokazują, jak dużo mamy jeszcze w tej kwestii do zrobienia.
Warto też zauważyć, że realizacja pracy implikuje serię nowych pytań i problemów, np. w kwestii bardziej szczegółowej taksonomii czasowników faktywnych, co także stanowi o wartości rozprawy. Część językoznawcza i informatyczna korespondują ze sobą, tworząc spójną całość, a aplikacyjna wartość badań została już potwierdzona implementacją praktycznych modeli informatycznych.
Uwagi redakcyjne
Nie mogę niestety nie zauważyć, że przekazana mi wersja tekstu zawierała ok. trzystu (!) zauważonych przeze mnie już przy pierwszym czytaniu literówek i różnego rodzaju drobnych problemów – stylistycznych, typograficznych, bibliograficznych, które będą musiały zostać poprawione przed ewentualną publikacją pracy w formie książkowej. Jakkolwiek trudno mi zaakceptować ten fakt, który nie powinien mieć miejsca w dyscyplinie humanistycznej, nie wpływa on w żaden sposób na wartość merytoryczną pracy. Listę szczegółowych uwag tego rodzaju przekazałem już wcześniej autorowi i nie będę jej tu zamieszczał.
Konkluzja
Podsumowując stwierdzam, iż przedłożona mi do recenzji rozprawa, której autorem jest mgr Daniel Ziembicki, zawiera pożyteczne osiągnięcia z dziedziny językoznawstwa. Dodatkowo Doktorant wykazał się także umiejętnością wykorzystania narzędzi informatycznych do badań językoznawczych.
Recenzowana praca spełnia wymagania ustawowo stawiane rozprawom doktorskim, zatem wnoszę o to, by mgr Daniel Ziembicki został dopuszczony do publicznej obrony.
Maciej Ogrodniczuk