Programy komputerowe w analizie dzieła Krystiana i przekazów pokrewnych

Rozdział IV. Badania tekstualne nad Legendą Krystiana i inną hagiografią świętego

4.3. Legenda Krystiana w świecie hagiografii świętych Wacława i Ludmiły

4.3.1 Programy komputerowe w analizie dzieła Krystiana i przekazów pokrewnych

Zasygnalizowane powyżej okoliczności sprawiają, że bardzo często trudno jest jasno i jednoznacznie rozstrzygnąć, który tekst był wcześniejszy, a którego późniejszy.

Aby móc zmierzyć się z problematyką zawiłych powiązań między źródłami, postanowiłem skorzystać z pomocy trzech programów komputerowych. Są to specjalne programy napisane w celu przeprowadzania pogłębionych analiz pomiędzy wskazanymi plikami, zawierającymi łacińskie teksty. Programy mają następujące nazwy:

a) „Similar phrase detector” (wykrywacz podobnych zwrotów);

b) „Similar sentence detector” (wykrywacz podobnych zdań);

c) „Text affinity module” (moduł bliskości tekstów);

251 Tzw. Pierwsza Starosłowiańska Legenda o św. Wacławie posiada jeszcze redakcję chorwackogłagolicką. Por. Josef Vajs, Charvátskohlaholská redakce původní staroslov. legendy o sv.

Václavu, [w:] Sborník staroslovanských literárních památek o sv. Václavu a sv. Ludmile, wyd. J. Vajs, Praha 1929, s. 31-43. Na s. 36-43 znajduje się edycja tekstu tej redakcji a także przekład na język czeski.

Pierwszy z nich bada podobieństwa konkretnych łacińskich fraz pojawiających się w badanych tekstach. Program przeszukuje całą treść obydwu badanych utworów, a w wynikach wskazuje na wspólne frazy, które występują w porównywanych tekstach.

Program posiada dwie podstawowe opcje pracy z tekstem. Pierwsza opcja sprowadza się do tego, że program znajduje identyczne frazy w obydwu tekstach; druga natomiast pozwala na skorzystanie ze specjalnego słownika. Aktywowanie jej oznacza, że program porównując dane teksty, każde ze słów obydwu tekstów sprowadza do podstawowej formy (lematyzacja), tak jak zapisano je w słowniku. Dopiero tak zmodyfikowane słowa porównuje ze sobą, a następnie, przygotowując wyniki do pliku przywraca pierwotne formy, tak jak występują w tekście. Dzięki temu program „wie”, że zarówno habeatis, jak i habeamus wywodzą się od czasownika habeo, habere, habui, habitum. Cały wspólny tekst, w tym ten sprowadzony do podstawowych form oraz przywrócony do form wyjściowych, jest zaznaczany poprzez pogrubienie. Ta funkcja, opierająca się na łacińskiej lematyzacji, pozwala wykryć wspólne frazy nawet w wypadku, gdy porównywane zwroty różnią się między sobą pod względem fleksyjnym.

Często się zdarza, że frazy nie tylko różnią się pod względem fleksji, ale także zmiany kolejności wyrazów lub wtrącenia jednego czy więcej wyrazów dodatkowych. Otóż ta druga opcja wyposażona została w specjalny mechanizm, który pozwalał wykryć wspólne frazy, nawet gdyby różniły się one szykiem lub wstawieniem jednego czy więcej dodatkowych wyrazów. Mianowicie w opcji tej można skorzystać z tzw.

„przeskoku” w badanych utworach tzn. istnieje możliwości wyszukania wspólnej frazy, mimo iż w jej szyku doszło do „przeskoku” o jedno, dwa, bądź trzy słowa.

Jeżeli w badanym tekście skorzystamy z funkcji przeskoku o jedno słowo oznacza to, że program porównując dwa teksty, gdy napotka następującą frazę:

(Crescente fide, rękopis monachijski CLM 4605: Super omnes docentes me intellexi, quia testimonia tua meditacio mea est oraz: Legenda Krystiana G5, pisownia średniowieczna Super omnes docentes me intellexi, quia mandata tua meditacio mea est) to zestawi powyższe zdania jako jedną frazę, mimo że obydwa teksty różnią się jednym słowem w obrębie tej frazy. Gdyby nie było tej funkcji, tj. w tym wypadku przeskoku o jeden wyraz, to powyższa fraza zostałaby odnotowana jako dwie odrębne.

Oczywiście autopsja tekstu prędzej czy później skorygowałaby ten brak precyzji, ale przy porównywaniu wielu tekstów lepiej od razu dysponować wynikiem, który w pełni

ilustruje podobieństwo, a jednocześnie informuje o różnicach, które widoczne są jak na dłoni; w naszym wypadku chodzi tu o słowa testimonia Crescente fide) oraz monumenta (Legenda Krystiana). Odpowiednio program potrafi uwzględnić przerwę na dwa słowa albo maksymalnie na trzy. Dzięki tej możliwości potrafi wskazać ciągi fraz, które zostały rozbite jednym, dwoma czy trzema słowami. Funkcja ta jest równie przydatna, gdy szyk wyrazów frazy został zmieniony, co często się zdarza.

Drugi program o nazwie „Similar sentence detector” analizuje i porównuje całe zdania od kropki do kropki w obydwu tekstach. Ten program już w swoim podstawowym działaniu posługuje się wyżej wspomnianym słownikiem, przeprowadzając za jego pomocą lematyzację kolejnych zdań. Gdy wszystkie wyrazy zdania zostają sprowadzone do podstawowych form fleksyjnych, program zestawia zdania obydwu tekstów, rozpoczynając od zdań najbardziej podobnych, czyli tych które mają najwięcej wspólnych wyrazów w formach podstawowych. Zanim jednak program wyświetli zestawienie takich pokrewnych zdań, zostają one przywrócone do formy początkowej, tj. występującej w tekście. Wspólne fragmenty w obrębie zdań, mimo różnic fleksyjnych, program podkreśla pogrubieniem (boldem). Program ma kilka opcji w ustawieniach. Pierwsze ustawienie określa, ile najbardziej podobnych zdań dla obydwu tekstów ma zostać zaprezentowane w wynikach. Druga możliwość to dopisanie listy słów, które program wykluczy z porównywania badanych utworów. Chodzi tu o wyrazy, które często występują w tekście (np. et, ac, qui), przez co program może uznać mechanicznie, że najbardziej podobne są dwa zdania, w których po kilka razy występują takie wyrazy. Ponieważ nie ma to nic wspólnego z rzeczywistym podobieństwem, to w programie przewidziano możliwość zablokowania takich i innych dowolnych słów.

Blokada ta występuje tylko na poziomie ustalania „rankinguˮ najbardziej podobnych zdań; kiedy jednak już taki „rankingˮ zostanie przez program ustalony i program wyświetla pokrewne zdania, to wszystkie paralelne wyrazy, a w tym też zablokowane, są wyświetlane pogrubioną czcionką. Trzecie ustawienie to podanie, jak długie musi być najkrótsze słowo, które zostanie uwzględnione przy porównaniu. Jak wiadomo, wiele często występujących słów liczy dwie, trzy, ewentualnie cztery litery; chcąc zatem pominąć owe wyrazy, nie trzeba oddzielnie blokować wielu słów (np. et, ac, qui, que, qua, sed, ad, de, ipse, ipsa itd.), a wystarczy polecić programowi, aby w

„rankinguˮ porównania uwzględniał tylko wyrazy liczące więcej niż dwie, trzy czy

cztery litery. Funkcja ta służy do tego, aby program nie podawał wyników opartych na bardzo krótkich słowach, takich jak wymienione spójniki czy zaimki, ponieważ możemy znaleźć je wszędzie w utworach łacińskich i ich uwzględnienie może zaburzyć wyniki.

Ostatni program, „Text affinity module”, bada ogólne podobieństwo pomiędzy całymi tekstami. W pierwszym rzędzie wskazuje on w wynikach wspólne słowa, które pojawiają się w obydwu tekstach. Następnie podaje on, jaki procent słów z tekstu pierwszego występuje w drugim tekście i odwrotnie. W wynikach program pokazuje także występowanie słów w podstawowych formach słownikowych w obydwu tekstach, a następnie zestawia listę słów występujących w obydwu tekstach w formach, takich jakie pojawiają się w tekście. Program ten wykorzystałem jedynie przy wewnętrznych badaniach nad samą Legendą Krystiana. Przy innych badaniach ograniczyłem się do posługiwania dwoma wcześniej wspomnianymi programami. Zaznaczę jeszcze, że programy komputerowe służyły do zebrania materiału porównawczego, który dopiero – po koniecznych korektach – stał się podstawą do dalszych badań, przeprowadzonych już metodami tradycyjnymi.

W dokumencie Legenda Krystiana – autentyk czy mistyfikacja? Żywot i męczeństwo św. Wacława i św. Ludmiły w świetle analizy historycznej i filologicznej (Stron 112-115)