• Nie Znaleziono Wyników

Powierzchniowe przetwarzanie tekstów polskich

N/A
N/A
Protected

Academic year: 2021

Share "Powierzchniowe przetwarzanie tekstów polskich"

Copied!
8
0
0

Pełen tekst

(1)

Janusz S. Bień

Powierzchniowe przetwarzanie tekstów polskich

29 maja 1995 Wstęp

W niniejszym artykule chciałbym przedstawić pewne wyniki dotyczące m.in. przetwa- rzania języka polskiego na poziomie morfologicznymi. Za prekursora tego typu prac trzeba niewątpliwie uznać nieżyjącego już prof Jana Tokarskiego, który w latach 1961-1964 opubli- kował na łamach Poradnika Językowego cykl artykułów pod zbiorczym tytułem Fleksja polska, jej opis w świetle możliwości mechanizacji w urządzeniu przekładowym. Najbardziej

znanym jego dziełem są jednak tablice odmiany opracowane na potrzeby opublikowanego w latach 1958-1969 Słownika języka polskiego PAN pod red. Witolda Doroszewskiego, a przedrukowywane z niewielkimi zmianami niemal w każdym słowniku języka polskiego i niektórych dwujęzycznych.

W rzeczywistości Jan Tokarski był autorem nie tylko tablic odmiany i odpowiedniego fragmentu wstępu do tego jedenastotomowego, liczącego około 120000 haseł słownika, ale całej koncepcji opisu odmiany wyrazów w słowniku; był on w szczególności również autorem instrukcji dla redaktorów przygotowujących opisy fleksyjne poszczególnych haseł. Koncepcja ta charakteryzowała się uznaniem tabel i opisów przy poszczególnych hasłach za nierozłączną całość - przy haśle należało wskazać tabelę i odnotować tylko ewentualne wyjątki od reguł ogólnych. W rezultacie ten największy z polskich słowników po raz pierwszy w historii polskiej leksykografii podawał - przynajmniej w założeniu - pełną informację o odmianie opisywanych w nim wyrazów.

Dzięki polonistYcznym zainteresowaniom mojego starszego brata dysponowałem tym słownikiem w domu i często z zainteresowaniem go przeglądałem. W czerwcu 1968 jako stu- dent matematyki na Uniwersytecie Warszawskim przedstawiłem na seminarium z teorii maszyn - prowadzonym przez Stanisława Waligórskiego - opracowany z własnej inicjatywy

program odmiany czasowników korzystający z tabel Tokarskiego; program ten spotkał się z

dużym zainteresowaniem. Problematyką językową zajmowałem się nadal po zakończeniu

studiów i zatrudnieniu w Instytucie Maszyn Matematycznych - obecnie noszącym nazwę

Instytutu Informatyki - Uniwersytetu Warszawskiego; dzięki życzliwości prof - wówczas

(2)

doktora - Waligórskiego i m.in. dyrektora Instytutu prof Stanisława Turskiego mogli wkrótce dołączyć do mnie jako etatowi pracownicy dwaj koledzy; nieco później nasze prace z tego zakresu zostały włączone do problemu węzłowego kierowanego przez wieloletnią

dziekan wydziału i światowej sławy matematyka prof Helenę Rasiową.

Nawiązałem również kontakt ze znanym mi dotąd tylko z nazwiska profesorem - wówczas docentem - Tokarskim, który także przyjął mnie bardzo życzliwie. Z jego inicjatywy poprowadziłem w roku 1970/71 na Wydziale Polonistyki wykład pod tytułem Automatyczne przetwarzanie tekstów, a także przygotowałem pierwsze swoje artykuły dla

poważnych wydawnictw polonistycznych (por. [tl]). Wspominam o tym m.in. dlatego, że na ~ konferencji Język i Technologia (poznań, maj 1995) można było usłyszeć, że w tych latach nie było w Polsce gdzie prowadzić komputerowych badań języka naturalnego - jak widać, moje doświadczenia nie potwierdzają tej tezy. Co więcej, to właśnie w tym okresie był najbardziej aktywny gdański zespół Ludwika Wierzbowskiego i Bronisława Rocławskiego -

Wierzbowski organizował m.in. obozy naukowe dla studentów, a telewizja poświęciła mu specjalny program pod tytułem Językoznawca za pulpitem komputera.

Problematyce przetwarzania tekstów pozostałem wiemy do dnia dzisiejszego, choć przeważnie zajmowałem się tym tematem równolegle z innymi obowiązkami. Do czasu swojej emigracji do Kanady systematycznie współpracował ze mną Stanisław Szpakowicz, od dłuż- szego czasu współpracuje ze mną Krzysztof Szafran. Rozwija się również pomyślnie współ- praca z lingwistami, przede wszystkim z prof Zygmuntem Salonim i jego uczniami.

Aparat pojęciowy

Było dla mnie od samego początku rzeczą oczywistą, że tradycyjny aparat pojęciowy nie jest wystarczający do ścisłego opisu morfologii polskiej - w niektórych przypadkach był on niewystarczająco precyzyjny, w niektórych wypadkach był zaś po prostu niewygodny. W związku z tym problem konstrukcji odpowiednich pojęć i terminów przewija się w niemal wszystkich moich pracach; znaczącym etapem był tutaj artykuł [4], najnowsze wersje są za- warte w pracach [8] i [9].

Jednym z kluczowych pojęć jest pojęcie wyrazu. Oczywiście, nie do przyjęcia było sta-

nowisko niektórych lingwistów, że wyrazu zasadniczo zdefiniować nie można ([8], s. 13). W

rzeczywistości tradycyjne pojęcie wyrazu jest używane w sposób wieloznaczny, co w naturalny

sposób prowadzi niekiedy do konfliktów; innymi słowy, mamy wiele różnego typu wyrazów,

(3)

co w miarę możliwości należy zaznaczać jawnie używając tego słowa z odpowiednim przymiotnikiem.

Podstawowe rozróżnienie, wprowadzone jeszcze przez Tokarskiego, to wyraz paradygmatyczny i wyraz syntagmatyczny. Ten pierwszy to abstrakcyjny obiekt będący elementem słownika (można go sobie wyobrażać jako zbiór odpowiednich form fleksyjnych), ten drugi to jego adaptacja do jego kontekstu użycia (można go sobie więc wyobrażać jako konkretną form fleksyjną). W obydwu wypadkach możemy mieć do czynienia z konkretnym egzemplarzem (Druga strona książki zaczyna się od wyrazu kot - może to znaczyć, że zaczyna się ona napisem kot lub np. napisem koty) lub prototypem (wyraz kotek to rzeczownik w mianowniku liczby pojedynczej, wyraz kotek to zdrobnienie wyrazu kot).

W praktyce interesują nas tylko teksty kodowane. Możemy je analizować unilateralnie - tj. korzystając tylko z informacji zawartej bezpośrednio w tekście -lub bilateralnie, tj.

korzystając z naszego rozumienia treści tekstu i znajomości języka naturalnego, w którym jest napisany. Często terminu wyraz używa się zamiennie z terminem słowo, ale ja przez słowo rozumiem wyłącznie jednostki unilateralne, czyli napisy spełniające pewne zadane warunki.

Niektóre ze słów mająjakieś znaczenie, są więc wyrazami pewnego języka. Wydaje się wygodne posługiwać się całą hierarchią wyrazów, w zależności od tego, jakie aspekty ich znaczenia lub funkcji nas w danym momencie interesują; wyrazy wyższego rzędu są reprezentowane przez wyrazy niższego rzędu, nazywane ich ksztahami. Dla przykładu, konkretny wyraz morfologiczny czy może być pisany łącznie z wyrazem morfologicznym ś tworząc wyraz grafemiczny czyś, który jest reprezentowany w tekście przez swój ksztah typograficzny (np. Czyś zwariował?).

Jest sprawą konwencji, do jakiej dziedziny zaliczać szczegółowe analizy struktury tekstu kodowanego i jego graficznej reprezentacji, tym niemniej potrzeba takich badań jest coraz bardziej widoczna m.in. w pracach normalizacyjnych dotyczących kodowania znaków i składania tekstów (por. [10]).

Składanie tekstów i zasoby lingwistyczne

W związku z tym, że nasze zainteresowania dotyczyły całego języka, a nie tylko jego

niewielkiego podzbioru, widać było wyraźnie potrzebę dysponowania bardzo szczegółową in-

formacją lingwistyczną w postaci czytelnej dla komputera, a także obszernych zbiorów tekstów

- nazywanych przez lingwistów korpusami - do jej weryfikacji. Przygotowanie takiej

(4)

infonnacji tylko i wyłącznie na potrzeby komputerowego przetwarzania tekstów wydawało się mało realne. Rozwiązaniem bardziej ekonomicznym, a może nawet jedynym realistycznym, mogło być wykorzystywanie tekstów zwykłych publikacji lingwistycznych (w tym słowników) wprowadzanych do komputera na potrzeby składu komputerowego w trakcie

przygotowywania publikacji do druku. Był to jeden z powodów, dla których - będąc odpowiedzialnym w Instytucie za publikację raportów instytutowych - dążyłem do jak najwcześniejszego wprowadzenia składu komputerowego, a następnie do udoskonalania jego narzędzi.

Punktem wyjścia był zastany już przeze mnie program składu dla komputera GIER ([11,]), następnym etapem było wdrożenie do eksploatacji na komputerach ODRA 1300 sys- ~ temu CCS finny ICL ([18D, ale punktem przełomowym było pojawienie się systemu TeX

(['ltD. Z dużym trudem udało nam się uzyskać taśmę dystrybucyjną wersji 0.8 i zaadaptować ':ł

system do najbardziej wówczas dostępnego komputera RIAD ([~). Trwałym osiągnięciem C;

tego okresu są wzorce dzielenia wyrazów dla języka polskiego [1~, które po niewielkich ~ zmianach są powszechnie używane do dzisiaj.

Za pomocą systemu TeX były później złożone m.in. takie prace jak opracowany przez Krzysztofa Szafrana tom zbiorczy frekwencyjnego słownika języka polskiego [14], a także prace [24] i [17]. Z różnych powodów nie zostały zrealizowane zamiary stworzenia korpusów tekstów; w tej chwili do celów testowych wykorzystywany jest korpus przygotowany na po- trzeby wspomnianego wyżej słownika frekwencyjnego ([14D.

Synteza morfologiczna

Już pierwsze eksperymenty z infonnacją morfologiczną ze słownika Doroszewskiego pokazały, że z różnych względów nie jest ona w pełni wiarygodna [3]. Składały się na to dwa powody. Po pierwsze, reguły interpretacji infonnacji przyhasłowej nie były dostatecznie jasno zdefiniowane, zawierały luki, przeoczenia, a także celowe odwoływanie się do wiedzy użyt- kownika. Po drugie, zdarzały się również błędy i pomyłki w poszczególnych artykułach hasło- wych. Nie ulegało wątpliwości, że niedostatki pierwszego typu warto usunąć tworząc nową notację, nazywaną przez nas roboczo zmodyfikowaną notacją Tokarskiego. Prace nad nią z07

stały podsumowane w książce [8] (por. także [l~D. /l.

Druga przyczyna braku pełnej wiarygodności słownikowej infonnacji morfologicznej

to po prostu pomyłki redaktorów poszczególnych haseł czy nawet błędy wprowadzone w

(5)

trakcie składu. Ręczna weryfikacja tej informacji dla 120 000 haseł to duże przedsięwzięcie wymagające udziału kompetentnych lingwistów; pracę tę wykonał w latach 1979-1982 prof Zygmunt Saloni ze swoimi magistrantami (por. [15]).

Wyniki obu tych nurtów prac były zgodne co do jednego - ponieważ słownik Doro- szewskiego był opracowywany w kolejności alfabetycznej, a więc bez możliwości uzyskania najpierw ogólnego obrazu gramatycznych własności opisywanego słownictwa, wiele podjętych decyzji okazało się w praktyce nieoptymalnych. Nasunęło to ideę stworzenia słownika grama- tycznego języka polskiego, który oferowałby opis bardziej szczegółowy, a jednocześnie bardziej zwięzły i elegancki; choć wykonano już pewne prace wstępne ([ 16]), dalsze losy tej idei nie są jeszcze przesądzone.

Analiza morfologiczna

Celem informacji fleksyjnej w słownikach było umożliwienie użytkownikowi tworzenia form fleksyjnych danego wyrazu, czyli synteza morfologiczna. W praktyce przetwarzania tek- stów ważniejsze jest przeważnie zadanie odwrotne - rozpoznanie konkretnego napisu jako formy fleksyjnej pewnego wyrazu lub wyrazów; zadanie to nazywamy analizą morfologiczną.

Szczególnym przypadkiem analizy jest hasłowanie, przydatne przy różnego rodzaju indeksach - nie interesują nas wówczas własności formy fleksyjnej, a tylko odpowiadająca jej forma ha-

słowa. W zasadzie możliwa jest analiza przez syntezę, tj. wygenerowanie dla danego zbioru wyrazów wszystkich jego form fleksyjnych, a następnie odszukiwanie analizowanego napisu w otrzymanym zbiorze, jest to jednak metoda nieefektywna m.in. ze względu na tzw. formy potencjalne, które praktycznie nie pojawiają się w rzeczywistych tekstach.

Prace nad zestawem reguł, pozwalających dokonywać analizy morfologicznej w sposób możliwie bezpośredni, zostały rozpoczęte przez prof Tokarskiego jeszcze w latach sześćdzie- siątych, ale potem z różnych powodów nie kontynuowane. Na dwa lata przed śmiercią przekazał on niedokończony rękopis do dalszego opracowania prof Saloniemu, który

koncepcję autora rozwinął i udoskonalił. Dzięki zrzeczeniu się przez spadkobierców prof To- karskiego praw majątkowych do tej pracy było możliwe nie tylko jej opublikowanie ([24]), ale i udostępnianie zainteresowanym jej tekstu na nośniku komputerowym.

Pierwszym komputerowym zastosowaniem tej pracy (nazywanej krótko indeksem To-

karskiego) był opracowany w 19.93r. przez Krzysztofa Szafrana program SAM (System Ana-

lizy Morfologicznej). Demonstrował on użyteczność tych reguł na przykładzie interakcyjnego

(6)

programu hasłowania, przydatnego np. do lingwistycznych obliczeń statystycznych ([1~]. ~ Istnieje już nowa wersja tego programu, która korzysta nie tylko z informacji z indeksu

Tokarskiego, ale także z informacji zawartych w pracy [16] (którą nazywam krótko indeksem Saloniego); dzięki temu może ona poprawnie analizować całe słownictwo ze słownika

Doroszewskiego (120 000 haseł). Obecnie trwają prace nad kolejną wersją programu SAM, która będzie lepiej przystosowana do wsadowego przetwarzania obszernych tekstów. Po jej ukończeniu - co nastąpi nie później niż w grudniu 1995 r. - wersja ta do celów

badawczych będzie udostępniana bezpłatnie; bliższe informacje na ten temat będzie można znaleźć w pliku, którego URL (Internet Uniform Resource Locator) ma postać

FTP://ftp.mimuw.edu.pl/pub/users/jsbien/teksty/czytajto.

Zakończenie

Ograniczona objętość niniejszego artykułu zmusiła mnie do koncentracji na sprawach uważanych przeze mnie teraz za najważniejsze. Czytelnikom zainteresowanym analizą skła- dniową tekstu proponuję zapoznanie się z książką Szpakowicza [21], opartą na pionierskiej pracy [20]; zawarty w pracy tekst programu, który nie został włączony do książki, jest dostępny za pomocą sieci - jego URL ma postać

FTP://ftp.mimuw.edu.pl/pub/users/jsbien/mainframe/;tamteż są

dostępne jego modyfikacje i wyniki testów. Do wyników Szpakowicza nawiązuje książka [22], a także artykuł [2], będący skróconą wersją pracy [1]. Czytelników zainteresowanych moimi poglądami na temat semantyki języka naturalnego odsyłam do artykułu [6] i prac w nich cytowanych.

Dla pełności obrazu warto wspomnieć, że w Instytucie Informatyki działały również inne zespoły zajmujące się problematyką języka naturalnego; bliższych informacji na ten temat należy szukać w bibliografiach Instytutu, które okazywały się od 1977 do 1989 roku i były do- stępne w ORW PAN.

Prace cytowane

[1] M. Bańko. Analiza polskich fraz rzeczownikowych testem adekwatności i efektyw- ności parsera Szpakowicza. Praca magisterska (opiekun 1. S. Bień), Instytut Informatyki UW, 1985.

[2] M. Bańko. Niektóre problemy oceny adekwatności gramatyk (na przykładzie frag-

mentu gramatyki Szpakowicza). Studia Gramatyczne IX (1990), s. 55-72.

(7)

[3] 1. S. Bień. Algorytmizacja fleksji polskiej - problemy i perspektywy. Maszyny Matematyczne, r. V nr 5, s. 15-18, maj 1969.

[4] 1. S. Bień, Z. Saloni. Pojęcie wyrazu morfologicznego i jego zastosowanie do opisu fleksji polskiej (wersja wstępna). Prace Filologiczne, XXXI, s. 31-45, 1982.

[5] 1. S. Bień, H. Kołodziejska. TEX for RIAD computers. In Dario Lucarella, editor, Proceedings of the first European Conference on TEX for Scientific Documentation, Como, Italy, pages 133-140. Addison-Wesley, Reading, Mass., 16-17 May 1985.

[6] 1. S. Bień. Articles, Word Order and Resource Controi Hypothesis. Joseph L. Mey (ed.), Language and Discourse: Test and Protest. John Benjamins, Amsterdam 1986, pp 433- 434.

[7] Janusz Stanisław Bień. Co to jest TEX? Wiadomości Matematyczne, r. XXIX nr 1, s. 131-156, 1990. Internet URL

FTP://ftp.mimuw.edu.pl/pub/users/jsbien/teksty/cttex90/.

[8] 1. S. Bień. Koncepcja słownikowej informacji morfologicznej ijej komputerowej weryfikacji, Rozprawy Uniwersytetu Warszawskiego t. 383. Wydawnictwa Uniwersytetu War- szawskiego, Warszawa, 1991. Errata - patrz Internet URL

,

FTP://ftp.mimuw.edu.pl/pub/users/jsbien/teksty/koncepcja9I/.

[9] 1. S. Bień. Uwagi o porządku alfabetycznym i leksykograficznym. Prace Języko- znawcze Uniwersytetu Gdańskiego t. 16, s. 51-59. Gdańsk 1992.

[10] 1. S. Bień. Wybrane standardy przetwarzania tekstów. Konferencja Komputerowa Analiza Tekstu, Karpacz, 16-18.11.1993. Internet URL

FTP://ftp.mimuw.edu.pl/pub/users/jsbien/teksty/karpacz93/.

[11] Frank F. Gladney. Jan Tokarski Redivivus. Joumal of Slavic Linguistic vol. 2 no.

2, 1994, pp 304-317.

[12] E. Kaczmarska. Automatyczne łamanie tekstów wydawniczych. Sprawozdania, z.

17, ZON i Katedra Metod Numerycznych UW, 1968.

[13] H. Kołodziejska. Dzielenie wyrazów polskich w systemie TeX. Sprawozdania In- stytutu Informatyki UW nr 165, IInfUW 1987.

[14] I. Kurcz, A. Lewicki, 1. Sambor, K. Szafran, 1. Woronczak. Słownikfrekwencyjny

współczesnej polszczyzny pisanej. Instytut Języka Polskiego PAN, Kraków 1990.

(8)

[15] Z. Saloni (red.). Studia z polskiej leksykografii współczesnej. Ossolineum 1988.

[16] Z. Saloni. Słownik gramatyczny języka polskiego - wersja przedwstępna. Praca niepublikowana, 1994.

[17] Z. Saloni, T. Wróblewska, K. Szafran. Ortograficzny słownik ucznia. Wydawnic- two Naukowe PWN, Warszawa 1993.

[18] K. Szafran. System automatycznego składania tekstów. Praca magisterska (opiekun M. Grzymkowski), Instytut Informatyki UW, 1978.

[19] K. Szafran. Automatyczna analiza fleksyjna tekstu polskiego (na podstawie Sche- matycznego indeksu a tergo Jana Tokarskiego. Praca doktorska (promotor Z. Saloni), Wydział Polonistyki UW, 1993.

[20] S. Szpakowicz. Automatyczna analiza składniowa polskich zdań pisanych, praca doktorska (promotor S. Waligórski), Instytut Informatyki UW, 1978.

[21] S. Szpakowicz. Formalny opis składniowy zdań polskich, 2. wyd. Wydawnictwa Uniwersytetu Warszawskiego 1986.

[22] Marek Świdziński. Gramatyka formalna języka polskiego. Wydawnictwa Uniwersytetu Warszawskiego 1992.

[23] Jan Tokarski. Dialog: człowiek - maszyna cyfrowa. Poszukiwanie wspólnego ję- zyka. Prace Filologiczne, XXIII, s. 183-185, 1972.

[24] Jan Tokarski (opracowanie i redakcja Zygmunt Saloni). Schematyczny indeks a

tergo polskich form wyrazowych. Wydawnictwo Naukowe PWN, Warszawa 1993.

Cytaty

Powiązane dokumenty

W razie uzyskania pisemnej zgody na jego udostępnienia na takich lub po- dobnych zasadach od właścicieli praw autorskich korpusu, podejmiemy kroki, aby korpus stał się

Wersja wzbogacona, zapisana na płycie w katalogu Korpus wzbogacony, powstała poprzez automatyczne uzupełnienie i rozbudowanie informacji mor- fologicznej zgodnie z

Z tego też względu formy czasów złożonych typu będę jechał, pojechali byli traktuje się jako składające się z dwóch odrębnych słowoform; funkcje tych słowoform jako

ten dencje do absolutyzow ania cech indyw idualnych zjaw isk ora-/ neokantow ska filozofia w arto ści — jak zasada selekcjonow ania i oceiny wydairzeń pod kątem

Stwierdzam, że liczba kopert i arkuszy egzaminacyjnych wykazana na kopertach jest zgodna z danymi zawartymi w zbiorczym protokole przekazania/odbioru dokumentacji

[r]

Że nie rozum ieją specyfiki

Może się jednak zdarzyć, że plenum rady narodowej nie zatwierdzi uchwały prezydium o powołaniu. Powstaje wtedy pytanie, jakie to będzie miało skutki dla