• Nie Znaleziono Wyników

Słowniki elektroniczne i korpusologia

W dokumencie Spis treści (Stron 54-59)

III. LINGWISTYCZNY CHARAKTER KORPUSOLOGII

1. Słowniki elektroniczne i korpusologia

W kontekście zastosowania komputerów zmiany w leksykografii zapoczątkowały się w latach 60. XX wieku (por. Kučera, Francis 1967), w czasach, gdy w Stanach Zjednoczonych powstały pierwsze elektroniczne korpusy języka angielskiego. Obecnie korpusologia jest w duŜej mierze spokrewniona z leksykografią. MoŜna powiedzieć, Ŝe jest jej współczesną gałęzią.

Leksykografię moŜna w jej obecnym stanie podzielić na tradycyjną (ograniczoną słownikami drukowanymi) oraz komputerową. Badacze sygnalizują zmiany zachodzące w leksykografii polskiej i w krajach postkomunistycznych (Piotrowski 20012, Леонтьева 1997). T. Piotrowski uwaŜa, Ŝe „coś nowego mogą wnieść jedynie systematyczne badania języka na duŜą skalę [podkr. – J.F.], zwłaszcza badania semantyczne” (Piotrowski 2001: 52).

Przemiany w leksykografii oraz pojawienie się korpusologii zostały spowodowane

„masowym upowszechnieniem komputerów (w latach osiemdziesiątych)” (Piotrowski 2001:

53), a takŜe rozwojem procesorów klasy Pentium (od roku 1997) i „ekspansją tekstów w postaci elektronicznej” (Wierzchoń 2005a: 233). Zdaniem Piotrowskiego:

(...) specjaliści, zajmujący się komputerowym przetwarzaniem języka naturalnego, gdy odczuwali brak usystematyzowanych danych odnoszących się do leksyki, czy w ogóle do

2 Piotrowski wskazuje, Ŝe „koniec XX i początek XXI wieku jest momentem przełomowym dla leksykografii, która z dziedziny o niezwykle zachowawczych, tradycyjnych metodach, które moŜna nazwać filologicznymi, przeradza się powoli w dyscyplinę z pogranicza językoznawstwa i informatyki, scalającej metody lingwistyki komputerowej z komputerowymi procedurami produkcji wydawnictw ksiąŜkowych i elektronicznych”

(Piotrowski 2001: 52).

III. Lingwistyczny charakter korpusologii

języka, zwrócili się właśnie do słowników jako do zasobników takich danych (Piotrowski 2001: 53).

To właśnie automatyczne techniki operowania danymi na tle językoznawczo- -leksykograficznym zaczęły wymagać konkretnego naukowo-inŜynieryjnego sprecyzowania

metodologii prac. W pracy z wielkimi masami tekstu badacz wyzyskuje wyłącznie elementy graficznie niezmienne3. Elektroniczna analiza kaŜdego aspektu językowego – to praktyka polegająca na precyzowaniu własności konkretnych graficznych jednostek językowych i ich inwariantów. Komputerowe techniki wymagają dodatkowych, informatycznych, inŜynieryjnych metod pracy: (np. Daciuk 1999, Graliński 1998, Graliński, Krynicki 2000, Koval et al. 2000, Kučera 2002, Obrębski 1998, Oflazer 1996, Sgarbas et al. 2003, Suszczańska et al. 2000, Vetulani et al. 19984). Obok zalet tworzenia słowników drogą korpusowo-tekstową istnieją jednocześnie pewne wady tych metod: w niektórych przypadkach nie sposób uniknąć zmiany atrybutów kopiowanego tekstu przy zachowaniu standardu5 (struktury, kodowania) danych tekstowych. Obecnie istnieją takŜe słowniki, które nie są przeznaczone do lektury, lecz słuŜą jako dane dla innego programu (np. Завьялова 2001, Леонтьева 1997), który się do nich odwołuje6: na przykład, programy do tłumaczenia tekstów, programy do tworzenia streszczeń itp. Na bazie korpusów tworzy się grunt do sprecyzowanej analizy gramatycznej (pewne własności gramatyczne uwidaczniają się wyłącznie właśnie w masowej analizie). W tym celu – w myśl Bogackiego (2002) – konstruuje się specjalne (w tradycyjnym sensie – leksykograficzne) bazy danych7, oparte na treści słowników tzw. klasycznych (drukowanych).

Wówczas takie bazy określano mianem biblioteka (biblioteki) danego programu. Tak na

3 Warto w tym miejscu dodać: „(...) naleŜy podkreślić: program komputerowy dysponuje jedynie postacią graficzną słów. Oznacza to, Ŝe niedostępne są w procesie analizy graficznej Ŝadne inne informacje, poza informacjami właśnie graficznymi” (Wierzchoń 2005a: 234).

4 Por. dane bibliograficzne w pracach Bańko 2001, 2002.

5 Na przykład: SGML, XML, HTML.

6 W literaturze przedmiotu nie ma, naturalnie, jednoznacznej definicji słownika elektronicznego. Według Bogackiego moŜe to być słownik wydany wpierw w formie drukowanej, ksiąŜkowej, a następnie umieszczony (przepisany, zeskanowany) na nośniku cyfrowym (por. Bogacki 2002: 6). Słowniki, które zostały stworzone „dla potrzeb aplikacji informatycznych” (Bogacki 2002: 6), „zasługują na miano słowników elektronicznych” (Bogacki 2002: 6). Wśród słowników elektronicznych autor powyŜszych cytatów wyróŜnia tzw. słownik morfologiczny, który pełni funkcję załącznika (modułu) dołączonego do systemów algorytmów pozwalających na automatyczne połączenie form kanonicznych z grupami koniugacyjnymi, deklinacyjnymi itp. Bogacki wyróŜnia takŜe tzw.

słownik transferowy (dla potrzeb programów tłumaczących dotyczącej selekcji odpowiedników w słownikach dwujęzycznych) (por. Bogacki 2002: 7).

7 Bogacki zwraca uwagę równieŜ na krótkie (dziewięciowyrazowe) listy leksemów (por. Bogacki 2002: 5).

III. Lingwistyczny charakter korpusologii

przykład, biblioteki dla programu Lemmtizer8 są zbudowane na podstawie Грамматического словаря русского языка А.А. Зализняка (Зализняк 1987). W podobnych sytuacjach niektóre dane są zmienione dla potrzeb technicznych9. Z powodu polisemiczności (wieloznaczności) rzeczowników typu сапоги, сигареты, усы (w słowniku Зализняка) przewidziano formy zarówno w liczbie pojedynczej, jak i mnogiej. Jednak dla potrzeb technicznych warto np.

podawać formy tylko w liczbie pojedynczej, oprócz np. przypadków typu деньги, стихи. W takiej kategorii słowa w liczbie pojedynczej występują bardzo rzadko (morfoanalizator Lemmatizer wydaje moŜliwe warianty dla деньга, стих10). Oprócz tego istnieją przypadki róŜnych leksemów, np.: очко – очки, трус – трусы. С.А. Шаров (Шаров 2002) odnotowuje tzw. formy przejściowe (ros. переходные формы) w stosunku do przedstawionych przykładów, np. погоны (forma w l.p., której się uŜywa bardzo rzadko). Ta forma jednak istnieje:

Wyraz Lemma

погоны ПОГОНЫ

погоны ПОГОН

8 Szersza informacja na temat analizatora morfologicznego Lemmatizer – por. podrozdział V.2.

9 Na przykład, w słowniku РОСС (Русский общесемантический словарь) istnieje grupa pól kategorialnych zwanych w terminologii Н.Н Леонтьевой семантическими зонами: „(…) Зоны ЛЕКС, ЭКВ и ИЛЛ (ИЛЛ – поле иллюстраций (вводится для человека) [podkr. – J.F.]: дается пример наиболее типичного и полного контекста для описываемого значения слова.) описывают единицу С как лексему (сочетаемость, перевод, примеры)” (por. Леонтьева 1997: 5).

Dodatkowo warto wskazać, Ŝe w jednym słowniku – na przykład dwujęzycznym – moŜe być zawartych kilka słowników, funkcjonujących jako dodatkowe moduły, na przykład, syntaktyczne, morfologiczne. Bogacki mówi o słowniku morfologicznym wykorzystanego w BaDoLex_FP (Elektronicznym słowniku francusko-polskim).

W danym słowniku „przyjęty format zapisu umoŜliwia uwzględnienie informacji, takich jak: część mowy, struktura argumentów, przykład, dziedzina, oraz pozwala na uwzględnienie ograniczonej informacji o wewnętrznej strukturze hasła wielowyrazowego. MoŜliwa jest w przyszłości modyfikacja formatu celem dodania kolejnych informacji. W opisie odpowiedników polskich wykorzystuje się dane z elektronicznego słownika morfologicznego języka polskiego POLLEX (klasa morfologiczna wyrazu)” (Bogacki 2000: 17).

10 Np. analiza dla wyrazów (które z łatwością moŜna utoŜsamić z kategorią pluralia tantum) :

Wyraz Zawartość w słowniku Lemma

деньги +Фг ДЕНЬГА

стихи +Фа СТИХ

świadczy o tym, Ŝe w słowniku Зализняк 1987 wyrazy деньги, и стихи istnieją (znak +) oraz w mianowniku mają liczbę pojedynczą.

III. Lingwistyczny charakter korpusologii

W niektórych słownikach drukowanych, mających równolegle wersje internetowe (np.

Cambridge International Dictionary of English) w tzw. znaczeniach leksykograficznych poszczególnych haseł nie wprowadzono dokładnych oznaczeń semantycznych. One jednak istnieją w tekście elektronicznym i zostały równieŜ wykorzystane w wersji elektronicznej słownika, gdzie poszczególne hasła zawierają róŜnego rodzaju dane – np. na temat paradygmatycznych relacji między znaczeniami wyrazów występujących w tekście. W terminologii rosyjskiej takie dane nazwane są systemem aspektów reprezentacji informacji (Леонтьева 1997: 5). Wśród słowników elektronicznych w tym miejscu trzeba wyróŜnić słownik elektroniczny РОСС (Русский общесемантический словарь). РОСС jest słownikiem semantycznym11, ma zatem strukturę hierarchiczną, która jest uwidoczniona tylko w postaci elektronicznej, nieprzydatnej dla (oglądu, studiowania, percepcji) uŜytkownika-niespecjalisty.

Tzw. dolny poziom – to pola konkretnych znaczeń. Górny poziom – to tzw. зоны – imiona grup danych pól (zwane równieŜ семантическими зонами w pracy Крысин 2004). Wśród owych pól wyróŜnić moŜna pola odpowiadające za identyfikację jednostki wejściowej (jej numer i znaczenia), gramatyczne (zwłaszcza morfosyntaktyczne12) charakterystyki, ograniczenia morfologiczne, klasę syntaktyczną słowa i klasę standardową (gramemowo-syntaktyczną13) słowa w zdaniu, wartości sensu (ros. валентности – por. Леонтьева 1997: 2) itp. W taki sposób moŜna przeglądać słownik przynajmniej w dwóch trybach:

a) tzw. punktowym, gdy interesuje nas jedno hasło czy jedna jednostka leksykalna, b) systemowym, gdy czytelnika będą interesowały wszystkie powiązane ze sobą nazwy haseł czy jednostki leksykalne, np. kończące się na dany przyrostek lub wchodzące w jedną grupę semantyczną; inaczej mówiąc, moŜna przełączać się między trybem formalnym a onomazjologicznym.

Słowniki elektroniczne są niezwykle waŜne dla skutecznego (ekonomia korzystania ze źródła elektronicznego) uczenia się języka obcego. „Uhipertekstowione” tło informacyjne (medium) słownika elektronicznego jest wówczas o wiele większe i bardziej róŜnorodne (atrakcyjne), niŜ w słownikach tradycyjnych. Proces wyszukiwania w takich słownikach jest o wiele bardziej ergonomiczny niŜ w słowniku tradycyjnym, w którym:

11 Por. omówienie słowników semantycznych w referacie Сикорко 2001.

12 Por. równieŜ artykuł А.С. Старостина i М.Г. Мальковского (Старостин, Мальковский 2006: 381–

292) o problematyce składni w analizatorze (Treeton) morfologii i składni języka rosyjskiego.

13 Por. rozdział V.

III. Lingwistyczny charakter korpusologii

(…) the intended users have less than for general dictionaries, which complicates the process of finding the relevant information. An increased flexibility in the way information can be accessed can compensate for the limitations in the users’ knowledge of the language (Hacken et al. 2006: 243).

Jednym z takich słowników jest elektroniczny słownik polsko-włoski ELDIT (http://www.eurac.edu/eldit). ELDIT (Eletronisches Lernerworterbuch Deutsch-Italienisch) jest zakodowany w XML. Dostęp do podstawowego sposobu przeszukiwania w danym słowniku jest uporządkowany inaczej niŜ w prezentacji alfabetycznej (Hacken et al. 2006: 249): do kaŜdej wyszukanej formacji słownej podłączony jest link do hasła słownikowego. Do danego hasła z kolei są dołączone linki do rozproszonego (umieszczonego w Internecie) korpusu, zawierającego 800 tekstów w języku niemieckim i włoskim. Analogicznie kaŜde słowo korpusu jest dołączane do hasła słownikowego z punktu widzenia zasad formacji słownej (ang. word formation), która w słowniku jest przedstawiona w postaci tzw. rodziny słowa.

Obecnie tworzone są korpusy dzieł poszczególnych pisarzy. Tak m.in. pojawił się Словарь языка Достоевского Ю.Н. Караулова (Караулов 2003). Trudno w dzisiejszych czasach wyobrazić sobie sytuację, w której praca leksykografa odbywa się bez wykorzystywania moŜliwości korpusu tekstowego. Korpus umoŜliwia badanie frekwencji słów14 w tekstach, analizę kolokacji, ekscerpcję słów i ustalanie znaczeń (tzw. znaczeń leksykograficznych). G.

Vetulani podaje szereg (jak zapowiada sama autorka, „bez ambicji wyczerpania listy” (Vetulani 2000: 117) moŜliwości zastosowań metod opartych na korpusach i narzędziach informatycznych wykorzystujących wiedzę językoznawczą:

a) rozwijanie gramatyki opisowej oraz słowników (słowniki słów prostych, złoŜeń, kolokacji, określonych typów struktur zdaniowych itd.);

b) sprawdzanie intuicyjnych hipotez;

c) konfrontowanie modeli językowych z tekstowymi faktami językowymi;

d) wykorzystywanie uzyskanych danych do tworzenia modelu języka;

e) wykrywanie relacji między zjawiskami językowymi;

f) ustalanie normy;

g) określanie typologii tekstów i dokumentów;

14 Por. omówienie list frekwencyjnych w pracy Lewandowska-Tomaszczyk 2005: 34.

III. Lingwistyczny charakter korpusologii

h) wyszukiwanie informacji (np. na temat frekwencji wyrazów, kolokacji itd.);

i) przetwarzanie formatu dokumentów,

j) indeksowanie jednostek językowych, a takŜe tekstów, zbiorów tekstów, konstrukcji zdaniowych dla celów wyszukiwawczych;

k) ustalanie statystyki językoznawczej, dotyczącej na przykład: klasyfikacji jednostek językowych, występowania elementów w danym stylu (w jakiejś epoce, w idiolekcie danego autora) itd.

W dokumencie Spis treści (Stron 54-59)

Powiązane dokumenty