• Nie Znaleziono Wyników

ROZDZIAŁ 4. METODOLOGIA PRZEPROWADZONEGO BADANIA

4.7 Lingwistyka korpusowa

4.7.4 Anotacja korpusu językowego

Anotacja209 (ang. annotation), inaczej także indeksowanie (Wilson i Pęzik 2005: 65), kodowanie (ang. encoding) lub tagowanie (ang. tagging) (Baker, Hardie i McEnery 2006:

13), to proces dodawania210 do zapisanych w elektronicznej postaci zasobów językowych dodatkowych danych (metadanych) w formie interpretacji lub informacji lingwistycznych (por. Leech 1997: 2). Informacje lingwistyczne mogą mieć formę oznaczeń, m.in. części mowy (takie indeksowanie nazywane jest też indeksowaniem morfologiczno-składniowym [więcej por. Hardie, Levin i Pęzik 2005: 75–94]), relacji semantycznych pomiędzy poszczególnymi jednostkami tekstu, cech semantycznych słów w tekście, czyli ich znaczeń w korpusie lub oznaczeń fonetycznych, np. cech prozodycznych (por. więcej Wilson i Pęzik 2005: 65–74). Poniższa grafika (zob. grafika 34) prezentuje możliwe poziomy anotacji korpusu wg Leecha (1997: 12).

209 Pierwszej anotacji korpusu za pomocą komputera dokonano we wspomnianym wcześniej Korpusie Browna; użyto wówczas tagsetu składającego się z 77 różnych kategorii części mowy.

210 Pojęcie anotacji odnosi się również do produktu końcowego, będącego efektem opisanego procesu (por.

Leech 1997: 2).

178

Grafika 34: Poziomy anotacji korpusu wg Leecha (1997: 12)

Na osobnej grafice autor (Leech 1997: 13) prezentuje przykłady poszczególnych poziomów anotacji (zob. grafika 35).

179

Grafika 35: Przykłady w ramach poszczególnych poziomów anotacji korpusu wg Leecha (1997: 13)

Najbardziej podstawową formą anotacji jest dodawanie danych o tekście, w tym np.

o dacie jego powstania, jego rodzaju, autorze czy źródle. Anotacja ułatwia korzystanie z korpusu i zwiększa przydatność zasobów językowych (McEnery 2003: 453). Umożliwia badaczowi m.in. wyszukiwanie tekstów według poszczególnych kryteriów, a także przedstawienie określonych informacji o tekstach w formie kwantytatywnej. Wszystkie

180 dane należy umieścić w nagłówku tekstu. Wilson i Pęzik (2005: 65) prezentują przykład nagłówka z NKJP (zob. niżej).

<HEADER>

<CONTENT=text; char set=Windows-1250‘‘>

<TYPE=spoken-conversational>

<SOURCE> Rozmowa podczas korepetycji </SOURCE>

<AUTHOR>

<who1=female; 32; university>

<who2=female; 15; primary>

</AUTHOR>

<YEAR=2001>

<TRANSLATION=No>

<MEDIUM=PELCRA recording>

<RECORDING=Korki.mp3>

<TOTAL TIME=22:24>

<SAMPLE=sample>

</HEADER>

Anotowanie może dokonywać się także w sposób automatyczny, np. dla części mowy odbywa się dzięki programom tagującym, takim jak Part of Speech Tagger (w skrócie: POS Tagger). Najpierw opracowuje się tagset, czyli system kategorii morfologiczno-składniowych używanych w procesie tagowania części mowy. Jak piszą Hardie, Levin i Pęzik (2005: 77), pierwsze tagery „korzystały z własnych zestawów kategorii gramatycznych (Stolz 1965; Klein, Simmons 1963)‖. Obecnie tagery projektuje się tak, aby umożliwić analizę wielu języków, zgodnie z jednym przyjętym standardem211. Leech (1997: 6–7 por. także 1993: 275–281) podaje kilka zasad anotowania korpusu, które można podsumować w następujący sposób:

A. Możliwość przywrócenia korpusu do jego pierwotnej postaci: należy zapewnić możliwość łatwego usunięcia znaczników.

B. Możliwość wyodrębnienia z korpusu samych anotacji: należy zapewnić możliwość ekstrakcji znaczników oraz, w razie potrzeby, zapisania anotacji w osobnym miejscu.

C. Dokumentacja anotowania: użytkownik korpusu powinien mieć dostęp do informacji na temat:

a. schematu anotacji: dokumentu opisującego i wyjaśniającego schemat analizy (indeks znaczników);

211 Opisywany w dalszej części rozprawy standard EAGLES można stosować dla wielu języków indoeuropejskich (angielski, niderlandzki, niemiecki, francuski, hiszpański, portugalski, włoski i grecki), a także dla arabskiego i koreańskiego (por. Hardie, Levin i Pęzik 2005: 81).

181 b. jak, gdzie i przez kogo została przeprowadzona anotacja;

c. w razie potrzeby, wszelkich dodatkowych informacji dotyczących jakości anotacji, np. w jakim stopniu korpus został sprawdzony, jaki jest wskaźnik poprawności anotacji (np. procentowy wykaz anotacji ocenionych jako poprawne).

D. Neutralność schematów anotowania: schematy anotowania powinny być tworzone zgodnie z szeroko przyjętymi zasadami, które nie opierają się na jednej konkretnej teorii lingwistycznej; pozwala to na uniknięcie kontrowersji, co do samej interpretacji lingwistycznej anotowanego korpusu.

E. Standaryzacja: żaden schemat anotowania nie można a priori przyjąć za standardowy; to miano uzyskuje w miarę coraz szerszego stosowania.

Należy podkreślić za Leechem (1993: 275–281), iż nie zawsze możliwe jest zachowanie równowagi pomiędzy powyższymi pięcioma głównymi zasadami. W niektórych przypadkach należy wypracować praktyczny kompromis pomiędzy potrzebami użytkowników anotowanego korpusu a możliwościami jego twórców.

Do tej pory nie powstał jeszcze powszechnie przyjęty format anotowania. Niektóre istniejące standardy dotyczące kodowania metadanych w tekstach – jak piszą McEnery i Wilson (1996: 26), a także Wilson i Pęzik (2005: 63) – i zyskały one większą popularność.

Przykładem są indeksy COCOA, które zastosowano w znanym korpusie helsińskim czy korpusie Longman-Lancaster. Anotacja następuje poprzez dodanie nawiasu ostrokątnego

<>, zawierającego kod dla poszczególnej informacji i wartość przypisaną do kodu. Baker, Hardie i McEnery (2006: 35) podają przykład kodowania fragmentu tekstu jako indeks COCOA jako <pause 2>, oznaczającego pauzę trwającą dwie sekundy.

Przykładem kolejnego standardu anotowania jest, standard oparty na podstawowym języku znaczników SGML (ang. standard generalised markup language), TEI (ang. text encoding initiative), który pozwala kodować dowolny rodzaj informacji w tekstach elektronicznych. Poszczególne jednostki tekstu, takie jak akapity, zdania czy słowa, oznacza się w TEI za pomocą znaczników SGML, składających się ze znacznika otwierającego, zawartego między nawiasem ostrokątnym: <>, i znacznika zamykającego, zawierającego dodatkowo ukośnik: </ >. Pomiędzy znacznikiem <> a </ > znajduje się właściwy tekst. W standardzie TEI opis struktury tekstu znajduje się w Opisie Typu Dokumentu (ang. document type description), zawierającym definicje poszczególnych elementów, z których składa się tekst (por. Wilson i Pęzik 2005: 64).

182 Kolejny przykład to standard CES (ang. corpus encoding standard), który opracowuje powołane przez UE konsorcjum EAGLES. Jego zadaniem jest m.in. stworzenie uniwersalnego dla wszystkich języków UE standardu kodowania informacji morfologicznych, składniowych i tekstowych w korpusach (por. Wilson i Pęzik 2005: 65).

4.8 Techniki językoznawstwa korpusowego w krytycznej analizie