Klasyfikacja korpusów językowych - Lingwistyka korpusowa

ROZDZIAŁ 4. METODOLOGIA PRZEPROWADZONEGO BADANIA

4.7 Lingwistyka korpusowa

4.7.2 Klasyfikacja korpusów językowych

Za Walińskim (2005: 29–33) wyróżnia się:

– korpusy ogólne i specjalistyczne,

– korpusy zawierające teksty w całości i próbkowane,

– zbilansowane [zrównoważone²⁰³ – M.J.G.] korpusy referencyjne i monitorujące, – korpusy języka pisanego i mówionego,

– korpusy jedno- i wielojęzyczne, – korpusy równoległe i porównywalne,

– korpusy zawierające sam tekst i korpusy z indeksami, – korpusy synchroniczne i diachroniczne.

Przykładem korpusu ogólnego jest Brytyjski Korpus Narodowy (ang. British National Corpus). Korpus ogólny ma na celu odwzorować dany język na podstawowym i, co istotne, na powszechnym poziomie, a zatem z pominięciem dialektów czy specjalistycznych żargonów. Korpus specjalistyczny ma na celu natomiast odwzorować dany język używany przez określoną grupę osób w określonych sytuacjach. Przykładem może być anglojęzyczny korpus COLT (ang. Corpus of London Teenage Language). Jest to korpus języka nastolatków w wieku od 13 do 17 lat, zamieszkujących okolice Londynu.

Amerykański Korpus Browna (por. Kučera i Francis 1967), wspomniany już w rozprawie, jest przykładem korpusu próbkowanego, zawierającego 500 fragmentów artykułów prasowych, z których każdy obejmuje 2 tysiące słów. Wspomniany także powyżej korpus monitorujący i jego przykład, Bank Języka Angielskiego²⁰⁴ (ang. Bank of English), jest szczególnie przydatnym rodzajem korpusu dla leksykografii, której jednym z podstawowych celów jest odnotowywanie i dokumentowanie zmian zachodzących w języku. Zrównoważony korpus referencyjny natomiast dostarcza wszechstronnych informacji o danym języku w określonym punkcie czasu. Przykład stanowi wspomniany już NKJP, a także DeReKo. Za cezurę czasową dla korpusu zrównoważonego NKJP przyjmuje się za (Górskim i Łazińskim 2012: 36) rok 1945²⁰⁵,

według Zenona Klemensiewicza (1985) wyznaczający granice polszczyzny współczesnej.

[…] Oczywiście wiek XX nie jest w korpusie reprezentowany równomiernie. Najwięcej

203 Łaziński i Górski (2012: 26) tłumaczą angielskie słowo balanced w odniesieniu do korpusu językowego jako „zrównoważony‖; Waliński (2005: 30) używa określenia „zbilansowany‖.

204 Więcej o tym korpusie pisali Baker, Hardie i McEnery (2006: 18–19).

205 Jak uściślają autorzy (Górski i Łaziński 2012a: 36): „jedynie dla tekstów literackich przesuwamy te granice na początek XX wieku, bo przecież dla przeciętnego Polaka powieści Dołęgi-Mostowicza czy Choromańskiego, a nawet Żeromskiego, są tekstami bliskimi polszczyźnie współczesnej (naturalnie w wydaniach z ortografią po reformie z 1936 roku)‖.

174 tekstów (80%) powstało po roku 1990, 15% w latach 1945–1990, a tylko 5% przed rokiem 1945.

Jak słusznie konstatują Górski i Łaziński (2012a: 26): „Mówiąc o zrównoważeniu, powinniśmy wziąć pod uwagę nie tylko typy²⁰⁶ tekstów, ale także zrównoważenie tematyczne‖. Za wzorcową budowę korpusu Górski i Łaziński (2012a: 34) uznają prezentowaną na poniższej grafice (zob. grafika 33).

1. Literatura piękna 2. Literatura faktu

3. Typ naukowo-dydaktyczny 4. Typ informacyjno-poradnikowy 5. Książka niebeletrystyczna niesklasyfikowana

6. Publicystyka i krótkie wiadomości prasowe

7. Inne teksty pisane

8. Teksty internetowe statyczne i dynamiczne

9. Teksty konwersacyjne, mówione medialne oraz quasi-mówione

Grafika 33: Wzorcowa budowa korpusu według Górskiego i Łazińskiego (2012: 34)

W odniesieniu do korpusów języka pisanego i mówionego, kontynuując opis wprowadzonej na początku tego podrozdziału klasyfikacji według Walińskiego (2005), należy zaznaczyć, iż w związku z upowszechnieniem tekstu elektronicznego korpusy zawierające teksty pisane występują częściej, ponieważ są o wiele łatwiejsze do zdobycia aniżeli teksty mówione. W NKJP wyróżnia się teksty konwersacyjne, mówione medialne oraz quasi-mówione (por. także grafika 33). Teksty konwersacyjne i mówione medialne są transkrybowane z uwzględnieniem wszelkich śladów spontanicznej mowy; różnicę pomiędzy tymi dwoma typami tekstów stanowi poziom spontaniczności. Teksty mówione

206 W nawiązaniu do zrównoważenia korpusu w odniesieniu do typów tekstów, jakie się w nim znajdują, Górski i Łaziński (2012a: 25) dodają: „Jakkolwiek wszystkie korpusy referencyjne («narodowe») określane są przez swoich twórców jako zrównoważone, to ich budowa bywa oparta na bardzo odmiennych podstawach i w konsekwencji mocno zróżnicowana. Dość powiedzieć, że proporcje między tekstami książkowymi i prasowymi mogą się wahać od 4:1 (International Corpus of English) po 1:10 (FIDA PLUS – korpus słoweński). Podobnie stosunek tekstów fikcjonalnych do niefikcjonalnych może wynosić 1:28 (FIDA PLUS), 1:6,5 (International Corpus of English) albo 4:6 (czeski korpus SYN 2005)‖.

175 medialne wykazują znacznie mniejszy stopień spontaniczności z uwagi na wymogi radia lub telewizji. Teksty quasi-mówione to teksty wypowiedziane, ale utrwalone na piśmie przez osobę spoza zespołu NKJP. Ich metodologia zapisu jest inna niż przyjęta przez zespół NKJP. Ponadto są to teksty poddane obróbce redakcyjnej. Większość tych tekstów w zbiorze NKJP stanowią protokoły obrad parlamentu (por. Górski i Łaziński 2012b: 20–

21). Teksty konwersacyjne są najbardziej czasochłonne, ze względu na sposób ich zbierania, jak również kosztowne, z uwagi na konieczność zatrudnienia osób do pracy nad dokonywaniem nagrań i sporządzaniem transkrypcji (por. Waliński 2005: 32).

Jak wskazuje nazwa, korpusy jednojęzyczne zawierają teksty napisane w jednym języku, korpusy wielojęzyczne – w dwóch językach lub ich większej liczbie. W obrębie korpusów wielojęzycznych wyróżnia się równoległe²⁰⁷ i porównywalne korpusy językowe, stanowiące według klasyfikacji Walińskiego (2005: 32) kolejną kategorię korpusów.

Korpus równoległy obejmuje teksty napisane w języku wyjściowym, a także ich przekłady w języku docelowym. Korpus porównywalny natomiast nie zawiera przekładów tekstów, lecz odrębne teksty napisane w dwóch językach lub ich większej liczbie, dobrane za pomocą ściśle określonych kryteriów (w tym np. styl, data powstania czy tematyka).

Korpus zawierający sam tekst różni się od korpusu z indeksami²⁰⁸ tym, iż drugi rodzaj jest bogatszy o dodatkowe informacje dotyczące tekstu, np. w takich kategoriach, jak podane przez Walińskiego (2005: 32):

1. atrybuty formatowania dokumentu np. podział na akapity,

2. informacje na temat tego, skąd pochodzi dany tekst a więc np. autor, data powstania,

3. informacje meta-językowe, które polegają na indeksowaniu (ang. tagging), czyli dodawaniu kodów do wyrazów, mających oznaczać poszczególne kategorie językowe.

W ostatniej uwzględnianej przez Walińskiego (2005: 33) klasyfikacji korpusów językowych wymienia się korpusy synchroniczne i diachroniczne. Pierwsze skupiają się na języku współczesnym, natomiast drugie umożliwiają analizę rozwoju danego języka na przestrzeni dziejów. Przykładem jest Helsiński Korpus Diachroniczny języka angielskiego, który został opracowany na Uniwersytecie w Helsinkach. Obejmuje on teksty datowane na

207 Więcej informacji na temat polskojęzycznych korpusów równoległych można znaleźć w monografiach pod red. Ewy Gruszczyńskiej i Agnieszki Leńko-Szymańskiej (2016).

208 Na temat systemów indeksowania korpusów językowych, w tym formatów i rodzajów indeksowania, pisali Wilson i Pęzik (2005: 61–65).

176 okres sprzed 850 roku n.e. do 1710 roku, czyli zakończenia okresu wczesnego współczesnego języka angielskiego.

W dokumencie Mowa nienawiści ze względu na przynależność etniczną i narodową w komunikacji internetowej. Analiza porównawcza języka polskiego i niemieckiego (Stron 173-176)