• Nie Znaleziono Wyników

ROZDZIAŁ 4. METODOLOGIA PRZEPROWADZONEGO BADANIA

4.7 Lingwistyka korpusowa

4.7.1 Kryteria konstruowania korpusu językowego

Pierwszym komputerowym korpusem jest Korpus Browna197 (ang. Brown Corpus), jednomilionowy korpus amerykańskiej odmiany języka angielskiego, stworzony w 1967 roku przez Henry‘ego Kučerę i Nelsona Francisa (1967). Obecne korpusy językowe zawierają setki milionów, a nawet miliardy jednostek (por. Lewandowska-Tomaszczyk i in. 2012: 4). Na przykład198 Narodowy Korpus Języka Polskiego (dalej: NKJP)199 liczy ponad półtora miliarda słów, natomiast Niemiecki Korpus Referencyjny200 (niem. Das deutsche Referenzkorpus; dalej: DeReKo) ponad 43201 miliardy słów.

Sam korpus definiowany jest jako zbiór tekstów, które podlegają obróbce maszynowej (ang. machine-readable texts) (McEnery i Wilson 1996). Nie każdy elektroniczny zbiór tekstów może być jednak korpusem. Językoznawcy definiują to pojęcie, podając cechy charakterystyczne takiego zbioru tekstów. Za Tonym McEnerym i

197 Korpus zawierający prozę wyselekcjonowaną spośród tekstów opublikowanych w Stanach Zjednoczonych w 1961 roku (struktura korpusu obejmuje 500 próbek, z których każda zawiera ponad 2000 wyrazów [por. Kučera i Francis 1967]).

198 Za Lewandowską-Tomaszczyk (2012: 4): „Najliczniejsze i najbardziej różnorodne zbiory zawierają narodowe korpusy angielskie – brytyjskie (British National Corpus, Bank of English i in.) i amerykańskie (Corpus of Contemporary American English, American National Corpus, Google Books: American English i in.)‖.

199 Więcej na temat NKJP pisali Przepiórkowski i in. (2012).

200 Korpus jest gromadzony przez Institut für Deutsche Sprache w Mannheim; jest to największy korpus języka niemieckiego na świecie; dostęp do korpusu jest możliwy przez platformę COSMAS II poprzez stronę instytutu (więcej por. Kupietz i in. 2018).

201 Stan na 18 marca 2019 roku.

171 Andrew Wilsonem (1996: 21–24; por. także Waliński 2005: 28), reprezentującymi Uniwersytet w Lancaster, przyjmuje się, iż korpusem językowym może być taki zbiór tekstów, który spełnia następujące kryteria:

a) reprezentatywność – podstawowym celem tworzenia korpusu powinno być jak najbardziej reprezentatywne odwzorowanie interesującego badacza obszaru językowego w odpowiednich proporcjach;

b) skończona (i zazwyczaj202 ustalona wcześniej) wielkość – zakłada się, iż na początku projektu badania powinno się założyć określoną wielkość budowanego korpusu, przykładowo może to być 500 tysięcy słów, jego wielkość nie powinna ulegać zmianie podczas badania, za McEnerym i Wilsonem (1996: 23):

At the beginning of a corpus-building project, the research plan will set out in detail how the language variety is to be sampled, and how many samples of how many words are to be collected so that a pre-defined grand total is arrived at.

c) format elektroniczny – umożliwia maszynowe przetwarzanie;

d) odniesienie standardowe – zakłada się za McEnerym i Wilsonem (1996: 24), iż korpus stanowi standardowe odniesienie do obszaru języka; postuluje się powszechną dostępność korpusu, gdyż ta cecha umożliwia, według autorów, dokonywanie przez badaczy porównań dotyczących danego korpusu na przestrzeni czasu; autorzy podają przykłady korpusów spełniających to kryterium, m.in.: LOB Corpus of Written British English lub the London-Lund Corpus of Spoken British English.

Poniższy cytat stanowi podsumowanie przytoczonych kryteriów według McEnery‘ego i Wilsona (1996: 24):

a corpus in modern linguistics, in contrast to being simply any body of text, might more accurately be described as a finite-sized body of machine-readable text, sampled in order to be maximally representative of the language variety under consideration.

John Sinclair, kierujący ośrodkiem badawczym w Birmingham, przyjmuje (2004: 23), iż korpusem nazywa się „a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety

202 Podczas tworzenia korpusu monitorującego wielkość jego zasobów nie jest wcześniej ustalana; celem tego korpusu jest ciągłe kontrolowanie zmian zachodzących w języku, co powoduje jego stałe powiększanie o nowe zasoby; przykładem korpusu monitorującego jest Bank Języka Angielskiego (ang. Bank of English).

172 as a source of data for linguistic research‖. W 1996 roku Sinclair (1996) stworzył kryteria konstruowania korpusu, opierając się na czterech głównych punktach:

a) wielkości – korpus powinien być maksymalnie obszerny, ograniczony właściwie wyłącznie aktualnym stanem technologii;

b) jakości – autentyczność tekstów wpływa na jakość korpusu, muszą one zatem odzwierciedlać naturalny i niezakłócony tok porozumiewania się;

c) prostoty – zasoby językowe powinny być dostępne w formacie tekstowym, zaś wszystkie znaczniki muszą być wyraźnie wyróżnione na tle tekstu zasadniczego;

d) udokumentowania – elementy korpusu powinny być udokumentowany danymi określającymi np. pochodzenie tekstu, które pozwalają na jego jednoznaczną identyfikację.

W kolejnym opracowaniu Sinclair (2004: 5–22) w następujący sposób opisuje zasady konstruowania korpusu:

1. The contents of a corpus should be selected without regard for the language they contain, but according to their communicative function in the community in which they arise.

2. Corpus builders should strive to make their corpus as representative as possible of the language from which it is chosen.

3. Only those components of corpora which have been designed to be independently contrastive should be contrasted.

4. Criteria for determining the structure of a corpus should be small in number, clearly separate from each other, and efficient as a group in delineating a corpus that is representative of the language or variety under examination.

5. Any information about a text other than the alphanumeric string of its words and punctuation should be stored separately from the plain text and merged when required in applications.

6. Samples of language for a corpus should wherever possible consist of entire documents or transcriptions of complete speech events, or should get as close to this target as possible. This means that samples will differ substantially in size.

7. The design and composition of a corpus should be documented fully with information about the contents and arguments in justification of the decisions taken.

8. The corpus builder should retain, as target notions, representativeness and balance.

While these are not precisely definable and attainable goals, they must be used to guide the design of a corpus and the selection of its components.

9. Any control of subject matter in a corpus should be imposed by the use of external, and not internal, criteria.

173