• Nie Znaleziono Wyników

5. L INEARNO ŚĆ TEKSTU W BADANIACH KWANTYTATYWNYCH

5.2 T EORIA INFORMACJI

Znaczący i niepodwaŜalny wkład w poznanie sekwencyjnych struktur języka wniosła teoria informacji (SHANNON 1948, WEAVER&SHANNON 1949). Pojęcie entropii, stoso-wane od XIX wieku w termodynamice, a przez C. Shannona zdefiniostoso-wane na gruncie teorii informacji, wraz z pojęciem redundancji wyraŜa współzaleŜność kolejnych jedno-stek językowych w linii tekstu i moŜe w syntetyczny sposób opisać jego sekwencyjną strukturę. Jednak literatura z tego zakresu zdominowana jest problemami fonotaktyki40, podczas gdy zastosowania teorii informacji do otwartych podsystemów języka (przede wszystkim leksyki) są mniej udane i nie tak liczne. Jest to zresztą zrozumiałe, skoro syn-tetyczną miarą sekwencyjnego uporządkowania tekstu nie jest entropia rzędu zerowego czy pierwszego, ale entropie rzędów wyŜszych, entropie k-gramów oraz redundancja41. Ich obliczanie metodą mechaniczną w systemie złoŜonym z kilkuset bądź kilku tysięcy róŜnych jednostek (a taką długość moŜe osiągnąć lista leksemów, słowoform czy morfe-mów zawartych w typowym korpusie tekstów) jest, morfe-mówiąc eufemistycznie, kwestią nietrywialną. Badacze rozwiązują ten problem, posługując się metodą eksperymentalną, polegającą na tym, Ŝe pewna liczba respondentów czyta tekst poprzez ruchome „okno” o szerokości k i na tej podstawie odgaduje niewidoczny symbol (literę, fonem, leksem itd.) na pozycji k+1. Ilość informacji niesionej przez niewidoczny symbol obliczana jest dla kaŜdej wartości k na podstawie średniej liczby pytań zadanych przez respondentów aŜ do jego odgadnięcia (HAMMERL&SAMBOR 1990:387). Natomiast posługując się metodą mechaniczną, entropie wyŜszych rzędów obliczyć moŜna jedynie w przypadku podsystemów zamkniętych, złoŜonych z niewielkiej liczby elementów (na przykład listy fonemów bądź liter). Jednak nawet wówczas liczba obserwowanych w tekstach k-gramów jest bardzo wysoka i przeszkodą moŜe być brak wystarczającej mocy obliczeniowej kom-putera. Dla alfabetu złoŜonego z N symboli, teoretyczna liczba k-gramów wynosi N k. JeŜeli N ≈30, nawet po eliminacji kombinacji niemoŜliwych (na przykład sekwencji k identycznych symboli), N k będzie mieć bardzo wysoką wartość. Jak zauwaŜa S. May, „Wyznaczanie dalszych kolejnych entropii H n [dla liter alfabetu polskiego – A.P.]

40

„Zasadami określającymi następstwa kolejnych fonemów zajmuje się dziedzina fonematyki zwana fonotaktyką.” (JASSEM 1974:201).

41

Szczegółowy opis aparatu formalnego teorii informacji był przedmiotem wielu powszechnie dostęp-nych opracowań. Lingwistyczne aspekty teorii Shannona omówione zostały m.in. w pracach: MAY 1963, JASSEM 1974, HAMMERL&SAMBOR 1990:361–451, PAWŁOWSKI 1998:191–198, SZANIAWSKI 1987.

wala w zasadzie uzyskać ocenę entropii granicznej H. JednakŜe jest to proces niezwykle pracochłonny i dlatego znacznie korzystniej jest zastosować dla oszacowania entropii granicznej sposób Kołmogorowa, będący rozwinięciem shannonowskiej metody odga-dywania kolejnych liter na podstawie znajomości liter poprzednich.” (MAY 1963:370). Fundamentem, na którym Shannon zbudował swoją teorię, wykorzystując szeroko dziś stosowane pojęcia entropii i redundancji, było sformalizowanie (kwantyfikacja) poję-cia informacji. JeŜeli empiryczne prawdopodobieństwo wystąpienia symbolu w tekście wynosi pn , to ilość informacji In niesionej przez ten symbol wyniesie:

(21) In =−log2 pn

Formalna definicja informacji opiera się więc na psychologicznej kategorii niepew-ności co do pojawienia się w linii tekstu kolejnego symbolu i nie moŜe być automatycznie utoŜsamiana z jego treścią, chociaŜ, wbrew obiegowym opiniom, moŜna tu mówić o pew-nej korelacji obu pojęć. Im prawdopodobieństwo pn jest mniejsze, tym ilość informacji niesionej przez dany symbol jest większa. Z kolei ilość informacji niesionej przez sym-bol całkowicie przewidywalny równa jest zeru (log21=0). Dzięki zastosowaniu funkcji logarytmicznej In posiada własność addytywności przy zachowaniu multiplikatywności

pn. Jest to istotne, poniewaŜ w rachunku prawdopodobieństwa współwystępowanie zda-rzeń jest definiowane jako iloczyn, podczas gdy informacja jest intuicyjnie sumowana. Dwójkowa podstawa logarytmu sprawia, Ŝe In =1 dla pn =0,5. Tę umowną jednostkę informacji określa się jako bit42. Jak wynika z powyŜszego, jeden bit jest ilością infor-macji niesioną przez pojedynczy symbol dwuelementowego alfabetu, w którym praw-dopodobieństwa pojawienia się poszczególnych symboli są jednakowe i wynoszą 0,5.

W ilościowym opisie sekwencyjnej struktury tekstu szczególnie przydatne są pojęcia entropii (H ) i redundancji (R). Entropię definiuje się jako miarę nieprzewidywalności (nieuporządkowania, chaotyczności) źródła informacji. Z formalnego punktu widzenia jest ona średnią ilością informacji niesionej przez symbol kodu. Dodatkowe warunki po-zwalają określić róŜne rodzaje entropii. O entropii rzędu zerowego mówimy w przypadku, gdy wszystkie symbole kodu pojawiają się z jednakowymi prawdopodobieństwami (w dys-cyplinie empirycznej przypadek taki naleŜy uznać za czysto teoretyczny).

0

H definiowana jest jako: (22) H0 =−log2 p

JeŜeli symbole N-elementowego kodu pojawiają się z róŜnymi prawdopodobień-stwami pi , mówimy o entropii rzędu pierwszego:

(23) i N i i p p H 2 1 1

log = = 42

Słowo bit utworzono poprzez kontrakcję nazwy angielskiej binary digit. Jego twórcą nie jest, jak nie-którzy mniemają, C. Shannon, ale J.W. Tukey.

RozwaŜmy teraz kod o nierównomiernych prawdopodobieństwach, w którym dla kaŜdego symbolu si znany jest lewostronny kontekst o długości k. W takim przypadku będziemy mówić o entropii warunkowej rzędu k (HAMMERL&SAMBOR 1990:375):

(24)        − =

∑ ∑

= = N j i j i j K i i k p r p s r p s r H 1 2 1 ) / ( log ) / ( ) (

gdzie: sj – j-ty symbol spośród N symboli kodu

ri – i-ty k–1-gram poprzedzający symbol sj

K – liczba k-1-gramów poprzedzających symbol sj

Formułę (24) moŜna uprościć, wykorzystując frekwencje k-gramów, łatwe do me-chanicznego obliczenia (sposób ten zostanie omówiony dalej – por. Część I, 6.2). MoŜna przewidzieć, Ŝe im dłuŜszy kontekst k, tym mniejsza nieprzewidywalność (a więc i en-tropia) nieznanego symbolu. Relację tę zapisuje się jako:

(25) H0 H1 H2 ≥...≥Hk ≥...≥H

Pojęciem granicznym, definiowanym za pomocą wartości entropii, jest redundancja. Z nierówności (25) widać, Ŝe entropie Hk monotonicznie maleją. Jednak w rzeczywis-tości, dla pewnego k ich wartość stabilizuje się. MoŜna odnieść ową wartość entropii rzędu k do teoretycznej, maksymalnej wartości H0 i skonstruować wskaźnik wyraŜający (w procentach) ich relację. Wskaźnik ten ma postać:

(26) 0 1 H H R k k = − k

R określane jest jako redundancja (nadmiar, rozwlekłość) rzędu k. JeŜeli pod Hk

podstawi się wartość graniczną, po której następuje stabilizacja entropii (a więc będącą przybliŜeniem nieznanej wartości H), moŜna mówić o całkowitej redundancji źródła informacji, oznaczanej przez R. Redundancję interpretuje się jako nadmiar informacji zawartej w sygnale (na przykład tekście) w stosunku do jej minimalnej ilości, która przy wyeliminowaniu z kanału komunikacyjnego wszystkich zakłóceń, pozwoliłaby na prze-kazanie tej samej wiadomości bez uszczuplenia jej treści.

Dla przewaŜającej liczby języków, które w przeszłości były przedmiotem kwanty-tatywnych badań lingwistycznych, podstawowe teorioinformacyjne parametry – wartości entropii i redundancji liter, fonemów, a niekiedy takŜe morfemów i leksemów – zostały obliczone bądź oszacowane (HAMMERL&SAMBOR 1990:384–412). Tytułem przykładu, zacytujmy obliczone przez S. Maya entropie liter alfabetu języka polskiego: H0 =1,52,

30 , 1

1 =

H , H2 =0,98 (MAY 1963:369). Z kolei L. Hoffmann i R.G. Piotrowski podają szacunkowe wartości H dla liter w kilku językach, a takŜe stylach:

Tab. 6 Graniczne entropie (w bitach) liter w róŜnych językach i stylach43

potoczny beletrystyka naukowy ogólny

Niemiecki 0,74–1,24 0,83–1,36 0,56–0,97 0,71–1,36 Angielski 0,90–1,47 0,65–1,10 0,37–0,82 0,74–1,35 Rosyjski 0,83–1,10 0,70–1,19 0,49–0,83 0,82–1,37 Polski 0,69–1,18 0,83–1,29 0,53–0,83 0,76–1,28 Francuski 0,81–1,32 0,78–1,36 0,45–0,77 0,79–1,38 Rumuński 0,71–1,24 0,78–1,26 0,68–1,23 0,72–1,34

JeŜeli teraz entropię Hk potraktujemy jako funkcję zmiennej k, moŜliwe będzie określenie zakresu i dynamiki związków kontekstowych w tekście. O ile związki takie istnieją, stabilizacja wartości entropii, począwszy od pewnego k, wskaŜe maksymalny zasięg „pamięci” w tekście44, natomiast kształt krzywej funkcji H (k) określi jej dyna-mikę. Jak zauwaŜają R. Hammerl i J. Sambor: „MoŜna ją [redundancję – A.P.] ujmować jako miarę zaleŜności strukturalnych między sygnałami, swoistą miarę stopnia zwartości systemu.” (HAMMERL&SAMBOR 1990:377). Cytowani juŜ wcześniej R.G. Piotrowski i L. Hoffmann zaproponowali nawet funkcyjny model zaleŜności określającej tempo wzrostu ograniczeń kontekstowych w tekście. W modelu tym H0 i H występują jako stałe (dla konkretnego przypadku), natomiast s jest współczynnikiem ograniczeń kontek-stowych:

(27) H(k)=(H0 H)⋅esk +H

Z perspektywy półwiecza widać, Ŝe teoria informacji odniosła w lingwistyce, zresztą nie tylko kwantytatywnej, wielki sukces, a jej terminy i pojęcia zadomowiły się takŜe w estetyce, teorii literatury i filozofii (MOLES 1958, PORĘBSKI 1986, LEWICKI 1987,

SZANIAWSKI 1987, ZIOMEK 1990:142–158). Swą niekwestionowaną skuteczność w

ana-lizie rozmaitych procesów komunikacyjnych zawdzięcza ona uniwersalności definicji informacji wprowadzonej przez C. Shannona. Dzięki temu ten sam aparat pojęciowy i matematyczny sprawdza się w opisie języków naturalnych i sztucznych, a takŜe kodu genetycznego oraz wszelkich kodów semiotycznych – o ile tylko nada im się formę symboliczną i umoŜliwi obliczenie prawdopodobieństw k-gramów na wystarczająco duŜym korpusie. Prymarnie symboliczny (a nie numeryczny) charakter ma właśnie tekst – przedmiot znakomitej większości analiz kwantytatywnych. Z punktu widzenia

43

Tabela cytowana za pracą HAMMERL&SAMBOR 1990:399.

44

Aby określić krytyczną wartość entropii, naleŜy podać dla Hk przedział ufności. Przykład testowania hipotez statystycznych dla entropii k-gramów, wraz z określeniem ich rozkładu statystycznego i prze-działów ufności, podają J.M. Gottman (1990:46–49) i F. Bavaud (1998:215, por. teŜ wzory 43 i 44 s. 59). Drugi z wymienionych autorów określa mianem entropii warunkowej (fr. entropie conditionnelle) en-tropie k-gramów, które nie są toŜsame z entropią warunkową, obliczaną na podstawie prawdopodobień-stw warunkowych.

sekwencyjnej analizy tekstu teoria informacji jest więc narzędziem komplementarnym w stosunku do teorii łańcuchów Markowa (oba podejścia posługują się pojęciem praw-dopodobieństwa i nie wymagają kwantyfikacji tekstu) oraz alternatywnym w stosunku do analizy szeregów czasowych, w której konieczne jest zastąpienie badanych jedno-stek tekstowych liczbami.

Dodajmy na zakończenie, Ŝe w cytowanej juŜ Bibliography of Quantitative

Linguis-tics R. Köhlera (1995) teorii informacji poświęcono osobny dział, w którym cytowanych

jest przeszło dwieście prac. Liczba ta jest zaniŜona, gdyŜ nie uwzględnia publikacji ksiąŜ-kowych, poruszających ten temat fragmentarycznie. PoniewaŜ lingwistyczne prace materiałowe stosujące pojęcia i metodologię teorii informacji naleŜą do klasycznego repertuaru QL, a dla dalszego wywodu nie są szczególnie istotne, nie zostały tu omó-wione. Ich obszerny i reprezentatywny przegląd znaleźć moŜna w cytowanej wyŜej monografii R. Hammerla i J. Sambor (1990:361–451).