• Nie Znaleziono Wyników

Materiał badawczy

zbioru znaków BIG5

2. Materiał badawczy

2.1. Liczba znaków

Nie istnieje jedna odpowiedź na typowe pytanie laika o liczbę chińskich znaków – musi ona mieć charakter względny. Słowniki kumulujące wszyst-kie zarejestrowane historyczne formy znaków zawierają ich kilkadziesiąt tysięcy. Duże korpusy współczesnych tekstów (nie wysoce specjalistycz-nych) w języku chińskim zawierają około 6000 znaków, nieco więcej (około 7000) znajdziemy w standardowym słowniku; tyle też w przybliżeniu za-wierają chińskie i tajwańskie listy znaków często używanych. Chiński stan-dard piśmienności wynosi 1500 znaków dla mieszkańców wsi (rolników) oraz 2000 dla mieszkańców terenów zurbanizowanych3, od absolwentów szkół średnich wymagana jest znajomość 3500 znaków, w wypadku szkół wyższych jest to trudniejsze do oszacowania – orientacyjnie podaje się liczbę 5000 znaków4. Yin i Rohsenow (1994), uwzględniając teksty wysoce specjali-styczne i nietypowe konteksty użycia, w mocno przybliżony sposób szacują

________________________

2 W zbyt dużym uproszczeniu – dla pisma chińskiego nie można zakodować ograniczo-nego zestawu kilkudziesięciu symboli, za pomocą których tworzy się jednostki wyższego rzędu odpowiadające jednostkom mowy wyższego (jak w kodzie ASCII).

3 <http://www.accu.or.jp/litdbase/policy/chn/index.htm>.

4 Dane te dotyczą Chińskiej Republiki Ludowej.

liczbę wszystkich używanych znaków od 10 do 20 tysięcy. Dane te można uzupełnić o statystyki odzwierciedlające związek liczby uporządkowanych frekwencyjnie znaków z procentem pokrycia tekstów (nie mylić ze zrozu-mieniem) – i tak dla korpusu zawierającego 5991 niepowtarzalnych znaków znajomość 1–500 uporządkowanych frekwencyjnie znaków pokrywa 77.4%

tekstów, 1–1000 pokrywa 90.8%, 1–1500 pokrywa 95.8%. Pokrycie przekra-czające 99% gwarantuje znajomość 3000 znaków (Su 2001: 35). Te dane po-winny dostarczyć odpowiedniej perspektywy dla wielkości korpusów zna-kowych dyskutowanych w następnym rozdziale.

2.2. Zbiory znaków

Z perspektywy analizy grafotaktycznej działania standaryzacyjne doty-czące pisma chińskiego w kontekście cyfrowego przetwarzania informacji mają co najmniej dwa istotne aspekty:

1) Standaryzacja zbioru znaków pod względem liczby i typu znaków.

2) Standaryzacja inwentarza elementów składowych znaków i sposobu dekompozycji znaków na komponenty.

Ich efektem są m.in. liczne kodowane (dla celów przetwarzania kompu-terowego) zbiory znaków oraz, znacznie mniej liczne, standardowe zbiory komponentów znaków chińskich. Kodowane zbiory znaków (KZZ) mają charakter lokalny (narodowy) lub międzynarodowy (obejmujący Chiny, Japonię, Koreę, Tajwan i Wietnam) i mogą różnić się między sobą sposobem kodowania, wielkością i przeznaczeniem (Lunde 2008: 79-191). Najwięk-szym obecnie kodowanym zbiorem znaków chińskich jest baza Unihan5, która jest częścią międzynarodowego standardu Unicode. W bieżącej wersji oficjalnie zgromadzonych jest 75215 znaków6. Ze względu na rozmiar bazy i dostępność opisów strukturalnych znaków w postaci Ideographic Descrip-tion Sequences (IDS)7, zawierających zestaw komponentów poszczególnych znaków, jest to korpus bardzo atrakcyjny badawczo. IDS dla bazy Unihan zawarte są w bazie Kanji Database Project (KDP) tworzonej przez T. Kawa-batę8. Unihan jest jednak również korpusem bardzo niehomogenicznym – zawiera znaki niejednolite co do formy (znaki uproszczone i nieuproszczo-ne), pochodzenia (Chiny, Japonia, Korea, Tajwan, Wietnam) i rodzaju (znaki

________________________

5 <http://www.unicode.org/charts/unihan.html>, sam zbiór znaków nazywany jest naj-częściej CJK UnifiedIdeographs.

6 <http://www.unicode.org/versions/Unicode6.2.0/ch12.pdf>.

7 Dokładna składnia IDS opisana jest np. w oficjalnej dokumentacji Unicode <http://

www.unicode.org/versions/Unicode6.2.0/ch12.pdf, strona 424)>.

8 <http://kanji-database.sourceforge.net/>.

współczesne i archaiczne, używane bardzo często i wyjątkowo rzadko, for-my podstawowe i warianty itp.). Z tego powodu wydaje się, że baza Unihan powinna zostać poddana analizie na późniejszym etapie. Potencjalnych ze-stawów znaków do wyboru jest wiele, każdy wybór powinien być poprze-dzony świadomą analizą zawartości zbioru znaków – jest to ważne zarówno ze względu na cel badania, jak i interpretację jego wyników. Dla bardziej sprofilowanych celów badawczych przydatne mogą być również niekodo-wane zbiory znaków (NZZ) – mające znacznie dłuższą historię niż KZZ i na ogół zupełnie inne przeznaczenie. NZZ tworzone były głównie do celów edukacyjnych, dydaktycznych, w kontekście polityki językowej i zwalczania analfabetyzmu. Typowy NZZ będzie zatem stosunkowo ograniczonym zbiorem znaków dobranych ze względów frekwencyjnych – wszystkie kraje, w których w jakimkolwiek stopniu używane jest pismo chińskie, posiadają oficjalne zbiory często używanych znaków, które obowiązują w systemach edukacji danego kraju.

Duże zbiory znaków w standardzie GB (lub ogólniej – z ChRL) mają tę niedogodność, że zawierają dwa rodzaje znaków. Uproszczenie pisma for-malnie objęło ograniczony zbiór znaków, z tego powodu każdy zbiór zna-ków uproszczonych przekraczający pewne rozmiary musi zawierać również znaki tradycyjne; homogeniczne pod tym względem zbiory znaków uprosz-czonych siłą rzeczy mają stosunkowo niewielkie rozmiary9.

Wydaje się, że na początek najrozsądniej jest przeanalizować homoge-niczny zbiór o możliwie największej liczbie znaków, który jednocześnie nie jest zbiorem przypadkowym, tzn. jest standaryzowany, jego zawartość jest uzasadniona frekwencyjnie, a wszystkie jego elementy są poprawnie wy-świetlane nawet na standardowym systemie komputerowym. Tak sformu-łowane kryteria najlepiej spełniają zbiory tajwańskie. Oficjalny tajwański standard CNS 11643-2007 zawiera ogromną liczbę 69334 znaków zorgani-zowanych w 13 planach (Lunde 2008: 115-116), niestety już na planie 3 duża część z nich nie jest poprawnie wyświetlana przez większość systemów komputerowych, dodatkowo niezgodność z Unicode uniemożliwia ich ekstrakcję z bazy KDP. W tej sytuacji najlepszym rozwiązaniem wydaje się ograniczenie analizy do dwóch pierwszych planów CNS 11643, zawie- rających 13051 znaków. Dwa pierwsze plany są identyczne pod względem zawartości (różnice w kodowaniu nie są tu istotne) z najpowszechniej stosowanym na Tajwanie standardem BIG5, co dodatkowo uzasadnia ten wybór.

________________________

9 Największy oficjalny zbiór znaków uproszczonych to opublikowana w 2009 r.

通用规范汉字表 tōngyòngguīfànhànzìbiǎo – ‘Lista powszechnie używanych standardowych znaków chińskich’, która zawiera 8300 znaków.