Analiza grafotaktyczna - zbioru znaków BIG5

zbioru znaków BIG5

3. Analiza grafotaktyczna

Zbiór BIG5, podobnie jak każdy inny, można przeanalizować na dwa sposoby: z perspektywy składników podstawowych (nierozkładalnych) i bezpośrednich (na pierwszym poziomie dekompozycji). Należy jednak wspomnieć o wielopoziomowym charakterze dekompozycji znaków chiń-skich – komponenty bezpośrednio konstytuujące znaki mogą (choć nie mu-szą) być rozkładalne na elementy bardziej podstawowe, te z kolei również mogą być podstawowe lub rozkładalne na składniki o różnym stopniu zło-żoności, np. analiza znaku 疑 yí pokazuje 4 poziomy dekompozycji:

1. poziom dekompozycji (składniki bezpośrednie): ,, 疋

2. poziom dekompozycji: 匕, 矢

3. poziom dekompozycji: 乚, 一, , 大

4. poziom dekompozycji: 人, 一

co w notacji nawiasowej, uwzględniającej strukturę składnikową, przed- stawia się następująco: [疑[ [匕[乚][一]][矢[ ][大[人][一]]]][][疋]]. W ni- niejszej pracy analiza grafotaktyczna zostanie przedstawiona jedynie z per-spektywy składników podstawowych, zignorowany też będzie poziom elementów atomicznych – kresek.

Baza KDP, zawierająca opisy struktury składnikowej znaków ze zbioru Unihan¹⁰, przedstawia jedynie poziom komponentów bezpośrednich. Anali-za rekurencyjna pozwala przeprowadzić dalszą dekompozycję każdego ze składników bezpośrednich aż do poziomu komponentów podstawowych, ustalając tym samym ich listę. Analiza całej bazy KDP dostarczyła listę 393 podstawowych komponentów znaków chińskich. Dla przeprowadzenia badań na zbiorze BIG5 konieczne było wyekstrahowanie 13051 znaków BIG5 z bazy KDP, wraz z opisami IDS, a następnie przeprowadzenie analizy rekurencyjnej zbioru BIG5 z uwzględnieniem listy składników podstawo-wych. Pierwszym rezultatem, mającym znaczenie dla ogólnych badań nad pismem chińskim, jest wyizolowana w ten sposób lista 316 składników (gra-femów) bezpośrednich:

________________________

10 Dla przykładu: 冽冫列.

Zarówno lista komponentów, jak i sama ich liczba jest wynikiem ba-dawczym samym w sobie. Liczbę i listę można bezpośrednio porównać z tymi uzyskanymi na Academia Sinica przez zespół Chinese Documents Processing Lab. Dla zbioru BIG5 wyodrębnili oni 441 składników podsta-wowych (Chuang i Teng 2009). Analiza grafotaktyczna zbioru BIG5 dała wyniki przedstawione w poniższych punktach i tabeli:

– średnia wydajność grafotaktemiczna: 1.07;

Komentarz do powyższych wyników może mieć w tym miejscu jedynie charakter wstępny. Wynika to częściowo z ograniczeń narzuconych charak-terem i objętością artykułu – z tej przyczyny nie zostały przedstawione licz-ne uwarunkowania teoretyczlicz-ne i praktyczlicz-ne przeprowadzolicz-nej analizy, co z kolei nie pozwala na właściwe przedstawienie wszystkich wniosków koń-cowych. Poważniejszą jednak przeszkodą jest brak porównywalnych badań o charakterze typologicznym, które pozwoliłyby na formułowanie wnio-sków nawet o charakterze uniwersalnych praw – ten typ analizy systemów pisma niewątpliwie taki potencjał posiada.

Odnosząc się do wyników przedstawionych powyżej, można wyciągnąć kilka wniosków. Niska średnia wydajność taktografemiczna pokazuje, że niemal 94% znaków w zbiorze BIG5 może być reprezentowana wyłącznie za pomocą składników podstawowych, bez uwzględnienia własności struktu-ralnych. Dla porównania podobna analiza ortograficznych wyrazów języka polskiego przeprowadzona przez Bańczerowskiego (2009) pokazuje, że nie-powtarzalne zbiory liter mają znacznie wyższą efektywność w generowaniu wyrazów – obliczona przez niego efektywność taktografemów, których ele-mentami są litery polskiego alfabetu, była o wiele wyższa i wyniosła 1.36 (Bańczerowski 2009: 15), co oznacza, że jedynie ok. 74% wyrazów języka polskiego składa się z niepowtarzalnych zbiorów liter. Średnia moc grafo-taktemu jest informacją na temat średniego stopnia złożoności – w tym wy-padku znaków chińskich w terminach grafemów podstawowych. Kolejny wniosek związany jest z liczbą taktografemów i grafotaktemów według ka-tegorii grafemiczności. Zbiorczy wykres pokazuje, że krzywa rozkładu ilo-ściowego jest niemal identyczna, a różnice wynikają wprost z różnej liczby taktografemów i grafotaktemów:

Nawet pobieżna konfrontacja z wynikami analizy Bańczerowskiego po-kazuje, że podobna zależność zachodzi zarówno dla ortografii języka pol-skiego, jak i dla wyrazów chińskich w transkrypcji pinyin (Bańczerowski 2009: 18-19)¹¹:

________________________

11 Wykres jest syntezą danych podanych przez Bańczerowskiego.

0 5000 10000 15000 20000 25000 30000

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Taktografemiczność - chiński Grafotaktemiczność - chiński Taktografemiczność - polski Grafotaktemiczność - polski

Ta sama zależność, co nie zostało tu pokazane, zachodzi dla grafemów bezpośrednich zbioru BIG5. Powtarzająca się korelacja taktografemiczności i grafotaktemiczności dla formalnie tak różnych systemów pod względem sposobu reprezentacji jednostek mowy pozwala, już na tym etapie badań, domniemywać, że mamy do czynienia z prawem grafotaktycznym. Wstępne wyniki badań pokazują, że krzywe rozkładu mocy taktografemów i liczby generowanych przez nie grafotaktemów (znaków) są z sobą silnie skorelo-wane i mają identyczny przebieg. W przypadku pisma chińskiego, gdzie składniki znaków graficznych można podzielić na kilka kategorii, korelacja jest uzależniona od typu badanych grafemów (poziomu analizy), a nie od typu analizowanych jednostek grafotaktycznych (taktografem vs. grafotak-tem). Innymi słowy, krzywe rozkładu taktografemiczności i grafotaktemicz-ności dla grafemów tego samego rodzaju zawsze będą miały identyczny przebieg. Oczywiście ostateczne sformułowanie i weryfikacja odpowiednie-go prawa wymaga zarówno dalszych badań, tak w obrębie pisma chińskie-go, jak i w systemach typologicznie mniej lub bardziej odległych, jak rów-nież przedstawienia dojrzalszej, pełniejszej i bardziej sformalizowanej teorii grafotaktycznej.

BIBLIOGRAFIA

Bańczerowski, J. 2009. „Aspects of Chinese phonotactics against a comparative back- ground of Polish”. Scripta Neophilologica Posnaniensia X. 7–22. <http://keko.amu.edu.

pl/sites/default/files/Scripta%20Neophilologica%20Posnaniensia%20X.pdf#page

=7>.

陳學志 (Chen Hsueh-Chih), 張瓅勻 (Chang Li-Yun), 邱郁秀 (ChiouYu-Shiou), 宋曜廷 (Sung Yao-Ting), 張國恩(Chang Kuo-En). 2011. “中文部件組字與形構資料庫之建立及其在識字教學的應用” [Chinese Orthography Database and Its Application in Tea-ching Chinese Characters]. 教育心理學報₄₃卷閱讀專刊[Bulletin of Educational Psy-chology (Special Issue on Reading)] 43. 269–290.

Butler, Ch. S. 1985. Statistics in linguistics. Oxford: Basil Blackwell.

Cantos Gomez, P. 2013. Statistical methods in language and linguistic research. Sheffield:

Equinox Publishing Ltd.

莊德明(Chuang Der-ming)，鄧賢瑛 (Teng Hsian-ying). 2009. “漢字構形資料庫的研發與應用” [Research and development of Chinese characters information database and its application]. <http://cdp.sinica.edu.tw/service/documents/T090904.pdf>.

韩布新 (Han, Buxin). 1994. “汉字部件信息数据库的建立 – 部件和部件组合频率的统计分” [Development of database of Chinese constituents information – statistical analysis of the frequency of the constituents and their combination]. 心理学报 [Acta Psycholo-gica Sinica] 26.2. 147–52.

–. 1995. “部件组合──潜在的汉字结构层次” [Combination of Chinese Character Constituents – A Latent Structural Unit]. 中文信息学报 [Journal of Chinese Information Processing] 9.3.

27–32.

Kordek, N. 2012. „Segmentotactics of Mandarin Chinese”. Rocznik Orientalistyczny LXV.1.

107–119.

Lunde, K. 2008. CJKV Information Processing. Sebastopol: O’Reilly.

苏培成 (Su Peicheng). 2001. 现代汉字学纲要 [The outline of the modern Chinese characteoro- logy]. 北京大学出版社 (Beijing: Beijing Daxue Chubanshe).

Yin, B. i J.S. Rohsenow. 1994. Modern Chinese characters. Beijing: Sinolingua.

Instytut Językoznawstwa

Rozumienie pojęcia spójki

W dokumencie UNIWERSYTET IM. ADAMA MICKIEWICZA W POZNANIU (Stron 142-147)