Uwagi o porządku alfabetycznym i leksykograficznym

(1)

. ^. ^...

1992 r.

Janusz S.

Bień

Warszawa

UNIWERSYTET GDAŃSKI Filologia Polska - Prace Językoznawcze

Uwagi o porządku alfabetycznym i leksykograficznym

1. Fizyczne postacie tekstu

Nr 16

Rozróżniać będziemy

dwa zasadnicze rodzaje tekstów:

1eks1y nan1ralne

i teksty w postaci czytelnej dla komputera, które - zgodnie z

propozycją zawartą

w

(Bień

1977:254) - będziemy nazywać

^teksrnmi

kodo~mi.

^\)

Teksty naturalne dzielimy na ~

- teksty mówione,

_,_·

- teksty pisane

ręcznie,

- teksty drukowane.

Warto zwrócić u~ ę na daleko idące ^analogie między tekstem mówionym i '\J' ^t>--

pisanym

ręcznie:

ten sam tekst wypowiedziany lub - napisany przez

tę samą osobę

w

różnych

momentach

może mieć

istotnie

różny kształt

akustyczny lub graficzny, w

zależności

od takich czynników, jak nastrój danej osoby, tempo mówienia lub pisania, sposób mówienia (np. krzyk, szept), wykorzystywany do pisania

przyrząd

i

materiał

itd. Wszystkie te czynniki

sprawiają, że

automatyczne przetwarzanie tekstów mówionych i pisanych

ręcznie

jest bardzo utrudnione; w dalszym

ciągu

pracy

będziemy zajmować się głównie

tekstami drukowanymi.

Wśród

wielu sposobów kodowania tekstów

wyróżnimy następujące

rodzaje:

- akustyczne,

- wizualne,

(2)

- symboliczne, - technologiczne.

Tukst kodowany akustycznie to cyfrowy zapis (taki, jak na

płycie

kompakto- wej) tekstu mówionego. Tukst kodowany wizualnie to cyfrowa reprezentacja tekstu pisanego lub drukowanego otrzymana przez

podział

powierzchni tekstu na bardzo

małe

fragmenty -

często

niewidoczne

gołym

okiem - i sklasyfikowanie ich jako zaczernione lub nie. Tekst kodowany symbolicznie to zapis tekstu w postaci

ciągu

liczb, którym przypisane jest umownie pewne znaczenie;

przykładem może być

stosowany w

większości

komputerów kod ASCII (American Standard Code for Information Interchange -

amerykański

standardowy kod do wymiany informacji), jego odmiany i pochodne (Mackenzie 1980). Kodowanie technologiczne tekstów

służy

konkretnym celom, np. do sterowania

odlewarką monotypową

czy

urządze

niem do

fotoskładu.

W wypadku komputerowych drukarek graficznych kodowanie technologiczne

często łączy

elementy kodowania symbolicznego z wizualnym: po opisaniu znaku jako pewnego

układu

punktów, dalsze

odwołania

do tego znaku

mają już

charakter symboliczny.

Z oczywistych

względów

charakter kodowania symbolicznego w istotny spo- sób

zależy

od

właściwego

dla danego

języka ~ystemu

pisma. Ciekawe

przykłady

z tym

związane można znaleźć

w artykule (Becker 1984); dalej ograniczymy

się

do rozpatrywania tylko alfabetycznych systemów pisma.

2. Alfabetyczny system pisma

Podstawową jednostką

tekstu w alfabetycznym systemie pisma jest

słowo, będące ciągiem

liter; w

słowach mogą występować również

diakryty. Elementami takstów

są także

znaki interpunkcyjne i cyfry. Ze

względów

praktycznych

każdy dłuższy

tekst dzieli

się

na wiersze czyli linijki.

Języki

naturalne

stosujące

alfabetyczne systemy pisma

często różnią się

zesta- wem stosowanych liter, czyli alfabetem literowym; np.

język

polski stosuje litery

ą, ć

itd. nie

występujące

na

ogół

w innych

językach.

Niektóre

języki

oprócz liter

wykorzystują także

diakryty, które

tworzą

alfabet diakrytyczny; np. dla

języka

francuskiego zawiera on m.in. / , \, "' i ·· - jak zobaczymy dalej, diakryty i litery

odgrywają

istof1ie

odmienną rolę

przy

porządkowaniu

alfabetycznym.

Języki

na-

r~ ^turalne różni1 się również zestawami znaków interpunkcyjnych czyli alfabetami

(3)

interpunkcyjnymi;

przeważnie

dotyczy to

kształtu cudzysłowów,

ale np.

hiszpański

stosuje odwrócony znak zapytania i wykrzyknik (i., i). Do alfabetu interpunkcyjne- go zaliczamy również odstęp czyli spację. fest chyba trudno znaleźć język posługu

jący się

alfabetycznym systemem pisma, ale

posiadająt.)'

specyficzny zestaw cyfr, czyli alfabet cyfrowy (liczby rzymskie traktujemy jako

słowa

alfabetu literowego);

warto jednak

pamiętać, że

w tekstach przygotowanych na niektórych typach ma- szyn do pisania cyfra 1 jest

zastępowana małą literą

1 , a cyfra O -

dużą literą:

O. Cztery wymienione alfabety (literowy, diakryczny, interpunkcyjny i cyfrowy) wraz z charakterystycznymi dla danego jc;zyka zasadami ich

użycia będziemy

robo- czo

nazywać

liternictwem tego j((zyka.

Wyróżnimy następujące

aspekty tak rozu- mianego liternictwa:

- segmentacja tekstu, -

łamanie

tekstu, -

kasztowość,

-

harmoniczność,

-

porządek

alfabetyczny.

Co do segmentacji tekstu na

słowa,

to zwrócimy tutaj tylko

uwagę

na to,

że

np.

dla angielskiego nie jest ona zbyt precyzyjnie

określona:

zapisy matchbox, match- box i matchbox

są

praktycznie równowa:i.ne. Pewne uwagi o segmentacji tekstu polskiego

można znaleźć

w artykule

(Bień,

Salo'ni 1982:32-33).

Przez

łamanie

tekstu rozumiemy problem dzielenia tekstu na linijki; zawiera on w sobie zagadnienie dzielenia wyrazów, ale nie ogranicza

się

do niego. Jest oczywiste,

że

np. nie

można przenieść

do nowego wiersza kropki

kończącej

zdanie, ale

już

sprawa zostawienia na

końcu

linijki

słów

jednoliterowych nie jest skodyfi- kowana i

może budzić

kontrowersje.

Przezkasztowość

rozumiemy

całość zagadnień związanych

z

użyciem małych

i

dużych

(wielkich) liter. Proponowany termin (utworzony na wzór podobnych terminów angielskich i francuskich) wywodzi sic; z faktu,

że

dawniej przy

składzie ręcznym często

stosowano dwie kaszty do przechowywania czcionek -

górną

prze- znaczono na lilery

duże (majuskuły),

a

dolną

na litery

małe (minuskuły).

Przez

harmoniczno.ść

rozumiemy

występuj<1ce

na granicy

słów

zjawiska od-

zwierciedlające

w

piśmie

pewne zjawiska fonetyczne, jak np. elizja

samogłoski

w pewnych kontekstach lub przeciwnie, wstawienie

głoski

dla

ułatwienia

wymowy. W

artykułach (Bień

1972, 1972a) zjawisko to

było

opisywane za

pomocą

tzw. funkcji

wyboru,

zaś

w pracy

(Bień,

Saloni 1982:36, 39-40) - za

pomocą

nietradycyjnych

kategorii fleksyjnych

poprzyimkowości, wokaliczności

i

aglutynacyjności.

(4)

Mówiąc

o

porządku

a/fabe1ycznym nic

będziemy się

tutaj

zajmować

jego

dużym

znaczeniem praktycznym - które

zostało

przedstawione w pracy

(Bańko

1987) - ale zajmiemy

się

dalej

sformułowaniem ścisłych

zasad alfabetycznego

porządkowania

napisów.

3. Czczionka a litera

Pojęcie

czcionki

będziemy rozumieć

tutaj szerzej

niż

jest to

przyjęte,

obejmu-

jąc

nim

również

elementy kodów komputerowych; odpowiada

więc

ono wiernie angielskiemu terminowi charac1er, który z

reguły tłumaczony

jest jako znak - w

większości

kontekstów nie powoduje to

nieporozumień,

w naszym jednak przypad- ku

mogłoby być mylące

ze

względu

na

wieloznaczność

tego

słowa.

Zbiór

dostę

pnych czcionek

będziemy nazywać

alfahe1em czcionko"H-ym.

Przez

lilerę będziemy rozumieć

dalej pewien obiekt abstrakcyjny, opisywany przez wyliczenie jego reprezenwcji czcionkowych. Reprezentacje te dzielimy na

bezpośrednie

i

pośrednie.

Reprezentacja

bezpośrednia może być

jednoczcionkowa

(przykładem są

ro.in. wszystkie litery alfabetu angielskiego) lub wieloczcionkowa (np. litera eh w

języku

czeskim); reprezentacja liter polskich

zależy

od danego alfabetu czcionkowego - np. w niektórych kodach komputerowych

można

je repre-

zentować

wieloczcionkowo

(przeważnie,

niestety, w sposób

dosyć

sztuczny), w innych mają one reprezentacj\ jcdnoczcionkowe (Smith 1983, Majewski 1987). 11?_

Reprezentacje

pośrednie

dzielimy na reprezeniacje

złożone

i reprezentacje zespolo- ne. Z

reprezentacją złożoną

mamy do czynienia wtedy, gdy pewna czcionka, np. e

(w kodzie komputerów osohistych typu IBM PC jest to po prostu liczba 133), reprezentuje

jednocześnie

pewm1 liter<; (w naszym

przykładzie e)

i pewien diakryt (w naszym

przekładzie

' ). Reprezentacje zespolone liter tradycyjnie nazywa

się

ligaturami -

są

to pojedyncze czcionki

reprezentujące

wic;cej

niż jedną literę.

Ligatur; techniczne (np.fi) stosowane

były

w

składzie

n;cznym z powodu technicz- nej

niemożliwości

ustawienia w

bezpośrednim sąsiedztwie

czcionek o

zachodzą-

cych na siebie

kształtach,

jak w przypadku fi i; w

fotoskładzie

i innych technikach tzw.

składu

zimnego stosuje

się

je

nadał

dla tradycji i estetycznego

wyglądu.

Inny typ ligatur

będziemy

tutaj

nazywać

ligaturami autorskimi,

gdyż

- jak

się

wydaje - w

językach,

które je

dopuszczają,

ich

użycie zależy

od decyzji autora, a nie

składacza;

przykładem może hyć

francuskie

a~ reprezentujące ciąg

dwóch liter o ie .

(5)

Z innego punktu widzenia reprezentacje liter

możemy podzielić

na min,usku-

łowe

(dolna kaszta) i

majuskułowe

(górna kaszta); przy

porządkowaniu

alfabetycz-

. nym

posługujemy się specjalną reprezentacją bezkasztową

(ang. case-free). Dla

wygody

będziemy

niekiedy

utożsamiać samą literę

z jej

reprezentacją bezkasztową.

Ponieważ częściej

interesuje nas

przejście

od

ciągu

czcionek do reprezentowa-

nego przez nie zapisu niż odwrotnie, zajmiemy się obecnie klasyfikacją czcion'\El \\ ~ Dzielimy je przede wszystkim na jednofunkcyjne i wielofunkcyjne.

Przykładem

czcionki wielofunkcyjnej może być czcionka c w języku c~skim, która może \ {.

reprezentować literę

c lub

być początkiem

dwuznaku

reprezentującego literę

eh.

Zakładamy

dalej,

że

znane

są ścisłe reguły

ustalania funkcji danego

wystąpienia

czcionki wielofunkcyjnej,

choć

w

rzeczywistości

sprawa nie musi

być

tak prosta.

Pozostałe

kryteria

podziału

czcionek

są

wtórne w stosunku do

rozróżnień już

wprowadzonych. Z punktu widzenia sposobu reprezentacji, czcionki dzielimy na proste,

złożone

i zespolone; z punktu widzenia reprezentowanych obiektów dzieli-

my je na literowe, interpukcyjne i cyfrowe (niekiedy

mogą wystąpić również

samodzielne czcionki diakrytyczne) .

•

4.

Porządek

alfabetyczny i leksykograficzny

Przez

porządek

alfabetyczny rozumiemy taki sposób

porządkowania słów,

który znany jest praktycznie

każdemu użytkownikowi

danego

języka

i stosowany jest powszechnie w

różnego

rodzaju spisach,

słownikach, książkach

telefonicznych itp. Przez

porządek

leksykograficzny rozumiemy taki sposób

porządkowania

napi- sów (a nie tylko

słów),

który jest stosowany - lub nadaje

się

do stosowania - przez redaktorów

słowników,

encyklopedii itp.; zasady

porządku

leksykograficznego

mogą,

ale nie

muszą być

znane

użytkownikom

tego typu wydawnictw. Oba

porząd

ki

mają

dwa warianty: a fronte i a tergo;

będziemy

dalej

rozpatrywać

tylko

porządek

a fronte, ale

rozważania

te w analogiczny sposób

można stosować

do

porządku

a tergo. Za

Bańką

(1987)

będziemy rozróżniać porządek

leksykograficzny

słowo

po

słowie

i

porządek

leksykograficzny litera po literze.

Dla języków nie korzystających z diakrytów, V.:f etU ustalenia porządku alfa- , J

betycznego

słów należy zbudować

ich charakterys'f!d literowe,

przekształcając

w

każdym słowie

jego kolejne litery na ich bezkasztowe reprezentacje

bezpośrednie

(tj.

rozpisując

ligatury i

wprowadzając

odpowiednie symbole dla liter o reprezen-

(6)

tacji wieloznakowej - np. dla czeskiego

eh).

Przy oczywistym

założeniu, że

repre- zentacje te

są uporządkowane

zgodnie z

kolejnością

liter w alfabecie,

uporządko

wanie alfabetyczne danych słów otrzymujemy sortując ^ich charaktcry~ki ^literowe

według

dowolnego ze znanych algorytmów.

W

jęzrfach korzystających

z diakrytów, dl;i danego

słowa należy

oprócz charakterys ' Vd literowej

zbudować również charakterystykę

diak1ytycznq. Dla

każ

dej litery zapisywanej w charakterystyce literowej, w charakterystyce diakrytycznej wpisujemy diakryt

towarzyszą<..)'

tej literze, a

jeśli

go nie

było

- specjalny diakryt pusty.

Oczywiście,

i tutaj

zakładamy, że

znana jest

kolejność

diakrytów w ich alfabecie (z uwzględnieniem diakrytu pustego - przyjmujemy, że poprzedza onl"' wszystkie

pozostałe). Uporządkowanie

alfabetyczne

słów

otrzymujemy

sortując

napisy

według

klucza sortowania

składającego się

- w tej

kolejności

- z charaktery- styki literowej i diakrytycznej, oddzielonych odpowiednim separatorem (koniecz- nym, aby

słowa

krótsze

poprzedzały słowa dłui.sze).

Zilustrujemy to

przykładem zaczerpniętym

ze

słownika

Lindego (1854-60), dla którego

ą, ł

itd. nie

były

samodzielnymi literami, lecz literami a, I itd . z odpowiednimi diakrytami.

Słowom

Lach, lacha , lada,

ląd,

lach, lad, ladnie

oupowiadają

wic;c w tej konwencji np. •

następujące

klucze sortowania: lach /0000, fa cha/00000, fada/0000, lad/010, lach/2000, lad/200, ladnie/200000 (diakryt pusty oznaczamy

cyfrą

O,

pozostałe

diakryty kolejnymi cyframi;

zakładamy uporządkowanie

symboli

wdług

kodu AS- CII, w którym znak I poprzedza wszystkie <..)'fry i litery). Po posortowaniu otrzyma - my

następującą kolejność słów:

Lach,

łach,

lacha,

ląd, ład,

lada,

ładnie.

W

słowniku

Lindego

hasło ład

poprzedza

ląd,

co

wygląda

bardziej na

pomyłkę niż

na konse-

kwentną decyzję, hasła odpowiadające pozostałym słowom wystc;pują

w podanej

wyżej kolejności.

W

porządku

leksykograficznym typu sfowo po

słowie

zamiast charakterystyki literowej budujemy

charakterystykę znakową,

w której

mogą znajdować się również

spacje i inne znaki interpunkcyjne oraz <..)'fry.

Więcej

zalet ma jednak moim zdaniem

porządek

typu litera po literze, w którym

charakterystykę literową

budu- jemy jak poprzednio, a do klucza sortowania - po charakterystyce diakrytycznej i odpowiednim separatorze - dodajemy

charakterystykę interpunkcyjną,

która

może być

tworzona na kilka sposobów,

prowadzących

do nieco innego

uporządkowania.

Przyjmiemy tutaj,

że charakterystykę iterpunkcyjną

tworzymy

następująco.

Dla

każdej

napotkanicj w napisie litery wpisujemy do charakterystyki interpunk<..)'jnej umowny symbol litery. Dla

każdego

napotkanego znaku interpunkcyjnego - rów-

nież

dla spacji

łub

cyfry - wpisujemy jego reprezentacje do charakterystyki inter-

(7)

.',1-

punkcyjnej.

Kolejność

symboli w alfahecie interpunkL)'jnym (mzszerzonym o symbol litery i alfabet cyfrowy) jest

spraw~! otwartą, gdyż

- jak si<; wydaje - nie

ukształtowały się

w tym wzgl<;dzie jednolite zwyczaje. Proponujemy tutaj , aby spacja poprzcdzala wszystkie inne symholc, a

ląo•.nik

- sy111boJ, .Jitery_ ; ;.przy tej konwencji

przykłady

z artykulu

(Bańko

1987:64) hylyhy

uporządkowane następu jąco:

1. historyczno-literacki,

2. historycznoliteracki,

_-'.').

3. nie na

żarty,

4. nie

nażarty,

5.

nienażarty,

6. szaro-zielony, 7. szarozielony, 8. widzi mi

się,

9.

widzimisię.

Bańko (1987:63-64) proponuje słusznie, ahy przyjąć formalne kryterium po-

rządkowania

napisów

różniących się

tylko

kasztą.

Postulat ten

można zrealizować

dodając

do klucza sortowania

dodatkową cłzarak1e1ys1ykę

kasztowq,

zawierającą

ciąg

odpowiednich symboli kaszt. Proponuj<;, aby kaszta dolna

poprzedzała

kaszt<;

górną,

co daje nam np.

taką kolejno~ć:

pan, Pan , PAN.

Reasumując,

klucz sortowania napisów

według porządku

leksykograficznego litera po literze jest zbudowany z

nast<;pujących

elementów:

- charakterystyka literowa, - charakterystyka diakryczna, - charakterystyka intcrpukcyjna, - charakterystyka kaszlowa.

Elementy te

są

oddzielane specjalnym separatorem, który musi przy porów- naniu

poprzedzać

wszystkie symbole

mogące wystąpić

w charakterystyka' ch. Dla

zwiększenia sprawności

sortowania

należy rozważyć

stosowanie skróconych lub uproszczonych charakterystyk;

można również wziąć

pod

uwagę

sortowanie dwue- tapowe - najpierw

według

charaktcrystki literowej, a

następnie według pozostałych

charakterystyk.

(8)

'

5. Uwagi końcowe

Jak

starałem się wykazać,

pozornie prosta i oczywista sprawa

porządku

alfa- betycznego i leksykograficznego kryje w sobie sporo subte lnych problemów; nie jest

więc

przypadkiem,

że ciągle

jeszcze nielio.ne

są

algorytm y i programy

sortują

ce napisy

według porządku

alfabetycznego

właściwego

dla poszczególnych j<(zyków naturalnych, a nie tylko

według

kodów komputerowych opartych na alfabecie angielskim. Mam

nadzieję, że

niniejsza praca przyczyni

się

do zmiany tej sytuacji na lepsze.

6. Prace cytowane

Bańko Mirosław

1987

"Porządek

alfabetyczny jako

narzędzie

leksykografa":. fW:]

Saloni Z. (red.): Sttidin z polskiej leksykow·afti

współczesnej

Il. Rozprawy Uniwersytetu Warszawskiego (Dissertationes Universitatis Varsoviensis) 338.

Białystok: Dział

Wydawnictw Filii UW w

Białymstoku,

s. 57-72.

Becker Joseph O. 1984 "M ultilin gual Word Processing". Scientific American Vol.

251 No. l July 1984, pp 82-93.

Bień

Janusz S. J 972 "O pewnych problemach przetwarzania

języków

fleksyjnych na maszynach cyfrowych". Prace FiloloKiczne XXII!, s. 187-191.

1972a "O dwóch poj<(ciach

pożytecznych

Uwagi o porządku alfabetycznym i leksykograficznym

. . ...

Janusz S.

Warszawa

Uwagi o porządku alfabetycznym i leksykograficznym

1. Fizyczne postacie tekstu

dwa zasadnicze rodzaje tekstów:

i teksty w postaci czytelnej dla komputera, które - zgodnie z

w

1977:254) - będziemy nazywać

kodo~mi.

Teksty naturalne dzielimy na ~

- teksty mówione,

- teksty pisane

- teksty drukowane.

Warto zwrócić u~ ę na daleko idące analogie między tekstem mówionym i '\J' t>--

pisanym

ten sam tekst wypowiedziany lub - napisany przez

w

momentach

istotnie

akustyczny lub graficzny, w

od takich czynników, jak nastrój danej osoby, tempo mówienia lub pisania, sposób mówienia (np. krzyk, szept), wykorzystywany do pisania

i

itd. Wszystkie te czynniki

automatyczne przetwarzanie tekstów mówionych i pisanych

jest bardzo utrudnione; w dalszym

pracy

tekstami drukowanymi.

wielu sposobów kodowania tekstów

rodzaje:

- akustyczne,

- wizualne,

- symboliczne, - technologiczne.

Tukst kodowany akustycznie to cyfrowy zapis (taki, jak na

kompakto- wej) tekstu mówionego. Tukst kodowany wizualnie to cyfrowa reprezentacja tekstu pisanego lub drukowanego otrzymana przez

powierzchni tekstu na bardzo

fragmenty -

niewidoczne

okiem - i sklasyfikowanie ich jako zaczernione lub nie. Tekst kodowany symbolicznie to zapis tekstu w postaci

liczb, którym przypisane jest umownie pewne znaczenie;

stosowany w

komputerów kod ASCII (American Standard Code for Information Interchange -

standardowy kod do wymiany informacji), jego odmiany i pochodne (Mackenzie 1980). Kodowanie technologiczne tekstów

konkretnym celom, np. do sterowania

czy

niem do

W wypadku komputerowych drukarek graficznych kodowanie technologiczne

elementy kodowania symbolicznego z wizualnym: po opisaniu znaku jako pewnego

punktów, dalsze

do tego znaku

charakter symboliczny.

Z oczywistych

charakter kodowania symbolicznego w istotny spo- sób

od

dla danego

pisma. Ciekawe

z tym

w artykule (Becker 1984); dalej ograniczymy

do rozpatrywania tylko alfabetycznych systemów pisma.

2. Alfabetyczny system pisma

tekstu w alfabetycznym systemie pisma jest

liter; w

diakryty. Elementami takstów

znaki interpunkcyjne i cyfry. Ze

praktycznych

tekst dzieli

na wiersze czyli linijki.

naturalne

alfabetyczne systemy pisma

zesta- wem stosowanych liter, czyli alfabetem literowym; np.

polski stosuje litery

itd. nie

na

w innych

Niektóre

oprócz liter

diakryty, które

alfabet diakrytyczny; np. dla

francuskiego zawiera on m.in. / , \, "' i ·· - jak zobaczymy dalej, diakryty i litery

. ^. ^...

Warto zwrócić u~ ę na daleko idące ^analogie między tekstem mówionym i '\J' ^t>--

r~ ^turalne różni1 się również zestawami znaków interpunkcyjnych czyli alfabetami

stosuje odwrócony znak zapytania i wykrzyknik (i., i). Do alfabetu interpunkcyjne- go zaliczamy również odstęp czyli spację. fest chyba trudno znaleźć język posługu