. . ...
1992 r.
Janusz S.
BieńWarszawa
UNIWERSYTET GDAŃSKI Filologia Polska - Prace Językoznawcze
Uwagi o porządku alfabetycznym i leksykograficznym
1. Fizyczne postacie tekstu
Nr 16
Rozróżniać będziemy
dwa zasadnicze rodzaje tekstów:
1eks1y nan1ralnei teksty w postaci czytelnej dla komputera, które - zgodnie z
propozycją zawartąw
(Bień1977:254) - będziemy nazywać
teksrnmikodo~mi.
\)Teksty naturalne dzielimy na ~
- teksty mówione,
,·- teksty pisane
ręcznie,- teksty drukowane.
Warto zwrócić u~ ę na daleko idące analogie między tekstem mówionym i '\J' t>--
pisanym
ręcznie:ten sam tekst wypowiedziany lub - napisany przez
tę samą osobęw
różnych
momentach
może miećistotnie
różny kształtakustyczny lub graficzny, w
zależności
od takich czynników, jak nastrój danej osoby, tempo mówienia lub pisania, sposób mówienia (np. krzyk, szept), wykorzystywany do pisania
przyrządi
materiałitd. Wszystkie te czynniki
sprawiają, żeautomatyczne przetwarzanie tekstów mówionych i pisanych
ręczniejest bardzo utrudnione; w dalszym
ciągupracy
będziemy zajmować się głównietekstami drukowanymi.
Wśród
wielu sposobów kodowania tekstów
wyróżnimy następującerodzaje:
- akustyczne,
- wizualne,
- symboliczne, - technologiczne.
Tukst kodowany akustycznie to cyfrowy zapis (taki, jak na
płyciekompakto- wej) tekstu mówionego. Tukst kodowany wizualnie to cyfrowa reprezentacja tekstu pisanego lub drukowanego otrzymana przez
podziałpowierzchni tekstu na bardzo
małe
fragmenty -
częstoniewidoczne
gołymokiem - i sklasyfikowanie ich jako zaczernione lub nie. Tekst kodowany symbolicznie to zapis tekstu w postaci
ciąguliczb, którym przypisane jest umownie pewne znaczenie;
przykładem może byćstosowany w
większościkomputerów kod ASCII (American Standard Code for Information Interchange -
amerykańskistandardowy kod do wymiany informacji), jego odmiany i pochodne (Mackenzie 1980). Kodowanie technologiczne tekstów
służy
konkretnym celom, np. do sterowania
odlewarką monotypowączy
urządzeniem do
fotoskładu.W wypadku komputerowych drukarek graficznych kodowanie technologiczne
często łączyelementy kodowania symbolicznego z wizualnym: po opisaniu znaku jako pewnego
układupunktów, dalsze
odwołaniado tego znaku
mają już
charakter symboliczny.
Z oczywistych
względówcharakter kodowania symbolicznego w istotny spo- sób
zależyod
właściwegodla danego
języka ~ystemupisma. Ciekawe
przykładyz tym
związane można znaleźćw artykule (Becker 1984); dalej ograniczymy
siędo rozpatrywania tylko alfabetycznych systemów pisma.
2. Alfabetyczny system pisma
Podstawową jednostką
tekstu w alfabetycznym systemie pisma jest
słowo, będące ciągiemliter; w
słowach mogą występować równieżdiakryty. Elementami takstów
są takżeznaki interpunkcyjne i cyfry. Ze
względówpraktycznych
każdy dłuższytekst dzieli
sięna wiersze czyli linijki.
Języki
naturalne
stosującealfabetyczne systemy pisma
często różnią sięzesta- wem stosowanych liter, czyli alfabetem literowym; np.
językpolski stosuje litery
ą, ćitd. nie
występującena
ogółw innych
językach.Niektóre
językioprócz liter
wykorzystują także
diakryty, które
tworząalfabet diakrytyczny; np. dla
językafrancuskiego zawiera on m.in. / , \, "' i ·· - jak zobaczymy dalej, diakryty i litery
odgrywają
istof1ie
odmienną rolęprzy
porządkowaniualfabetycznym.
Językina-
r~ turalne różni1 się również zestawami znaków interpunkcyjnych czyli alfabetami
interpunkcyjnymi;
przeważniedotyczy to
kształtu cudzysłowów,ale np.
hiszpańskistosuje odwrócony znak zapytania i wykrzyknik (i., i). Do alfabetu interpunkcyjne- go zaliczamy również odstęp czyli spację. fest chyba trudno znaleźć język posługu
jący się
alfabetycznym systemem pisma, ale
posiadająt.)'specyficzny zestaw cyfr, czyli alfabet cyfrowy (liczby rzymskie traktujemy jako
słowaalfabetu literowego);
warto jednak
pamiętać, żew tekstach przygotowanych na niektórych typach ma- szyn do pisania cyfra 1 jest
zastępowana małą literą1 , a cyfra O -
dużą literą:O.
Cztery wymienione alfabety (literowy, diakryczny, interpunkcyjny i cyfrowy) wraz z charakterystycznymi dla danego jc;zyka zasadami ich
użycia będziemyrobo- czo
nazywaćliternictwem tego j((zyka.
Wyróżnimy następująceaspekty tak rozu- mianego liternictwa:
- segmentacja tekstu, -
łamanietekstu, -
kasztowość,-
harmoniczność,-
porządekalfabetyczny.
Co do segmentacji tekstu na
słowa,to zwrócimy tutaj tylko
uwagęna to,
żenp.
dla angielskiego nie jest ona zbyt precyzyjnie
określona:zapisy matchbox, match- box i matchbox
sąpraktycznie równowa:i.ne. Pewne uwagi o segmentacji tekstu polskiego
można znaleźćw artykule
(Bień,Salo'ni 1982:32-33).
Przez
łamanietekstu rozumiemy problem dzielenia tekstu na linijki; zawiera on w sobie zagadnienie dzielenia wyrazów, ale nie ogranicza
siędo niego. Jest oczywiste,
żenp. nie
można przenieśćdo nowego wiersza kropki
kończącejzdanie, ale
jużsprawa zostawienia na
końculinijki
słówjednoliterowych nie jest skodyfi- kowana i
może budzićkontrowersje.
Przezkasztowość
rozumiemy
całość zagadnień związanychz
użyciem małychi
dużych
(wielkich) liter. Proponowany termin (utworzony na wzór podobnych terminów angielskich i francuskich) wywodzi sic; z faktu,
żedawniej przy
składzie ręcznym częstostosowano dwie kaszty do przechowywania czcionek -
górnąprze- znaczono na lilery
duże (majuskuły),a
dolnąna litery
małe (minuskuły).Przez
harmoniczno.śćrozumiemy
występuj<1cena granicy
słówzjawiska od-
zwierciedlające
w
piśmiepewne zjawiska fonetyczne, jak np. elizja
samogłoskiw pewnych kontekstach lub przeciwnie, wstawienie
głoskidla
ułatwieniawymowy. W
artykułach (Bień
1972, 1972a) zjawisko to
byłoopisywane za
pomocątzw. funkcji
wyboru,
zaśw pracy
(Bień,Saloni 1982:36, 39-40) - za
pomocąnietradycyjnych
kategorii fleksyjnych
poprzyimkowości, wokalicznościi
aglutynacyjności.Mówiąc
o
porządkua/fabe1ycznym nic
będziemy siętutaj
zajmowaćjego
dużymznaczeniem praktycznym - które
zostałoprzedstawione w pracy
(Bańko1987) - ale zajmiemy
siędalej
sformułowaniem ścisłychzasad alfabetycznego
porządkowanianapisów.
3. Czczionka a litera
Pojęcie
czcionki
będziemy rozumiećtutaj szerzej
niżjest to
przyjęte,obejmu-
jąc
nim
równieżelementy kodów komputerowych; odpowiada
więcono wiernie angielskiemu terminowi charac1er, który z
reguły tłumaczonyjest jako znak - w
większości
kontekstów nie powoduje to
nieporozumień,w naszym jednak przypad- ku
mogłoby być myląceze
względuna
wieloznacznośćtego
słowa.Zbiór
dostępnych czcionek
będziemy nazywaćalfahe1em czcionko"H-ym.
Przez
lilerę będziemy rozumiećdalej pewien obiekt abstrakcyjny, opisywany przez wyliczenie jego reprezenwcji czcionkowych. Reprezentacje te dzielimy na
bezpośrednie
i
pośrednie.Reprezentacja
bezpośrednia może byćjednoczcionkowa
(przykładem są
ro.in. wszystkie litery alfabetu angielskiego) lub wieloczcionkowa (np. litera eh w
językuczeskim); reprezentacja liter polskich
zależyod danego alfabetu czcionkowego - np. w niektórych kodach komputerowych
możnaje repre-
zentować
wieloczcionkowo
(przeważnie,niestety, w sposób
dosyćsztuczny), w innych mają one reprezentacj\ jcdnoczcionkowe (Smith 1983, Majewski 1987). 11?_
Reprezentacje
pośredniedzielimy na reprezeniacje
złożonei reprezentacje zespolo- ne. Z
reprezentacją złożonąmamy do czynienia wtedy, gdy pewna czcionka, np. e
(w kodzie komputerów osohistych typu IBM PC jest to po prostu liczba 133), reprezentuje
jednocześniepewm1 liter<; (w naszym
przykładzie e)i pewien diakryt (w naszym
przekładzie' ). Reprezentacje zespolone liter tradycyjnie nazywa
sięligaturami -
sąto pojedyncze czcionki
reprezentującewic;cej
niż jedną literę.Ligatur; techniczne (np.fi) stosowane
byływ
składzien;cznym z powodu technicz- nej
niemożliwościustawienia w
bezpośrednim sąsiedztwieczcionek o
zachodzą-cych na siebie
kształtach,jak w przypadku fi i; w
fotoskładziei innych technikach tzw.
składuzimnego stosuje
sięje
nadałdla tradycji i estetycznego
wyglądu.Inny typ ligatur
będziemytutaj
nazywaćligaturami autorskimi,
gdyż- jak
sięwydaje - w
językach,
które je
dopuszczają,ich
użycie zależyod decyzji autora, a nie
składacza;przykładem może hyć
francuskie
a~ reprezentujące ciągdwóch liter o ie .
Z innego punktu widzenia reprezentacje liter
możemy podzielićna min,usku-
łowe
(dolna kaszta) i
majuskułowe(górna kaszta); przy
porządkowaniualfabetycz-
. nym
posługujemy się specjalną reprezentacją bezkasztową(ang. case-free). Dla
wygody
będziemyniekiedy
utożsamiać samą literęz jej
reprezentacją bezkasztową.Ponieważ częściej
interesuje nas
przejścieod
ciąguczcionek do reprezentowa-
nego przez nie zapisu niż odwrotnie, zajmiemy się obecnie klasyfikacją czcion'\El \\ ~ Dzielimy je przede wszystkim na jednofunkcyjne i wielofunkcyjne.
Przykłademczcionki wielofunkcyjnej może być czcionka c w języku c~skim, która może \ {.
reprezentować literę
c lub
być początkiemdwuznaku
reprezentującego literęeh.
Zakładamy
dalej,
żeznane
są ścisłe regułyustalania funkcji danego
wystąpieniaczcionki wielofunkcyjnej,
choćw
rzeczywistościsprawa nie musi
byćtak prosta.
Pozostałe
kryteria
podziałuczcionek
sąwtórne w stosunku do
rozróżnień jużwprowadzonych. Z punktu widzenia sposobu reprezentacji, czcionki dzielimy na proste,
złożonei zespolone; z punktu widzenia reprezentowanych obiektów dzieli-
my je na literowe, interpukcyjne i cyfrowe (niekiedy
mogą wystąpić równieżsamodzielne czcionki diakrytyczne) .
•
4.
Porządekalfabetyczny i leksykograficzny
Przez
porządekalfabetyczny rozumiemy taki sposób
porządkowania słów,który znany jest praktycznie
każdemu użytkownikowidanego
językai stosowany jest powszechnie w
różnegorodzaju spisach,
słownikach, książkachtelefonicznych itp. Przez
porządekleksykograficzny rozumiemy taki sposób
porządkowanianapi- sów (a nie tylko
słów),który jest stosowany - lub nadaje
siędo stosowania - przez redaktorów
słowników,encyklopedii itp.; zasady
porządkuleksykograficznego
mogą,
ale nie
muszą byćznane
użytkownikomtego typu wydawnictw. Oba
porządki
majądwa warianty: a fronte i a tergo;
będziemydalej
rozpatrywaćtylko
porządeka fronte, ale
rozważaniate w analogiczny sposób
można stosowaćdo
porządkua tergo. Za
Bańką(1987)
będziemy rozróżniać porządekleksykograficzny
słowopo
słowie
i
porządekleksykograficzny litera po literze.
Dla języków nie korzystających z diakrytów, V.:f etU ustalenia porządku alfa- , J
betycznego
słów należy zbudowaćich charakterys'f!d literowe,
przekształcającw
każdym słowie
jego kolejne litery na ich bezkasztowe reprezentacje
bezpośrednie(tj.
rozpisującligatury i
wprowadzającodpowiednie symbole dla liter o reprezen-
tacji wieloznakowej - np. dla czeskiego
eh).Przy oczywistym
założeniu, żerepre- zentacje te
są uporządkowanezgodnie z
kolejnościąliter w alfabecie,
uporządkowanie alfabetyczne danych słów otrzymujemy sortując ich charaktcry~ki literowe
według
dowolnego ze znanych algorytmów.
W
jęzrfach korzystającychz diakrytów, dl;i danego
słowa należyoprócz charakterys ' Vd literowej
zbudować również charakterystykędiak1ytycznq. Dla
każdej litery zapisywanej w charakterystyce literowej, w charakterystyce diakrytycznej wpisujemy diakryt
towarzyszą<..)'tej literze, a
jeśligo nie
było- specjalny diakryt pusty.
Oczywiście,i tutaj
zakładamy, żeznana jest
kolejnośćdiakrytów w ich alfabecie (z uwzględnieniem diakrytu pustego - przyjmujemy, że poprzedza onl"' wszystkie
pozostałe). Uporządkowaniealfabetyczne
słówotrzymujemy
sortującnapisy
wedługklucza sortowania
składającego się- w tej
kolejności- z charaktery- styki literowej i diakrytycznej, oddzielonych odpowiednim separatorem (koniecz- nym, aby
słowakrótsze
poprzedzały słowa dłui.sze).Zilustrujemy to
przykładem zaczerpniętymze
słownikaLindego (1854-60), dla którego
ą, łitd. nie
byłysamodzielnymi literami, lecz literami a, I itd . z odpowiednimi diakrytami.
SłowomLach, lacha , lada,
ląd,lach, lad, ladnie
oupowiadająwic;c w tej konwencji np. •
następujące
klucze sortowania: lach /0000, fa cha/00000, fada/0000, lad/010, lach/2000, lad/200, ladnie/200000 (diakryt pusty oznaczamy
cyfrąO,
pozostałediakryty kolejnymi cyframi;
zakładamy uporządkowaniesymboli
wdługkodu AS- CII, w którym znak I poprzedza wszystkie <..)'fry i litery). Po posortowaniu otrzyma - my
następującą kolejność słów:Lach,
łach,lacha,
ląd, ład,lada,
ładnie.W
słownikuLindego
hasło ładpoprzedza
ląd,co
wyglądabardziej na
pomyłkę niżna konse-
kwentną decyzję, hasła odpowiadające pozostałym słowom wystc;pują
w podanej
wyżej kolejności.
W
porządkuleksykograficznym typu sfowo po
słowiezamiast charakterystyki literowej budujemy
charakterystykę znakową,w której
mogą znajdować się równieżspacje i inne znaki interpunkcyjne oraz <..)'fry.
Więcejzalet ma jednak moim zdaniem
porządektypu litera po literze, w którym
charakterystykę literowąbudu- jemy jak poprzednio, a do klucza sortowania - po charakterystyce diakrytycznej i odpowiednim separatorze - dodajemy
charakterystykę interpunkcyjną,która
może byćtworzona na kilka sposobów,
prowadzącychdo nieco innego
uporządkowania.Przyjmiemy tutaj,
że charakterystykę iterpunkcyjnątworzymy
następująco.Dla
każdej
napotkanicj w napisie litery wpisujemy do charakterystyki interpunk<..)'jnej umowny symbol litery. Dla
każdegonapotkanego znaku interpunkcyjnego - rów-
nież
dla spacji
łubcyfry - wpisujemy jego reprezentacje do charakterystyki inter-
.',1-
punkcyjnej.
Kolejnośćsymboli w alfahecie interpunkL)'jnym (mzszerzonym o symbol litery i alfabet cyfrowy) jest
spraw~! otwartą, gdyż- jak si<; wydaje - nie
ukształtowały się
w tym wzgl<;dzie jednolite zwyczaje. Proponujemy tutaj , aby spacja poprzcdzala wszystkie inne symholc, a
ląo•.nik- sy111boJ, .Jitery_ ; ;.przy tej konwencji
przykładyz artykulu
(Bańko1987:64) hylyhy
uporządkowane następu jąco:1. historyczno-literacki,
2. historycznoliteracki,
-'.').3. nie na
żarty,4. nie
nażarty,5.
nienażarty,6. szaro-zielony, 7. szarozielony, 8. widzi mi
się,9.
widzimisię.Bańko (1987:63-64) proponuje słusznie, ahy przyjąć formalne kryterium po-
rządkowania
napisów
różniących siętylko
kasztą.Postulat ten
można zrealizowaćdodając
do klucza sortowania
dodatkową cłzarak1e1ys1ykękasztowq,
zawierającąciąg
odpowiednich symboli kaszt. Proponuj<;, aby kaszta dolna
poprzedzałakaszt<;
górną,
co daje nam np.
taką kolejno~ć:pan, Pan , PAN.
Reasumując,
klucz sortowania napisów
według porządkuleksykograficznego litera po literze jest zbudowany z
nast<;pującychelementów:
- charakterystyka literowa, - charakterystyka diakryczna, - charakterystyka intcrpukcyjna, - charakterystyka kaszlowa.
Elementy te
sąoddzielane specjalnym separatorem, który musi przy porów- naniu
poprzedzaćwszystkie symbole
mogące wystąpićw charakterystyka' ch. Dla
zwiększenia sprawności
sortowania
należy rozważyćstosowanie skróconych lub uproszczonych charakterystyk;
można również wziąćpod
uwagęsortowanie dwue- tapowe - najpierw
wedługcharaktcrystki literowej, a
następnie według pozostałychcharakterystyk.
'
5. Uwagi końcowe
Jak
starałem się wykazać,pozornie prosta i oczywista sprawa
porządkualfa- betycznego i leksykograficznego kryje w sobie sporo subte lnych problemów; nie jest
więcprzypadkiem,
że ciąglejeszcze nielio.ne
sąalgorytm y i programy
sortujące napisy
według porządkualfabetycznego
właściwegodla poszczególnych j<(zyków naturalnych, a nie tylko
wedługkodów komputerowych opartych na alfabecie angielskim. Mam
nadzieję, żeniniejsza praca przyczyni
siędo zmiany tej sytuacji na lepsze.
6. Prace cytowane
Bańko Mirosław
1987
"Porządekalfabetyczny jako
narzędzieleksykografa":. fW:]
Saloni Z. (red.): Sttidin z polskiej leksykow·afti
współczesnejIl. Rozprawy Uniwersytetu Warszawskiego (Dissertationes Universitatis Varsoviensis) 338.
Białystok: DziałWydawnictw Filii UW w
Białymstoku,s. 57-72.
Becker Joseph O. 1984 "M ultilin gual Word Processing". Scientific American Vol.
251 No. l July 1984, pp 82-93.
Bień
Janusz S. J 972 "O pewnych problemach przetwarzania
językówfleksyjnych na maszynach cyfrowych". Prace FiloloKiczne XXII!, s. 187-191.
1972a "O dwóch poj<(ciach
pożytecznychprzy automatycznym przetwa- rzaniu tekstów". Z polskich studiów slawis1ycznych. Seria 4.
Językoznawstwo.Warszawa : PWN, s. 311-315.
1977 "Li ngwistyka informatyczna we Francji". Polonica III (1977), s. 243-255.
Bień