W moim artykule proponuje się, by w ram ach lansow ania odpowiedniej w spółpracy międzynarodowej w dziedzinie LR podjęto konkretne decyzje i działania na poziomie technicznym i organizacyjnym oraz strategii.
P ozio m s tra te g ii
LR wiążą się na wiele sposobów z tożsam ością narodow ą i kulturow ą oraz pełnią kluczową rolę infrastrukturalną w opracow yw aniu produktów przem ysłu językoznaw czego dla danego języka.
Powszechnie uważa się, że istnienie przemysłu języko
znawczego danego n arodu to w arunek zachow ania funk
cji języka ja k o nośnika we współczesnym społeczeństwie informacyjnym.
LR są oparte na odpow iednim opisie danego języka i są dla takiego opisu pom ocne. W łaśnie dlatego uważamy, że we wszystkich krajach należy szerzyć zrozum ienie na
stępujących aspiracji:
■ LR pow inny być dostępne ja k o własność publiczna.
■ Lansowanie tw orzenia stosow nych LR dla danego języka należy powierzyć instytucjom adm inistracji
państwowej.
■ Jednojęzyczne LR dla różnych języków należy tworzyć w sposób skoordynow any, który pozwoli n a ich h a r
m onizow anie na poziom ie wielojęzycznym.
P ozio m te c h n ic z n y
Jak się wydaje, podstaw ow y warunek, który zapewni harm onizow anie LR na poziom ie wielojęzycznym, a tak że możliwość ich w ykorzystyw ania i wielofunkcyjność, to
34 Inform atyka nr 3. 1996 r.
przyjęcie wspólnych w ym agań technicznych. Szczególnie w przypadku m ateriałów w językach naturalnych rodzi się kontrow ersyjny problem, czy zasoby językoznawcze, aby nadaw ały się do w ykorzystywania i były wielofunk
cyjne, m uszą być n i e z a l e ż n e o d t e o r i i : wym agania form ułow ane w odniesieniu do informacji językoznaw czych z zakresu danego języka naturalnego m ogą być uw arunkow ane nie tylko planow anym zastosowaniem tychże informacji, lecz także konkretnym i teoriam i języ
koznawczymi, na których, explicite bądź implicite, opiera
ją się językoznawcze elementy systemu.
Rozwiązanie, k tóre obecnie stosuje się na poziomie naukow ym i technicznym, polega na usiłowaniu osiąg
nięcia consensusu pomiędzy różnym i ujęciami teoretycz
nymi i podejściami do projektow ania systemów. Tam, gdzie udaje się osiągnąć ten cel, możliwe jest przyjęcie wspólnych wymagań technicznych, czyli de fa c to norm tw orzenia zasobów językoznawczych, co zapew nia ich harm onizow anie na poziomie międzynarodow ym i wielo
języcznym. Inicjatywa K odow ania Tekstów, finansow ana wspólnie przez ACH, A LLC i ACL, w ydała zestaw wytycznych z dziedziny kodow ania tekstów. Projekt LR E-EA G LES („grupa doradcza ekspertów z dziedziny norm inżynierii językoznawczej”), zainaugurow any nie
daw no przez C EC D G X III, grom adzi wyniki prac, które prow adzą instytucje zarów no akademickie, jak gospodar
cze, i które zm ierzają do stworzenia de fa c to wspólnych norm z zakresu wyborów tekstów, słownictwa, danych języka mówionego, a także oceny i form alizacji3).
P ozio m o rg a n iz a c y jn y
W odniesieniu do stanu bieżącego, na poziomie o r
ganizacyjnym możemy wyróżnić potrzebę działania w trzech ogólnych dziedzinach:
L a n so w a n ie w y k o rzy sty w aln o ści istn iejący ch (częś
ciow ych) z a so b ó w języ k o zn aw czy ch . Pociąga to za sobą rozm aite zadania, od przeform atow ania lub k o n wersji istniejących zasobów językoznawczych w taki sposób, by odpow iadały one wspólnym norm om , do ekstrahow ania zaw artych w nich jaw nych i ukrytych informacji językoznawczych i uzupełniania ich tak, by odpow iadały wspólnym minimalnym wym aganiom tech
nicznym.
D w a wielkoskalowe projekty, które finansują W spól
noty Europejskie, to E SPR IT A C Q U ILEX i ET-10; oba m ają n a celu ekstrahow anie - z zastosow aniem procedur półautom atycznych - informacji z dziedziny semantyki, które w ystępują w definicjach haseł słownikowych w roz
m aitych dostępnych słownikach, które sporządzono w postaci pozwalającej na ich odczytywanie przez maszy
3) Inform acje na tem at EA G LES dostępne są u A ntonia Zam polliego (e-mail: eagles@ilc.pi.enr.it).
4) N. Calzolari, J. H agm an, E. M arinai, S. M ontem agni, A. Spanu, A.
Zampolli: „K odow anie definicji leksykograficznych ja k o stru k tu r cechy utypow ionej”, [w:] F. Beckmann, G. H eyer [opr.]: Teoria i praktyka słownictwa, W alter de G ruyter, Berlin, 1993.
51 N. Calzolari, S. Federici, S. M ontem agni, C. Peters: „Ekstrahow anie, reprezentow anie i stosow anie informacji składniow o-sem antycznych z de
finicji C o b u ild ”, [w :] J. Sinclair, M. H oelter, C. P eters [opr.]: Języki definicji: Formalizacja definicji słownikowych do celów obróbki języków naturalnych. Studia w dziedzinie tłum aczenia m aszynowego i obróbki języków naturalnych, tom 7, Kom isja Europejska, Bruksela, 1994.
ny (odnośnie A C Q U ILEX , por. Calzolari et al., 19934);
odnośnie ET-10, por. Calzolari et al., 1994)5).
L a n so w a n ie o p ra c o w y w a n ia n o w y ch z a so b ó w języ k o zn aw czy ch dla tych języ k ó w i dziedzin, d la k tó ry c h d o ty ch czas b r a k z a so b ó w lub dla których istnieją one dopiero na etapie prototypu, względnie istnieją, lecz nie m ogą być udostępniane zainteresowanym użytkow ni
kom.
Dziedziny języka pisanego i mówionego oraz podob- szary ich term inologii odznaczają się własnymi cechami charakterystycznym i i własną dynam iką. W odniesieniu do LR języka pisanego, w większości krajów działalność prow adzą głównie takie instytucje, które otrzym ują wspa
rcie ze środków publicznych, aby prow adzić badania w sferze LR i wytwarzać LR niezbędne do celów inżynierii języka (LE) i innych - w szczególności dane słownikowe dla określonych języków, oraz odpow iadające im pom oc
nicze wybory tekstów. N iektóre z tych instytucji ju ż w tej chwili są w stanie dostarczyć zasoby częściowe, nadające się do zastosow ań kom puterow ych. W dziedzinie LR języka mówionego, kluczową rolę odgrywa przemysł informacyjny i kom unikacyjny, ponieważ zasoby, k tó rych w tej sferze potrzeba, odnoszą się głównie do konkretnych technologii i zastosowań. W podobszarze term inologii, różnorodne instytucje gospodarcze, rządo
we i zawodowe prow adzą działania w dziedzinie ter
minologii poszczególnych sektorów , działania te w ym a
gają koordynacji.
W ykorzystując charakterystyczne cechy każdego po- dobszaru, Kom isja finansuje rozm aite projekty, a zwłasz
cza przygotowawcze projekty M LA P - PA R O LE, SPE- E C H D A T i P O IN T E R , mające zadanie określić m ini
malny zestaw w arunków organizacyjnych, funkcjonal
nych i technicznych, których należy przestrzegać podczas projektow ania i budow ania zharm onizow anych LR dla wszystkich języków Unii.
W projektach tych wykorzystuje się wyniki wcześniej
szych działań RTD (np. SAM, M U L T IL E X czy NERC), i w postaci operacyjnych wymagań technicznych wciela się w życie wstępne wytyczne, wydane przez grupy robocze EAGLES. W ram ach tych projektów odbyw a się definiowanie i praktyczna realizacja - dla odpowiednich sektorów - europejskiej sieci krajowych punktów zb o r
nych, które koordynow ać będą tworzenie LR zgodnie z interesam i twórców i użytkowników zasobów.
P O IN T E R ułatwi opracowywanie i szerokie udostęp
nienie danych terminologicznych w całej Europie, a także będzie w spom agał współpracę i wymianę wyników mię
dzy tw órcam i oprogram ow ania oraz właścicielami i użyt
kownikam i terminologicznych baz danych. W dążeniu do tego celu, konsorcjum P O IN T E R określi kluczowe cechy ogólnoeuropejskiej infrastruktury współpracy w dziedzi
nie terminologii oraz scharakteryzuje działania niezbędne dla zbudow ania zalecanej infrastruktury, ustali priorytety i przeprow adzi analizę kosztów i zysków. N acisk położy się n a zaspokojenie potrzeb użytkowników gospodar
czych z całej Europy.
PA R O LE określi dwupoziom ow ą infrastrukturę współpracy, k tó ra będzie anim ow ała tworzenie i w yko
rzystywanie zharm onizow anych zasobów oraz narzędzi tekstowych i słownikowych, przyczyni się do jej ustano
wienia, i określi w ym agania techniczne względem słow
nictwa, wyborów tekstów i pokrew nych narzędzi, które będzie się tworzyć i udostępniać europejskiej wspólnocie badawczo-rozwojowej.
S P E E C H D A T ustanow i infrastrukturę, k tó ra ułatwi tworzenie zasobów języka mówionego (SLR), wykorzys
tywanych w zastosow aniach technologii mowy. W ra
m ach tego projektu poszukiwać się będzie dróg do m aksymalnej wydajności tworzenia SLR i rozprow adza
nia ich we wspólnocie języka mówionego. Z aproponuje się zestaw norm roboczych i opis bazy danych, a także będzie się dokonyw ać oceny krótko-, średnio- i długoter
minowych potrzeb gospodarczych w zakresie SLR6).
W w ykonaniu IV Ramowego P rogram u Badawczego, W spólnoty Europejskie wezwały niedawno do zgłaszania propozycji tworzenia LR budow anych zgodnie z wym a
ganiam i technicznymi. W ym agania te określono w p ra cach trzech projektów przygotowawczych, w ram ach sektora inżynierii językoznawczej program u Telematics.
Ponieważ term in ich zgłaszania upłynął 15 czerwca ub. r.
m ożna oczekiwać, że koordynow ane tworzenie LR dla wszystkich języków europejskich rozpocznie się mniej więcej na początku roku bieżącego, a LR stanow iące przedm iot projektów , k tóre wspom niane wezwanie inau
guruje, będą dostępne w ciągu najbliższych trzech-czte- rech lat.
W przypadku zasobów jęz y k a p isan eg o , najważniej
szymi c e la m i'1 na najbliższe trzy lata będzie utworzenie:
■ słowników jednojęzycznych, zawierających minimum 50 tys. rdzeni, co najmniej w 11 oficjalnych językach Unii. zharm onizow anych w sposób sprzyjający wy- mienności, powszechnej skuteczności, a w dalszej ko
lejności - budow aniu łączy jednojęzycznych;
■ w yborów tekstów dla ww. języków, zawierających m inim um po 50 min słów, ja k o podstaw y do tworzenia i prow adzenia słowników; w miarę możliwości rów no
ległe w ybory tekstów wielojęzycznych;
■ zintegrow anego zestawu narzędzi do kodow ania języ
koznawczego, analizy, przeglądania i wyszukiwania tekstów oraz kontroli jakości.
W przypadku z a so b ó w języ k a m ó w io n eg o , najważ
niejszymi celami będzie utworzenie:
■ słowników' wymowy, zawierających w postaci wzorco
wej co najmniej 80% podstaw ow ego słownictwa dane
go języka, wraz z ważnymi w ariantam i (dialektami);
■ opatrzonych objaśnieniam i wyborów spontanicznych tekstów m ówionych co najmniej dla ww. języków; będą one przydatne do aktyw izow ania zastosow ań ogólnych i do badań nad różnicami;
■ zestawu zintegrow anych narzędzi do kontroli jakości baz danych języka mówionego.
W dziedzinie term in o lo g ii, projekty będą koncent
rowały się na:
■ podniesieniu standardu istniejących baz term inologi
cznych i przekształceniu ich w bazy wiedzy; opracow a
niu modeli i m etod, które ostatecznie doprow adzą do stw orzenia standardow ych i wymienialnych term ino
logii i narzędzi, w postaci pozwalającej n a stosowanie ich przez urządzenia obliczeniowe;
■ udoskonaleniu istniejących m etod, procedur i narzędzi analizy i oceny jakościowej i ilościowej zasobów’
terminologicznych.
s> D alsze inform acje dostępne są: w odniesieniu d o P A R O L E u A ntonia Zam poiliego {parole ¿ym.cnuce.cnr.iiX w odniesieniu d o P O IN T E R - u G erard a Budina (a61UdagjXym.univie.ac.atX w odniesieniu d o S P E E C H D A T - u H arald a H oegego (hkjfaw icht.ife.siemens.de).
O pis celów zaczerpnięto z dokum entów , k tó re rozpow szechniają W spólnoty Europejskie.
Należy zauważyć, że od tw órców wym agać się będzie udostępnienia w ybranych wyników bad ań poza konsorc
jum , zwłaszcza w przypadku narzędzi program ow ych i zbiorów danych, które m ogą zainteresow ać szeroką rzeszę odbiorców. W um owach znajdzie się oświadczenie partnerów , że uzyskali oni odpow iednie licencje na praw a autorskie i praw a eksploatacji, pozw alające na rozpo
wszechnianie danych i narzędzi, które partnerzy ci w no
szą do projektów.
S tan o w ien ie in fra s tru k tu ry w sp ó łp ra c y w zak resie g ro m a d z e n ia , p ro w a d z e n ia i ro z p o w sz e c h n ia n ia z a so b ó w języ k o zn aw czy ch w imieniu wspólnoty badaw czej.
Realizowane przez LRE studium w ykonalności RELA- T O R zmierza ku wyraźnie określonem u celowi zdefinio
w ania i zorganizow ania europejskiej infrastruktury, k tóra zapewniłaby rozpowszechnianie, prow adzenie i w ykorzy
stywanie istniejących i przyszłych LR.
W w ykonaniu wniosków studium , R EL A T O R i trzy projekty M L A P wspólnie pow ołały Europejskie Stow a
rzyszenie Zasobów Językowych (ELRA).
Stowarzyszenie jest otw arte dla wszelkich organizacji, publicznych lub prywatnych, które prow adzą prace w państw ach U nii Europejskiej i Europejskiego O bszaru G ospodarczego i są zainteresow ane LR, czy to ja k o twórcy, czy ja k o użytkownicy. P o dwóch latach prac, z udziałem wielu organizacji, przedsiębiorstw gospodar
czych, instytucji i ciał akadem ickich, 23 lutego 1995 r.
w Luksem burgu zarejestrow ano Stowarzyszenie jak o organizację wyższej użyteczności (Association sans but lucratij). Poniew aż nie istnieje jeszcze techniczna m oż
liwość zarejestrow ania organizacji „europejskiej”, fakt rejestracji w Luksem burgu podkreśla wszecheuropejski charakter Stowarzyszenia.
S tatut Stowarzyszenia podpisało 16 członków-założy- cieli, pochodzących ze wszystkich dziewięciu państw Unii Europejskiej. Niem al połow a z nich to organizacje gos
podarcze, a reszta to ciała publiczne i akademickie, między którym i znalazły się najszacowniejsze instytucje językoznaw'czego świata Europy.
Stowarzyszenie będzie świadczyło usługi informacyjne na rzecz swych członków, w ydając cykliczny biuletyn, który będzie informował o działalności w dziedzinie zasobów językowych w Europie i na świecie.
Stowarzyszenie będzie zawierało porozum ienia z tw ór
cami lub właścicielami LR, aby działać ja k o agent rozpo
wszechniający ich m ateriały. Z espół dystrybucyjny Sto
warzyszenia będzie w prow adzał te zasoby na rynek europejski i światowy, pracując bezpośrednio lub przez agentów, zależnie od miejscowych warunków’. S trukturę cen opracuje się, rzecz jasna, z myślą o takich użytkow - nikach zasobów, którzy prow adzą działalność w Europie.
Stowarzyszenie będzie zabiegało o zawieranie p orozu
mień o wymianie licencji z podobnym i ciałam i na innych kontynentach, np. z K onsorcjum D anych Językoznaw czych z USA. aby zdobyć m aksym alny rynek dla zasobów pochodzenia europejskiego i wzbogacić gam ę usług, które świadczy europejskim użytkow nikom zasobów.
ELRA ustanow i strukturę, k tó ra dokonyw ać będzie atestacji rozpowszechnianych LR. Atestacja obejmie for
m at, zakres przedm iotowy, informacje językoznaw cze oraz zgodność z ustalonym i norm am i. W tym celu Stowarzyszenie nawiąże k o ntakty z zewnętrznym i ciała
mi. które zajm ują się definiowaniem norm . a zwłaszcza z EA G LES i z odpow iednią kom isją ISO.
36 Inform atyka nr 3. 1996 r.
W s p ó ł p r a c a z in n y m i p a ń s t w a m i
W Japonii także trw ają obecnie dyskusje nad utw orze
niem centralnej organizacji, k tó ra zajm ow ałaby się baza
mi danych z zakresu mowy i tekstu. Instytut ED R (Badań nad Słownikami Elektronicznymi) lada dzień zakończy tworzenie wielkich słowników jednojęzycznych, jap o ń s
kiego i angielskiego, wraz z łączami dwujęzycznymi, pokaźnym „słownikiem pojęć” i towarzyszącymi w ybora
mi tekstów.
W USA postanow iono pow ołać K onsorcjum D anych Językoznawczych (LDC); jego pierwsze działania finan
sowano z subwencji rządowej, lecz dalsze operacje są pokryw ane ze składek członkowskich i wpływów z umów o grom adzeniu danych8). W ciągu pierwszych dwóch lat działalności w ydano p onad 150 płyt C D -R O M z danym i do użytku publicznego. O to kilka przykładów jego dzia
łalności:
■ publikacja istniejących wyborów tekstów, uprzednio dostępnych jedynie kontrahentom um ów rządowych;
■ grom adzenie danych z zakresu mowy i tekstu w języ
kach, którym i interesują się członkowie (angielski, m andaryński, japoński, hiszpański, francuski i in.);
■ tworzenie wspólnych baz słownikowych języka am ery
kańskiego angielskiego i innych, z bezpłatnym i licenc
jam i komercyjnymi dla członków;
■ działalność w charakterze giełdy praw własności in
telektualnej istniejących zasobów językoznawczych;
* prow adzenie działań na rzecz udostępnienia badaczom zasobów będących w posiadaniu rządu.
8) Siedziba L D C w ftp toftp.cis.upeim.edu; m ożna tam znaleźć wiele infor
macji, poczynając od /pub/ldc i schodząc do niższych katalogów . A ktual
na stro n a www to ftp:/ lwww,cis.upenn.edulpub/\dc www/hpage.html.
R o z u m ie n ie ję z y k a p o ls k ie g o ...
d o k o ń c z e n ie ze str. 33
[9] M artinek J., Vetulani G., Vetulani Z.: A description o f lexical konwledge for Polish within the Genelex D ictionnary M odel, to be presented at the XXXth C olloquium of Linguistics, G dańsk, 1995 (w druku w m ateriałach konferencyjnych).
[10] Vetulani Z.: P R O L O G Im plem entation of an Access in Polish to a D ata Base, w: Studia z A utom atyki, XII, PW N , pp. 5-23, 1988 [11] Vetulani Z.: Linguistic problem s in the theory of m an-m achine
com m unication in natural language. A study of consultative ques
tion answ ering dialogues. Em pirical approach. Brockmeyer, Bo
chum , 1989
[12] Vetulani Z.: C orpus of consultative dialogues. Experim entally collected source d ata for AI applications. Wyd. N auk., UAM, P oznań, 1990
[13] Vetulani Z.: Lexical preanalysis in a D C G parser o f P O L IS H , w:
Klein E., P o u rad ier Duteil F., W agner K.H. (eds.), Betriebslinguistik und Linguistikbetrieb. Akten des 24 Linguistischen K olloquium s, Bremen 1989, (Linguistische Arbeiten 260/261), M ax N iemeyer Verlag, Tübingen, S. 389-395, 1991
[14] Vetulani Z.: Some Aspects o f N atural Language Processsing in the System EX PA ERT, w: Feldbusch E., Pogarell R., Weiss C. (eds.), N eue F ragen der Linguistik. A kten des 25 Linguistischen K ol
loquium s, P ad erb o rn 1990, Band 2: Innovation und Anwendung (Linguistische Arbeiten 271), M ax N iemeyer Verlag, Tübingen, S.
473-478, 1991
[15] Vetulani Z.: SW ITC H es for m aking P rolog m ore D ynam ic P ro gram m ing Language, Logic Program m ing, T he N ew sletter o f the Association for Logic Program m ing, Vol. 7/1, p. 10, F ebruary 1994.
Sądzimy, że potrzeba zapewnienia współpracy między
narodow ej w zakresie tw orzenia i rozpowszechniania zasobów językoznawczych stanow i bezpośrednią konsek
wencję infrastrukturalnej funkcji, przedkonkurencyjnego charakteru i wielojęzycznego wymiaru tychże zasobów.
C E C odgryw a wiodącą rolę w spraw ach koordynacji pośród państw i języków U nii Europejskiej. C O C O SD A (w odniesieniu do języka mówionego) i L IR IC (w od
niesieniu do N L) to oddolne inicjatywy międzynarodowej w spólnoty badawczo-rozwojowej, których celem jest za
pewnienie koordynacji na skalę ogólnoświatową. W ra
m ach EAGLES i R ELA TO R studiuje się obecnie moż
liwości określenia wspólnej strategii w spółpracy między głównymi agencjami finansującymi (CEC, N SF, ARA i MITI).
Oczekujemy, że projekt T E L R I („transeuropejska inf
rastru k tu ra zasobów językowych”), zainaugurow any nie
daw no w ram ach projektu Copemicus, rozszerzy konsor
cjum PA R O L E na sieci krajowe państw E uropy Środ
kowej i W schodniej (CEEC). M am y też nadzieję, że EAGLES obejmie swą działalnością badaczy państw E uropy Środkowej i W schodniej, w prow adzając ich do poszczególnych G rup Roboczych, i że w pracach nad wytycznymi EA G LES weźmie się pod uwagę potrzeby ich języków.
D o grupy roboczej ELSN ET, k tóra zajmuje się m oż
liwościami wykorzystywania LR, w prow adzono już przedstawicieli CEEC. Tymczasowy zarząd ELRA stu
diuje możliwości przyjęcia instytucji z C EEC jak o człon
ków ELRA.
Kontakt z Autorem:
Dipartim ento di Lingüistica, Uniwersita degli Studi di Pisa Via S. M aria 36,1-5 6 1 0 0 Pisa
tel. (39) 50 56-04-81, faks (39) 50 58-90-55)
W ito ld Z a w a d z k i, A n d rzej K ierzk o w - ski: N o r to n C o m m a n d e r 5.0 P L w p ra ktyce. H elio n , G liw ice 1995 r., s. 214.
IS B N 83-85701-85-0
N o rto n C om m ander jest jednym z naj-
25
popularniejszych program ów dla kom-2 puterów IBM PC. K siążka zawiera szcze-r szcze-r i gółowe opisy wszystkich funkcji polskiej SE wersji N o rto n a C om m andera 5.0 Zebra-O ne w przejrzystej formie, popartej wielo-, 5 ma przykładam i i rysunkam i,umożliwia-“ ją dokładne ich poznanie i pełne wyko-g rzystanie w praktyce. K siążka jest
prze-“ r e znaczona dla szerokiego kręgu użytkow-Jg - o ników kom puterów osobistych, zarów no S & ^ a t^c^ ’ którzy rozpoczynają naukę
■= 5 » C om m andera, jak i dla tych, którzy
prag-= ną głębiej poznać możliwości tego pro-,-S gramu. Zaw iera dokładną analizę każdej
•— funkcji, a kolejność rozdziałów
umoż-** liwia ich w ykonanie od najprostszych do najbardziej skom plikowanych. W książce umieszczone są rozdziały o reakcjach program u na sytuacje awaryjne oraz wy
kaz słabych stron pakietu program ów Petera N ortona. (t)