• Nie Znaleziono Wyników

W moim artykule proponuje się, by w ram ach lansow ania odpowiedniej w spółpracy międzynarodowej w dziedzinie LR podjęto konkretne decyzje i działania na poziomie technicznym i organizacyjnym oraz strategii.

P ozio m s tra te g ii

LR wiążą się na wiele sposobów z tożsam ością narodow ą i kulturow ą oraz pełnią kluczową rolę infrastrukturalną w opracow yw aniu produktów przem ysłu językoznaw ­ czego dla danego języka.

Powszechnie uważa się, że istnienie przemysłu języko­

znawczego danego n arodu to w arunek zachow ania funk­

cji języka ja k o nośnika we współczesnym społeczeństwie informacyjnym.

LR są oparte na odpow iednim opisie danego języka i są dla takiego opisu pom ocne. W łaśnie dlatego uważamy, że we wszystkich krajach należy szerzyć zrozum ienie na­

stępujących aspiracji:

■ LR pow inny być dostępne ja k o własność publiczna.

■ Lansowanie tw orzenia stosow nych LR dla danego języka należy powierzyć instytucjom adm inistracji

państwowej.

■ Jednojęzyczne LR dla różnych języków należy tworzyć w sposób skoordynow any, który pozwoli n a ich h a r­

m onizow anie na poziom ie wielojęzycznym.

P ozio m te c h n ic z n y

Jak się wydaje, podstaw ow y warunek, który zapewni harm onizow anie LR na poziom ie wielojęzycznym, a tak ­ że możliwość ich w ykorzystyw ania i wielofunkcyjność, to

34 Inform atyka nr 3. 1996 r.

przyjęcie wspólnych w ym agań technicznych. Szczególnie w przypadku m ateriałów w językach naturalnych rodzi się kontrow ersyjny problem, czy zasoby językoznawcze, aby nadaw ały się do w ykorzystywania i były wielofunk­

cyjne, m uszą być n i e z a l e ż n e o d t e o r i i : wym agania form ułow ane w odniesieniu do informacji językoznaw ­ czych z zakresu danego języka naturalnego m ogą być uw arunkow ane nie tylko planow anym zastosowaniem tychże informacji, lecz także konkretnym i teoriam i języ­

koznawczymi, na których, explicite bądź implicite, opiera­

ją się językoznawcze elementy systemu.

Rozwiązanie, k tóre obecnie stosuje się na poziomie naukow ym i technicznym, polega na usiłowaniu osiąg­

nięcia consensusu pomiędzy różnym i ujęciami teoretycz­

nymi i podejściami do projektow ania systemów. Tam, gdzie udaje się osiągnąć ten cel, możliwe jest przyjęcie wspólnych wymagań technicznych, czyli de fa c to norm tw orzenia zasobów językoznawczych, co zapew nia ich harm onizow anie na poziomie międzynarodow ym i wielo­

języcznym. Inicjatywa K odow ania Tekstów, finansow ana wspólnie przez ACH, A LLC i ACL, w ydała zestaw wytycznych z dziedziny kodow ania tekstów. Projekt LR E-EA G LES („grupa doradcza ekspertów z dziedziny norm inżynierii językoznawczej”), zainaugurow any nie­

daw no przez C EC D G X III, grom adzi wyniki prac, które prow adzą instytucje zarów no akademickie, jak gospodar­

cze, i które zm ierzają do stworzenia de fa c to wspólnych norm z zakresu wyborów tekstów, słownictwa, danych języka mówionego, a także oceny i form alizacji3).

P ozio m o rg a n iz a c y jn y

W odniesieniu do stanu bieżącego, na poziomie o r­

ganizacyjnym możemy wyróżnić potrzebę działania w trzech ogólnych dziedzinach:

L a n so w a n ie w y k o rzy sty w aln o ści istn iejący ch (częś­

ciow ych) z a so b ó w języ k o zn aw czy ch . Pociąga to za sobą rozm aite zadania, od przeform atow ania lub k o n ­ wersji istniejących zasobów językoznawczych w taki sposób, by odpow iadały one wspólnym norm om , do ekstrahow ania zaw artych w nich jaw nych i ukrytych informacji językoznawczych i uzupełniania ich tak, by odpow iadały wspólnym minimalnym wym aganiom tech­

nicznym.

D w a wielkoskalowe projekty, które finansują W spól­

noty Europejskie, to E SPR IT A C Q U ILEX i ET-10; oba m ają n a celu ekstrahow anie - z zastosow aniem procedur półautom atycznych - informacji z dziedziny semantyki, które w ystępują w definicjach haseł słownikowych w roz­

m aitych dostępnych słownikach, które sporządzono w postaci pozwalającej na ich odczytywanie przez maszy­

3) Inform acje na tem at EA G LES dostępne są u A ntonia Zam polliego (e-mail: eagles@ilc.pi.enr.it).

4) N. Calzolari, J. H agm an, E. M arinai, S. M ontem agni, A. Spanu, A.

Zampolli: „K odow anie definicji leksykograficznych ja k o stru k tu r cechy utypow ionej”, [w:] F. Beckmann, G. H eyer [opr.]: Teoria i praktyka słownictwa, W alter de G ruyter, Berlin, 1993.

51 N. Calzolari, S. Federici, S. M ontem agni, C. Peters: „Ekstrahow anie, reprezentow anie i stosow anie informacji składniow o-sem antycznych z de­

finicji C o b u ild ”, [w :] J. Sinclair, M. H oelter, C. P eters [opr.]: Języki definicji: Formalizacja definicji słownikowych do celów obróbki języków naturalnych. Studia w dziedzinie tłum aczenia m aszynowego i obróbki języków naturalnych, tom 7, Kom isja Europejska, Bruksela, 1994.

ny (odnośnie A C Q U ILEX , por. Calzolari et al., 19934);

odnośnie ET-10, por. Calzolari et al., 1994)5).

L a n so w a n ie o p ra c o w y w a n ia n o w y ch z a so b ó w języ ­ k o zn aw czy ch dla tych języ k ó w i dziedzin, d la k tó ry c h d o ty ch czas b r a k z a so b ó w lub dla których istnieją one dopiero na etapie prototypu, względnie istnieją, lecz nie m ogą być udostępniane zainteresowanym użytkow ni­

kom.

Dziedziny języka pisanego i mówionego oraz podob- szary ich term inologii odznaczają się własnymi cechami charakterystycznym i i własną dynam iką. W odniesieniu do LR języka pisanego, w większości krajów działalność prow adzą głównie takie instytucje, które otrzym ują wspa­

rcie ze środków publicznych, aby prow adzić badania w sferze LR i wytwarzać LR niezbędne do celów inżynierii języka (LE) i innych - w szczególności dane słownikowe dla określonych języków, oraz odpow iadające im pom oc­

nicze wybory tekstów. N iektóre z tych instytucji ju ż w tej chwili są w stanie dostarczyć zasoby częściowe, nadające się do zastosow ań kom puterow ych. W dziedzinie LR języka mówionego, kluczową rolę odgrywa przemysł informacyjny i kom unikacyjny, ponieważ zasoby, k tó ­ rych w tej sferze potrzeba, odnoszą się głównie do konkretnych technologii i zastosowań. W podobszarze term inologii, różnorodne instytucje gospodarcze, rządo­

we i zawodowe prow adzą działania w dziedzinie ter­

minologii poszczególnych sektorów , działania te w ym a­

gają koordynacji.

W ykorzystując charakterystyczne cechy każdego po- dobszaru, Kom isja finansuje rozm aite projekty, a zwłasz­

cza przygotowawcze projekty M LA P - PA R O LE, SPE- E C H D A T i P O IN T E R , mające zadanie określić m ini­

malny zestaw w arunków organizacyjnych, funkcjonal­

nych i technicznych, których należy przestrzegać podczas projektow ania i budow ania zharm onizow anych LR dla wszystkich języków Unii.

W projektach tych wykorzystuje się wyniki wcześniej­

szych działań RTD (np. SAM, M U L T IL E X czy NERC), i w postaci operacyjnych wymagań technicznych wciela się w życie wstępne wytyczne, wydane przez grupy robocze EAGLES. W ram ach tych projektów odbyw a się definiowanie i praktyczna realizacja - dla odpowiednich sektorów - europejskiej sieci krajowych punktów zb o r­

nych, które koordynow ać będą tworzenie LR zgodnie z interesam i twórców i użytkowników zasobów.

P O IN T E R ułatwi opracowywanie i szerokie udostęp­

nienie danych terminologicznych w całej Europie, a także będzie w spom agał współpracę i wymianę wyników mię­

dzy tw órcam i oprogram ow ania oraz właścicielami i użyt­

kownikam i terminologicznych baz danych. W dążeniu do tego celu, konsorcjum P O IN T E R określi kluczowe cechy ogólnoeuropejskiej infrastruktury współpracy w dziedzi­

nie terminologii oraz scharakteryzuje działania niezbędne dla zbudow ania zalecanej infrastruktury, ustali priorytety i przeprow adzi analizę kosztów i zysków. N acisk położy się n a zaspokojenie potrzeb użytkowników gospodar­

czych z całej Europy.

PA R O LE określi dwupoziom ow ą infrastrukturę współpracy, k tó ra będzie anim ow ała tworzenie i w yko­

rzystywanie zharm onizow anych zasobów oraz narzędzi tekstowych i słownikowych, przyczyni się do jej ustano­

wienia, i określi w ym agania techniczne względem słow­

nictwa, wyborów tekstów i pokrew nych narzędzi, które będzie się tworzyć i udostępniać europejskiej wspólnocie badawczo-rozwojowej.

S P E E C H D A T ustanow i infrastrukturę, k tó ra ułatwi tworzenie zasobów języka mówionego (SLR), wykorzys­

tywanych w zastosow aniach technologii mowy. W ra­

m ach tego projektu poszukiwać się będzie dróg do m aksymalnej wydajności tworzenia SLR i rozprow adza­

nia ich we wspólnocie języka mówionego. Z aproponuje się zestaw norm roboczych i opis bazy danych, a także będzie się dokonyw ać oceny krótko-, średnio- i długoter­

minowych potrzeb gospodarczych w zakresie SLR6).

W w ykonaniu IV Ramowego P rogram u Badawczego, W spólnoty Europejskie wezwały niedawno do zgłaszania propozycji tworzenia LR budow anych zgodnie z wym a­

ganiam i technicznymi. W ym agania te określono w p ra ­ cach trzech projektów przygotowawczych, w ram ach sektora inżynierii językoznawczej program u Telematics.

Ponieważ term in ich zgłaszania upłynął 15 czerwca ub. r.

m ożna oczekiwać, że koordynow ane tworzenie LR dla wszystkich języków europejskich rozpocznie się mniej więcej na początku roku bieżącego, a LR stanow iące przedm iot projektów , k tóre wspom niane wezwanie inau­

guruje, będą dostępne w ciągu najbliższych trzech-czte- rech lat.

W przypadku zasobów jęz y k a p isan eg o , najważniej­

szymi c e la m i'1 na najbliższe trzy lata będzie utworzenie:

■ słowników jednojęzycznych, zawierających minimum 50 tys. rdzeni, co najmniej w 11 oficjalnych językach Unii. zharm onizow anych w sposób sprzyjający wy- mienności, powszechnej skuteczności, a w dalszej ko­

lejności - budow aniu łączy jednojęzycznych;

■ w yborów tekstów dla ww. języków, zawierających m inim um po 50 min słów, ja k o podstaw y do tworzenia i prow adzenia słowników; w miarę możliwości rów no­

ległe w ybory tekstów wielojęzycznych;

■ zintegrow anego zestawu narzędzi do kodow ania języ­

koznawczego, analizy, przeglądania i wyszukiwania tekstów oraz kontroli jakości.

W przypadku z a so b ó w języ k a m ó w io n eg o , najważ­

niejszymi celami będzie utworzenie:

■ słowników' wymowy, zawierających w postaci wzorco­

wej co najmniej 80% podstaw ow ego słownictwa dane­

go języka, wraz z ważnymi w ariantam i (dialektami);

■ opatrzonych objaśnieniam i wyborów spontanicznych tekstów m ówionych co najmniej dla ww. języków; będą one przydatne do aktyw izow ania zastosow ań ogólnych i do badań nad różnicami;

■ zestawu zintegrow anych narzędzi do kontroli jakości baz danych języka mówionego.

W dziedzinie term in o lo g ii, projekty będą koncent­

rowały się na:

■ podniesieniu standardu istniejących baz term inologi­

cznych i przekształceniu ich w bazy wiedzy; opracow a­

niu modeli i m etod, które ostatecznie doprow adzą do stw orzenia standardow ych i wymienialnych term ino­

logii i narzędzi, w postaci pozwalającej n a stosowanie ich przez urządzenia obliczeniowe;

■ udoskonaleniu istniejących m etod, procedur i narzędzi analizy i oceny jakościowej i ilościowej zasobów’

terminologicznych.

s> D alsze inform acje dostępne są: w odniesieniu d o P A R O L E u A ntonia Zam poiliego {parole ¿ym.cnuce.cnr.iiX w odniesieniu d o P O IN T E R - u G erard a Budina (a61UdagjXym.univie.ac.atX w odniesieniu d o S P E ­ E C H D A T - u H arald a H oegego (hkjfaw icht.ife.siemens.de).

O pis celów zaczerpnięto z dokum entów , k tó re rozpow szechniają W spólnoty Europejskie.

Należy zauważyć, że od tw órców wym agać się będzie udostępnienia w ybranych wyników bad ań poza konsorc­

jum , zwłaszcza w przypadku narzędzi program ow ych i zbiorów danych, które m ogą zainteresow ać szeroką rzeszę odbiorców. W um owach znajdzie się oświadczenie partnerów , że uzyskali oni odpow iednie licencje na praw a autorskie i praw a eksploatacji, pozw alające na rozpo­

wszechnianie danych i narzędzi, które partnerzy ci w no­

szą do projektów.

S tan o w ien ie in fra s tru k tu ry w sp ó łp ra c y w zak resie g ro m a d z e n ia , p ro w a d z e n ia i ro z p o w sz e c h n ia n ia z a ­ so b ó w języ k o zn aw czy ch w imieniu wspólnoty badaw ­ czej.

Realizowane przez LRE studium w ykonalności RELA- T O R zmierza ku wyraźnie określonem u celowi zdefinio­

w ania i zorganizow ania europejskiej infrastruktury, k tóra zapewniłaby rozpowszechnianie, prow adzenie i w ykorzy­

stywanie istniejących i przyszłych LR.

W w ykonaniu wniosków studium , R EL A T O R i trzy projekty M L A P wspólnie pow ołały Europejskie Stow a­

rzyszenie Zasobów Językowych (ELRA).

Stowarzyszenie jest otw arte dla wszelkich organizacji, publicznych lub prywatnych, które prow adzą prace w państw ach U nii Europejskiej i Europejskiego O bszaru G ospodarczego i są zainteresow ane LR, czy to ja k o twórcy, czy ja k o użytkownicy. P o dwóch latach prac, z udziałem wielu organizacji, przedsiębiorstw gospodar­

czych, instytucji i ciał akadem ickich, 23 lutego 1995 r.

w Luksem burgu zarejestrow ano Stowarzyszenie jak o organizację wyższej użyteczności (Association sans but lucratij). Poniew aż nie istnieje jeszcze techniczna m oż­

liwość zarejestrow ania organizacji „europejskiej”, fakt rejestracji w Luksem burgu podkreśla wszecheuropejski charakter Stowarzyszenia.

S tatut Stowarzyszenia podpisało 16 członków-założy- cieli, pochodzących ze wszystkich dziewięciu państw Unii Europejskiej. Niem al połow a z nich to organizacje gos­

podarcze, a reszta to ciała publiczne i akademickie, między którym i znalazły się najszacowniejsze instytucje językoznaw'czego świata Europy.

Stowarzyszenie będzie świadczyło usługi informacyjne na rzecz swych członków, w ydając cykliczny biuletyn, który będzie informował o działalności w dziedzinie zasobów językowych w Europie i na świecie.

Stowarzyszenie będzie zawierało porozum ienia z tw ór­

cami lub właścicielami LR, aby działać ja k o agent rozpo­

wszechniający ich m ateriały. Z espół dystrybucyjny Sto­

warzyszenia będzie w prow adzał te zasoby na rynek europejski i światowy, pracując bezpośrednio lub przez agentów, zależnie od miejscowych warunków’. S trukturę cen opracuje się, rzecz jasna, z myślą o takich użytkow - nikach zasobów, którzy prow adzą działalność w Europie.

Stowarzyszenie będzie zabiegało o zawieranie p orozu­

mień o wymianie licencji z podobnym i ciałam i na innych kontynentach, np. z K onsorcjum D anych Językoznaw ­ czych z USA. aby zdobyć m aksym alny rynek dla zasobów pochodzenia europejskiego i wzbogacić gam ę usług, które świadczy europejskim użytkow nikom zasobów.

ELRA ustanow i strukturę, k tó ra dokonyw ać będzie atestacji rozpowszechnianych LR. Atestacja obejmie for­

m at, zakres przedm iotowy, informacje językoznaw cze oraz zgodność z ustalonym i norm am i. W tym celu Stowarzyszenie nawiąże k o ntakty z zewnętrznym i ciała­

mi. które zajm ują się definiowaniem norm . a zwłaszcza z EA G LES i z odpow iednią kom isją ISO.

36 Inform atyka nr 3. 1996 r.

W s p ó ł p r a c a z in n y m i p a ń s t w a m i

W Japonii także trw ają obecnie dyskusje nad utw orze­

niem centralnej organizacji, k tó ra zajm ow ałaby się baza­

mi danych z zakresu mowy i tekstu. Instytut ED R (Badań nad Słownikami Elektronicznymi) lada dzień zakończy tworzenie wielkich słowników jednojęzycznych, jap o ń s­

kiego i angielskiego, wraz z łączami dwujęzycznymi, pokaźnym „słownikiem pojęć” i towarzyszącymi w ybora­

mi tekstów.

W USA postanow iono pow ołać K onsorcjum D anych Językoznawczych (LDC); jego pierwsze działania finan­

sowano z subwencji rządowej, lecz dalsze operacje są pokryw ane ze składek członkowskich i wpływów z umów o grom adzeniu danych8). W ciągu pierwszych dwóch lat działalności w ydano p onad 150 płyt C D -R O M z danym i do użytku publicznego. O to kilka przykładów jego dzia­

łalności:

■ publikacja istniejących wyborów tekstów, uprzednio dostępnych jedynie kontrahentom um ów rządowych;

■ grom adzenie danych z zakresu mowy i tekstu w języ­

kach, którym i interesują się członkowie (angielski, m andaryński, japoński, hiszpański, francuski i in.);

■ tworzenie wspólnych baz słownikowych języka am ery­

kańskiego angielskiego i innych, z bezpłatnym i licenc­

jam i komercyjnymi dla członków;

■ działalność w charakterze giełdy praw własności in­

telektualnej istniejących zasobów językoznawczych;

* prow adzenie działań na rzecz udostępnienia badaczom zasobów będących w posiadaniu rządu.

8) Siedziba L D C w ftp toftp.cis.upeim.edu; m ożna tam znaleźć wiele infor­

macji, poczynając od /pub/ldc i schodząc do niższych katalogów . A ktual­

na stro n a www to ftp:/ lwww,cis.upenn.edulpub/\dc www/hpage.html.

R o z u m ie n ie ję z y k a p o ls k ie g o ...

d o k o ń c z e n ie ze str. 33

[9] M artinek J., Vetulani G., Vetulani Z.: A description o f lexical konwledge for Polish within the Genelex D ictionnary M odel, to be presented at the XXXth C olloquium of Linguistics, G dańsk, 1995 (w druku w m ateriałach konferencyjnych).

[10] Vetulani Z.: P R O L O G Im plem entation of an Access in Polish to a D ata Base, w: Studia z A utom atyki, XII, PW N , pp. 5-23, 1988 [11] Vetulani Z.: Linguistic problem s in the theory of m an-m achine

com m unication in natural language. A study of consultative ques­

tion answ ering dialogues. Em pirical approach. Brockmeyer, Bo­

chum , 1989

[12] Vetulani Z.: C orpus of consultative dialogues. Experim entally collected source d ata for AI applications. Wyd. N auk., UAM, P oznań, 1990

[13] Vetulani Z.: Lexical preanalysis in a D C G parser o f P O L IS H , w:

Klein E., P o u rad ier Duteil F., W agner K.H. (eds.), Betriebslinguistik und Linguistikbetrieb. Akten des 24 Linguistischen K olloquium s, Bremen 1989, (Linguistische Arbeiten 260/261), M ax N iemeyer Verlag, Tübingen, S. 389-395, 1991

[14] Vetulani Z.: Some Aspects o f N atural Language Processsing in the System EX PA ERT, w: Feldbusch E., Pogarell R., Weiss C. (eds.), N eue F ragen der Linguistik. A kten des 25 Linguistischen K ol­

loquium s, P ad erb o rn 1990, Band 2: Innovation und Anwendung (Linguistische Arbeiten 271), M ax N iemeyer Verlag, Tübingen, S.

473-478, 1991

[15] Vetulani Z.: SW ITC H es for m aking P rolog m ore D ynam ic P ro ­ gram m ing Language, Logic Program m ing, T he N ew sletter o f the Association for Logic Program m ing, Vol. 7/1, p. 10, F ebruary 1994.

Sądzimy, że potrzeba zapewnienia współpracy między­

narodow ej w zakresie tw orzenia i rozpowszechniania zasobów językoznawczych stanow i bezpośrednią konsek­

wencję infrastrukturalnej funkcji, przedkonkurencyjnego charakteru i wielojęzycznego wymiaru tychże zasobów.

C E C odgryw a wiodącą rolę w spraw ach koordynacji pośród państw i języków U nii Europejskiej. C O C O SD A (w odniesieniu do języka mówionego) i L IR IC (w od­

niesieniu do N L) to oddolne inicjatywy międzynarodowej w spólnoty badawczo-rozwojowej, których celem jest za­

pewnienie koordynacji na skalę ogólnoświatową. W ra­

m ach EAGLES i R ELA TO R studiuje się obecnie moż­

liwości określenia wspólnej strategii w spółpracy między głównymi agencjami finansującymi (CEC, N SF, ARA i MITI).

Oczekujemy, że projekt T E L R I („transeuropejska inf­

rastru k tu ra zasobów językowych”), zainaugurow any nie­

daw no w ram ach projektu Copemicus, rozszerzy konsor­

cjum PA R O L E na sieci krajowe państw E uropy Środ­

kowej i W schodniej (CEEC). M am y też nadzieję, że EAGLES obejmie swą działalnością badaczy państw E uropy Środkowej i W schodniej, w prow adzając ich do poszczególnych G rup Roboczych, i że w pracach nad wytycznymi EA G LES weźmie się pod uwagę potrzeby ich języków.

D o grupy roboczej ELSN ET, k tóra zajmuje się m oż­

liwościami wykorzystywania LR, w prow adzono już przedstawicieli CEEC. Tymczasowy zarząd ELRA stu­

diuje możliwości przyjęcia instytucji z C EEC jak o człon­

ków ELRA.

Kontakt z Autorem:

Dipartim ento di Lingüistica, Uniwersita degli Studi di Pisa Via S. M aria 36,1-5 6 1 0 0 Pisa

tel. (39) 50 56-04-81, faks (39) 50 58-90-55)

W ito ld Z a w a d z k i, A n d rzej K ierzk o w - ski: N o r to n C o m m a n d e r 5.0 P L w p ra ­ ktyce. H elio n , G liw ice 1995 r., s. 214.

IS B N 83-85701-85-0

N o rto n C om m ander jest jednym z naj-

25

popularniejszych program ów dla kom-2 puterów IBM PC. K siążka zawiera szcze-r szcze-r i gółowe opisy wszystkich funkcji polskiej SE wersji N o rto n a C om m andera 5.0 Zebra-O ne w przejrzystej formie, popartej wielo-, 5 ma przykładam i i rysunkam i,

umożliwia-“ ją dokładne ich poznanie i pełne wyko-g rzystanie w praktyce. K siążka jest

prze-“ r e znaczona dla szerokiego kręgu użytkow-Jg - o ników kom puterów osobistych, zarów no S & ^ a t^c^ ’ którzy rozpoczynają naukę

■= 5 » C om m andera, jak i dla tych, którzy

prag-= ną głębiej poznać możliwości tego pro-,-S gramu. Zaw iera dokładną analizę każdej

•— funkcji, a kolejność rozdziałów

umoż-** liwia ich w ykonanie od najprostszych do najbardziej skom plikowanych. W książce umieszczone są rozdziały o reakcjach program u na sytuacje awaryjne oraz wy­

kaz słabych stron pakietu program ów Petera N ortona. (t)

Powiązane dokumenty