• Nie Znaleziono Wyników

Лингвистические базы данных как материал и средство исследования и описания языковых изменений

N/A
N/A
Protected

Academic year: 2021

Share "Лингвистические базы данных как материал и средство исследования и описания языковых изменений"

Copied!
7
0
0

Pełen tekst

(1)

Людмила Рычкова

Лингвистические базы данных

как материал и средство

исследования и описания

языковых изменений

Studia Rossica Posnaniensia 28, 79-84

1998

(2)

STU D IA R O SSIC A PO SN A N IEN SIA , vol. XXVIII: 1998, pp. 79-84. ISBN 83-232-0887-5. ISSN 0081-6884. Adam M ickiew icz University Press, Poznan

Л И Н Г В И С Т И Ч Е С К И Е БА ЗЫ Д А Н Н Ы Х К А К М А Т Е Р И А Л И СР Е Д С Т В О И С С Л Е Д О В А Н И Я

И О П И С А Н И Я Я З Ы К О В Ы Х И ЗМ Е Н Е Н И Й *

LINGUISTIC DATA BASE AS A MATERIAL AND A MEANS IN STUDYING AND DESCRIPTION OF LANGUAGE CHANGES

Л Ю Д М И Л А РЫ Ч К О В А

ABSTRACT. O n the exam ple o f special co m p u ter tex t co rp o ra linguistic d ata base is regarded as a m aterial and a tool for language changes studying and d escription.

Людмила Рычкова, Гродненский государственный университет им. Янки Купалы, Кафедра общ его и славянского языкознания, Лаборатория теоретической и приклад­ ной лингвистики, ул. Ожешко 22, 230023 Гродно, Беларусь. Необход и м ость автом атизаци и лингвистических исследований сего­ дня является очевидной и обусловливается, наряду с повышением степе­ ни объективности результатов исследований, в озм ож н остью получения соверш енно новой и нф орм ац ии о язы ковом материале, получить к о т о ­ рую иным путем не представляется возмож ны м. Отсюда - актуальность п роблем ы ф о р м и р о в ан и я лингвистических баз данны х, прежде всего осн ован ны х на больш и х ком пью терны х файлах текстов. Т акие „тексто­ в ы е ” базы данны х могут рассматриваться как специальны м образом орган и зова н н ы й материал исследования и, од новрем енно, служить сред­ ством описания языковых изменений. Методика формирования лингвистических баз данных вообще и тек сто­ вых в частности находится в стадии становления. Очевидно, что об ъ ек ­ тивно он а д олж на б ази роваться на потенциальных направлениях ан а л и ­ за, сложившихся в рам ках лингвистических представлений о тексте. Т ерм ин „лингвистика т ек ста” д авно и п рочно закрепился в я зы к о ­ знании, отразив тем самым проявление н ового об ъекта лингвистических исследований наряду с трад и ц и он н ы м и „предложением (вы сказы ван и ­ ем )” , „словом (словоупотреблением)” , „м орфемой (м о р ф о м )” . Д в а осн ов ­ З д есь представлены результаты работы, выполненной в рамках научно-иссле­ довательской темы, финансируемой Министерством образования Республики Бела­ русь.

(3)

80 Л. Р ы ч к о в а ных „ п р и з н а к а ” , характеризую щ их новый объект анализа, можно о п р е ­ делить как „связн ость” и „ц ельность” 1. О б а этих признака, как и сам текст, являются двуплановыми: они функциональны и имеют оп ред ел ен ­ ный н а б о р ф орм аль н ы х показателей, которы е можно описать и до н е к о ­ т о р о й степени точности исчислить. С тав самостоятельны м объектом исследования, текст не перестал быть „язы ковы м м а т е р и а л о м ” (в терм ин ологии JI.B. Щ ерб ы ), к о то р ы й служит целям исследования других объектов (любых составляю щ их его линейны х единиц). Наконец, текст остается объектом исследования т р а д и ц и о н н о й тек сто ­ логии , изучающей языковые средства, отраж аю щ и е ко м п о зи ц и о н н о -сти ­ листические особенности жанра, творческую манеру писателя, стиль автора. Р азли чн ы е аспекты рассмотрения текста определяют потен ци альн ы е в озмож ности направления его анализа. Так, текст может рассм атриваться как сегментная единица, имею щая начало, конец и п ротяж енность, изм е­ ряемую в иных, более коротких, сегментных единицах. Очень важ н ое для текста понятие гран и ц сопряж ено с его объемом , то есть п р о т я ж е н н о ­ стью, и определяется через отсутствие связи между текстом и п оследую ­ щими пред лож ен иям и 2. Различия в целях ком муникации ведут к в ы бору определенных струк­ турны х законом ерностей организации текста, его кон струи рован ия, к о ­ то р ы е могут быть сведены к понятию „ т и п а ” или „ ж а н р а ” текста. В з а в и ­ симости от степени „ж есткости ” структуры текста в нем могут п р е о б л а ­ дать л и б о общие, либ о индивидуальны е черты. Д о м и н и р о в а н и е послед­ них „присущ е прежде всего художественным текстам и связано отчасти с «мягкостью», откры тостью их структуры ”3. Текст может анали зи роваться с точки зрения законом ерн остей п о ­ строения и сочетаемости составляющих его единиц, а такж е с точки зр е ­ ния тех язы ковы х приемов и средств, которы е определяю т стиль либ о „н аи б ол ее интересны у д ан н о го ав тора и в дан ном п р оизв ед ен и и ” , н а и ­ более значимы „для раскры тия сод ерж ан ия”4. „В аспекте учета участников речевой ко м м у н и к а ц и и ” тексты могут р ассм атрив аться „как д иалоги , монологи, тексты см еш анного типа, п о ­ л и л о г и ”5. 1 Ю.В. П о п о в , Т.П . Т р е г у б о в и ч , Текст. Ст рукт ура и семантика, Минск 1984, с. 190. 2 М .И . О т к у п щ и к о в а , Синтаксис связного текста, Ленинград 1982, с. 30. 3 Ю .В. В а н н и к о в , / f обоснованию общей типологии текстов, функционирующих в сфере научно-технического перевода. В: Текст как объект лингвистического анализа и перевода, Москва 1984, с. 18. 4 М .П . Д е м и д о в а , Г.Н. М о л о ж а й, Лингвистический анализ текста, Минск 1988, с. 3, 27. 5 М .И . О к у п щ и к о в а , указ. соч., с. 8.

(4)

Лингвистические базы данных как материал и средство исследования 81 Текст, „созданны й конкретны м автором , в конкретное время, в к о н ­ кретной с и ту ац и и ”6, является объектом стилеметрии, прикладной ф и л о ­ логической дисциплины , ори ен тирован н ой на измерение стилевых х а р а к ­ теристик текста, вклю чая его и ндивидуально-авторские особенности. Изучением последних занимается диагностика, основной задачей к о т о ­ рой является „оп ти м альная свертка исходного п ри зн ак ового п р о с т р а н ­ ства художественного текста с целью выделения наиболее и н ф о р м а т и в ­ ных д и агностирую щ их п р и зн ак о в ”7, каковым и, без сомнения, и являются инди ви дуально-авторски е особенности текста. К о н к ретн ы е „специфические признаки стиля, слога, сл о в о у п о тр еб ­ л е н и я ”8 п ока еще не выделены и недостаточно изучены. О д н ако п о ­ скольку современная лин гвистика рассм атривает стиль прежде всего как к а т е г о р и ю с т р у к т у р н о - с е м а н т и ч е с к у ю , то о ч е в и д н о , что ц е н т р а л ь н у ю роль в стилеметрии играет именно синтаксический уровень: „В с и н так ­ сическом строе наиболее откровен н о проявляется авторская манера р а з ­ верты вания мысли, которая может быть п рои н терп рети ров ан а в „с одер­ ж а тел ьн ы х ” терм инах, таких, как слитность - разорв ан н ость мысли, ее синтетичность - аналитичность, напряженность - уравновеш енность, п ростота - сложность, предметность - процессуальность и т .д .”9. При изучении специфических черт и ндивидуально-авторского стиля текста в ап р и о р н ы й н абор анализируемы х парам етров рекомендуется вклю чать „первичны е п арам етры , значения которы х определяются н еп о­ средственно” в тек сте10. Н аб о р таких п арам етров может быть разн ы м для каждого ав тора и каждого произведения. В озможность ав том атизаци и тех или иных направлений л ин гвисти че­ ского ан али за текста обусловливается степенью эксплицитности п р и зн а ­ ков, ко то р ы е могут быть положены в основу так о го анализа. Т ак, н аи ­ большей степенью „а втом ати зуем ос ти ” будет обладать лю бой вид а н а ­ лиза, к оторы й исходит из формы. Н апри м ер, наличие в письменном т е к ­ сте естественных д ел им итаторов , таких как пробелы между словами или знаки препинания, обозначаю щ и е конец предложения, позволяет без т р у ­ да автоматически сегментировать текст, однако такое сегментирование не учиты вает единства формы и содержания языковых знаков. И зн ач ал ь н ое задание формальных характеристик типа текстемы д е л а ­ ет возм ож н ы м автом атическое отнесение текста к определенному жанру, 6 Г.Я. М а р т ы н е н к о , С.В. Ч е б а н о в, Стилеметрия. В: Прикладное язы­ кознание, С анкт-Петербург 1996, с. 422-425. 7 Там же. * М .А. М а р у с е н к о , Атрибуция анонимных и псевдонимных текстов методами прикладной лингвистики. В: Прикладное языкознание, указ. соч., с. 469-473. 9 Г.Я. М а р т ы н е н к о , Сложность синтаксических ст рукт ур и стилистическая диагностика. В: Прикладное языкознание, указ. соч., с. 435-436. 10 М .А. М а р у с е н к о , указ. соч.

(5)

82 JI. Р ы ч к о в а а задание какого-л и бо специального ф орм альн ого призн ака п озволяет автоматически выделять лю бы е микротекстовы е структуры, о б л а д а ю щ и е этим признаком. В лю бом случае результаты анализа, которы й исходит т о л ь к о из ф орм ы , будут иметь ту или иную степень погрешности, д опустим ость к о ­ т о р о й определяется целями анализа. Если целью анализа является изу­ чение некоторы х семантических аспектов, но текст не представляет в о з ­ можности их ф орм а ль н ого изначального определения, то в этом случае для ав том атизаци и ан али за необходимо ввести в исходный текст спе­ ц иальные индексы - показатели „ с к р ы то й ” семантики. Индексы могут присваиваться автоматически (в случае, если допустимы значительн ы е погреш ности индексации), вручную (что существенно п овы ш ает т о ч ­ ность индексации и, следовательно, результатов анализа), л ибо со ч е т а ­ нием двух способов. Выделение потенциальных направлений анализа определенного т е к ­ стового корпуса - необходимое условие конкретного ф орм и рован ия к о м ­ пьютерных текстовых файлов, предназначенных для целей м н о го ас п е кт­ ного лингвистического анализа этого корпуса. С ам а по себе к о м п ь ю ­ терная ф орм а существования текста (компью терная версия) не дает о с о ­ бых преимуществ в проведении исследований по сравнению с т р а д и ц и о н ­ ными форм ам и его представления. Т акие преимущества даю т, однако, текстовые базы данны х, среди которы х особое место зан и м аю т „полно- тек стов ы е” (в иной терм ин ологии - „цельнотекстовы е”) базы. О с о б е н ­ ности ф орм и ров ан ия таких баз данных, их использования в качестве м а ­ т ери ал а лингвистических исследований и основы автом атич еского л и н г ­ вистического ан али за достаточ н о п одробн о описаны нами р а н е е 11. В з а ­ висимости от системы, принятой в базе индексации, вы деляю т о б щ ец е­ левые текстовые базы данных и базы данных специального н азн ач ен и я12. Д ля общецелевых цельнотекстовых баз данны х х арактерн а система индексации, обусловленная лишь задачами структуризации текстов и р а з ­ граничения нетождественных словоупотреблений. Существенно увеличи­ вает спектр потенциальных направлений ан али за расш и рен ие системы индексации, цель которой - эксплицитное выражение первичных п а р а ­ метров анализа в ком пью терном текстовом файле. Сам процесс а п р и о р ­ ного выделения как самих парам етров анализа, так и их п ризн аков, п о д ­ 11 См., например: JI. Р ы ч к о в а, Полнотекстовые базы данных как материал для лингвистических исследований. В: Е. Карский и современное языкознание. Материалы шестых научных чтений, ч. 1, Гродно 1996, с. 227-230; Л.В. Р ы ч к о в а , Цельно­ текстовые базы данных как основа автоматического лингвистического анализа. В: Tekstas ir Kontekstas. Тезисы докладов научной конференции, Шаулян 1996, с. 99-100. 12 У. Н. Ф р э н с и с , Проблемы формирования и машинного представления большого корпуса текстов. В: Проблемы и методы лексикографии, „Н овое в зарубежной лингвистике”, Москва 1983, вып. XIV, с. 334-352.

(6)

Лингвистические базы данных как материал и средство исследования 83 лежащих индексации, д остаточ н о сложен. Во-первых, среди признаков могут быть „ш у м о в ы е” 13, то есть такие признаки, выделение которы х не только является и збы точны м , но и ведет к понижению точности анализа. В о -в т о р ы х , у в ел и чен и е системы индексов ведет к „ з а с о р е н и ю ” базы и усложняет ком пью терную обработку. В-третьих, необходимость внесе­ ния в текст множества помет неизбежно ведет к ош и бкам ввод а и требует весьма затрудн ительн ой и дорогостоящ ей процедуры проверки сф орм и ­ ров ан н ы х ком пью терны х файлов. Если п арам етры ан али за рассм атривать с точки зрения ан ал и зи ру­ емых объектов, а признаками парам етров, требую щ ими форм альн ого в ыраж ения в текстовой базе данных, считать признаки этих объектов, то такой текстовый файл может рассматриваться как и нф орм ац ион н о- -поисковый массив, в котором может осуществляться поиск лю бых текстовых единиц - объектов, об ладаю щ и х определенными значениями п ризнаков, наб оров признаков и их комбинаций. Ф о р м и р о в а н и е л ю б о го и н ф орм ац ион н о-п оисков ого массива всегда опирается на прагматический аспект, связанный с и нф орм ац ион н ы м и потребностям и , к оторы м д олж на удовлетворять система. Определить эти потребности мож но, исчислив типы потенциальных запросов к системе. Среди всех зап росов можно выделить типовые, ответ на которы е можно получить исходя из возможностей цельнотекстовой базы данны х о б щ е­ целевого назначения, и специальные, для осуществления поиска по к о т о ­ рым нужна д ополн и тельн ая индексация. Специфичны м видом типовы х запросов можно считать „лек си когра­ фические” н аправления а н а л и з а 14: поиск местонахождения л ю бого слова в тексте, показ его в контексте с у ка зан и е м т о ч н о г о места у п о тр е б л е н и я в тексте-оригинале. Речь идет о построении различны х словарей-слово­ указателей, вклю чая конкордансы , что стало уже делом достаточно о б ы ч ­ ным, как и построение различны х видов частотных словников. О сновы ваясь тол ьк о на ф орм альн о выраженных признаках струк­ туризации текста, можно совершенно определенно выделить ряд „вза- и м ов лож ен н ы х” линейных сегментных объектов: текст, реплика, пред ло­ жение, словоупотребление. Н али ч и е обязательн ой индексации в текстовой базе общецелевого назначения позволяет существенно расш и рить н абор признаков поиска, а за счет их к о м би н ац ии м н огократно увеличить в озмож ности системы. Перечень ти повы х запросов к такой системе может вклю чать (поиск м о ­ жет п роизводиться по всем текстам, отдельному тексту, в пределах а в т о р ­ ских р ем арок, в пределах каждой реплики каждого персонаж а и в лю бой 13 М .А. М а р у с е н к о , указ. соч.

14 D. В i b e r, A pplied linguistics and computer applications. В: Introduction to applied

linguistics. Reading, MA: Addison-Wesley 1992, c. 257-278; Advanced computing in the hu­ manities, Bergen 1996, c. 20.

(7)

84 Л. Р ы ч к о в а их совокупности, а результаты выдачи могут учитывать необходимость сопровож дения контекстом определенной длины): - нахождение словоупотреблений (с определенным п ризн ак ом либо ком би н ац ией признаков); - нахождение разли чн ы х типов ом оним ов (либо л ю б о го их п о д м н о ­ жества, характеризую щегося определенными признаками); - нахождение определенных сочетаний словоформ (с учетом признаков д ли н ы , частеречной принадлежности, омонимии либо р азл и чн ы х к о м ­ б инаций этих признаков); - нахождение предложений, характеризующихся определенной п ункту­ ац и онн ой оформленностью (можно определенной длины и/или х а р а к ­ теризующихся определенным н абором частей речи, мож но с учетом их распределения); - нахождение реплик/текстов, характеризую щихся определенным п р и з­ наком (их наб ором , комбинацией). Введение д опол н и тельн ого призн ака имени собственного, служащего такж е цели разграни ч ен ия тождественно оформленны х нетождественных объектов, и д опол н и тел ьн ого призн ака для ф орм а ль н о неоднословны х язы ковы х знаков позволяет не тол ьк о существенно р асш и рить спектр возм ож н ы х запросов к системе, но и повысить степень точности л и н гв и ­ стического анализа. П р а в и л ьн о е построение и тестирование модели базы дан ны х обес­ печивает очень быстрый поиск по разли чн ы м критериям. С а м а б аза д а н ­ ных мож ет содержать б ольш ое количество различны х табли ц, связанных между собой определенными условиями. К аждая таб л и ц а содерж ит т о л ь ­ ко те данны е, которы е соответствуют ее ф ункциональном у назначению. Н а п р и м ер , в табли це индексов хранится тол ько уникальны й индекс сл о­ воупотреблени я (индекс частеречной принадлежности и индекс о м о н и ­ мии, если он имеется) и ссылка на следующую таблицу, в к оторой х р а­ нится иной вид и нф орм ац ии , позволяю щ ий иденти ф и ц ировать слово­ употребление в тексте. Все таб ли цы в базе данны х связаны между собой п рав и л ом „п од чи н ен ны й -гл ав ны й ” , что позволяет и спользовать для в ы ­ б орок наиболее эффективный язык запросов и добиться вы сокой п роиз­ водительности.

Cytaty

Powiązane dokumenty

Ten sam czas, to samo miejsce Uruchamianie aplikacji na słabych komputerach, możliwość podglądania sesji użytkownika Możliwość przejmowania pulpitu użytkownika,

Oczywiście doskonale wiemy, że ten bilet znajduje się w naszej kiesze- ni, ale jednocześnie rozpoczyna się gonitwa myśli czy aby na pewno, czy jest ważny, co będzie jeżeli nie

Podstawą prawną jest wydana w 1986 roku Ustawa o ochronie powietrza oraz Techniczna in- strukcja w sprawie kontroli jakości powietrza (z niem. Ta Luft - Technische

Zabiegi w złożach typu zamkniętego (tight gas) często są bardzo podobne do zabiegów w złożach konwen- cjonalnych, a różnią się jedynie ilością zatłaczanego płynu

W dalszej części rozdziału Autor skoncentrował się na źródłach prawa Unii Europejskiej jako instytucjonalno-prawnych czynnikach wpływających na. deficyt

Nie pow inniśm y zakładać, że wzorzec jest hom ologiczny wobec u jęcia stylistycznego; homologia może rzeczyw iście w ystępow ać (np. Zauważmy, że wskutek tego

Na solidnych, płaskich kamieniach, otoczonych mniejszymi, zachowały się pozostałości popiołu, fragmenty ceramiki adriatyckiej (!), ostrza obsydianowe oraz ka- wałki

Udział przedsiębiorstw kupieckich w ogólnej liczbie wszystkich przedsię- biorstw handlowych wg kategorii świadectw przemysłowych dla handlu w woj.. poznańskim w