• Nie Znaleziono Wyników

АВТОМАТИЧНО РАЗПОЗНАВАНЕ НА НЕОЛОГИЗМИ В БЪЛГАРСКИЯ ЕЗИК

N/A
N/A
Protected

Academic year: 2021

Share "АВТОМАТИЧНО РАЗПОЗНАВАНЕ НА НЕОЛОГИЗМИ В БЪЛГАРСКИЯ ЕЗИК"

Copied!
8
0
0

Pełen tekst

(1)

Ивелина Стоянова, Светлозара Лесева, Светла Коева Институт за български език – БАН, София

АВТОМАТИЧНО РАЗПОЗНАВАНЕ НА НЕОЛОГИЗМИ В БЪЛГАРСКИЯ ЕЗИК

Abstract: In this paper we propose a method for detecting neologisms in Bulgarian.

The method combines several techniques: (i) preprocessing and organization of the data to facilitate efficient analysis; (ii) frequency analysis and extraction of new-word candidates;

(iii) filtering, grouping and ranking of results. The method is tested on data from the Bulgarian National Corpus. The evaluation is based on qualitative rather than quantitative measures and is performed manually.

Keywords: neologisms, Bulgarian language, Natural language processing

1. Увод

В статията се описва метод за откриване на лексикални неологизми в българския език, основаващ се на честотен анализ на езикови данни, извлече- ни от Българския национален корпус.

Според общоприетото деление в съвременната лингвистика неоло- гизмите могат да се отнесат към две основни категории: лексикални и семан- тични. Лексикалните неологизми са нови думи, означаващи нови или поз- нати понятия. Основните начини за възникването им в българския език са следните (по Благоева 2006): а) с помощта на утвърдените езикови средства и словообразувателни модели – ексжрица, зърнобос, захарохолик, взлома- джия, емемеец; б) чрез заемане, включително чрез калкиране и семантично калкиране – фитбол (fitball), самонаемане (self-employment); в) чрез връ- щането в активна употреба на остарели думи – сараф, спомоществовател, чалга; г) чрез възникването на нови абревиатури – MMA (Mixed Martial Arts – Смесени бойни изкуства).

Семантичните неологизми включват както нови значения на съществува- щи думи, така и производни значения на нови лексеми (Колковска 2012: 377).

Основният механизъм за възникването им е по пътя на асоциацията, като осо- бено продуктивни процеси са метафората и метонимията (Колковска 2012;

Колковска 2013). Създаването на семантични неологизми е силно повлияно от чуждите езици (Благоева 2010).

Откриването на лексикални неологизми се основава на анализ на лек- сикалния състав от определен период в съпоставка с предходен период. От- криването на семантични неологизми е значително по-сложна задача, която изисква изследване на семантичния контекст.

(2)

2. Методи за откриване на лексикални неологизми

Първият тип методи за откриване на лексикални неологизми използват списъци с лексеми за елиминиране (списъци за изключване– exclusion lists), които са извлечени от съществуващи лексикографски и други ресурси, и сле- дователно съдържащите се в тях думи не са потенциални лексикални неоло- гизми (О’Донован, О’Нийл 2008; Янсен 2005). Те се съпоставят със списъци- те от лексеми и/или форми, извлечени от корпус, който съдържа текстове от фиксиран период, предшестващ изследвания период. Този тип методи често се съчетават с филтри за елиминиране на несъществуващи думи или форми като: невъзможни N-грами от символи за даден език, често срещани печатни и правописни грешки, сливание или разделяне на думи, списъци със собстве- ни имена, абревиатури, съкращения и под. Неразпознатите с помощта на тези средства думи са потенциални кандидати за неологизми. Често те се анализи- рат допълнително и се ранкират по честота.

Друг вид методи се основават на откриването на предварително зададени шаблони в корпус. Шаблоните са лексикални средства, граматични конструк- ции и/или пунктуационни маркери, които сигнализират за появата на нова дума, често непознато понятие, в близкото им обкръжение (Паризек 2008), например известен (още) като, наричан/наречен (още), познат като, така наречения(т) и др. Приложимостта на този подход е основно при откриване- то на неологизми от терминологичната сфера.

Третият вид методи се основават на използването на диахронни корпуси, на базата на които с помощта на статистически анализ и/или машинно обуче- ние се откриват и ранкират потенциалните неологизми в текстове през опре- делен изследван период спрямо текстове от фиксиран период (Кабре, Назар 2012; Стенеторп 2010).

Известни са и хибридни методи, които съчетават два или повече от пред- ходните подходи (напр. Фалк и др. 2014).

3. Българският национален корпус като източник на данни

Българският национален корпус (БНК) съдържа разнообразни по голе- мина, период на създаване, форма (писмени/устни), стил, жанр, тематична област и език текстове (Коева и др. 2012) с общ обем от 1,2 милиарда думи на български език. Корпусът отговаря на съвременните критерии, установени в световната практика, и съчетава преимуществата на статичните (детайлна класификация и метаописание), динамичните (продължаващо разширяване) и опортюнистичните (събиране на възможно най-много по обем данни) кор- пуси (МакЕнери, Харди 2012).

Едно от основните преимущества на БНК за поставената задача е нефик- сираната му динамична структура, която позволява разширяване с текстове от

(3)

ност в него да се регистрират лексикалните промени. Наред с това повечето от текстовете са от интернет, където, поради динамичността и актуалността на информационното съдържание, възникват, популяризират се и се устано- вяват много от лексикалните промени.

Корпусните единици в БНК имат подробни метаданни, повечето от които са извлечени автоматично от структурата на документите. Метаописанието позволява създаването на подкорпуси с определена структура и характерис- тики, зададени от потребителя. Метаданните са организирани в 27 категории, следващи утвърдените стандарти в световната практика (Бърнард 2005), сред които: а) издателски данни: година на издаване на текста, автор, издателство и др., а за паралелните текстове и информация като език, посока на превода, име на преводача и под.; б) класификационна информация: форма на създава- не (писмена/устна), стил, жанр, тематична област и др.; в) описателна (ста- тистическа) информация: брой токъни, думи, леми, именни фрази, изрече- ния и прости изречения в състава на сложното и др.

4. Корпусният анализ като метод за откриване на лексикални промени

Методът, описан по-долу, съчетава техники за откриване и ранкиране на думи, които потенциално представляват неологизми, като резултатите под- лежат на експертна оценка от лексикограф. Откриването на нови думи се из- вършва с помощта на списъци за изключване в съчетание с различни филтри.

Появата на неологизми в езика се проследява върху извадка от новосъз- дадени текстове от началото на 2015 г., а като корпуси за сравнение се използ- ват текстовете от БНК, създадени до 2014 г.

4.1. Събиране и организация на данните

За целите на изследването корпусните единици в БНК са разпределени според годината/периода на създаване – необходимата информация, за да се определи дали дадена единица попада в групата на текстовете за сравнение (до 2014 г.), или в групата на новите текстове (от 2015 г.). Системата от ме- таданни улеснява реорганизирането на корпусните единици в зависимост от конкретната задача и допълнителното настройване на критериите за сравне- ние, например чрез промяна на референтния и изследвания период или чрез анализиране на текстове от определени стилове.

Събирането на нови данни се извършва посредством автоматично об- хождане и изтегляне на новини от няколко издания, достъпни онлайн: в. „24 часа“, в. „Дневник“, в. „Сега“. Новосъбраните текстове също се добавят в БНК и са снабдени с метаданни.

(4)

4.2. Описание на алгоритъма за откриване на неологизми

4.2.1. Идентифициране на кандидати за неологизми

На първия етап се извършва откриване на словоформи, които представля- ват потенциални лексикални неологизми. Кандидатите за неологизми трябва да отговарят на следните условия: а) да се срещат в текстовете от наблюда- вания период (табл. 1); б) да не се срещат в референтния корпус (2 869 082 уникални словоформи) и в) да не фигурират в списъците за изключване.

Списъците за изключване съдържат думи, за които е известно, че не са неологизми, но не се срещат в референтния корпус, включително имена, аб- ревиатури и подобни. Извлечени са от словници на различни речници, от ин- декси на книги и списъци с думи, както и от други корпуси. За настоящото изследване са използвани 41 списъка за изключване, наброяващи 1 748 755 словоформи. Списъците са предоставени от Секцията по българска лексико- логия и лексикография към Института за български език на БАН.

Таблица 1. Количество и обем на текстовете и брой на извлечените кандидати по подпериоди от януари до октомври 2015 година

(*след стеминг) Подпериод Брой

документи Брой думи Брой кандидати (словоформи)

Брой кандидати (основи*)

Януари 2015 567 27 907 104 100

Февруари 2015 602 25 826 225 217

Март 2015 687 25 398 208 204

Април 2015 594 21 564 150 146

Май 2015 864 28 844 218 210

Юни 2015 1130 31 433 228 222

Юли 2015 4794 69 593 597 581

Август 2015 4512 77 758 528 497

Септември 2015 4154 77 278 459 445

Октомври 2015 7122 89 253 644 618

В Пример 1(а) по-долу са представени потенциални неологизми, извле- чени по предложения метод. Сред тях се срещат: подходящи думи, например термини като дебъгвам; нови думи от социалните медии, например хейтър- ски; нови производни думи като необжалваем, незадължаване; нови форми (смятани за недопустими), например Гърцията; а също така и невалидни кан- дидати – слято (Висарионовичсталин) или грешно изписани думи (предизив- кателство). Това показва, че за подобряване на резултатите е необходимо допълнително филтриране.

Същевременно, появата на определени нови думи/словоформи в изслед-

(5)

се срещат тези думи. Например думата кечър се среща в новинарски текстове още от 2013 г. (в. „Труд“, 05.08.2013) и 2014 г. (в. „24 часа“, 03.07.2014), но тези текстове не са включени в корпуса. Това налага допълването и разширя- ването на референтния корпус с оглед на по-точното датиране на появата на неологизмите.

(а) кандидати (б) групиране (в) филтриране и ранкиране кечъри – 4

{кечъри, кечърите} – 8 1. {кечъри, кечърите} – 8 кечърите – 4

соросоидно – 2

{соросоидно, соросоиди} – 4 2. {соросоидно, соросоиди}

соросоиди – 2 – 8*

Висарионовичсталин – 1 Висарионовичсталин – 1 Висарионовичсталин – 1 необжалваемото – 1 необжалваемото – 1 необжалваемото – 1 предизивкателство – 1 предизивкателство – 1 предизивкателство – 1

Гърцията – 4 Гърцията – 4 4. Гърцията – 4

хейтърски – 5 хейтърски – 5 3. хейтърски – 5

Пример 1. Данни от февруари 2015: (а) списък с кандидати с честотата им; (б) групиране на кандидатите по основа; (в) филтриране и ранкиране на кандидатите (*приложена е мярката честота на думата × брой документи,

в които се среща)

4.2.2. Групиране на кандидатите

На този етап се извършва групиране на кандидатите за неологизми, които в много случаи представляват словоформи на една лексема, например кечъри и кечърите; форми на производна и изходна дума, например хейтър и гейхей- тър, или производни от една и съща дума, например соросоидно и соросоиди (Пример 1(б)).

За целта е имплементиран специален алгоритъм (стемър), който открива графични думи с дължина над 3 символа, които имат общ подниз (поредица от символи) с дадена минимална дължина (75% от дължината на по-дългата дума). По този начин формите с общ подниз се групират и се съотнасят с една обща формална „основа“, която невинаги съвпада със същинската основа на думите. След групирането формите кечъри и кечърите се съотнасят към об- щата основа кечъри, макар и това да не е същинската основа на думата. В ре- зултат от работата на стемъра броят на кандидатите за неологизми намалява средно с 5%. В някои случаи комбинирането на честотата предотвратява от-

(6)

падането на валидни кандидати при честотното филтриране – например {хей- търски, хейтърските} има честота 4 и остава в списъка с кандидати, докато всяка една от групите словоформи е с честота 2 и би отпаднала.

4.2.3. Филтриране и ранкиране на кандидатите

Приложени са няколко техники за филтриране на неподходящи или нева- лидни кандидати от списъците – форми, съдържащи печатни или правописни грешки, случайни единични употреби на думи и други подобни. Най-напред кандидатите за неологизми са филтрирани според честотата им на срещане, като формите с ниска честота (по-малко от 2 или 3 срещания в корпуса) са отстранени. При наличие на данни с по-голям обем (например за месеци- те септември и октомври) може да се наложи изискване за по-висока мини- мална честота, за да се редуцират допълнително кандидатите. Отстранени са и думи, съдържащи символи на латиница, цифри и др., но по този начин отпадат и валидни кандидати, затова такива думи могат да преминават през проверка от експерт.

Като допълнителен филтър се използва броят на различните документи, в които се среща даден кандидат. На думите, които се срещат в повече доку- менти, се приписва по-висока тежест по формулата tf × df (честотата на дума- та, умножена по броя документи).

4.3. Представяне на резултатите

С помощта на описания метод възможните кандидати за неологизми, извлечени от първоначалните списъци, се намаляват значително и броят им позволява ръчно преглеждане, изучаване и оценка. Съществена роля за полу- чаването на списъци с приемливи кандидати и обозрим обем играят филтри- рането и ранкирането на кандидатите.

При анализирането на списъците се наблюдават различни явления: а) продуктивни словообразувателни модели, като образуването на думи с нача- лен компонент много-, себе-, мега- и т.н.; б) висока честота на транслитери- рани чужди думи (напр. уелнес център, спа, протестър); в) конкуриращи се варианти на думи – флуорсъдържащ/флуоросъдържащ, или форми – дроно- ве/дрони (за мн. ч.).

Фигура 1 представя няколко примера за кандидати за неологизми, които имат висока честота за целия период януари – октомври 2015 година и се сре- щат в поне три подпериода (месеца).

Резултатите са достъпни на страницата на Секцията по компютърна линг- вистика: http://dcl.bas.bg/neologism-detection/. Данни се добавят ежемесечно след събиране и обработване на публикации от онлайн изданията на няколко основни източника („24 часа“, „Дневник“, „Сега“), като се предвижда разши-

(7)

5. Заключение

Анализът на данните може да се използва за динамично проследяване на процеса на навлизане на дадена нова дума в езика – наблюдения по месе- ци и във връзка със значими събития от политическия, икономическия и со- циалния живот. Предвижда се прецизирането на формулата за ранкиране на кандидатите за неологизми, като се вземат предвид не само честотата и броят документи, но и различните източници, в които се използва думата, както и употребата ѝ в социалните медии.

Като насока за бъдеща работа може да се посочи разширяването на мето- да за откриване на съставни неологизми чрез прилагане на списъци от N-гра- ми и мерки за асоциация, както и идентифицирането на семантични неоло- гизми чрез семантичен анализ на обкръжението. Предстои и обогатяването на списъците за изключване и другите помощни ресурси (списъци с термини, абревиатури, имена; правила за разпознаване на наименования, абревиатури и под.), както и на лингвистичната анотация.

Планира се и приложението на методи за машинно обучение, в което като тренировъчни данни се използват примери за неологизми, вече регистрирани в по-ранни периоди от съвременното състояние на езика.

ЛИТЕРАТУРА

Благоева 2006: Благоева, Д. Неологизмите в съвременния български език. – Български език и литература, 2006, № 6, с. 16 – 25.

Фиг. 1. Честота на нови думи по месеци (януари – октомври 2015)

(8)

Благоева 2010: Благоева, Д. Чуждоезикови влияния при семантичния развой на българ- ската лексика в съвременния период. – В: Слово и словесност. Сборник в чест на доц. д-р Юлия Балтова. София: ЕМАС, 2010, с. 33 – 41.

Бърнард 2005: Burnard, L. Developing Linguistic Corpora: a Guide to Good Practice, chapter Metadata for Corpus Work. Oxford: Oxbow Books, 2005.

<http://ota.ahds.ac.uk/documents/creating/dlc/index.htm> (дата на достъп: 13.11.2015) Кабре, Назар 2012: Cabré, M. T., Nazar, R. Towards a New Approach to the Study of

Neology. – Neologica: Revue Internationale de Néologie 6. Laboratoire de linguistique informatique (LLI, Université Paris XIII – CNRS). Paris: Editions Garnier, 2012, рр.

63 – 80.

Коева и др. 2012: Koeva, S., Stoyanova, I., Leseva, S., Dimitrova, T., Dekova, R., Tarpomanova, E. The Bulgarian National Corpus: Theory and Practice in Corpus Design. – Journal of Language Modelling, 2012, Vol. 0, No 1, рр. 65 – 110.

<http://jlm.ipipan.waw.pl/index.php/JLM/article/view/33/30> (дата на достъп: 13.11.2015) Колковска 2012: Колковска, С. Нови метафорични и метонимични значения в българ-

ския език, възникнали при съществителните имена. – Български език, 2012, № 4, с. 17 – 27.

Колковска 2013: Колковска, С. Семантични неологизми в българския език, възникнали чрез метонимичен пренос. – В: 70 години българска академична лексикография.

София: АИ „Проф Марин Дринов“, 2013, с. 375 – 384.

МакЕнери, Харди 2012: McEnery, T., Hardie, A. Corpus Linguistics: Method, Theory and Practice. Cambridge: Cambridge University Press, 2012.

О’Донован, О’Нийл 2008: O’Donovan, R., O’Neil, M. A Systematic Approach to the Selection of Neologisms for Inclusion in a Large Monolingual Dictionary. – In:

Proceedings of the 13th Euralex International Congress. Barcelona, Spain, рр. 571 – 579.

Паризек 2008: Paryzek, P. Comparison of Selected Methods for the Retrieval of Neologisms.

– Investigationes Linguisticae, 2008, No 16, рр. 163 – 181.

Стенеторп 2010: Stenetorp, P. Automated Extraction of Swedish Neologisms Using a Temporally Annotated Corpus. Master of Science in Engineering (MSc Eng) Thesis.

Royal Institute of Technology (KTH). Stockholm, Sweden, 2010.

Фалк и др. 2014: Falk, I., Bernhard, D., Gérard, C. From Non-Word to New Word:

Automatically Identifying Neologisms in French Newspapers. – In: Proceedings from LREC, 2014, рр. 4337 – 4344.

Янсен 2005: Janssen, M. NeoTrack – Semiautomatic Neologism Detection. Presented at Associação Portuguesa de Linguística 2005. Porto, Portugal, August 2005.

Cytaty

Powiązane dokumenty

Това е именно причината, поради която, първо, в езика ни същест- вителните имена за лица жени са многобройна група, при това – непрекъсна- то попълваща се, второ,

5 За по-отчетливо открояване на състоя- нието и тенденциите разглеждаме словообразувателните явления в българ- ския език в славянски контекст въз основа на

9 На тази преценка, разбира се, може да се противопостави тезата за многофункционалността и поливалентността на книжовния език, както и за некодифицираността

Този процес на адаптацията ясно и нагледно може да се види в таблицата (от дипломната работа на А. Насонова), където са представени нови заемки (16), които още

Мненията на български миротворци и представители в международни щабо- ве, приведени долу, в отговор на въпрос от проведената за целта на изследва- нето анкета

с отбелязаното в „Лингвистичния енциклопедичен речник“, че „източник на омо- нимия в даден език може да бъде звукоподражателният произход на единия от омонимите“

Сравнението със сложните думи с първа част добро, които са 25, показва колко съществена роля играят лексемите с корен -благ- в изграждането на

Онова, което си поставихме за цел да изследваме, беше дали във форума има употреби, които се срещат системно само в този форум; дали има употреби, които