• Nie Znaleziono Wyników

Index of /rozprawy2/11029

N/A
N/A
Protected

Academic year: 2021

Share "Index of /rozprawy2/11029"

Copied!
2
0
0

Pełen tekst

(1)

Przetwarzanie języka naturalnego wymaga użycia algorytmów ekstrakcji cech syntaktycznych i semantycznych z tekstu. Służą do tego słowniki fleksyjne, statystyczne algorytmy tagujące, ontologie i sieci semantyczne. Głównym rodzajem słów, których nie odnajdziemy w wyżej wymienionych zasobach dla języka polskiego, są wielosegmentowe jednostki leksykalne (inaczej: wyrazy wielosegmentowe), czyli wyrażenia składające się z kilku segmentów, które posiadają własne, odrębne znaczenie. Przykładami takich wyrazów są terminy („tlenek węgla"), idiomy („panna młoda", „mówić trzy po trzy"), nazwy własne („Polski Związek Wędkarski") czy też nazwy osób („Lech Wałęsa").

Główne cele pracy są następujące:

1. Zaprojektowanie i implementacja algorytmów ekstrahujących w sposób automatyczny wyrazy wielosegmentowe z tekstu w języku polskim, wykorzystujących jako źródła danych słownik fleksyjny i Wikipedię.

2. Utworzenie w sposób automatyczny słownika wyrazów wielosegmentowych z haseł Wikipedii oraz wyników procesu ekstrakcji opisanego w punkcie 1. Zaimplementowany system ekstrakcji wyrazów wielosegmentowych osiąga wartości wskaźników precision i recall przekraczające 70%. Dodatkowo w pracy przedyskutowano możliwości automatycznego przydzielania etykiet semantycznych wyrazom wielosegmentowym ekstrahowanym z tekstu.

(2)

Automatic extraction and semantic classification of multipart lexical units of natural language

Natural language processing requires syntactic and semantic feature extraction. The resources used are: dictionaries, statistical tagging algorithms, ontologies and semantic networks. These resources for Polish are missing multipart lexical units, also called multiword expressions. These expressions consist of multiple tokens and have their own distinct meaning. They include terms like „tlenek węgla" (carbon oxide), idioms like „panna młoda" (bride), proper names like „Polski Związek Wędkarski" (Polish Fishing Association) and personal names: „Lech Wałęsa".

The thesis focuses on the following primary objectives:

1. Design and implemention of algorithms which automatically extract multiword expressions from Polish text using an inflection dictionary and Wikipedia as data sources.

2. Automatic creation of a dictionary of Polish multiword expressions from Wikipedia and the results of the extraction process described in point 1.

The implemented system extracts Polish multiword expressions with precision and recall over 70%. The dissertation also discusses possible methods of automatic shallow semantic classification of the extracted expressions using semantic labels.

Cytaty

Powiązane dokumenty

Na przełomie wieków można było ogrodem wyrazić wszystko — i dlatego pewne rzeczy musiały się dziać za jego granicami?. Preux odchodził od rozumu z

The free surface condition for the perturbation (wave) potential c1 of the lowest order term In the "inner" expansion (2.4.8), derived as a linearization of the

W niektórych złożach węgla brunatnego do trzeciorzędowych kopalin towarzyszących zalicza się również osady węglanowe.. W Bełchatowie jest to

Autor pragnął ukazać również motywy, jakimi kierowali się biskupi, przystępując do unii, a także udowodnić, iż papież nie jest następcą św.. W pierwszej,

The main aim of this paper is to determine the causes and directions of the migration of students of economic majors representing Generation Y in Poland and Portugal.. A

Linde’s dictionary of Polish – new retro-digitisation and electronic word index..

Our project has two main aims: (i) fixing various markup errors that the dictionary contains after two conversions from its original TeX form — the result will be a

Z pow yższego zestawienia podstaw programowych korelacji nauczania religii i edukacji ekologicznej wynika, że ta kategoria korelacji nie ogranicza się jedynie do