Przetwarzanie języka naturalnego wymaga użycia algorytmów ekstrakcji cech syntaktycznych i semantycznych z tekstu. Służą do tego słowniki fleksyjne, statystyczne algorytmy tagujące, ontologie i sieci semantyczne. Głównym rodzajem słów, których nie odnajdziemy w wyżej wymienionych zasobach dla języka polskiego, są wielosegmentowe jednostki leksykalne (inaczej: wyrazy wielosegmentowe), czyli wyrażenia składające się z kilku segmentów, które posiadają własne, odrębne znaczenie. Przykładami takich wyrazów są terminy („tlenek węgla"), idiomy („panna młoda", „mówić trzy po trzy"), nazwy własne („Polski Związek Wędkarski") czy też nazwy osób („Lech Wałęsa").
Główne cele pracy są następujące:
1. Zaprojektowanie i implementacja algorytmów ekstrahujących w sposób automatyczny wyrazy wielosegmentowe z tekstu w języku polskim, wykorzystujących jako źródła danych słownik fleksyjny i Wikipedię.
2. Utworzenie w sposób automatyczny słownika wyrazów wielosegmentowych z haseł Wikipedii oraz wyników procesu ekstrakcji opisanego w punkcie 1. Zaimplementowany system ekstrakcji wyrazów wielosegmentowych osiąga wartości wskaźników precision i recall przekraczające 70%. Dodatkowo w pracy przedyskutowano możliwości automatycznego przydzielania etykiet semantycznych wyrazom wielosegmentowym ekstrahowanym z tekstu.
Automatic extraction and semantic classification of multipart lexical units of natural language
Natural language processing requires syntactic and semantic feature extraction. The resources used are: dictionaries, statistical tagging algorithms, ontologies and semantic networks. These resources for Polish are missing multipart lexical units, also called multiword expressions. These expressions consist of multiple tokens and have their own distinct meaning. They include terms like „tlenek węgla" (carbon oxide), idioms like „panna młoda" (bride), proper names like „Polski Związek Wędkarski" (Polish Fishing Association) and personal names: „Lech Wałęsa".
The thesis focuses on the following primary objectives:
1. Design and implemention of algorithms which automatically extract multiword expressions from Polish text using an inflection dictionary and Wikipedia as data sources.
2. Automatic creation of a dictionary of Polish multiword expressions from Wikipedia and the results of the extraction process described in point 1.
The implemented system extracts Polish multiword expressions with precision and recall over 70%. The dissertation also discusses possible methods of automatic shallow semantic classification of the extracted expressions using semantic labels.