Praca dotyczy ekstrakcji informacji z polskich tekstów. Zasadniczym jej tematem jest rozpoznawanie relacji semantycznych w oparciu o automatycznie konstruowane wzorce ekstrakcyjne. Przedstawiono w niej również algorytm selekcji zdań, na podstawie których tworzony jest model ekstrakcji oraz algorytmy ujednoznaczniania i semantycznej klasyfikacji wyrażeń języka polskiego.
Wzorce ekstrakcyjne są konstruowane na podstawie przykładowych zdań zawierających wyrażenia połączone relacjami oraz wyposażane są w ograniczenia semantyczne zdefiniowane z wykorzystaniem pojęć ontologii Cyc. Ograniczenia określane są na podstawie trzech metod: ręcznej oceny zdań, predykatów ontologii Cyc oraz danych znajdujących się w DBpedii.
Przeprowadzono szereg eksperymentów weryfikujących skuteczność opisywanych algorytmów, w szczególności dotyczących ekstrakcji relacji całość-część. Pokazują one, że użycie ograniczeń semantycznych prowadzi do istotnej poprawy precyzji ekstrahowanych informacji. Porównanie wyników ekstrakcji dla ograniczeń uzyskanych na różne sposoby pozwala obronić tezę pracy o możliwości automatycznej ekstrakcji relacji semantycznych z wykorzystaniem algorytmu hybrydowego, łączącego symboliczne zasoby wiedzy z danymi statystycznymi.
Automatic extraction of semantic relations from Polish texts.
This thesis is concerned with the information extraction from Polish texts. Its primary topic is recognition of semantic relations based on automatically constructed extraction patterns. It also presents algorithms for the selection of example sentences, used to build extraction model as well as an algorithm for semantic disambiguation and classification of Polish expressions. Extraction patterns are constructed using exemplary sentences containing expressions that are connected by given relation and they employ Cyc ontology terms as the semantic argument constraints. These constraints are defined using three methods: manual verification of the examples, inspection of relation constraints in Cyc and statistical analysis of predicate instances found in DBpedia.
A number of experiments was conducted in order to determine the performance of the presented algorithms, especially the extraction of the part-whole relationship. It is shown that semantic constraints greatly improve the quality of the extraction. Comparison of the three methods used to define the constraints allowed to defend the thesis stating that it is possible to automatically extract semantic relations with the help of a hybrid algorithm combining symbolic knowledge and statistical evidences.