• Nie Znaleziono Wyników

Index of /rozprawy2/10905

N/A
N/A
Protected

Academic year: 2021

Share "Index of /rozprawy2/10905"

Copied!
2
0
0

Pełen tekst

(1)

Celem rozprawy było zbadanie możliwości rozpoznawania dokumentów tekstowych za pomocą autorskiej rodziny metod opartych o płytką analizę semantyczną, kształtowaną w zależności od specyficznych właściwości użytego w tekście języka. Zaproponowana została koncepcja rodziny metod, wykorzystująca podejście grafowe do reprezentacji treści dokumentu, rozwijając prace nad reprezentacją tekstu przedstawione przez Schenkera et al. Tak reprezentowane grafy były następnie klasyfikowane za pomocą metod maszynowego uczenia,

Przedstawiono cztery przykładowe warianty metody, wykorzystujące dodatkowe cechy uzyskane przez płytką analizę semantyczną. Dedykowane one były do rozwiązywania konkretnych problemów: klasyfikacji wiadomości prasowych, kategoryzowania przedmiotów wystawianych na serwisie aukcyjnym czy też oceny sentymentu danej wypowiedzi.

Zrealizowano środowisko testowe, które pozwoliło zmierzyć wyniki wariantów proponowanej rodziny metod na kilku wybranych kolekcjach dokumentów. Zastosowano algorytmy klasyfikacji k-NN oraz maksimum entropii i odniesiono się do podejścia z workiem słów oraz oryginalnej koncepcji Schenkera et al. Uzyskane rezultaty potwierdziły przyjętą tezę, uzyskując statystycznie istotną poprawę rezultatów poprzez zastosowanie dedykowanej do danego problemu metody.

(2)

The goal of the dissertation was to research possibilities of classifying documents using specific family of methods based on shallow semantic analysis, dedicated to specific properties of the language used in the text. The concept of family of methods is proposed. It is using graph approach for representing the contents of the document, developing on the work presented by Schenker el al. Such graphs were then a subject of classification using machine learning algorithms. Four members (variants) of the family were presented, leveraging additional features, extracted through shallow semantic analysis. They were dedicated to several specific problems: classification of news articles, categorizing items on the auctioning website or detecting the sentiment of a given statement.

A testing environment was built, which allowed assessing the results of the proposed variants on several collections of documents. Maximum entropy and k-nearest neighbours algorithms were used for classifying all the variants as well as traditional bag-of-words and Schenker et al. approaches.

Using the dedicated method allowed to achieve statistically significant improvement of the results, which approved the thesis of the dissertation.

Cytaty

Powiązane dokumenty

Inorganic fillers are able to supply additional water in the electrolyte membranes used for fuel cells, but the fact that they are able to increase the

Tak, więc Konwencja z Aarhus, mimo, że nie może być stosowana bezpośrednio przez obywateli w odniesieniu do realiza­ cji prawa do informacji o stanie i ochronie

Henryka Sienkiewicza – Zan, z powodu zniszczonego budynku gimnazjum przez Niemców, był gościem – I.H.] – nasza klasa spotykała się po południu.. Był to kurs przy-

Consequentially, it will improve our understanding of the role design can play in building organisational structures that can successfully carry out and balance both exploration

At the same time we wanted to test whether there are diff erences in the assessment of diagnostic quality of the symptoms of deception between the groups of police offi cers

Obrona, zakładanie, przesuwanie lub znoszenie granic politycznych (państwowych) były w Europie, a także poza nią przyczyną gigantycznego rozlewu krwi. Dlatego nazywano

Nie bez zna- czenia pozostaje tu także fakt, iż w okresie II wojny światowej na zacho- dzie i wschodzie pojawiają się negatywne obrazy kobiety jako prostytutki

W pierwszej części, poświęconej armii spartańskiej, referat na temat Jazdy spartańskiej zaprezentował Tomasz Makólski-Swiercz (Uniwersytet Wrocławski, Uniwersity of