W pracy prezentuję rezultaty moich badań nad wektorowymi reprezentacjami danych tekstowych. Głównymi owocami tych prac są dwa nowe modele neuronowe. Pierwszy z nich umożliwia budowanie reprezentacji wektorowych na poziomie dokumentów a drugi na poziomie wyrazów. W zakresie wektorowych reprezentacji dokumentów proponuję model Binary Paragraph Vector - sieć neuronową uczącą się binarnych reprezentacji dokumentów tekstowych, które zachowują ich podobieństwo semantyczne. Reprezentacje te umożliwiają szybkie wyszukiwanie informacji związanej z dokumentem referencyjnym. Rezultaty eksperymentalnej ewaluacji zaproponowanego modelu demonstrują, że buduje on reprezentacje znacznie bardziej precyzyjne, niż znana z literatury popularna metoda Semantic Hashing. Zaletą modeli Binary Paragraph Vector jest możliwość budowania reprezentacji bezpośrednio z danych tekstowych, bez potrzeby korzystania z algorytmów haszujących zachowujących lokalność. Drugi proponowany model - Disambiguated Skip-gram - umożliwia budowanie wektorowych reprezentacji słów, które uwzględniają ich wieloznaczność. Model ten posiada prostą interpretację probabilistyczną. Co więcej, w odróżnieniu od istniejących rozwiązań tego typu jest on różniczkowalny ze względu na wszystkie swoje parametry. Umożliwia to efektywne trenowanie go algorytmem wstecznej propagacji błędu. W pracy prezentuję obszerną ilościową ewaluację modelu Disambiguated Skip-gram i pokazuję, że jest on lepszy od konkurencyjnych rozwiązań w trzech z czterech standardowych zbiorów testowych.
Vector representations of text data in deep learning
In this dissertation we report results of our research on dense distributed representations of text data. We propose two novel neural models for learning such representations. The first model learns representations at the document level, while the second model learns word-level representations. For document-level representations we propose Binary Paragraph Vector: a neural network models for learning binary representations of text documents, which can be used for fast document retrieval. We provide a thorough evaluation of these models and demonstrate that they outperform the seminal method in the field in the information retrieval task. In contrast to previously proposed approaches, Binary Paragraph Vector models learn embeddings directly from raw text data. Thus far, the most common way of building binary document representations was to use a data-oblivious locality sensitive hashing method on top of some intermediate text representation. For word-level representations we propose Disambiguated Skip-gram: a neural network model for learning multi-sense word embeddings. Representations learned by this model can be used in downstream tasks, like part-of- speech tagging or identification of semantic relations. In the word sense induction task Disambiguated Skip-gram outperforms state-of-the-art models on three out of four benchmarks datasets. Our model has an elegant probabilistic interpretation. Furthermore, unlike previous models of this kind, it is differentiable with respect to all its parameters and can be trained with backnronagation.