Index of /rozprawy2/11638

(1)

Rozprawa przedstawia analizę wykorzystania algorytmów klasteryzacji w zadaniu rozpoznawania języka mówionego. Problem grupowania wypowiedzi w grupy odpowiadające językom jest analizowany dla nagrań przekształconych do przestrzeni i-wektorów. Algorytmy klasteryzacji i ich konfiguracje są testowane na bazie NIST i-vector LRE. Jakość uzyskanych klasteryzacji jest oceniana za pomocą zewnętrznych i wewnętrznych miar jakości klasteryzacji. W rozprawie pokazano, że algorytm mean shift z jądrem kosinusowym jest w stanie uzyskać stosunkowo czyste klastry. Ponadto, na podstawie obserwacji z eksperymentów dotyczących klasteryzacji, została zaproponowana modyfikacja klasycznego systemu rozpoznawania języka. Modyfikacja ta polega na utworzeniu podmodeli dla każdego języka z~wykorzystaniem algorytmu centroidów. Przeprowadzone eksperymenty potwierdzają, że zastosowanie podmodeli w połączeniu z liniowymi klasyfikatorami pozwala uzyskać wyniki konkurencyjne dla wyników uzyskiwanych przy użyciu złożonych nieliniowych klasyfikatorów. Proponowane modyfikacje systemu pozwalają na zrównoleglenie oraz mogą być stosowane w istniejących systemach rozpoznawania języków opartych na i-wektorach.

(2)

This thesis investigates the use of clustering algorithms in the spoken language recognition task. The problem of clustering speech utterances into groups that correspond to the languages is analysed based on recordings transformed into the i-vector space. Different clustering algorithms and their configurations are tested on the NIST i-vector LRE data set. The obtained clusterings are assessed with external and internal clustering quality measures. Experiments show that the mean shift algorithm with cosine kernel is capable of achieving relatively pure clusters. Based on observations from clustering experiments, a modification to the standard language recognition system is proposed. This modification consists of creating an additional cluster- based models for each language with k-means algorithm. Experiments show that additional models with simple linear classifiers allow to achieve results competitive to those obtained with complex non-linear classifiers. Proposed system modifications enable parallelism and can be applied in existing i-vector based language recognition systems.