Niniejsza praca skupia się na tematyce budowania systemów automatycznego rozpoznawania mowy, zorientowanych na zastosowanie przemysłowe. Badane są trzy główne hipotezy. Pierwsza z nich to stwierdzenie, że starannie zaprojektowany proces gromadzenia nagrań anotowanych automatycznie pozwala na uzyskanie lepszych danych treningowych do modelu akustycznego w porównaniu do istniejących korpusów. Druga z nich dotyczy zagadnienia normalizacji tekstu do treningu modelu językowego i wyraża, że znaczna liczba skrótów występujących w językach o silnej fleksji może zostać rozwinięta do form pełnych i morfologicznie poprawnych z pomocą modelu opartego o rekurencyjną sieć neuronową, dokonującego predykcji wyłącznie w oparciu o cechy morfosyntaktyczne występujące w zdaniu. Ostatnia hipoteza mówi że możliwe jest przywrócenie interpunkcji w transkrypcjach konwersacji z pomocą modelu głębokiej sieci neuronowej i cech czasowych poszczególnych słów w dialogu. W pracy najpierw omówione są istniejące w języku polskim zbiory danych, procesy i narzędzia do tworzenia domenowych zbiorów danych i wyniki ewaluacji systemu. W dalszej kolejności opisane są badania nad normalizacją tekstu oraz przewidywania interpunkcji na transkryptach dialogowych. Owoce badań zostały wykorzystane w komercyjnie dostępnym oprogramowaniu.
Challenges in Speech Recognition Industry: Data Collection, Text
Normalization and Punctuation Modelling
This thesis investigates several approaches to building an automatic speech recognition system with an application-oriented focus. Three major hypotheses are being investigated. The first one is that a careful design of an automated annotated recording collection process provides superior data for acoustic model training compared to existing Polish corpora. The second relates to text normalization for language model preparation and states that a substantial number of abbreviations in strongly inflected languages can be expanded to their full, morphologically correct forms with an application of a recurrent neural network model which predicts based only on the morphosyntactic features of a sentence. The last main point is that punctuation can be restored in transcripts of conversational speech by means of deep neural network models and word timing features, where the model processes both sides of the conversation at once. The thesis starts with a discussion of existing Polish recording datasets, the processes and tools used to prepare new, domain-specific ones, as well as results of the trained system evaluation. Next, a description of research on text normalization and conversational punctuation prediction is presented. The results of this thesis have been successfully implemented as part of commercially available systems.