• Nie Znaleziono Wyników

Index of /rozprawy2/11470

N/A
N/A
Protected

Academic year: 2021

Share "Index of /rozprawy2/11470"

Copied!
2
0
0

Pełen tekst

(1)

Niniejsza praca skupia się na tematyce budowania systemów automatycznego rozpoznawania mowy, zorientowanych na zastosowanie przemysłowe. Badane są trzy główne hipotezy. Pierwsza z nich to stwierdzenie, że starannie zaprojektowany proces gromadzenia nagrań anotowanych automatycznie pozwala na uzyskanie lepszych danych treningowych do modelu akustycznego w porównaniu do istniejących korpusów. Druga z nich dotyczy zagadnienia normalizacji tekstu do treningu modelu językowego i wyraża, że znaczna liczba skrótów występujących w językach o silnej fleksji może zostać rozwinięta do form pełnych i morfologicznie poprawnych z pomocą modelu opartego o rekurencyjną sieć neuronową, dokonującego predykcji wyłącznie w oparciu o cechy morfosyntaktyczne występujące w zdaniu. Ostatnia hipoteza mówi że możliwe jest przywrócenie interpunkcji w transkrypcjach konwersacji z pomocą modelu głębokiej sieci neuronowej i cech czasowych poszczególnych słów w dialogu. W pracy najpierw omówione są istniejące w języku polskim zbiory danych, procesy i narzędzia do tworzenia domenowych zbiorów danych i wyniki ewaluacji systemu. W dalszej kolejności opisane są badania nad normalizacją tekstu oraz przewidywania interpunkcji na transkryptach dialogowych. Owoce badań zostały wykorzystane w komercyjnie dostępnym oprogramowaniu.

(2)

Challenges in Speech Recognition Industry: Data Collection, Text

Normalization and Punctuation Modelling

This thesis investigates several approaches to building an automatic speech recognition system with an application-oriented focus. Three major hypotheses are being investigated. The first one is that a careful design of an automated annotated recording collection process provides superior data for acoustic model training compared to existing Polish corpora. The second relates to text normalization for language model preparation and states that a substantial number of abbreviations in strongly inflected languages can be expanded to their full, morphologically correct forms with an application of a recurrent neural network model which predicts based only on the morphosyntactic features of a sentence. The last main point is that punctuation can be restored in transcripts of conversational speech by means of deep neural network models and word timing features, where the model processes both sides of the conversation at once. The thesis starts with a discussion of existing Polish recording datasets, the processes and tools used to prepare new, domain-specific ones, as well as results of the trained system evaluation. Next, a description of research on text normalization and conversational punctuation prediction is presented. The results of this thesis have been successfully implemented as part of commercially available systems.

Cytaty

Powiązane dokumenty

Zanim dotarło do nas, co się stało, dyrektor podniósł się z szybkością nastolatka i stał już na równych nogach – patrzył na nas, czy ktoś odważy się zaśmiać..

Tarnowski praw ił jeszcze tylko z tradycyi, nazyw ając go „osobliw szym pom ysłem “, przekład bardzo ciekaw y i doskonały dowód tęgiej znajomości łaciny u

A method is described for the synthesis of a dynamical niodel of a linear systena based on the use of orthonormal functions. It is shown that if the nominal va ues of all poles of

die Arbeiten von Fe-i ndt. Bei einern starken Druckgefdlle von m 1 erhielt Kraemer einer Wert von etwa 700, wobei sich hier die Stromung nach ciner gewissen Lauflange

The key problem of this analysis can be found in the traffic intensity prediction, for all junctions of the network graph’s edges description, using the

Fill- in proof sheet 6 on the CD-ROM, ‘Remainder theorem’, shows you that the same reasoning can be applied when dividing any polynomial by a linear factor.. Th is leads us to

Osłabły zatem — choć w nierównym stopniu — wszystkie cechy czyniące w poprzednim okre­ sie ze świadomości rewolucyjnej formę świadomości społecznej, zaczął się proces

Speci fically, I present results of several experiments carried out on both human listeners and DNN-based ASR systems on the representation of speech and lexically-guided