Index of /rozprawy2/11076

(1)

W niniejszej pracy przedstawione zostały najważniejsze możliwości zastosowania matryc wielomikrofonowych w technologii mowy, a w szczególności w zakresie rozpoznawania mówcy. Głównym aspektem badawczym było rozwinięcie stosowanych obecnie systemów diaryzacji nagrań opartych o jednoczesne wykorzystanie informacji bazującej na cechach częstotliwościowych (MFCC) i na położeniu mówcy (TDOA). Nowością nie opisaną dotychczas w literaturze jest zastosowanie dynamicznego doboru proporcji pomiędzy strumieniami informacji w zależności od aktualnych warunków akustycznych. Praca posiada rozbudowaną część doświadczalną, w której opracowane algorytmy zostały przetestowane na korpusie zawierającym rzeczywiste nagrania. Zaprezentowane wyniki pokazują, że zastosowanie dynamicznych wag pomiędzy strumieniami pozwala na obniżenie ilości błędnie opisanych ramek (DER) nawet o 30% w stosunku do systemu ze stałą proporcją. Praca zawiera również porównanie wyników uzyskanych za pomocą opracowanego rozwiązania z opisanymi wcześniej w literaturze.

(2)

This PhD thesis in the field of speech technology presents the possibilities of employing multi- microphone matrices for automatic speaker recognition. The primary research is an extension of currently used speaker diarization systems. Such

systems employ simultaneous use of information based on the frequency characteristics (MFCC) and the positioning of the speaker (TDOA). The new element to be presented is the use of dynamically selected proportions between information streams according to various acoustic conditions. The work contains an extensive experimental part in which the algorithms were tested on a corpus containing natural live recordings. The presented results demonstrate how the use of a dynamic ratio of the streams lowers the decrease error rate (DER) by as much as 30% when compared to static proportion systems. The work also contains a comparison of the results obtained through the use of the designed multi-microphone matrices with the results of previously published literature.