Rozprawa przedstawia zastosowanie dyskretnej transformacji falkowej do nierównomiernej segmentacji oraz parametryzacji sygnału mowy polskiej dla celów jej automatycznego rozpoznawania.
Segmentacja nierównomierna jest coraz częściej stosowanym sposobem porcjowania sygnału mowy zgodnie z jego strukturą akustyczną. W dwóch zaproponowanych algorytmach sygnał poddawany jest analizie widmowej za pomocą dyskretnej dekompozycji falkowej. W pierwszym z proponowanych algorytmów ekstrahowany jest wskaźnik zmienności widma, który służy do wyznaczenia brzegów między atomami akustycznymi sygnału. Drugi algorytm polega na wygenerowaniu dyskretnej funkcji zdarzeń widmowych, które wskazują na brzegi segmentów.
Parametryzacja sygnału realizowana jest za pomocą dyskretnej dekompozycji falkowej. Najlepsza baza (drzewo) dekompozycji wyznaczana jest za pomocą nowego algorytmu Mean Best Basis oraz nowego wskaźnika koncentracji widma w dziedzinie transformacji falkowo-kosinusowej.
Jakość zaproponowanych rozwiązań zmierzona została za pomocą systemu rozpoznawania fonemów na zbiorze mowy polskiej Corpora'97. Jako kryteria jakości posłużyły m. in. wskaźnik nad- i podsegmentacji, liczba rozpoznanych fonemów (PRR, ang. Phone Recognition Rate, PRA, ang. Phone Accuracy Rate) otrzymane za pomocą klasyfikatora k-NN oraz modelowania HMM.
"Optimization of signal parameterization for Polish speech recognition"
This thesis presents the use of discrete wavelet transform to non-uniform segmentation and parameterization of Polish speech signal, for recognition systems. Non-uniform segmentation is used for extraction of acoustically uniform sub-word units from speech. Both proposed segmentation methods base on discrete wavelet spectral analysis. First one is used for extraction of spectral rate-of-change function which is then used for segment borders' detection. The second of the algorithms is based on extraction of the event-detection function from the discrete wavelet spectrum of the speech signal. Those events indicate segment borders. Signal parameterization is performed with the use of discrete wavelet decomposition. Best decomposition base (tree) is selected with a new Mean Best Basis algorithm and a new-designed cost function, applied for measuring the concentration of the wavelet-cosine spectrum. Efficacy of proposed methods was evaluated with the use of phone-recognition system and Polish speech corpus -Corpora'97. Segment insertion and deletion rates, and phone recognition rate (PRR) were used as the most important efficacy indicators. Results were obtained with k-NN and HMM classifiers.