ZASTOSOWANIE PARAMETRYZACJI MIESZNEJ W SYSTEMIE ROZPOZNAWANIA MOWY POLSKIEJ

(1)

Sebastian Wydra

Instytut Radioelektroniki Politechniki Warszawskiej

ul. Nowowiejska 15/19, 00-665 Warszawa

e-mail:

swydra@ire.pw.edu.pl

ZASTOSOWANIE PARAMETRYZACJI MIESZNEJ W SYSTEMIE

ROZPOZNAWANIA MOWY POLSKIEJ

Streszczenie: W niniejszym referacie zaprezentowano

automatyczny system rozpoznawania komend języka polskiego z wykorzystaniem ukrytych modeli Markowa. Zaproponowano mieszany sposób parametryzacji wejściowego sygnału mowy oparty na współczynnikach klasyfikujących głoski. Zaprezentowano wyniki badań eksperymentalnych jakości rozpoznawania komend dla sygnału nieprzetworzonego oraz dla sygnału kodowanego w standardzie GSM-EFR 12,2kbit/s w zależności od rodzaju parametryzacji sygnału.

1. WSTĘP

Celem pracy było utworzenie automatycznego systemu rozpoznawania komend języka polskiego. W pracy zaprezentowano implementację systemu opartego na rozpoznawaniu izolowanych słów niezależnie od osoby mówcy. Zastosowano metodę modelowania statystycznego komend za pomocą ciągłych ukrytych modeli Markowa (CHMM – ang. Continuous Hidden Markov Models).

Do tworzenia modeli i badań jakości rozpoznawania wykorzystano zasób mowy ROBOT utworzony w Instytucie Automatyki i Robotyki WAT. Zasób zawiera wypowiedzi 30 mówców w postaci sygnału mowy o jakości 22kHz/16bitów. Jako elementy słownika sterującego (zbioru komend do rozpoznawania) wybrano 10 cyfr od 0 do 9 oraz 10 poleceń (Start, Stop, Lewo, Prawo, Góra, Dół, Puść, Złap, Oś, Chwytak).

Całość zrealizowana została w środowisku Matlab z wykorzystaniem ogólnodostępnych narzędzi oraz bibliotek [1-3].

2. UKRYTE MODELE MARKOWA Ukryte modele Markowa wykorzystywane są do modelowania procesów [4,5], które ze swej natury nie są całkowicie obserwowalne [6,7]. Procesy tego typu są reprezentowane jedynie przez sekwencje generowanych obserwacji, bez znajomości wewnętrznych stanów procesu. Sekwencje stanów w modelu HMM mogą być zaobserwowane jedynie poprzez stochastyczny proces emisji obserwacji zdefiniowany w każdym stanie.

Układ będąc w danym stanie emituje jedną z możliwych obserwacji ot z prawdopodobieństwem bj(ot):

. (1) N ,... j ), j q | o ( P ) o ( b_j _t = _t _t = =1

Generacja losowej sekwencji O = o1, o2,... oT jest rezultatem jednorazowego przejścia po stanach modelu (generacji losowej sekwencji stanów Q = {q1, q2,... qT}).

Sekwencja stanów Q = {q1, q2,... qT}, gdzie qt∈{1, 2,...N} zależna jest od prawdopodobieństw przejść pomiędzy stanami, zdefiniowaną jako:

(2) , N ,... j , i ), i q | j q ( P aij= t = t−1= =1

która dla {i, j}∈{1, 2,...N} podaje prawdopodobieństwo aij przejścia ze stanu i do stanu j.

Tak zdefiniowany proces Markowa tworzy model opisujący pewien układ, który w każdym momencie może znajdować się tylko w jednym ze stanów qt∈{1, 2,...N}. Układ ten obserwujemy w dyskretnych chwilach czasowych t = 1,...T. Jeśli w danym momencie t układ znajduje się w stanie i, to w momencie t+1 przechodzi on do stanu j z prawdopodobieństwem aij niezależnie od chwili czasowej t oraz stanów poprzednich. Proces startuje z jednego ze stanów zgodnie z rozkładem początkowym zdefiniowanym w postaci: , N ,... i ), i q ( P i= 1= =1 π (3)

który określa prawdopodobieństwo rozpoczęcia procesu od stanu i. Każdy model HMM można zapisać

jednoznacznie w sposób zwarty jako λ (A, B, π), gdzie

macierz przejść A = [aij], macierz wyjść B = [bj(ot)] oraz

wektor początkowy π= (π1, π2,... πΤ), nazywa się

parametrami modelu.

W automatycznym rozpoznawaniu mowy stosowane są najszerzej ze względu na postać sygnału mowy modele HMM, w których wyjściowe rozkłady prawdopodobieństw są ciągłe [6]. W najprostszym ciągłym modelu HMM rozkład wyjściowy dla i-tego stanu ma postać wielowymiarowej gaussowskiej funkcji gęstości:

( )

exp

(

o

)

(

o

)

, ) o ( b _t _i _i _t _i i n t i ⎥⎦ ⎤ ⎢⎣ ⎡₋ ₋ ′_Σ ₋ Σ = _µ − _µ π 1 2 1 2 1 (4)

gdzie n jest wymiarem wektora obserwacji ot, a każdy

stan w modelu charakteryzowany jest przez wektorową

wartość średnią µi oraz macierz kowariancji Σi.

3. ROZPOZNAWANIE MOWY

Ukryte modele Markowa wykorzystywane są do modelowania ciągów czasowych, w szczególności

sygnałów mowy [4]. Obserwacja ot jest wynikiem

przetwarzania sygnału mowy zawartego w jednej ramce. Charakterystyki długookresowe sekwencji dźwięków reprezentowane są przez sekwencję następujących po

sobie obserwacji O = o1, o2,... oT. Obserwacja jest

wektorem, którego składowymi są współczynniki

2006

Poznańskie Warsztaty Telekomunikacyjne

(2)

parameryzacji. Obydwie fazy modelowania stochastycznego krótko- i długookresowa realizowane są w praktyce najczęściej za pomocą ukrytych modeli Markowa.

Dla danej sekwencji obserwacji O = o1, o2,... oT,

pozyskanej z rozpoznawanego sygnału mowy, system rozpoznawania wyznacza najbardziej prawdopodobną

wypowiedź wˆ. Polega to na poszukiwaniu takiej

wypowiedzi wi ze zbioru wszystkich dopuszczalnych

wypowiedzi, która maksymalizuje prawdopodobieństwo

P(wi|O) liczone zgodnie z regułą Bayesa [4,6]:

, ) O ( P ) i w | O ( P ) i w ( P i max arg ) O | i w ( P i max arg wˆ = = (5)

gdzie P(wi) to prawdopodobieństwo a priori wystąpienia

i-tej wypowiedzi, znane dla zadanego modelu języka,

a P(O|wi) to prawdopodobieństwo warunkowe

wystąpienia sekwencji obserwacji O = o1, o2,... oT dla

zadanej i-tej wypowiedzi, znane dla danego sposobu generowania obserwacji czyli modelu akustycznego mowy.

Zadanie budowania modelu akustycznego mowy

polega na utworzeniu dla każdej wypowiedzi wi

(komendy ze słownika) oddzielnego modelu

statystycznego λi. W procesie tworzenia modelu λi

zwanym uczeniem lub treningiem, wykorzystuje się sekwencje obserwacji pozyskane z różnych powtórzeń

wypowiedzi wi. Utworzony model λi jest generatorem

obserwacji ot, których podobieństwo (w sensie

odległości średniokwadratowej) do obserwacji

pozyskanych

z zadanej wypowiedzi wi jest sposobem zdefiniowania,

zamodelowania tej wypowiedzi. Dla otrzymanego zbioru

modeli {λi}, utworzonych dla wszystkich komend ze

słownika, zadanie znajdowania najbardziej

prawdopodobnej wypowiedzi wˆ_{rozwiązuje się}

zastępując prawdopodobieństwo pozyskania sekwencji

obserwacji z zadanej wypowiedzi wi,

prawdopodobieństwem wygenerowania tej sekwencji

przez odpowiadający mu model λi:

), i | O ( P ) i w | O ( P = λ (6)

gdzie P(O|λi) jest prawdopodobieństwem

wygenerowania sekwencji obserwacji O = o1, o2,... oT

przez i-ty model. W ten sposób najbardziej

prawdopodobną wypowiedź wˆ_{możemy jednoznacznie}

określić poprzez wyznaczenie takiego modelu λi, który

z największym prawdopodobieństwem generuje zadaną

sekwencję obserwacji O = o1, o2,... oT, a więc

sprowadzić równanie (5) do postaci (7), przy założeniu jednakowego prawdopodobieństwa wystąpienia każdej

wypowiedzi wi: ). | O ( P max arg wˆ _i i λ = (7)

Każdy z systemów automatycznego rozpoznawania mowy musi spełniać dwie podstawowe funkcje przedstawione poniżej:

3.1. Trening

Jest to proces estymacji parametrów zbioru modeli HMM za pomocą wypowiedzi uczących. Polega na

iteracyjnej zmianie parametrów modelu (A, B, π) w taki

sposób, aby otrzymać jak największe prawdopodobieństwo generacji obserwacji wyekstrahowanych z wypowiedzi uczących. Najczęściej stosuje się w tym celu metodę reestymacji Bauma-Welcha implementowaną jako algorytm EM (ang.

Expectation-Maximization) [7]. Metoda ta umożliwia

stopniowe dopasowywanie modelu do ciągu obserwacji. Dla wszystkich wypowiedzi uczących algorytm

poszukuje lepszych wartości parametrów modelu λˆ , aż

prawdopodobieństwo generacji obserwacji osiągnie swoje maksimum.

3.2. Rozpoznawanie

Rozpoznawanie polega na wyznaczaniu właściwej wypowiedzi ze zbioru możliwych wypowiedzi. Polega na szukaniu najbardziej prawdopodobnego modelu (odpowiadającego mu ciągu stanów), który doprowadził do wyemitowania zaobserwowanych symboli. Najczęściej stosuje się w tym celu algorytm Viterbiego [7], który polega na rekurencyjnym wyznaczaniu

największego prawdopodobieństwa łącznego P(Q,O|λ)

wyemitowania ciągu obserwacji o1, o2,... ot-1, ot wzdłuż

trajektorii osiągającej w chwili t stan i. Algorytm zwraca ciąg stanów określający największe prawdopodobieństwo wyemitowania zadanego ciągu

obserwacji O = o1, o2,... oT.

4. IMPLEMENTACJA

Prezentowany system wykonany został jako program realizujący algorytm rozpoznawania izolowanych słów, oparty na ciągłych ukrytych modelach Markowa. Program umożliwia tworzenie własnego słownika komend sterujących – słów, haseł przeznaczonych do rozpoznawania oraz badanie jakości rozpoznawania. Posiadany zasób mowy ROBOT podzielono na zbiór uczący oraz zbiór rozpoznawany. W procesie treningowym każdą wypowiedź ze zbioru uczącego przetworzono i sparametryzowano w postaci sekwencji wektorów zawierających 42 współczynniki. Następnie każdy wektor potraktowano jako obserwację i wykorzystano do budowy modeli CHMM, oddzielnie dla każdej komendy.

Proces tworzenia obserwacji składał się z kilku etapów. Pierwszym z nich było poddanie wejściowego sygnału mowy preemfazie, aby wyeliminować szum tła oraz wzmocnić składniki wyższych częstotliwości. W tym celu wykorzystany został filtr górnoprzepustowy 1 rzędu o współczynniku 0,97. Drugim etapem było usunięcie fragmentów ciszy na początku i na końcu wypowiedzi. W tym celu dokonano określenia początku i końca wypowiadanego słowa. Różne wypowiedzi tej samej komendy znacznie różnią się między czasem trwania, natężeniem mowy oraz wymową, co znacznie utrudnia automatyczne określanie zakresu wypowiedzi. Prawidłowe wyznaczenie rzeczywistego zakresu sygnału wypowiedzi do dalszego przetwarzania determinuje poziom otrzymywanych wyników rozpoznawania. W niniejszej pracy detekcja odbywała się na zasadzie energetycznej, sygnał przed pierwszą oraz za ostatnią ramką przekraczającą zadany próg detekcji był

(3)

traktowany jako cisza i odrzucany. Dalszym krokiem było kształtowanie każdej 23ms ramki (co odpowiada 512 próbkom sygnału próbkowanego z częstotliwością 22kHz) oknem Hamminga. Ramkę 23ms, przyjęto jako kompromis pomiędzy rozdzielczością widma proporcjonalną do długości okna oraz zachowaniem krótkookresowej quasi-stacjonarności sygnału mowy.

Kolejnym etapem było wyekstrahowanie widmowych współczynników mel-cepstrum (MFCC – ang. Mel Frequency Cepstral Coefficients). Procedura obliczania MFCC polega na przefiltrowaniu sygnału mowy z użyciem filtrów pasmowych o szerokości 300 meli. Środkowe częstotliwości są oddalone o 150 meli, co prowadzi do nakładania się charakterystyk częstotliwościowych filtrów. Dla każdego pasma obliczano logarytm spektrum mocy, tworząc sekwencję wartości. Poprzez obliczenie dyskretnej transformaty kosinusowej DCT otrzymanej sekwencji uzyskano 13 współczynników cepstrum w skali melowej dla każdej ramki. Wartość energii w każdej ramce stanowi dodatkowy współczynnik. Pochodne wszystkich współczynników oraz ich drugie pochodne dopełniają wektor 42 parametrów MFCC. W dalszej części referatu ten sposób parametryzacji określano jako 42mel.

Dodatkowo zaproponowano parametryzację mieszaną składającą się z 10 współczynników mel-cepstrum, energii oraz 3 współczynników klasyfikujących głoski, które wraz z pierwszymi i drugimi pochodnymi tworzyły wektor parametryzacji opisywanej jako 33p9. Jako współczynniki klasyfikujące głoski użyto predykcyjność, dolnopasmowość oraz znormalizowane maksimum autokorelacji.

Znormalizowane maksimum autokorelacji rmax

wyznaczano zgodnie z równaniem:

, R R r max max 0 = (8)

gdzie R0 współczynnik autokorelacji (energia) w zerze

sygnału błędu predykcji przepuszczonego przez filtr dolnopasmowy o częstotliwości granicznej 1kHz oraz

Rmax maksimum autokorelacji sygnału w zakresie

zmienności okresu tonu krtaniowego (2ms–20ms).

Dolnopasmowość Llp określa zawartość

składowych niskoczęstotliwościowych w sygnale: , E E L sig lp lp = (9)

gdzie Elp moc sygnału wejściowego odfiltrowanego

dolnopasmowo (0–1 kHz), natomiast Esig określa moc

sygnału w obrębie ramki ekstraktora.

Predykcyjność Lres pozwala określić stopień

odtwarzalności sygnału na podstawie jego przeszłości:

, E E L sig res res= (10)

gdzie Eres moc sygnału błędu predykcji.

Powyższe trzy parametry mają największe znaczenie dla poprawności dyskryminacji ramek sygnału mowy na następujące klasy: mowa bezdźwięczna o charakterze szumowym, mowa bezdźwięczna o charakterze plozyjnym, mowa słabo dźwięczna, mowa silnie dźwięczna [9].

W procesie treningu, na podstawie wypowiedzi ze zbioru uczącego utworzono ergodyczne modele CHMM. Procedura tworzenia modeli CHMM wykonana została metodą Bauma-Welcha dla każdej komendy słownika. W ten sposób uzyskano oddzielne modele dla wszystkich słów. W badaniach wykorzystywano modele o stałej liczbie stanów od 3 do 8 oraz zaproponowano użycie modelu o zmiennej liczbie stanów zależnej od długości modelowanej komendy. Ostatnim etapem było rozpoznawanie zadanego słowa. W tym celu wykorzystano algorytm Viterbiego poszukujący największego prawdopodobieństwa generacji obserwacji, pochodzącej z wypowiedzi zadanego słowa, dla wszystkich modeli.

5. WYNIKI BADAŃ

Zgodnie z założeniami uruchomiono system automatycznego rozpoznawania słów izolowanych z wykorzystaniem ciągłych ukrytych modeli Markowa. System wytrenowano z wykorzystaniem 90 powtórzeń wypowiedzi każdej z 20 komend pochodzących od 16 mówców. Następnie przeprowadzono badania jakości rozpoznawania komend sterujących dla sygnału mowy o różnej jakości. Każdy z eksperymentów polegał na rozpoznaniu 50 wypowiedzi poszczególnych komend sterujących pochodzących od 10 osób, które nie uczestniczyły w procesie uczenia. Wszystkie wyniki przedstawione w poniższych tabelach są uśrednionymi wartościami podawanymi w procentach.

Pierwsza część eksperymentu polegała na badaniu jakości rozpoznawania komend sterujących dla sygnału mowy oryginalnej o jakości 22kHz/16bit. Wyniki rozpoznawania komend o jakości mowy nieprzetworzonej dla różnej liczby stanów w modelu CHMM oraz parametryzacji 42mel przedstawiono w Tab. 1, natomiast wyniki dla parametryzacji mieszanej 33p9 przedstawiono w Tab. 2. Porównania wyników dla obu sposobów parametryzacji przedstawiono na Rys. 1 i Rys. 2. W badaniu wykorzystano stałą liczbę stanów dla wszystkich modeli komend (od 3 do 8 stanów na model) oraz zmienną liczbę stanów w zależności od komendy równą liczbie fonemów w modelowanej

komendzie. Symbol Q3 oznacza 3-stanowy model

CHMM, odpowiednio Q4 oznacza model 4-stanowy itd.

Natomiast model CHMM o zmiennej liczbie stanów

oznaczono jako QF. Najlepszą średnią jakość

rozpoznawania dla sygnału oryginalnego 22kHz/16bit otrzymano dla stałego modelowania n-stanowego

otrzymano dla Q4 i wyniosła ona ponad 93,4%. Rezultat

gorszy o 0,8% otrzymano dla modelu o 3 stanach. Dla modeli o większej liczbie stanów niż 4 obserwujemy pogorszenie się jakości rozpoznawania i tak dla modelowania 7 oraz 8-stanowego rozpoznawanie spada poniżej 90%. W wyniku wprowadzenia modelowania o

zmiennej licznie stanów QF uzyskano zwiększenie

jakości rozpoznawania o 2% osiągając wartość 95,4%. Zmienna struktura modelowania pozwoliła znacznie zwiększyć rozpoznawanie szczególnie dla komend „Pięć” oraz „Oś”, które dla modelowania n-stanowego były mylone z komendami odpowiednio „Dziewięć” oraz „Osiem”.

(4)

Tab. 1. Jakość rozpoznawania sygnału nieprzetworzonego dla parametryzacji 42mel.

Zero Jede

n

Dwa Trzy Cztery Pięć Sz

eść S ied em Osiem Dziewi ęć Star t

Stop Lewo Prawo Góra Dó

ł Pu ść Z łap O ś Chwytak średnia QF 94 82 90 98 98 96 98 100 100 86 98 92 96 94 98 96 98 98 96 100 95,4 Q3 90 94 76 98 98 46 96 96 100 100 100 84 98 92 100 98 98 100 88 100 92,6 Q4 94 92 64 98 98 66 96 100 100 100 98 88 98 98 100 98 100 98 82 100 93,4 Q5 96 92 78 100 98 50 98 98 100 100 92 90 98 96 100 98 100 100 54 100 91,9 Q6 96 76 94 92 98 24 96 100 100 100 96 86 94 96 100 98 100 100 58 100 90,2 Q7 94 88 76 94 98 30 100 98 100 98 90 84 92 98 98 98 92 98 34 100 88,0 Q8 90 76 78 84 98 38 100 98 100 98 100 88 98 92 98 98 88 100 26 100 87,4

Tab. 2. Jakość rozpoznawania nieprzetworzonego dla parametryzacji 33p9.

Zero Je

de

n

Dwa Trzy Cztery Pięć Sz

eść S ied em Osiem Dziewi ęć Star t

Stop Lewo Prawo Góra Dó

ł Pu ść Z łap O ś Chwytak średnia QF 94 98 100 100 100 98 98 96 100 100 94 92 98 96 96 98 98 96 98 100 97,5 Q3 94 96 92 100 98 68 96 98 98 100 94 86 98 100 100 98 98 100 92 100 95,3 Q4 94 98 88 100 100 68 96 100 100 100 92 90 98 94 98 98 94 100 90 100 94,9 Q5 94 90 92 100 98 58 96 100 98 100 98 86 98 94 100 98 100 100 66 100 93,3 Q6 94 72 84 92 98 66 96 100 98 100 100 84 98 94 98 96 96 98 82 100 92,3 Q7 94 86 82 100 96 64 98 100 100 100 100 84 96 96 98 96 100 100 86 100 93,8 Q8 94 84 88 98 98 58 98 100 100 100 100 88 98 90 98 98 100 96 58 100 92,2

W wyniku wprowadzenia mieszanego sposobu parametryzacji 33p9 z wykorzystaniem współczynników

klasyfikacji głosek zwiększyło średnią jakość

rozpoznawania sygnału nieprzetworzonego dla wszystkich sposobów modelowania. Wśród n-stanowych

modeli najwyższą jakość otrzymano dla Q3 osiągając

wynik 95,3% oraz nieznacznie mniej 94,9% dla Q4.

Niewiele gorsze wyniki otrzymano również dla modeli o większej liczbie stanów. Wprowadzenie modelowania

o zmiennej licznie stanów QF zwiększyło jakość do

wartości 97,5%, co stanowi o 2,2% wyższą średnią jakość rozpoznawania w stosunku do najlepszego wyniku modelowania n-stanowego.

Na Rys. 1 można zaobserwować wzrost średniej jakości rozpoznawania osiągnięty w wyniku wprowadzenie mieszanego sposobu parametryzacji 33p9 w stosunku do klasycznej parametryzacji 42mel opartej jedynie na współczynnikach mel-cepstrum. Zwiększenie jakości rozpoznawania obserwujemy bez względu na sposób modelowania. Szczególnie duży wzrost jakości rozpoznawania otrzymano dla modelu 7-stanowego, bo aż o 5,8%. Również dla modelowania

8-stanowegootrzymano znaczny wzrost rozpoznawania

sięgający 4,8%. Po uśrednieniu poszczególnych wyników wzrost jakości dla wszystkich sposobów modelowania wyniósł 2,9%. QF Q3 Q4 Q5 Q6 Q7 Q8 80% 85% 90% 95% 100%

Rozpoznawanie dla sygnału nieprzetworzonego

42mel 33p9 Rodzaj modelowania Ja k o ść r o zp o znaw an ia

(5)

Na Rys. 2 przedstawiono wyniki jakości rozpoznawania poszczególnych komend sygnału oryginalnego dla modelowania o zmiennej liczbie stanów, równej liczbie fonemów opisywanej komendy

QF, w zależności od rodzaju zastosowanej

parametryzacji. Wprowadzenie parametryzacji 33p9

spowodowało zwiększenie średniej jakości

rozpoznawania dla modelowania QF o 2,1% w stosunku

do parametryzacji 42mel. W rozbiciu na poszczególne

komendy na szczególną uwagę zasługuje wzrost o 16% jakości rozpoznawania komendy „Jeden”, o 14% komendy „Dziewięć” oraz o 10% komendy „Dwa”. Jedynie dla 4 komend otrzymano pogorszenie rozpoznawania, z czego w dwu przypadkach wyniosło ono 4%, a w pozostałych dwóch 2%. Najsłabsze rozpoznawanie 92% dla parametryzacji 33p9 otrzymano dla komendy „Stop”. Pożądane jest znalezienie i zaproponowanie sposobu na zwiększenie tego wyniku.

Ze ro J e den _Dw a Tr zy Cz te ry Pi ęć Sz e ść S ied em Os ie m Dz ie w ięć St ar t St o p Le w o Pr aw o Gó ra Dó ł Pu ść Z łap Oś Ch w y ta k 80% 85% 90% 95% 100%

Rozpoznawanie poszczególnych komend

42mel 33p9 Rozpoznawane komendy Ja k o ść r o zp oz na wa nia

Rys. 2. Jakość rozpoznawania poszczególnych komend sygnału nieprzetworzonego dla modelowania QF. Drugi eksperyment polegał na badaniu jakości

rozpoznawania mowy kodowanej w standardzie GSM-EFR (AMR12.2). Średnią jakość rozpoznawania komend sterujących kodowanych algorytmem EFR

o przepływności 12,2kbit/s przedstawiono w Tab. 3 oraz na Rys. 3. Badanie jakości rozpoznawania komend w zależności od stopnia kompresji sygnału oraz standardu kodowania zawarto w artykułach [10, 11].

Tab. 3. Jakość rozpoznawania komend dla sygnału kodowanego AMR12.2.

QF Q3 Q4 Q5 Q6 Q7 Q8 42mel 94,5 93,4 92,8 91,3 87,2 88,1 88,6 33p9 95,5 94,0 95,3 95,8 92,9 94,3 92,5 QF Q3 Q4 Q5 Q6 Q7 Q8 80% 85% 90% 95% 100%

Rozpoznawanie dla sygnału kodowanego AMR12.2

42mel 33p9 Rodzaj modelownia Ja ko ść r o zp oz na wa ni a QF Q3 Q4 Q5 Q6 Q7 Q8 80% 85% 90% 95% 100%

Rozpoznawanie dla sygnału kodowanego AMR12.2

42mel 33p9 Rodzaj modelownia Ja ko ść r o zp oz n a wani a

Rys. 3. Jakość rozpoznawania komend dla sygnału kodowanego AMR12.2.

Dla parametryzacji 42mel najlepszą jakość rozpoznawania otrzymano dla modelowania

o zmiennej licznie stanów QF osiągając rezultat 94,5%.

Wynik ten był o 1,1% wyższy niż otrzymany dla

najlepszego modelowania n-stanowego (Q3). Podobnie

(6)

stanów modelu obserwujemy widoczne pogorszenie rozpoznawania, wyniki poniżej 90%. Wprowadzenie parametryzacji 33p9 spowodowało wzrost rozpoznawania komend sygnału kodowanego w standardzie AMR12.2 dla wszystkich rodzajów modeli. Najwyższą średnią jakość rozpoznawania dla parametryzacji 33p9 na poziomie 95,8% otrzymano dla modelowania 5-stanowego. Porównywalny wynik otrzymano dla modelowania o zmiennej liczbie stanów

QF osiągając 95,5% oraz dla modelowania Q4 – 95,3%.

Jedynie dla modelowania 6-stanowego i 8-stanowego jakość rozpoznawania była niższa niż 93%. Dla modelowani 6-stanowego możemy zaobserwować największy wzrost rozpoznawania w stosunku do parametryzacji 42mel, bo aż o 5,7%.

6. PODSUMOWANIE

W pracy przedstawiono system automatycznego rozpoznawania izolowanych komend języka polskiego. Opisano sposób tworzenia kompletnego systemu rozpoznawania mowy z wykorzystaniem ciągłych ukrytych modeli Markowa, wskazując na ich użyteczność w zakresie modelowania mowy polskiej. Zaproponowano mieszany sposób parametryzacji wejściowego sygnału mowy z wykorzystaniem współczynników klasyfikujących głoski. W badaniach eksperymentalnych porównywano jakość rozpoznawania komend sterujących w zależności sposobu parametryzacji w zależności od rodzaju modelowania dla sygnału nieprzetworzonego oraz dla sygnału kodowanego w standardzie GSM-EFR. Pokazano, że średnia jakość rozpoznawania komend sparametryzowanych metodą mieszaną 33p9 w każdym przypadku jest wyższa od średniej jakości rozpoznawania otrzymanej dla klasycznego sposobu modelowania z wykorzystaniem 42 współczynników mel-cepstrum. Wykonane testy wykazały jednocześnie użyteczność modelowania o zmiennej liczbie stanów, szczególnie w przypadku rozróżnienia podobnie brzmiących komend, ale różniących się długością.

SPIS LITERATURY

[1] Mayer K., Hidden Markov Model Software, http://www.cs.berkeley.edu/~murphyk/Bayes/hmm.

[2] S. Krstulowić, Lab session 2: Introduction

to HMM, ftp.idiap.ch/pub/sacha/labs/Session2.tgz. [3] F. Kałuża, Automatyczne rozpoznawanie mowy,

http://helios.et.put.poznan.pl/~fkaluza/arm/.

[4] W. Kwiatkowski, Metody automatycznego

rozpoznawania wzorców, IAiR WAT,

Warszawa 2001.

[5] M. Iosifescu. Skończone procesy Markowa i ich

zastosowanie, PWN, Warszawa 1988.

[6] A. M. Wiśniewski, Automatyczne rozpoznawanie

mowy bazujące na ukrytych modelach Markowa – problemy i metody, Biul. IAiR WAT, nr 12, 2000.

[7] L. R. Rabiner, A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, Proc. of the IEEE, vol. 77, no. 2, Feb. 1989, pp. 257-286.

[8] S. Wydra, Badanie głosowego dostępu do bazy

danych dla języka polskiego poprzez łącze

telefoniczne, Krajowa Konferencja

Radiokomunikacji, Radiofonii i Telewizji 2005, Kraków, 15-17 czerwca 2005, s. 457-460.

[9] P. Dymarski, Predykcyjne i wektorowe metody

kompresji sygnału mowy. Prace naukowe,

Elektronika z. 141. Oficyna Wydawnicza Politechniki Warszawskiej, Warszawa 2002.

[10] S. Wydra, HMM-based Automatic Compressed

Speech Commands and Instruction Recognition System for Polish Language, Photonics

Applications in Astronomy, Communications, Industry, and High-Energy Physics Experiments IV, Proc. of SPIE, Vol. 6159, Feb. 2006.

[11] S. Wydra, Badanie jakości głosowego sterowania

bazą danych dla skompresowanego sygnału mowy,

Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji 2006, Poznań, 7-9 czerwca 2006.