Sebastian Wydra
Instytut Radioelektroniki Politechniki Warszawskiej
ul. Nowowiejska 15/19, 00-665 Warszawa
e-mail:
swydra@ire.pw.edu.pl
ZASTOSOWANIE PARAMETRYZACJI MIESZNEJ W SYSTEMIE
ROZPOZNAWANIA MOWY POLSKIEJ
Streszczenie: W niniejszym referacie zaprezentowano
automatyczny system rozpoznawania komend języka polskiego z wykorzystaniem ukrytych modeli Markowa. Zaproponowano mieszany sposób parametryzacji wejściowego sygnału mowy oparty na współczynnikach klasyfikujących głoski. Zaprezentowano wyniki badań eksperymentalnych jakości rozpoznawania komend dla sygnału nieprzetworzonego oraz dla sygnału kodowanego w standardzie GSM-EFR 12,2kbit/s w zależności od rodzaju parametryzacji sygnału.
1. WSTĘP
Celem pracy było utworzenie automatycznego systemu rozpoznawania komend języka polskiego. W pracy zaprezentowano implementację systemu opartego na rozpoznawaniu izolowanych słów niezależnie od osoby mówcy. Zastosowano metodę modelowania statystycznego komend za pomocą ciągłych ukrytych modeli Markowa (CHMM – ang. Continuous Hidden Markov Models).
Do tworzenia modeli i badań jakości rozpoznawania wykorzystano zasób mowy ROBOT utworzony w Instytucie Automatyki i Robotyki WAT. Zasób zawiera wypowiedzi 30 mówców w postaci sygnału mowy o jakości 22kHz/16bitów. Jako elementy słownika sterującego (zbioru komend do rozpoznawania) wybrano 10 cyfr od 0 do 9 oraz 10 poleceń (Start, Stop, Lewo, Prawo, Góra, Dół, Puść, Złap, Oś, Chwytak).
Całość zrealizowana została w środowisku Matlab z wykorzystaniem ogólnodostępnych narzędzi oraz bibliotek [1-3].
2. UKRYTE MODELE MARKOWA Ukryte modele Markowa wykorzystywane są do modelowania procesów [4,5], które ze swej natury nie są całkowicie obserwowalne [6,7]. Procesy tego typu są reprezentowane jedynie przez sekwencje generowanych obserwacji, bez znajomości wewnętrznych stanów procesu. Sekwencje stanów w modelu HMM mogą być zaobserwowane jedynie poprzez stochastyczny proces emisji obserwacji zdefiniowany w każdym stanie.
Układ będąc w danym stanie emituje jedną z możliwych obserwacji ot z prawdopodobieństwem bj(ot):
. (1) N ,... j ), j q | o ( P ) o ( bj t = t t = =1
Generacja losowej sekwencji O = o1, o2,... oT jest rezultatem jednorazowego przejścia po stanach modelu (generacji losowej sekwencji stanów Q = {q1, q2,... qT}).
Sekwencja stanów Q = {q1, q2,... qT}, gdzie qt∈{1, 2,...N} zależna jest od prawdopodobieństw przejść pomiędzy stanami, zdefiniowaną jako:
(2) , N ,... j , i ), i q | j q ( P aij= t = t−1= =1
która dla {i, j}∈{1, 2,...N} podaje prawdopodobieństwo aij przejścia ze stanu i do stanu j.
Tak zdefiniowany proces Markowa tworzy model opisujący pewien układ, który w każdym momencie może znajdować się tylko w jednym ze stanów qt∈{1, 2,...N}. Układ ten obserwujemy w dyskretnych chwilach czasowych t = 1,...T. Jeśli w danym momencie t układ znajduje się w stanie i, to w momencie t+1 przechodzi on do stanu j z prawdopodobieństwem aij niezależnie od chwili czasowej t oraz stanów poprzednich. Proces startuje z jednego ze stanów zgodnie z rozkładem początkowym zdefiniowanym w postaci: , N ,... i ), i q ( P i= 1= =1 π (3)
który określa prawdopodobieństwo rozpoczęcia procesu od stanu i. Każdy model HMM można zapisać
jednoznacznie w sposób zwarty jako λ (A, B, π), gdzie
macierz przejść A = [aij], macierz wyjść B = [bj(ot)] oraz
wektor początkowy π= (π1, π2,... πΤ), nazywa się
parametrami modelu.
W automatycznym rozpoznawaniu mowy stosowane są najszerzej ze względu na postać sygnału mowy modele HMM, w których wyjściowe rozkłady prawdopodobieństw są ciągłe [6]. W najprostszym ciągłym modelu HMM rozkład wyjściowy dla i-tego stanu ma postać wielowymiarowej gaussowskiej funkcji gęstości:
( )
exp(
o)
(
o)
, ) o ( b t i i t i i n t i ⎥⎦ ⎤ ⎢⎣ ⎡− − ′Σ − Σ = µ − µ π 1 2 1 2 1 (4)gdzie n jest wymiarem wektora obserwacji ot, a każdy
stan w modelu charakteryzowany jest przez wektorową
wartość średnią µi oraz macierz kowariancji Σi.
3. ROZPOZNAWANIE MOWY
Ukryte modele Markowa wykorzystywane są do modelowania ciągów czasowych, w szczególności
sygnałów mowy [4]. Obserwacja ot jest wynikiem
przetwarzania sygnału mowy zawartego w jednej ramce. Charakterystyki długookresowe sekwencji dźwięków reprezentowane są przez sekwencję następujących po
sobie obserwacji O = o1, o2,... oT. Obserwacja jest
wektorem, którego składowymi są współczynniki
2006
Poznańskie Warsztaty Telekomunikacyjneparameryzacji. Obydwie fazy modelowania stochastycznego krótko- i długookresowa realizowane są w praktyce najczęściej za pomocą ukrytych modeli Markowa.
Dla danej sekwencji obserwacji O = o1, o2,... oT,
pozyskanej z rozpoznawanego sygnału mowy, system rozpoznawania wyznacza najbardziej prawdopodobną
wypowiedź wˆ. Polega to na poszukiwaniu takiej
wypowiedzi wi ze zbioru wszystkich dopuszczalnych
wypowiedzi, która maksymalizuje prawdopodobieństwo
P(wi|O) liczone zgodnie z regułą Bayesa [4,6]:
, ) O ( P ) i w | O ( P ) i w ( P i max arg ) O | i w ( P i max arg wˆ = = (5)
gdzie P(wi) to prawdopodobieństwo a priori wystąpienia
i-tej wypowiedzi, znane dla zadanego modelu języka,
a P(O|wi) to prawdopodobieństwo warunkowe
wystąpienia sekwencji obserwacji O = o1, o2,... oT dla
zadanej i-tej wypowiedzi, znane dla danego sposobu generowania obserwacji czyli modelu akustycznego mowy.
Zadanie budowania modelu akustycznego mowy
polega na utworzeniu dla każdej wypowiedzi wi
(komendy ze słownika) oddzielnego modelu
statystycznego λi. W procesie tworzenia modelu λi
zwanym uczeniem lub treningiem, wykorzystuje się sekwencje obserwacji pozyskane z różnych powtórzeń
wypowiedzi wi. Utworzony model λi jest generatorem
obserwacji ot, których podobieństwo (w sensie
odległości średniokwadratowej) do obserwacji
pozyskanych
z zadanej wypowiedzi wi jest sposobem zdefiniowania,
zamodelowania tej wypowiedzi. Dla otrzymanego zbioru
modeli {λi}, utworzonych dla wszystkich komend ze
słownika, zadanie znajdowania najbardziej
prawdopodobnej wypowiedzi wˆ rozwiązuje się
zastępując prawdopodobieństwo pozyskania sekwencji
obserwacji z zadanej wypowiedzi wi,
prawdopodobieństwem wygenerowania tej sekwencji
przez odpowiadający mu model λi:
), i | O ( P ) i w | O ( P = λ (6)
gdzie P(O|λi) jest prawdopodobieństwem
wygenerowania sekwencji obserwacji O = o1, o2,... oT
przez i-ty model. W ten sposób najbardziej
prawdopodobną wypowiedź wˆ możemy jednoznacznie
określić poprzez wyznaczenie takiego modelu λi, który
z największym prawdopodobieństwem generuje zadaną
sekwencję obserwacji O = o1, o2,... oT, a więc
sprowadzić równanie (5) do postaci (7), przy założeniu jednakowego prawdopodobieństwa wystąpienia każdej
wypowiedzi wi: ). | O ( P max arg wˆ i i λ = (7)
Każdy z systemów automatycznego rozpoznawania mowy musi spełniać dwie podstawowe funkcje przedstawione poniżej:
3.1. Trening
Jest to proces estymacji parametrów zbioru modeli HMM za pomocą wypowiedzi uczących. Polega na
iteracyjnej zmianie parametrów modelu (A, B, π) w taki
sposób, aby otrzymać jak największe prawdopodobieństwo generacji obserwacji wyekstrahowanych z wypowiedzi uczących. Najczęściej stosuje się w tym celu metodę reestymacji Bauma-Welcha implementowaną jako algorytm EM (ang.
Expectation-Maximization) [7]. Metoda ta umożliwia
stopniowe dopasowywanie modelu do ciągu obserwacji. Dla wszystkich wypowiedzi uczących algorytm
poszukuje lepszych wartości parametrów modelu λˆ , aż
prawdopodobieństwo generacji obserwacji osiągnie swoje maksimum.
3.2. Rozpoznawanie
Rozpoznawanie polega na wyznaczaniu właściwej wypowiedzi ze zbioru możliwych wypowiedzi. Polega na szukaniu najbardziej prawdopodobnego modelu (odpowiadającego mu ciągu stanów), który doprowadził do wyemitowania zaobserwowanych symboli. Najczęściej stosuje się w tym celu algorytm Viterbiego [7], który polega na rekurencyjnym wyznaczaniu
największego prawdopodobieństwa łącznego P(Q,O|λ)
wyemitowania ciągu obserwacji o1, o2,... ot-1, ot wzdłuż
trajektorii osiągającej w chwili t stan i. Algorytm zwraca ciąg stanów określający największe prawdopodobieństwo wyemitowania zadanego ciągu
obserwacji O = o1, o2,... oT.
4. IMPLEMENTACJA
Prezentowany system wykonany został jako program realizujący algorytm rozpoznawania izolowanych słów, oparty na ciągłych ukrytych modelach Markowa. Program umożliwia tworzenie własnego słownika komend sterujących – słów, haseł przeznaczonych do rozpoznawania oraz badanie jakości rozpoznawania. Posiadany zasób mowy ROBOT podzielono na zbiór uczący oraz zbiór rozpoznawany. W procesie treningowym każdą wypowiedź ze zbioru uczącego przetworzono i sparametryzowano w postaci sekwencji wektorów zawierających 42 współczynniki. Następnie każdy wektor potraktowano jako obserwację i wykorzystano do budowy modeli CHMM, oddzielnie dla każdej komendy.
Proces tworzenia obserwacji składał się z kilku etapów. Pierwszym z nich było poddanie wejściowego sygnału mowy preemfazie, aby wyeliminować szum tła oraz wzmocnić składniki wyższych częstotliwości. W tym celu wykorzystany został filtr górnoprzepustowy 1 rzędu o współczynniku 0,97. Drugim etapem było usunięcie fragmentów ciszy na początku i na końcu wypowiedzi. W tym celu dokonano określenia początku i końca wypowiadanego słowa. Różne wypowiedzi tej samej komendy znacznie różnią się między czasem trwania, natężeniem mowy oraz wymową, co znacznie utrudnia automatyczne określanie zakresu wypowiedzi. Prawidłowe wyznaczenie rzeczywistego zakresu sygnału wypowiedzi do dalszego przetwarzania determinuje poziom otrzymywanych wyników rozpoznawania. W niniejszej pracy detekcja odbywała się na zasadzie energetycznej, sygnał przed pierwszą oraz za ostatnią ramką przekraczającą zadany próg detekcji był
traktowany jako cisza i odrzucany. Dalszym krokiem było kształtowanie każdej 23ms ramki (co odpowiada 512 próbkom sygnału próbkowanego z częstotliwością 22kHz) oknem Hamminga. Ramkę 23ms, przyjęto jako kompromis pomiędzy rozdzielczością widma proporcjonalną do długości okna oraz zachowaniem krótkookresowej quasi-stacjonarności sygnału mowy.
Kolejnym etapem było wyekstrahowanie widmowych współczynników mel-cepstrum (MFCC – ang. Mel Frequency Cepstral Coefficients). Procedura obliczania MFCC polega na przefiltrowaniu sygnału mowy z użyciem filtrów pasmowych o szerokości 300 meli. Środkowe częstotliwości są oddalone o 150 meli, co prowadzi do nakładania się charakterystyk częstotliwościowych filtrów. Dla każdego pasma obliczano logarytm spektrum mocy, tworząc sekwencję wartości. Poprzez obliczenie dyskretnej transformaty kosinusowej DCT otrzymanej sekwencji uzyskano 13 współczynników cepstrum w skali melowej dla każdej ramki. Wartość energii w każdej ramce stanowi dodatkowy współczynnik. Pochodne wszystkich współczynników oraz ich drugie pochodne dopełniają wektor 42 parametrów MFCC. W dalszej części referatu ten sposób parametryzacji określano jako 42mel.
Dodatkowo zaproponowano parametryzację mieszaną składającą się z 10 współczynników mel-cepstrum, energii oraz 3 współczynników klasyfikujących głoski, które wraz z pierwszymi i drugimi pochodnymi tworzyły wektor parametryzacji opisywanej jako 33p9. Jako współczynniki klasyfikujące głoski użyto predykcyjność, dolnopasmowość oraz znormalizowane maksimum autokorelacji.
Znormalizowane maksimum autokorelacji rmax
wyznaczano zgodnie z równaniem:
, R R r max max 0 = (8)
gdzie R0 współczynnik autokorelacji (energia) w zerze
sygnału błędu predykcji przepuszczonego przez filtr dolnopasmowy o częstotliwości granicznej 1kHz oraz
Rmax maksimum autokorelacji sygnału w zakresie
zmienności okresu tonu krtaniowego (2ms–20ms).
Dolnopasmowość Llp określa zawartość
składowych niskoczęstotliwościowych w sygnale: , E E L sig lp lp = (9)
gdzie Elp moc sygnału wejściowego odfiltrowanego
dolnopasmowo (0–1 kHz), natomiast Esig określa moc
sygnału w obrębie ramki ekstraktora.
Predykcyjność Lres pozwala określić stopień
odtwarzalności sygnału na podstawie jego przeszłości:
, E E L sig res res= (10)
gdzie Eres moc sygnału błędu predykcji.
Powyższe trzy parametry mają największe znaczenie dla poprawności dyskryminacji ramek sygnału mowy na następujące klasy: mowa bezdźwięczna o charakterze szumowym, mowa bezdźwięczna o charakterze plozyjnym, mowa słabo dźwięczna, mowa silnie dźwięczna [9].
W procesie treningu, na podstawie wypowiedzi ze zbioru uczącego utworzono ergodyczne modele CHMM. Procedura tworzenia modeli CHMM wykonana została metodą Bauma-Welcha dla każdej komendy słownika. W ten sposób uzyskano oddzielne modele dla wszystkich słów. W badaniach wykorzystywano modele o stałej liczbie stanów od 3 do 8 oraz zaproponowano użycie modelu o zmiennej liczbie stanów zależnej od długości modelowanej komendy. Ostatnim etapem było rozpoznawanie zadanego słowa. W tym celu wykorzystano algorytm Viterbiego poszukujący największego prawdopodobieństwa generacji obserwacji, pochodzącej z wypowiedzi zadanego słowa, dla wszystkich modeli.
5. WYNIKI BADAŃ
Zgodnie z założeniami uruchomiono system automatycznego rozpoznawania słów izolowanych z wykorzystaniem ciągłych ukrytych modeli Markowa. System wytrenowano z wykorzystaniem 90 powtórzeń wypowiedzi każdej z 20 komend pochodzących od 16 mówców. Następnie przeprowadzono badania jakości rozpoznawania komend sterujących dla sygnału mowy o różnej jakości. Każdy z eksperymentów polegał na rozpoznaniu 50 wypowiedzi poszczególnych komend sterujących pochodzących od 10 osób, które nie uczestniczyły w procesie uczenia. Wszystkie wyniki przedstawione w poniższych tabelach są uśrednionymi wartościami podawanymi w procentach.
Pierwsza część eksperymentu polegała na badaniu jakości rozpoznawania komend sterujących dla sygnału mowy oryginalnej o jakości 22kHz/16bit. Wyniki rozpoznawania komend o jakości mowy nieprzetworzonej dla różnej liczby stanów w modelu CHMM oraz parametryzacji 42mel przedstawiono w Tab. 1, natomiast wyniki dla parametryzacji mieszanej 33p9 przedstawiono w Tab. 2. Porównania wyników dla obu sposobów parametryzacji przedstawiono na Rys. 1 i Rys. 2. W badaniu wykorzystano stałą liczbę stanów dla wszystkich modeli komend (od 3 do 8 stanów na model) oraz zmienną liczbę stanów w zależności od komendy równą liczbie fonemów w modelowanej
komendzie. Symbol Q3 oznacza 3-stanowy model
CHMM, odpowiednio Q4 oznacza model 4-stanowy itd.
Natomiast model CHMM o zmiennej liczbie stanów
oznaczono jako QF. Najlepszą średnią jakość
rozpoznawania dla sygnału oryginalnego 22kHz/16bit otrzymano dla stałego modelowania n-stanowego
otrzymano dla Q4 i wyniosła ona ponad 93,4%. Rezultat
gorszy o 0,8% otrzymano dla modelu o 3 stanach. Dla modeli o większej liczbie stanów niż 4 obserwujemy pogorszenie się jakości rozpoznawania i tak dla modelowania 7 oraz 8-stanowego rozpoznawanie spada poniżej 90%. W wyniku wprowadzenia modelowania o
zmiennej licznie stanów QF uzyskano zwiększenie
jakości rozpoznawania o 2% osiągając wartość 95,4%. Zmienna struktura modelowania pozwoliła znacznie zwiększyć rozpoznawanie szczególnie dla komend „Pięć” oraz „Oś”, które dla modelowania n-stanowego były mylone z komendami odpowiednio „Dziewięć” oraz „Osiem”.
Tab. 1. Jakość rozpoznawania sygnału nieprzetworzonego dla parametryzacji 42mel.
Zero Jede
n
Dwa Trzy Cztery Pięć Sz
eść S ied em Osiem Dziewi ęć Star t
Stop Lewo Prawo Góra Dó
ł Pu ść Z łap O ś Chwytak średnia QF 94 82 90 98 98 96 98 100 100 86 98 92 96 94 98 96 98 98 96 100 95,4 Q3 90 94 76 98 98 46 96 96 100 100 100 84 98 92 100 98 98 100 88 100 92,6 Q4 94 92 64 98 98 66 96 100 100 100 98 88 98 98 100 98 100 98 82 100 93,4 Q5 96 92 78 100 98 50 98 98 100 100 92 90 98 96 100 98 100 100 54 100 91,9 Q6 96 76 94 92 98 24 96 100 100 100 96 86 94 96 100 98 100 100 58 100 90,2 Q7 94 88 76 94 98 30 100 98 100 98 90 84 92 98 98 98 92 98 34 100 88,0 Q8 90 76 78 84 98 38 100 98 100 98 100 88 98 92 98 98 88 100 26 100 87,4
Tab. 2. Jakość rozpoznawania nieprzetworzonego dla parametryzacji 33p9.
Zero Je
de
n
Dwa Trzy Cztery Pięć Sz
eść S ied em Osiem Dziewi ęć Star t
Stop Lewo Prawo Góra Dó
ł Pu ść Z łap O ś Chwytak średnia QF 94 98 100 100 100 98 98 96 100 100 94 92 98 96 96 98 98 96 98 100 97,5 Q3 94 96 92 100 98 68 96 98 98 100 94 86 98 100 100 98 98 100 92 100 95,3 Q4 94 98 88 100 100 68 96 100 100 100 92 90 98 94 98 98 94 100 90 100 94,9 Q5 94 90 92 100 98 58 96 100 98 100 98 86 98 94 100 98 100 100 66 100 93,3 Q6 94 72 84 92 98 66 96 100 98 100 100 84 98 94 98 96 96 98 82 100 92,3 Q7 94 86 82 100 96 64 98 100 100 100 100 84 96 96 98 96 100 100 86 100 93,8 Q8 94 84 88 98 98 58 98 100 100 100 100 88 98 90 98 98 100 96 58 100 92,2
W wyniku wprowadzenia mieszanego sposobu parametryzacji 33p9 z wykorzystaniem współczynników
klasyfikacji głosek zwiększyło średnią jakość
rozpoznawania sygnału nieprzetworzonego dla wszystkich sposobów modelowania. Wśród n-stanowych
modeli najwyższą jakość otrzymano dla Q3 osiągając
wynik 95,3% oraz nieznacznie mniej 94,9% dla Q4.
Niewiele gorsze wyniki otrzymano również dla modeli o większej liczbie stanów. Wprowadzenie modelowania
o zmiennej licznie stanów QF zwiększyło jakość do
wartości 97,5%, co stanowi o 2,2% wyższą średnią jakość rozpoznawania w stosunku do najlepszego wyniku modelowania n-stanowego.
Na Rys. 1 można zaobserwować wzrost średniej jakości rozpoznawania osiągnięty w wyniku wprowadzenie mieszanego sposobu parametryzacji 33p9 w stosunku do klasycznej parametryzacji 42mel opartej jedynie na współczynnikach mel-cepstrum. Zwiększenie jakości rozpoznawania obserwujemy bez względu na sposób modelowania. Szczególnie duży wzrost jakości rozpoznawania otrzymano dla modelu 7-stanowego, bo aż o 5,8%. Również dla modelowania
8-stanowegootrzymano znaczny wzrost rozpoznawania
sięgający 4,8%. Po uśrednieniu poszczególnych wyników wzrost jakości dla wszystkich sposobów modelowania wyniósł 2,9%. QF Q3 Q4 Q5 Q6 Q7 Q8 80% 85% 90% 95% 100%
Rozpoznawanie dla sygnału nieprzetworzonego
42mel 33p9 Rodzaj modelowania Ja k o ść r o zp o znaw an ia
Na Rys. 2 przedstawiono wyniki jakości rozpoznawania poszczególnych komend sygnału oryginalnego dla modelowania o zmiennej liczbie stanów, równej liczbie fonemów opisywanej komendy
QF, w zależności od rodzaju zastosowanej
parametryzacji. Wprowadzenie parametryzacji 33p9
spowodowało zwiększenie średniej jakości
rozpoznawania dla modelowania QF o 2,1% w stosunku
do parametryzacji 42mel. W rozbiciu na poszczególne
komendy na szczególną uwagę zasługuje wzrost o 16% jakości rozpoznawania komendy „Jeden”, o 14% komendy „Dziewięć” oraz o 10% komendy „Dwa”. Jedynie dla 4 komend otrzymano pogorszenie rozpoznawania, z czego w dwu przypadkach wyniosło ono 4%, a w pozostałych dwóch 2%. Najsłabsze rozpoznawanie 92% dla parametryzacji 33p9 otrzymano dla komendy „Stop”. Pożądane jest znalezienie i zaproponowanie sposobu na zwiększenie tego wyniku.
Ze ro J e den Dw a Tr zy Cz te ry Pi ęć Sz e ść S ied em Os ie m Dz ie w ięć St ar t St o p Le w o Pr aw o Gó ra Dó ł Pu ść Z łap Oś Ch w y ta k 80% 85% 90% 95% 100%
Rozpoznawanie poszczególnych komend
42mel 33p9 Rozpoznawane komendy Ja k o ść r o zp oz na wa nia
Rys. 2. Jakość rozpoznawania poszczególnych komend sygnału nieprzetworzonego dla modelowania QF. Drugi eksperyment polegał na badaniu jakości
rozpoznawania mowy kodowanej w standardzie GSM-EFR (AMR12.2). Średnią jakość rozpoznawania komend sterujących kodowanych algorytmem EFR
o przepływności 12,2kbit/s przedstawiono w Tab. 3 oraz na Rys. 3. Badanie jakości rozpoznawania komend w zależności od stopnia kompresji sygnału oraz standardu kodowania zawarto w artykułach [10, 11].
Tab. 3. Jakość rozpoznawania komend dla sygnału kodowanego AMR12.2.
QF Q3 Q4 Q5 Q6 Q7 Q8 42mel 94,5 93,4 92,8 91,3 87,2 88,1 88,6 33p9 95,5 94,0 95,3 95,8 92,9 94,3 92,5 QF Q3 Q4 Q5 Q6 Q7 Q8 80% 85% 90% 95% 100%
Rozpoznawanie dla sygnału kodowanego AMR12.2
42mel 33p9 Rodzaj modelownia Ja ko ść r o zp oz na wa ni a QF Q3 Q4 Q5 Q6 Q7 Q8 80% 85% 90% 95% 100%
Rozpoznawanie dla sygnału kodowanego AMR12.2
42mel 33p9 Rodzaj modelownia Ja ko ść r o zp oz n a wani a
Rys. 3. Jakość rozpoznawania komend dla sygnału kodowanego AMR12.2.
Dla parametryzacji 42mel najlepszą jakość rozpoznawania otrzymano dla modelowania
o zmiennej licznie stanów QF osiągając rezultat 94,5%.
Wynik ten był o 1,1% wyższy niż otrzymany dla
najlepszego modelowania n-stanowego (Q3). Podobnie
stanów modelu obserwujemy widoczne pogorszenie rozpoznawania, wyniki poniżej 90%. Wprowadzenie parametryzacji 33p9 spowodowało wzrost rozpoznawania komend sygnału kodowanego w standardzie AMR12.2 dla wszystkich rodzajów modeli. Najwyższą średnią jakość rozpoznawania dla parametryzacji 33p9 na poziomie 95,8% otrzymano dla modelowania 5-stanowego. Porównywalny wynik otrzymano dla modelowania o zmiennej liczbie stanów
QF osiągając 95,5% oraz dla modelowania Q4 – 95,3%.
Jedynie dla modelowania 6-stanowego i 8-stanowego jakość rozpoznawania była niższa niż 93%. Dla modelowani 6-stanowego możemy zaobserwować największy wzrost rozpoznawania w stosunku do parametryzacji 42mel, bo aż o 5,7%.
6. PODSUMOWANIE
W pracy przedstawiono system automatycznego rozpoznawania izolowanych komend języka polskiego. Opisano sposób tworzenia kompletnego systemu rozpoznawania mowy z wykorzystaniem ciągłych ukrytych modeli Markowa, wskazując na ich użyteczność w zakresie modelowania mowy polskiej. Zaproponowano mieszany sposób parametryzacji wejściowego sygnału mowy z wykorzystaniem współczynników klasyfikujących głoski. W badaniach eksperymentalnych porównywano jakość rozpoznawania komend sterujących w zależności sposobu parametryzacji w zależności od rodzaju modelowania dla sygnału nieprzetworzonego oraz dla sygnału kodowanego w standardzie GSM-EFR. Pokazano, że średnia jakość rozpoznawania komend sparametryzowanych metodą mieszaną 33p9 w każdym przypadku jest wyższa od średniej jakości rozpoznawania otrzymanej dla klasycznego sposobu modelowania z wykorzystaniem 42 współczynników mel-cepstrum. Wykonane testy wykazały jednocześnie użyteczność modelowania o zmiennej liczbie stanów, szczególnie w przypadku rozróżnienia podobnie brzmiących komend, ale różniących się długością.
SPIS LITERATURY
[1] Mayer K., Hidden Markov Model Software, http://www.cs.berkeley.edu/~murphyk/Bayes/hmm.
[2] S. Krstulowić, Lab session 2: Introduction
to HMM, ftp.idiap.ch/pub/sacha/labs/Session2.tgz. [3] F. Kałuża, Automatyczne rozpoznawanie mowy,
http://helios.et.put.poznan.pl/~fkaluza/arm/.
[4] W. Kwiatkowski, Metody automatycznego
rozpoznawania wzorców, IAiR WAT,
Warszawa 2001.
[5] M. Iosifescu. Skończone procesy Markowa i ich
zastosowanie, PWN, Warszawa 1988.
[6] A. M. Wiśniewski, Automatyczne rozpoznawanie
mowy bazujące na ukrytych modelach Markowa – problemy i metody, Biul. IAiR WAT, nr 12, 2000.
[7] L. R. Rabiner, A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, Proc. of the IEEE, vol. 77, no. 2, Feb. 1989, pp. 257-286.
[8] S. Wydra, Badanie głosowego dostępu do bazy
danych dla języka polskiego poprzez łącze
telefoniczne, Krajowa Konferencja
Radiokomunikacji, Radiofonii i Telewizji 2005, Kraków, 15-17 czerwca 2005, s. 457-460.
[9] P. Dymarski, Predykcyjne i wektorowe metody
kompresji sygnału mowy. Prace naukowe,
Elektronika z. 141. Oficyna Wydawnicza Politechniki Warszawskiej, Warszawa 2002.
[10] S. Wydra, HMM-based Automatic Compressed
Speech Commands and Instruction Recognition System for Polish Language, Photonics
Applications in Astronomy, Communications, Industry, and High-Energy Physics Experiments IV, Proc. of SPIE, Vol. 6159, Feb. 2006.
[11] S. Wydra, Badanie jakości głosowego sterowania
bazą danych dla skompresowanego sygnału mowy,
Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji 2006, Poznań, 7-9 czerwca 2006.