TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY UŻYCIU UKRYTYCH MODELI MARKOWA

(1)

TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY UŻYCIU UKRYTYCH MODELI MARKOWA

IWONA WANAT

MAREK IWANIEC

Katedra Automatyzacji Procesów, Wydział Inżynierii Mechanicznej i Robotyki Akademia Górniczo-Hutnicza im. St. Staszica w Krakowie

e-mail: wanat@agh.edu.pl, iwaniec@agh.edu.pl

Streszczenie. Artykuł porusza zagadnienia związane z wykorzystaniem głosu w celu weryfikacji mówców. Przedstawiono w nim poszczególne etapy konstrukcji systemu informatycznego, a w szczególności wstępną obróbkę danych, ekstraktor cech osobniczych oraz klasyfikator. Ponadto z danych głosowych zostały wyodrębnione współczynniki MFCC (ang. Mel Frequency Cepstrum Coefficients), obliczono również ich pierwszą i drugą pochodną.

W ostatnim - trzecim etapie, jako narzędzie klasyfikujące, wykorzystano ukryte modele Markowa. Uzyskano bardzo wysoki współczynnik pozytywnej weryfikacji mówcy na poziomie 98%.

1. WSTĘP

Biometria jest techniką pomiarową, w której źródłem danych są istoty żywe. Znajduje ona głównie zastosowanie w automatycznym rozpoznawaniu ludzi na podstawie ich cech behawioralnych (np. akcent, podpis odręczny, pisanie na klawiaturze) oraz cech fizjologicznych (np. linie papilarne, DNA, kształt ucha).

Wypowiedź słowna, oprócz informacji o treści wypowiedzi, zawiera w sobie także informacje związane z wewnętrzną strukturą jej źródła. Biometrię głosową, której charakterystyką jest sygnał mowy, można wykorzystywać do identyfikacji danej osoby.

Wymieniony rodzaj rozpoznawania mówcy jest podobny do procedury biometrycznej związanej z odciskami palców, gdyż głos każdego człowieka, podobnie jak linie papilarne, jest unikalny [6].

Sygnał mowy jest nośnikiem zarówno cech fizjologicznych, takich jak trakt głosowy lub częstotliwość tonu podstawowego, jak również cech behawioralnych, do których zalicza się akcent lub sposób wypowiadania określonych słów. Powyższe cechy, wyodrębniane z głosu, związane są przede wszystkim z budową organów artykulacyjnych, pewnymi przyzwyczajeniami nabytymi w trakcie nauki mówienia, a także z umiejętnością posługiwania się danym językiem. Dodatkowymi parametrami jakie mają wpływ na charakterystyki biometryczne mówców są: płeć, stan zdrowia, pora dnia, wiek, pochodzenie regionalne, język narodowy, itp.[1].

Rozpoznawanie znanych nam osób na podstawie głosu jest czynnością, która nie sprawia żadnych problemów w kontaktach międzyludzkich. Powszechność i naturalność tego

(2)

zjawiska powoduje, iż nie zdajemy sobie sprawy jakie cechy wypowiedzi są wyodrębniane w tym naturalnym procesie. Obecnie, za pomocą metod numerycznych jesteśmy w stanie zautomatyzować ekstrakcję cech osobniczych i w bardzo krótkim czasie rozpoznać głos mówcy wśród tysięcy innych głosów. Zastosowanie takich systemów jest bardzo szerokie, począwszy od weryfikacji naszej tożsamości podczas przeprowadzania transakcji finansowych za pomocą telefonu, umożliwiania dostępu do zabezpieczonych obszarów, a skończywszy na potwierdzeniu tożsamości w systemach kryminalistyki. Analiza głosu jest przedmiotem badań specjalistów z wielu dziedzin: fonetyków, foniatrów, logopedów i specjalistów od telekomunikacji, ale pomimo trwających już dziesiątki lat badań, sygnał mowy wciąż uznawany jest za bardzo złożony i trudny do pełnej interpretacji [7][8].

Prezentowany w artykule system weryfikacji mówcy wykorzystuje biometrię głosu, która może być zastosowana w praktyce. W opisywanym programie zaimplementowano szereg znanych procedur ekstrakcji cech, a ich odpowiednie połączenie i przystosowanie do procesu weryfikacji pozwoliło osiągnąć bardzo dużą skuteczność systemu. Dodatkowo zastosowano, omawiane często w literaturze [1][4][5], ukryte modele Markowa, których parametry zostały zmodyfikowane tak, aby jakość weryfikacji była jak największa. W dalszej części artykułu opisane zostaną poszczególne etapy procesu weryfikacji, zaimplementowane w utworzonym przez autorów programie.

2. RODZAJE SYSTEMÓW ROZPOZNAWANIA MÓWCÓW

Wyróżnić można różne rodzaje systemów rozpoznawania mówcy (rys. 1). W istniejących systemach rozpoznawania mówcy wyróżnia się dwa główne typy: weryfikację oraz identyfikację mówcy [1][4]. Oba powyższe typy różnią się od siebie przede wszystkim stosowaną teorią i techniką przetwarzania, jak również nakładem obliczeniowym.

Rys.1 Podział przetwarzania mowy [2]

Identyfikacja mówcy jest procesem decyzyjnym, w którym na wejście wprowadzamy tylko wektor cech wyekstrahowany z sygnału mowy, natomiast na wyjściu otrzymujemy tożsamość przypisaną do danych wejściowych. System ma za zadanie zaklasyfikowanie głosu danej osoby do jednego z N elementowego zbioru mówców. Należy zaznaczyć, iż istnieje możliwość identyfikacji w zbiorze zamkniętym lub w zbiorze otwartym. Przy zastosowaniu

(3)

identyfikacji w zbiorze zamkniętym system przypisuje głosowi wejściowemu jedną z N dopuszczalnych tożsamości. Tymczasem w przypadku identyfikacji w zbiorze otwartym możliwe jest podjęcie dodatkowej decyzji, jaką jest odrzucenie danego głosu i nieprzypisanie mu żadnej tożsamości.

Weryfikacja mówcy jest także procesem decyzyjnym, w którym na wejściu wprowadzamy wektor cech, a rozpoznawana osoba podaje swoją tożsamość. W tym przypadku system ma podjąć binarną decyzję, czy nieoznaczony głos należy do deklarowanego mówcy czy też nie.

Weryfikacja mówcy jest jednym z przypadków identyfikacji w zbiorze otwartym, gdzie zbiór mówców jest jednoelementowy.

Należy zwrócić uwagę na jedną z ważnych charakterystyk systemów rozpoznawania mówców, jaką jest zależność od treści wypowiedzi, na podstawie której następuje proces decyzyjny. Rozróżnia się systemy zależne (ang. text-dependent) i niezależne od tekstu (ang.

text-independent). W pierwszym przypadku skład lingwistyczny ciągu uczącego i wypowiedzi, za pomocą której dana osoba jest weryfikowana, są takie same. Natomiast gdy te dwie wypowiedzi różnią się od siebie (np. kolejnością), mówimy o systemie weryfikacji niezależnym od tekstu.

Zaprezentowany w artykule system weryfikacji mówcy jest zależny od tekstu. Działanie systemu polega na stworzeniu modeli Markowa dla wszystkich dziesięciu cyfr, które w procesie decyzyjnym stanowią wzorzec głosu osoby weryfikowanej. W procesie weryfikacji użytkownik systemu wypowiada pięć losowo wybranych cyfr. Ogólną akceptację uzyskuje się, gdy trzy z pięciu cyfr zostaną zaakceptowane przez system, w przeciwnym wypadku użytkownik nie zostaje pozytywnie zweryfikowany.

3. PRZEBIEG PROCESU WERYFIKACJI MÓWCY

Procedurę weryfikacji mówców można ogólnie podzielić na trzy etapy. Pierwszy etap obejmuje próbkowanie i wstępne przetwarzanie sygnału mowy. W drugim etapie następuje ekstrakcja cech osobniczych głosu, które stanowią ciąg uczący w procesie klasyfikacji, następujący w trzecim etapie [1][3][5]. Klasyfikacji dokonuje się na podstawie podobieństwa uzyskanych wartości cech próbek sygnału do ich odpowiedników określonych wcześniej (w tzw. procesie nauczania) dla poszczególnych osób. Schemat procedury weryfikacji mówcy przedstawiono na rys.2.

Rys.2 Schemat procedury weryfikacji mówcy [2]

(4)

3.1 Przetwarzanie wstępne

Wstępne przetwarzanie sygnału mowy jest bardzo ważnym etapem obróbki danych, gdyż poprzedza wprowadzenie sygnału na ekstraktor cech i ma fundamentalne znaczenie dla jakości procesu weryfikacji mówcy.

Głównym celem obróbki wstępnej sygnału mowy jest uniezależnienie weryfikacji mówcy od ustawień sprzętu nagrywającego, czyli mikrofonu. Na tym etapie przeprowadzana jest filtracja, a także normalizacja, gdyż te dwie procedury w dużym stopniu niwelują różnice wynikające z różnych poziomów głośności oraz poziomu podawania sygnału mowy przez mikrofon.

W przedstawianym systemie zastosowano standardowy proces preemfazy. W programie spełnia on ważną rolę, która polega na skalowaniu mocy sygnału, aby różne częstotliwości były na podobnym poziomie. Dodatkowo proces ten wzmacnia wysokie częstotliwości sygnału mowy o ponad 20 dB, co skutkuje dużą odpornością na zakłócenia otoczenia.

Jak już wspomniano, sygnał mowy jest poddawany procesowi filtracji. W aplikacji zastosowano cyfrowy filtr górnoprzepustowy o skończonej odpowiedzi impulsowej. Drugim krokiem wstępnego przetwarzania jest normalizacja, której zadaniem jest wzmocnienie użytecznej składowej sygnału poprzez wprowadzenie niewielkiego zniekształcenia nieliniowego.

3.2 Ekstraktor cech osobniczych

Etap ekstrakcji cech osobniczych mówcy podzielono na dwa etapy. W pierwszym kroku obliczany jest ton krtaniowy danej osoby, a następnie, gdy przejdzie on weryfikację częstotliwości podstawowej, mówca przechodzi do drugiego etapu rozpoznawania. Ton krtaniowy jest związany z wibracjami więzadeł głosowych, czyli z budową narządu artykulacyjnego. Początkowo głośnia jest zamknięta, jednak przepływający strumień powietrza wymusza periodyczne otwieranie i zamykanie narządu. W zależności od cech danej osoby ton krtaniowy znajduje się w przedziale 80 – 450 Hz.

W trakcie drugiego etapu weryfikacji z sygnału mowy wyodrębniane są współczynniki MFCC (ang. Mel Frequency Cepstrum Coefficients). Powodem, dla którego wybrano powyższe współczynniki, jest potrzeba odzwierciedlania procesu percepcji przez ucho ludzkie, które postrzega częstotliwość sygnału dźwiękowego nieliniowo–logarytmicznie.

Wówczas, gdy zwiększymy częstotliwość sygnału dwukrotnie, ludzkie ucho postrzega to jako podniesienie tonu o oktawę do góry.

Rys.3 Bank filtrów w częstotliwościowej skali mel

W wyniku tego niskie częstotliwości powinny być oddalone od siebie o kilkanaście Hz, a wraz ze wzrostem częstotliwości ta odległość musi wzrastać. Przy zastosowaniu samej

(5)

transformaty Fouriera otrzymane widmo próbki jest liniowo rozłożone na osi częstotliwości.

Jednak gdy dane widmo przemnożymy przez bank filtrów, w częstotliwościowej skali mel (rys.3) spowodujemy dodatkowe nieliniowe przekształcenie skali częstotliwości. Całość procedury obliczania współczynników MFCC przedstawiono na rys. 4.

Rys. 4 Procedura obliczania współczynników Mel cepstrum

W trakcie badania wpływu liczby współczynników na efektywność procesu weryfikacji stwierdzono, iż wykorzystanie 12 współczynników MFCC jest niesatysfakcjonujące.

W związku z tym, po wyznaczeniu dla każdej ramki sygnału Q współczynników MFCC dodatkowo obliczono dla m-tej ramki parametr delta:

) ( )

( )

(q c q c q

c_m = _m₊_t - _m_-_t

D (1)

oraz parametr delta-delta:

) ( )

( )

(q c q c q

c_m =D _m₊_t -D _m_-_t

DD (2)

gdzie q = 0, 1, …, Q-1.

Proces ten spowodował zwiększenie wektora cech do 36 parametrów. Delta oraz delta- delta współczynników MFCC przedstawiają ich dynamiczne zmiany, które dobrze identyfikują poszczególne jednostki mowy. Należy pamiętać, iż wspomniane dwa parametry liczone są dla odstępów czasowych równych dwóm chwilom czasowych. Zbyt małe odstępy mogą nie wychwycić wyraźnych zmian współczynników MFCC, natomiast duże mogą wyznaczyć różnicę między zbyt różnymi stanami.

3.3 Klasyfikator

W niektórych przypadkach, metody dopasowania wzorców zapewniają w sposób wystarczający realizację zadania weryfikacji mówcy przy stosunkowo małych nakładach obliczeniowych. Wraz z pojawieniem się komputerów pojawiła się możliwość zastosowania złożonych algorytmów obliczeniowych. Szeroko stosowane metody oparte na funkcjach podobieństwa (np. metoda najbliższych sąsiadów) ustępują miejsca metodom analizy stochastycznej. Zamiast określania stopnia dopasowania wypowiedzi do wzorca mówcy obliczane jest prawdopodobieństwo uzyskania danej wypowiedzi przez opracowane modele akustyczne mówcy [4]. Przykładem opisanej metody jest modelowanie i rozpoznawanie mówcy za pomocą ukrytych modeli Markowa (ang. Hidden Markov Models – HMM), należących do grupy stochastycznych modeli akustycznych sygnału mowy.

Główną ideą ukrytych modeli Markowa jest traktowanie sygnału mowy jako sekwencji wektorów obserwacji, które z jednej strony stanowią ciąg uczący w tzw. procesie uczenia, gdy tworzony jest model akustyczny mówcy, a z drugiej strony są wyjściem modeli w tworzonym procesie weryfikacji. Dużą zaletą stosowanych modeli jest odporność systemów weryfikacji na zewnętrzne zakłócenia. Dzięki temu unika się stosowania skomplikowanych filtrów, które nie tylko zmniejszają wpływ zakłóceń, ale także w pewnym stopniu zniekształcają składowe sygnału niosące informacje o cechach osobniczych mówcy.

(6)

Z punktu widzenia rozpoznawania mówcy najistotniejszą cechą modeli HMM jest możliwość modelowania sygnału mowy dla konkretnego mówcy.

Realizację systemu weryfikacji mówcy podzielono na dwie fazy:

1) trening (tzw. proces uczenia), którego zadaniem jest estymacja parametrów zbioru modeli HMM za pomocą wypowiedzi uczących;

2) rozpoznawanie, w którym następuje obliczenie prawdopodobieństwa wygenerowania danej wypowiedzi przez konkretnego mówcę.

W metodzie tej sygnał mowy traktowany jest jako ciąg kolejnych wektorów współczynników wyznaczanych w krótkich odcinkach czasu (tzw. ramkach), ponieważ zakłada się, iż sygnał mowy jest stacjonarny w czasie trwania jednej ramki. Dla konkretnej rozpoznawanej osoby, podane hasło przedstawiane jest jako ciąg T obserwacji O = {O1,O2,…,OT}. W aplikacji dla każdej z cyfr tworzony jest oddzielny model. Model stanowi skończony automat, posiadający N stanów Q = {q1,q2,…,qN}. HMM, reprezentowany przez automat skończony, definiowany jest jako tzw. trójka λ = <π, A, B>, gdzie:

- π = [π1, π2, …, πN] – stanowi opis rozkładu prawdopodobieństwa znalezienia się w stanie qk w chwili t =0,

- A = [aij], i,j = 1, …, N, – jest macierzą obrazującą prawdopodobieństwo przejścia między stanami,

- B = [bi(oj)], i = 1,…, N, j = 1, …, M (M – liczba możliwych zdarzeń generowanych przez dany stan) – jest macierzą obrazującą prawdopodobieństwo pojawienia się w j-tej obserwacji w stanie qi [4]:

)

| ( )

( _j _j _i

i o P o q

b = (3)

Rys.5 przedstawia przykładowy automat o trzech stanach reprezentujący model pewnego słowa.

Rys. 5 Przykład modelu HMM, składającego się z trzech stanów wraz z określonymi prawdopodobieństwami przejść między poszczególnymi stanami

4. OPIS EKSPERYMENTÓW I UZYSKANE WYNIKI

W stworzonej aplikacji pierwszą wykonywaną czynnością jest rejestracja użytkowników, polegająca na akwizycji sygnału mowy. Cyfrowy sygnał próbkowany jest z częstotliwością 22050 Hz. W następnym kroku obliczany jest ton krtaniowy. Jeżeli mówca uzyska pozytywną weryfikację tonu krtaniowego, ekstrahowane są obserwacje w postaci współczynników MFCC. Obserwacje stanowią ciąg uczący w trakcie procesu treningu, gdy tworzony jest model akustyczny dla konkretnego słowa danej osoby. Oznacza to, iż po każdym procesie uczenia, dla jednej osoby otrzymujemy 10 modeli akustycznych wszystkich cyfr.

W początkowej fazie budowania systemu wykonano wiele badań związanych z ustawieniem odpowiednich parametrów (współczynników MFCC wraz z ich pierwszą i drugą pochodną oraz tonu krtaniowego). W eksperymentach wykorzystano bazę złożoną z 80 osób (30 kobiet, 50 mężczyzn). Pierwszym problemem było określenie liczby współczynników w wektorze cech osobniczych sygnału mowy. Na rys. 6 przedstawiono

(7)

krzywe weryfikacji trzech użytkowników, na którym kolejno zaznaczono sumaryczną odległość prawdopodobieństwa uzyskanego z modelu HMM dla cyfry jeden, po wyekstrahowaniu 12 współczynników MFCC oraz po dodaniu pierwszej i drugiej pochodnej współczynników MFCC do wektora obserwacji. W trakcie eksperymentów, do oceny opisywanego systemu wykorzystano stopę błędnych akceptacji FAR (ang. False Acceptance Rate) i błędnych odrzuceń FRR (ang. False Rejection Rate). Po analizie otrzymanych wyników okazało się, iż najlepszym rozwiązaniem jest zastosowanie 36 współczynników.

Rys. 6 Sumaryczne odległości prawdopodobieństwa uzyskane na wyjściu z modelu HMM cyfry „1” dla każdego z trzech mówców przy zmiennej liczbie współczynników znajdujących

się w wektorze cech

Rys. 7 Wykres przedstawia sumaryczne odległości prawdopodobieństwa uzyskane na wyjściu z modelu HMM cyfry „1” dla zmiennej liczby próbek uczących. Zwiększenie liczby

próbek do 10 spowodowało uzyskanie powtarzających się wyników weryfikacji dla danej osoby

Ważnym parametrem programu, który należało zbadać, było określenie liczby próbek uczących. Na rys. 7 przedstawiono krzywe weryfikacji dla jednego użytkownika w zależności od liczby próbek uczących. Stwierdzono, iż optymalną wartością jest dziesięć próbek.

Podczas eksperymentów wykazano znaczący wpływ pory dnia na jakość weryfikacji mówcy.

Dlatego założono, że sygnały mowy, wykorzystywane do tworzenia modeli akustycznych, muszą być nagrywane w trzech porach dnia (rano, po południu i wieczorem).

(8)

Po zakończeniu testów uzyskano średnią stopę niepoprawnej weryfikacji na poziomie 2%, natomiast średnia stopa poprawnej akceptacji wyniosła 98%. Należy zaznaczyć, iż nagrania były wykonywane w warunkach domowych oraz biurowych.

5. WNIOSKI

Przedstawiony eksperyment miał na celu przede wszystkim dokonanie oceny przydatności i poprawności zaprezentowanych procedur weryfikacji mówcy. Uzyskana wysoka skuteczność w pełni potwierdza efektywność metody wyznaczania modeli akustycznych za pomocą ukrytych modeli Markowa. W przypadku przedstawionego systemu można mówić o przydatności stworzonej aplikacji w zastosowaniach praktycznych (np. potwierdzanie tożsamości w celu wykonania transakcji finansowych) jako dodatkowy moduł dla innych systemów weryfikacji osoby (np. rozpoznawanie na podstawie rysów twarzy użytkownika lub za pomocą karty tzw. chipowej).

LITERATURA

1. Tadeusiewicz R.: Sygnał mowy. Warszawa: WKiŁ, 1988.

2. Joseph P. Campbell: Speaker Recognition: a tutorial. In: Proceedings of the IEEE Vol.

85, No. 9, 1997, p. 1437-1462.

3. Wolf J.J.: Efficient acoustic parameters for speaker recognition. “J. Acoust. Soc. Amer.”

1972, Vol. 51 No. 6 (part 2), p. 2044-2056.

4. Furui S.: Recent advances in speaker recognition. Elselvier Science B.V., No. 18, 1997, p. 859-872

5. Doddington G.: Speaker recognition-identifying people by their voices. In: Proc. IEEE 1985, 73(11), p. 1651-1664.

6. Jain, A. K., Ross, Arun; Prabhakar, Salil: An introduction to biometric recognition. In:

IEEE “Transactions on Circuits and Systems for Video Technology” 2004, 14, p.4–20.

7. Niebudek-Bogusz E., Fiszer M., Kotyło P., Just M., Śliwińska-Kowalska M.: Ocena parametrów analizy akustycznej głosu u zdrowych kobiet. „Otolaryngologia” 2004, s.33- 39.

8. Martin D.,Fitch J., Wolfe V.: Pathologic voice type and the acoustic prediction of severity. “Journal of Speech and Hearing Research” 1995, p. 756-771.

CREATING THE SOUND MODEL FOR SPEAKER VERIFICATION USING HIDDEN MARKOV MODELS

Summary. The article discusses issues related to the use of voice characteristics to verify the speakers. The various stages of system design are presented, in particular preliminary signal processing, extractor of individuals characteristics and classifier. MFCC coefficients are extracted from the voice data and then are calculated the first and second derivative of this coefficients. In the third stage, as a tool for classification, used hidden Markov models. A very high rate of positive verification of the speaker, at 98%, is achieved.