• Nie Znaleziono Wyników

Badanie formantowości sygnału mowy

N/A
N/A
Protected

Academic year: 2021

Share "Badanie formantowości sygnału mowy"

Copied!
8
0
0

Pełen tekst

(1)

KATEDRA SYSTEMÓW MULTIMEDIALNYCH

LABORATORIUM AKUSTYKI MOWY

Ćwiczenie nr 6:

BADANIE FORMANTOWOŚCI SYGNAŁU MOWY

opracowanie: dr inŜ. Andrzej Kaczmarek

1. WPROWADZENIE

Analiza formantowa jest jedną z najwaŜniejszych metod stosowanych w akustyce mowy. Jest wykorzystywana do rozpoznawania mowy i mówców, do badania artykulacji, do badania mowy zaburzonej jąkaniem, do oszczędnego kodowania sygnału mowy i innych.

Celem ćwiczenia jest prezentacja wybranych metod estymacji częstotliwości formantowych a takŜe ekstrakcji tonu krtaniowego (zwanego niekiedy formantem F0) oraz zaznajomienie z podstawowymi cechami zastosowanych algorytmów. Do

ćwiczenia wykorzystany jest program o nazwie analizator-hm.exe umoŜliwiający analizę sygnału z uŜyciem trzech metod:

• metody autokorelacyjnej,

• metody analizy cepstrum,

• metody wygładzania widma.

Pierwsza z podanych wyŜej metod jest metodą analizy w dziedzinie czasu i słuŜy do badania okresowości i szacowania częstotliwości podstawowej sygnału. Druga i trzecia to analizy w dziedzinie widma; realizują dodatkowo obliczanie cepstrum mocy oraz estymację parametrów formantowych poprzez zastosowanie procedury tzw. wygładzania cepstralnego. Metoda autokorelacyjna polega na analizie

(2)

lokalnych maksimów funkcji autokorelacji i wyborze takiego, który spełnia pewne narzucone z góry warunki w postaci wartości określających początek i koniec przedziału czasowego oraz wartości progu detekcji. Zazwyczaj przyjmuje się, Ŝe jest to pierwsze lokalne maksimum o wartości bliskiej jedności dla czasu większego od zera.

Funkcja autokorelacji r(m) spróbkowanego sygnału x(i) moŜe być przedstawiona przy pomocy równania:

( ) ( )

[

]

[

(

) (

)

]

( ) ( )

[

]

[

(

) (

)

]

− + = − + = − + = + − + ⋅ − + − + ⋅ − = 1 2 1 2 1 ) ( N q q i N q q i N q q i m i x m i x i x i x m i x m i x i x i x m r (1)

gdzie: i – indeks czasu dla sygnału,

m – przesunięcie czasowe, indeks czasu dla funkcji autokorelacji, q – punkt początkowy analizy,

N – liczba dostępnych próbek, oraz:

( )

( )

(

)

+ −

(

)

= − + = + ⋅ = + ⋅ = 1 1 , 1 1 N q q i N q q i m i x N m i x i x N i x

Główne maksimum funkcji autokorelacji występuje w punkcie zerowym (m=0) i jego wartość wynosi 1. Lokalizacja następnego maksimum bliskiego jedności pozwala na estymację okresu, a jego wartość moŜe wskazywać na okresowość sygnału (w przypadku sygnału mowy na dźwięczność analizowanej głoski). Funkcja autokorelacji dla funkcji okresowej jest okresowa, zatem dalsze maksima mogą równieŜ posłuŜyć do estymacji częstotliwości podstawowej, nawet z mniejszym błędem z uwagi na ograniczoną rozdzielczość w dziedzinie czasu wynikającą z okresu próbkowania.

Częstotliwość podstawowa sygnału akustycznego (dla sygnału zawierającego wiele składowych harmonicznych - ma to miejsce w przypadku tonu krtaniowego) moŜe być wyznaczona na podstawie analizy w dziedzinie cepstrum. Algorytm realizujący taką estymację przedstawia się następująco:

1. segmentacja i wybór fragmentu głoski dźwięcznej, 2. analiza Fouriera,

(3)

4. logarytmowanie widma mocy, 5. transformacja kosinusowa, 6. detekcja maksimum cepstrum, 7. oszacowanie częstotliwości.

Spróbkowany sygnał akustyczny podlega podziałowi na segmenty o długości 1024 próbki, które z kolei są poddane analizie przy uŜyciu transformacji Fouriera. Zazwyczaj stosuje się do tego celu algorytm tzw. Szybkiego Przekształcenia Fouriera (SPF, ang. FFT - Fast Fourier Transform). Ogólnie rzecz przedstawiając: procedura FFT moŜe być stosowana do ciągu próbek zespolonych o długości 2m, gdzie m>1 i

C

m∈ (C – zbiór liczb całkowitych). W praktyce próbki są liczbami rzeczywistymi i

w dalszych przekształceniach występuje widmo mocy.

Współczynniki cepstralne dla poszczególnych ramek widma są natomiast obliczane przy pomocy transformacji kosinusowej według wzoru:

(

)

     ⋅ − ⋅ ⋅ =

= m n r X C m n n r π 5 . 0 cos ) log( 1 (3) gdzie:

Cr - r-ty współczynnik cepstralny,

r - numer kolejny współczynnika cepstralnego, Xn – n-ty prąŜek widma mocy sygnału

        ⋅ = c p f f N E m

- maksymalny nr analizowanego prąŜka widma,

fp - częstotliwość próbkowania,

fc - częstotliwość maksymalną pasma uŜytego do obliczania cepstrum;

N - numer prąŜka odpowiadający połowie częstotliwości próbkowania.

Na podstawie powyŜszych obliczeń moŜna wykonać wykres cepstrum, przy czym naleŜy pamiętać, Ŝe jest to przejście ponownie w dziedzinę czasu. Częstotliwość podstawowa sygnału akustycznego estymowana jest na podstawie połoŜenia maksimum na wykresie cepstrum. Maksimum to w rzeczywistości jest indykatorem okresowości logarytmu widma mocy, czyli cechy charakterystycznej dla widma fonemów dźwięcznych. Ze względu na wysokie wartości niskich współczynników cepstralnych, jak równieŜ ze względu na ograniczony zakres częstotliwości

(4)

podstawowej badanego sygnału stosuje się ograniczenie zakresu poszukiwania tego maksimum. Ze względu na ograniczoną rozdzielczość wykresu cepstrum obserwowane maksimum nie moŜe zazwyczaj dokładnie odzwierciedlić poszukiwaną wartość częstotliwości. Stosuje się zatem dodatkowe zabiegi, np. częstotliwość podstawową moŜe być estymowana na podstawie środka cięŜkości fragmentu cepstrum dla jego maksimum i obu sąsiednich współczynników cepstralnych zgodnie ze wzorem:

( )

$f f C sC c s s E E s s E E = = − + = − +

2 1 1 1 1 (4) gdzie:

$f - estymowana częstotliwość podstawowa,

E - indeks współczynnika cepstralnego dla lokalnego maksimum,

fc - częstotliwość maksymalna pasma uŜytego do obliczania cepstrum,

lub z wykorzystaniem innej metody wygładzania wykresu; moŜe to być interpolacja lub aproksymacja wielomianowa (np. interpolacja kwadratowa dla trzech punktów lub aproksymacja kwadratowa dla większej liczby punktów).

2. OPIS PROGRAMU

UŜywany w ćwiczeniu program analizator-hm.exe słuŜy do analizy korelacyjnej i homomorficznej (cepstralnej). Program korzysta z plików dźwiękowych typu WAV nagranych monofonicznie, PCM, z kwantyzacją liniową, 16 bitową, o częstotliwości próbkowania 22,05 kHz. Po uruchomieniu programu zostaje nagrany ostatnio uŜywany plik (z normalizacją amplitudową ale bez preemfazy) lub wygenerowany sygnał typu „sweep”. Ukazują się trzy okna z wykresami: obwiedni (dla wartości szczytowych oraz dla wartości rms), przebiegu czasowego (fragmentu o długości 980 próbek) oraz widma mocy przedstawionego w skali liniowo-logarytmicznej (częstotliwość-czas) z dodanym wykresem widma wygładzonego cepstralnie. Do ustawiania rzędu wygładzania i szerokości wygładzanego pasma słuŜą 2 suwaki. Trzecie okno graficzne słuŜy takŜe do prezentacji wyników analizy korelacyjnej i cepstralnej po przełączeniu odpowiedniej opcji.

(5)

Ruch kursora myszki po wykresie obwiedni jest jednocześnie związany z wyborem fragmentu sygnału do analizy (zawsze o długości 1024 próbki). Zmieniają się wówczas takŜe wykresy: środkowy z przebiegiem czasowym oraz dolny ukazujący zaleŜnie od ustawionej opcji odpowiadające mu widmo mocy (linia zielona) z widmem wygładzonym (linia czerwona) lub wykres funkcji autokorelacji (kolor czerwony) z wykresem cepstrum mocy (kolor niebieski). Wykresy te zostają „unieruchomione” z chwilą opuszczenia górnego wykresu przez kursor myszki, lub wykonania sekwencji „mouse down” i „mouse up” (z jednoczesnym odsłuchem i zapisem zaznaczonego fragmentu do pliku).

W opcji "wygładzanie cepstralne" istnieje moŜliwość estymacji częstotliwości lokalnych maksimów widma wygładzonego, co przy odpowiednim dobraniu szerokości pasma i rzędu wygładzania jest równoznaczne z uzyskaniem częstotliwości formantowych. Częstotliwości te są podawane w oknie tekstowym (poniŜej) na dwa sposoby. Pierwszy to kliknięcie okienka z wykresem widma mocy i widma wygładzonego. Zaznaczane są wówczas graficznie lokalne maksima widma wygładzonego i jednocześnie są podawane odpowiadające im częstotliwości. Drugi sposób to naciśnięcie klawisza "spacja" na aktualnie wybranym suwaku "rząd wygładzania". Ten drugi sposób to zastosowanie interpolacji parabolicznej (w oparciu o trzy punkty) do dokładniejszej estymacji częstotliwości lokalnych maksimów pozwalający na ograniczenie wpływu rozdzielczości analizy. Szczególnie dobrze jest widoczne dla szerokiego pasma, gdy wykres widma wygładzonego jest obarczony najgorszą dokładnością (wyraźna linia łamana).

Opcja "funkcja autokorelacji i cepstrum" pozwala na porównanie wyników estymacji częstotliwości podstawowej tonu krtaniowego (czyli parametru F0) wykonywanych róŜnymi metodami. Jednocześnie są podawane wyniki obliczane z maksimów odpowiednich funkcji oraz dokładniejsze estymacje oparte o trzypunktową interpolację paraboliczną. Wartości obliczane z maksimów są skwantowane ze względu na ograniczoną rozdzielczość wyników (wykresów) odpowiednich analiz. W przypadku analizy cepstralnej są podawane takŜe wartości odpowiednich współczynników cepstralnych oraz ich numery, na podstawie których są wykonane te obliczenia.

(6)

Rys. 1. Przykładowe wykresy związane z analizą formantową dla głoski “E”: u góry: wykres obwiedni, pośrodku: przebieg czasowy, poniŜej: wykres widma z zastosowaniem okna Blackmana, oraz widma wygładzonego cepstralnie. Lokalne maksima są zaznaczone pionowymi odcinkami.

Rys. 2. Przykładowe wykresy związane z analizą tonu krtaniowego dla głoski “E” (głos męski): po lewej: wykres funkcji autokorelacji, po prawej: wykres cepstrum mocy. Podane są rozdzielczości obu wykresów, oraz współczynniki cepstralne opisujące maksimum.

Tablica 1. Przykładowe parametry formantowe.

Fonem częstotliwości [Hz] poziomy względne [dB} i 210 2750 3500 4200 0 -15 -15 -27 e 380 2640 3000 3600 0 -12 -16 -20 a 780 1150 2700 3500 0 -7 -25 -25 y 240 1550 2400 3300 0 -12 -20 -30 o 400 730 2300 3200 0 -3 -30 -35 u 270 615 2200 3150 0 -13 -40 -50 w 600 1700 2900 4100 -9 0 -2 -10 sz - 2300 2900 3600 - -9 -8 0 h 500 1700 2500 4200 -12 0 -10 -17 z - 1750 2950 4300 - -6 -10 0

(7)

Rys. 3. Obszary lokalizacji poszczególnych samogłosek języka polskiego na płaszczyźnie pierwszego i drugiego formantu. Obszary są rozdzielne, jest więc moŜliwe rozpoznawanie samogłosek opierając się jedynie na wartościach dwu wskazanych częstotliwościach formantowych [1].

3. ZADANIA

1. Zapoznać się z funkcjonowaniem programu analizator-hm.exe z uŜyciem dostępnych przykładów dźwiękowych. Wykonać analizy fragmentów (wygładzanie widma) dających się zinterpretować jako quasiokresowe (polskie samogłoski) i szumowe (po jednym przykładzie). Sprawdzić wpływ szerokości pasma, rzędu wygładzania i preemfazy. NaleŜy skorzystać z informacji zawartych w tablicy 1.

2. Wykonać procedurę wygładzania cepstralnego dla polskich samogłosek (po 3 dla kaŜdej) wybranych z róŜnych wypowiedzi w celu uzyskania parametrów formantowych, dobierając odpowiednio szerokość pasma i rząd wygładzania. Oceny poziomu naleŜy dokonać na podstawie połoŜenia kursora myszki (po jednym przykładzie dla kaŜdej samogłoski). Porównać uzyskane wyniki (częstotliwość i poziom) z danymi z literatury. Określić zakresy rzędu wygładzania dające poprawne wyniki. Uzyskane wyniki zachować do sporządzenia wykresu „trójkąta samogłosek”.

3. Dokonać analizy częstotliwości podstawowej dla fragmentów okresowych i quasiokresowych samogłosek wybranych z nagrań mowy. Do dokładniejszej

(8)

estymacji częstotliwości naleŜy uŜyć informacji o sąsiedztwie badanego lokalnego maksimum cepstrum - trzypunktowa interpolacja paraboliczna. Wartości i numery współczynników cepstralnych oraz rozdzielczość jest podana na wykresie. Dla jednego wybranego przykładu wykonać odpowiednie obliczenia.

4. OPRACOWANIE

1. Przedstawić dokumentację przeprowadzonych analiz.

2. Wykonać wykres dla polskich samogłosek na płaszczyźnie F1 F2 ("trójkąt samogłosek").

3. Ocenić dokładność zastosowanych metod wynikającą z rozdzielczości i przedstawić wykonane obliczenia.

4. Zinterpretować obserwacje oraz uzyskane wyniki.

5. BIBLIOGRAFIA

1. P. R. COOK: An Automatic Pitch Detection and MIDI Control System for Brass Instruments, JASA, New Orleans, November 1992.

2. A. KACZMAREK, P. SKÓRKA: Investigation of the Pitch of the Vocal Tone for Stuttered Speech, 102nd AES Convention, Preprint 4486, München, 1997.

3. A. V. OPPENHEIM, R. W. SCHAFER: Cyfrowe przetwarzanie sygnałów, WKŁ, Warszawa 1979.

4. L. RABINER, M. J. CHENG, A. E. ROSENBERG, C. A. GONEGAL: A comparative performance study of several pitch detection algorithms, IEEE Trans. ASSP 1976, 24: 399-418.

Cytaty

Powiązane dokumenty

Rozwiązaniu konfliktu sprzyja: Rozwiązanie konfliktu utrudnia:.. ▪ wysłuchanie

From the measured development of the rheological properties in time, which can be described with the Bingham fluid model (see [15], [16]) the allowable angle of the mould can

The Grace mission also revealed that in the period 2003-2010 Iran, Iraq, Syria and parts of Turkey lost nearly 150 billion cubic metres of stored fresh water; this equates to

Często przybierało to form ę rozbudow anej kam panii skierow anej prze­ ciw ko k onk retn ym jednostkom — lokaln ym działaczom socjalistyczn ym , prow adzonej nie

Narysować widmo amplitudowe i fazowe oraz obliczyć moc tego sygnału.. Wskazówka: skorzystać ze

Wyznaczyć widmo sygnału x(t) oraz obliczyś stosunek p we mocy drugiej harmonicznej do mocy pierwszej harmonicznej sy- gnału wejściowego.. Dobrać tak wartość parametru τ > 0,

Na wykresie (rys. Powyżej tej odległości nie występuje oddziaływanie cyklu zasysania powietrza na prędkość chwilową. Struga syntetyczna w bliskiej odległości,

filtrowanie tylko składowych odpowiadających replikom sygnału znajdujących się po lewej stronie cepstrum daje największą poprawę jakości: największa jest liczba przypadków