Komputerowe przetwarzanie sygnału mowy

(1)

”

Komputerowe przetwarzanie

sygnału mowy

”

Prof. dr hab. inż. Bożena Kostek

Katedra Systemów Multimedialnych

Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska

(2)

Komputerowe przetwarzanie sygnału mowy

Plan wykładu

1. Wprowadzenie – zagadnienia podstawowe

2. Podział systemów rozpoznawania mowy i mówców

3. Charakterystyka metod analizy i rozpoznawania mowy

4. Model fizyczny traktu głosowego

5. Ekstrakcja parametrów sygnału mowy - mikrofonemy

6. Przykładowe algorytmy rozpoznawania mowy

(3)

Komputerowe przetwarzanie sygnału mowy

Transmisja i Rejestracja Synteza mowy Rozpoznawanie mowy

Ułatwienia dla osób

niewidomych i niesłyszących

Cyfrowe techniki przetwarzania sygnału

mowy

Poprawa jakości sygnału

Rozpoznawanie i weryfikacja

(4)

Wprowadzenie – komunikacja werbalna

kora ruchowa wyrazowych i zdatworzenie form ń

pojęcia kolorów zwoje podstawne

(5)

Struktura systemu wytwarzania mowy

Mięśnie, stawy i więzadła organów artykulacji

Sterowanie i regulacja czynności mięśni artykulacyjnych

Koordynacja i synchronizacja ruchów artykulacyjnych

Nadrzędne sterowanie ruchów artykulacyjnych Wyższe czynniki psychiczne

(proces myślowy)

Kora mózgowa

Pień

mózgu

Pie

ń

mózgu

Efektory

(6)

Mowa i proces jej wytwarzania

re zo nans no s o wy artykulac ja fo nac ja tcha wica o ddyc hanie krta ń ja ma nos owa podnie bie nie

ja ma us tna na głoś nia jam a g ard łow a prze łyk Przekrój narządów mowy Przekrój narządów mowy

(7)

Wytwarzanie mowy

Schemat zastępczy systemu artykulacyjnego

Schemat zast

ę

pczy systemu artykulacyjnego

Transmitancja modulująca Impedancja emisji mowy Generator tonu krtaniowego Generator szumu

(8)

System złożony z N cylindrów o długości L_i i powierzchni A_i (i = 1, 2, ..., N) Model fizyczny Zbiór rezonatorów cylindrycznych „Cyfrowy” model falowodowy Input Output –r1 z –d1 r0 r₁ 1+r1 1–r1 z –d2 –r2 z –d2 r2 1+r2 1–r2 z –dN z –dN –rN z –d1

(9)

Cechy widma sygnału mowy

Przykład analizy spektrograficznej - wyraz „jeden”

Czas analizy = 0,56 s (STFT – short time Fourier transform)

Przykład analizy spektrograficznej - wyraz „jeden”

(10)

• nosowy-ustny

- je

ż

eli widmo mowy wykazuje

wi

ę

cej ni

ż

dwa formanty poni

ż

ej 2 kHz, to jest

to fonem nosowy. W przeciwnym przypadku

fonem jest ustny

• d

ź

wi

ę

czny-bezd

ź

wi

ę

czny

– fonemy d

ź

wi

ę

czne

charakteryzuje obecno

ść

składowej

periodycznej, której z kolei brak w fonemach

bezd

ź

wi

ę

cznych

(11)

Najprostszy system rozpoznawania fonemów:

cechy dystynktywne

Spółgłoskowe Ponadkrtaniowe Nosowe Łagodne Skupione Jasne Niskotonowe Krótkie Dźwięczne Spółgłoskowe Ponadkrtaniowe Nosowe Łagodne Skupione Jasne Niskotonowe Krótkie Dźwięczne

(12)

Podział systemów ARM

Rozpoznawanie mowy Rozpoznawanie mowy ciągłej Rozpoznawanie mowy - zależnie od

mówcy

Rozpoznawanie mowy -niezależnie od mówcy w

warunkach zakłóceń bądź

ograniczonego pasma

Rozpoznawanie mowy -niezależnie od mówcy

Rozpoznawanie izolowanych

wyrazów

Wielkość

(13)

Podział systemów rozpoznawania mówców

ze względu na cel

rozpoznawania

weryfikacja mówcy

określenie, który z mówców

się wypowiada, na podstawie

zbioru modeli odniesienia identyfikacja

mówcy

potwierdzenie deklarowanej przez

(14)

Podział systemów rozpoznawania mówców

ze względu na

zależność od tekstu

niezależne od

treści

skuteczne tylko dla niektórych wypowiedzi, wykorzystywane gdy można się spodziewać, że mówca

wymówi hasło, numer identyfikacyjny lub podpowiedziany przez system tekst

zależne od treści

skuteczne dla dowolnej wypowiedzi,

wykorzystywane gdy nie można liczyć na

(15)

Podział systemów rozpoznawania mówców

ze względu na charakter zbioru modeli mówców z zamkniętym zbiorem

możliwe jest uznanie, że żaden z modeli

odniesienia nie jest wystarczająco podobny

do danej wypowiedzi, wybierany jest najbliższy spośród wszystkich modeli, pod

warunkiem, że jego podobieństwo

przekracza określony próg

z otwartym zbiorem

każdemu mówcy musi

odpowiadać jakiś model

odniesienia, wybierany jest najbliższy spośród

(16)

Proces rozpoznawania sygnału mowy

"Rozumienie"

Analiza leksykalna, gramatyczna, semantyczna

Identyfikacja elementów fonetycznych

Ekstrakcja parametrów

(17)

• Normalizacja energetyczna, preemfaza

• Segmentacja sygnału (detekcja granic wyrazów, fonemów)

Przykładowo:

• Segmentacja poprzez analiz

ę

obwiedni amplitudowej

gdzie:

pi - i-ta próbka sygnału

k - arbitralnie przyjęta wartość progowa

gdzie: c - środek ciężkości, d – dyspersja, t1, t2 – dowolna próbka

„przed” i „za” wyrazem, s(t) – rozkład czasowy funkcji gęstości p,

k1, k2 – granice wyrazu (numer próbki),

k

p

k

p

_i

−

_i₋₁

>

∨

_i

−

_i₊₁

>

Analiza mowy – przetwarzanie wst

ę

pne

∫

= 2 1 2 1 ) ( ) ( t t t t dt t s dt t ts c

∫

−

= 2 1 2 1 ) ( ) (

)

(

2 t t t t dt t s dt t s d

c

t

_k

_c

_wd

k

c

wd

1 2

≅ −

≅ +

(18)

Ekstrakcja parametrów - fonemy

samogłoskowe

Formanty F

1

i F

2

Formanty F

1

i F

2

Momenty centralne M

c1

i

M

cu2

Momenty centralne M

c1

i

(19)

Fonemy samogłoskowe

Rozmieszczenie na

płaszczyźnie F

1

i F

2

polskich

samogłosek – kilkunastu

mówców

Rozmieszczenie na

płaszczy

ź

nie F

1

i F

2

polskich

samogłosek – kilkunastu

mówców

(20)

• współczynniki cepstralne (MFCC) w skali

nieliniowej (melowej)

gdzie: i - numer współczynnika cepstralnego;

k - liczba pasm częstotliwości

- logarytm energii w danym paśmie

częstotliwości k

• proste parametry, np. liczba przej

ść

przez zero lub

przez inn

ą

warto

ść

(w celu ograniczenia wpływu

składowej stałej)

• analiza LPC – współczynniki LPC

Analiza mowy – parametryzacja

[

(

0 .

5 )

/

20

]

cos

20 1

π

−

=

∑

=

X

i

k

M

k k i k

X

(21)

Analiza mowy – parametryzacja

(22)

Wykresy cepstrum

Słowo „zero”

-trzech mówców

Słowo „zero”

-trzech mówców

(23)

Współczynniki cepstralne - cepstrogramy

Słowo „cztery” - dwóch mówców

(24)

Analiza czasowo-cz

ę

stotliwo

ś

ciowa - spektrogramy

Słowo „cztery” - dwóch mówców

(25)

Współczynniki mel-cepstralne – mel-cepstrogramy

Słowo „cztery” - dwóch mówców

(26)

Automatyczna klasyfikacja

rozpoznawanie

Kalkulacja

podobie

ń

stwa

Os

ą

d

Analiza i parametryzacja

Pami

ęć

referencyjna

Segmentacja

redukcja

danych

Segmentacja

redukcja

danych

Badanie odległości

ciągów binarnych

Badanie odległo

ś

ci

ą

gów binarnych

64 ÷÷÷÷

500bit/słowo

64 ÷÷÷÷

500bit/słowo

uczenie

200

200 ÷÷÷÷

÷÷÷÷

500ms

64kbit/s

(27)

Metody rozpoznawania izolowanych wyrazów:

• nieliniowa normalizacja czasowa

• NN - nearest neighbour

• kNN - k nearest neighbours

• centroid

• kwantyzacja wektorowa VQ (Vector Quantization)

• niejawne modele Markowa (HMM)

• sztuczne sieci neuronowe

• metoda zbiorów przybli

ż

onych

(28)

T(m) M1 M2 m m = w(n) R(n) N1 N2 n Proces nieliniowego dopasowania czasowego Proces nieliniowego dopasowania czasowego

(29)

O

R

E

Z

E

R

O

Ilustracja procesu nieliniowego dopasowania czasowego w przypadku izolowanych wyrazów

(30)

• Dopasowanie mo

ż

na przedstawi

ć

jako funkcj

ę

:

przy spełnionych warunkach brzegowych:

oraz warunków ciągłości (następstwo segmentów)

• Dystans skumulowany jest miarą wskazującą na podobieństwo obiektu

do wzorca:

gdzie: - minimalny dystans skumulowany względem

punktu siatki

Algorytm nieliniowego dopasowania czasowego

))

1 (

)

(

2 ,

1 ,

0 )

(

)

1 (

n

+

−

w

n

=

w

n

≠

w

n

−

w

))

1 (

)

(

2 ,

1 )

(

)

1 (

n

+

−

w

n

=

w

n

=

w

n

−

w

)

(

₂ 2

w

N

M

=

)

(

₁ 1

w

N

M

=

)

(n

w

m

=

∑

=

N n n w T

D

R

n

T

w

n

D

1 )} ( {

(

),

(

)))

min

)

,

1 (

min

)

,

(

)

,

(

n

m

D

n

m

D

n

q

D

_A m q A

=

+

_≤

−

)

,

( m

n

D

_A

)

,

( m

n

(31)

• Dane słowo

S

m

w słowniku

M

mo

ż

liwych słów jest

reprezentowane ci

ą

giem

m

zdarze

ń

O

• Ka

ż

de słowo w słowniku jest opisane Ła

ń

cuchem Markowa

(

HMM

), dla

M

słów

⇒

M

⋅

HMM {L

1

, L

2

,...., L

M

}

• procedura dopasowania polega na obliczeniu

sumarycznego prawdopodobie

ń

stwa (zdarze

ń

i przej

ść

),

ż

e

dany ci

ą

g zdarze

ń

O

został wygenerowany przez dany

model

L

• Prawdopodobie

ń

stwo to dane jest wzorem:

P

m

=Pr(O|L

m

)

(32)

Ilustracja stanów i prawdopodobieństwa zdarzeń procesu

Markowa

Ilustracja stanów i prawdopodobieństwa zdarzeń procesu

Markowa

HMM

a

11

a

11

a

22

a

22

a

33

a

33

a

121

a

121

S

1

S

2

S

3

a

211

a

211

a

131

a

131

a

311

a

311

a

321

a

321

a

231

a

231

(33)

Okre

ś

la si

ę

trzy elementy procesów Markowa dla wszystkich

modeli

1 ≤

m

≤

M

:

-

N

- liczba stanów w modelu

S={S

1

, S

2

,...,S

N

}

-

M

- liczba dyskretnych warto

ś

ci, jakie mo

ż

e przybiera

ć

obserwacja zdarze

ń

- macierz przej

ś

cia

- dyskretne obserwacje

HMM

NM N N

a

A

,

...

,

.

,

...

,

1 1 11

=

MN N N

b

B

,

...

,

.

,

...

,

1 1 11

=

(34)

Model słowa Model słowa Ilustracja wyboru optymalnej drogi przejścia Ilustracja wyboru optymalnej drogi przejścia

HMM

(35)

Metoda zbiorów przybli

ż

onych

. SYSTEM DECYZYJNY POPRAWNA KLASYFIKACJA BŁĘDNA KLASYFIKACJA BŁĄD [%] 1 dł. reguł = 1 114 6 5.0 2 dł. reguł = 2 116 4 3.3 3 dł. reguł = 3 113 7 5.8 4 dł. reguł = 4 110 10 8.3

Rozpoznawanie mowy niezależnie od mówcy w

oparciu o system decyzyjny wykorzystujący metodę

zbiorów przybliżonych

Parametry mel-cepstralne

Słownik: 40 wyrazów, 3 mówców

Rozpoznawanie mowy niezależnie od mówcy w

oparciu o system decyzyjny wykorzystujący metodę

zbiorów przybliżonych

Parametry mel-cepstralne

(36)

Metoda zbiorów przybli

ż

onych

70

80

90

100 0,1 0,3 0,5 0,7 0,9 1

[%] Skuteczność rozpoznawania Skuteczność rozpoznawania Punkt neutralny miary przynależnści

-Punkt neutralny miary przynależnści

-r

= ⋅

c

(

µ

_RS

−

n

_µ

)

1 ,

0 ∈<

µ

n

RS

µ

n

gdzie: r – moc reguły

c - liczba przypadków potwierdzająca regułę

- miara przynależności

(37)

(Y1=1 ∧ Y2=0 ∧ Y3=0 ∧... ∧ Y10=0) ⇒ cyfra = ”jeden"

(Y1=0 ∧ Y2=1 ∧ Y3=0 ∧... ∧ Y10=0) ⇒ cyfra = ”dwa"

... (Y1=0 ∧ Y2=0 ∧ Y3=0 ∧... ∧ Y10=1) ⇒ cyfra =" zero"

Inne systemy decyzyjne

Zapis wektora cech i reguły:

Zapis wektora cech i

reguły:

Y

=

[ ,

Y Y

₁

₂

,...,

Y

₁₀

]

METODA POPRAWNA KLASYFIKACJA BŁĘDNA KLASYFIKACJA BŁĄD [%] 1 NN 86 6 (+ 8 bez decyzji) 6 (14) 2 NN wspomagany wnioskow. rozmytym 93 7 7 3 zbiory przybliżone 92 8 8