”
Komputerowe przetwarzanie
sygnału mowy
”
Prof. dr hab. inż. Bożena Kostek
Katedra Systemów Multimedialnych
Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska
Komputerowe przetwarzanie sygnału mowy
Plan wykładu
1. Wprowadzenie – zagadnienia podstawowe
2. Podział systemów rozpoznawania mowy i mówców
3. Charakterystyka metod analizy i rozpoznawania mowy
4. Model fizyczny traktu głosowego
5. Ekstrakcja parametrów sygnału mowy - mikrofonemy
6. Przykładowe algorytmy rozpoznawania mowy
Komputerowe przetwarzanie sygnału mowy
Transmisja i Rejestracja Synteza mowy Rozpoznawanie mowyUłatwienia dla osób
niewidomych i niesłyszących
Cyfrowe techniki przetwarzania sygnału
mowy
Poprawa jakości sygnału
Rozpoznawanie i weryfikacja
Wprowadzenie – komunikacja werbalna
kora ruchowa wyrazowych i zdatworzenie form ń
pojęcia kolorów zwoje podstawne
Struktura systemu wytwarzania mowy
Mięśnie, stawy i więzadła organów artykulacji
Sterowanie i regulacja czynności mięśni artykulacyjnych
Koordynacja i synchronizacja ruchów artykulacyjnych
Nadrzędne sterowanie ruchów artykulacyjnych Wyższe czynniki psychiczne
(proces myślowy)
Kora mózgowa
Kora mózgowa
Pień
mózgu
Pie
ń
mózgu
Efektory
Efektory
Mowa i proces jej wytwarzania
re zo nans no s o wy artykulac ja fo nac ja tcha wica o ddyc hanie krta ń ja ma nos owa podnie bie nieja ma us tna na głoś nia jam a g ard łow a prze łyk Przekrój narządów mowy Przekrój narządów mowy
Wytwarzanie mowy
Schemat zastępczy systemu artykulacyjnego
Schemat zast
ę
pczy systemu artykulacyjnego
Transmitancja modulująca Impedancja emisji mowy Generator tonu krtaniowego Generator szumu
System złożony z N cylindrów o długości Li i powierzchni Ai (i = 1, 2, ..., N) Model fizyczny Zbiór rezonatorów cylindrycznych „Cyfrowy” model falowodowy Input Output –r1 z –d1 r0 r1 1+r1 1–r1 z –d2 –r2 z –d2 r2 1+r2 1–r2 z –dN z –dN –rN z –d1
Cechy widma sygnału mowy
Przykład analizy spektrograficznej - wyraz „jeden”
Czas analizy = 0,56 s (STFT – short time Fourier transform)
Przykład analizy spektrograficznej - wyraz „jeden”
• nosowy-ustny
- je
ż
eli widmo mowy wykazuje
wi
ę
cej ni
ż
dwa formanty poni
ż
ej 2 kHz, to jest
to fonem nosowy. W przeciwnym przypadku
fonem jest ustny
• d
ź
wi
ę
czny-bezd
ź
wi
ę
czny
– fonemy d
ź
wi
ę
czne
charakteryzuje obecno
ść
składowej
periodycznej, której z kolei brak w fonemach
bezd
ź
wi
ę
cznych
Najprostszy system rozpoznawania fonemów:
cechy dystynktywne
Spółgłoskowe Ponadkrtaniowe Nosowe Łagodne Skupione Jasne Niskotonowe Krótkie Dźwięczne Spółgłoskowe Ponadkrtaniowe Nosowe Łagodne Skupione Jasne Niskotonowe Krótkie DźwięcznePodział systemów ARM
Rozpoznawanie mowy Rozpoznawanie mowy ciągłej Rozpoznawanie mowy - zależnie odmówcy
Rozpoznawanie mowy -niezależnie od mówcy w
warunkach zakłóceń bądź
ograniczonego pasma
Rozpoznawanie mowy -niezależnie od mówcy
Rozpoznawanie izolowanych
wyrazów
Wielkość
Podział systemów rozpoznawania mówców
ze względu na cel
rozpoznawania
weryfikacja mówcy
określenie, który z mówców
się wypowiada, na podstawie
zbioru modeli odniesienia identyfikacja
mówcy
potwierdzenie deklarowanej przez
Podział systemów rozpoznawania mówców
ze względu na
zależność od tekstu
niezależne od
treści
skuteczne tylko dla niektórych wypowiedzi, wykorzystywane gdy można się spodziewać, że mówca
wymówi hasło, numer identyfikacyjny lub podpowiedziany przez system tekst
zależne od treści
skuteczne dla dowolnej wypowiedzi,
wykorzystywane gdy nie można liczyć na
Podział systemów rozpoznawania mówców
ze względu na charakter zbioru modeli mówców z zamkniętym zbioremmożliwe jest uznanie, że żaden z modeli
odniesienia nie jest wystarczająco podobny
do danej wypowiedzi, wybierany jest najbliższy spośród wszystkich modeli, pod
warunkiem, że jego podobieństwo
przekracza określony próg
z otwartym zbiorem
każdemu mówcy musi
odpowiadać jakiś model
odniesienia, wybierany jest najbliższy spośród
Proces rozpoznawania sygnału mowy
"Rozumienie"
Analiza leksykalna, gramatyczna, semantyczna
Identyfikacja elementów fonetycznych
Ekstrakcja parametrów
• Normalizacja energetyczna, preemfaza
• Segmentacja sygnału (detekcja granic wyrazów, fonemów)
Przykładowo:
•
Segmentacja poprzez analiz
ę
obwiedni amplitudowej
gdzie:
pi - i-ta próbka sygnału
k - arbitralnie przyjęta wartość progowa
gdzie: c - środek ciężkości, d – dyspersja, t1, t2 – dowolna próbka
„przed” i „za” wyrazem, s(t) – rozkład czasowy funkcji gęstości p,
k1, k2 – granice wyrazu (numer próbki),
k
p
p
k
p
p
i−
i−1>
∨
i−
i+1>
Analiza mowy – przetwarzanie wst
ę
pne
∫
∫
= 2 1 2 1 ) ( ) ( t t t t dt t s dt t ts c∫
∫
−
= 2 1 2 1 ) ( ) ()
(
2 t t t t dt t s dt t s dc
t
k
c
wd
k
c
wd
1 2≅ −
≅ +
Ekstrakcja parametrów - fonemy
samogłoskowe
Formanty F
1i F
2Formanty F
1i F
2Momenty centralne M
c1i
M
cu2Momenty centralne M
c1i
Fonemy samogłoskowe
Rozmieszczenie na
płaszczyźnie F
1i F
2polskich
samogłosek – kilkunastu
mówców
Rozmieszczenie na
płaszczy
ź
nie F
1i F
2polskich
samogłosek – kilkunastu
mówców
•
współczynniki cepstralne (MFCC) w skali
nieliniowej (melowej)
gdzie: i - numer współczynnika cepstralnego;
k - liczba pasm częstotliwości
- logarytm energii w danym paśmie
częstotliwości k
• proste parametry, np. liczba przej
ść
przez zero lub
przez inn
ą
warto
ść
(w celu ograniczenia wpływu
składowej stałej)
• analiza LPC – współczynniki LPC
Analiza mowy – parametryzacja
[
(
0
.
5
)
/
20
]
cos
20 1π
−
=
∑
=X
i
k
M
k k i kX
Analiza mowy – parametryzacja
Wykresy cepstrum
Słowo „zero”
-trzech mówców
Słowo „zero”
-trzech mówców
Współczynniki cepstralne - cepstrogramy
Słowo „cztery” - dwóch mówców
Słowo „cztery” - dwóch mówców
Analiza czasowo-cz
ę
stotliwo
ś
ciowa - spektrogramy
Słowo „cztery” - dwóch mówców
Słowo „cztery” - dwóch mówców
Współczynniki mel-cepstralne – mel-cepstrogramy
Słowo „cztery” - dwóch mówców
Słowo „cztery” - dwóch mówców
Automatyczna klasyfikacja
rozpoznawanie
rozpoznawanie
Kalkulacja
podobie
ń
stwa
Os
ą
d
Analiza i parametryzacjaPami
ęć
referencyjna
Segmentacja
redukcja
danych
Segmentacja
redukcja
danych
Badanie odległości
ciągów binarnych
Badanie odległo
ś
ci
ci
ą
gów binarnych
64
÷÷÷÷
500bit/słowo
64
÷÷÷÷
500bit/słowo
uczenie
uczenie
200
200
÷÷÷÷
÷÷÷÷
500ms
500ms
64kbit/s
Metody rozpoznawania izolowanych wyrazów:
•
nieliniowa normalizacja czasowa
• NN - nearest neighbour
• kNN - k nearest neighbours
• centroid
• kwantyzacja wektorowa VQ (Vector Quantization)
• niejawne modele Markowa (HMM)
• sztuczne sieci neuronowe
• metoda zbiorów przybli
ż
onych
T(m) M1 M2 m m = w(n) R(n) N1 N2 n Proces nieliniowego dopasowania czasowego Proces nieliniowego dopasowania czasowego
O
R
E
Z
Z
E
E
R
O
O
Ilustracja procesu nieliniowego dopasowania czasowego w przypadku izolowanych wyrazów
Ilustracja procesu nieliniowego dopasowania czasowego w przypadku izolowanych wyrazów
•
Dopasowanie mo
ż
na przedstawi
ć
jako funkcj
ę
:
przy spełnionych warunkach brzegowych:
oraz warunków ciągłości (następstwo segmentów)
• Dystans skumulowany jest miarą wskazującą na podobieństwo obiektu
do wzorca:
gdzie: - minimalny dystans skumulowany względem
punktu siatki
Algorytm nieliniowego dopasowania czasowego
))
1
(
)
(
(
2
,
1
,
0
)
(
)
1
(
n
+
−
w
n
=
w
n
≠
w
n
−
w
))
1
(
)
(
(
2
,
1
)
(
)
1
(
n
+
−
w
n
=
w
n
=
w
n
−
w
)
(
2 2w
N
M
=
)
(
1 1w
N
M
=
)
(n
w
m
=
∑
==
N n n w TD
R
n
T
w
n
D
1 )} ( {(
(
),
(
(
)))
min
)
,
1
(
min
)
,
(
)
,
(
n
m
D
n
m
D
n
q
D
A m q A=
+
≤−
)
,
( m
n
D
A)
,
( m
n
• Dane słowo
S
mw słowniku
M
mo
ż
liwych słów jest
reprezentowane ci
ą
giem
m
zdarze
ń
O
• Ka
ż
de słowo w słowniku jest opisane Ła
ń
cuchem Markowa
(
HMM
), dla
M
słów
⇒
M
⋅
HMM {L
1, L
2,...., L
M}
• procedura dopasowania polega na obliczeniu
sumarycznego prawdopodobie
ń
stwa (zdarze
ń
i przej
ść
),
ż
e
dany ci
ą
g zdarze
ń
O
został wygenerowany przez dany
model
L
• Prawdopodobie
ń
stwo to dane jest wzorem:
P
m=Pr(O|L
m)
Ilustracja stanów i prawdopodobieństwa zdarzeń procesu
Markowa
Ilustracja stanów i prawdopodobieństwa zdarzeń procesu
Markowa
HMM
a
11a
11a
22a
22a
33a
33a
121a
121S
1S
2S
3a
211a
211a
131a
131a
311a
311a
321a
321a
231a
231Okre
ś
la si
ę
trzy elementy procesów Markowa dla wszystkich
modeli
1
≤
m
≤
M
:
-
N
- liczba stanów w modelu
S={S
1, S
2,...,S
N}
-
M
- liczba dyskretnych warto
ś
ci, jakie mo
ż
e przybiera
ć
obserwacja zdarze
ń
- macierz przej
ś
cia
- dyskretne obserwacje
HMM
NM N Na
a
a
a
A
,
...
,
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
,
...
,
1 1 11=
MN N Nb
b
b
b
B
,
...
,
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
,
...
,
1 1 11=
Model słowa Model słowa Ilustracja wyboru optymalnej drogi przejścia Ilustracja wyboru optymalnej drogi przejścia
HMM
Metoda zbiorów przybli
ż
onych
. SYSTEM DECYZYJNY POPRAWNA KLASYFIKACJA BŁĘDNA KLASYFIKACJA BŁĄD [%] 1 dł. reguł = 1 114 6 5.0 2 dł. reguł = 2 116 4 3.3 3 dł. reguł = 3 113 7 5.8 4 dł. reguł = 4 110 10 8.3Rozpoznawanie mowy niezależnie od mówcy w
oparciu o system decyzyjny wykorzystujący metodę
zbiorów przybliżonych
Parametry mel-cepstralne
Słownik: 40 wyrazów, 3 mówców
Rozpoznawanie mowy niezależnie od mówcy w
oparciu o system decyzyjny wykorzystujący metodę
zbiorów przybliżonych
Parametry mel-cepstralne
Metoda zbiorów przybli
ż
onych
70
80
90
100
0,1 0,3 0,5 0,7 0,9 1
[%] Skuteczność rozpoznawania Skuteczność rozpoznawania Punkt neutralny miary przynależnści -Punkt neutralny miary przynależnści-r
= ⋅
c
(
µ
RS−
n
µ)
)
1
,
0
∈<
µn
RSµ
µn
gdzie: r – moc reguły
c - liczba przypadków potwierdzająca regułę
- miara przynależności
(Y1=1 ∧ Y2=0 ∧ Y3=0 ∧... ∧ Y10=0) ⇒ cyfra = ”jeden"
(Y1=0 ∧ Y2=1 ∧ Y3=0 ∧... ∧ Y10=0) ⇒ cyfra = ”dwa"
... (Y1=0 ∧ Y2=0 ∧ Y3=0 ∧... ∧ Y10=1) ⇒ cyfra =" zero"
Inne systemy decyzyjne
Zapis wektora cech i reguły:
Zapis wektora cech i
reguły: