DwiĘk w
multimediach
Ryszard Gubrynowicz
Ryszard.Gubrynowicz@pjwstk.edu.pl
2
Dźwięki mowy
• Badanie dźwięków mowy określonego języka:
• Jak powstają ?
• Czym się charakteryzują ?
• Jakie są między nimi współzależności ?
• Jakie spełniają funkcje ?
Dziedziny wiedzy obejmujące Dziedziny wiedzy obejmujące
dwustronną komunikację werbalną dwustronną komunikację werbalną
Fonetyka percepcyjna Fonetyka
artykulacyjna
4
Podstawy opisu i klasyfikacji Podstawy opisu i klasyfikacji
dźwięków mowy dźwięków mowy
Opis artykulacyjny Opis akustyczny
Opis percepcyjny
Fonetyka artykulacyjna
Przedmiotem fonetyki artykulacyjnej jest opisanie mechanizmu powstawania
dźwięków mowy w narządzie
artykulacyjnym człowieka.
6
Fonetyka akustyczna
• Koncentruje się na analizie fizycznych własności dźwięków mowy
promieniowanych wokół osoby mówiącej.
• Badanie dźwięków mowy odbywa się przy zastosowaniu fizycznych metod analizy
sygnałów akustycznych.
• Jednocześnie poszukuje powiązań istniejących między czynnością
artykulacyjną i wytworzonym sygnałem
mowy
Fonetyka percepcyjna
• Bada percepcję dźwięków mowy, na poziomie układu centralnego.
• W badaniach stosowane są metody
analizy subiektywnej oceny własności
sygnałów akustycznych, zrozumiałości
8
Układ akustyczny Układ akustyczny
źródło –ośrodek-odbiornik
źródło –ośrodek-odbiornik
Anatomia i akustyka
narządu artykulacyjnego
10
Narząd artykulacyjny człowieka
Narząd artykulacyjny człowieka
„Le boulanger dit onze bieres”
Narząd artykulacyjny w akcji
Narząd artykulacyjny w akcji
12
Elementy narządu artykulacyjnego Elementy narządu artykulacyjnego
uczestniczące w formowaniu uczestniczące w formowaniu
sygnału mowy sygnału mowy
Fałdy głosowe
Podniebienie miękkie Podniebienie twarde Język
Zęby
Wargi
Źródłem energii promieniowanej podczas mówienia są płuca.
Podobnie jak ma to miejsce w instrumentach muzycznych dętych – źródłem energii
niesionej przez dźwięk są płuca osoby grającej
14
Funkcjonalny schemat organu mowy
Funkcjonalny schemat organu mowy
Układ oddechowy- płuca
Układ oddechowy- płuca
16
Układ oddechowy - tchawica
Układ oddechowy - tchawica
Cykle oddechowe: proporcje czasowe Cykle oddechowe: proporcje czasowe
Max pojemność płuc – ok. 7 litrów
Pojemność minimalna – 2 litry stale w płucach.
Objętość powietrza wymieniana podczas każdego cyklu
oddechowego – 0.5 l
18
Przebieg zmian objętości Przebieg zmian objętości
powietrza w płucach powietrza w płucach
VC – pojemność spoczynkowa
Źródłem pobudzającym tor Źródłem pobudzającym tor
głosowy mogą być:
głosowy mogą być:
a) fałdy głosowe – modulują w sposób regularny przepływ powietrza wychodzącego z płuc,
b) szczelina utworzona w torze głosowym - powoduje powstanie zawirowań,
c) przeszkoda (zęby) – j.w.
d) krótkotrwały impuls powietrza – powstaje w
20
Głośnia+fałdy głosowe+tchawica Głośnia+fałdy głosowe+tchawica
Przekrój
pionowy
Fałdy głosowe – widok z góry
Fałdy głosowe – widok z góry
22
Fałdy głosowe w akcji Fałdy głosowe w akcji
Faza oddechu
Faza oddechu Faza fonacji Faza fonacji
Rozkład ciśnień powietrza w torze
głosowym
24
Aerodynamika fałdów głosowych
Aerodynamika fałdów głosowych
Instrumenty muzyczne stroikowe
Harmonijka ustna
Działają na podobnej zasadzie
jak fałdy głosowe
26
Przebieg zmian prędkości Przebieg zmian prędkości
objętościowej strugi powietrza objętościowej strugi powietrza
u wylotu głośni u wylotu głośni
T
0T 0 =1/F 0
Mechaniczny model źródła Mechaniczny model źródła
pobudzenia krtaniowego pobudzenia krtaniowego
Model 1-masowy Model 3-masowy
m – masa fałdów głosowych k – sprężystość fałdów
b – stratność w ruchu fałdów
28
Funkcjonalny model źródła krtaniowego
Funkcjonalny model źródła krtaniowego
Wzór na częstotliwość drgań Wzór na częstotliwość drgań
fałdów głosowych
fałdów głosowych
30
Widmo przebiegu piłokształtnego Widmo przebiegu piłokształtnego
Aproksymacja przebiegu zmian prędkości
objętościowej strugi
powietrza płynącego
przez głośnię
Widmo pobudzenia krtaniowego
Widmo pobudzenia krtaniowego
32
Zmiana średniej częstotliwości Zmiana średniej częstotliwości tonu krtaniowego w funkcji wie
tonu krtaniowego w funkcji wieku
Skąd się biorą różnice?
Średnia długość fałdów:
noworodki – 5 mm dzieci – 10-13 mm kobiety –11-15 mm
mężczyźni – ok. 20 mm Masa drgających
fałdów jest
proporcjonalna do ich
długości
Przebieg zmian częstotliwości F0 Przebieg zmian częstotliwości F0
w zdaniu
w zdaniu „ „ Czy mógłby pan...” Czy mógłby pan...”
34
Przebieg F0 z opisem fonetycznym Przebieg F0 z opisem fonetycznym
tS I m ug
b I
p
a n p
S
I sw a
ts'k o g
o
z' v e f t o r e k r
a n o
0 50 100 150 200 250 300 350 400 450 500
0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5
Czas [s]
Narząd artykulacyjny jako układ Narząd artykulacyjny jako układ
akustyczny akustyczny
Jest on swoistego rodzaju układem
akustycznym, w którym można wyróżnić dwa podstawowe elementy:
a) źródło pobudzające
b) tor głosowy stanowiący w swej istocie
36
Formowanie sygnału mowy
Formowanie sygnału mowy
Akustyczny model toru głosowego
Akustyczny model toru głosowego
38
Rezonanse stratnej rury Rezonanse stratnej rury
cylindrycznej o długości 17.5 cm cylindrycznej o długości 17.5 cm
formanty
Tor głosowy jako rura akustyczna Tor głosowy jako rura akustyczna
o zmiennej konfiguracji o zmiennej konfiguracji
30 40 50 60
651
1431
2136
3313
4285
30 40 50 60
651 1370
2180
3494 3892
20 30 40 50 60
712 1196
2615 3046
4284
40
Dlaczego rezonanse w modelu 2 - rurowym są inne niż w 1 -
segmentowym (sumaryczna
długość w obu przypadkach jest
taka sama)?
Co się dzieje na granicy 2 segmentów Co się dzieje na granicy 2 segmentów
cylindrycznych? (A
cylindrycznych? (A k k A A k+1 k+1 ) )
42
Jak wygląda przybliżony kształt toru Jak wygląda przybliżony kształt toru
głosowego dla /a/ ? głosowego dla /a/ ?
Funkcja powierzchni przekroju
toru głosowego A
nStosunek powierzchni A
Stosunek powierzchni A k k /A /A k+1 k+1 a a charakterystyka częstotliwościowa charakterystyka częstotliwościowa
Nakładanie się fal padających i odbitych o różnym przesunięciu czasowym powoduje ich wielokrotne sumowanie (lub/i
odejmowanie). Wielkość (amplituda) fal przenikających i odbitych zależy od
stosunku powierzchni Ak/Ak+1. Stosunek
44
Przekroje samogłoskowe Przekroje samogłoskowe
Samogłoska i Samogłoska I Samogłoska e
Samogłoska a Samogłoska o Samogłoska u
Miejsce i wysokość artykulacji Miejsce i wysokość artykulacji
Miejsce artykulacji
długość toru głosowego - 17 cm
długość odcinka cylindrycznego - 1 cm
46
Wpływ położenia zwężenia na Wpływ położenia zwężenia na
F1, F2, F3 dla konfiguracji /u/
F1, F2, F3 dla konfiguracji /u/
Charakterystyka rezonansów Charakterystyka rezonansów
modelu samogłoski /a/
modelu samogłoski /a/
48
Porównanie widm modelu i Porównanie widm modelu i
naturalnej samogłoski /a/
naturalnej samogłoski /a/
-40 -35 -30 -25 -20 -15
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
F1 F2
F3
F4
Częstotliwość [kHz]
Liczba rezonansów w torze głosowym istotnych dla
percepcji dźwięku samogłoskowego jest ograniczona
i nie przekracza zazwyczaj 5-7
Modelowanie toru głosowego za Modelowanie toru głosowego za
pomocą filtrów formantowych pomocą filtrów formantowych
źródło
F1 F2 F3
Pojedyncze rezonatory promieniowania Funkcja
50
Definicja formantu Definicja formantu
Maksima w charakterystyce
częstotliwościowej toru głosowego
wpływające na różnicowanie dźwięków mowy danego języka nazywamy
formantami. Oznacza to, że nie każde
maksimum w widmie danego dźwięku
mowy musi być formantem.
Trudności w określaniu formantów Trudności w określaniu formantów
w sygnałach naturalnych w sygnałach naturalnych
Dwie kolejne samogłoski /a/ w wyrazie
„waga” (głos męski, F0=148 Hz)
30 40 50 60
0 10 20 30 40 50 60
0 500 1000 1500 2000 2500 3000 3500 4000 4500
30 40 50 60
52
Wpływ częstotliwości F0 Wpływ częstotliwości F0
na widmo dźwięku mowy na widmo dźwięku mowy
widmo głosu
niskiego widmo głosu
wysokiego
Zasadnicze tematy Zasadnicze tematy
1) Jakie elementy narządu artykulacyjnego uczestniczą w formowaniu sygnału mowy ? 2) Jaki jest mechanizm działania fałdów
głosowych ?
3) Jakie czynniki wpływają na częstotliwość
drgań fałdów głosowych ?
54