1
Dwięk w
multimediach
Ryszard Gubrynowicz
Ryszard.Gubrynowicz@pjwstk.edu.pl
Wykład 6
2
Sylaby fonetyczne
Zmiany głośności między kolejnymi
głoskami w strumieniu dźwięków mowy warunkują podział wypowiedzi na tzw.
sylaby fonetyczne. Rdzeniem (ośrodkiem) sylaby fonetycznej jest segment głoskowy różniący się poziomem głośności od
swego najbliższego otoczenia. Jego
głośność jest niemal zawsze większa od głośności głoski występującej
bezpośrednio przed nim i po nim.
3
Granice między sylabami
Granice sylab fonetycznych wypadają w momentach zamknięcia toru
głosowego lub powstania w nim
znacznego zwężenia, ewentualnie w chwili wystąpienia tzw. pauzy
akustycznej.tS I m u gb I p a n p S I s wa ts' k o g o z' v e f t o r e k r a n o tSI mug bI pan pSI swats' ko goz' ve fto rek ra no
Przebieg zmian intensywności
4
Struktura sylabiczna wypowiedzi
Sylaba nie stanowi elementu funkcjonalnego jakim jest głoska. Jej jedyną funkcją jest segmentacja
wypowiedzi, ułatwiająca artykulację i percepcję.
Segmentacja ta dokonuje się poprzez rytmizację ciągu segmentów, spowodowaną podziałem tego ciągu na skutek chwilowych obniżeń poziomu
emitowanego sygnału mowy.
Obniżenia te są wywoływane przez zwarcia, bądź
szczeliny będącymi źródłem pobudzenia szumowego o niskim poziomie. Ośrodkami sylab są głoski o
najwyższym poziomie (na ogół są to samogłoski).
5
Poziom intensywności
w sylabach „uwydatnionych”
tS I m o Z e m i p a n' i p
tSI mo Ze mi pa n'i po
tSI mo Ze mi pa n'i po
20 25 30 35 40 45 50 55 60 65 70 75 80
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
6
Akcent wyrazowy
Definicja akcentu: Jest to to proces uwydatniający wybrane segmenty w sygnale mowy ciągłej, np.
sylab w wyrazach lub wyrazów w zdaniach.
Uwydatnienie sylaby akcentowanej może polegać na silniejszym, a zarazem głośniejszym jej
wypowiedzeniu, na bardziej precyzyjnym jej
wymówieniu, co może spowodować jej wydłużenie czasu trwania.
Może też wystąpić tylko podwyższenie (niekiedy obniżenie) częstotliwości pobudzenia krtaniowego.
W zależności od tego, który z tych czynników przeważa, akcent jest określany jako:
dynamiczny
– gdy czynnikiemdominującym w płaszczyźnie akustycznej są zmiany intensywności
rytmiczny
– gdy o wrażeniu akcentudecydują zmiany iloczasów sylab, lub
melodyczny
– gdy akcentowanie sylaby jest realizowane poprzez zmianę wysokości głosu Dla języka polskiego przyjmuje się , że akcent jest zazwyczaj dynamiczny, choć jest to dyskusyjne.7
Akcent dynamiczny, rytmiczny
i melodyczny
8
Położenie akcentu
Przyjmuje się, że w języku polskim akcent wyrazowy jest stały i spoczywa w zasadzie na przedostatniej sylabie formy wyrazowej. Są formy wyrazowe nie mające samodzielnego akcentu np. „się”, „ci”, „za”,
„mnie” itp. i dołączają się do wyrazu mającego swój akcent – np. „pod_lasem”.
Akcent wyrazów zapożyczonych jest na ogół na 3-ej sylabie od końca – „logika”. To samo może wystąpić w niektórych formach czasownikowych –
„widzieliśmy”.
Dłuższe formy wyrazowe obok akcentu na sylabie przedostatniej mają także akcent na pierwszej
sylabie (akcent główny) – „prawdopodobnie” (o tym zadecydowały względy rytmiczne i melodyczne)
9
Przykład analizy położenia akcentu
tS I m o Z e m i p a n' i p
tSI mo Ze mi pa n'i po
tSI mo Ze mi pa n'i po
20 25 30 35 40 45 50 55 60 65 70 75 80
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
tSI mo Ze mi pa ni
Wpływ iloczasu na percepcję akcentu
tSI mo Ze mi pa ni
10
tS I m o Z e m i p a n' i
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 20
25 30 35 40 45 50 55 60 65 70 75 80 85 90
Czas [s]
Wpływ poziomu intensywności na
percepcję akcentu
11
Wpływ F0 na percepcję akcentu
tS
I m
o Z
e
m i
p a
n' i
tS
I m
o
Z e
m i
p
a
n' i
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4
Time [s]
12
Przykład melodii zdania angielskiego –
„I wanted chocolate and cake”
aj won
thIt
tSo
klet
end kejk
aj
won tIt
tSo
klet
ent
kejk aj
wont zen kejk
aj won
ted tSo
klet
end
kejk
-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6
Czas [s]
kolor czarny – melodia standardowa; pozostałe kolory z przenoszeniem akcentu
zielony – „I”
czerwony– „and”
niebieski – „cake”
13
Realizacja akcentu w płaszczyźnie akustycznej
W zależności od języka mówca posługuje się jednym z akcentów jako dominującym dla danego języka.
W przykładzie dla języka angielskiego (z dominującym akcentem melodycznym), mówca niekiedy dodaje również akcent dynamiczny, a niekiedy obserwuje się wydłużenie sylaby, by uzyskać na niej słyszalne podniesienie melodii.
Jak jest realizowany akcent w języku polskim?
% czas trwania sylab
-sylaby akcentowane
14
15
Wpływ zwiększenia iloczasu
samogłoski /i/ w sylabie /bli/ i
skrócenia samogłoski /e/ w /kle/
16
Wpływ spłaszczenia konturu melodycznego
Iloczas sylab nie modyfikowany
Iloczas sylab jednakowy
Iloczas sylaby /bli/
zwiększony
17
Przykład zapisu muzycznego melodii mowy
o
v I
p r
a S
a m
t o
s o
b j
e
j a k
t
o
j a n' n' e r
o b
j e
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5 2.75 3 3.25 3.5 3.75 4 4.25 4.5
Czas [s]
Czas [s]
Czas [s]
Czas [s]
18
Rozkład iloczasów sylab
F0
F0
F0 F0
Przebieg zmian F0, A i iloczasów samogłosek
19
Time (s)
0 6.754
Pitch (semitones re 100 Hz)
10 26
o
v I
p r
a
S
a
m t
o s
o
b j
e
j a k
t
o
j a n n’
e r
o
b j
e
Time (s)
0 6.754
Pitch (semitones re 100 Hz)
10 26
o
v I
p r
a
S
a
m t
o s
o
b j
e
j a k
t
o
j a n n’
e r
o
b j
e
o v I p r a S a m t o s o b j e j a k t o j a n n’ e r o b j e 10
26
18
Pitch (semitones re 100 Hz)
Time (s)
0 6.754
o
v I p
r a
S
a m
t o s
o b j
e
j a k
t
o
j a n n’e r o
b j
e
1011 1213 1415 1617 1819 2021 2223 2425 26
75 80 85 90
00 5
0 1 2 3 4 5 6
Czas s
F0 (sem) A (dB)
Czas (s)
o v I p r a S a m t o s o b j e j a k t o j a n n’ e r o b j e
20
Opis symboliczny melodii zdania
tSIm ug
b I
p a
n p
S
I sw a
ts' k o
g o
z'v e
f
t o r
e k r
a n o
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5
Czas [s]
T
B L
LH
HL
H HL H
HL H
L
LH
sylaby tSI mug bI pan pSI swatc’ ko goz’ ve fto rek ra no F0symb L LH T HL H HL H HL L H L B LH
L
21
Funkcje melodii (intonacji) mowy
W języku polskim zmiany wysokości tonu
krtaniowego, charakteryzują wraz z rozłożeniem
akcentów, tempem wypowiedzi itp. dłuższe niż głoska odcinki wypowiedzi.
Zmiany F0 są nosicielami informacji o rozczłonowaniu składniowym tej wypowiedzi, o tym które jej fragmenty są szczególnie ważne, sygnalizują też koniec całej
wypowiedzi, lub któregoś z jej członów.
22
Obniżenie melodii jest zazwyczaj w wypowiedziach stanowiących zamkniętą całość. Podobnie jest w
pozbawionych emocji poleceniach i rozkazach. Na końcu tych odcinków wypowiedzi, które wyodrębniają się, ale nie stanowią jeszcze zamkniętej całości, a więc takich, po których ma nastąpić ciąg dalszy melodia się wznosi.
Podobnie melodia wznosi się na końcu zdania pytającego.
Wzmacnianie danej sylaby często odbywa się poprzez podniesienie częstotliwości F0 (w przykładzie na „O!”, czy „Jak to..”). Takie uwydatnianie nazywa się akcentem logicznym (zdaniowym). Na ogół, wymaga to ponadto zwiększenia iloczasu uwydatnianej sylaby.
Wzmocnienie sylaby
23
porządkują i organizują strukturę czasową wypowiedzi
są nosicielami informacji o jej podziale składniowym
sygnalizują gramatyczną funkcję wypowiedzi (przede wszystkim melodia jest nosicielem tej informacji)
sygnalizują stan emocjonalny
Rola cech prozodycznych w mowie
24
Jakiego typu jest to fraza?
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
13.5 13.75 14 14.25 14.5 14.75 15 15.25
vje vjur ka s'e dz'i na dZZe vje
Czas [s]
Czas [s]
Czas [s]
Czas [s]
F0 [półtony]
25
Było to zdanie niedokończone
vje
vjur
ka s'e
dz'i na
dZZe vje
i grI
z'e
o
Zex
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
13.5 13.75 14 14.25 14.5 14.75 15 15.25 15.5 15.75 16 16.25 16.5 16.75 17
F0 [półtony]
Czas [s]
26
Czy prozodia wpływa na artykulację ?
Intensywność i rejestr głosu
F0=262 Hz
F0=466 Hz F0=349 Hz
Przykłady zapisu nutowego fraz
wypowiedzianych przez K.Ch.
28
Muzyczna notacja dla mowy ?
• W dobie precyzyjnych pomiarów częstotliwości, czy ma jeszcze sens ?
• W muzyce podstawowym pojęciem jest interwał – różnica wysokości dwóch dźwięków wyrażona w jednostce miary, której podstawą jest oktawa i
półton
• Muzyczny interwał jest muzyczną odległością między dźwiękami o różnej wysokości – ma bezpośredni związek z percepcją wysokości.
• Interwały są związane z częstotliwością, ale nie są identyczne (w różnych oktawach te same interwały są w skali częstotliwości różne)
• Tony 220 Hz i 440 Hz są muzycznie identyczne
29
Muzyczne interwały nie zależą od zakresu
– Oktawa może być dzielona muzycznie na wiele sposobów
– Melodia może wykorzystywać tylko jakąś część muzycznej przestrzeni dźwiękowej
– Mowa rozciąga lub zmniejsza całą przestrzeń
dźwiękową. W zmienionej przestrzeni nadal dźwięk
Wysoki pozostaje nadal Wysoki bez względu na to, czy przestrzeń ta została rozciągnięta, czy
pomniejszona. W muzyce pomniejszony interwał jest różny od rozciągniętego
– Innymi słowy, muzyczna tonalność zmienia się w obrębie przestrzeni tonicznej, natomiast mowa tę przestrzeń sobie niemal dowolnie kształtuje
Mowa a muzyka
Nieadekwatność notacji muzycznej mowy
30
• Notacja nutowa sugeruje, że mowa jest
„muzyczna”.
• Muzyczna notacja może być myląca, sugerując strukturę tonalną melodii mowy, o czym nie ma przekonywujących danych.
• Jednakże badania neurologiczne wskazują na związek między percepcją konturu
melodycznego i intonacją, ale nie między
intonacją (w sensie lingwistycznym) i muzyczną tonalnością.
Manipulacja prozodią w syntezie mowy
praat
31
Po wczytaniu pliku wav, „Go to Manipulation”
Mowa jako ciąg krótkotrwałych segmentów
32
Modyfikacja czasu trwania
Podwojenie lub usunięcie segmentu
33
SOLA-Synchronized Overlap and Add
– Przesunięcie segmentów odpowiednio do wielkości współczynnika skalującego – Wzajemne ustawienie, przedział
nakładania/sumowania,
– Obliczenie korelacji wzajemnej w przedziale nakładania się
– Tak przesunąć względem siebie segmenty, by w tym przedziale współczynnik korelacji wzajemnej był maksymalny
– wzmacnianie/tłumienie j.w.
– Dowolne przesunięcie czasowe
• Przetwarzanie segmentów czasowych
- Segmentacja na ciągi x[n] w zachodzących na siebie ramkach
34
PSOLA
• Wariant metody OLA specjalnie dostosowany do przetwarzania mowy
• Podział sygnału na zachodzące na siebie okienka
• Podział zsynchronizowany z F0
– unikać miejsc z nieciągłościami F0
• Konieczne jest wstępne zaznaczenie na przebiegu sygnału miejsca impulsów krtaniowych
• Analiza:
– wyznaczenie okresów pobudzenia krtaniowego – ekstrakcja okienkowanych segmentów, których
środki znajdują w miejscach impulsów krtaniowych35
36
Synteza sygnału mowy
• Skalowanie czasowe:
– Skalowane segmenty muszą być dodane lub usunięte bez zmiany odległości między
sąsiednimi impulsami krtaniowymi
• Zmiana F0:
– Po syntezie czas trwania segmentu nie ulega
zmianie, natomiast konieczne jest przeskalowanie lokalnego okresu tonu krtaniowego
• Segmenty mogą być pomijane (kompresja/obniżenie wysokości głosu)
• Segmenty mogą być podwojone (rozciągnięcie/zwiększenie wysokości)
• Artefakty:
– „rozmazywanie tranzjentów”, słyszalne „cięcia”, zniekształcenia błędami fazowymi
37
Zmiana skali czasu - zwiększenie
Schematyczne przedstawienie odwzorowania osi czasu analizy w oś czasu syntezy
38
Modyfikowanie czasu – zmniejszenie
39
Modyfikowanie intonacji bez zmiany skali czasu
40
Multimedialna/multimodalna reprezentacja emocji
41
Jakie stany emocjonalne należy/można wyróżnić?
42
Uniwersalizm niektórych sposobów wyrażania stanów emocjonalnych
Ekman wykazał , że niektóre stany emocjonalne są wyrażane w sposób niezależny od środowiska
kulturowego:
– radość – smutek
– złość, gniew – strach, obawa
– odraza, wstręt (dla niektórych środowisk)
– zdziwienie, zaskoczenie (dla niektórych środowisk) Pozostałe są kulturowo zmienne, w tym i „obojętność”43
Dlaczego ważne jest rozpoznawanie stanów emocjonalnych w
dwustronnej komunikacji?
• Człowiek w codziennym komunikowaniu z otoczeniem wyraża swoje emocje
• Zrozumienie emocji i znajomość jak reagować w stosunku do ludzi
wyrażających swoje emocje znacznie wzbogaca wzajemne oddziaływanie
44
Emocje w interakcji człowiek –komputer
• Znając emocje użytkownika system może się do niego lepiej dostosować
• Rozpoznając i reagując adekwatnie (!) do stanu
emocjonalnego użytkownika system będzie oddziaływał na niego w sposób bardziej
naturalny, przekonywujący i wiarygodny
45
Sposoby wyrażania emocji
emocje znajdują swoje odzwierciedlenie w głosie, ruchach rąk i ciała, ale dla niektórych emocji, przede wszystkim w mimice twarzy
46
Multimodalna analiza twarzy
Oparta jest na analizie:
– Informacji o kolorze skóry – Cechy elipsoidalne głowy
– Gradient luminancji/chrominancji – Wstępny podział obszarów twarzy – Określenie cech wyrazu twarzy
– Analiza sygnałów mikrofonowych – …
47
Multimodalne środki emocji i jej rozpoznawanie
Obiekt analizy i rozpoznawania:
twarz (wyraz, mimika) + mowa (głos, treść)
• Rozpoznawanie emocji systemy
inteligentne (nadmiarowość, niepewność, niespójność informacji)
• Modelowanie emocji synteza emocji
• Interakcja rzeczywiste emocje baza danych
48
Rozpoznawanie emocji w systemie dialogowym
49
Analiza semantyczna emocji
50
...
II
...
I_hate
I_hate BadBad AdhorrenceAdhorrence first_person
first_person Radość Radość
Negative Negative Positive
Positive DisgustDisgust
Poziom Poziom wejściowywejściowy
słowa słowa
kategoryzacja kategoryzacja
frazy frazy
kategory- kategory- zacja
zacja
Wstręt Wstręt
I can‘t stand this nasty every tray traffic- jam
can‘t
can‘t standstand nastynasty cannot
cannot standstand badbad disgustingdisgusting Interpreta
Interpretacjacja
GoodGood
Złość Złość
Grupowanie Grupowanie
Przetwarzanie Przetwarzanie
ciągów ciągów
Grupowanie Grupowanie Grupowanie Grupowanie
Wyszukiwanie słów kluczowych Wyszukiwanie słów kluczowych
I_like
I_like ... ...
... ...
...
... ...
... ...
... ...
Leksykon wyrażeń emocjonalnych
Etapy multimodalnej analizy i syntezy emocji
• Multimodalna analiza twarzy mówiącej osoby (tzw. Face Tracking)
• Ekstrakcja cech mimiki twarzy
• Ekstrakcja cech głosu
• Multimodalne rozpoznawanie emocji
• Multimodalna synteza emocji
51
Anatomia a mimika twarzy
Ekman opracował system kodowania
ruchów mięśni twarzy -Facial Action Coding System (FACS):
Opis mięśni twarzy
szczęki i języka oparty na analizie anatomii twarzy
52
Określenie cech wyrazu twarzy
Detekcja i śledzenie zmian cech
– Lokalizacja : w procesie uczenia i/lub poprzez heurystykę
– Ekstrakcja: wykorzystanie wiedzy a priori – Informacje dotyczące kształtu/konturu – Chwilowe zmarszczki
– …
53
Określenie obszarów ekstrakcji cech wyrazu twarzy
54
Ekstrakcja cech wyrazu twarzy - kontury
55
”Maska emocjonalna”
56
Wektorowy opis mimiki twarzy
• wektory przesunięcia określonych elementów twarzy
57
Archetypy ekspresji wizerunku
Source: F. Parke and K. Waters, Computer Facial Animation, A K Peters
Zwane są
uniwersalnymi, bowiem są
jednoznacznie rozpoznawane r niezależnie od strefy kulturowej
58
Emocje niesione przez wyraz twarzy – synteza
Niektóre emocje w wyrazie twarzy są niemal bezbłędnie rozpoznawane
59
Stopniowanie emocji w wizerunku twarzy
60