Dwięk w multimediach

(1)

1

Dwięk w

multimediach

Ryszard Gubrynowicz

Ryszard.Gubrynowicz@pjwstk.edu.pl

Wykład 6

(2)

2

Sylaby fonetyczne

Zmiany głośności między kolejnymi

głoskami w strumieniu dźwięków mowy warunkują podział wypowiedzi na tzw.

sylaby fonetyczne. Rdzeniem (ośrodkiem) sylaby fonetycznej jest segment głoskowy różniący się poziomem głośności od

swego najbliższego otoczenia. Jego

głośność jest niemal zawsze większa od głośności głoski występującej

bezpośrednio przed nim i po nim.

(3)

3

Granice między sylabami

Granice sylab fonetycznych wypadają w momentach zamknięcia toru

głosowego lub powstania w nim

znacznego zwężenia, ewentualnie w chwili wystąpienia tzw. pauzy

akustycznej.tS I m u gb I p a n p S I s wa ts' k o g o z' v e f t o r e k r a n o tSI mug bI pan pSI swats' ko goz' ve fto rek ra no

Przebieg zmian intensywności

(4)

4

Struktura sylabiczna wypowiedzi

Sylaba nie stanowi elementu funkcjonalnego jakim jest głoska. Jej jedyną funkcją jest segmentacja

wypowiedzi, ułatwiająca artykulację i percepcję.

Segmentacja ta dokonuje się poprzez rytmizację ciągu segmentów, spowodowaną podziałem tego ciągu na skutek chwilowych obniżeń poziomu

emitowanego sygnału mowy.

Obniżenia te są wywoływane przez zwarcia, bądź

szczeliny będącymi źródłem pobudzenia szumowego o niskim poziomie. Ośrodkami sylab są głoski o

najwyższym poziomie (na ogół są to samogłoski).

(5)

5

Poziom intensywności

w sylabach „uwydatnionych”

tS I m o Z e m i p a n' i p

tSI mo Ze mi pa n'i po

20 25 30 35 40 45 50 55 60 65 70 75 80

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

(6)

6

Akcent wyrazowy

Definicja akcentu: Jest to to proces uwydatniający wybrane segmenty w sygnale mowy ciągłej, np.

sylab w wyrazach lub wyrazów w zdaniach.

Uwydatnienie sylaby akcentowanej może polegać na silniejszym, a zarazem głośniejszym jej

wypowiedzeniu, na bardziej precyzyjnym jej

wymówieniu, co może spowodować jej wydłużenie czasu trwania.

Może też wystąpić tylko podwyższenie (niekiedy obniżenie) częstotliwości pobudzenia krtaniowego.

(7)

W zależności od tego, który z tych czynników przeważa, akcent jest określany jako:

dynamiczny

– gdy czynnikiem

dominującym w płaszczyźnie akustycznej są zmiany intensywności

rytmiczny

^– gdy o wrażeniu akcentu

decydują zmiany iloczasów sylab, lub

melodyczny

– gdy akcentowanie sylaby jest realizowane poprzez zmianę wysokości głosu Dla języka polskiego przyjmuje się , że akcent jest zazwyczaj dynamiczny, choć jest to dyskusyjne.

7

Akcent dynamiczny, rytmiczny

i melodyczny

(8)

8

Położenie akcentu

Przyjmuje się, że w języku polskim akcent wyrazowy jest stały i spoczywa w zasadzie na przedostatniej sylabie formy wyrazowej. Są formy wyrazowe nie mające samodzielnego akcentu np. „się”, „ci”, „za”,

„mnie” itp. i dołączają się do wyrazu mającego swój akcent – np. „pod_lasem”.

Akcent wyrazów zapożyczonych jest na ogół na 3-ej sylabie od końca – „logika”. To samo może wystąpić w niektórych formach czasownikowych –

„widzieliśmy”.

Dłuższe formy wyrazowe obok akcentu na sylabie przedostatniej mają także akcent na pierwszej

sylabie (akcent główny) – „prawdopodobnie” (o tym zadecydowały względy rytmiczne i melodyczne)

(9)

9

Przykład analizy położenia akcentu

tS I m o Z e m i p a n' i p

tSI mo Ze mi pa n'i po

20 25 30 35 40 45 50 55 60 65 70 75 80

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8

tSI mo ^Ze ^mi pa ⁿⁱ

Wpływ iloczasu na percepcję akcentu

tSI mo ^Ze ^mi pa ⁿⁱ

(10)

10

tS I m o Z e m i p a n' i

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 20

25 30 35 40 45 50 55 60 65 70 75 80 85 90

Czas [s]

Wpływ poziomu intensywności na

percepcję akcentu

(11)

11

Wpływ F0 na percepcję akcentu

tS

I m

o Z

e

m i

p a

n' i

tS

I m

o

Z e

m i

p

a

n' i

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4

Time [s]

(12)

12

Przykład melodii zdania angielskiego –

„I wanted chocolate and cake”

aj won

thIt

tSo

klet

end kejk

aj

won tIt

tSo

klet

ent

kejk aj

wont zen kejk

aj won

ted tSo

klet

end

kejk

-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 10

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6

Czas [s]

kolor czarny – melodia standardowa; pozostałe kolory z przenoszeniem akcentu

zielony – „I”

czerwony– „and”

niebieski – „cake”

(13)

13

Realizacja akcentu w płaszczyźnie akustycznej

W zależności od języka mówca posługuje się jednym z akcentów jako dominującym dla danego języka.

W przykładzie dla języka angielskiego (z dominującym akcentem melodycznym), mówca niekiedy dodaje również akcent dynamiczny, a niekiedy obserwuje się wydłużenie sylaby, by uzyskać na niej słyszalne podniesienie melodii.

(14)

Jak jest realizowany akcent w języku polskim?

% czas trwania sylab

-sylaby akcentowane

14

(15)

15

Wpływ zwiększenia iloczasu

samogłoski /i/ w sylabie /bli/ i

skrócenia samogłoski /e/ w /kle/

(16)

16

Wpływ spłaszczenia konturu melodycznego

Iloczas sylab nie modyfikowany

Iloczas sylab jednakowy

Iloczas sylaby /bli/

zwiększony

(17)

17

Przykład zapisu muzycznego melodii mowy

o

v I

p r

a S

a m

t o

s o

b j

e

j a k

t

o

j a n' n' e r

o b

j e

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5 2.75 3 3.25 3.5 3.75 4 4.25 4.5

Czas [s]

(18)

18

Rozkład iloczasów sylab

F0

F0 F0

(19)

Przebieg zmian F0, A i iloczasów samogłosek

19

Time (s)

0 6.754

Pitch (semitones re 100 Hz)

10 26

o

v I

p r

a

S

a

m t

o s

o

b j

e

j a k

t

o

j a n n’

e r

o

b j

e

Time (s)

0 6.754

10 26

o

v I

p r

a

S

a

m t

o s

o

b j

e

j a k

t

o

j a n n’

e r

o

b j

e

o v I p r a S a m t o s o b j e j a k t o j a n n’ e r o b j e 10

26

18

Time (s)

0 6.754

o

v I p

r a

S

a m

t o s

o b j

e

j a k

t

o

j a n n’e r o

b j

e

1011 1213 1415 1617 1819 2021 2223 2425 26

75 80 85 90

00 5

0 1 2 3 4 5 6

Czas s

F0 (sem) A (dB)

Czas (s)

o v I p r a S a m t o s o b j e j a k t o j a n n’ e r o b j e

(20)

20

Opis symboliczny melodii zdania

tSIm ug

b I

p a

n p

S

I sw a

ts' k o

g o

z'v e

f

t o r

e k r

a n o

6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 2.25 2.5

Czas [s]

T

B L

LH

HL

H HL H

HL H

L

LH

sylaby tSI mug bI pan pSI swatc’ ko goz’ ve fto rek ra no F0_symb L LH T HL H HL H HL L H L B LH

L

(21)

21

Funkcje melodii (intonacji) mowy

W języku polskim zmiany wysokości tonu

krtaniowego, charakteryzują wraz z rozłożeniem

akcentów, tempem wypowiedzi itp. dłuższe niż głoska odcinki wypowiedzi.

Zmiany F0 są nosicielami informacji o rozczłonowaniu składniowym tej wypowiedzi, o tym które jej fragmenty są szczególnie ważne, sygnalizują też koniec całej

wypowiedzi, lub któregoś z jej członów.

(22)

22

Obniżenie melodii jest zazwyczaj w wypowiedziach stanowiących zamkniętą całość. Podobnie jest w

pozbawionych emocji poleceniach i rozkazach. Na końcu tych odcinków wypowiedzi, które wyodrębniają się, ale nie stanowią jeszcze zamkniętej całości, a więc takich, po których ma nastąpić ciąg dalszy melodia się wznosi.

Podobnie melodia wznosi się na końcu zdania pytającego.

Wzmacnianie danej sylaby często odbywa się poprzez podniesienie częstotliwości F0 (w przykładzie na „O!”, czy „Jak to..”). Takie uwydatnianie nazywa się akcentem logicznym (zdaniowym). Na ogół, wymaga to ponadto zwiększenia iloczasu uwydatnianej sylaby.

Wzmocnienie sylaby

(23)

23

 porządkują i organizują strukturę czasową wypowiedzi

 są nosicielami informacji o jej podziale składniowym

 sygnalizują gramatyczną funkcję wypowiedzi (przede wszystkim melodia jest nosicielem tej informacji)

 sygnalizują stan emocjonalny

Rola cech prozodycznych w mowie

(24)

24

Jakiego typu jest to fraza?

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

13.5 13.75 14 14.25 14.5 14.75 15 15.25

vje vjur ka s'e dz'i na dZZe vje

Czas [s]

F0 [półtony]

(25)

25

Było to zdanie niedokończone

vje

vjur

ka s'e

dz'i na

dZZe vje

i grI

z'e

o

Zex

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

13.5 13.75 14 14.25 14.5 14.75 15 15.25 15.5 15.75 16 16.25 16.5 16.75 17

F0 [półtony]

Czas [s]

(26)

26

Czy prozodia wpływa na artykulację ?

Intensywność i rejestr głosu

F0=262 Hz

F0=466 Hz F0=349 Hz

(27)

Przykłady zapisu nutowego fraz

wypowiedzianych przez K.Ch.

(28)

28

Muzyczna notacja dla mowy ?

• W dobie precyzyjnych pomiarów częstotliwości, czy ma jeszcze sens ?

• W muzyce podstawowym pojęciem jest interwał – różnica wysokości dwóch dźwięków wyrażona w jednostce miary, której podstawą jest oktawa i

półton

• Muzyczny interwał jest muzyczną odległością między dźwiękami o różnej wysokości – ma bezpośredni związek z percepcją wysokości.

• Interwały są związane z częstotliwością, ale nie są identyczne (w różnych oktawach te same interwały są w skali częstotliwości różne)

• Tony 220 Hz i 440 Hz są muzycznie identyczne

(29)

29

Muzyczne interwały nie zależą od zakresu

– Oktawa może być dzielona muzycznie na wiele sposobów

– Melodia może wykorzystywać tylko jakąś część muzycznej przestrzeni dźwiękowej

– Mowa rozciąga lub zmniejsza całą przestrzeń

dźwiękową. W zmienionej przestrzeni nadal dźwięk

Wysoki pozostaje nadal Wysoki bez względu na to, czy przestrzeń ta została rozciągnięta, czy

pomniejszona. W muzyce pomniejszony interwał jest różny od rozciągniętego

– Innymi słowy, muzyczna tonalność zmienia się w obrębie przestrzeni tonicznej, natomiast mowa tę przestrzeń sobie niemal dowolnie kształtuje

Mowa a muzyka

(30)

Nieadekwatność notacji muzycznej mowy

30

• Notacja nutowa sugeruje, że mowa jest

„muzyczna”.

• Muzyczna notacja może być myląca, sugerując strukturę tonalną melodii mowy, o czym nie ma przekonywujących danych.

• Jednakże badania neurologiczne wskazują na związek między percepcją konturu

melodycznego i intonacją, ale nie między

intonacją (w sensie lingwistycznym) i muzyczną tonalnością.

(31)

Manipulacja prozodią w syntezie mowy

praat

31

Po wczytaniu pliku wav, „Go to Manipulation”

(32)

Mowa jako ciąg krótkotrwałych segmentów

32

(33)

Modyfikacja czasu trwania

Podwojenie lub usunięcie segmentu

33

(34)

SOLA-Synchronized Overlap and Add

– Przesunięcie segmentów odpowiednio do wielkości współczynnika skalującego  – Wzajemne ustawienie, przedział

nakładania/sumowania,

– Obliczenie korelacji wzajemnej w przedziale nakładania się

– Tak przesunąć względem siebie segmenty, by w tym przedziale współczynnik korelacji wzajemnej był maksymalny

– wzmacnianie/tłumienie j.w.

– Dowolne przesunięcie czasowe

• Przetwarzanie segmentów czasowych

- Segmentacja na ciągi x[n] w zachodzących na siebie ramkach

34

(35)

PSOLA

• Wariant metody OLA specjalnie dostosowany do przetwarzania mowy

• Podział sygnału na zachodzące na siebie okienka

• Podział zsynchronizowany z F0

– unikać miejsc z nieciągłościami F0

• Konieczne jest wstępne zaznaczenie na przebiegu sygnału miejsca impulsów krtaniowych

• Analiza:

– wyznaczenie okresów pobudzenia krtaniowego – ekstrakcja okienkowanych segmentów, których

środki znajdują w miejscach impulsów krtaniowych₃₅

(36)

36

(37)

Synteza sygnału mowy

• Skalowanie czasowe:

– Skalowane segmenty muszą być dodane lub usunięte bez zmiany odległości między

sąsiednimi impulsami krtaniowymi

• Zmiana F0:

– Po syntezie czas trwania segmentu nie ulega

zmianie, natomiast konieczne jest przeskalowanie lokalnego okresu tonu krtaniowego

• Segmenty mogą być pomijane (kompresja/obniżenie wysokości głosu)

• Segmenty mogą być podwojone (rozciągnięcie/zwiększenie wysokości)

• Artefakty:

– „rozmazywanie tranzjentów”, słyszalne „cięcia”, zniekształcenia błędami fazowymi

37

(38)

Zmiana skali czasu - zwiększenie

Schematyczne przedstawienie odwzorowania osi czasu analizy w oś czasu syntezy

38

(39)

Modyfikowanie czasu – zmniejszenie

39

(40)

Modyfikowanie intonacji bez zmiany skali czasu

40

(41)

Multimedialna/multimodalna reprezentacja emocji

41

(42)

Jakie stany emocjonalne należy/można wyróżnić?

42

(43)

Uniwersalizm niektórych sposobów wyrażania stanów emocjonalnych

Ekman wykazał , że niektóre stany emocjonalne są wyrażane w sposób niezależny od środowiska

kulturowego:

– radość – smutek

– złość, gniew – strach, obawa

– odraza, wstręt (dla niektórych środowisk)

– zdziwienie, zaskoczenie (dla niektórych środowisk) Pozostałe są kulturowo zmienne, w tym i „obojętność”₄₃

(44)

Dlaczego ważne jest rozpoznawanie stanów emocjonalnych w

dwustronnej komunikacji?

• Człowiek w codziennym komunikowaniu z otoczeniem wyraża swoje emocje

• Zrozumienie emocji i znajomość jak reagować w stosunku do ludzi

wyrażających swoje emocje znacznie wzbogaca wzajemne oddziaływanie

44

(45)

Emocje w interakcji człowiek –komputer

• Znając emocje użytkownika system może się do niego lepiej dostosować

• Rozpoznając i reagując adekwatnie (!) do stanu

emocjonalnego użytkownika system będzie oddziaływał na niego w sposób bardziej

naturalny, przekonywujący i wiarygodny

45

(46)

Sposoby wyrażania emocji

emocje znajdują swoje odzwierciedlenie w głosie, ruchach rąk i ciała, ale dla niektórych emocji, przede wszystkim w mimice twarzy

46

(47)

Multimodalna analiza twarzy

Oparta jest na analizie:

– Informacji o kolorze skóry – Cechy elipsoidalne głowy

– Gradient luminancji/chrominancji – Wstępny podział obszarów twarzy – Określenie cech wyrazu twarzy

– Analiza sygnałów mikrofonowych – …

47

(48)

Multimodalne środki emocji i jej rozpoznawanie

Obiekt analizy i rozpoznawania:

twarz (wyraz, mimika) + mowa (głos, treść)

• Rozpoznawanie emocji  systemy

inteligentne (nadmiarowość, niepewność, niespójność informacji)

• Modelowanie emocji  synteza emocji

• Interakcja  rzeczywiste emocje  baza danych

48

(49)

Rozpoznawanie emocji w systemie dialogowym

49

(50)

Analiza semantyczna emocji

50

...

II

...

I_hate

I_hate BadBad AdhorrenceAdhorrence first_person

first_person Radość Radość

Negative Negative Positive

Positive DisgustDisgust

Poziom Poziom wejściowywejściowy

słowa słowa

kategoryzacja kategoryzacja

frazy frazy

kategory- kategory- zacja

zacja

Wstręt Wstręt

I can‘t stand this nasty every tray traffic- jam

can‘t

can‘t standstand nastynasty cannot

cannot standstand badbad disgustingdisgusting Interpreta

Interpretacjacja

GoodGood

Złość Złość

Grupowanie Grupowanie

Przetwarzanie Przetwarzanie

ciągów ciągów

Grupowanie Grupowanie Grupowanie Grupowanie

Wyszukiwanie słów kluczowych Wyszukiwanie słów kluczowych

I_like

I_like ... ...

... ...

...

... ...

Leksykon wyrażeń emocjonalnych

(51)

Etapy multimodalnej analizy i syntezy emocji

• Multimodalna analiza twarzy mówiącej osoby (tzw. Face Tracking)

• Ekstrakcja cech mimiki twarzy

• Ekstrakcja cech głosu

• Multimodalne rozpoznawanie emocji

• Multimodalna synteza emocji

51

(52)

Anatomia a mimika twarzy

Ekman opracował system kodowania

ruchów mięśni twarzy -Facial Action Coding System (FACS):

Opis mięśni twarzy

szczęki i języka oparty na analizie anatomii twarzy

52

(53)

Określenie cech wyrazu twarzy

Detekcja i śledzenie zmian cech

– Lokalizacja : w procesie uczenia i/lub poprzez heurystykę

– Ekstrakcja: wykorzystanie wiedzy a priori – Informacje dotyczące kształtu/konturu – Chwilowe zmarszczki

– …

53

(54)

Określenie obszarów ekstrakcji cech wyrazu twarzy

54

(55)

Ekstrakcja cech wyrazu twarzy - kontury

55

(56)

”Maska emocjonalna”

56

(57)

Wektorowy opis mimiki twarzy

• wektory przesunięcia określonych elementów twarzy

57

(58)

Archetypy ekspresji wizerunku

Source: F. Parke and K. Waters, Computer Facial Animation, A K Peters

Zwane są

uniwersalnymi, bowiem są

jednoznacznie rozpoznawane r niezależnie od strefy kulturowej

58

(59)

Emocje niesione przez wyraz twarzy – synteza

Niektóre emocje w wyrazie twarzy są niemal bezbłędnie rozpoznawane

59

(60)

Stopniowanie emocji w wizerunku twarzy

60

Dwięk w multimediach

Dwięk w

multimediach

Sylaby fonetyczne

Granice między sylabami

Struktura sylabiczna wypowiedzi

Poziom intensywności

w sylabach „uwydatnionych”

Akcent wyrazowy

dynamiczny

rytmiczny

melodyczny

Akcent dynamiczny, rytmiczny

i melodyczny

Położenie akcentu

Przykład analizy położenia akcentu

Wpływ poziomu intensywności na

percepcję akcentu

Wpływ F0 na percepcję akcentu

Realizacja akcentu w płaszczyźnie akustycznej

Jak jest realizowany akcent w języku polskim?

Wpływ zwiększenia iloczasu

samogłoski /i/ w sylabie /bli/ i

skrócenia samogłoski /e/ w /kle/

Wpływ spłaszczenia konturu melodycznego

Rozkład iloczasów sylab

Przebieg zmian F0, A i iloczasów samogłosek

Opis symboliczny melodii zdania

Funkcje melodii (intonacji) mowy

Wzmocnienie sylaby

Rola cech prozodycznych w mowie

Jakiego typu jest to fraza?

Było to zdanie niedokończone

Czy prozodia wpływa na artykulację ?

Przykłady zapisu nutowego fraz

wypowiedzianych przez K.Ch.

Muzyczna notacja dla mowy ?

Mowa a muzyka

Nieadekwatność notacji muzycznej mowy

Manipulacja prozodią w syntezie mowy

praat

Mowa jako ciąg krótkotrwałych segmentów

Modyfikacja czasu trwania

SOLA-Synchronized Overlap and Add

PSOLA

Synteza sygnału mowy

Zmiana skali czasu - zwiększenie

Modyfikowanie czasu – zmniejszenie

Modyfikowanie intonacji bez zmiany skali czasu

Multimedialna/multimodalna reprezentacja emocji

Jakie stany emocjonalne należy/można wyróżnić?

Uniwersalizm niektórych sposobów wyrażania stanów emocjonalnych

Dlaczego ważne jest rozpoznawanie stanów emocjonalnych w

dwustronnej komunikacji?

Emocje w interakcji człowiek –komputer

Sposoby wyrażania emocji

Multimodalna analiza twarzy

Multimodalne środki emocji i jej rozpoznawanie

Rozpoznawanie emocji w systemie dialogowym

Analiza semantyczna emocji

Etapy multimodalnej analizy i syntezy emocji

Anatomia a mimika twarzy

Określenie cech wyrazu twarzy

Określenie obszarów ekstrakcji cech wyrazu twarzy

Ekstrakcja cech wyrazu twarzy - kontury

”Maska emocjonalna”

Wektorowy opis mimiki twarzy

Archetypy ekspresji wizerunku

Emocje niesione przez wyraz twarzy – synteza

Stopniowanie emocji w wizerunku twarzy

Dwięk w multimediach

Dwięk w