• Nie Znaleziono Wyników

Dwięk w multimediach

N/A
N/A
Protected

Academic year: 2021

Share "Dwięk w multimediach"

Copied!
68
0
0

Pełen tekst

(1)

Dwięk w

multimediach

Ryszard Gubrynowicz

Ryszard.Gubrynowicz@pjwstk.edu.pl

(2)

2

Zaliczenie przedmiotu

Egzamin testowy na zakończenie.

Obecność na wykładach będzie miała wpływ na końcową ocenę

Konsultacje

Środa – godz 17.00 – 18.00...

(po uprzednim umówieniu się)

Pokój 302

(3)

Literatura Literatura

W języku polskim b. uboga

Podstawy akustyki:

 Korbecki M., Komputerowe Przetwarzanie Dźwięku, Mikom 1999, rozdz. 1-5

 Russel D. Acoustics and animation,

http://www.kettering.edu./~drussell/Demos.html

 http://faculty.washington.edu/dillon/PhonRe

Rosch W. L. (1997) Biblia o multimediach: multimedia od A

do Z, Intersoftland, Warszawa 1997

(4)

4

Literatura c.d.

Literatura c.d.

Analiza sygnału mowy:

 Dukiewicz L., Fonetyka [w] Fonetyka i Fonologia (red. H. Wróbel), Gramatyka

współczesnego języka polskiego, wyd. Instytutu Języka Polskiego PAN, Kraków, 1995 (rozdz. 4,5)

 Tadeusiewicz R., Sygnał Mowy, WKiŁ, Warszawa 1988

 Borden G.J., Harris K.S., Speech Science

Primer , 5 th ed., Williams&Wilkins, Baltimore,

2007

(5)

Literatura c.d.

Literatura c.d.

 Dukiewicz L., Fonetyka....

 Wierzchowska B., Fonetyka i fonologia

języka polskiego, Ossolineum, Warszawa,1980

 Huckvale M., Acoustics of Speech&Hearing, http://www.phon.ucl.ac.uk/courses/spsci/b214 /week.htm

Cechy fonetyczno-akustyczne dźwięków

mowy

(6)

6

Kolejne wykłady będzie można pobierać z sieci pod adresem:

http://www.pjwstk.edu.pl/~rgubryn/PJWSTK1.zip /PJWSTK2.zip

… … ..

Uwaga na duże litery !

(7)

Znaczenie terminu multimedia

 Multimedia jest pojęciem bardzo szerokim

 Na ogół niezbyt dokładnie zdefiniowane i zależne od punktu widzenia.

 Multi = wiele

 Media = l. mnoga medium = średni, środkowy, nośnik, środowisko, łącznik (mass-medium = środek masowego przekazu)

 Wiele środków równoczesnego przekazu

(8)

8

Elementy przekazu multimedialnego

Termin multimedia opisuje szereg różnych cyfrowych technologii umożliwiających połączenie mediów

wizualnych i dźwiękowych, w wyniku czego uzyskuje się złożone środki wyrazu.

Środki wyrazu (proste):

wideo (obraz ruchomy),

dźwięk,

animacja,

grafika,

tekst.

(9)

Cyfrowe Multimedia

• Czym jest technologia cyfrowych multimediów?

”Jest to dziedzina, obejmująca integrację informacji tekstowej, graficznej, dźwiękowej, obrazu (stałego i ruchomego) animacji, i każdego innego medium, w którym dowolny typ informacji może być

prezentowany, zapamiętywany i cyfrowo przetwarzany.”

F. Fluckiger

Komputer jest jedynym urządzeniem umożliwiającym

(10)

10

Podstawowe cechy systemów multimedialnych

- komputerowo sterowane (przez jeden lub wiele komputerów)

- zintegrowane (wszystkie środki wyrazu znajdują się w postaci cyfrowej na tej samej platformie technicznej) - informacja w postaci cyfrowej

- zapewniona jest interaktywność

Nb. odtwarzacz CD nie jest urządzeniem

multimedialnym

(11)

Równoległość przekazu w systemach multimedialnych

Cecha ta występuje w dwóch formach:

a)kilka mediów równolegle oddziałuje na odbiorcę

b) na odbiorcę oddziałują dwa (lub więcej)

środki wyrazu tego samego typu, np. dwie

sekwencje filmowe, dwa teksty itp. w jednej

sceni e.

(12)

12

Interaktywność w systemach multimedialnych

Ta cecha wyróżnia przekaz multimedialny od innych form przekazu medialnego (film, TV, wideo).

Charakterystyczną cechą multimediów jest ich interaktywność – użycie myszki, klawiszy (tekst), ekranu dotykowego, głosu, itp. przez użytkownika pozwala wpływać na postać

prezentowanej mu informacji.

(13)

Formy interaktywności

Odbiorca przekazu multimedialnego może:

•określić czas trwania i częstotliwość powtarzania określonego elementu prezentacji

•określić własną drogę przeglądania prezentacji (nawigacja otwarta)

•wprowadzić dane mające wpływ na dalszy przebieg prezentacji (pola wyboru, pola tekstowe)

•grupować wedle swego uznania różne elementy prezentacji (drag and drop)

•zmieniać elementy prezentacji (zmieniać kształt, ścieżkę dźwiękową, zamalowywać, itp.)

•wykonywać operacje na obiektach (obracać, przesuwać)

•poruszać się po wirtualnych pomieszczeniach

Na podstawie akcji odbiorcy system określa dalszy przebieg

(14)

14

Pragmatyczna definicja multimediów

Przekaz jest multimedialny, gdy spełnia następujące warunki:

a)jednocześnie wykorzystane są różne środki wyrazu

b)wszystkie środki wyrazu znajdują się w postaci cyfrowej na tej samej platformie

c)wszystkie środki wyrazu są połączone w jedną prezentację

d)kilka różnych mediów równocześnie oddziałuje na odbiorcę

e)użytkownik może aktywnie wpływać na przebieg

oraz treść prezentacji (interaktywność)

(15)

Integracja

Multimedialny system winien dawać

możliwość generowania, gromadzenia, przesyłania i prezentacji informacji w

sposób stanowiący jedną całość z punktu widzenia sterowania i komunikacji.

– Na poziomie komputera (integracja komputerowa)

– Na poziomie sieci (integracja

sieciowa)

(16)

16

Integracja

Pamięć dyskowa

Integracja gromadzenia

Integracja rejestracji Kamera

video

Pojedyncza sieć Integracja sieciowa Integracja prezentacji

Wbudowany mikrofon

Okno video

Okno tekstowe

Ser text

ver

CD-ROM

(17)

Przykłady integracji sieciowej

 Video telekonferencje.

 Zdalne nauczanie, e-gospodarka (e-learning, e- commerce).

 Telemedycyna.

 Środowiska współpracy, zespoły robocze.

 Zarządzanie wiedzą,

 Przeszukiwanie (b.dużych) baz danych video i

grafiki pod kątem wybranych obiektów wizualnych

 Rozszerzona rzeczywistość (augmented reality):

na rzeczywisty obraz nakładane są obiekty w postaci komputerowej grafiki i wideo z

uzupełniającą informacją o danej scenie

(18)

18

Ośrodek - percepcja

(19)

Człowiek jako odbiorca informacji multisensorycznej

Co najmniej jeden z narządów zmysłów jest zaangażowany w komunikacji

interaktywnej

np. przez dźwięki, tekst, hypertekst,

animacja, video, gesty, obrazy, dotyk

(20)

20

Narządy zmysłów w codziennym

oddziaływaniu otoczenia na człowieka

• Wzrok

• Słuch

• Dotyk

• Smak

• Powonienie

Każdy z narządów z osobna jest ważny, lecz dopiero razem umożliwiają pełną interakcję człowieka z otoczeniem.

Komputery nie umożliwiają tak wszechstronnej

interaktywności, ograniczając się do oddziaływania na

pierwsze z 3 wyżej wymienionych narządów zmysłów.

(21)

Cechy bodźców rozróżniane przez wzrok

(w zakresie widzialnym)

• intensywność,

• kolor,

• obrazy 2D i 3D

• kształty (znaki)

• zmiany w czasie (szybkość rejestracji do ok. 60- 100 na sek)

...

czułość wzroku – w bezksiężycową, bezchmurną

noc podobno można spostrzec światło zapałki z

odległości 1,6 km?.

(22)

Czułość oka

22

(23)

Cechy bodźców rozróżniane przez słuch

 Zakres częstotliwości – 20 Hz-16000 kHz (17,2 m- 2,15 cm)

 Rozróżnianie jednocześnie występujących składowych częstotliwościowych

 Reaguje na zmianę częstotliwości

 Czuły jest na przestrzenne własności dźwięku (położenie źródła, +echo, pogłos itp.)

 Barwa (rozróżnianie instrumentów muzycznych)

 Dźwięki, mowa, muzyka, hałas

(24)

24

Cechy bodźców rozróżniane przez dotyk - skóra, język, śluzówka itp.

• Nacisk

• Ruchy skóry

• Różnice temperatury

• Drgania

• Ból

• Szok elektryczny

(25)

Smak (język) i powonienie

• Słodki

• Kwaśny

• Gorzki

• Słony

• Nieokreślony

Człowiek jest w stanie rozróżnić ok.

10 000 różnych zapachów

(26)

26

Media w transmisji sygnałów

Zadaniem technologii mediów jest próba zastąpienia

rzeczywistych

bodźców sygnałami medialnymi

wywołującymi

podobne wrażenia u odbiorcy, jak

zarejestrowane

wcześniej bodźce.

(27)

Klasyfikacja mediów

Pojedyncze

obrazy Tekst

Zarejestrowane

z otoczenia Zsyntezowane

przez komputery ciągłe

(w czasie)

Dyskretne

(w przestrzeni) Grafika

Animacje Ruchome

obrazy Dźwięk

Czas/przestrzeń

Źródło

Mowa

Muzyka

(28)

28

Sprzęt i oprogramowanie w multimediach

Sprzęt komputerowy i odpowiednie

oprogramowanie stanowią warunek konieczny istnienia multimediów; są podstawowym

narzędziem do emisji przekazu multimedialnego.

Są też narzędziem do realizacji konwergencji mediów, czyli do łączenia różnych źródeł

przekazu w jednym miejscu i wzajemnego ich

przenikania oraz uzupełniania (więcej na ten

temat: np. Biblia o multimediach, Rosh 1997)

(29)

Multimodalny – multimedialny

Systemy multimodalne (na ogół dialogowe)

• wykorzystują więcej niż jeden zmysł (lub sposób ) w interakcji z użytkownikiem

• np. wizualny i słuchowy zmysł: procesor tekstów może jednocześnie wyświetlać wyrazy na monitorze i generować ich postać dźwiękową

Systemy multimedialne

• wykorzystują różne media do przekazywania informacji

• np. komputerowy system wspomagający uczenie:

może stosować video, animacje, tekst i nieruchome obrazy:

różne media, oddziaływujące wszystkie na jeden receptor wzrokowy.

może również wykorzystać dźwięki, zarówno mowę jak i dźwięki nieartykułowane (chrząkanie, gwizd itp., czy otoczenia), wówczas mamy 2 dodatkowe media

oddziaływujące receptor słuchowy na dwa różne sposoby.

Przykład systemu dialogowego: na wejściu – mowa, gesty,

ekspresja twarzy; na wyjściu – kombinacja obrazów, animacji

(30)

30

Dźwięk w multimediach

• Muzyka

• Dźwięki natury i otoczenia

• Paradźwięki generowane przez człowieka (chrząkanie, klaskanie, kroki itp.)

• Mowa i komputery:

– Kodowanie sygnału mowy

• W komunikacji komputerów z użytkownikami

– Rozpoznawanie i rozumienie mowy

• przez komputer

– Synteza mowy

• przez komputer

(31)

Interaktywne edytory sygnałów dźwiękowych

Jest to oprogramowanie umożliwiające wizualizację, odsłuchiwanie i przetwarzanie sygnałów akustycznych rejestrowanych przez mikrofon lub inne przetworniki.

Istotną cechą edytorów audio tego typu jest to, że za ich pomocą możemy modyfikować strukturę zapisanego w formie cyfrowej dźwięku, wprowadzać dodatkowe opisy poszczególnych jego segmentów.

Audacity ( Open Source ) adobe R Audition ™

WaveSurfer ( Open Source ) – Waves+ (Entropic)

(32)

32

Audacity

(33)

Audition

(34)

34

WaveSurfer

(35)

Praat

(36)

36

Odszumianie

Odszumianie – usuwanie z nagrań niepożądanych dźwięków

Zależnie od rodzaju i przeznaczenia

nagrania zakłóceniami mogą być szumy otoczenia, syki, gwizdy, mowa, muzyka, trzaski, stuki oraz szumy i zakłócenia

typu elektrycznego (np. „przydźwięk”),

Adaptacyjne odszumianie

(37)

Dlaczego mowa w systemach multimedialnych ?

– Naturalność komunikacji:

• Mowa jest najbardziej skutecznym (i na ogół najszybszym), łatwym i powszechnym sposobem porozumiewania się

– Skuteczność:

• W niektórych sytuacjach jest jedynym, możliwym środkiem porozumienia się

– Ekspresja:

• Pewne sytuacje, stany emocjonalne, nie są do oddania bez użycia mowy (języka naturalnego)

– Niekiedy jedyny środek komunikacji bezpośredniej:

• Telefon, radiotelefon itp. z osobami prowadzącymi pojazdy,

(38)

38

Układ akustyczny Układ akustyczny odbiornik

odbiornik - - ośrodek ośrodek - - źródło źródło

(39)

Podstawą wszelkiej komunikacji Podstawą wszelkiej komunikacji

człowiek-człowiek jest język człowiek-człowiek jest język

Język – system znaków i określonych reguł fonologicznych, syntaktycznych i

semantycznych rządzących kombinacją tych znaków

Mowa – język mówiony

Pismo – język pisany, obrazki Miganie – język migowy (polski,

norweski, niemiecki itp.)

(40)

40

Mowa jest jednym z

Mowa jest jednym z wielu wielu sposobów sposobów przekazywania informacji.

przekazywania informacji. Specyfiką mowy Specyfiką mowy jest to, że ma postać dźwiękową. Jest

jest to, że ma postać dźwiękową. Jest zazwyczaj kodowana w postaci ciągu zazwyczaj kodowana w postaci ciągu

dźwięków o określonych charakterystykach.

dźwięków o określonych charakterystykach.

Kod jest specyficzny dla danego języka, co Kod jest specyficzny dla danego języka, co powoduje, że każdy język ma określony dla powoduje, że każdy język ma określony dla

siebie zbiór dźwięków mowy.

siebie zbiór dźwięków mowy.

Formalna definicja mowy

Formalna definicja mowy

(41)

W komunikacji człowiek - otoczenie

• Mówienie jest szybsze, niż pisanie

(wprawna osoba ok. 100 zn/s, słaba - 30 zn/s)

• Słuchanie jest łatwiejsze, niż czytanie

• Pokazanie jest efektywniejsze, niż

opisanie

(42)

42

Schemat komunikacji werbalnej

(43)

Tor audio-wizualny mowy

(44)

44

Informacje niesione przez sygnał mowy

 Informacje lingwistyczne

 Informacje artykulacyjne (fonetyczne)

 Informacje emocjonalne

 Informacje osobnicze

Informacje o zaburzeniach organicznych mowy Informacje o zaburzeniach neurogennych mowy Informacje społeczne, kulturowe, nawykowe, itp.

 Informacje o otoczeniu – hałasy, pogłos itp

(45)

Wszystko jest jasne (znaczenie informacji lingwistycznych)

• Zogndie z nanjwoymszi bnaiadmai perzporawdzomyni na btyryijskch

uneruwstytetiach nie ma znczeania, w jaikej kloejnśoci nazpsiemy lietry wenątwrz wryazu, blye tlkyo pirwesza i otstaina lreita błyy na

soiwch mijsecach. Rtszea mżoe być dolnwoie poszamienina, a mmio to bedęzimy w stniae pczyrzteać tkest bez wikszęego prleobmu.

Diezje się tak dlteago, że nie cztaymy kżdeaj z

lteir odelndziie, ale wrayz jkao cłoaść. 

(46)

46

Mowa w systemie dialogowym

Synteza mowy mowy

Rozpoznawanie Interpretacja semantyczna

Generacja odpowiedzi

Organizacja dialogu Interpretacja

wypowiedzi

U

ż

y

t

k

o

w

n

i

c

y

(47)

Architektura systemu dialogowego

(48)

48

Parametry sygnału mowy

oscylogram

widmo + formanty

poziom

wysokość

głosu

iloczas

(49)

Wielowarstwowy opis sygnału mowy

(50)

50

Potencjalne zastosowania mowy

zabawki

Palmtopy Komórki

Kioski informacyjne

Zastosowania w środkach

lokomocji

Urządzenia audio/video

(51)

Pierwsze handlowe urządzenie Pierwsze handlowe urządzenie czytające dla niewidomych (1976) czytające dla niewidomych (1976)

– ok. 50 000$

– ok. 50 000$

(52)

52

Synteza mowy

Synteza mowy

(53)

Podstawowe elementy systemu TTS

Podstawowe elementy systemu TTS

(54)

54

Moduł analizy tekstu Moduł analizy tekstu

Moduł ten powinien dostarczyć całą informację dotyczącą tekstu, nie będącą w swej naturze fonetyczną, mającą jednak wpływ na działanie modułu fonetycznego

W najprostszych systemach moduł ten dokonuje konwersji znaków nieortograficznych np. liczb.

Bardziej rozwinięte systemy dokonują analizy

znaków takich jak spacje, znaków przestankowych itp., w celu dokonania bardziej szczegółowej

analizy syntaktycznej i semantycznej tekstu

podzielonego na zdania. Analiza ta jest prowadzona pod kątem określenia tych atrybutów, które mogą wspomóc analizę fonetyczną i generację cech

prozodycznych

(55)

Analiza tekstu

Tekst może być analizowany jako jedna z form bardzo efektywnego kodowania mowy z dużą jednak możliwością jego interpretowania pod względem stylu, intonacji, tempa, rytmu itp.

Relacja między tekstem pisanym i mówionym jest jednak często niezwykle złożona, szczególnie, gdy mamy do czynienia z tekstami z dodatkowymi

opisami, np. przesyłanymi via Internet.

Moduł analizy tekstu określa typ i strukturę

przetwarzanego dokumentu, dokonuje konwersji nieortograficznych znaków, rozbioru

gramatycznego, analizy syntaktycznej,

(56)

56

Przykład normalizacji tekstu Przykład normalizacji tekstu

Np. moduł analizy lingwistycznej musi

dokonać interpretacji znaku przestankowego

„kropki”, czy jest końcem zdania, czy elementem skrótu.

„W doświadczeniach finansowanych przez MEN zastosowano 7% roztwór HCl.”

W doświadczeniach finansowanych przez

Ministerstwo Edukacji i Nauki zastosowano

siedmioprocentowy roztwór kwasu solnego

(57)

Normalizacja tekstu polega na ujednoliceniu konwersji wszystkich symboli, liczb i znaków nieortograficznych w transkrypcji

ortograficznej, w postaci umożliwiającej następnie ich konwersję na ciąg znaków transkrypcji fonetycznej

Analiza lingwistyczna tekstu obejmuje wybrane elementy syntaktyczne i semantyczne takie jak słowo, fraza, zdanie, wypowiedź by ocenić ich wpływ na samą wymowę i cechy prozodyczne

Normalizacja tekstu i analiza Normalizacja tekstu i analiza

lingwistyczna

lingwistyczna

(58)

58

Moduł analizy tekstu Moduł analizy tekstu

i analizy fonetycznej i analizy fonetycznej

Morfologia – budowa i odmiana wyrazów

(59)

Analiza fonetyczna Analiza fonetyczna

Działanie modułu fonetycznego ma na celu

dokonanie konwersji wyrazów przedstawionych w postaci kodu ortograficznego na kod fonetyczny z dodatkowymi informacjami (np. dotyczącymi

akcentu), określającymi ich wymowę.

Analiza morfologiczna umożliwia określenie

wymowy deklinacyjnych i koniugacyjnych form

wyrazów znajdujących się w słowniku, a przede

wszystkim zmianę znaczenia spowodowaną

(60)

60

Moduł syntezy mowy Moduł syntezy mowy

Synteza konkatenacyjna

Moduł ten generuje akustyczny sygnał

mowy, na podstawie sekwencji określonych fonemów uzyskanych na podstawie

przetwarzania tekstu, wzorców iloczasowych,

konturu melodycznego i obwiedni amplitudy

(61)

Schemat systemu syntezy Schemat systemu syntezy

konkatenacyjnej

konkatenacyjnej

(62)

62

Problemy w syntezie Problemy w syntezie

konkatenacyjnej konkatenacyjnej

Wybór jednostek – głoski, difony(diady), sylaby, wyrazy?

Jak stworzyć bazę jednostek? Jakie powinny być jej rozmiary?

Jak określić optymalny system wyboru i łączenia ze sobą segmentów?

Jak modyfikować cechy prozodyczne

stworzonego łańcucha segmentów?

(63)

Difony – wady i zalety Difony – wady i zalety

Difon – element zawierający w całości przejście

między głoskami, poprzedzone częścią głoski

poprzedzającej i zakończone częścią głoski

następującej

(64)

64

Montowanie wypowiedzi z difonów Montowanie wypowiedzi z difonów

Difon –eS-

Szczebrzeszyn

Zamiana kodu ortograficznego na kod fonematyczny:

_S StS tSe eb bZ ZI In n_

(65)

Przykłady syntezy konkatenacyjnej Przykłady syntezy konkatenacyjnej

MBROLA-PL MBROLA-D

(66)

66

„Konwersja tekstu na mowę... ””

„KONWÓJ”

„WERSJA”

„ATEST”

„TEKST”

„TUNEL”

„NAMOWA”

„TRAWĘ”

KONW

WERSJA ATE

EKST

TUN

NAMOW WĘ

System optymalnej selekcji System optymalnej selekcji

segmentów

segmentów

(67)

Czy może syntezator coś zaśpiewać ?

Czy może syntezator coś zaśpiewać ?

(68)

68

BALDI BALDI

http://cslu.cse.ogi.edu/toolkit/download/

index.html

Pakiet

Cytaty

Powiązane dokumenty

przykładem jest relacja koloru zdefiniowana na zbiorze wszystkich samochodów, gdzie dwa samochody są w tej relacji, jeśli są tego samego koloru.. Jeszcze inny przykład to

nierozsądnie jest ustawić się dziobem żaglówki w stronę wiatru – wtedy na pewno nie popłyniemy we właściwą stronę – ale jak pokazuje teoria (i praktyka), rozwiązaniem

W przestrzeni dyskretnej w szczególności każdy jednopunktowy podzbiór jest otwarty – dla każdego punktu możemy więc znaleźć taką kulę, że nie ma w niej punktów innych niż

Spoglądając z różnych stron na przykład na boisko piłkarskie, możemy stwierdzić, że raz wydaje nam się bliżej nieokreślonym czworokątem, raz trapezem, a z lotu ptaka

Następujące przestrzenie metryczne z metryką prostej euklidesowej są spójne dla dowolnych a, b ∈ R: odcinek otwarty (a, b), odcinek domknięty [a, b], domknięty jednostronnie [a,

nierozsądnie jest ustawić się dziobem żaglówki w stronę wiatru – wtedy na pewno nie popłyniemy we właściwą stronę – ale jak pokazuje teoria (i praktyka), rozwiązaniem

W przestrzeni dyskretnej w szczególności każdy jednopunktowy podzbiór jest otwarty – dla każdego punktu możemy więc znaleźć taką kulę, że nie ma w niej punktów innych niż

Zbiór liczb niewymiernych (ze zwykłą metryką %(x, y) = |x − y|) i zbiór wszystkich.. Formalnie: