Dwięk w
multimediach
Ryszard Gubrynowicz
Ryszard.Gubrynowicz@pjwstk.edu.pl
2
Zaliczenie przedmiotu
Egzamin testowy na zakończenie.
Obecność na wykładach będzie miała wpływ na końcową ocenę
Konsultacje
Środa – godz 17.00 – 18.00...
(po uprzednim umówieniu się)
Pokój 302
Literatura Literatura
W języku polskim b. uboga
Podstawy akustyki:
Korbecki M., Komputerowe Przetwarzanie Dźwięku, Mikom 1999, rozdz. 1-5
Russel D. Acoustics and animation,
http://www.kettering.edu./~drussell/Demos.html
http://faculty.washington.edu/dillon/PhonRe
Rosch W. L. (1997) Biblia o multimediach: multimedia od A
do Z, Intersoftland, Warszawa 1997
4
Literatura c.d.
Literatura c.d.
Analiza sygnału mowy:
Dukiewicz L., Fonetyka [w] Fonetyka i Fonologia (red. H. Wróbel), Gramatyka
współczesnego języka polskiego, wyd. Instytutu Języka Polskiego PAN, Kraków, 1995 (rozdz. 4,5)
Tadeusiewicz R., Sygnał Mowy, WKiŁ, Warszawa 1988
Borden G.J., Harris K.S., Speech Science
Primer , 5 th ed., Williams&Wilkins, Baltimore,
2007
Literatura c.d.
Literatura c.d.
Dukiewicz L., Fonetyka....
Wierzchowska B., Fonetyka i fonologia
języka polskiego, Ossolineum, Warszawa,1980
Huckvale M., Acoustics of Speech&Hearing, http://www.phon.ucl.ac.uk/courses/spsci/b214 /week.htm
Cechy fonetyczno-akustyczne dźwięków
mowy
6
Kolejne wykłady będzie można pobierać z sieci pod adresem:
http://www.pjwstk.edu.pl/~rgubryn/PJWSTK1.zip /PJWSTK2.zip
… … ..
Uwaga na duże litery !
Znaczenie terminu multimedia
Multimedia jest pojęciem bardzo szerokim
Na ogół niezbyt dokładnie zdefiniowane i zależne od punktu widzenia.
Multi = wiele
Media = l. mnoga medium = średni, środkowy, nośnik, środowisko, łącznik (mass-medium = środek masowego przekazu)
Wiele środków równoczesnego przekazu
8
Elementy przekazu multimedialnego
Termin multimedia opisuje szereg różnych cyfrowych technologii umożliwiających połączenie mediów
wizualnych i dźwiękowych, w wyniku czego uzyskuje się złożone środki wyrazu.
Środki wyrazu (proste):
wideo (obraz ruchomy),
dźwięk,
animacja,
grafika,
tekst.
Cyfrowe Multimedia
• Czym jest technologia cyfrowych multimediów?
”Jest to dziedzina, obejmująca integrację informacji tekstowej, graficznej, dźwiękowej, obrazu (stałego i ruchomego) animacji, i każdego innego medium, w którym dowolny typ informacji może być
prezentowany, zapamiętywany i cyfrowo przetwarzany.”
F. Fluckiger
Komputer jest jedynym urządzeniem umożliwiającym
10
Podstawowe cechy systemów multimedialnych
- komputerowo sterowane (przez jeden lub wiele komputerów)
- zintegrowane (wszystkie środki wyrazu znajdują się w postaci cyfrowej na tej samej platformie technicznej) - informacja w postaci cyfrowej
- zapewniona jest interaktywność
Nb. odtwarzacz CD nie jest urządzeniem
multimedialnym
Równoległość przekazu w systemach multimedialnych
Cecha ta występuje w dwóch formach:
a)kilka mediów równolegle oddziałuje na odbiorcę
b) na odbiorcę oddziałują dwa (lub więcej)
środki wyrazu tego samego typu, np. dwie
sekwencje filmowe, dwa teksty itp. w jednej
sceni e.
12
Interaktywność w systemach multimedialnych
Ta cecha wyróżnia przekaz multimedialny od innych form przekazu medialnego (film, TV, wideo).
Charakterystyczną cechą multimediów jest ich interaktywność – użycie myszki, klawiszy (tekst), ekranu dotykowego, głosu, itp. przez użytkownika pozwala wpływać na postać
prezentowanej mu informacji.
Formy interaktywności
Odbiorca przekazu multimedialnego może:
•określić czas trwania i częstotliwość powtarzania określonego elementu prezentacji
•określić własną drogę przeglądania prezentacji (nawigacja otwarta)
•wprowadzić dane mające wpływ na dalszy przebieg prezentacji (pola wyboru, pola tekstowe)
•grupować wedle swego uznania różne elementy prezentacji (drag and drop)
•zmieniać elementy prezentacji (zmieniać kształt, ścieżkę dźwiękową, zamalowywać, itp.)
•wykonywać operacje na obiektach (obracać, przesuwać)
•poruszać się po wirtualnych pomieszczeniach
Na podstawie akcji odbiorcy system określa dalszy przebieg
14
Pragmatyczna definicja multimediów
Przekaz jest multimedialny, gdy spełnia następujące warunki:
a)jednocześnie wykorzystane są różne środki wyrazu
b)wszystkie środki wyrazu znajdują się w postaci cyfrowej na tej samej platformie
c)wszystkie środki wyrazu są połączone w jedną prezentację
d)kilka różnych mediów równocześnie oddziałuje na odbiorcę
e)użytkownik może aktywnie wpływać na przebieg
oraz treść prezentacji (interaktywność)
Integracja
Multimedialny system winien dawać
możliwość generowania, gromadzenia, przesyłania i prezentacji informacji w
sposób stanowiący jedną całość z punktu widzenia sterowania i komunikacji.
– Na poziomie komputera (integracja komputerowa)
– Na poziomie sieci (integracja
sieciowa)
16
Integracja
Pamięć dyskowa
Integracja gromadzenia
Integracja rejestracji Kamera
video
Pojedyncza sieć Integracja sieciowa Integracja prezentacji
Wbudowany mikrofon
Okno video
Okno tekstowe
Ser text
ver
CD-ROM
Przykłady integracji sieciowej
Video telekonferencje.
Zdalne nauczanie, e-gospodarka (e-learning, e- commerce).
Telemedycyna.
Środowiska współpracy, zespoły robocze.
Zarządzanie wiedzą,
Przeszukiwanie (b.dużych) baz danych video i
grafiki pod kątem wybranych obiektów wizualnych
Rozszerzona rzeczywistość (augmented reality):
na rzeczywisty obraz nakładane są obiekty w postaci komputerowej grafiki i wideo z
uzupełniającą informacją o danej scenie
18
Ośrodek - percepcja
Człowiek jako odbiorca informacji multisensorycznej
Co najmniej jeden z narządów zmysłów jest zaangażowany w komunikacji
interaktywnej
np. przez dźwięki, tekst, hypertekst,
animacja, video, gesty, obrazy, dotyk
20
Narządy zmysłów w codziennym
oddziaływaniu otoczenia na człowieka
• Wzrok
• Słuch
• Dotyk
• Smak
• Powonienie
Każdy z narządów z osobna jest ważny, lecz dopiero razem umożliwiają pełną interakcję człowieka z otoczeniem.
Komputery nie umożliwiają tak wszechstronnej
interaktywności, ograniczając się do oddziaływania na
pierwsze z 3 wyżej wymienionych narządów zmysłów.
Cechy bodźców rozróżniane przez wzrok
(w zakresie widzialnym)
• intensywność,
• kolor,
• obrazy 2D i 3D
• kształty (znaki)
• zmiany w czasie (szybkość rejestracji do ok. 60- 100 na sek)
...
czułość wzroku – w bezksiężycową, bezchmurną
noc podobno można spostrzec światło zapałki z
odległości 1,6 km?.
Czułość oka
22
Cechy bodźców rozróżniane przez słuch
Zakres częstotliwości – 20 Hz-16000 kHz (17,2 m- 2,15 cm)
Rozróżnianie jednocześnie występujących składowych częstotliwościowych
Reaguje na zmianę częstotliwości
Czuły jest na przestrzenne własności dźwięku (położenie źródła, +echo, pogłos itp.)
Barwa (rozróżnianie instrumentów muzycznych)
Dźwięki, mowa, muzyka, hałas
24
Cechy bodźców rozróżniane przez dotyk - skóra, język, śluzówka itp.
• Nacisk
• Ruchy skóry
• Różnice temperatury
• Drgania
• Ból
• Szok elektryczny
Smak (język) i powonienie
• Słodki
• Kwaśny
• Gorzki
• Słony
• Nieokreślony
Człowiek jest w stanie rozróżnić ok.
10 000 różnych zapachów
26
Media w transmisji sygnałów
Zadaniem technologii mediów jest próba zastąpienia
rzeczywistych
bodźców sygnałami medialnymi
wywołującymi
podobne wrażenia u odbiorcy, jak
zarejestrowane
wcześniej bodźce.
Klasyfikacja mediów
Pojedyncze
obrazy Tekst
Zarejestrowane
z otoczenia Zsyntezowane
przez komputery ciągłe
(w czasie)
Dyskretne
(w przestrzeni) Grafika
Animacje Ruchome
obrazy Dźwięk
Czas/przestrzeń
Źródło
Mowa
Muzyka
28
Sprzęt i oprogramowanie w multimediach
Sprzęt komputerowy i odpowiednie
oprogramowanie stanowią warunek konieczny istnienia multimediów; są podstawowym
narzędziem do emisji przekazu multimedialnego.
Są też narzędziem do realizacji konwergencji mediów, czyli do łączenia różnych źródeł
przekazu w jednym miejscu i wzajemnego ich
przenikania oraz uzupełniania (więcej na ten
temat: np. Biblia o multimediach, Rosh 1997)
Multimodalny – multimedialny
Systemy multimodalne (na ogół dialogowe)
• wykorzystują więcej niż jeden zmysł (lub sposób ) w interakcji z użytkownikiem
• np. wizualny i słuchowy zmysł: procesor tekstów może jednocześnie wyświetlać wyrazy na monitorze i generować ich postać dźwiękową
Systemy multimedialne
• wykorzystują różne media do przekazywania informacji
• np. komputerowy system wspomagający uczenie:
może stosować video, animacje, tekst i nieruchome obrazy:
różne media, oddziaływujące wszystkie na jeden receptor wzrokowy.
może również wykorzystać dźwięki, zarówno mowę jak i dźwięki nieartykułowane (chrząkanie, gwizd itp., czy otoczenia), wówczas mamy 2 dodatkowe media
oddziaływujące receptor słuchowy na dwa różne sposoby.
Przykład systemu dialogowego: na wejściu – mowa, gesty,
ekspresja twarzy; na wyjściu – kombinacja obrazów, animacji
30
Dźwięk w multimediach
• Muzyka
• Dźwięki natury i otoczenia
• Paradźwięki generowane przez człowieka (chrząkanie, klaskanie, kroki itp.)
• Mowa i komputery:
– Kodowanie sygnału mowy
• W komunikacji komputerów z użytkownikami
– Rozpoznawanie i rozumienie mowy
• przez komputer
– Synteza mowy
• przez komputer
Interaktywne edytory sygnałów dźwiękowych
Jest to oprogramowanie umożliwiające wizualizację, odsłuchiwanie i przetwarzanie sygnałów akustycznych rejestrowanych przez mikrofon lub inne przetworniki.
Istotną cechą edytorów audio tego typu jest to, że za ich pomocą możemy modyfikować strukturę zapisanego w formie cyfrowej dźwięku, wprowadzać dodatkowe opisy poszczególnych jego segmentów.
Audacity ( Open Source ) adobe R Audition ™
WaveSurfer ( Open Source ) – Waves+ (Entropic)
32
Audacity
Audition
34
WaveSurfer
Praat
36
Odszumianie
Odszumianie – usuwanie z nagrań niepożądanych dźwięków
Zależnie od rodzaju i przeznaczenia
nagrania zakłóceniami mogą być szumy otoczenia, syki, gwizdy, mowa, muzyka, trzaski, stuki oraz szumy i zakłócenia
typu elektrycznego (np. „przydźwięk”),
Adaptacyjne odszumianie
Dlaczego mowa w systemach multimedialnych ?
– Naturalność komunikacji:
• Mowa jest najbardziej skutecznym (i na ogół najszybszym), łatwym i powszechnym sposobem porozumiewania się
– Skuteczność:
• W niektórych sytuacjach jest jedynym, możliwym środkiem porozumienia się
– Ekspresja:
• Pewne sytuacje, stany emocjonalne, nie są do oddania bez użycia mowy (języka naturalnego)
– Niekiedy jedyny środek komunikacji bezpośredniej:
• Telefon, radiotelefon itp. z osobami prowadzącymi pojazdy,
38
Układ akustyczny Układ akustyczny odbiornik
odbiornik - - ośrodek ośrodek - - źródło źródło
Podstawą wszelkiej komunikacji Podstawą wszelkiej komunikacji
człowiek-człowiek jest język człowiek-człowiek jest język
Język – system znaków i określonych reguł fonologicznych, syntaktycznych i
semantycznych rządzących kombinacją tych znaków
Mowa – język mówiony
Pismo – język pisany, obrazki Miganie – język migowy (polski,
norweski, niemiecki itp.)
40
Mowa jest jednym z
Mowa jest jednym z wielu wielu sposobów sposobów przekazywania informacji.
przekazywania informacji. Specyfiką mowy Specyfiką mowy jest to, że ma postać dźwiękową. Jest
jest to, że ma postać dźwiękową. Jest zazwyczaj kodowana w postaci ciągu zazwyczaj kodowana w postaci ciągu
dźwięków o określonych charakterystykach.
dźwięków o określonych charakterystykach.
Kod jest specyficzny dla danego języka, co Kod jest specyficzny dla danego języka, co powoduje, że każdy język ma określony dla powoduje, że każdy język ma określony dla
siebie zbiór dźwięków mowy.
siebie zbiór dźwięków mowy.
Formalna definicja mowy
Formalna definicja mowy
W komunikacji człowiek - otoczenie
• Mówienie jest szybsze, niż pisanie
(wprawna osoba ok. 100 zn/s, słaba - 30 zn/s)
• Słuchanie jest łatwiejsze, niż czytanie
• Pokazanie jest efektywniejsze, niż
opisanie
42
Schemat komunikacji werbalnej
Tor audio-wizualny mowy
44
Informacje niesione przez sygnał mowy
Informacje lingwistyczne
Informacje artykulacyjne (fonetyczne)
Informacje emocjonalne
Informacje osobnicze
Informacje o zaburzeniach organicznych mowy Informacje o zaburzeniach neurogennych mowy Informacje społeczne, kulturowe, nawykowe, itp.
♠
♠
♠
Informacje o otoczeniu – hałasy, pogłos itp
Wszystko jest jasne (znaczenie informacji lingwistycznych)
• Zogndie z nanjwoymszi bnaiadmai perzporawdzomyni na btyryijskch
uneruwstytetiach nie ma znczeania, w jaikej kloejnśoci nazpsiemy lietry wenątwrz wryazu, blye tlkyo pirwesza i otstaina lreita błyy na
soiwch mijsecach. Rtszea mżoe być dolnwoie poszamienina, a mmio to bedęzimy w stniae pczyrzteać tkest bez wikszęego prleobmu.
Diezje się tak dlteago, że nie cztaymy kżdeaj z
lteir odelndziie, ale wrayz jkao cłoaść.
46
Mowa w systemie dialogowym
Synteza mowy mowy
Rozpoznawanie Interpretacja semantyczna
Generacja odpowiedzi
Organizacja dialogu Interpretacja
wypowiedzi
U
ż
y
t
k
o
w
n
i
c
y
Architektura systemu dialogowego
48
Parametry sygnału mowy
oscylogram
widmo + formanty
poziom
wysokość
głosu
iloczas
Wielowarstwowy opis sygnału mowy
50
Potencjalne zastosowania mowy
zabawki
Palmtopy Komórki
Kioski informacyjne
Zastosowania w środkach
lokomocji
Urządzenia audio/video
Pierwsze handlowe urządzenie Pierwsze handlowe urządzenie czytające dla niewidomych (1976) czytające dla niewidomych (1976)
– ok. 50 000$
– ok. 50 000$
52
Synteza mowy
Synteza mowy
Podstawowe elementy systemu TTS
Podstawowe elementy systemu TTS
54
Moduł analizy tekstu Moduł analizy tekstu
Moduł ten powinien dostarczyć całą informację dotyczącą tekstu, nie będącą w swej naturze fonetyczną, mającą jednak wpływ na działanie modułu fonetycznego
W najprostszych systemach moduł ten dokonuje konwersji znaków nieortograficznych np. liczb.
Bardziej rozwinięte systemy dokonują analizy
znaków takich jak spacje, znaków przestankowych itp., w celu dokonania bardziej szczegółowej
analizy syntaktycznej i semantycznej tekstu
podzielonego na zdania. Analiza ta jest prowadzona pod kątem określenia tych atrybutów, które mogą wspomóc analizę fonetyczną i generację cech
prozodycznych
Analiza tekstu
Tekst może być analizowany jako jedna z form bardzo efektywnego kodowania mowy z dużą jednak możliwością jego interpretowania pod względem stylu, intonacji, tempa, rytmu itp.
Relacja między tekstem pisanym i mówionym jest jednak często niezwykle złożona, szczególnie, gdy mamy do czynienia z tekstami z dodatkowymi
opisami, np. przesyłanymi via Internet.
Moduł analizy tekstu określa typ i strukturę
przetwarzanego dokumentu, dokonuje konwersji nieortograficznych znaków, rozbioru
gramatycznego, analizy syntaktycznej,
56
Przykład normalizacji tekstu Przykład normalizacji tekstu
Np. moduł analizy lingwistycznej musi
dokonać interpretacji znaku przestankowego
„kropki”, czy jest końcem zdania, czy elementem skrótu.
„W doświadczeniach finansowanych przez MEN zastosowano 7% roztwór HCl.”
W doświadczeniach finansowanych przez
Ministerstwo Edukacji i Nauki zastosowano
siedmioprocentowy roztwór kwasu solnego
Normalizacja tekstu polega na ujednoliceniu konwersji wszystkich symboli, liczb i znaków nieortograficznych w transkrypcji
ortograficznej, w postaci umożliwiającej następnie ich konwersję na ciąg znaków transkrypcji fonetycznej
Analiza lingwistyczna tekstu obejmuje wybrane elementy syntaktyczne i semantyczne takie jak słowo, fraza, zdanie, wypowiedź by ocenić ich wpływ na samą wymowę i cechy prozodyczne
Normalizacja tekstu i analiza Normalizacja tekstu i analiza
lingwistyczna
lingwistyczna
58
Moduł analizy tekstu Moduł analizy tekstu
i analizy fonetycznej i analizy fonetycznej
Morfologia – budowa i odmiana wyrazów
Analiza fonetyczna Analiza fonetyczna
Działanie modułu fonetycznego ma na celu
dokonanie konwersji wyrazów przedstawionych w postaci kodu ortograficznego na kod fonetyczny z dodatkowymi informacjami (np. dotyczącymi
akcentu), określającymi ich wymowę.
Analiza morfologiczna umożliwia określenie
wymowy deklinacyjnych i koniugacyjnych form
wyrazów znajdujących się w słowniku, a przede
wszystkim zmianę znaczenia spowodowaną
60
Moduł syntezy mowy Moduł syntezy mowy
Synteza konkatenacyjna
Moduł ten generuje akustyczny sygnał
mowy, na podstawie sekwencji określonych fonemów uzyskanych na podstawie
przetwarzania tekstu, wzorców iloczasowych,
konturu melodycznego i obwiedni amplitudy
Schemat systemu syntezy Schemat systemu syntezy
konkatenacyjnej
konkatenacyjnej
62
Problemy w syntezie Problemy w syntezie
konkatenacyjnej konkatenacyjnej
Wybór jednostek – głoski, difony(diady), sylaby, wyrazy?
Jak stworzyć bazę jednostek? Jakie powinny być jej rozmiary?
Jak określić optymalny system wyboru i łączenia ze sobą segmentów?
Jak modyfikować cechy prozodyczne
stworzonego łańcucha segmentów?
Difony – wady i zalety Difony – wady i zalety
Difon – element zawierający w całości przejście
między głoskami, poprzedzone częścią głoski
poprzedzającej i zakończone częścią głoski
następującej
64
Montowanie wypowiedzi z difonów Montowanie wypowiedzi z difonów
Difon –eS-
Szczebrzeszyn
Zamiana kodu ortograficznego na kod fonematyczny:
_S StS tSe eb bZ ZI In n_
Przykłady syntezy konkatenacyjnej Przykłady syntezy konkatenacyjnej
MBROLA-PL MBROLA-D
66
„Konwersja tekstu na mowę... ””
„KONWÓJ”
„WERSJA”
„ATEST”
„TEKST”
„TUNEL”
„NAMOWA”
„TRAWĘ”
KONW
WERSJA ATE
EKST
TUN
NAMOW WĘ
System optymalnej selekcji System optymalnej selekcji
segmentów
segmentów
Czy może syntezator coś zaśpiewać ?
Czy może syntezator coś zaśpiewać ?
68
BALDI BALDI
http://cslu.cse.ogi.edu/toolkit/download/
index.html
Pakiet