Program wykładu
1. Jak słyszymy – podstawy fizyczne i psychofizyczne,
efekty maskowania
2. Sposoby zapisu sygnałów dźwiękowych
3. Sposoby kodowania sygnałów dźwiękowych ze
szczególnym uwzględnieniem MP3
4. Obiektywna i subiektywna ocena jakości sygnału
dźwiękowego
Dźwięk – fala akustyczna
Fala dźwiękowa rozchodzi sięjako podłużna fala akustyczna w danym ośrodku sprężystym:
gazie, płynie. W ciałach stałych, takich jak metale, występuje również fala poprzeczna. Dźwięk, jako drgania
cząsteczek, charakteryzuje się tym, iż cząsteczka pobudzona przekazuje energię cząstce sąsiedniej, a sama drga wokół własnej osi. Skutkiem tego są lokalne zmiany ciśnienia ośrodka rozchodzące się falowo.
Jak odbieramy dźwięki ?
informatyka +
4
Ton jest elementarnym rodzajem
dźwięku, dla którego fala
dźwiękowa ma postać sinusoidy.
Wrażenie wysokości dźwięku nie
jest liniowo zależne od
częstotliwości tonu. Występują różnice między lewym i prawym uchem. 0 100 200 300 400 500 600 700 800 900 1000 -1 -0.5 0 0.5 1 0 100 200 300 400 500 600 700 800 900 1000 -1 -0.5 0 0.5 1
Jak odbieramy dźwięki ?
• Interwały muzyczne to „odległości” między dźwiękami na skali muzycznej. • Określone są stosunkiem częstotliwości sygnałów. • Oktawa – interwał określający dźwięki, których stosunek częstotliwości = 2 : 1.informatyka +
5
Interpretacja interwałów, barwa dźwięku
• Człowiek jest w stanie interpretować poprawnie interwały muzyczne dla tonów o częstotliwości max ok. 5kHz
– Powyżej 2,5kHz występują znaczne błędy.
– Powyżej 5kHz brak wrażenia melodii chociaż spostrzegane są różnice częstotliwości.
• Barwa – cecha wrażenia słuchowego pozwalająca rozróżnić dwa dźwięki o takiej samej głośności i wysokości.
• Barwa instrumentu.
• Transjenty, narastanie dźwięku („nabrzmiewanie” i wybrzmiewanie”)
– Fortepian a skrzypce.
Analiza dźwięku
informatyka +
7
Bardzo często w celu analizy sygnału dźwiękowego korzysta się z jego częstotliwościowej reprezentacji. Mówimy wtedy o tzw.
Dźwięk
informatyka +
8
• W powietrzu w temperaturze otoczenia 20
oC prędkość
dźwięku wynosi ok. 345 m/s.
• Zakres częstotliwości od 20 Hz do 20 kHz jest zakresem
częstotliwości słyszalnych (fonicznych, audio).
• Fala o częstotliwości 20 Hz ma długość 17,25 m. Fala o
częstotliwości 20 kHz ma długość 1,72 cm.
• Dźwięki o częstotliwości mniejszej od 20 Hz są
nazywane infradźwiękami, zaś o częstotliwości
większej od 20 kHz – ultradźwiękami.
Zakres słyszalności
Zakres słyszalności
• Wrażenia głośności zależą od czasu trwania dźwięku.
• Efekt czasowego sumowania głośności dla krótkich czasów trwania.
– Powyżej 200ms nie występuje.
• Dla czasów od ok. 1s do ok. 3 min dla dźwięków o niskim poziomie lub wysokiej częstotliwości głośność maleje ze wzrostem czasu trwania – adaptacja głośności.
• Efekt sumowania głośności : powiększenie szerokości pasma częstotliwościowego szumu białego powoduje wzrost głośności. Głośność szumu (i dźwięków złożonych) jest wyższa niż tonów (sinusoidalnych) o takim samy ciśnieniu akustycznym.
Ocena jakości dźwięku
• Ucho – instrument bardzo trudny do zamodelowania,
czyli opisania przez wzory matematyczne.
• Odbiór wrażeń muzycznych – proces indywidualny.
• Ocena jakości – bardzo subiektywna.
Formaty zapisu i przechowywania
plików multimedialnych
Kontenery multimedialne umożliwiają przechowywanie różnego
rodzaju danych: dźwięku, obrazów, filmu, napisów, informacji o rozdziałach itp. w wielu formatach.
Przykładami kontenerów multimedialnych są:
•AVI (standardowy kontener systemu Windows)
•Advanced Systems Format (standardowy kontener dla multimediów pakietu Windows Media – WMA oraz WMV)
•OGG jest bezpłatnym otwartym kontenerem dla multimediów strumieniowych wysokiej jakości
•MPEG-4 Part 14 (standardowy kontener AV dla MPEG-4)
Kodowanie PCM
informatyka +
13
Metoda PCM polega na reprezentacji wartości chwilowej sygnału
(próbkowaniu) w określonych (najczęściej równych) odstępach czasu, czyli z określoną częstością (tzw. częstotliwość próbkowania).
Kodowanie PCM – kwantyzacja
Wartość chwilowa sygnału jest przedstawiana za
pomocą słowa kodowego, którego wartości
odpowiadają wybranym przedziałom kwantyzacji sygnału wejściowego.
Inne metody cyfrowego kodowania dźwięku
informatyka +
15
Mp3 – Standard MPEG-1 – "Layer3„ Ogg Vorbis
Mp4 (MPEG-4 Part14) ? AAC
Usprawnienia względem starszych algorytmów kompresji dźwięku
•próbkowanie 8-96 kHz (MP3 16-48 kHz)
•do 48 kanałów (MP3 2 kanały w standardzie MPEG-1 i 5.1 w standardzie MPEG-2)
•skuteczniejszy i wydajniejszy
•lepsze przenoszenie częstotliwości ponad 16 kHz
Psychoakustyka
• Ludzki mózg pełni rolę filtru, który uwypukla informacje ważniejsze i odrzuca informacje nadmiarowe.
• Dźwięk zapisany w formie nieskompresowanej, na przykład na CD, zawiera więcej informacji niż jest w stanie przetworzyć ludzki mózg. • Słuch ludzki odbiera częstotliwości leżące w zakresie
20Hz – 20 kHz.
• Częstotliwości położone w środku pasma słyszymy lepiej niż skrajne. (Większość dorosłych ludzi nie jest w stanie usłyszeć prawie nic o częstotliwości powyżej 16 kHz.)
• Gdy dźwięk składa się z kilku tonów o zbliżonej częstotliwości lub, gdy jeden z tonów jest znacznie głośniejszy niż inne, niektóre tony mogą w ogóle nie zostać wychwycone przez ludzki mózg.
Maskowanie dźwięków
Maskowanie polega na przysłanianiu sygnałów słabszych
sąsiadujących z sygnałami znacznie głośniejszymi, które je
zagłuszają
Sygnałowi, który będzie lepiej słyszalny dla człowieka, można
przypisać większą ilość bitów w procesie kompresji, a sygnał,
który jest trudny do wychwycenia, może być kompresowany z
użyciem mniejszej liczby bitów lub pominięty
Rozróżniamy 2 rodzaje maskowania:
• maskowanie równoczesne
• maskowanie czasowe
Maskowanie równoczesne
Efekt maskowania
równoczesnego polega na tym, że człowiek nie jest w stanie odróżnić dwóch dźwięków o zbliżonej częstotliwości, jeśli jeden z nich jest znacznie głośniejszy od drugiego
(przypadek A).
Możliwe jest to dopiero wtedy, gdy sygnały mają zupełnie różne częstotliwości (przypadek B).
Maskowanie czasowe
informatyka +
19
Maskowanie czasowe polega na eliminacji składowych o mniejszym natężeniu, które mają zbliżoną częstotliwość do dźwięku o większym natężeniu i występują razem w pewnym przedziale czasu.
Maskowanie
informatyka +
20
Zobrazowanie efektu maskowania. Czarna linia określa próg słyszalności.
Słabe dźwięki – kolor zielony – mogą zostać podczas kompresji usunięte. Pozostanie tylko dźwięk słyszalny – kolor czerwony.
Trochę historii
• Standard MPEG-1 – Layer3(MP3) został opracowany w niemieckim instytucie Fraunhofer, gdzie około 30 inżynierów pracowało nad
rozwojem oraz implementacją "w czasie rzeczywistym" algorytmów przetwarzania sygnałów dla potrzeb komunikacji audiowizualnej. • Prace rozpoczęto w roku 1987. Głównym celem było opracowanie
zaawansowanego algorytmu kodowania sygnałów audio dla przyszłych stacji nadawczych.
• W roku 1991 prace nad algorytmem kodowania Layer3 zostały ukończone. Opracowany algorytm stał się najbardziej optymalnym sposobem kodowania sygnałów audio w rodzinie określanej przez międzynarodowe normy ISO-MPEG.
MP3
informatyka +
22
System kompresji Stopień kompresji przepustowośćWymagana
MPEG-1 Layer 1 1 : 4 390 kbit/s MPEG-1 Layer 2 1 : 8 260 kbit/s MPEG-1 Layer 3 1 : 12 130 kbit/s
Używając algorytmu MPEG-1 Layer 3 (znanego powszechnie w Internecie jako MP3, ze względu na rozszerzenie) do kodowania plików audio, jakość "prawie CD" tj. stereo, 44KHz, 16 bitów, można uzyskać przy 112 –128kbps ( stopień kompresji 11:1 – 13:1).
Idea kompresji MP3
• Kompresja MP3 oparta jest na matematycznym modelu psychoakustycznym ludzkiego ucha.
• Idea kompresji MP3 polega na wyeliminowaniu z sygnału tych danych, które są dla człowieka niesłyszalne lub, które słyszymy bardzo słabo.
• Kompresja MP3 jest połączeniem metody kompresji stratnej z kompresją bezstratną.
• Etap 1 – koder eliminuje z sygnału składowe słabo słyszalne i niesłyszalne dla człowieka (kompresja stratna).
• Etap 2 – uzyskane dane poddawane są dodatkowej kompresji w celu eliminacji nadmiarowości (kompresja bezstratna).
Transformata kosinusowa (DCT)
• Dyskretna transformacja kosinusowa przekształca dane do
postaci umożliwiającej zastosowanie efektywnych metod kompresji. • W wyniku działania transformaty na sygnale wejściowym powstają
odpowiadające mu współczynniki transformaty.
• Transformata kosinusowa jest odwracalna, to znaczy, że
dysponując tylko współczynnikami transformaty można odtworzyć odpowiadający im sygnał bez żadnych strat.
Kwantyzacja
Kwantyzacja polega na przeskalowaniu współczynników DCT poprzez podzielnie ich przez właściwy współczynnik znajdujący się w tabeli
kwantyzacji, a następnie zaokrągleniu wyniku do najbliższej liczby całkowitej. Proces kwantyzacji można opisać równaniem:
gdzie:
F(x) – współczynniki transformacji, Q(x) – tablica kwantyzacji,
round(x) – funkcja zaokrąglająca x do najbliższej liczby całkowitej.
informatyka +
26
)
)
x
(
Q
)
x
(
F
(
round
)
x
(
k
Kodowanie Huffmana
• Dane uzyskane w procesie kodowania percepcyjnego poddawane są drugiemu etapowi kompresji bezstratnej – kodowaniu Huffmana. • Kodowanie Huffmana to system przypisywania skończonemu
zbiorowi symboli, o z góry znanych częstościach występowania,
kodów o zmiennej liczbie bitów. Później symbole te są zastępowane odpowiednimi bitami na wyjściu. Symbole te to najczęściej po prostu bajty, choć nie ma żadnych przeszkód żeby było nimi coś innego.
Kodowanie Huffmana
informatyka +
28
• Dla każdego znaku utwórz drzewa złożone tylko z korzenia i ułóż w malejącym porządku ich częstości występowania.
• Dopóki istnieją przynajmniej dwa drzewa:
– z drzew t1 i t2 o najmniejszych częstościach występowania p1 i p2
utwórz drzewo zawierające w korzeniu częstość p12 = p1+p2,
– przypisz 0 każdej lewej, a 1 każdej prawej gałęzi drzewa.
• Utwórz słowo kodu dla każdego znaku przechodząc od korzenia do liścia. Przykład:
Z={A,B,C,D,E,F}, P={0.35, 0.17, 0.17, 0.16, 0.10, 0.05}
Etapy kodowania MP3
1. Sygnał wejściowy jest dzielony na mniejsze fragmenty zwane ramkami o czasie trwania ułamka sekundy.
2. Na podstawie sygnału kodera wyliczany jest rozkład widmowy sygnału dźwiękowego.
3. Widmo sygnału dla każdej ramki porównywane jest z
matematycznym modelem psychoakustycznym. W wyniku tego porównania koder określa, które ze składowych dźwięku jako
najlepiej słyszalne muszą zostać odwzorowane najwierniej, a które można zakodować w przybliżeniu lub w ogóle pominąć.
4. Ustalany jest optymalny przydział bitów na poszczególne
częstotliwości pasma akustycznego, tak aby zapewnić możliwie najwierniejsze zakodowanie sygnału.
Zobrazowanie sposobu działania banku
filtrów
informatyka +
30
Na początku sygnał jest filtrowany i dzielony na małe odcinki. Następnie
usuwana jest ta część, która nie dociera do mózgu człowieka. Dwa “zielone” sygnały po prawej stronie znajdują się poniżej poziomu słyszalności. Można więc usunąć te sygnały (w drugim i trzecim podzakresie). Sygnał z lewej strony jest słyszalny (pierwszy podzakres), można jednak podnieść dopuszczalny
Etapy kodowania MP3, cd.
5. Na podstawie zadanej przez użytkownika gęstości strumienia bitowego (ang. bitrate) koder ustala maksymalną liczbę bitów przydzielonych dla każdej ramki (liczba bitów = długość ramki * bitrate).
6. Strumień bitów podawany jest ponownej kompresji poprzez kodowanie Huffmana. Celem tej operacji jest usunięcie
nadmiarowości z danych przetworzonych w pierwszym etapie, czyli dodatkowa kompresja bezstratna.
7. Kolejne ramki poprzedzone nagłówkami są składane w pojedynczy ciąg bitów ( strumień bitowy). Nagłówki zawierają metainformacje określające parametry poszczególnych ramek.
Strumień bitowy
• Gęstość strumienia bitowego określa współczynnik kompresji sygnału algorytmem MP3.
• Wyznacza on liczbę bitów przypadającą na sekundę finalnego zapisu.
• Ustawienie odpowiedniej wartości strumienia bitowego jest kompromisem między jakością a rozmiarem pliku wynikowego.
Tryby CBR i VBR
• Kompresja MP3 może przebiegać:
– ze stałą gęstością strumienia bitowego (ang. constant bitrate), – zmienną gęstością strumienia bitowego (ang. variable bitrate).
• Tryb CBR koduje sygnał w taki sposób, że każda jego sekunda będzie zawierała tą samą ilość bitów.
• Tryb VBR koduje sygnał uwzględniając jego dynamikę, dzięki
czemu przydziela więcej bitów fragmentom sygnału, który zawiera dużo ważnych informacji, oraz mniej bitów dla części sygnału, które są mniej skomplikowane.
• Kompresja w trybie VBR wymaga podania przedziału tolerancji, w jakim może się zmieniać gęstość strumienia bitowego.
Tryby CBR i VBR
informatyka +
35
Przełącznik Predefiniowane Docelowo kbit/s Zakres przepływ-ności kbit/s
-b 320 --preset insane 320 320 CBR
-V 0 -- preset fast extreme 245 220...260
-V 1 225 200...250
-V 2 --preset fast standard 190 170...210
-V 3 175 155...195
-V 4 --preset fast medium 165 145...185
-V 5 130 110...150
-V 6 115 95...135
-V 7 100 80...120
-V 8 85 65...105
Prezentacja nagrań MP3
informatyka +
36
• plik oryginalny
próbkowanie 22500Hz rozdzielczość 16 bitów
• kompresja MP3
przepływność 100-125Kbps, tryb VBR
• kompresja MP3
przepływność 32Kbps, tryb CBR
• kompresja MP3
przepływność 20Kbps, tryb CBR
Rezerwa bitowa
• Ponieważ zadana gęstość strumienia bitowego obowiązuje dla każdej ramki, w przypadku bardzo złożonych fragmentów może okazać się niewystarczająca i koder nie będzie w stanie zapewnić żądanej jakości zapisu w ramach przydzielonej liczby bitów.
• Aby zapobiec temu zjawisku standard MP3 zapewnia możliwość skorzystania z dodatkowej rezerwy umożliwiającej zapisanie
nadmiarowych danych. Rezerwa ta powstaje w miejscu pustych fragmentów ramek, w których po zakodowaniu sygnału zostało trochę miejsca.
Łączenie kanałów zapisu
stereofonicznego
• Dzięki ludzkiej niezdolności do lokalizacji w przestrzeni źródeł dźwięku o niskich częstotliwościach standard MP3 przewiduje
możliwość łączenia kanałów stereofonicznych w jeden za pomocą opcji „joint stereo”.
• Pliki stworzone tą metodą zajmują znacznie mniej miejsca (prawie dwukrotnie, gdyż zamiast dwóch kanałów zapisany zostaje tylko jeden).
• Dodatkową możliwością podczas kodowania sygnału z funkcją „joint stereo” jest stereofonia różnicowa. Polega ona na zapisaniu dwóch ścieżek – kanału środkowego będącego sumą sygnałów R i L oraz kanał boczny będący ich różnicą, który służy później do
rekonstrukcji sygnału oryginalnego podczas odtwarzania pliku.
Swoboda implementacji
• Ciekawostką jest to, że specyfikacja formatu MP3 zawarta w dokumencie ISO/IEC 11172-3 , nie określa dokładnie sposobu samego kodowania, a jedynie prezentuje ogólny zarys techniki, i określa wymagany poziom zgodności zapisu z normą.
• Podejście takie ma na celu promowanie różnorodności
implementacji koderów i dekoderów MP3 realizowanych przez różnych producentów.
• Specyfikacja ISO pełni jedynie rolę bazowego zestawu reguł, określających sposób funkcjonowania standardu tak, aby za pomocą dowolnego kodera można było wygenerować plik odtwarzany przez dowolny dekoder.
Struktura pliku MP3
• Plik MP3 składa się z ogromnej liczby ramek, z których każda odpowiada ułamkowi sekundy zapisu rekonstruowanego przez dekoder.
• Każda ramka poprzedzona jest nagłówkiem zawierającym 32 bity dodatkowych informacji opisujących następujące po nim właściwe dane.
• Na początku lub końcu pliku mogą znajdować się znaczniki ID3, które zawierają dane o autorze, tytule, prawach autorskich itp.
Składanie nagłówka ramki
informatyka +
41
Pozycja Zastosowanie Długość
A Ramka synchronizacji 11
B Wersja MPEG 2
C Warstwa (MPEG layer) 2
D Zabezpieczenie 1
E Index predkości bitowej 4
F Częstotliwość próbkowania 2 G Padding bit 1 H Bit prywatności 1 I Tryb kanałów 2 J Tryb rozszerzenia 2 K Copyright 1 L Oryginał 1 M Emfaza 2
Jakość kodowania MP3
informatyka +
42
Jakość dźwięku Pasmo Tryb Przepływność Współczynnik kompresji
Telefon 2.5kHz Mono 8 kbps 1 :96
Fale krótkie 4.5kHz Mono 16kbps 1:48
Radio AM 7.5kHz Mono 32kbps 1:24
Radio FM 11kHz Stereo 56-64kbps 1:24-26
„prawie”CD 15kHz Stereo 96kbsp 1:16
Zalety standardu MP3
• Duży stopień kompresji - stosując kompresję MP3 uzyskujemy plik wynikowy o rozmiarze ok.10 razy mniejszym od oryginału.
• Możemy sterować stopniem kompresji dostosowując go do indywidualnych potrzeb.
• Metoda ta pozwala uzyskać sygnał o stosunkowo dobrej jakości. • Dekompresja wymaga znacznie mniej mocy obliczeniowej niż
kompresja.
• Twórcy standardu bezpłatnie udostępnili kod źródłowy programów kodujących i dekodujących, dzięki czemu standard ten stał się
niezwykle popularny.