Metody kodowania i przechowywania sygnalow dzwiekowych

(1)

(2)

Program wykładu

1. Jak słyszymy – podstawy fizyczne i psychofizyczne,

efekty maskowania

2. Sposoby zapisu sygnałów dźwiękowych

3. Sposoby kodowania sygnałów dźwiękowych ze

szczególnym uwzględnieniem MP3

4. Obiektywna i subiektywna ocena jakości sygnału

dźwiękowego

(3)

Dźwięk – fala akustyczna

Fala dźwiękowa rozchodzi się

jako podłużna fala akustyczna w danym ośrodku sprężystym:

gazie, płynie. W ciałach stałych, takich jak metale, występuje również fala poprzeczna. Dźwięk, jako drgania

cząsteczek, charakteryzuje się tym, iż cząsteczka pobudzona przekazuje energię cząstce sąsiedniej, a sama drga wokół własnej osi. Skutkiem tego są lokalne zmiany ciśnienia ośrodka rozchodzące się falowo.

(4)

Jak odbieramy dźwięki ?

informatyka +

4

Ton jest elementarnym rodzajem

dźwięku, dla którego fala

dźwiękowa ma postać sinusoidy.

Wrażenie wysokości dźwięku nie

jest liniowo zależne od

częstotliwości tonu. Występują różnice między lewym i prawym uchem. 0 100 200 300 400 500 600 700 800 900 1000 -1 -0.5 0 0.5 1 0 100 200 300 400 500 600 700 800 900 1000 -1 -0.5 0 0.5 1

(5)

Jak odbieramy dźwięki ?

• Interwały muzyczne to „odległości” między dźwiękami na skali muzycznej. • Określone są stosunkiem częstotliwości sygnałów. • Oktawa – interwał określający dźwięki, których stosunek częstotliwości = 2 : 1.

informatyka +

5

(6)

Interpretacja interwałów, barwa dźwięku

• Człowiek jest w stanie interpretować poprawnie interwały muzyczne dla tonów o częstotliwości max ok. 5kHz

– Powyżej 2,5kHz występują znaczne błędy.

– Powyżej 5kHz brak wrażenia melodii chociaż spostrzegane są różnice częstotliwości.

• Barwa – cecha wrażenia słuchowego pozwalająca rozróżnić dwa dźwięki o takiej samej głośności i wysokości.

• Barwa instrumentu.

• Transjenty, narastanie dźwięku („nabrzmiewanie” i wybrzmiewanie”)

– Fortepian a skrzypce.

(7)

Analiza dźwięku

informatyka +

7

Bardzo często w celu analizy sygnału dźwiękowego korzysta się z jego częstotliwościowej reprezentacji. Mówimy wtedy o tzw.

(8)

Dźwięk

informatyka +

8 • W powietrzu w temperaturze otoczenia 20

o

C prędkość

dźwięku wynosi ok. 345 m/s.

• Zakres częstotliwości od 20 Hz do 20 kHz jest zakresem

częstotliwości słyszalnych (fonicznych, audio).

• Fala o częstotliwości 20 Hz ma długość 17,25 m. Fala o

częstotliwości 20 kHz ma długość 1,72 cm.

• Dźwięki o częstotliwości mniejszej od 20 Hz są

nazywane infradźwiękami, zaś o częstotliwości

większej od 20 kHz – ultradźwiękami.

(9)

Zakres słyszalności

(10)

Zakres słyszalności

• Wrażenia głośności zależą od czasu trwania dźwięku.

• Efekt czasowego sumowania głośności dla krótkich czasów trwania.

– Powyżej 200ms nie występuje.

• Dla czasów od ok. 1s do ok. 3 min dla dźwięków o niskim poziomie lub wysokiej częstotliwości głośność maleje ze wzrostem czasu trwania – adaptacja głośności.

• Efekt sumowania głośności : powiększenie szerokości pasma częstotliwościowego szumu białego powoduje wzrost głośności. Głośność szumu (i dźwięków złożonych) jest wyższa niż tonów (sinusoidalnych) o takim samy ciśnieniu akustycznym.

(11)

Ocena jakości dźwięku

• Ucho – instrument bardzo trudny do zamodelowania,

czyli opisania przez wzory matematyczne.

• Odbiór wrażeń muzycznych – proces indywidualny.

• Ocena jakości – bardzo subiektywna.

(12)

Formaty zapisu i przechowywania

plików multimedialnych

Kontenery multimedialne umożliwiają przechowywanie różnego

rodzaju danych: dźwięku, obrazów, filmu, napisów, informacji o rozdziałach itp. w wielu formatach.

Przykładami kontenerów multimedialnych są:

•AVI (standardowy kontener systemu Windows)

•Advanced Systems Format (standardowy kontener dla multimediów pakietu Windows Media – WMA oraz WMV)

•OGG jest bezpłatnym otwartym kontenerem dla multimediów strumieniowych wysokiej jakości

•MPEG-4 Part 14 (standardowy kontener AV dla MPEG-4)

(13)

Kodowanie PCM

informatyka +

13

Metoda PCM polega na reprezentacji wartości chwilowej sygnału

(próbkowaniu) w określonych (najczęściej równych) odstępach czasu, czyli z określoną częstością (tzw. częstotliwość próbkowania).

(14)

Kodowanie PCM – kwantyzacja

Wartość chwilowa sygnału jest przedstawiana za

pomocą słowa kodowego, którego wartości

odpowiadają wybranym przedziałom kwantyzacji sygnału wejściowego.

(15)

Inne metody cyfrowego kodowania dźwięku

informatyka +

15

Mp3 – Standard MPEG-1 – "Layer3„ Ogg Vorbis

Mp4 (MPEG-4 Part14) ? AAC

Usprawnienia względem starszych algorytmów kompresji dźwięku

•próbkowanie 8-96 kHz (MP3 16-48 kHz)

•do 48 kanałów (MP3 2 kanały w standardzie MPEG-1 i 5.1 w standardzie MPEG-2)

•skuteczniejszy i wydajniejszy

•lepsze przenoszenie częstotliwości ponad 16 kHz

(16)

Psychoakustyka

• Ludzki mózg pełni rolę filtru, który uwypukla informacje ważniejsze i odrzuca informacje nadmiarowe.

• Dźwięk zapisany w formie nieskompresowanej, na przykład na CD, zawiera więcej informacji niż jest w stanie przetworzyć ludzki mózg. • Słuch ludzki odbiera częstotliwości leżące w zakresie

20Hz – 20 kHz.

• Częstotliwości położone w środku pasma słyszymy lepiej niż skrajne. (Większość dorosłych ludzi nie jest w stanie usłyszeć prawie nic o częstotliwości powyżej 16 kHz.)

• Gdy dźwięk składa się z kilku tonów o zbliżonej częstotliwości lub, gdy jeden z tonów jest znacznie głośniejszy niż inne, niektóre tony mogą w ogóle nie zostać wychwycone przez ludzki mózg.

(17)

Maskowanie dźwięków

Maskowanie polega na przysłanianiu sygnałów słabszych

sąsiadujących z sygnałami znacznie głośniejszymi, które je

zagłuszają

Sygnałowi, który będzie lepiej słyszalny dla człowieka, można

przypisać większą ilość bitów w procesie kompresji, a sygnał,

który jest trudny do wychwycenia, może być kompresowany z

użyciem mniejszej liczby bitów lub pominięty

Rozróżniamy 2 rodzaje maskowania:

• maskowanie równoczesne

• maskowanie czasowe

(18)

Maskowanie równoczesne

Efekt maskowania

równoczesnego polega na tym, że człowiek nie jest w stanie odróżnić dwóch dźwięków o zbliżonej częstotliwości, jeśli jeden z nich jest znacznie głośniejszy od drugiego

(przypadek A).

Możliwe jest to dopiero wtedy, gdy sygnały mają zupełnie różne częstotliwości (przypadek B).

(19)

Maskowanie czasowe

informatyka +

19

Maskowanie czasowe polega na eliminacji składowych o mniejszym natężeniu, które mają zbliżoną częstotliwość do dźwięku o większym natężeniu i występują razem w pewnym przedziale czasu.

(20)

Maskowanie

informatyka +

20

Zobrazowanie efektu maskowania. Czarna linia określa próg słyszalności.

Słabe dźwięki – kolor zielony – mogą zostać podczas kompresji usunięte. Pozostanie tylko dźwięk słyszalny – kolor czerwony.

(21)

Trochę historii

• Standard MPEG-1 – Layer3(MP3) został opracowany w niemieckim instytucie Fraunhofer, gdzie około 30 inżynierów pracowało nad

rozwojem oraz implementacją "w czasie rzeczywistym" algorytmów przetwarzania sygnałów dla potrzeb komunikacji audiowizualnej. • Prace rozpoczęto w roku 1987. Głównym celem było opracowanie

zaawansowanego algorytmu kodowania sygnałów audio dla przyszłych stacji nadawczych.

• W roku 1991 prace nad algorytmem kodowania Layer3 zostały ukończone. Opracowany algorytm stał się najbardziej optymalnym sposobem kodowania sygnałów audio w rodzinie określanej przez międzynarodowe normy ISO-MPEG.

(22)

MP3

informatyka +

22

System kompresji Stopień kompresji _{przepustowość}Wymagana

MPEG-1 Layer 1 1 : 4 390 kbit/s MPEG-1 Layer 2 1 : 8 260 kbit/s MPEG-1 Layer 3 1 : 12 130 kbit/s

Używając algorytmu MPEG-1 Layer 3 (znanego powszechnie w Internecie jako MP3, ze względu na rozszerzenie) do kodowania plików audio, jakość "prawie CD" tj. stereo, 44KHz, 16 bitów, można uzyskać przy 112 –128kbps ( stopień kompresji 11:1 – 13:1).

(23)

Idea kompresji MP3

• Kompresja MP3 oparta jest na matematycznym modelu psychoakustycznym ludzkiego ucha.

• Idea kompresji MP3 polega na wyeliminowaniu z sygnału tych danych, które są dla człowieka niesłyszalne lub, które słyszymy bardzo słabo.

• Kompresja MP3 jest połączeniem metody kompresji stratnej z kompresją bezstratną.

• Etap 1 – koder eliminuje z sygnału składowe słabo słyszalne i niesłyszalne dla człowieka (kompresja stratna).

• Etap 2 – uzyskane dane poddawane są dodatkowej kompresji w celu eliminacji nadmiarowości (kompresja bezstratna).

(24)

Transformata kosinusowa (DCT)

• Dyskretna transformacja kosinusowa przekształca dane do

postaci umożliwiającej zastosowanie efektywnych metod kompresji. • W wyniku działania transformaty na sygnale wejściowym powstają

odpowiadające mu współczynniki transformaty.

• Transformata kosinusowa jest odwracalna, to znaczy, że

dysponując tylko współczynnikami transformaty można odtworzyć odpowiadający im sygnał bez żadnych strat.

(25)

Kwantyzacja

Kwantyzacja polega na przeskalowaniu współczynników DCT poprzez podzielnie ich przez właściwy współczynnik znajdujący się w tabeli

kwantyzacji, a następnie zaokrągleniu wyniku do najbliższej liczby całkowitej. Proces kwantyzacji można opisać równaniem:

gdzie:

F(x) – współczynniki transformacji, Q(x) – tablica kwantyzacji,

round(x) – funkcja zaokrąglająca x do najbliższej liczby całkowitej.

informatyka +

26 )

)

x

(

Q

)

x

(

F

(

round

)

x

(

k



(26)

Kodowanie Huffmana

• Dane uzyskane w procesie kodowania percepcyjnego poddawane są drugiemu etapowi kompresji bezstratnej – kodowaniu Huffmana. • Kodowanie Huffmana to system przypisywania skończonemu

zbiorowi symboli, o z góry znanych częstościach występowania,

kodów o zmiennej liczbie bitów. Później symbole te są zastępowane odpowiednimi bitami na wyjściu. Symbole te to najczęściej po prostu bajty, choć nie ma żadnych przeszkód żeby było nimi coś innego.

(27)

Kodowanie Huffmana

informatyka +

28

• Dla każdego znaku utwórz drzewa złożone tylko z korzenia i ułóż w malejącym porządku ich częstości występowania.

• Dopóki istnieją przynajmniej dwa drzewa:

– z drzew t1 i t2 o najmniejszych częstościach występowania p1 i p2

utwórz drzewo zawierające w korzeniu częstość p12 = p1+p2,

– przypisz 0 każdej lewej, a 1 każdej prawej gałęzi drzewa.

• Utwórz słowo kodu dla każdego znaku przechodząc od korzenia do liścia. Przykład:

Z={A,B,C,D,E,F}, P={0.35, 0.17, 0.17, 0.16, 0.10, 0.05}

(28)

Etapy kodowania MP3

1. Sygnał wejściowy jest dzielony na mniejsze fragmenty zwane ramkami o czasie trwania ułamka sekundy.

2. Na podstawie sygnału kodera wyliczany jest rozkład widmowy sygnału dźwiękowego.

3. Widmo sygnału dla każdej ramki porównywane jest z

matematycznym modelem psychoakustycznym. W wyniku tego porównania koder określa, które ze składowych dźwięku jako

najlepiej słyszalne muszą zostać odwzorowane najwierniej, a które można zakodować w przybliżeniu lub w ogóle pominąć.

4. Ustalany jest optymalny przydział bitów na poszczególne

częstotliwości pasma akustycznego, tak aby zapewnić możliwie najwierniejsze zakodowanie sygnału.

(29)

Zobrazowanie sposobu działania banku

filtrów

informatyka +

30

Na początku sygnał jest filtrowany i dzielony na małe odcinki. Następnie

usuwana jest ta część, która nie dociera do mózgu człowieka. Dwa “zielone” sygnały po prawej stronie znajdują się poniżej poziomu słyszalności. Można więc usunąć te sygnały (w drugim i trzecim podzakresie). Sygnał z lewej strony jest słyszalny (pierwszy podzakres), można jednak podnieść dopuszczalny

(30)

Etapy kodowania MP3, cd.

5. Na podstawie zadanej przez użytkownika gęstości strumienia bitowego (ang. bitrate) koder ustala maksymalną liczbę bitów przydzielonych dla każdej ramki (liczba bitów = długość ramki * bitrate).

6. Strumień bitów podawany jest ponownej kompresji poprzez kodowanie Huffmana. Celem tej operacji jest usunięcie

nadmiarowości z danych przetworzonych w pierwszym etapie, czyli dodatkowa kompresja bezstratna.

7. Kolejne ramki poprzedzone nagłówkami są składane w pojedynczy ciąg bitów ( strumień bitowy). Nagłówki zawierają metainformacje określające parametry poszczególnych ramek.

(31)

(32)

Strumień bitowy

• Gęstość strumienia bitowego określa współczynnik kompresji sygnału algorytmem MP3.

• Wyznacza on liczbę bitów przypadającą na sekundę finalnego zapisu.

• Ustawienie odpowiedniej wartości strumienia bitowego jest kompromisem między jakością a rozmiarem pliku wynikowego.

(33)

Tryby CBR i VBR

• Kompresja MP3 może przebiegać:

– ze stałą gęstością strumienia bitowego (ang. constant bitrate), – zmienną gęstością strumienia bitowego (ang. variable bitrate).

• Tryb CBR koduje sygnał w taki sposób, że każda jego sekunda będzie zawierała tą samą ilość bitów.

• Tryb VBR koduje sygnał uwzględniając jego dynamikę, dzięki

czemu przydziela więcej bitów fragmentom sygnału, który zawiera dużo ważnych informacji, oraz mniej bitów dla części sygnału, które są mniej skomplikowane.

• Kompresja w trybie VBR wymaga podania przedziału tolerancji, w jakim może się zmieniać gęstość strumienia bitowego.

(34)

Tryby CBR i VBR

informatyka +

35

Przełącznik Predefiniowane Docelowo _kbit/s Zakres przepływ-_{ności kbit/s}

-b 320 --preset insane 320 320 CBR

-V 0 -- preset fast extreme 245 220...260

-V 1 225 200...250

-V 2 --preset fast standard 190 170...210

-V 3 175 155...195

-V 4 --preset fast medium 165 145...185

-V 5 130 110...150

-V 6 115 95...135

-V 7 100 80...120

-V 8 85 65...105

(35)

Prezentacja nagrań MP3

informatyka +

36 • plik oryginalny

próbkowanie 22500Hz rozdzielczość 16 bitów

• kompresja MP3

przepływność 100-125Kbps, tryb VBR

• kompresja MP3

przepływność 32Kbps, tryb CBR

• kompresja MP3

przepływność 20Kbps, tryb CBR

(36)

Rezerwa bitowa

• Ponieważ zadana gęstość strumienia bitowego obowiązuje dla każdej ramki, w przypadku bardzo złożonych fragmentów może okazać się niewystarczająca i koder nie będzie w stanie zapewnić żądanej jakości zapisu w ramach przydzielonej liczby bitów.

• Aby zapobiec temu zjawisku standard MP3 zapewnia możliwość skorzystania z dodatkowej rezerwy umożliwiającej zapisanie

nadmiarowych danych. Rezerwa ta powstaje w miejscu pustych fragmentów ramek, w których po zakodowaniu sygnału zostało trochę miejsca.

(37)

Łączenie kanałów zapisu

stereofonicznego

• Dzięki ludzkiej niezdolności do lokalizacji w przestrzeni źródeł dźwięku o niskich częstotliwościach standard MP3 przewiduje

możliwość łączenia kanałów stereofonicznych w jeden za pomocą opcji „joint stereo”.

• Pliki stworzone tą metodą zajmują znacznie mniej miejsca (prawie dwukrotnie, gdyż zamiast dwóch kanałów zapisany zostaje tylko jeden).

• Dodatkową możliwością podczas kodowania sygnału z funkcją „joint stereo” jest stereofonia różnicowa. Polega ona na zapisaniu dwóch ścieżek – kanału środkowego będącego sumą sygnałów R i L oraz kanał boczny będący ich różnicą, który służy później do

rekonstrukcji sygnału oryginalnego podczas odtwarzania pliku.

(38)

Swoboda implementacji

• Ciekawostką jest to, że specyfikacja formatu MP3 zawarta w dokumencie ISO/IEC 11172-3 , nie określa dokładnie sposobu samego kodowania, a jedynie prezentuje ogólny zarys techniki, i określa wymagany poziom zgodności zapisu z normą.

• Podejście takie ma na celu promowanie różnorodności

implementacji koderów i dekoderów MP3 realizowanych przez różnych producentów.

• Specyfikacja ISO pełni jedynie rolę bazowego zestawu reguł, określających sposób funkcjonowania standardu tak, aby za pomocą dowolnego kodera można było wygenerować plik odtwarzany przez dowolny dekoder.

(39)

Struktura pliku MP3

• Plik MP3 składa się z ogromnej liczby ramek, z których każda odpowiada ułamkowi sekundy zapisu rekonstruowanego przez dekoder.

• Każda ramka poprzedzona jest nagłówkiem zawierającym 32 bity dodatkowych informacji opisujących następujące po nim właściwe dane.

• Na początku lub końcu pliku mogą znajdować się znaczniki ID3, które zawierają dane o autorze, tytule, prawach autorskich itp.

(40)

Składanie nagłówka ramki

informatyka +

41

Pozycja Zastosowanie Długość

A Ramka synchronizacji 11

B Wersja MPEG 2

C Warstwa (MPEG layer) 2

D Zabezpieczenie 1

E Index predkości bitowej 4

F Częstotliwość próbkowania 2 G Padding bit 1 H Bit prywatności 1 I Tryb kanałów 2 J Tryb rozszerzenia 2 K Copyright 1 L Oryginał 1 M Emfaza 2

(41)

Jakość kodowania MP3

informatyka +

42

Jakość dźwięku Pasmo Tryb Przepływność Współczynnik _kompresji

Telefon 2.5kHz Mono 8 kbps 1 :96

Fale krótkie 4.5kHz Mono 16kbps 1:48

Radio AM 7.5kHz Mono 32kbps 1:24

Radio FM 11kHz Stereo 56-64kbps 1:24-26

„prawie”CD 15kHz Stereo 96kbsp 1:16

(42)

Zalety standardu MP3

• Duży stopień kompresji - stosując kompresję MP3 uzyskujemy plik wynikowy o rozmiarze ok.10 razy mniejszym od oryginału.

• Możemy sterować stopniem kompresji dostosowując go do indywidualnych potrzeb.

• Metoda ta pozwala uzyskać sygnał o stosunkowo dobrej jakości. • Dekompresja wymaga znacznie mniej mocy obliczeniowej niż

kompresja.

• Twórcy standardu bezpłatnie udostępnili kod źródłowy programów kodujących i dekodujących, dzięki czemu standard ten stał się