• Nie Znaleziono Wyników

Metody kompresji dźwięku

N/A
N/A
Protected

Academic year: 2021

Share "Metody kompresji dźwięku"

Copied!
11
0
0

Pełen tekst

(1)

Ćwiczenie nr 3:

Metody kompresji sygnału fonicznego

Opracowanie: dr inż. Rafał Królikowski

dr inż. Piotr Odya

1. WPROWADZENIE

Standard płyty kompaktowej to 16 bitów rozdzielczości przy częstotliwości próbkowania 44,1 kHz. Wynika z tego przepływność wynosząca dla nagrania stereofonicznego ok. 1,4 Mbitów/s, czyli 176,4 kB/s. Mimo znaczącej poprawy przepustowości łącz internetowych wartość ta może być zbyt duża. Stąd też prace mające na celu opracowanie metod stratnej kompresji dźwięków bez pogorszenia subiektywnej jakości prowadzone są od wielu lat.

Standard MPEG (ang. Moving Pictures Experts Group) został opracowany na początku lat 90-tych przy współpracy wielu laboratoriów europejskich dla kodowania stratnego sygnału wizyjnego oraz stowarzyszonego z nim sygnału dźwiękowego. Stąd też standard ten nadaje się do kompresji samego dźwięku. Umożliwia on kompresję sygnału fonicznego z częstotliwościami próbkowania 32 kHz, 44,1 kHz oraz 48 kHz w stosunku od 8 do 48 kB/s dla dźwięku stereofonicznego.

Algorytm MPEG może pracować w kilku trybach, które noszą nazwę layer. Powszechnie stosowane trzy tryby, które noszą odpowiednio nazwy: Layer I, Layer II, Layer III. Ostatnia wersja: Layer III różnie się od pozostałych głównie bardziej zaawansowanym modelem perceptualnym. Obecnie coraz większą popularność zdobywa wywodzący się również z algorytmów MPEG format AAC (ang. Advanced Audio Coding). Początkowo był on oznaczany jako MPEG-2 NBC (ang. Non-Backward Compatible) ze względu na brak

KATEDRA SYSTEMÓW MULTIMEDIALNYCH

LABORATORIUM

(2)

2

kompatybilności z poprzednimi wersjami kodeków MPEG. W niniejszym opracowaniu przedstawiono podstawy zasad psychoakustyki, które leżą u podstaw standardu MPEG oraz przedstawiono schemat kodeków MPEG-1.

2. PSYCHOAKUSTYCZNE PODSTAWY STRATNEJ KOMPRESJI

2.1. Pasma krytyczne słuchu

Wiele badań eksperymentalnych dowodzi, że system słuchowy człowieka przetwarza dźwięk w pewnych podpasmach, zwanych pasmami krytycznymi. W każdym pasmie sygnał jest analizowany niezależnie od dźwięku w pozostałych. Różni badacze różnie definiują pasmo krytyczne.

Wg Fletchera szerokość pasm krytycznych wyznacza się na podstawie zagłuszania tonów prostych przez szumy. Badana osoba ma za zadanie wykryć czysty ton, maskowany szumem w pasmie obejmującym częstotliwości zbliżone do częstotliwości tego tonu. W miarę zwiększania szerokości pasma szumu wykrycie tonu staje się coraz trudniejsze dopóki nie zostanie osiągnięta krytyczna szerokość tego pasma. Dalsze zwiększanie tej szerokości nie ma wpływu na wykrycie tonu podstawowego.

Z kolei Zwicker określa pasma krytyczne opierając się na wielkości wrażenia głośności, wywołanym przez szumy wąskopasmowe o widmie ciągłym. Zwiększając szerokość pasma szumu, głośność pozostaje na tym samym poziomie, o ile szerokość nie przekroczy szerokości pasma krytycznego. Wówczas wrażenie głośności ulega zmianie. Przykład ten zilustrowano na rys. 1.

Każdemu pasmu krytycznemu odpowiada pewien odcinek na błonie podstawowej ślimaka równy 1,3 mm.

Rys. 1. Zależność poziomu głośności wąskiego pasma szumu białego o częstotliwości środkowej 1kHz od szerokości pasma przy stałym poziomie ciśnienia akustycznego (60 dB)

(3)

Szerokość pasm krytycznych nie jest jednakowa. Poniżej 500 Hz jest on stała i wynosi 100 Hz. Powyżej 500 Hz szerokość każdego następnego pasma krytycznego jest o 20% większe niż dla poprzedniego pasma. Zależność tę pokazano na rys. 2.

Ze względu na dość szerokie zastosowanie pasm krytycznych wprowadzono perceptualną jednostkę dźwięku - Bark. Jeden bark odpowiada szerokości jednego pasma krytycznego.

2.2. Zjawisko maskowania

Zjawisko maskowania odgrywa ważną rolę w procesie słyszenia. Zazwyczaj są rozróżniane 2 jego rodzaje: maskowanie jednoczesne (w dziedzinie częstotliwości) oraz maskowanie niejednoczesne (w dziedzinie czasu). Polega ono na zagłuszaniu tonów przez inne.

Maskowanie jednoczesne charakteryzuje się tym, że pewne tony stają się niesłyszalne w obecności innych - tzw. maskerów. Zależy od natężenia tonów maskującego i maskowanego oraz ich częstotliwości. Zależność tę opisują tzw. krzywe maskowania dla maskerów o danym natężeniu i częstotliwości. Wszystkie dźwięki, dla których wartości natężenia leżą poniżej takiej krzywej, zostają zagłuszone. Przykładowe krzywe maskowania zostały zaprezentowane na rys. 3. Można zauważyć, że ich kształty zróżnicowane. W praktycznych implementacjach krzywe te są przedstawiane względem osi częstotliwości

Rys. 2. Zależność wysokości tonu (w Barkach) od częstotliwości (w Hz)

(4)

4

wyrażonej w barkach i wówczas przyjmują one kształty jak na rys. 4., z którego wynika, że można je aproksymować liniami prostymi.

a) b)

Rys. 3. Krzywe maskowania dla wybranych częstotliwości tonu i amplitudy (60 dB): a) względem liniowej osi częstotliwości,

b) względem osi częstotliwości w skali logarytmicznej.

Rys. 4. Kształt krzywych maskowania względem częstotliwości wyrażonej w Barkach

Maskowanie niejednoczesne może występować w dwóch rodzajach: jako premaskowanie lub postmaskowanie. Przykład takiego maskowania zaprezentowano na rys. 5. Niekiedy dźwięk o dużym natężeniu może zamaskować tony, które już wystąpiły. Związane jest to z tym, że dźwięki głośniejsze są przetwarzane szybciej niż ciche. Wówczas występuje zjawisko premaskowania, które może trwać do kilkunastu milisekund. Z kolei postmaskowanie polega na tym, że po wystąpieniu głośnego tonu, w ciągu najbliższego czasu (nawet do ok. 200 ms) inne dźwięki mogą nie być słyszane. Czas ten zależy od natężenia maskera oraz czasu jego trwania (rys. 6). Spowodowane jest to dość długim czasem relaksacji neuronów.

(5)

premaskowanie postmaskowanie maskowanie jednoczesne masker L [dB] t [ms] 0 0 -40 180 200 40 80

Rys. 5. Przykład maskowania jednoczesnego: premaskowanie i postmaskowanie

L [dB]

t [ms]

0 200 300

80

100

Rys. 6. Wpływ długości impulsu na zjawisko postmaskowania

3. OGÓLNE ZASADY KOMPRESJI STRATNEJ DŹWIĘKU

W algorytmach stratnej kompresji dźwięku wykorzystuje się omówione zjawiska maskowania. Jeśli podczas analizy model psychoakustyczny wykaże, że dane tony i tak nie są percypowane przez człowieka, to wtedy składowe te nie są brane pod uwagę przy kodowaniu. Co więcej, wartości natężenia składowych słyszalnych są kwantowane, przy czym zwraca się uwagę, aby błąd kwantyzacji - szum - leżał poniżej progu słyszalności, wyznaczonego przez odpowiednie krzywe maskowania. Reasumując, analiza perceptualna ma na celu wyłowienie i kodowanie tylko tych składowych dźwięku, które odgrywają znaczącą rolę podczas percepcji tego dźwięku.

4. ZADANIA

4.1. Opis oprogramowania

Ćwiczenie oparte jest na programowych koderach i dekoderach MP3 oraz AAC. W trakcie ćwiczenia wykorzystane będą:

(6)

6

 komercyjny program służący do obróbki i montażu dźwięku – Adobe Audition;  program typu Open source – LAME, wraz z dodatkową nakładką graficzną LameXP.

4.2. Polecenia

4.2.1. Kompresja przebiegu trójkątnego

Korzystając z aplikacji Adobe Audition utworzyć nowy plik stereofoniczny o częstotliwości próbkowania 44100Hz i rozdzielczości bitowej 16 bitów. Wygenerować przebieg trójkątny o amplitudzie -1dB i czasie trwania 10 sekund (z menu wybrać opcję Generate  Tones, a następnie parametr Flavor ustawić na Triangle/Sawtooth). Częstotliwość dźwięku zostanie podana przez prowadzącego. Otrzymany plik zapisać do pliku w formacie Windows PCM (*.wav). Plik ten będzie stanowić plik wzorcowy.

UWAGA! Nie zapisywać pliku do formatu PCM Raw Data (*.pcm).

Następnie skomprymować plik wzorcowy do formatu MP3 i AAC używając programu LameXP. Program ten wykorzystuje kodek LAME do kompresji do MP3 i kodek firmy Nero do kompresji do AAC. Ustawić tę przepływność podaną przez prowadzącego. Dokonuje się tego w zakładce Compression. W zależności od wykonywanego zadania przełączać się między trybami Quality-based (VBR) i Constant bitrate (CBR).

W zakładce Output directory (Folder wyjściowy) należy ustawić miejsce zapisu plików po kompresji na folder domowy danej grupy laboratoryjnej.

Zwrócić uwagę, żeby zawsze dokonywać kompresji pliku wzorcowego, a nie pliku skomprymowanego.

Opcje kodeka ustawić tak, by kompresja odbywała się z typową jakością - dla programu LameXP: zakładka Advanced Options  LAME Algorithm Quality  High Quality (Recommended). Należy także sprawdzić, czy pozostałe opcje kodeka są ustawione jak na rys. 7.

(7)

Rys. 7. Okno opcji koderów programu LameXP

Zamknąć wszystkie pliki wczytane do Adobe Audition. Następnie wczytać plik wzorcowy oraz wszystkie skomprymowane pliki do programu Adobe Audition i kolejno odsłuchać (uważać na poziom dźwięku w słuchawkach). Zwrócić uwagę na różnice w widmach sygnałów przed kompresją i po dekompresji (wybrać w menu opcję Window Frequency Analysis lub użyć skrótu klawiaturowego Alt+Z) – zwłaszcza dla zakresu częstotliwości powyżej 15kHz. Aby wyniki analizy były porównywalne, w trakcie analizy zaznaczony musi być cały plik (CTRL+A lub podwójne kliknięcie na oknie przebiegu czasowego). Porównać także przebiegi czasowe sygnałów: czas trwania plików z dokładnością do pojedynczych milisekund (pole Length w prawym dolnym rogu okna czasowego) oraz parametry związane z amplitudą (Window  Amplitude Statistics  Peak Amplitude – odczytywać wartość dla kanału lewego).

4.2.2. Kompresja sygnałów rzeczywistych

Postępując analogicznie jak w punkcie 4.2.1 skomprymować i porównać przebiegi czasowe i widma dla dwóch z plików: jazz.wav, mowa.wav, organy.wav, orchestra.wav,

(8)

8

pop.wav, rock.wav. Prowadzący poda przepływność oraz nazwy plików, które będą miały być przetwarzane.

Pliki skomprymować zachowując taką samą przepływność (tryb CBR) niezależnie od formatu kompresji. Dla każdego z plików obliczyć współczynnik kompresji jako stosunek wielkości pliku przed kompresją do jego wielkości po kompresji (np.: 10:1 lub 4,7:1).

5. BIBLIOGRAFIA

BRANDENBURG K., STOLL G. (1994), “ISO-MPEG-1 Audio: A Generic Standard for Coding of High-Quality Digital Audio”, Journal of the AES, vol. 42, no. 10, October 1994.

OOMEN W., DE BONT F., VAN DE KERKHOF L.M. (1995), “Variable Bit Coding for MPEG-1 Audio, Layers I and II”, 98th AES Conv., Paris 1995, Preprint No. 3938.

STAUTNER J. (1992), “Scalable Audio Compression for Mixed Computing Enviroment”, 93rd AES Conv., San Francisco 1992, Preprint No. 3357.

ZWICKER E., ZWICKER U.T. (1991), “Audio Engineering and Psychoacoustics: Matching Signals to the Final Receiver, the Human Auditory System”, Journal of the AES, vol. 39, no. 3, March 1991.

(9)

1.

Opracowanie wyników

1.1. Ocena kompresji sygnału trójkątnego

Na podstawie obserwacji dokonanych w punkcie 4.2.1 uzupełnić poniższą tabelę:

wielkość pliku pasmo(*) jakość(**) czas trwania maksymalna amplituda plik oryginalny

MP3 ………kbit/s

AAC ………kbit/s

(*) – należy ocenić maksymalną częstotliwość sygnału, zwrócić uwagę na składowe, które występowały w sygnale oryginalnym, a nie ma ich w sygnale po dekompresji (a tym samym pasmo jest węższe)

(**) – ocenić w skali 1-10, gdzie 10 jakość pliku oryginalnego

Opisać wrażenia subiektywne (czy dźwięk różni się od dźwięku oryginalnego, czy są słyszalne jakieś zniekształcenia dźwięku)

... ... ... ... Jakie zmiany nastąpiły w widmie i przebiegu czasowym sygnałów po kompresji?

... ... ... ... ...

TRANSMISJA I REJESTRACJA SYGNAŁÓW

Ćw. 3 Metody kompresji sygnału fonicznego

Wykonujący: Ocena:

Grupa:

(10)

1.2. Ocena kompresji sygnałów rzeczywistych

Na podstawie obserwacji dokonanych w punkcie 4.2.2 uzupełnić poniższe tabele dla poszczególnych testowanych plików:

plik ………..

wielkość pliku współczynnik

kompresji Pasmo jakość

maksymalna amplituda plik oryginalny MP3 ………kbit/s AAC ………kbit/s plik ………..

wielkość pliku współczynnik

kompresji Pasmo jakość

maksymalna amplituda plik oryginalny

MP3 ………kbit/s

AAC ………kbit/s

Opisać wrażenia subiektywne (czy dźwięk różni się od dźwięku oryginalnego, czy są słyszalne jakieś zniekształcenia, w przypadku którego z plików zniekształcenia są najmniej odczuwalne) ... ... ... ... ...

2.

Odpowiedzi na pytania

2.1. Z czego mogą wynikać różnice w widmie sygnałów przed i po kompresji?

... ... ... ... 2.4. Który z formatów kompresji zapewnia wyższą jakość? Z czego może to wynikać? ... ... ... ...

(11)

3.

Wnioski

Krótko opisać przemyślenia dotyczące kompresji stratnej sygnałów audio, uzyskanych wyników oraz przebiegu ćwiczenia.

... ... ... ... ... ...

Cytaty

Powiązane dokumenty

Zgodnie ze zmianą studium uwarunkowań i kierunków zagospodarowania przestrzennego Gminy Opoczno uchwaloną Uchwałą nr XIII/114/2015 Rady Miejskiej w Opocznie z dnia 5.10.2015

Maksymalne opady o różnym czasie trwania obserwowane w Polsce*.. Związek pomiędzy natężeniem i czasem

/ESC 2006 poświęconymi komorowym zaburzeniom rytmu serca i prewencji nagłej śmierci sercowej (SCD) wskaza- nia do wszczepienia kardiowertera- -defibrylatora serca (ICD)

if S zawiera dwie litery dołącz 0 do słowa kodu jednej litery i 1 do słowa kodu drugiej litery;. else if S zawiera więcej niż dwie litery podziel S na

Uczestnik zgłaszając Pracę do Konkursu zgadza się̨ na opublikowanie jej na stronie konkursu oraz na wykorzystanie w komunikacji marketingowej marki ZINA.. Udział

Na wstêpie mo¿na zadaæ retoryczne pytanie: Czy ak- tualna, kryzysowa sytuacja w sektorze ochrony zdrowia sprzyja lansowaniu strategii dobrej jakoœci us³ug zdro- wotnych

Miesiąc - to pole precyzuje, za który miesiąc, za który naliczone są wpłaty (składki) korygowane w pliku. Informacja o tym, czy składka podstawowa za wybrany miesiąc

Termin stanowczy dla organów procesowych jest to za- tem taki termin, którego przekroczenie powoduje formaln ą wadliwo ść czyn- no ś ci procesowej podj ę tej z naruszeniem