Metody kodowania i przechowywania sygnalow dzwiekowych.NET

Pełen tekst

(1)

(2) Program wykładu 1. Jak słyszymy – podstawy fizyczne i psychofizyczne, efekty maskowania 2. Sposoby zapisu sygnałów dźwiękowych 3. Sposoby kodowania sygnałów dźwiękowych ze szczególnym uwzględnieniem MP3 4. Obiektywna i subiektywna ocena jakości sygnału dźwiękowego. informatyka +. 2.

(3) Dźwięk – fala akustyczna Fala dźwiękowa rozchodzi się jako podłużna fala akustyczna w danym ośrodku sprężystym: gazie, płynie. W ciałach stałych, takich jak metale, występuje również fala poprzeczna. Dźwięk, jako drgania cząsteczek, charakteryzuje się tym, iż cząsteczka pobudzona przekazuje energię cząstce sąsiedniej, a sama drga wokół własnej osi. Skutkiem tego są lokalne zmiany ciśnienia ośrodka rozchodzące się falowo.. informatyka +. 3.

(4) Jak odbieramy dźwięki ? Ton jest elementarnym rodzajem dźwięku, dla którego fala dźwiękowa ma postać sinusoidy.. 1 0.5 0 -0.5 -1. Wrażenie wysokości dźwięku nie jest liniowo zależne od częstotliwości tonu. Występują różnice między lewym i prawym uchem.. 0. 100. 200. 300. 400. 500. 600. 700. 800. 900. 1000. 0. 100. 200. 300. 400. 500. 600. 700. 800. 900. 1000. 1 0.5 0 -0.5 -1. informatyka +. 4.

(5) Jak odbieramy dźwięki ? • Interwały muzyczne to „odległości” między dźwiękami na skali muzycznej. • Określone są stosunkiem częstotliwości sygnałów. • Oktawa – interwał określający dźwięki, których stosunek częstotliwości = 2 : 1.. informatyka +. 5.

(6) Interpretacja interwałów, barwa dźwięku • Człowiek jest w stanie interpretować poprawnie interwały muzyczne dla tonów o częstotliwości max ok. 5kHz – Powyżej 2,5kHz występują znaczne błędy. – Powyżej 5kHz brak wrażenia melodii chociaż spostrzegane są różnice częstotliwości.. • Barwa – cecha wrażenia słuchowego pozwalająca rozróżnić dwa dźwięki o takiej samej głośności i wysokości. • Barwa instrumentu. • Transjenty, narastanie dźwięku („nabrzmiewanie” i wybrzmiewanie”) – Fortepian a skrzypce.. informatyka +. 6.

(7) Analiza dźwięku Bardzo często w celu analizy sygnału dźwiękowego korzysta się z jego częstotliwościowej reprezentacji. Mówimy wtedy o tzw. widmie sygnału dźwiękowego.. informatyka +. 7.

(8) Dźwięk • W powietrzu w temperaturze otoczenia 20oC prędkość dźwięku wynosi ok. 345 m/s. • Zakres częstotliwości od 20 Hz do 20 kHz jest zakresem częstotliwości słyszalnych (fonicznych, audio). • Fala o częstotliwości 20 Hz ma długość 17,25 m. Fala o częstotliwości 20 kHz ma długość 1,72 cm. • Dźwięki o częstotliwości mniejszej od 20 Hz są nazywane infradźwiękami, zaś o częstotliwości większej od 20 kHz – ultradźwiękami.. informatyka +. 8.

(9) Zakres słyszalności. informatyka +. 9.

(10) Zakres słyszalności • Wrażenia głośności zależą od czasu trwania dźwięku. • Efekt czasowego sumowania głośności dla krótkich czasów trwania. – Powyżej 200ms nie występuje.. • Dla czasów od ok. 1s do ok. 3 min dla dźwięków o niskim poziomie lub wysokiej częstotliwości głośność maleje ze wzrostem czasu trwania – adaptacja głośności. • Efekt sumowania głośności : powiększenie szerokości pasma częstotliwościowego szumu białego powoduje wzrost głośności. Głośność szumu (i dźwięków złożonych) jest wyższa niż tonów (sinusoidalnych) o takim samy ciśnieniu akustycznym.. informatyka +. 10.

(11) Ocena jakości dźwięku. • Ucho – instrument bardzo trudny do zamodelowania, czyli opisania przez wzory matematyczne. • Odbiór wrażeń muzycznych – proces indywidualny. •. Ocena jakości – bardzo subiektywna.. informatyka +. 11.

(12) Formaty zapisu i przechowywania plików multimedialnych Kontenery multimedialne umożliwiają przechowywanie różnego rodzaju danych: dźwięku, obrazów, filmu, napisów, informacji o rozdziałach itp. w wielu formatach. Przykładami kontenerów multimedialnych są: • AVI (standardowy kontener systemu Windows) • Advanced Systems Format (standardowy kontener dla multimediów pakietu Windows Media – WMA oraz WMV) • OGG jest bezpłatnym otwartym kontenerem dla multimediów strumieniowych wysokiej jakości • MPEG-4 Part 14 (standardowy kontener AV dla MPEG-4). informatyka +. 12.

(13) Kodowanie PCM. Metoda PCM polega na reprezentacji wartości chwilowej sygnału (próbkowaniu) w określonych (najczęściej równych) odstępach czasu, czyli z określoną częstością (tzw. częstotliwość próbkowania).. informatyka +. 13.

(14) Kodowanie PCM – kwantyzacja. Wartość chwilowa sygnału jest przedstawiana za pomocą słowa kodowego, którego wartości odpowiadają wybranym przedziałom kwantyzacji sygnału wejściowego.. informatyka +. 14.

(15) Inne metody cyfrowego kodowania dźwięku Mp3 – Standard MPEG-1 – "Layer3„ Ogg Vorbis Mp4 (MPEG-4 Part14) ? AAC Usprawnienia względem starszych algorytmów kompresji dźwięku • próbkowanie 8-96 kHz (MP3 16-48 kHz) • do 48 kanałów (MP3 2 kanały w standardzie MPEG-1 i 5.1 w standardzie MPEG-2) • skuteczniejszy i wydajniejszy • lepsze przenoszenie częstotliwości ponad 16 kHz • lepszy tryb kompresji sygnału stereofonicznego joint-stereo. informatyka +. 15.

(16) Psychoakustyka • Ludzki mózg pełni rolę filtru, który uwypukla informacje ważniejsze i odrzuca informacje nadmiarowe. • Dźwięk zapisany w formie nieskompresowanej, na przykład na CD, zawiera więcej informacji niż jest w stanie przetworzyć ludzki mózg. • Słuch ludzki odbiera częstotliwości leżące w zakresie 20Hz – 20 kHz. • Częstotliwości położone w środku pasma słyszymy lepiej niż skrajne. (Większość dorosłych ludzi nie jest w stanie usłyszeć prawie nic o częstotliwości powyżej 16 kHz.) • Gdy dźwięk składa się z kilku tonów o zbliżonej częstotliwości lub, gdy jeden z tonów jest znacznie głośniejszy niż inne, niektóre tony mogą w ogóle nie zostać wychwycone przez ludzki mózg.. informatyka +. 16.

(17) Maskowanie dźwięków Maskowanie polega na przysłanianiu sygnałów słabszych sąsiadujących z sygnałami znacznie głośniejszymi, które je zagłuszają Sygnałowi, który będzie lepiej słyszalny dla człowieka, można przypisać większą ilość bitów w procesie kompresji, a sygnał, który jest trudny do wychwycenia, może być kompresowany z użyciem mniejszej liczby bitów lub pominięty Rozróżniamy 2 rodzaje maskowania: • maskowanie równoczesne • maskowanie czasowe. informatyka +. 17.

(18) Maskowanie równoczesne Efekt maskowania równoczesnego polega na tym, że człowiek nie jest w stanie odróżnić dwóch dźwięków o zbliżonej częstotliwości, jeśli jeden z nich jest znacznie głośniejszy od drugiego (przypadek A). Możliwe jest to dopiero wtedy, gdy sygnały mają zupełnie różne częstotliwości (przypadek B).. informatyka +. 18.

(19) Maskowanie czasowe. Maskowanie czasowe polega na eliminacji składowych o mniejszym natężeniu, które mają zbliżoną częstotliwość do dźwięku o większym natężeniu i występują razem w pewnym przedziale czasu.. informatyka +. 19.

(20) Maskowanie. Zobrazowanie efektu maskowania. Czarna linia określa próg słyszalności. Słabe dźwięki – kolor zielony – mogą zostać podczas kompresji usunięte. Pozostanie tylko dźwięk słyszalny – kolor czerwony.. informatyka +. 20.

(21) Trochę historii •. Standard MPEG-1 – Layer3(MP3) został opracowany w niemieckim instytucie Fraunhofer, gdzie około 30 inżynierów pracowało nad rozwojem oraz implementacją "w czasie rzeczywistym" algorytmów przetwarzania sygnałów dla potrzeb komunikacji audiowizualnej.. •. Prace rozpoczęto w roku 1987. Głównym celem było opracowanie zaawansowanego algorytmu kodowania sygnałów audio dla przyszłych stacji nadawczych.. •. W roku 1991 prace nad algorytmem kodowania Layer3 zostały ukończone. Opracowany algorytm stał się najbardziej optymalnym sposobem kodowania sygnałów audio w rodzinie określanej przez międzynarodowe normy ISO-MPEG.. informatyka +. 21.

(22) MP3 System kompresji. Stopień kompresji. Wymagana przepustowość. MPEG-1 Layer 1. 1:4. 390 kbit/s. MPEG-1 Layer 2. 1:8. 260 kbit/s. MPEG-1 Layer 3. 1 : 12. 130 kbit/s. Używając algorytmu MPEG-1 Layer 3 (znanego powszechnie w Internecie jako MP3, ze względu na rozszerzenie) do kodowania plików audio, jakość "prawie CD" tj. stereo, 44KHz, 16 bitów, można uzyskać przy 112 –128kbps ( stopień kompresji 11:1 – 13:1).. informatyka +. 22.

(23) Idea kompresji MP3 • Kompresja MP3 oparta jest na matematycznym modelu psychoakustycznym ludzkiego ucha. • Idea kompresji MP3 polega na wyeliminowaniu z sygnału tych danych, które są dla człowieka niesłyszalne lub, które słyszymy bardzo słabo. • Kompresja MP3 jest połączeniem metody kompresji stratnej z kompresją bezstratną. • Etap 1 – koder eliminuje z sygnału składowe słabo słyszalne i niesłyszalne dla człowieka (kompresja stratna). • Etap 2 – uzyskane dane poddawane są dodatkowej kompresji w celu eliminacji nadmiarowości (kompresja bezstratna).. informatyka +. 23.

(24) Transformata kosinusowa (DCT) • Dyskretna transformacja kosinusowa przekształca dane do postaci umożliwiającej zastosowanie efektywnych metod kompresji. • W wyniku działania transformaty na sygnale wejściowym powstają odpowiadające mu współczynniki transformaty. • Transformata kosinusowa jest odwracalna, to znaczy, że dysponując tylko współczynnikami transformaty można odtworzyć odpowiadający im sygnał bez żadnych strat.. informatyka +. 24.

(25) Kwantyzacja Kwantyzacja polega na przeskalowaniu współczynników DCT poprzez podzielnie ich przez właściwy współczynnik znajdujący się w tabeli kwantyzacji, a następnie zaokrągleniu wyniku do najbliższej liczby całkowitej. Proces kwantyzacji można opisać równaniem:. F( x ) k ( x ) = round ( ) Q( x ) gdzie: F(x) – współczynniki transformacji, Q(x) – tablica kwantyzacji, round(x) – funkcja zaokrąglająca x do najbliższej liczby całkowitej.. informatyka +. 26.

(26) Kodowanie Huffmana. • Dane uzyskane w procesie kodowania percepcyjnego poddawane są drugiemu etapowi kompresji bezstratnej – kodowaniu Huffmana. • Kodowanie Huffmana to system przypisywania skończonemu zbiorowi symboli, o z góry znanych częstościach występowania, kodów o zmiennej liczbie bitów. Później symbole te są zastępowane odpowiednimi bitami na wyjściu. Symbole te to najczęściej po prostu bajty, choć nie ma żadnych przeszkód żeby było nimi coś innego.. informatyka +. 27.

(27) Kodowanie Huffmana •. Dla każdego znaku utwórz drzewa złożone tylko z korzenia i ułóż w malejącym porządku ich częstości występowania.. •. Dopóki istnieją przynajmniej dwa drzewa: – z drzew t1 i t2 o najmniejszych częstościach występowania p1 i p2 utwórz drzewo zawierające w korzeniu częstość p12 = p1+p2, – przypisz 0 każdej lewej, a 1 każdej prawej gałęzi drzewa.. •. Utwórz słowo kodu dla każdego znaku przechodząc od korzenia do liścia. Przykład: Z={A,B,C,D,E,F}, P={0.35, 0.17, 0.17, 0.16, 0.10, 0.05}. informatyka +. 28.

(28) Etapy kodowania MP3 1. Sygnał wejściowy jest dzielony na mniejsze fragmenty zwane ramkami o czasie trwania ułamka sekundy. 2. Na podstawie sygnału kodera wyliczany jest rozkład widmowy sygnału dźwiękowego. 3. Widmo sygnału dla każdej ramki porównywane jest z matematycznym modelem psychoakustycznym. W wyniku tego porównania koder określa, które ze składowych dźwięku jako najlepiej słyszalne muszą zostać odwzorowane najwierniej, a które można zakodować w przybliżeniu lub w ogóle pominąć. 4. Ustalany jest optymalny przydział bitów na poszczególne częstotliwości pasma akustycznego, tak aby zapewnić możliwie najwierniejsze zakodowanie sygnału.. informatyka +. 29.

(29) Zobrazowanie sposobu działania banku filtrów. Na początku sygnał jest filtrowany i dzielony na małe odcinki. Następnie usuwana jest ta część, która nie dociera do mózgu człowieka. Dwa “zielone” sygnały po prawej stronie znajdują się poniżej poziomu słyszalności. Można więc usunąć te sygnały (w drugim i trzecim podzakresie). Sygnał z lewej strony jest słyszalny (pierwszy podzakres), można jednak podnieść dopuszczalny poziom szumów, czyli zapisać go mniejszą liczbą bitów.. informatyka +. 30.

(30) Etapy kodowania MP3, cd. 5. Na podstawie zadanej przez użytkownika gęstości strumienia bitowego (ang. bitrate) koder ustala maksymalną liczbę bitów przydzielonych dla każdej ramki (liczba bitów = długość ramki * bitrate). 6. Strumień bitów podawany jest ponownej kompresji poprzez kodowanie Huffmana. Celem tej operacji jest usunięcie nadmiarowości z danych przetworzonych w pierwszym etapie, czyli dodatkowa kompresja bezstratna. 7. Kolejne ramki poprzedzone nagłówkami są składane w pojedynczy ciąg bitów ( strumień bitowy). Nagłówki zawierają metainformacje określające parametry poszczególnych ramek.. informatyka +. 31.

(31) informatyka +. 32.

(32) Strumień bitowy • Gęstość strumienia bitowego określa współczynnik kompresji sygnału algorytmem MP3. • Wyznacza on liczbę bitów przypadającą na sekundę finalnego zapisu. • Ustawienie odpowiedniej wartości strumienia bitowego jest kompromisem między jakością a rozmiarem pliku wynikowego.. informatyka +. 33.

(33) Tryby CBR i VBR • Kompresja MP3 może przebiegać:. – ze stałą gęstością strumienia bitowego (ang. constant bitrate), – zmienną gęstością strumienia bitowego (ang. variable bitrate).. • Tryb CBR koduje sygnał w taki sposób, że każda jego sekunda będzie zawierała tą samą ilość bitów. • Tryb VBR koduje sygnał uwzględniając jego dynamikę, dzięki czemu przydziela więcej bitów fragmentom sygnału, który zawiera dużo ważnych informacji, oraz mniej bitów dla części sygnału, które są mniej skomplikowane. • Kompresja w trybie VBR wymaga podania przedziału tolerancji, w jakim może się zmieniać gęstość strumienia bitowego.. informatyka +. 34.

(34) Tryby CBR i VBR Docelowo kbit/s. Zakres przepływności kbit/s. --preset insane. 320. 320 CBR. -- preset fast extreme. 245. 220...260. 225. 200...250. 190. 170...210. 175. 155...195. 165. 145...185. -V 5. 130. 110...150. -V 6. 115. 95...135. -V 7. 100. 80...120. -V 8. 85. 65...105. -V 9. 65. 45..85. Przełącznik -b 320 -V 0. Predefiniowane. -V 1 -V 2. --preset fast standard. -V 3 -V 4. --preset fast medium. informatyka +. 35.

(35) Prezentacja nagrań MP3 • plik oryginalny próbkowanie 22500Hz rozdzielczość 16 bitów • kompresja MP3 przepływność 100-125Kbps, tryb VBR • kompresja MP3 przepływność 32Kbps, tryb CBR • kompresja MP3 przepływność 20Kbps, tryb CBR. informatyka +. 36.

(36) Rezerwa bitowa • Ponieważ zadana gęstość strumienia bitowego obowiązuje dla każdej ramki, w przypadku bardzo złożonych fragmentów może okazać się niewystarczająca i koder nie będzie w stanie zapewnić żądanej jakości zapisu w ramach przydzielonej liczby bitów. • Aby zapobiec temu zjawisku standard MP3 zapewnia możliwość skorzystania z dodatkowej rezerwy umożliwiającej zapisanie nadmiarowych danych. Rezerwa ta powstaje w miejscu pustych fragmentów ramek, w których po zakodowaniu sygnału zostało trochę miejsca.. informatyka +. 37.

(37) Łączenie kanałów zapisu stereofonicznego • Dzięki ludzkiej niezdolności do lokalizacji w przestrzeni źródeł dźwięku o niskich częstotliwościach standard MP3 przewiduje możliwość łączenia kanałów stereofonicznych w jeden za pomocą opcji „joint stereo”. • Pliki stworzone tą metodą zajmują znacznie mniej miejsca (prawie dwukrotnie, gdyż zamiast dwóch kanałów zapisany zostaje tylko jeden). • Dodatkową możliwością podczas kodowania sygnału z funkcją „joint stereo” jest stereofonia różnicowa. Polega ona na zapisaniu dwóch ścieżek – kanału środkowego będącego sumą sygnałów R i L oraz kanał boczny będący ich różnicą, który służy później do rekonstrukcji sygnału oryginalnego podczas odtwarzania pliku.. informatyka +. 38.

(38) Swoboda implementacji • Ciekawostką jest to, że specyfikacja formatu MP3 zawarta w dokumencie ISO/IEC 11172-3 , nie określa dokładnie sposobu samego kodowania, a jedynie prezentuje ogólny zarys techniki, i określa wymagany poziom zgodności zapisu z normą. • Podejście takie ma na celu promowanie różnorodności implementacji koderów i dekoderów MP3 realizowanych przez różnych producentów. • Specyfikacja ISO pełni jedynie rolę bazowego zestawu reguł, określających sposób funkcjonowania standardu tak, aby za pomocą dowolnego kodera można było wygenerować plik odtwarzany przez dowolny dekoder.. informatyka +. 39.

(39) Struktura pliku MP3 • Plik MP3 składa się z ogromnej liczby ramek, z których każda odpowiada ułamkowi sekundy zapisu rekonstruowanego przez dekoder. • Każda ramka poprzedzona jest nagłówkiem zawierającym 32 bity dodatkowych informacji opisujących następujące po nim właściwe dane. • Na początku lub końcu pliku mogą znajdować się znaczniki ID3, które zawierają dane o autorze, tytule, prawach autorskich itp.. informatyka +. 40.

(40) Składanie nagłówka ramki Pozycja. Zastosowanie. Długość. A. Ramka synchronizacji. 11. B. Wersja MPEG. 2. C. Warstwa (MPEG layer). 2. D. Zabezpieczenie. 1. E. Index predkości bitowej. 4. F. Częstotliwość próbkowania. 2. G. Padding bit. 1. H. Bit prywatności. 1. I. Tryb kanałów. 2. J. Tryb rozszerzenia. 2. K. Copyright. 1. L. Oryginał. 1. M. Emfaza. 2. informatyka +. 41.

(41) Jakość kodowania MP3. Jakość dźwięku. Pasmo. Tryb. Przepływność. Współczynnik kompresji. Telefon. 2.5kHz. Mono. 8 kbps. 1 :96. Fale krótkie. 4.5kHz. Mono. 16kbps. 1:48. Radio AM. 7.5kHz. Mono. 32kbps. 1:24. Radio FM. 11kHz. Stereo. 56-64kbps. 1:24-26. „prawie”CD. 15kHz. Stereo. 96kbsp. 1:16. CD. >15kHz. Stereo. 112-128kbps. 1:12-14. informatyka +. 42.

(42) Zalety standardu MP3 • Duży stopień kompresji - stosując kompresję MP3 uzyskujemy plik wynikowy o rozmiarze ok.10 razy mniejszym od oryginału. • Możemy sterować stopniem kompresji dostosowując go do indywidualnych potrzeb. • Metoda ta pozwala uzyskać sygnał o stosunkowo dobrej jakości. • Dekompresja wymaga znacznie mniej mocy obliczeniowej niż kompresja. • Twórcy standardu bezpłatnie udostępnili kod źródłowy programów kodujących i dekodujących, dzięki czemu standard ten stał się niezwykle popularny.. informatyka +. 43.

(43) Wady standardu MP3. • Jest to metoda kompresji stratnej, co uniemożliwia zrekonstruowanie sygnału oryginalnego. • Kompresja wymaga stosunkowo dużo mocy obliczeniowej.. informatyka +. 44.

(44)

(45)