• Nie Znaleziono Wyników

Kompresja i ekspansja dynamiki sygnału fonicznego

N/A
N/A
Protected

Academic year: 2021

Share "Kompresja i ekspansja dynamiki sygnału fonicznego"

Copied!
10
0
0

Pełen tekst

(1)

KATEDRA SYSTEMÓW MULTIMEDIALNYCH PG

Laboratorium Przetwarzania Dźwięków i Obrazów

Ćwiczenie nr 6: Przetwarzanie dynamiki sygnału fonicznego

Opracowanie:

Aktualizacja: 2017.12.29 dr inż. Grzegorz Szwoch, dr inż. Piotr Suchomski

Wprowadzenie

Zakres dynamiki dźwięku (lub krócej: dynamika dźwięku) jest to różnica poziomu pomiędzy najcichszym a najgłośniejszym fragmentem dźwięku. Dla urządzenia lub toru przesyłowego, zakres dynamiki opisuje różnicę między maksymalnym użytecznym poziomem sygnału a poziomem szumu. W praktyce inżyniera dźwięku często istnieje potrzeba korekcji dynamiki dźwięku. W czasie realizacji nagrania występują takie problemy jak: utrzymanie właściwej proporcji między dźwiękami cichymi i głośnymi (np. nagrania muzyki symfonicznej), zachowanie stałej dynamiki głosu lektora lub wokalisty, zbyt duża amplituda (przesterowanie), czy problem głosek wybuchowych i syczących (sybilanty). Zadaniem procesora dynamiki jest dopasowanie dynamiki sygnału do dynamiki medium (kanału transmisyjnego lub nośnika), poprzez zmniejszenie (kompresję), zwiększenie (ekspansję) lub dowolne ukształtowanie charakterystyki dynamiki.

Działanie procesora dynamiki dźwięku jest opisane za pomocą jego charakterystyki statycznej (rys. 1). Na osi poziomej wykresu pokazany jest poziom sygnału na wejściu procesora, na osi pionowej: poziom sygnału przetworzonego przez procesor. Wartości decybelowe opisują poziom sygnału, który najczęściej jest obliczany jako logarytm z wartości skutecznej (rms) sygnału, reprezentującej jego energię. Jeżeli popatrzymy na obwiednię wykresu czasowego nagrania dźwiękowego, uzyskamy przybliżoną informację o zmianach poziomu. Linia na wykresie o nachyleniu jednostkowym oznacza brak przetwarzania dynamiki (wzmocnienie 1:1), każde odchylenie od niej powoduje zniekształcenie dynamiki.

Często mamy do czynienia z sytuacją, w której dynamika dźwięku jest zbyt duża. Przykładowo, nagrywamy orkiestrę symfoniczną. Zakres poziomów jest zbyt duży aby zarejestrować wszystkie dźwięki (ciche i głośne). Rozwiązaniem jest zmniejszenie dynamiki, czyli jej kompresja (nie mylić z kompresją danych), tak aby zakres dynamiki po przetworzeniu pokrywał się z możliwościami medium. Przykładową charakterystykę kompresora dynamiki pokazano na rys. 1a. Fragmenty dźwięku o niskim poziomie (od -120 dB do 50 dB) są przenoszone bez zmian (charakterystyka liniowa). Dla dźwięków o poziomie większym od -50 dB (tę wartość nazywamy progiem kompresji) następuje kompresja: przyrost poziomu na wyjściu układu jest mniejszy niż przyrost poziomu wejściowego. Stosunek przyrostu poziomu wejściowego do przyrostu poziomu wyjściowego jest nazywany współczynnikiem

(2)

kompresji. W prezentowanym przykładzie, przyrost na wejściu o 50 dB w zakresie kompresji powoduje przyrost na wyjściu tylko o 20 dB, zatem współczynnik kompresji jest równy 50:20 = 2,5:1. Typowe kompresory mają współczynnik większy od 1:1 i mniejszy od 10:1. Wynikiem działania przykładowego kompresora jest zmniejszenie dynamiki dźwięku ze 120 dB (zakres wejściowy) do 90 dB (zakres wyjściowy).

Jeżeli współczynnik kompresji jest duży, większy od 10:1, działanie układu sprowadza się do zapobiegania wystąpieniu na wyjściu poziomów większych niż próg kompresji. Taki układ nazywamy ogranicznikiem (limiterem) dynamiki. W przykładzie pokazanym na rys. 1b, ogranicznik nie pozwala na to aby poziom wyjściowy przekroczył wartość ok. 18 dB. Celem stosowania ogranicznika jest zwykle zapobieganie przesterowaniu sygnału, a więc pojawienie się poziomu dźwięku większego niż ten, który może być transmitowany albo rejestrowany bez zniekształceń. Ogranicznik poziomu zwykle bada wartość szczytową (peak) sygnału. Kompresor -120 -100 -80 -60 -40 -20 0 -120 -100 -80 -60 -40 -20 0 Poziom wejściowy [dB] P o zi o m w y jś ci o w y [ d B ] Ogranicznik -120 -100 -80 -60 -40 -20 0 -120 -100 -80 -60 -40 -20 0 Poziom wejściowy [dB] P o zi o m w y jś ci o w y [ d B ] Ekspander -120 -100 -80 -60 -40 -20 0 -120 -100 -80 -60 -40 -20 0 Poziom wejściowy [dB] P o zi o m w y jś ci o w y [ d B ] Bramka -120 -100 -80 -60 -40 -20 0 -120 -100 -80 -60 -40 -20 0 Poziom wejściowy [dB] P o zi o m w y jś ci o w y [ d B ]

Rys. 1. Charakterystyki statyczne: a) kompresora dynamiki, b) ogranicznika, c) ekspandera, d) bramki szumowej

(3)

Operacją przeciwną do kompresji dynamiki jest jej ekspansja, czyli zwiększenie. Chcemy np. nagrać dźwięk o małej dynamice, ale zależy nam na wykorzystaniu całego dostępnego zakresu dynamiki rejestratora. Charakterystyka ekspandera dynamiki (rys. 1c) powoduje zmianę dynamiki sygnału dla poziomów wejściowych mniejszych niż próg ekspansji (-70 dB w prezentowanym przykładzie). Współczynnik ekspansji oblicza się tak jak w przypadku kompresji, jest on zawsze mniejszy od 1 (w naszym przypadku wynosi on 30:50 = 1:1,67, przez co zakres dynamiki zwiększa się ze 100 dB do 120 dB). Jeżeli współczynnik ekspansji jest mniejszy niż 1:10, układ staje się bramką szumową (noise gate) (rys. 1d). Jego działanie sprowadza się do odcinania zbyt niskich poziomów dźwięku, a więc typowo (zgodnie z nazwą) do usuwania szumu.

Rysunek 1 przedstawia charakterystyki jednoprogowych procesorów dynamiki (z jednym punktem załamania). Można również stosować procesory o charakterystykach złożonych z kilku progów i kilku odcinków kompresji lub ekspansji, co pozwala dowolnie kształtować dynamikę sygnału. Czasami stosuje się również zestaw kilku procesorów dynamiki działających niezależnie w kilku rozłącznych pasmach częstotliwości.

Każdy procesor dynamiki musi pomierzyć aktualny poziom sygnału wejściowego. Zwykle odbywa się to przez pomiar wartości skutecznej (RMS) sygnału, a więc pierwiastka ze średniej kwadratów amplitudy sygnału. Ograniczniki i bramki mierzą czasem wartości szczytowe. Czas uśredniania wartości sygnału ma wpływ na działanie procesora. Żaden procesor nie reaguje natychmiast na zmiany poziomu wejściowego, potrzeba na to pewnego czasu. Rozpatrzmy dla przykładu kompresor z rys. 1a. Jeżeli poziom wzrośnie z 60 dB do 40 dB (przekroczy próg kompresji), docelowa wartość wyjściowa zostanie osiągnięta po upływie czasu zwanego czasem ataku (attack time). Podobnie, przy zmniejszeniu poziomu wejściowego poniżej progu kompresji (wyłączeniu kompresji) docelowa wartość poziomu na wyjściu ustali się po czasie zwanym czasem zwolnienia (release time). Czasy ataku i zwolnienia (rys. 2) definiują charakterystykę dynamiczną procesora dynamiki. Parametry te mogą być często modyfikowane. Zbyt małe czasy ataku i zwolnienia powodują zniekształcenia dźwięku (słyszalne wahania głośności), zbyt długie czasy sprawiają że procesor nie nadąża za zmianami dynamiki sygnału. Nie ma ustawień uniwersalnych, inżynier dźwięku musi dobrać parametry do charakteru dźwięku. W przypadku sygnału mowy zazwyczaj czas ataku (ok. 10–30 ms) jest znacznie krótszy od czasu zwolnienia (100–500 ms).

(4)

W obecnych czasach obserwuje się nadużywanie kompresji dynamiki i stosowanie jej nawet wtedy, gdy nie jest ona potrzebna. Nagrania dokonane w ubiegłym stuleciu charakteryzują się dużym zakresem dynamiki, ale są one zauważalnie cichsze od współczesnych. Obecny trend polega na stosowaniu silnej kompresji w celu podniesienia wrażenia głośności nagrania. Oparte jest to na spostrzeżeniu, że przy porównaniu dwóch nagrań o różnych poziomach prawdopodobne jest, że to głośniejsze zostanie ocenione jako brzmiące „lepiej i wyraźniej”. Wadą zastosowania kompresji jest to, że traci się niuanse dźwięku związane z dynamiką – całe nagranie ma prawie jednakowy poziom głośności i dynamika jest niemal zerowa. Zjawisko to, krytykowane przez wielu specjalistów i muzyków, nosi nazwę wojny głośności (loudness war). Jest ono opisane w Wikipedii w wersji polskiej i

angielskiej oraz bardziej szczegółowo w cytowanych tam publikacjach.

Opis procesora dynamiki w programie Adobe Audition

W ćwiczeniu wykorzystywany będzie program Adobe Audition. Aby wykonać przetwarzanie dynamiki, należy wczytać do programu plik dźwiękowy, a następnie wybrać z menu Effects > Amplitude and Compression opcję Dynamics Processing. Można też wybrać tę funkcję z panelu Effects. Poniżej opisano poszczególne zakładki okna procesora dynamiki.

Graphic

W tej zakładce można tworzyć i modyfikować wielopunktową charakterystykę procesora dynamiki za pomocą myszki. Oś pozioma wykresu przedstawia poziom wejściowy sygnału, oś pionowa – poziom wyjściowy. Aby utworzyć nowy punkt na wykresie, należy kliknąć myszką w wybranym miejscu. Przesuwając punkt przy wciśniętym przycisku myszy można zmienić jego położenie. Kliknięcie wybranego punktu prawym klawiszem myszy umożliwia dokładne wpisanie współrzędnych punktu. Aby usunąć punkt, trzeba przeciągnąć go poza obszar wykresu. Opcja Spline Curves wygładza charakterystykę. Przycisk Reset powoduje powrót do charakterystyki liniowej, przycisk Invert odwraca charakterystykę.

Traditional

W tej zakładce można tworzyć charakterystykę procesora przez podawanie parametrów, można również odczytać współczynniki i progi dla charakterystyki utworzonej w sposób graficzny. Można utworzyć charakterystykę składającą się z maksymalnie sześciu odcinków, dla każdego odcinka podając: typ odcinka (Section – kompresja, liniowa (flat), ekspansja), współczynnik kompresji lub ekspansji (Ratio) oraz wartości progowe (Threshold, podawane w kolejności malejącej). Najwyższa wartość progowa określa granicę między dwoma ostatnimi odcinkami, dalsze progi określają górną granicę odcinka. Pole Output Gain pozwala ustalić wzmocnienie korekcyjne, które powoduje przesuwanie charakterystyki w górę wraz ze wzrostem tego wzmocnienia.

Attack/Release

W tej zakładce dokonuje się modyfikacji parametrów dynamicznych procesora. Wykonuje się to osobno dla dwóch bloków – procesora wzmocnienia i detektora poziomu.

Gain Processor – procesor dynamiki. Parametry układu: Output Gain – końcowe

wzmocnienie, Attack Time – czas ataku (w milisekundach), Release Time – czas zwolnienia (w ms), Joint Channels – w przypadku sygnału stereofonicznego, oba kanały są przetwarzane w ten sam sposób.

(5)

Level Detector (detektor poziomu) wyznacza wartość poziomu wejściowego. Parametry

układu: Input Gain – dodatkowe wzmocnienie sygnału wejściowego przed dalszym przetwarzaniem, Attack Time – czas ataku (w ms), Release Time – czas zwolnienia (w ms),

Peak – detekcja poziomu wejściowego odbywa się na podstawie wartości szczytowych

(stosuje się w przypadku ogranicznika i bramki szumowej), RMS – detekcja na podstawie wartości średniokwadratowych RMS (stosuje się w kompresji i ekspansji).

Ze względu na długi czas reakcji procesora dynamiki, gdy w sygnale wejściowym pojawi się impuls o dużym poziomie, procesor może nie zareagować w porę, przez co impuls ten przedostanie się na wyjście i może spowodować wystąpienie przesterowania. Aby temu zapobiec, stosuje się układ, który „wypatruje” takich impulsów i w razie ich wykrycia uruchamia procesor dynamiki z wyprzedzeniem, tak aby czas ataku już minął gdy impuls pojawi się na wejściu układu. Czas tego wyprzedzenia ustala się za pomocą parametru

Lookahead Time. Gdy jest on równy zeru, funkcja ta jest wyłączona, co jest użyteczne np. w

przypadku kompresji sygnału zawierającego dźwięki perkusyjne. Zaleca się używanie tej funkcji w przypadku ogranicznika poziomu.

Zakładka Band Limiting pozwala ograniczyć działanie procesora do wybranego pasma częstotliwości, podając dolną i górną częstotliwość graniczną (Low Cutoff, High Cutoff).

Zadania

Formularz sprawozdania znajduje się na końcu instrukcji, należy go wydrukować i przynieść na ćwiczenie.

Przed przystąpieniem do wykonywania ćwiczenia należy pobrać z katedralnej strony WWW plik pdio06.zip zawierający próbki dźwiękowe i rozpakować go do katalogu roboczego. Katalog ten należy usunąć po wykonaniu ćwiczenia.

UWAGA 1: nagrania raz przetworzonego przez procesor dynamiki nie należy przetwarzać ponownie! Należy zawsze pracować na nie przetworzonym dźwięku (można po przetworzeniu użyć funkcji Undo). W przeciwnym razie, wyniki będą nieprawidłowe.

UWAGA 2: po zastosowaniu kompresji dynamiki można zaobserwować zmniejszenie ogólnej głośności nagrania. Efekt ten jest w praktyce kompensowany za pomocą dodatkowego wzmocnienia (Output gain). Można również zastosować normalizację poziomu po przetwarzaniu dynamiki – funkcja Efects > Amplitude and compression > Normalize. Zaleca się zastosowanie normalizacji po każdym przetwarzaniu dynamiki. Proszę nie wyciągać wniosków, że „kompresja ścisza sygnał” – są one błędne.

UWAGA 3: proszę zwracać uwagę na poziom sygnału. Jeżeli po przetworzeniu sygnału, wskaźnik poziomu zapala się na czerwono, sygnał wypełnia cały wykres czasowy, a dźwięk jest charczący, oznacza to że sygnał został przesterowany. Oznacza to nieprawidłowy dobór parametrów procesora , tak zniekształconego sygnału nie należy oceniać.

UWAGA 4: przy zmianie parametrów w zakładce Traditional należy sprawdzać kształt charakterystyki na wykresie na zakładce Graphic. Podanie „złych” parametrów może zniekształcić charakterystykę i trudno jest to później naprawić – trzeba wtedy użyć funkcji

(6)

Zadanie 1 – wpływ wartości progowej na kompresję dynamiki

Wczytać plik muzyka.wav do programu Audition. Ustawić w zakładce Attack/Release następujące parametry:

Gain Processor: Output Gain = 0, Attack Time = 1, Release Time = 40 Level Detector: Input Gain = 0, Attack Time = 0.5, Release Time = 300 General Settings: Lookahead Time = 3

Ustawić w zakładce Traditional współczynnik kompresji na wartość 2:1. Zmieniając wartość progową na wartości: -15, -30, -45, -60 dB, zaobserwować zmiany kształtu wykresu czasowego oraz odsłuchać przetworzone dźwięki, zwracając uwagę na różnice głośności fragmentów, które w oryginalnym nagraniu były ciche / głośne. Opisać w sprawozdaniu wpływ wartości progowej na kształt wykresu czasowego i na dźwięk.

Zadanie 2 – wpływ wartości współczynnika na kompresję dynamiki

Dla tego samego sygnału muzycznego ustawić stały próg kompresji -30 dB. Zmieniać wartość współczynnika kompresji w zakresie od 2:1 do 20:1, zaobserwować i opisać jak zmienia się dźwięk i wykres czasowy. Dla jakich wartości współczynnika można traktować układ jako ogranicznik poziomu?

Zadanie 3 – kompresja sygnału mowy

Wczytać plik mowa.wav. Posługując się kompresorem jednoprogowym, ustalić charakterystykę w taki sposób, aby wyrównać głośność sygnału i nie zniekształcić mowy. Podać parametry kompresora, naszkicować kształt charakterystyki i opisać uzyskany efekt.

Zadanie 4 – bramka szumowa

Wczytać plik lektor_szum.wav. Za pomocą bramki szumowej, usunąć szum z nagrania i zwiększyć zakres dynamiki sygnału, nie zniekształcając mowy. Podać znalezione parametry układu, naszkicować kształt charakterystyki i opisać uzyskany efekt.

Zadanie 5 – parametry dynamiczne kompresora

Wczytać plik test1.wav (nie odsłuchiwać go). Ustawić charakterystykę kompresora jednopunktowego z progiem ok. -25 dB i współczynnikiem ok. 5:1. Sprawdzić i opisać w jaki sposób zmiany czasu ataku i czasu zwolnienia w procesorze dynamiki wpływają na kształt sygnału. Powtórzyć eksperyment zmieniając czas ataku i zwolnienia w detektorze poziomu (przywrócić domyślne ustawienia procesora dynamiki).

Zadanie 6 – wykrywanie impulsów

Wczytać plik test2.wav. Przywrócić domyślne ustawienia czasów ataku i zwolnienia. W układzie kompresora z progiem -20 dB i współczynnikiem 20:1, sprawdzić na wykresie czasowym co dzieje się z impulsem dla różnych wartości parametru lookahead time. Opisać spostrzeżenia, wyjaśnić zaobserwowany efekt.

Formatka sprawozdania znajduje się na kolejnych stronach – należy ją wydrukować przed ćwiczeniem.

(7)

LABORATORIUM PRZETWARZANIA D

Ź

WI

Ę

KU I OBRAZU

Ćw. 6 Przetwarzanie dynamiki sygnału fonicznego Wykonujący:

Grupa:

Ocena:

Data i godzina wykonania ćwiczenia:

Zadanie 1 – wpływ wartości progowej na kompresję dynamiki

Opisać wpływ wartości progowej na kształt wykresu czasowego i na dźwięk.

Zadanie 2 – wpływ wartości współczynnika na kompresję dynamiki

Opisać wpływ współczynnika kompresji na kształt wykresu czasowego i na dźwięk.

(8)

Zadanie 3 – kompresja sygnału mowy

(9)

Zadanie 4 – bramka szumowa

Podać znalezione parametry, naszkicować kształt charakterystyki i opisać uzyskany efekt.

Zadanie 5 – parametry dynamiczne kompresora

(10)

Zadanie 6 – wykrywanie impulsów

Cytaty

Powiązane dokumenty

Metody kompresji informacji do postaci zawierającej zmniejszoną liczbę bitów, pod warunkiem, że metoda ta gwarantuje możliwość odtworzenia informacji z.. postaci skompresowanej

From the measured development of the rheological properties in time, which can be described with the Bingham fluid model (see [15], [16]) the allowable angle of the mould can

Ponieważ funkcja chwilowego pasma elektrokardiogramu jest określona na czasowo- częstotliwościowej reprezentacji sygnału w obrębie wykrytych załamków – wymagane jest

Aby dokładniej zobrazować wpływ temperatury pary trącej klocek-tarcza hamulcowa na wartość współczynnika tarcia μ obliczono średnie jego wartości wraz z przedziałami ufności

W dalszym ciągu stosując taką samą metodykę badań jak w odniesieniu do wpływu współczynnika sztywności kontaktowej (rozdz. Założono, że w strefach kontaktowych

MoŜna zrobić to w róŜny sposób: skopiować na inny dysk zachowując strukturę katalogów i plików oraz ich rozmiary, stworzyć jeden plik archiwum zawierający zawartość

W niniejszej pracy zaprezentowano przykładowe wyniki badań eksperymen- talnych dotyczących wpływu wartości skutecznej sygnału wymuszającego na błąd pomiaru

Płyną, skrzydłem trzepocząc, jak cierniem, Cichym lotem, białym lotem, gołębim, Wszystkie smutki i wszystkie jesienie, W gaj zielony, w bór czerwonych jarzębin. I