• Nie Znaleziono Wyników

G ŁOŚNOŚĆ , WYSOKOŚĆ I BARWA GŁOSU

6. KONWERSJA GŁOSU W OPARCIU O CZYNNIKI V-KB I ICH PARAMETRY

6.1. G ŁOŚNOŚĆ , WYSOKOŚĆ I BARWA GŁOSU

Głośność jest atrybutem, który opisuje odbieraną przez narząd słuchu „moc” dźwięku, związaną z natężeniem rozchodzącej się fali akustycznej (średniej wartości strumienia energii akustycznej przepływającego w czasie 1 s przez jednostkowe pole powierzchni prostopadłej do kierunku rozchodzenia się fali). W największym uproszczeniu można powiedzieć, że głośność dźwięku wzrasta wraz z natężeniem. Szczegółowe badania [MO03] [MO95]

(cytowane w [RO08]) pokazały jednak, że związek między fizycznymi parametrami dźwięku, a percepcją jego głośności jest bardziej złożony – zależy ona nie tylko od natężenia, ale również od charakterystyki widmowej i jej zmian w czasie. Dla opisu tych zależności powstały różne „modele głośności”, których omówienie można znaleźć w literaturze [ZW65]

[MO95][MO97][SU02] (cytowane w [RO08]). Jednym z pierwszych, ale do dziś stosowanych modeli są krzywe izofoniczne – jednakowej głośności [FL33] (cytowane w [RA07]).

Pozwalają one określić liczbowo głośność czystego tonu o wybranej częstotliwości (z zakresu 20 Hz – 20 kHz), wyrażoną w fonach w odniesieniu do poziomu jego natężenia w decybelach.

Poziom głośności dźwięku w fonach jest liczbowo równy poziomowi natężenia (w decybelach) tonu o częstotliwości 1 kHz, którego głośność jest taka sama, jak badanego dźwięku. Rys. 6.1 przedstawia przykładowy wykres krzywych izofonicznych. Krzywe izofoniczne są wyznaczane w subiektywnych eksperymentach i dlatego, a także ze względu na różny sposób przeprowadzania tych eksperymentów, znalezione w literaturze przykłady mogą się od siebie różnić.

Rys. 6.1. Wykres krzywych izofonicznych [FL33].

Z rys. 6.1 wynika, że słuch jest bardziej czuły na częstotliwościach z zakresu ok. 500 do 7000 Hz. Przykładowo, ton o częstotliwości 100 Hz ma głośność 10 fonów, gdy poziom jego natężenia wynosi 30 dB. Ton o częstotliwości 1000 Hz ma tę samą głośność przy poziomie natężenia tylko 10 dB. Krzywa o głośności 0 fonów wyznacza próg słyszenia dla dźwięków o różnej częstotliwości.

Wysokość dźwięku jest atrybutem, dzięki któremu dźwięki mogą być uszeregowane od niskich do wysokich – tak w 1973 wysokość zdefiniował American National Standard Institute (ANSI). Francuski odpowiednik tej instytucji (AFNOR 1973) dodaje, że wysokość dźwięku związana jest z częstotliwością, czyli dźwięk może być wyższy lub niższy w zależności od tego, czy jego częstotliwość jest duża czy mała. Wysokość definiuje się głównie w odniesieniu do dźwięków, które mają strukturę harmoniczną, a więc również do mowy dźwięcznej i wiąże się ją z charakterystycznym dla takich sygnałów parametrem – częstotliwością podstawową. Zależność między perceptualnym atrybutem, jakim jest wysokość, a fizycznym parametrem – częstotliwością podstawową nie jest liniowa. Opisuje się ją wzorem:

1 /700

ln

1127 F

P  (6.1)

gdzie P jest wysokością dźwięku w skali melowej, a F jest częstotliwością podstawową 0 wyrażoną w hercach [ST40] (cytowane w [RA07]). Skala melowa została skalibrowana tak, że 1000 herców odpowiada 1000 melom. Zależność P od F przedstawia rys. 6.2.

Rys. 6.2. Zależność między wysokością dźwięku w melach a częstotliwością podstawową w hercach

Tak zdefiniowana wysokość dźwięku nie tłumaczy jednak wyników eksperymentu opisanego w podrozdz. 4.6, w którym sygnały o tej samej częstotliwości podstawowej miały różną wysokość (brzmienie 4-tonowego sygnału minimalnofazowego było niższe niż maksymalnofazowego). Wyjaśnienie podaje de Cheveigné [CH05]. W sygnałach o strukturze formantowej, w widmie których amplitudy harmonicznych wokół pewnej częstotliwości F są r większe od pozostałych, obok lub zamiast wysokości odpowiadającej częstotliwości F , 0 percypowana może być wysokość odpowiadająca częstotliwości F . De Cheveigné nazywa ją r wysokością widmową (ang. spectral pitch). Jest ona prawdopodobnie związana z jasnością barwy dźwięku. Jej percepcja może być różna u różnych słuchaczy oraz w różnych warunkach odsłuchowych.

Ostatni z omawianych atrybutów, barwa dźwięku, ma najbardziej złożoną, wielowymiarową naturę, a jego definicja jest najmniej ścisła. Według Encyklopedii Muzyki pod redakcją Andrzeja Chodkowskiego [CH01], "barwa jest jedną z podstawowych cech wrażeniowych dźwięku, pozwalającą na szeregowanie dźwięków pod względem ich jakości (np. ostrości, jasności, czy dźwięczności) i rozróżnianie dźwięków mimo ich jednakowej wysokości, głośności i czasu trwania". Podobnie barwę definiuje Amerykański Instytut Standardów (1994). Barwa jest więc tym, co pozwala nam odróżnić dźwięk gitary od skrzypiec, a znalezienie związków między barwą dźwięku a fizycznymi cechami sygnału

umożliwiło m.in. opracowanie algorytmów automatycznego rozpoznawania instrumentów muzycznych [KO01] [DA04]. Przeglądu najważniejszych prac dotyczących barwy dźwięków dokonała Donnadieu w [BE07]. Decydujące znaczenie dla percepcji barwy ma struktura widmowa sygnału. Przez wiele lat powszechne było uproszczenie, że na barwę wpływ ma wyłącznie widmo amplitudowe, tzn. że dwa dźwięki, będące sumą tonów prostych o tych samych częstotliwościach, brzmią tak samo, jeśli amplitudy odpowiadających sobie tonów w obu dźwiękach są sobie równe, bez względu na to, czy ich fazy różnią się między sobą czy też nie. W rzeczywistości jednak widmo fazowe ma wpływ na brzmienie dźwięku [PL69], ale na tyle słaby, że przy odsłuchu w pomieszczeniu, w którym pogłos modyfikuje zależności fazowe, są one niesłyszalne [DE99]. Tę prawidłowość można sprawdzić wykonując prosty test odsłuchowy z sygnałami będącymi sumą kilku tonów prostych (tak jak to opisaliśmy w podrozdz. 4.6). Określenie konkretnych parametrów sygnału, które decydują o barwie dźwięku, jest zadaniem niezwykle trudnym, właśnie ze względu na wielowymiarowość tego atrybutu. Zadania tego podjęli się również twórcy standardu MPEG7, w którym zdefiniowane są deskryptory, pozwalające na rozpoznawanie dźwięków [DA04]. Większość tych parametrów dotyczy widma amplitudowego sygnału. Część z nich to również parametry czasowe, co oznacza, że barwa dźwięku zależy też od dynamicznych właściwości sygnału.