1
K
ATEDRAS
YSTEMÓWM
ULTIMEDIALNYCHL
ABORATORIUM Zmysły komunikacjiĆwiczenie:
Badanie korelacji wzrokowo-słuchowych
Opracowanie:
dr inż. Bartosz Kunka mgr inż. Karolina Marciniuk
1. Korelacje wzrokowo-słuchowe
W ramach niniejszego ćwiczenia laboratoryjnego zbadane zostanie zjawisko wpływu ściągającego obrazu na percepcję dźwięku. Innymi słowy – celem ćwiczenia jest zbadanie wpływu kierunku patrzenia na lokalizację pozornego źródła dźwięku w panoramie stereofonicznej. Eksperymenty, w których bada się korelacje wzrokowo-słuchowe zazwyczaj składają się z dwóch etapów. W pierwszym etapie badanym prezentowany jest jedynie bodziec słuchowy, zwany również próbką dźwiękową (ang. unimodal stimulus, auditory-only trial). W drugim zaś etapie następuje prezentacja bodźca wzrokowo-słuchowego, nazywanego próbką wizyjno-foniczną (ang. bimodal stimulus, visual-auditory trial). Jednocześnie zakłada się, że próbka dźwiękowa wykorzystana w pierwszym i drugim etapie badania jest dokładnie taka sama. W obu etapach zadaniem badanych jest wskazanie położenia pozornego źródła dźwięku, związanego z prezentowanym bodźcem w panoramie stereofonicznej. Zauważono, że badani inaczej percypują położenie pozornego źródła dźwięku w przypadku, gdy prezentowana jest im tylko próbka dźwiękowa i inaczej, gdy próbce dźwiękowej towarzyszy obraz z nią związany. Zjawisko przesunięcia pozornego źródła dźwięku w kierunku bodźca wzrokowego nazywane jest powszechnie „wpływem ściągającym obrazu na percepcję dźwięku”. W literaturze anglojęzycznej „wpływ ściągający” jest określany jako „efekt zbliżenia obrazu” (ang. image proximity effect) [2, 3, 4, 5] lub „efekt brzuchomówstwa” (ang. ventriloquism effect) [6, 7, 8, 9, 10].
2 Odpowiednią ilustracją zjawiska wpływu ściągającego obrazu na percepcję dźwięku może być eksperyment przeprowadzony przez Witkina w 1952 roku [11]. Badani biorący udział w eksperymencie wskazywali położenie pozornego źródła dźwięku (w tym przypadku głosu spikera telewizyjnego) w przestrzeni. Eksperyment składał się z dwóch etapów – w pierwszym badani widzieli twarz spikera i słyszeli jego głos, zaś w drugim słyszeli tylko jego głos. Wyniki eksperymentu wskazały, że w pierwszym przypadku badani lokalizowali głos spikera jako „dochodzący ze środka”. Natomiast w przypadku, gdy mieli zamknięte oczy, słyszeli jego głos jako dochodzący z lewej lub prawej strony. Wpływ ściągający obrazu na percepcję dźwięku występuje również w przypadku bodźców wzrokowo-słuchowych podczas oglądania innego rodzaju treści wizyjno-fonicznych, np. filmów.
Odnosząc się do badań korelacji wzrokowo-słuchowych, które były prowadzone na przestrzeni lat w różnych ośrodkach naukowo-badawczych warto wspomnieć również o wstępnych wynikach projektu badawczego DIEM z 2010 roku [12]. Naukowcy postanowili zbadać aktywność wzrokową widzów podczas oglądania filmów za pomocą systemu śledzenia wzroku. Ich badania koncentrowały się wokół wyjaśnienia procesu percepcji obrazu przez człowieka oraz tego, jakie czynniki w procesie widzenia odgrywają istotną rolę. W badaniach nad percepcją obrazu naukowcy wykorzystali system śledzenia wzroku (ang. gaze tracking system).
2. Funkcja HRTF
Jedna z części niniejszego ćwiczenia laboratoryjnego polega na przeprowadzeniu eksperymentu z wykorzystaniem próbek testowych, w których ścieżka dźwiękowa została przetworzona przez funkcję przenoszenia głowy (ang. Head Related Transfer Function – HRTF). HRTF jest stosunkiem widma sygnału docierającego do ucha do widma sygnału docierającego do punktu przestrzeni zajmowanego przez środek głowy (czyli gdy nie ma w tym miejscu obserwatora). Para tych funkcji uwzględnia wszystkie statyczne parametry lokalizacji: ITD, ILD i charakterystyki częstotliwościowe małżowin. HRTF dotyczy filtracji przestrzennej, a zatem możliwe jest umiejscowienie/zlokalizowanie pozornego
3 źródła dźwięku na każdej z trzech płaszczyzn: lewo-prawo, góra-dół, przód-tył. Warto zaznaczyć, że funkcja HRTF odgrywa rolę tylko dla dźwięków szerokopasmowych.
Rys. 1. Lokalizacja pozornego źródła dźwięku w przestrzeni w kontekście HRTF
3. Opis ćwiczenia laboratoryjnego
Badanie składa się z dwóch etapów. W pierwszej kolejności badaniu podlega percepcja dźwięku, w warunkach gdy osobie badanej prezentowana jest tylko ścieżka dźwiękowa próbki testowej. Po odsłuchaniu próbki osoba badana wypełnia ankietę (ocena subiektywna), w której zaznacza lokalizację źródła w panoramie stereofonicznej, czyli w płaszczyźnie horyzontalnej w zakresie (-30o, +30o), a także – w przypadku eksperymentu z wykorzystaniem HRTF – w płaszczyźnie wertykalnej w zakresie (-20o, +20o).
W drugim etapie – badaniu poddane zostają próbki z materiałem wizyjno-fonicznym. Również tutaj osoba badana zaznacza kierunek, z którego „przybywa” percypowany dźwięk.
Warto w tym miejscu zaznaczyć, że zakładamy, iż szerokość ekranu pokrywa się z szerokością bazy stereofonicznej i zawiera się w przedziale (-30o, +30o), natomiast wysokość ekranu zawiera się w przedziale (-20o, +20o).
4
Opis próbek
nazwa pliku opis próbki opis bodźca wzrokowego (obszar zainteresowania) 1_01_audio ścieżka dźwiękowa, test podstawowy, ton prosty 1 kHz – 1_02_audio ścieżka dźwiękowa, przejeżdżająca ciężarówka („Sleepy Hollow”) –
1_03_audio ścieżka dźwiękowa, fortepian –
1_04_audio ścieżka dźwiękowa, głos bohatera („Piranha 3D”) – 1_05_audio ścieżka dźwiękowa, głos bohatera („Avatar”) –
1_06_ audio-wideo test podstawowy, ton prosty 1 kHz biały dysk w lewej części kadru 1_07_audio-wideo głos bohatera („Avatar”) twarz bohatera w prawej części kadru 1_08_ audio-wideo test podstawowy, ton prosty 1 kHz biały dysk w prawej części kadru 1_09_ audio-wideo głos bohatera („Piranha 3D”) postać bohatera w lewej części kadru 1_10_ audio-wideo fortepian fortepian i pianista w środkowej części kadru 1_11_ audio-wideo przejeżdżająca ciężarówka („Sleepy Hollow”) pojazd wyłaniający się z mgły (środek, lewa część kadru)
próbki z HRTF (kąt azymutu, kąt elewacji)
2_01_audio odgłos wróbla (wysokoczęstotliwościowy) – (0o, 0o) –
2_02_audio pukanie do drzwi (+25o, -15o) –
2_03_audio głos kobiety (-25o, +15o) –
2_04_audio pukanie do drzwi (0o, 0o)
2_05_audio odgłos wróbla (+25o, -15o) –
2_06_audio głos kobiety (0o, 0o) –
2_07_audio pukanie do drzwi (-25o, +15o) –
2_08_audio głos kobiety (+25o, -15o)
2_09_audio odgłos wróbla (-25o, +15o) –
2_10_audio-wideo dźwięk: głos kobiety (+25o, -15o) zdjęcie kobiety w prawej, środkowej
5
2_11_audio-wideo dźwięk: pukanie do drzwi (0o, 0o) zdjęcie – pukanie do drzwi w lewej,
górnej części kadru
2_12_audio-wideo dźwięk: odgłos wróbla (-25o, +15o) zdjęcie w lewej, środkowej części kadru
2_13_audio-wideo dźwięk: głos kobiety (-25o, +15o) zdjęcie w środkowej, górnej części kadru
2_14_audio-wideo dźwięk: odgłos wróbla (+25o, -15o) zdjęcie w środkowej, dolnej części kadru
2_15_audio-wideo dźwięk: pukanie do drzwi (-25o, +15o) zdjęcie w lewej, środkowej części kadru
2_16_audio-wideo dźwięk: głos kobiety (0o, 0o) zdjęcie w lewej, górnej części kadru
2_17_audio-wideo dźwięk: odgłos wróbla (0o, 0o) zdjęcie w lewej, górnej części kadru
2_18_audio-wideo dźwięk: głos kobiety (-25o, +15o) zdjęcie w lewej, środkowej części kadru
2_19_audio-wideo dźwięk: pukanie do drzwi (-25o, +15o) zdjęcie w środkowej, górnej części kadru
2_20_audio-wideo dźwięk: głos kobiety (0o, 0o) zdjęcie w prawej, dolnej części kadru
2_21_audio-wideo dźwięk: odgłos wróbla (-25o, +15o) zdjęcie w środkowej, górnej części kadru
2_22_audio-wideo dźwięk: pukanie do drzwi (+25o, -15o) zdjęcie w prawej, środkowej części kadru
2_23_audio-wideo dźwięk: odgłos wróbla (0o, 0o) zdjęcie w prawej, dolnej części kadru
2_24_audio-wideo dźwięk: głos kobiety (+25o, -15o) zdjęcie w środkowej, dolnej części kadru
2_25_audio-wideo dźwięk: pukanie do drzwi (0o, 0o) zdjęcie w prawej, dolnej części kadru
2_26_audio-wideo dźwięk: odgłos wróbla (+25o, -15o) zdjęcie w prawej, środkowej części kadru
Analiza wyników uzyskanych podczas laboratorium będzie polegała na porównaniu ocen subiektywnych, wskazujących na położenie pozornego źródła dźwięku, w następujących parach próbek:
cz. 1 badania: 1. 1_01_audio – 1_06_ audio-wideo 2. 1_01_audio – 1_08_ audio-wideo 3. 1_02_audio – 1_11_ audio-wideo 4. 1_03_audio – 1_10_ audio-wideo 5. 1_04_audio – 1_09_ audio-wideo 6. 1_05_audio – 1_07_ audio-wideo
6 cz. 2 badania (z HRTF), przykład: Źródło Lolalizacja w pliku dźwiękowym
Opis boźca wzrokowego Położenie źródła pozornego Wartość przesunięcia wróbel (0o, 0o) (-25o, +15o)
- należy przyporządkować odpowiadające sobie pary próbek fonicznych i wizyjno-fonicznych, analogicznie do powyższego zestawienia.
W niniejszym ćwiczeniu wyznaczona zostanie wielkość zaobserwowanego przesunięcia pozornego źródła dźwięku w oparciu o dane subiektywne pozyskane z wypełnionej podczas laboratorium ankiety. Wpływ ściągający wyznacza się na podstawie porównania wartości kątowych odzwierciedlających położenie pozornego źródła dźwięku w pierwszym etapie badania (podczas odtwarzania samej ścieżki dźwiękowej) i w drugim etapie badania (podczas projekcji materiału wizyjno-fonicznego).
4. Zadania
4.1. Wysłuchać kolejno próbek 1_01_audio-1_05_audio i zaznaczyć na formularzu położenie źródła dźwięku w panoramie. Następnie odtworzyć próbki filmowe 1_06_ audio-wideo-1_11_audio-wideo oraz także zaznaczyć odbierane źródło pozorne dźwięku. (Uwaga, zaznaczamy skąd dobiega dźwięk, nie położenie obiektu na ekranie.)
4.2. Wysłuchaj nagrania Virtual Barber Shop będącego przykładem rejestracji z wykorzystaniem tzw. sztucznej głowy. Nagranie to stanowi odpowiednią symulację potencjalnych możliwości funkcji HRTF. Opisz swoje spostrzeżenia, które dźwięki najlepiej symulowały przestrzeń planu dźwiękowego.
4.3. Podobnie jak w zadaniu 4.1 odsłuchaj próbki dźwiękowe 2_01_audio-2_09_audio, zaznacz ich rozmieszczenie w płaszczyźnie wertykalnej i horyzontalnej. W drugiej kolejności – po zakończeniu projekcji próbek audio-wideo cz. 1, wysłuchać próbek. Po odsłuchaniu każdej próbki należy wskazać lokalizację źródła dźwięku w formularzu ankiety dostępnej w załączniku niniejszej instrukcji. Obejrzeć,
7 a następnie i wypełnić formularz pliki 2_10_audio-wideo-2_26_audio-wideo (na bieżąco – po odsłuchaniu każdej próbki).
4.4. Wejść na stronę serwisu YouTube w celu obejrzenia fragmentu jednej z części filmu pt. „Zawód Lektor”. Zanotować spostrzeżenia/wnioski dotyczące odbioru treści wizyjno-fonicznej, w której głównymi bohaterami są lektorzy o rozpoznawalnych głosach.
Film "Zawód Lektor" cz. 1 Uwaga !
Polecenie 4.4 jest związane z innym aspektem korelacji wzrokowo-słuchowych niż aspekt badany w zadaniach 4.1 i 4.3 (gdzie obserwowano wpływ kierunku patrzenia na lokalizację pozornego źródła dźwięku). Do tego faktu należy się odnieść w opracowaniu zadania 5.3.
5. Opracowanie
5.1. Dokonać porównania wyników testów subiektywnych (odpowiadających sobie próbek w części I i części II formularza). Wyznaczyć wielkość wpływu ściągającego (wraz z kierunkiem) dla poszczególnych próbek i poszczególnych osób.
5.2. Ustosunkować się do zaobserwowanego wpływu ściągającego w płaszczyźnie horyzontalnej i wertykalnej oraz odnieść się do wpływu charakteru próbki (mowa, impuls, wąskie pasmo górnych częstotliwości, szerokie pasmo) na obserwowane przesunięcie pozornego źródła dźwięku (na podstawie cz. 2 ćwiczenia – HRTF).
5.3. Wyniki poszczególnych studentów w grupie laboratoryjnej należy przeanalizować indywidualnie. W interpretacji wyników należy wskazać, dla których próbek i w jakich warunkach zaobserwowano taki sam lub podobny wpływ ściągający obrazu na percepcję dźwięku.
5.4. Ustosunkować się do obserwacji z zadania 4.2 i 4.4.
5.5. Sprawozdanie (format PDF) należy umieścić w serwisie sprawozdań KSM w katalogu „Zmysły komunikacji” = > „ćw. 7” w terminie 7 dni od daty
wykonania ćwiczenia. Po przekroczeniu tego terminu końcowa ocena za sprawozdanie zostanie obniżona o 1 stopień.
Należy zastosować następujący format nazwy pliku: Nazwisko.pdf
6. Bibliografia
[1] B. Kunka, B. Kostek, M. Kulesza, P. Szczuko, A. Czyzewski, “Gaze-tracking based audio-visual correlation analysis employing quality of experience methodology”, Intelligent Decision Technologies (IDT), Special Issue on Human-Computer Interaction in Knowledge based Environments.
[2] B. Kostek, „Rough-neuro approach to testing the influence of visual cues on surround sound perception”, rozdział w książce pt.: “Rough-Neuro Computing: A Way To Computing With Words” (S. K. Pal, L. Polkowski, A. Skowron eds.), Springer Verlag, Series on Artificial Intelligence, 555 - 572, 2004.
[3] B. Kostek, “Perception-based data processing in acoustics. Applications to music information retrieval and psychophysiology of hearing”, wyd. Springer Verlag, Series on Cognitive Technologies, 389-400, Berlin, Heidelberg, New York 2005.
8 [4] P. Odya, A. Czyzewski, B. Kostek, “Determination of influence of visual cues on perception of spatial
sound”, 110th Audio Eng. Soc. Convention, Preprint No. 5311, Amsterdam, 2001.
[5] P. Odya, B. Kostek, A. Czyzewski, “Discovering the influence of visual stimulation the perception of surround sound using genetic algorithms”, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New York, 2001.
[6] R. I. Bermant, R. B. Welch, “The effect of degree of visual–auditory stimulus separation and eye position upon the spatial interaction of vision and audition”, Perceptual & Motor Skill, 43, 487-493, 1976.
[7] P. Bertelson, “The cognitive architecture behind auditory – visual interaction in scene analysis and speech identification” Current Psychology of Cognition, 13, 69-75, 1994.
[8] P. Bertelson, “Starting from the ventriloquist: The perception of multimodal event”, w: M. Sabourin, F. I. M. Craik, M. Robert (red.), Advances in psychological science: vol. 1. Biological and cognitive aspects, Hove, U.K.: Psychology Press., 419-439, 1998.
[9] P. Bertelson, G. Aschersleben, “Automatic visual bias of perceived auditory location”, Psychonomic Bulletin & Review, 5, 482-489, 1998.
[10] P. Bertelson, M. Radeau, “Ventriloquism, sensory interaction, and response bias: Remarks on the paper by Choe, Welch, Gilford, and Juola”, Perception & Psychophysics, 19, 531-535, 1976.
[11] H. A. Witkin, S. Wapner, T. Leventhal, “Sound localization with conflicting visual and auditory coues”, Journal of Experimental Psychology, vol. 43, 58-67, 1952. \
9
Formularz badania subiektywnego
Badanie korelacji wzrokowo-słuchowych
1. Badanie pozornego źródła dźwięku,
cz. 1 - audio
Lp. Próbka testowa Położenie pozornego źródła dźwięku 1. 1_01_audio 2. 1_02_audio 3. 1_03_audio 4. 1_04_audio 5. 1_05_audio
cz. 2 – audio+video
Lp. Próbka testowa Położenie pozornego źródła dźwięku 1. 1_06_audio-video 2. 1_07_ audio-video 3. 1_08_ audio-video 4. 1_09_ audio-video 5. 1_10_ audio-video 6. 1_11_ audio-video
10
2. HTRF
cz. 1 - audio
2_01_audio 2_02_audio 2_03_audio 2_04_audio 2_05_audio 2_06_audio 2_07_audio 2_08_audio 2_09_audio11
cz. 2 – audio+video
2_10_audio-wideo 2_11_audio-wideo 2_12_audio-wideo 2_13_audio-wideo 2_14_audio-wideo 2_15_audio-wideo 2_16_audio-wideo 2_17_audio-wideo12
2_18_audio-wideo 2_19_audio-wideo
2_20_audio-wideo 2_21_audio-wideo
2_22_audio-wideo 2_23_audio-wideo
13
2_26_audio-wideo 2_27_audio-wideo
2_28_audio-wideo
Oko dominujące: ………. Ucho dominujące: ………