Badanie korelacji wzrokowo-słuchowych

(1)

1

K

ATEDRA

S

YSTEMÓW

M

ULTIMEDIALNYCH

L

ABORATORIUM Zmysły komunikacji

Ćwiczenie:

Badanie korelacji wzrokowo-słuchowych

Opracowanie:

dr inż. Bartosz Kunka mgr inż. Karolina Marciniuk

1. Korelacje wzrokowo-słuchowe

W ramach niniejszego ćwiczenia laboratoryjnego zbadane zostanie zjawisko wpływu ściągającego obrazu na percepcję dźwięku. Innymi słowy – celem ćwiczenia jest zbadanie wpływu kierunku patrzenia na lokalizację pozornego źródła dźwięku w panoramie stereofonicznej. Eksperymenty, w których bada się korelacje wzrokowo-słuchowe zazwyczaj składają się z dwóch etapów. W pierwszym etapie badanym prezentowany jest jedynie bodziec słuchowy, zwany również próbką dźwiękową (ang. unimodal stimulus, auditory-only trial). W drugim zaś etapie następuje prezentacja bodźca wzrokowo-słuchowego, nazywanego próbką wizyjno-foniczną (ang. bimodal stimulus, visual-auditory trial). Jednocześnie zakłada się, że próbka dźwiękowa wykorzystana w pierwszym i drugim etapie badania jest dokładnie taka sama. W obu etapach zadaniem badanych jest wskazanie położenia pozornego źródła dźwięku, związanego z prezentowanym bodźcem w panoramie stereofonicznej. Zauważono, że badani inaczej percypują położenie pozornego źródła dźwięku w przypadku, gdy prezentowana jest im tylko próbka dźwiękowa i inaczej, gdy próbce dźwiękowej towarzyszy obraz z nią związany. Zjawisko przesunięcia pozornego źródła dźwięku w kierunku bodźca wzrokowego nazywane jest powszechnie „wpływem ściągającym obrazu na percepcję dźwięku”. W literaturze anglojęzycznej „wpływ ściągający” jest określany jako „efekt zbliżenia obrazu” (ang. image proximity effect) [2, 3, 4, 5] lub „efekt brzuchomówstwa” (ang. ventriloquism effect) [6, 7, 8, 9, 10].

(2)

2 Odpowiednią ilustracją zjawiska wpływu ściągającego obrazu na percepcję dźwięku może być eksperyment przeprowadzony przez Witkina w 1952 roku [11]. Badani biorący udział w eksperymencie wskazywali położenie pozornego źródła dźwięku (w tym przypadku głosu spikera telewizyjnego) w przestrzeni. Eksperyment składał się z dwóch etapów – w pierwszym badani widzieli twarz spikera i słyszeli jego głos, zaś w drugim słyszeli tylko jego głos. Wyniki eksperymentu wskazały, że w pierwszym przypadku badani lokalizowali głos spikera jako „dochodzący ze środka”. Natomiast w przypadku, gdy mieli zamknięte oczy, słyszeli jego głos jako dochodzący z lewej lub prawej strony. Wpływ ściągający obrazu na percepcję dźwięku występuje również w przypadku bodźców wzrokowo-słuchowych podczas oglądania innego rodzaju treści wizyjno-fonicznych, np. filmów.

Odnosząc się do badań korelacji wzrokowo-słuchowych, które były prowadzone na przestrzeni lat w różnych ośrodkach naukowo-badawczych warto wspomnieć również o wstępnych wynikach projektu badawczego DIEM z 2010 roku [12]. Naukowcy postanowili zbadać aktywność wzrokową widzów podczas oglądania filmów za pomocą systemu śledzenia wzroku. Ich badania koncentrowały się wokół wyjaśnienia procesu percepcji obrazu przez człowieka oraz tego, jakie czynniki w procesie widzenia odgrywają istotną rolę. W badaniach nad percepcją obrazu naukowcy wykorzystali system śledzenia wzroku (ang. gaze tracking system).

2. Funkcja HRTF

Jedna z części niniejszego ćwiczenia laboratoryjnego polega na przeprowadzeniu eksperymentu z wykorzystaniem próbek testowych, w których ścieżka dźwiękowa została przetworzona przez funkcję przenoszenia głowy (ang. Head Related Transfer Function – HRTF). HRTF jest stosunkiem widma sygnału docierającego do ucha do widma sygnału docierającego do punktu przestrzeni zajmowanego przez środek głowy (czyli gdy nie ma w tym miejscu obserwatora). Para tych funkcji uwzględnia wszystkie statyczne parametry lokalizacji: ITD, ILD i charakterystyki częstotliwościowe małżowin. HRTF dotyczy filtracji przestrzennej, a zatem możliwe jest umiejscowienie/zlokalizowanie pozornego

(3)

3 źródła dźwięku na każdej z trzech płaszczyzn: lewo-prawo, góra-dół, przód-tył. Warto zaznaczyć, że funkcja HRTF odgrywa rolę tylko dla dźwięków szerokopasmowych.

Rys. 1. Lokalizacja pozornego źródła dźwięku w przestrzeni w kontekście HRTF

3. Opis ćwiczenia laboratoryjnego

Badanie składa się z dwóch etapów. W pierwszej kolejności badaniu podlega percepcja dźwięku, w warunkach gdy osobie badanej prezentowana jest tylko ścieżka dźwiękowa próbki testowej. Po odsłuchaniu próbki osoba badana wypełnia ankietę (ocena subiektywna), w której zaznacza lokalizację źródła w panoramie stereofonicznej, czyli w płaszczyźnie horyzontalnej w zakresie (-30o_{, +30}o_{), a także – w przypadku} eksperymentu z wykorzystaniem HRTF – w płaszczyźnie wertykalnej w zakresie (-20o_, +20o_).

W drugim etapie – badaniu poddane zostają próbki z materiałem wizyjno-fonicznym. Również tutaj osoba badana zaznacza kierunek, z którego „przybywa” percypowany dźwięk.

Warto w tym miejscu zaznaczyć, że zakładamy, iż szerokość ekranu pokrywa się z szerokością bazy stereofonicznej i zawiera się w przedziale (-30o_{, +30}o_{), natomiast} wysokość ekranu zawiera się w przedziale (-20o_{, +20}o_).

(4)

4

Opis próbek

nazwa pliku opis próbki opis bodźca wzrokowego _{(obszar zainteresowania)} 1_01_audio ścieżka dźwiękowa, test podstawowy, _{ton prosty 1 kHz} – 1_02_audio ścieżka dźwiękowa, przejeżdżająca _{ciężarówka („Sleepy Hollow”)} –

1_03_audio ścieżka dźwiękowa, fortepian –

1_04_audio ścieżka dźwiękowa, głos bohatera _{(„Piranha 3D”)} – 1_05_audio ścieżka dźwiękowa, głos bohatera _{(„Avatar”)} –

1_06_ audio-wideo test podstawowy, ton prosty 1 kHz biały dysk w lewej części kadru 1_07_audio-wideo głos bohatera („Avatar”) twarz bohatera w prawej części kadru 1_08_ audio-wideo test podstawowy, ton prosty 1 kHz biały dysk w prawej części kadru 1_09_ audio-wideo głos bohatera („Piranha 3D”) postać bohatera w lewej części kadru 1_10_ audio-wideo fortepian fortepian i pianista w środkowej części _kadru 1_11_ audio-wideo przejeżdżająca ciężarówka („Sleepy _Hollow”) pojazd wyłaniający się z mgły (środek, _{lewa część kadru)}

próbki z HRTF (kąt azymutu, kąt elewacji)

2_01_audio odgłos wróbla _{(wysokoczęstotliwościowy) – (0}_o_{, 0}_o₎ –

2_02_audio pukanie do drzwi (+25o_{, -15}o₎ _–

2_03_audio głos kobiety (-25o_{, +15}o₎ _–

2_04_audio pukanie do drzwi (0o_{, 0}o₎

2_05_audio odgłos wróbla (+25o_{, -15}o₎ _–

2_06_audio głos kobiety (0o_{, 0}o₎ _–

2_07_audio pukanie do drzwi (-25o_{, +15}o₎ _–

2_08_audio głos kobiety (+25o_{, -15}o₎

2_09_audio odgłos wróbla (-25o_{, +15}o₎ _–

2_10_audio-wideo dźwięk: głos kobiety (+25o_{, -15}o₎ zdjęcie kobiety w prawej, środkowej

(5)

5

2_11_audio-wideo dźwięk: pukanie do drzwi (0o_{, 0}o₎ zdjęcie – pukanie do drzwi w lewej,

górnej części kadru

2_12_audio-wideo dźwięk: odgłos wróbla (-25o_{, +15}o₎ _{zdjęcie w lewej, środkowej części kadru}

2_13_audio-wideo dźwięk: głos kobiety (-25o_{, +15}o₎ _{zdjęcie w środkowej, górnej części kadru}

2_14_audio-wideo dźwięk: odgłos wróbla (+25o_{, -15}o₎ _{zdjęcie w środkowej, dolnej części kadru}

2_15_audio-wideo dźwięk: pukanie do drzwi (-25o_{, +15}o₎ _{zdjęcie w lewej, środkowej części kadru}

2_16_audio-wideo dźwięk: głos kobiety (0o_{, 0}o₎ _{zdjęcie w lewej, górnej części kadru}

2_17_audio-wideo dźwięk: odgłos wróbla (0o_{, 0}o₎ _{zdjęcie w lewej, górnej części kadru}

2_18_audio-wideo dźwięk: głos kobiety (-25o_{, +15}o₎ _{zdjęcie w lewej, środkowej części kadru}

2_19_audio-wideo dźwięk: pukanie do drzwi (-25o_{, +15}o₎ _{zdjęcie w środkowej, górnej części kadru}

2_20_audio-wideo dźwięk: głos kobiety (0o_{, 0}o₎ _{zdjęcie w prawej, dolnej części kadru}

2_21_audio-wideo dźwięk: odgłos wróbla (-25o_{, +15}o₎ _{zdjęcie w środkowej, górnej części kadru}

2_22_audio-wideo dźwięk: pukanie do drzwi (+25o_{, -15}o₎ _{zdjęcie w prawej, środkowej części kadru}

2_23_audio-wideo dźwięk: odgłos wróbla (0o_{, 0}o₎ _{zdjęcie w prawej, dolnej części kadru}

2_24_audio-wideo dźwięk: głos kobiety (+25o_{, -15}o₎ _{zdjęcie w środkowej, dolnej części kadru}

2_25_audio-wideo dźwięk: pukanie do drzwi (0o_{, 0}o₎ _{zdjęcie w prawej, dolnej części kadru}

2_26_audio-wideo dźwięk: odgłos wróbla (+25o_{, -15}o₎ _{zdjęcie w prawej, środkowej części kadru}

Analiza wyników uzyskanych podczas laboratorium będzie polegała na porównaniu ocen subiektywnych, wskazujących na położenie pozornego źródła dźwięku, w następujących parach próbek:

cz. 1 badania: 1. 1_01_audio – 1_06_ audio-wideo 2. 1_01_audio – 1_08_ audio-wideo 3. 1_02_audio – 1_11_ audio-wideo 4. 1_03_audio – 1_10_ audio-wideo 5. 1_04_audio – 1_09_ audio-wideo 6. 1_05_audio – 1_07_ audio-wideo

(6)

6 cz. 2 badania (z HRTF), przykład: Źródło Lolalizacja w pliku dźwiękowym

Opis boźca wzrokowego Położenie źródła pozornego Wartość przesunięcia wróbel (0o_{, 0}o₎ (-25o_{, +15}o₎

- należy przyporządkować odpowiadające sobie pary próbek fonicznych i wizyjno-fonicznych, analogicznie do powyższego zestawienia.

W niniejszym ćwiczeniu wyznaczona zostanie wielkość zaobserwowanego przesunięcia pozornego źródła dźwięku w oparciu o dane subiektywne pozyskane z wypełnionej podczas laboratorium ankiety. Wpływ ściągający wyznacza się na podstawie porównania wartości kątowych odzwierciedlających położenie pozornego źródła dźwięku w pierwszym etapie badania (podczas odtwarzania samej ścieżki dźwiękowej) i w drugim etapie badania (podczas projekcji materiału wizyjno-fonicznego).

4. Zadania

4.1. Wysłuchać kolejno próbek 1_01_audio-1_05_audio i zaznaczyć na formularzu położenie źródła dźwięku w panoramie. Następnie odtworzyć próbki filmowe 1_06_ audio-wideo-1_11_audio-wideo oraz także zaznaczyć odbierane źródło pozorne dźwięku. (Uwaga, zaznaczamy skąd dobiega dźwięk, nie położenie obiektu na ekranie.)

4.2. Wysłuchaj nagrania Virtual Barber Shop będącego przykładem rejestracji z wykorzystaniem tzw. sztucznej głowy. Nagranie to stanowi odpowiednią symulację potencjalnych możliwości funkcji HRTF. Opisz swoje spostrzeżenia, które dźwięki najlepiej symulowały przestrzeń planu dźwiękowego.

4.3. Podobnie jak w zadaniu 4.1 odsłuchaj próbki dźwiękowe 2_01_audio-2_09_audio, zaznacz ich rozmieszczenie w płaszczyźnie wertykalnej i horyzontalnej. W drugiej kolejności – po zakończeniu projekcji próbek audio-wideo cz. 1, wysłuchać próbek. Po odsłuchaniu każdej próbki należy wskazać lokalizację źródła dźwięku w formularzu ankiety dostępnej w załączniku niniejszej instrukcji. Obejrzeć,

(7)

7 a następnie i wypełnić formularz pliki 2_10_audio-wideo-2_26_audio-wideo (na bieżąco – po odsłuchaniu każdej próbki).

4.4. Wejść na stronę serwisu YouTube w celu obejrzenia fragmentu jednej z części filmu pt. „Zawód Lektor”. Zanotować spostrzeżenia/wnioski dotyczące odbioru treści wizyjno-fonicznej, w której głównymi bohaterami są lektorzy o rozpoznawalnych głosach.

Film "Zawód Lektor" cz. 1 Uwaga !

Polecenie 4.4 jest związane z innym aspektem korelacji wzrokowo-słuchowych niż aspekt badany w zadaniach 4.1 i 4.3 (gdzie obserwowano wpływ kierunku patrzenia na lokalizację pozornego źródła dźwięku). Do tego faktu należy się odnieść w opracowaniu zadania 5.3.

5. Opracowanie

5.1. Dokonać porównania wyników testów subiektywnych (odpowiadających sobie próbek w części I i części II formularza). Wyznaczyć wielkość wpływu ściągającego (wraz z kierunkiem) dla poszczególnych próbek i poszczególnych osób.

5.2. Ustosunkować się do zaobserwowanego wpływu ściągającego w płaszczyźnie horyzontalnej i wertykalnej oraz odnieść się do wpływu charakteru próbki (mowa, impuls, wąskie pasmo górnych częstotliwości, szerokie pasmo) na obserwowane przesunięcie pozornego źródła dźwięku (na podstawie cz. 2 ćwiczenia – HRTF).

5.3. Wyniki poszczególnych studentów w grupie laboratoryjnej należy przeanalizować indywidualnie. W interpretacji wyników należy wskazać, dla których próbek i w jakich warunkach zaobserwowano taki sam lub podobny wpływ ściągający obrazu na percepcję dźwięku.

5.4. Ustosunkować się do obserwacji z zadania 4.2 i 4.4.

5.5. Sprawozdanie (format PDF) należy umieścić w serwisie sprawozdań KSM w katalogu „Zmysły komunikacji” = > „ćw. 7” w terminie 7 dni od daty

wykonania ćwiczenia. Po przekroczeniu tego terminu końcowa ocena za sprawozdanie zostanie obniżona o 1 stopień.

Należy zastosować następujący format nazwy pliku: Nazwisko.pdf

6. Bibliografia

[1] B. Kunka, B. Kostek, M. Kulesza, P. Szczuko, A. Czyzewski, “Gaze-tracking based audio-visual correlation analysis employing quality of experience methodology”, Intelligent Decision Technologies (IDT), Special Issue on Human-Computer Interaction in Knowledge based Environments.

[2] B. Kostek, „Rough-neuro approach to testing the influence of visual cues on surround sound perception”, rozdział w książce pt.: “Rough-Neuro Computing: A Way To Computing With Words” (S. K. Pal, L. Polkowski, A. Skowron eds.), Springer Verlag, Series on Artificial Intelligence, 555 - 572, 2004.

[3] B. Kostek, “Perception-based data processing in acoustics. Applications to music information retrieval and psychophysiology of hearing”, wyd. Springer Verlag, Series on Cognitive Technologies, 389-400, Berlin, Heidelberg, New York 2005.

(8)

8 [4] P. Odya, A. Czyzewski, B. Kostek, “Determination of influence of visual cues on perception of spatial

sound”, 110th Audio Eng. Soc. Convention, Preprint No. 5311, Amsterdam, 2001.

[5] P. Odya, B. Kostek, A. Czyzewski, “Discovering the influence of visual stimulation the perception of surround sound using genetic algorithms”, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New York, 2001.

[6] R. I. Bermant, R. B. Welch, “The effect of degree of visual–auditory stimulus separation and eye position upon the spatial interaction of vision and audition”, Perceptual & Motor Skill, 43, 487-493, 1976.

[7] P. Bertelson, “The cognitive architecture behind auditory – visual interaction in scene analysis and speech identification” Current Psychology of Cognition, 13, 69-75, 1994.

[8] P. Bertelson, “Starting from the ventriloquist: The perception of multimodal event”, w: M. Sabourin, F. I. M. Craik, M. Robert (red.), Advances in psychological science: vol. 1. Biological and cognitive aspects, Hove, U.K.: Psychology Press., 419-439, 1998.

[9] P. Bertelson, G. Aschersleben, “Automatic visual bias of perceived auditory location”, Psychonomic Bulletin & Review, 5, 482-489, 1998.

[10] P. Bertelson, M. Radeau, “Ventriloquism, sensory interaction, and response bias: Remarks on the paper by Choe, Welch, Gilford, and Juola”, Perception & Psychophysics, 19, 531-535, 1976.

[11] H. A. Witkin, S. Wapner, T. Leventhal, “Sound localization with conflicting visual and auditory coues”, Journal of Experimental Psychology, vol. 43, 58-67, 1952. \

(9)

9

Formularz badania subiektywnego

Badanie korelacji wzrokowo-słuchowych

1. Badanie pozornego źródła dźwięku,



cz. 1 - audio

Lp. Próbka testowa Położenie pozornego źródła dźwięku 1. 1_01_audio 2. 1_02_audio 3. 1_03_audio 4. 1_04_audio 5. 1_05_audio 

cz. 2 – audio+video

Lp. Próbka testowa Położenie pozornego źródła dźwięku 1. 1_06_audio-video 2. 1_07_ audio-video 3. 1_08_ audio-video 4. 1_09_ audio-video 5. 1_10_ audio-video 6. 1_11_ audio-video

(10)

10

2. HTRF



cz. 1 - audio

2_01_audio 2_02_audio 2_03_audio 2_04_audio 2_05_audio 2_06_audio 2_07_audio 2_08_audio 2_09_audio

(11)

11



cz. 2 – audio+video

2_10_audio-wideo 2_11_audio-wideo 2_12_audio-wideo 2_13_audio-wideo 2_14_audio-wideo 2_15_audio-wideo 2_16_audio-wideo 2_17_audio-wideo

(12)

12

2_18_audio-wideo 2_19_audio-wideo

(13)

13

2_28_audio-wideo

Oko dominujące: ………. Ucho dominujące: ………