• Nie Znaleziono Wyników

Badanie korelacji wzrokowo-słuchowych

N/A
N/A
Protected

Academic year: 2021

Share "Badanie korelacji wzrokowo-słuchowych"

Copied!
13
0
0

Pełen tekst

(1)

1

K

ATEDRA

S

YSTEMÓW

M

ULTIMEDIALNYCH

L

ABORATORIUM Zmysły komunikacji

Ćwiczenie:

Badanie korelacji wzrokowo-słuchowych

Opracowanie:

dr inż. Bartosz Kunka mgr inż. Karolina Marciniuk

1. Korelacje wzrokowo-słuchowe

W ramach niniejszego ćwiczenia laboratoryjnego zbadane zostanie zjawisko wpływu ściągającego obrazu na percepcję dźwięku. Innymi słowy – celem ćwiczenia jest zbadanie wpływu kierunku patrzenia na lokalizację pozornego źródła dźwięku w panoramie stereofonicznej. Eksperymenty, w których bada się korelacje wzrokowo-słuchowe zazwyczaj składają się z dwóch etapów. W pierwszym etapie badanym prezentowany jest jedynie bodziec słuchowy, zwany również próbką dźwiękową (ang. unimodal stimulus, auditory-only trial). W drugim zaś etapie następuje prezentacja bodźca wzrokowo-słuchowego, nazywanego próbką wizyjno-foniczną (ang. bimodal stimulus, visual-auditory trial). Jednocześnie zakłada się, że próbka dźwiękowa wykorzystana w pierwszym i drugim etapie badania jest dokładnie taka sama. W obu etapach zadaniem badanych jest wskazanie położenia pozornego źródła dźwięku, związanego z prezentowanym bodźcem w panoramie stereofonicznej. Zauważono, że badani inaczej percypują położenie pozornego źródła dźwięku w przypadku, gdy prezentowana jest im tylko próbka dźwiękowa i inaczej, gdy próbce dźwiękowej towarzyszy obraz z nią związany. Zjawisko przesunięcia pozornego źródła dźwięku w kierunku bodźca wzrokowego nazywane jest powszechnie „wpływem ściągającym obrazu na percepcję dźwięku”. W literaturze anglojęzycznej „wpływ ściągający” jest określany jako „efekt zbliżenia obrazu” (ang. image proximity effect) [2, 3, 4, 5] lub „efekt brzuchomówstwa” (ang. ventriloquism effect) [6, 7, 8, 9, 10].

(2)

2 Odpowiednią ilustracją zjawiska wpływu ściągającego obrazu na percepcję dźwięku może być eksperyment przeprowadzony przez Witkina w 1952 roku [11]. Badani biorący udział w eksperymencie wskazywali położenie pozornego źródła dźwięku (w tym przypadku głosu spikera telewizyjnego) w przestrzeni. Eksperyment składał się z dwóch etapów – w pierwszym badani widzieli twarz spikera i słyszeli jego głos, zaś w drugim słyszeli tylko jego głos. Wyniki eksperymentu wskazały, że w pierwszym przypadku badani lokalizowali głos spikera jako „dochodzący ze środka”. Natomiast w przypadku, gdy mieli zamknięte oczy, słyszeli jego głos jako dochodzący z lewej lub prawej strony. Wpływ ściągający obrazu na percepcję dźwięku występuje również w przypadku bodźców wzrokowo-słuchowych podczas oglądania innego rodzaju treści wizyjno-fonicznych, np. filmów.

Odnosząc się do badań korelacji wzrokowo-słuchowych, które były prowadzone na przestrzeni lat w różnych ośrodkach naukowo-badawczych warto wspomnieć również o wstępnych wynikach projektu badawczego DIEM z 2010 roku [12]. Naukowcy postanowili zbadać aktywność wzrokową widzów podczas oglądania filmów za pomocą systemu śledzenia wzroku. Ich badania koncentrowały się wokół wyjaśnienia procesu percepcji obrazu przez człowieka oraz tego, jakie czynniki w procesie widzenia odgrywają istotną rolę. W badaniach nad percepcją obrazu naukowcy wykorzystali system śledzenia wzroku (ang. gaze tracking system).

2. Funkcja HRTF

Jedna z części niniejszego ćwiczenia laboratoryjnego polega na przeprowadzeniu eksperymentu z wykorzystaniem próbek testowych, w których ścieżka dźwiękowa została przetworzona przez funkcję przenoszenia głowy (ang. Head Related Transfer Function – HRTF). HRTF jest stosunkiem widma sygnału docierającego do ucha do widma sygnału docierającego do punktu przestrzeni zajmowanego przez środek głowy (czyli gdy nie ma w tym miejscu obserwatora). Para tych funkcji uwzględnia wszystkie statyczne parametry lokalizacji: ITD, ILD i charakterystyki częstotliwościowe małżowin. HRTF dotyczy filtracji przestrzennej, a zatem możliwe jest umiejscowienie/zlokalizowanie pozornego

(3)

3 źródła dźwięku na każdej z trzech płaszczyzn: lewo-prawo, góra-dół, przód-tył. Warto zaznaczyć, że funkcja HRTF odgrywa rolę tylko dla dźwięków szerokopasmowych.

Rys. 1. Lokalizacja pozornego źródła dźwięku w przestrzeni w kontekście HRTF

3. Opis ćwiczenia laboratoryjnego

Badanie składa się z dwóch etapów. W pierwszej kolejności badaniu podlega percepcja dźwięku, w warunkach gdy osobie badanej prezentowana jest tylko ścieżka dźwiękowa próbki testowej. Po odsłuchaniu próbki osoba badana wypełnia ankietę (ocena subiektywna), w której zaznacza lokalizację źródła w panoramie stereofonicznej, czyli w płaszczyźnie horyzontalnej w zakresie (-30o, +30o), a także – w przypadku eksperymentu z wykorzystaniem HRTF – w płaszczyźnie wertykalnej w zakresie (-20o, +20o).

W drugim etapie – badaniu poddane zostają próbki z materiałem wizyjno-fonicznym. Również tutaj osoba badana zaznacza kierunek, z którego „przybywa” percypowany dźwięk.

Warto w tym miejscu zaznaczyć, że zakładamy, iż szerokość ekranu pokrywa się z szerokością bazy stereofonicznej i zawiera się w przedziale (-30o, +30o), natomiast wysokość ekranu zawiera się w przedziale (-20o, +20o).

(4)

4

Opis próbek

nazwa pliku opis próbki opis bodźca wzrokowego (obszar zainteresowania) 1_01_audio ścieżka dźwiękowa, test podstawowy, ton prosty 1 kHz – 1_02_audio ścieżka dźwiękowa, przejeżdżająca ciężarówka („Sleepy Hollow”)

1_03_audio ścieżka dźwiękowa, fortepian –

1_04_audio ścieżka dźwiękowa, głos bohatera („Piranha 3D”) – 1_05_audio ścieżka dźwiękowa, głos bohatera („Avatar”)

1_06_ audio-wideo test podstawowy, ton prosty 1 kHz biały dysk w lewej części kadru 1_07_audio-wideo głos bohatera („Avatar”) twarz bohatera w prawej części kadru 1_08_ audio-wideo test podstawowy, ton prosty 1 kHz biały dysk w prawej części kadru 1_09_ audio-wideo głos bohatera („Piranha 3D”) postać bohatera w lewej części kadru 1_10_ audio-wideo fortepian fortepian i pianista w środkowej części kadru 1_11_ audio-wideo przejeżdżająca ciężarówka („Sleepy Hollow”) pojazd wyłaniający się z mgły (środek, lewa część kadru)

próbki z HRTF (kąt azymutu, kąt elewacji)

2_01_audio odgłos wróbla (wysokoczęstotliwościowy) – (0o, 0o)

2_02_audio pukanie do drzwi (+25o, -15o)

2_03_audio głos kobiety (-25o, +15o)

2_04_audio pukanie do drzwi (0o, 0o)

2_05_audio odgłos wróbla (+25o, -15o)

2_06_audio głos kobiety (0o, 0o)

2_07_audio pukanie do drzwi (-25o, +15o)

2_08_audio głos kobiety (+25o, -15o)

2_09_audio odgłos wróbla (-25o, +15o)

2_10_audio-wideo dźwięk: głos kobiety (+25o, -15o) zdjęcie kobiety w prawej, środkowej

(5)

5

2_11_audio-wideo dźwięk: pukanie do drzwi (0o, 0o) zdjęcie – pukanie do drzwi w lewej,

górnej części kadru

2_12_audio-wideo dźwięk: odgłos wróbla (-25o, +15o) zdjęcie w lewej, środkowej części kadru

2_13_audio-wideo dźwięk: głos kobiety (-25o, +15o) zdjęcie w środkowej, górnej części kadru

2_14_audio-wideo dźwięk: odgłos wróbla (+25o, -15o) zdjęcie w środkowej, dolnej części kadru

2_15_audio-wideo dźwięk: pukanie do drzwi (-25o, +15o) zdjęcie w lewej, środkowej części kadru

2_16_audio-wideo dźwięk: głos kobiety (0o, 0o) zdjęcie w lewej, górnej części kadru

2_17_audio-wideo dźwięk: odgłos wróbla (0o, 0o) zdjęcie w lewej, górnej części kadru

2_18_audio-wideo dźwięk: głos kobiety (-25o, +15o) zdjęcie w lewej, środkowej części kadru

2_19_audio-wideo dźwięk: pukanie do drzwi (-25o, +15o) zdjęcie w środkowej, górnej części kadru

2_20_audio-wideo dźwięk: głos kobiety (0o, 0o) zdjęcie w prawej, dolnej części kadru

2_21_audio-wideo dźwięk: odgłos wróbla (-25o, +15o) zdjęcie w środkowej, górnej części kadru

2_22_audio-wideo dźwięk: pukanie do drzwi (+25o, -15o) zdjęcie w prawej, środkowej części kadru

2_23_audio-wideo dźwięk: odgłos wróbla (0o, 0o) zdjęcie w prawej, dolnej części kadru

2_24_audio-wideo dźwięk: głos kobiety (+25o, -15o) zdjęcie w środkowej, dolnej części kadru

2_25_audio-wideo dźwięk: pukanie do drzwi (0o, 0o) zdjęcie w prawej, dolnej części kadru

2_26_audio-wideo dźwięk: odgłos wróbla (+25o, -15o) zdjęcie w prawej, środkowej części kadru

Analiza wyników uzyskanych podczas laboratorium będzie polegała na porównaniu ocen subiektywnych, wskazujących na położenie pozornego źródła dźwięku, w następujących parach próbek:

cz. 1 badania: 1. 1_01_audio – 1_06_ audio-wideo 2. 1_01_audio – 1_08_ audio-wideo 3. 1_02_audio – 1_11_ audio-wideo 4. 1_03_audio – 1_10_ audio-wideo 5. 1_04_audio – 1_09_ audio-wideo 6. 1_05_audio – 1_07_ audio-wideo

(6)

6 cz. 2 badania (z HRTF), przykład: Źródło Lolalizacja w pliku dźwiękowym

Opis boźca wzrokowego Położenie źródła pozornego Wartość przesunięcia wróbel (0o, 0o) (-25o, +15o)

- należy przyporządkować odpowiadające sobie pary próbek fonicznych i wizyjno-fonicznych, analogicznie do powyższego zestawienia.

W niniejszym ćwiczeniu wyznaczona zostanie wielkość zaobserwowanego przesunięcia pozornego źródła dźwięku w oparciu o dane subiektywne pozyskane z wypełnionej podczas laboratorium ankiety. Wpływ ściągający wyznacza się na podstawie porównania wartości kątowych odzwierciedlających położenie pozornego źródła dźwięku w pierwszym etapie badania (podczas odtwarzania samej ścieżki dźwiękowej) i w drugim etapie badania (podczas projekcji materiału wizyjno-fonicznego).

4. Zadania

4.1. Wysłuchać kolejno próbek 1_01_audio-1_05_audio i zaznaczyć na formularzu położenie źródła dźwięku w panoramie. Następnie odtworzyć próbki filmowe 1_06_ audio-wideo-1_11_audio-wideo oraz także zaznaczyć odbierane źródło pozorne dźwięku. (Uwaga, zaznaczamy skąd dobiega dźwięk, nie położenie obiektu na ekranie.)

4.2. Wysłuchaj nagrania Virtual Barber Shop będącego przykładem rejestracji z wykorzystaniem tzw. sztucznej głowy. Nagranie to stanowi odpowiednią symulację potencjalnych możliwości funkcji HRTF. Opisz swoje spostrzeżenia, które dźwięki najlepiej symulowały przestrzeń planu dźwiękowego.

4.3. Podobnie jak w zadaniu 4.1 odsłuchaj próbki dźwiękowe 2_01_audio-2_09_audio, zaznacz ich rozmieszczenie w płaszczyźnie wertykalnej i horyzontalnej. W drugiej kolejności – po zakończeniu projekcji próbek audio-wideo cz. 1, wysłuchać próbek. Po odsłuchaniu każdej próbki należy wskazać lokalizację źródła dźwięku w formularzu ankiety dostępnej w załączniku niniejszej instrukcji. Obejrzeć,

(7)

7 a następnie i wypełnić formularz pliki 2_10_audio-wideo-2_26_audio-wideo (na bieżąco – po odsłuchaniu każdej próbki).

4.4. Wejść na stronę serwisu YouTube w celu obejrzenia fragmentu jednej z części filmu pt. „Zawód Lektor”. Zanotować spostrzeżenia/wnioski dotyczące odbioru treści wizyjno-fonicznej, w której głównymi bohaterami są lektorzy o rozpoznawalnych głosach.

Film "Zawód Lektor" cz. 1 Uwaga !

Polecenie 4.4 jest związane z innym aspektem korelacji wzrokowo-słuchowych niż aspekt badany w zadaniach 4.1 i 4.3 (gdzie obserwowano wpływ kierunku patrzenia na lokalizację pozornego źródła dźwięku). Do tego faktu należy się odnieść w opracowaniu zadania 5.3.

5. Opracowanie

5.1. Dokonać porównania wyników testów subiektywnych (odpowiadających sobie próbek w części I i części II formularza). Wyznaczyć wielkość wpływu ściągającego (wraz z kierunkiem) dla poszczególnych próbek i poszczególnych osób.

5.2. Ustosunkować się do zaobserwowanego wpływu ściągającego w płaszczyźnie horyzontalnej i wertykalnej oraz odnieść się do wpływu charakteru próbki (mowa, impuls, wąskie pasmo górnych częstotliwości, szerokie pasmo) na obserwowane przesunięcie pozornego źródła dźwięku (na podstawie cz. 2 ćwiczenia – HRTF).

5.3. Wyniki poszczególnych studentów w grupie laboratoryjnej należy przeanalizować indywidualnie. W interpretacji wyników należy wskazać, dla których próbek i w jakich warunkach zaobserwowano taki sam lub podobny wpływ ściągający obrazu na percepcję dźwięku.

5.4. Ustosunkować się do obserwacji z zadania 4.2 i 4.4.

5.5. Sprawozdanie (format PDF) należy umieścić w serwisie sprawozdań KSM w katalogu „Zmysły komunikacji” = > „ćw. 7” w terminie 7 dni od daty

wykonania ćwiczenia. Po przekroczeniu tego terminu końcowa ocena za sprawozdanie zostanie obniżona o 1 stopień.

Należy zastosować następujący format nazwy pliku: Nazwisko.pdf

6. Bibliografia

[1] B. Kunka, B. Kostek, M. Kulesza, P. Szczuko, A. Czyzewski, “Gaze-tracking based audio-visual correlation analysis employing quality of experience methodology”, Intelligent Decision Technologies (IDT), Special Issue on Human-Computer Interaction in Knowledge based Environments.

[2] B. Kostek, „Rough-neuro approach to testing the influence of visual cues on surround sound perception”, rozdział w książce pt.: “Rough-Neuro Computing: A Way To Computing With Words” (S. K. Pal, L. Polkowski, A. Skowron eds.), Springer Verlag, Series on Artificial Intelligence, 555 - 572, 2004.

[3] B. Kostek, “Perception-based data processing in acoustics. Applications to music information retrieval and psychophysiology of hearing”, wyd. Springer Verlag, Series on Cognitive Technologies, 389-400, Berlin, Heidelberg, New York 2005.

(8)

8 [4] P. Odya, A. Czyzewski, B. Kostek, “Determination of influence of visual cues on perception of spatial

sound”, 110th Audio Eng. Soc. Convention, Preprint No. 5311, Amsterdam, 2001.

[5] P. Odya, B. Kostek, A. Czyzewski, “Discovering the influence of visual stimulation the perception of surround sound using genetic algorithms”, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New York, 2001.

[6] R. I. Bermant, R. B. Welch, “The effect of degree of visual–auditory stimulus separation and eye position upon the spatial interaction of vision and audition”, Perceptual & Motor Skill, 43, 487-493, 1976.

[7] P. Bertelson, “The cognitive architecture behind auditory – visual interaction in scene analysis and speech identification” Current Psychology of Cognition, 13, 69-75, 1994.

[8] P. Bertelson, “Starting from the ventriloquist: The perception of multimodal event”, w: M. Sabourin, F. I. M. Craik, M. Robert (red.), Advances in psychological science: vol. 1. Biological and cognitive aspects, Hove, U.K.: Psychology Press., 419-439, 1998.

[9] P. Bertelson, G. Aschersleben, “Automatic visual bias of perceived auditory location”, Psychonomic Bulletin & Review, 5, 482-489, 1998.

[10] P. Bertelson, M. Radeau, “Ventriloquism, sensory interaction, and response bias: Remarks on the paper by Choe, Welch, Gilford, and Juola”, Perception & Psychophysics, 19, 531-535, 1976.

[11] H. A. Witkin, S. Wapner, T. Leventhal, “Sound localization with conflicting visual and auditory coues”, Journal of Experimental Psychology, vol. 43, 58-67, 1952. \

(9)

9

Formularz badania subiektywnego

Badanie korelacji wzrokowo-słuchowych

1. Badanie pozornego źródła dźwięku,

cz. 1 - audio

Lp. Próbka testowa Położenie pozornego źródła dźwięku 1. 1_01_audio 2. 1_02_audio 3. 1_03_audio 4. 1_04_audio 5. 1_05_audio 

cz. 2 – audio+video

Lp. Próbka testowa Położenie pozornego źródła dźwięku 1. 1_06_audio-video 2. 1_07_ audio-video 3. 1_08_ audio-video 4. 1_09_ audio-video 5. 1_10_ audio-video 6. 1_11_ audio-video

(10)

10

2. HTRF

cz. 1 - audio

2_01_audio 2_02_audio 2_03_audio 2_04_audio 2_05_audio 2_06_audio 2_07_audio 2_08_audio 2_09_audio

(11)

11

cz. 2 – audio+video

2_10_audio-wideo 2_11_audio-wideo 2_12_audio-wideo 2_13_audio-wideo 2_14_audio-wideo 2_15_audio-wideo 2_16_audio-wideo 2_17_audio-wideo

(12)

12

2_18_audio-wideo 2_19_audio-wideo

2_20_audio-wideo 2_21_audio-wideo

2_22_audio-wideo 2_23_audio-wideo

(13)

13

2_26_audio-wideo 2_27_audio-wideo

2_28_audio-wideo

Oko dominujące: ………. Ucho dominujące: ………

Cytaty

Powiązane dokumenty

Gdyby zaoy, e w latach 2010-2012 nie zachodziy gwatowne zmiany w przepisach dotyczcych stawek amortyzacyjnych skadników majtku trwaego w gospodarstwach rolnych oraz nie dokonywaa si

Rys. Wyznaczając profi le dokonywano pomiarów prędkości strugi przepływającego powietrza w części pomiarowej w zakresie od –57 do 57 mm od osi tunelu. Badania wykonano dla

Za pomocą trzech wybranych metod wielokryterialnych (SAW, PROMETHEE II, TOPSIS), reprezentujących różne podejścia do zagadnienia, skonstruowano rankingi walorów sektora bankowego

79 Tekst nie mów i że było to jedzenie, chociaż z kontekstu m ożna by się tego domyślać. W ydaje się jednak, że je st to zamierzona dwuznaczność: chodzi o

Wreszcie dodała, że jesienna Konferencja Biskupów nie może jeszcze zająć się rozpatrywaniem tematów zgłoszonych przez ordy- nariuszów na synod, gdyż tą

Cel jaki przyświecał autorce tej pracy, benedyktynce austriackiej z opactwa St. Gabriel, nie był bynajmniej naukowy; chciała jedynie dopomóc wiernym w zrozumieniu bogactwa

Gdańsk jest wdzięcznym polem do studiów zarówno historyka gospodarki jak i historyka sztuki nie tylko dlatego, że szczęśliwie ocalił swoje bogate

Profesor Stefan Kieniewicz był redaktorem naczelnym „Przeglądu Historycznego” przez lat czterdzieści.. Prawie połowa więc wszystkich roczników tego czasopisma