Wielokanałowe techniki korekcji nagrań fonicznych w kryminalistyce

(1)

Rafał

K

orycki

Wielokanałowe

t

echniki korekcj

i

nagrań

fonicznych

w krym

inalistyce

gdzie

n

oznacza indeks czasu dyskretnego,czyli nu-mer próbki sygnału. W większości przypadków przyj -mujesię, że sygnałmowy niejest skorelowany z szu-mem.Ma to jednak uzasadnienie wówczas,gdy sygna-ły użytecznyizakłócającygenerowanesąprzez nieza -leżn e żródła.Jednaznajprostszychmetod pozwalają ca na poprawę jakości nagrań mowy została szeroko opisana w literaturzejuż trzy dekady temu [3,4,5,6].

Torozwiązaniesprowadzasiędoodjęciaestymaty w id-ma szumuz widmasygnałumowy,przyrównania ujem-nychróżnicdo zera,odtworzenia nowego widma z ory-ginalną wartością przesunięcia fazowego oraz rekon-ści znich moż na wyróż nićwspólnerozwiązania [1,

2J

.

Pierwszym etapem przetwarzania jest segmentacja,

czyli podział sygnału na fragmenty o długości ok. 20-30 milisekund,anastęp n i e mnożenieich przeztzw.

funkcjęokna (np.Blackmana,Hanna itp.). Tak p rzygo-towane segmenty poddajesiędyskretnejtransformacji

Fouriera w celu otrzymania próbek widma. Kolejnym etapem jest tworzeniemodeli szumu.Istotnejest,aby algorytm"wiedzi ał"conależy usunąćw celu z apewnie-nia skutecznego odtworzenia syg nału użytecznego. W większości komercyjnych aplikacji stosowane są dwa rozwiązan ia : detekcja automatyczna oraz ręczn e pobieraniepróbek widma szumu.Pierwsze z nichpo le-ga na zastosowaniu systemów rozpoznawania mowy,

pon i eważwyznaczanie modelusyg nałuzakłócająceg o mamiejscew przerwach między wypowiedziami. Dru-gierozwiązaniewymagaodużytkowni kas amodzielne-go zaznaczenia fragmentu nagrania,w którymwystę pujewyłącznie syg n ałzakłócaj ący.Wyznaczenie es ty-maty widma mowy niezakłóconejto kolejnyetap reali-zowany przeztypowy system redukcji szumu.K oniecz-na jest wtym przypadku modyfikacja widmasygnału wejściowego stosownie do estymowanego stosunku sygnałudo szumu dlakażdej dyskretnej wartości czę stotliwości.Ostatnimetapemjest wyznaczenieodw rot-nej transformacjiFourierai odtworzenie fazysygnału.

Przyjmując założenie,żesyg nał mowysin) oraz sy -gnał szumu w(n)są addytywne

1,

"zaszumione" na gra-niemoż na opisać wnastępującysposób:

Wstęp i cel pracy

Nagrania monofonicznestanowią wi ę kszość wśród materi ałównadsyłanychprzezzleceniodawcówdo b a-dań. Jed nokanałowe techniki redukcji szumu wydają się byćzatemnajbardziejupowszechnionewśród e ks-pertów z zakresu inżynierii dżwięku ifonoskopii. R oz-wiązaniatezal eżąod statystycznychmodelisyg nałów zakłócających, które mogą być estymowane wczasie brakuaktywnościmówcy lubtworzone i modyfikowane przezużyt kownika.Pomimowielulatbadańnad jedno

-kanałowymi systemami korekcji nagrań wciąż zdarza się, że efekt ichdziałan i a pozostaje niezadowalający. Wystarczy jednak uzyskać troch ę dodatkowych i nfor-macji natematsygnału zakłócającego, bymoż liweb y-ło zastosowanie całego arsenału środ ków technicz

-nych.Wartomiećtona uwadze,ponieważcoraz więk sza dostępnośćiduża popularność przenośnych reje-stratorów cyfrowych wyposaźonych w dwa mikrofony moż e przyczyn ić się do zmniejszenia liczby m onofo-nicznych nag rań przekazywanych do badań w ciągu kilku najbl iższych lat.

Celem niniejszej pracy jest krótkie omówienie kla-sycznych technik redukcji szumu i zakłóceń oraz przedstawienie rozwiązań, które mogą okazać się przydatne podczas analizy nagrań wielokanałowych. Zaprezentowanezostanątechnikifiltracji adaptacyjnej, które pozwalają na redukcję syg nałów zakłócających generowanych w celu zapewnienia poufności prowa

-dzonych rozmów. Przedstawione zostaną także a lgo-rytmy umożliwiające rozdzielanie jednoczesnych wy-powiedzimówców, comaniebagatelne znaczenie pod

-czas analizy nagrań rejestrowanych w dużych s kupi-skach ludzkich. Wszystkie opisane algorytmy zostały zaimplementowane i przetestowane,a wyniki symulacji zaprezentowane w postaci przebiegów czasowych ispektrogramów.

Jednokanalowe techniki poprawyjakości nagrań Systemy redukcjiszumuznacznieróżni ą sięod sie -bie zarówno podwzg lęd e m złożoności, jak i efektyw -ności, któraprzekłada się bezpośrednionastopień po-prawyzroz u m i ałościprzetwarzanej mowy. W

większo-yln )=si n )+wili) (I),

(2)

O(w )=P,(w)- PN(w ),

strukcji przebiegu czasowego syg nału. Proces można

opisaćwnastępujący sposób:

ps(w)jest tu widmemzakłóconego sygnału wejścio

wego,P";"w)stanowiwygładzonąestymatęwidma szu-mu, natomiast P~(w ) jest zmodyfikowanym widmem

sygnału. P";"w) otrzymuje się w dwóch etapach. Naj-pierw uśredniane jest widmo szumu z kilku kolejnych segmentów sygnał u, w których nie występ uje sygnał mowy,a następ nie tak otrzymane widmo jest wygła dzane[5J.

W przypadku większościmetod poprawy jakości

sy-gn ału mowyprzyjmujesię założen ie, żewidmo

sygna-łu zakłóconego jest równe sumie widm sygnału orygi-nalnego oraz szumu.Założenieto jest prawdziwe jedy-nie w sensie statystycznym imoże być spełnione przy zastosowaniuwidma wyznaczonegoz wykorzystaniem krótkiego okna2.Ze względu na fakt,że sygnałmowy orazsygnał zakłócającyniezawszespełniająwarunek braku wzajemnej korelacji, niektóre składowe Pslw)

mogą być ujemne.Wzwiązku z powyższym przyrów-nywane sądo zera [3,4,6].

Poważnymmankamentemopisanejmetody jest po-wstawanie tzw. szumu muzycznego, który może być

subiektywni eodbierany jako dzwonienie lubświergota nie.Wynika to zwystępowaniaszczytów i dolin w krót-kookresowymwidmie szumu białeg03. Ich amplituda i

położenie w dziedzinie częstotliwości mają charakter losowyizmien iająsięz ramkinaramkę.Poodjęci u

wy-gładzonejestymaty widma szumu z bieżącego widma szumu,wszystkie maksimawidmowe są redukowane,

podczasgdyminimasązerowane (2).Wefekcie p

oja-wiają się fluktuacje obwiedni widma szumu. Szersze maksima odbieranesąprzezsłuchaczajakowąskopa

smowy syg nał szumu.Węższe natomiast brzmieniem

przypominają sygnały tonalne o częstotliwościach zmiennych

w

czasie, które można określić mianem szumu muzycznego.Jest to jeden z najczęściej

poja-wiających się efektów podczas korzystaniaz popular -nychaplikacjisłużących do redukcji szumuizakłóceń.

Jednąz metodminimalizacjitegozjawiska jestrozwią

zanie zaproponowane w [6]: O(w )+G[PI(w) - aI~(w)]

P's('")

=

{Ol(w),

jeś

li

Ol(w)>fiPN(w) fiPN(w),

w

illIl ylll przypadku

Zarówno syg nały mowy,jak iza kłóceni a mog ą być rejestrowan e zapomocąwielu sensorów,poczym pod -dawane sąfiltracji.Wykorzystywany jest fakt,żenawet w przypadku niewielkich odległości między poszcze-gólnymi mikrofonami docierające do nichsygnały róż niąsięod siebiepodwzględem natężeniaoraz charak-terystykiczęstotliwościoweji fazowej.Redukcjazakłó ceńw systemachwielokanałowychjestrealizowana na

podstawie zarówno samegosygnału użyteczn eg o, jak

izakłócającego . Istotnajestrównież szyb kość a

dapta-cji (przystos owania) współczynn i ków stosowanych fi

l-trów dozmieniającychsięwarunkówakustycznych.

Projektowanie filtrów cyfrowych polega na doborze struktury4, rzędu5 oraz wartości współczynników. Tak stworzony układ cechuje sięodpowiedn ią c haraktery-styką cz ęstotliwościową, dz i ęk i czemu um o ż l i wi a wzmacnianie lubtłumieni e okreś l onych zakresówcz

ę-Zalecasiętu zachowanienastę p uj ącyc hwarunków: a '" l,O<

fi

« 1;gdziea jestwspółczynni ki em r eduk-cji, natomiast współczynnik

fi

jest związany z pozio

-mem progowym widma.Dzięki tym parametrom możli wa jestzarówno lepsza redukcja szerszychmaksimów,

jak i zmniejszenie głębo kości minimów obwiedni. P o-nadtoyjestwspółczynnikiemredukcjiwidmamocy, na-tomiast Gwspółczyn ni kiem normalizacji[3,

4J.

Wśród algo rytmów poz wal aj ą cyc h na znaczne

zwiększenie wydajności rozwiązań polegających na odejmowaniu składników widma znajdują się B ay-esowskie metody estymacji widma amplitudowego. Wykorzystujesięw nichfunkcjegęstościp

rawdopodo-bieństwa sygnału i szumu oraz minimalizuje koszt

funkcji błęd u.

Jako przy kład praktycznej realizacji opisywanych rozwiązań zaprezen towa no wyniki implemen tacji trzech wybranych algorytmów redukcji szumu, w któ-rych zastosowanoautomatycznądetekcję sygnału mo-wy.Wypow iadane zdanie zostało zakłócone szumem

różowymowartościskutecznej równej-6dB.W pierw-szej z prezentowanych metod zastosowano estymację

minimalnego śred niego błędu kwadratowego kr ótko-czasowego widma amplitudowego [7,8] (ryc. 1b oraz

2b).Pozostałe dwa rozwiązania wykorzystują

estyma-cjęa priori stosunkusygnałudo szumu przedstawione -go przez Scałarta i Vieira-Filho [9J (ryc. 1c i 2c) oraz opisanego przezCohena

[

l l J

(ryc.1di2d).W przypad-ku pierwszego rozwiązania można było zauważyć

nie-wielką poprawę jakości nagrania przy minimalnych zniekształce niac h wprowadzanych przez program. Najlepszeefekty uzyskano,stosującdwieostatnie me-tody,jednakże w przypadku zilustrowanym na rycinie te i2cwyrażniesłyszalnyjest szum muzyczny(ryc.2).

Filtracja adaptacyjna (2). (3). ji'ś/iO(w)>O UJinnym przypadku P;(w) ={O(w) , O, PROBLEMYKRYMINALISTYKI273(3) 2011 25

(3)

1.5 1.4 1.2 1.3 Czas (s] 1.1 1.5 1.4 1.2 1.3 Cza s(s] a) b) 0.15 0.1

•

0.05

•

li!. •• "

....

u .~ o. O ~.,..,

.

'

!ł.{l.OS l' "

..

-o.

t

1.1 1.2 1.3 1.4 1.5 1.1 1.2 1.3 1.4 1.5 Czas{5] Czas [s] e) d) 0.15 0.1

•

u

,

::= 0.4, -- - - , 0.4, -- - - -,

Ry c.1.Porównaniealgoryt mówpop rawyjakościsygnałumowy.Przeb iegi czasoweprzedstawiają

a)sygnałmQwIzakłócon ej(cz ęstotliwośćpróbk owania 16 kHz,poziom addytywnegoszumuróżowego-6dB), b)sygnałpokorek cjizwykorzystaniem algorytmu opisanegow17,aj.

e)syg n ałpo zastosowaniumetodyopisanej'łoi[91. d)sygnatpoko rekc jimetodąprzedstawionąw[11J

Fig.1.Comparison otsinglechannel audio enhancementalgor ithms . Time plotsastonowe:

ajspeechs/gnal corruptedby noise(16kHz samplingfrequency,additivepinknotsetevei -edB), b) speechsignal afterenhancementby algonthmdescribed in[7.8),

c)speech signal alterenhancementbymethoddescribed in[9J, d) speech signal afterenhancementby algorithmdescribedin[11l

źród ło(ryc.1-19): autor

a) b) 6000 6000

"

!.6000 !.6000 :.l :.l o o .~4000 .~ 4000

~

:!r2000 ~2000 u u O O O., O., 1.5 1.5 Czas [s] Czas(s] ci d) 6000 6000

"

!.6000 !.6000 ~ ~ ~ ~ o o ~4000 .~4000

~

I

~

~2000

--

~2000 u u O

-

O 0.5 l.' 0.5 1.5 Czas (s] Czas [s]

Ryc.2. Porównanie algorytmówpoprawyjakości sygnałumowy.Spekt rogramyprzedstawiają:

alsygnałmowyzakłócon ej (częstotliwośćpróbkowania16kHz,poziom addytywnego szumurózo weg o --6 dB), blsygnałpo korekcji z wykorzystaniemal

-gorytmu opisanegow(7. 8J,

c)sygnałpo zastosowaniumetody opisanejw (9).

d)sygnałpokorekcjimetodą przedstawionąw [11J

Fig. 2. Comparison otsinglechannelaudioenhancement afgo rithms.Spectrogramsasfo/lows: a)speech signal corrupted by noiee (samplingIrequency16kHz,additive pink noise level-6dB),

b) speech signa/stter enhaneementbyalgorithm deseribedin(7,B], e)speech signal etterenhancement by methoddeseribed in[9], d) speech signaletter enhancementby algorithmdescribedin(11]

(4)

stotliwości. W przypadku dokonywania rejestracji w zmiennych warunkach akustycznych istnieje k

o-nieczność dopasowania charaktery styk filtrów do

sy-gnałówzakłócających w takisposób,by możliwa była

skuteczna redukcja tych ostatnich. Filtry adaptacyjne

pozwalają na modyfikację charakterystyk przez au

to-matyczną aktualizację wartości współczynników. Pro-ces adaptacji polega na minimalizacjibłędu między

sy-gnałem wyjściowymasygnałemdocelowym (lubpożą

danym)[12].

Sygnałwejściowyd(n)jestsumąsygnałów użytecz negos(n) oraz zakłócającego w(n). Efektem działania algorytmu jest estymata sygnału zakłócającego. Po

odjęci uod siebie tych dwóchsygnałówuzyskuje się

sy-gnał błędu e(n). W zależności od własności sygnału zakłócającego przybliżeniem s(n) może być sygnał błędu lub sygnał wyjściowy. Proces adaptacji uzależ

niony jest od zastosowanego algorytmu aktualizacji współczynni kówfiltnu.

Algorytmy filtracjiadaptacyjnejstanowią dość li czną

grupę. Dwa najprostszeijedne znajczęściej sto sowa-nych wpraktyce to LMS (Least Mean Squares)i RLS

(Recu rsive Least Squares)[13,14].

Zależności(4) i (5)przedstawiająodpowiednio algo -rytm aktualizacji współczynników filtru metodą "naj

-mniejszejśredniejkwadratowej" (LMS)oraz rekurs yw-ny algorytm aktualizacji współczyn ników filtru metodą

najmniejszych kwadratów (RLS). Wektor w to wektor wartościwagwspółczynnikówfiltru,11jest współczyn ni

kiemszybkościadaptacji,R_{yyoznacza macierz autoko}

-relacji, natomiast i- peł n i funkcję współczynnika zapo-minania.

Na rycinie nr 3 zilustrowano proces adaptacji ch a-rakterystykifiltru dozmieniającejsięwczasieczęstotli

wości sygnału zakłócającego . Dosygnał umowyd oda-nosyg nałsinusoidalny o liniowo narastającejczęstot li wości w zakresie od 500 Hz do 2 kHz. Nie było k o-nieczne wykorzystanie dodatkowej informacji o zakłó

ceniach. Wystarczyło podanie jakosygnału odnies

ie-nia opóźnionej ojedną próbkę kopii sygnału wejścio

wego.Mimo niewielkiegoprzesunięciaw czasie sygnał

11'(11)= W(II- l)+k(lI)c(lI) (5), r _'R

y

9(n - l)y(n)

k

(n)

gdzie: (4), 11'(11+ l)=11'(11)+II/Y( II)C(II)] al bl ci dl

Ryc.3.Przebiegiczasowe (a.c) orazspektrogramy(b.dl:sygnałumowyzakłóconegosygnałemsinusoidalnymOliniowonarastającej częstotliwości(a,b)

orazsygnałubłędunawyjściufiltruadaptacyjnegopo operacjimarącelna celuredukcję sygnału zakłócającego(c, d)

Fig. 3.Timeplots (a.ej and spectrograms (b.d)ot: speechsigna l corruptedbysine wave with Iinearfrequencymodulation(a.b) and errorsignal on the

outputotadap tive filier atter noise reductionoperation(c.d)

(5)

Odległość <:1 m Odległość>1 m O,Sm Mikrofony kierunkowe

1,2

m Mikrofony kierunkowe ~

_{. -}

41:

...-V

Źródło dźwięku

~ 4:; ~

...

V

Źródło dźwięku

RyC.4. Bysun e kpogl ądowyilustrującyrozm ieszc zeniemikrof onówpodczastest uzwykorzystani em gener ator a szum u

Fig.4.Oemonstrativefigure whichdepictsmicrophonespacing during the test withnoise generator

al

ci

---

-bl

dl

Ryc.5. Przebiegi czasowe(a.c)oraz spektrogramy(b,d):sygnał umowyzakłócon egogenerowa ny msz ume m (a.b)orazsyg nałunawyjściufiltru ada pta -cyjneg o(c.dl.Odl e głośćmówcyod mikrof onuwynosi 0,8m

Fig. 5.Time otots(a,ejandsoectroq rems(b,d) ot:speech s/gnalcomuned bygeneratednoise(a.b)andenhanced signal on(heoutp ul ot adaptive filter (c,d).Distance betweenmicrophoneand speaker:0.8m

(6)

sinusoidalnyjest bowiem nadal skorelowanyzeswoją kopią.Doobliczeńwykorzystano algorytmLMS.

Przykładem zastosowan ia filtracji adaptacyjnej do poprawy jakości nagrań rejestrowanych za pomocą więcej niż jednego mikrofonu może być próba o dtwo-rzeniatreści rozmowy prowadzonej wpomieszczeniu,

wktórymznajdujesi ę inne żródło dżwięku. Takas ytu-acja może mieć miejsce np.: w restauracji, w której włączonejest radio,czyteż wsamochodzie lub w ka-binie pilotów w samolocie,gdzie generatorem s ygna-łów zakłócających są pracujące silniki. Niekiedy in ter-lokutorzy,chcąc zach owaćpoufnośćprowadzonej roz-mowy,celowo prowad zą ją przy włączonym tele wizo-rze lubstosująrozwiązaniawpostacisystemów o chro-ny akustycznej.Takie systemy mogą być wyposażone w generator szumu lub innychsygnałów zakłócających o intensywności zależnej od głośności prowadzonej rozmowy.Abyrozmówcymoglisięwzajemniesłyszeć, urządzeniatego typuwyposażan e sąwsłuchawkizm i-krofonami.

Na rycinie4 zamieszczono rysunek poglądowy il u-strujący rozmieszczenie mikrofo nów podczas testu z wykorzystaniem generatora szumu.Zastosowano tu dwa mikrofony o charakterystyce kierunkowej(h iperkar-dioidalnej).Nagraniazrealizowano dla dwóch różnych

al

c)

od l egłościod mówcy:0,8m oraz 1,2m oraz od sygn a-łu zakłócającego: 0,2moraz 0,8m.Mikrofonybyłyod -daloneodsiebieo10cm. Zapisudokonanozapomocą przenośn eg ocyfrowegorejestratoraDAT zczęstotliwo ścią próbkowania44,1kHz. Powstępnej analizieuz y-skanych nagraństwierdzono brakwystępowaniawnich jakiejkolwiek informacji lingwistycznej. Wygenerowany szumcałkowicie zamaskował sygnałmowy. W celu wy -konaniakorekcjinagraniaposzczególne ścieżki podda-no synchronizacji, aby zniwelować wpływ opóżnienia syg nału zakłócającego docierającego do poszczegól -nychmikrofonów.Następ nie nagraniapoddanofi~racji adaptacyjnejz wykorzystaniem filtrówkratowych.Na ry-cinach 5 oraz 6 przedstawiono przebiegi czasowe i spektrogramy nagrań żródłowych oraz przetworzo -nych.Dzięki zastosowanej korekcjimożliwe było pelne odtworzeniezapisu prowadzonej rozmowy.

Podczas wykonywaniafiltracji adaptacyjnej n iezwy-kleistotnajestprawi dłowasynchronizacja poszczegól

-nych ści eżek audio.Na rycinie 7 przedstawiono efekt filtracjinagran iarejestrowanego wodległości 0,8m od mówcy zwykorzystaniem tych samych filtrów, jednak-że bezwstępnejsynchronizacji. Tym razem tylko w nie -znacznym stopniu udało się zredukować zakłócenia,

azapis mowypozostał nieczyteiny.

b)

d)

Ryc.6.Przebiegi czasoweoraz spektrogramy:sygnałumowyzakłóconegogenerowanymszumem(a,b) orazsygnałunaWYjŚciufiltru adaptacyjneg o(c, d).Odległoś ćmówcyodmikrofonu wynosi 1,2 m

Fig. 6.Time p/ots(a,ejand spe ctrograms(b, d) ot:speech signalcorruptedby generatednoee (a.b) and enhanced signalonIhe outpu totadaptive filter (c,d).D/stance between microph oneand spe aker:1,2m

(7)

a) b)

Rvc. 7. Przebieg czasowy (a) oraz spektrogram(blsygnałumowyzakłóconegogenerowanym szumem.Sygnałzwyjściafiltruadaptacyjnego przyniew

ta-ścwredobranychparametrachsynchronizacji(przesunięcieo1Dmswstosunku do optymalnegopunktusynchronizacji).OdległoŚĆmówcy od mikrolonu wynosiO,Bm

Fig.7.Timeplot(a) and spectrogram(b) otspeechsignal corrupted by generated noise.Enhancedsignalonthe outputo(adap tivetiner wnnoutproper synchronization(10msshiftInreteuonto optimum synchronizatlOn point).Oistance between microphone andspeaker:0,8m

Sepa rac ja źródeł

Nagrania przekazywanedo badań ekspertom z za-kresu inżynierii dźwięku i fonoskopii zawierają wiele komponentów, np.głosykilku mówców, muzykęlub in-ne syg n ały zakłócające. Część z nich uznaje się za niepoż ądanei próbuje się je usuwać lub przynajmniej redukować za pomocą specjalistycznego opro gramo-wania. Dostęp ne narzędzia pozwalają przeważnie na

tiltrację szumulubsygnałówharmonlcznychś. Problem pojawia się w sytuacji,gdy poszczególne wypowiedzi mówców zarejestrowanych w nagraniu zaczynają się na siebie nakładać. Przy zbliźonych barwach głosów uczestników rozmowy może to prowadzić do błędów przy prowadzeniuidentyfikacji wobrębie materiału do-wodowego.Może także uniemoźliwić ekstrakcję osob-niczych cech mówców,co jest niezwykle istotne wp ro-cesie identyfikacji z wykorzysta niem materiału

porów-nawczego.

Rejest racja nagrania zapomocądwóch mikrofonów znacznie ułatwia transkrypcję oraz przypisywanie wy-powiedzi poszczególnym uczestnikom rozmowy. Jest to spowo dowane natural ną zdolnością ludzkiego m ó-zgu do wykonywania przestrzen nej filtracji ikonce ntro-waniasiętylkona wybranymźródle dźwięku(tzw.efekt

cocktailparty) [15].Rejestracja stereofonicz na p rowa-dzona jest najczęściej za pomocą dwóch mikrofonów ustawionych bliskosiebie(np.dyktafon z wbudowany-mi mikrofonami). Dzię ki temu uzyskuje się możliwość subiektywnej lokalizacjiźródeł dźwięku.Każdyz mikro-fonów reje struje sygnały pochodzące od wszystkich mówców, jednakże proporcje między nimi są róż ne . Możnatozapisać w postaci układu równa ń:

30 {

X, (t )

=

UlIs,Ct)

+

U12s,Ct)

x,(t) = u2Is, (r)

+

U22S,Ct) (6),

gdzieall'a'2'a21oraza22sąparametramizależny

mi od odległości źródeł dźwiękuod mikrofonów,

s,

iSz

są źródłami dźwi ęku (sygnałumowy),natom iast

x,

iX2

sąmieszaninamisygnałówzarejest rowanymiprzez po -szczególne mikrofony.Przy znanychwartościach para-metrówaijrozwiązani e układ u równańnie stanowi łoby

problemu.Niestety,powyższyzestaw zmie nnych moż na jedynie estymować, co czyni opisane zagadnienie dużobardziejzłoźonym.

Jedną z możliwości rozwi ąza nia powyższego pro-blemu jest wykorzystanie statystycznychwłasnościs y-gnałów s~~do wyznaczeniaparametrówaij- Przyjmuje się, źe rejestrowane składowe są li niową kombin acją pewnych nieznanych zmiennych, przy czym sposób , wjakizostałypołączone, takżeniejest znany.Zakłada się ponadto, że szukane sygnały są niegaussowskie iwzajemnieniezależne,zatem nazywanesą składowy

miniezależnymilubźródłam i.

Separacji syg nałów pochodzących z wielu źródeł moźna dokonać za pomocą metody analizy składo wych niezależ nych (ICA - Independent Component Analysis). Jest to technik a wykorzystywana w wielu dziedzinach, takich jak: przetwarz ani eobrazów, prze -szukiwanie bazdanychdokumentów,ekonometriaczy obrazowanie medycz ne (np. elektroencefalografia). Jest przydatna wszędzie tam,gdziew wyniku pomia-rów otrzymujesięwielesygnałówlubserii danych, któ-renastępnienależyrozdzielić . Powyższyproblemop i-sywany jest terminem ślepa separacja źródeł (BSS

-Blind Source Separation), ze względu na niewielką ilość informacji zarówno o samych źródłach, jak i o sposobie ich połącze nia. Typowe zadania realiz o-wane za pomocą algorytmów ICA to rozplatanie: sy-gnałówmowy pochodzących od wielu mówców (ire je-strowanych za pom ocąwielumikrofonów),zapisówfal mózg owych zarejestrowa nychza pomocąwieluse nso-rów,naklad aj ących si ę sygnałów radiowychdocieraj ą

(8)

cych do telefonów bezprzewodowych lub- szczególnie

wprzemyśle- analizarównoległychseriidanych otrzy

-mywanych z wielu czujników [16J.

Metoda analizyskładowych niezależnychjest zatem

statystycz n ą techniką dekompozycji złożonych grup danychnaniezależnepodgrupy.W przypadku gdy dwa zarejestrowane sygnały są od siebie niezależne, tzn. obserwacja jednego z nichniepozwalanaznalezienie informacji na temat drugiego, dzięki ślepej separacji żródef możliwejest rozdzieleniesygnałów tworzących

supe rpozycj ę. Problemopisany równaniem (6) można przedstawić , stosujączapis macierzowy:

rzonejw postaci negentropii J(wTx),którądefiniujesię

następująco:

gdzie H oznacza entropię , natomiast ygauss jest

gaussowską zmien n ą losową o takiej samej macierzy kowariancji jak y.Negentropia jest zawsze nieujemna iosiągazero tylkowtedy,gdy marozkładGaussa. P

o-nadto wariancja wT

x

musibyć ograniczona do jedno

-ści, co w przypadku wybielonych danych sprowadza

się do warunku: IIwlJ2 = 1.Jako przykład praktycznej

realizacji może posłużyć algorytm FastlCA, szeroko

opisany w literaturze [18J:

gdzies jest wektoremzawierającym niezależne

sy-gnałyżródłowe,Ajestmacierząmieszającą( kompozy-cji), natom iast x jest wektoremzawierającym zmik so-wanesygnały[15].Istotne jest, aby liczbaobserwowa

-nych składników mieszaniny sygnałów (np. liczba

mówców) była mniejsza lub równaliczbie z

astosowa-nychsensorów (mikrofonów)[17].Można także przyjąć

założenie, że współczynniki kompozycji aij są na tyle

różne, aby pozwolić na wyznaczenie macierzy W od

-wrotnej do macierzy A.Wówczas rozwiązanie

proble-mumiałoby postać:

1.Wybierzwartości początkowe wektora wag

w

2.Niechw+ =E{xg(wTx))- E{g'(wTx))w 3.Niech

w+

=

w+

/11

w+ł

I

4.Jeślialgorytm nie jest zbiezny,przejdźdo2

Zbieżność algorytmu określana jest na podstawie

różnicy międzynowymi (w+)a poprzednimi wartościa

mi wektora w.Wymienione powyżej funkcje

g

oraz

fi

są pierwszą oraz drugą pochodną niekwadratowych

funkcjiG,które dobieranesąeksperymentalnie,np.:

x

=As

{

SI (

t)

=

W

_{ll Xl (}

t)

+

_WIZ

X

_Z(

t)

Sz(t)

=

WZIXl

(

t)

+

W

zzXz(t )

(7), (8). !(y )=H(ys"'''')- H(y )

G,lu)= l/n,/agcosłin,", _G2(1I)=-np(-1I2/2 ) g, (II)= tnll"(n ,II), g2(1I ) = 11exp(-u2/2),

(9),

(10),

(11),

Pierwszym krokiem większości algorytmów wyko

-rzystujących metodęanalizy składowych niezależnych

jestwyśrodkowanie danych (centering),tzn.usunięcie wartości średniej E{x}. Operacja wykonywana jest je-dynie wcelu uproszczeniaobliczeńi nieoznacza bra

-ku możliwości estymacji wa rtości śred n iej

separowa-nychsygnałów. Następniedokonujesięwybieleniada -nych (whitening). Przez lin iowątransformację wektora

x

uzyskuje się wektor

x

,

któregowa rtości są n

ieskore-lowane,a ich wariancje sąrównejedności.Wykonanie

takiejoperacji jest zawszemożliwei przyczynia siędo

zmniejszenia liczby parametrów koniecznych do

esty-macji.Jednązczęściejstosowanych metod wybielania

jest dekompozycja wartości własnych macierzy kowa

-riancji[18].

Algorytm ICA

Wyznaczanie składowych niezależnych odbywasię

w sposób iteracyjny.Wkażdejiteracji aktualizowanesą wartości wektorawag w.AlgorytmICA polega na m ak-symalizacjiniegaussowości(nongaussianity)w Tx mie

-PROBLEMY KRYMINALISTYKI 273(3) 2011

gdzie

a

jeststałą dobieranądoświadczalnieimieści

si ęw granicach 1,;

a

s2 (najczęściej

a

= 1). W prakty-cetakże wartość oczekiwaną należy zastąpićjej esty

-matą wyznaczonąna podstawie odpowiednio dobranej

krótkiej serii danych.Algorytmpozwala na

wyznacze-nie tylkojednejskładowejwT

x.

Abyzwiększyćich l

icz-bę, obliczenia należy zrealizować osobno dla każdej skład owej

w

" ..

.

,

w

n. W celu przeciwdziała n ia osiąga

niu przez poszczególne wektory tego samego maksi

-mum,konieczna jest dekorelacjawyników w,Tx,...,wlx pokażdejiteracji.Możnatoosiągnąć , stosując , np.o r-togonalizacjęGrama-Schmidta [17].

Opisane rozwiązanie postanowiono przetestować

na nagraniu stereofonicznym powstałym przez

zmikso-wanie dwóch nagrań monofonicznych przesuniętych

w panoramie odpowiednio 60% w lewo oraz 20% wprawo.Tak utworzonyzapiszawierał głosy obydwu

mówcówzarówno w jednym,jak i wdrugimkanale,co

znacznie utrudn iało zrozumienie poszczególnych

wy-powiedzi. Dzięki zastosowaniu opisanego algorytmu

możliwe było cał kowite rozdzielenie poszczególnych wypowiedzi (ryc. 8).

(9)

al bl

'''''~

•••

• ''. '•.ioo.

"

lo ••

"

• • •

• .

ci dl

Ryc.6.Przebiegi czaso we(a. c) oraz spektrogramy (b.d):nagraniabędąceg o mieszanin ądwóch zapisów monofonicznych(a, b) oraznagra niapowst ałe gopozastosowaniu algorytmu opisanegow[161

Fig.8.Time p/ots (a. ejand spectrograms(b,d) ot: convo/uted mixtureottwo single channel recordings(a,b)and output recordingafterusing the

algori-lhm describedin[18J

Algorytm ICA z wykrywaniem kierunku lODA)

Opisany powyż ej problem analizy składowych

nie-zal eż n yc h zostałzdefiniowanyprzyzałożeni u, że każ

dyzsensorów (mikrofonów) rejestrujesyg nał miesza-gdziejako Sioznaczono zapisypochodzące od

po-szczególnych mówców.Przebiegiczasowe oraz

spek-trogramydlakażdego zkanałówprzedstawiono na ry-cinach 9 oraz 10.Ta kż ei tym razemmożliwa była peł

naseparacjaposzczegóinychżródeł. Wynikiseparacji przedstawiono na rycinach11 oraz 12.

Naturalnie liczbę mówców w mieszaninie można

zwię kszać, oileodpowiednio rosnąć będzietakże licz-basensorów.Powyż sze założeniesprawdzonodla na-grania trójkanałowego i zapisów wypowiedzi trzech osób,którezostały połączone według poniższejzależ

ności(9):

niny żródeł z zachowaniem różnych proporcji między tymi żródłam i. Odpowiada to wystę powani u macierzy miksującejA (por. równanie(3)oraz(4)). W przypadku ograniczenia liczbyżródeł do dwóchmodelowany sys-temrejestracjimożnaporównaćdostereofoniinatęże niowej, w której lokalizacja żródeł dźwięku następuje

na podstawie różnicy głoś n ośc i między

poszczególny-mikanałam i. Niestety,wi ększośćstereofonicznych

na-grań analizowanyc h przez ekspertów z zakresu inży

nieriidźwięku i fonoskopiitworzonajest z

wykorzysta-niem przenoś nyc h rejestratorów, w których odległości

międzymikrofonaminiesą duże (rzęd u2-3 cm). Skut-kuje to niewielkimiróżnicaminatężeń między poszcze-gólnymikanałami.Taki system rejestracjina leżyzatem

modelować jakostereofonięfazową,w której lokaliza-cja źródeł dźwięku następuje na podstawie róźnicy czasów dotarcia poszczególnychsygnałówdo mikrofo-nów.Różnicemiędzy opisanymi systemamizostały zi-lustrowane na rycinach 13a i 13b,gdzieprzedstawiono wykresy panoramy dla nagrania dwukanałowego bę

dącego mieszaniną dwóch zapisów monofonicznych

(przesuniętychw panoramieodpowiednio60%w lewo oraz20% w prawo - por.ryc.8) oraznagrania stereo-fonicznegobędącegorej estracjąjednoczesnych wypo-wiedzi dwóch osób utrwalonychzapomocą dwóch mi-(12),

{

Kana

l

1 =

0 ,6

5 ,

+

0 ,3

52 +

0,

35

3 K

anal2

=

0 ,35,

+

0,7

5

2

+

0 ,35

3 K

anal3

=

0 ,35

,

+

0 _,452

+

0,

6

53

(10)

Kanał1

ł

;~

1

~~-+FE

1.5 2 2.5 3 3.5 4 4.5 5 5.5

l

6 Czas [s) Kanał2

1!l

0 '

2 ~

~

j

~ O - , , Co ~ -0.2 I _ . ' -0.4 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 Czas [sI Kana/3

~

02 _

,

.

,

. • : . '

j

'" O

ł

:~:

₁

~

₁_.5 ₂ ₂_.5 ₃ ₃_.5 ₄ ₄_.5 ₅ ₅_.5 ₆ Czas(sI

Ryc.9. Przebiegiczasowesygna łówmowy trzechmówcówzmiksowanewe dł ugzal eż n ości(9)

Fig. 9.Timep/atsot speech signa/scomingtramtmeespeakers.mixedasdenotedin equation(9)

Kanał1 ~8000

I

::; 6000 ,~ o ~ 4000

~

2000 0>-N O u 0.5 1.5 2 2.5 3 35 4 45 5 5.5 Czas [s) Kanał2 ~8000 ~6000 o .~ 4000

~

2000 0>-N O U 0.5 1.5 2 2.5 3 3.5 4 45 5 5.5 Czas (sI Kanal3 ~8000 ~6000 o .~ 4000

~

2000 0>-N U O 0.5 1.5 2 25 3 3.5 4 4.5 5 5.5 Czas(sI

Ryc.10.Spektrogramysygnałówmowytrzech mówcówzmiksowanewedłu g za leż noś ci(9)

Fig.10.Spectrogramsotspeech signals coming tramthreespeekers,mixedas deno/edineaue tkm (9)

(11)

Mówcanr1 m 0.5 u .i! O

a

E

«

-0.5 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 Czas [sI Mówcanr2 6 5.5 5 4.5 4 3 2.5 3.5 Czas[si Mówca nr 3

ł~:

1

~

1.5 2 25 3 3.5 4 4.5 5 5.5

l

Czas [sI

Ryc.11.Przebiegi czasowerozdzielonychsygnał6wmowy trzech mówców

Ryc.11.Timeplotsotaeconvotuteaspeechsignals ot threespeakers

Mówca nr1 ~aooo ~6000 o ~ 4000

~

2000 e-~ O o 0.5 1.5 2 2.5 3 3.5 4 4.5 5 5.5 Cza s(sI Mówcanr 2

g

aooo

~ 6000 o .~ 4000

~

_.,.

2000 ~ O o _0.5 1.5 2 2.5 3 3.5 4 4.5 5 5.5 Cza s [sI Mówca nr3 ~8000 ~6000

.

~

4000

~

_.,.

2000 ~ O

o

0.5 1.5 2 2.5 3 3.5 4 4.5 5 5.5 Czas [sJ

Ryc.12. Spe ktrogramyrozdzielonychsyg nałówmowytrzechmówców

Ryc.12.Spectrogramsotdeconvoluledspeechsignals ot three speakers

(12)

al

c)

b)

d)

RYC.13.Porównanie wykresówpanoramy(a. b) orazcharakterystyk fazowych (c,dldladwóchnagra ństereofonicznych: nagraniabędąceg o miesza niną

dwóch zapisówmonofonicznych(a.c) orazzarejestrowanegozapomocąparymikrofonów(b,d)

Fig. 13.Compa risonotpanorama plots(a.b)and phaseptots(c.d)o/Iwostereorecordings:made by usingconvotateamixture otIwosingle channef re

-cordings(a.ejandmadebyusingIwomicrophones(b. d)

krofonów O charakterystyce dookólnej (ustawienie mówców: -600 _o_{raz +20}0 _{od osi}_m_{ikrofonów). W o}

by-dwuprzypadkachsubiektywnewraż enia przestrzenne i lokalizacja mówcówbyły zbliżone.

Mającna uwadzeinnymodel tworzenia mieszaniny

sygnałów, można zastosowaćalgorytm analizyskłado

wychniezależnych zpodziałemczęstotliwości (FD-ICA

- FreąuencyOomain Independent ComponentA

naly-sis).Sygnałwejściowyzkażdego ka nałunal eżyzatem

podzielić na ramki zwykorzystaniem funkcji okna (np.

Hanninga), anastęp n ie wyznaczyć dysk retną tr

ansfor-macjęFouriera dlakażdegozestawu próbek.Podobnie

jak w przypadku opisanego wcześniej rozwiązania ,

wektorywartościczęstotliwościdlakażdejchwili czasu poddajesięoperacjicentrowania iwybielania. Następ

nie stosowany jest adaptacyjny algorytm iteracyjny, który wyznacza wartości macierzy separacji W(~ dla

każdej grupy danych "czas-częstotliwość" w taki

spo-sób,aby maksym al izować negentropi ę. Wzóropis ują

cy sposób modyfikacji wartości wektorów macierzy

W( ~jestnastępujący[19]:

w

+

=

w

( E{g ( lwH

X

wIZ)

+

(l

w

HXw

IZ)g'(l wHX

wIZ)})

(13) .

-

E{g (lw

ll

X

_w

12)

(X~

w)X

w).

PROB LEMYKRYMINALISTYKI273(3) 2011

Podobnie jak w poprzednim rozwiązaniu, wektor

w po każdej iteracji jest normalizowany, aby spełnić warunekIw2₁₌_1._{W c}_elu_z_{większen ia}_lic_zby_sepa

rowa-nych żródeł obliczenia należy rea lizować osobno dla

każdejskładowejw"...,Wn.Konieczna jestta kżede ko-relacja wyników pokażdej iteracji. Dokładność algoryt-muzależnajest odzastosowanej niekwadratowejfunk

-cji nieliniowej G.Opróczwariantów(10) oraz (11) cie -kawe własności mają uogólnione dystryb ucje gaus-sowskie (GGD)opisanew[19].

Każdywiersz macierzy separacjiodpowiada wek to-rowi separacji dlaróżnych źródeł, Kolejność wystę po wania wierszy macierzy W dla każdego zakresu czę

stotliwościjestró żna,jednakżew celu realizacji proce-su rozdzielania mieszaniny sygnałów istotne jest za

-pewnienietakiego samego rozmieszczenia i upo rząd

kowania wektorów separacjidlakaż deg o źródławkaż

dym zakresie częstotliwości. W tym celu stosuje si ę

metodę poleg aj ąca na wyznaczaniu modelu k

ierunko-wego(OP- Oirectivity Paltem) oraz kierunku,z k tóre-go dociera sygnał (DOA - Oirection Ot Arriva~.

Wzwiązku ze"ślepym" charakteremalgorytmu wa

rto-ści te muszą być estymowane dla każdego zakresu

częstotliwości napodstawiezermacierzy W,którewy

-stępuj ą na pozycjach odpowi adaj ącyc h kierunkowi, zjakiego odbieranyjestsyg n ał [20].

(13)

Opisany aigory tm postanowiono przetestować,

wykorzystuj ąc w tym celu stereofoniczne nagranie

jednocze snyc h wypowiedzi dwóch mówców za

reje-strowane w pom ieszczeniubiurowym zapom ocący

-frowego rejestratora DAT oraz dwóch mikrofonów o charakterystyce dookólnej (ustawienie mówców:

-600 _{oraz +20° od osi mikrofonów)}_._Zapisu

dokona-no z częstotliwością próbkowania równą 44,1 kHz.

Na rycinie 14 przedstawiono przebiegi czasowe stworzo nego nagrania, natomiast na rycinie 15 za

-mieszczono spektrogramy dlaposzczególnyc hkana -łów. Nagrani e podzielono nabloki odłu g ości 10ms, poczymwyznac zono512- p u n ktową dyskretnątr

ans-formację Fouriera z wykorzystaniem okna Hanninga.

Jako funkcję ni el i n i ową przyjęto wyb ra ną w [20]

uogó ln i oną dystrybu cj ę gau ssowską(GGD). Na ry

ci-nie 16 przedstawiono przebiegi czasowe sygnałów

mowyposzczegól nych mówcówpoprzeprowadzonej operacji separacji,natomiastna rycinie 17 ich spek-trogramy. Z kolei na rycinie 18 zaprezentowano wy-kresy przedstawiające efekt wyznaczania modelu kierunkowego macierzy separacji (każda linia odpo

-wiada jedne mu prąż kowi widma). Czerwonymi

gwiazdkami naosiodciętychzaznaczono wynik

esty-macjirozmieszczen iamówców w przestrzeni:ok.52°

wlewoiok.24° w prawo. .. 0.5 'O

"

.

.,

Ci E

-c

-05 1 .. 0.5 'O ~ Ci E

-c

-0.5 1.5 1.5 2 2 2.5 2.5 Ka nałlewy 3 35 Czas [s] Ka n ałprawy 3 3.5 Czas [s] 4 4 4.5 4.5 5 5 5.5 55

Ryc.14. Przebiegi czasowe zarejestrowanychzapomocądwóchmikrofonówsygnałówmowy dwóch mówców

Fig.14.Timep/ots ot speechsignalsottwospeakers recordedby usingtwo microphones

Kanałlewy 'N

sooo

I ~6000

..,

o

.

i!:

4000

~

2000

e-'"

o

O 2 25 3 3.5 4.5 5 0.5 1.5 4 Czas [s] Kanałprawy

i

aooo

ii

6000 o

1

4000

*

_e-2000

• '"

O

o

0.5 1.5 2 2.5 3 35 4 4.5 5 Czas [s]

Ryc.15. Spektrogramy zarejestrowanych zapomocądwóch mikrofonówsygnałówmowydwóch mówców

Fig.15.Spectrogramsotspeech signals ot two speakersrecoraeaby using twomicrophones

(14)

Mówca nr1 m "O ~ . ~ C. E -c-0.5 1.5 2 25 3 3.5 4 4.5 5 55 Czas[s] Mówca nr2 m 0.5 "O ~ .~ C. E -c-05 1.5 2 2.5 3 3.5 4 4.5 5 5.5 Czas (s]

Ryc.16. Przebiegiczasowe odsepa rowanychsyg n ał ówmowy dwóch mówcó w Fig.16. Time p/ots ot separated speech signa/sottwa speakers

Mówcanr1 5 4.5 4 3.5 2.5 3 Czas [s] Mówca nr 2 2 1.5 05 ,,8000 I ~6000 o ~ 4000

~

2000

5"

O

L..:liżJ,!-~._.&.A..~"_~...JIlII!'~_~""""

-"I:

""'U"'o....J"""""'....,j~

_

5 4.5 4 3.5

•

2 2.5 3 Czas [s] 1,5 ł 0.5

Na

ooo

I ~6000 o .~ 4000

~

2000'

5"

O

'

-

"""

~

,":"::":

=-

~"",,,,,,

,:,,,,::

:;:.o"'

,,,::""'-"

'7

-:--

~::"

~

--:

:-:-'='

~

""""

-

'"""'

''"':

=

-

"'-:

'''''

-Ryc .17.Spektrogramy odseparowanychsyg n ałówmowy dwóch mówców

Fig.17. Spectrograms ot separated speech signa lsotIWospeakers

80 100 Pierwszymówca Drugi mówca 60 40 -20 O 20 40 DCA[stopnie]

Modelkierunkowymacierzy separacji powyskalowaniu

-80

Model kieru nkowy macierzy separacjiprzed wyskalowaniem

~

20

1 --;:::;;:;;;;;;;;~:;::=:;;;:sli:iii

==;:== = =;===il ,0 ~ O

g

E

!:

-20_-₁₀₀~---c":----c"C--<-":----c=---o--~-"=--"=--"=---'-! 80 100 Pierwszy mówca Drugi mówca 60 40

2

0

O DCA [stopniej -20 -40 -80 iii 20, .- --,-- - --r- - -.---- .,-- ---c, -- -,.- - - ,- --r= === = 'c==;J ~

Ryc.18.Wykresyprzedstawiającemodelekierunkowe macierzyseparacji(niewyskalowany oraz wyskalowany)wraz z wynikiem estymacjikierunku.z któ-rego docierasygnał(czerwone gwiazdki).Rejestracjidokonano zapomocądwóch mikrofonów

Fig. 18.Direetivitypatternsot separationmatrix(unsca/edand scstea) with esumetton ot directionotarriva/ (redasterix).Recording wasmade by using twa microph ones.

(15)

Modelkierunkowymacierzyseparacj iprzed wyskalowaniem

100 80

-60 -40 -20 O 20 40 60

DOA[stopnie]

Model kierunkowymacierzyseparacjipo wyskalowaniu

-80 iD 40, - --,,--- --,- - ---,- - ---.-- - ---,- - -,-- - ---,- ---r= =;:== = =;====;l ~ .~ 20 .!!!

g

O

E ~ _20' - -- -'--- --'--- -'--- --l.-- -.-L_ --,L- ---Jc ----,-'--- .,e---,J -100 -80 -60 -40 -20 O DOA [stopnie] 20 40 60

Pierwszymówca

Drug i mówca

80 100

RYC.19. Wykresyprzedstawiającemodele kierunkowe macierzyseparacji(niewyskalowanyoraz wyskalow any)wraz z wynikiem estymacji kierunku.z k

tó-rego dociera sygnal (czerwone gwiazdki).Nagraniejestmieszaninądwóchzapisów monofonicznych

Fig.19. Directivityoenemsotseparation matrix(unscaled and scaled)with estimst ion ot direction otemvet (redasterix). Recordingis the convotatea

mi-xture otrwosinglecnsrmetrecordings

Podobn ą symuiację przeprowad zono takżedlana

-grania będącego mieszaniną dwóch zapisów mo

nofo-nicznych (60%w lewo o 20%w prawo- ryc.19). Zgod-niez oczekiwaniamiwyznaczony kierunek ODA byf

bli-ski00,pon ieważw tym przypadku niewystępuje

prze-sunięciefazy międzykanafami.

Podsumowanie

Nagrania stereofoniczne stanowią mniejszość

wśród materiafów dowodowych nadsyłanych do b

a-dań, jednakcorazwiększa dostępnośćdyktafonów

wy-posaż o nych w dwamikrofony może przyczynić siędo

szybkiej zmiany tego stanu. Rośnie liczba dżwięko

wychsystemówwielo kan ałowych znajduj ących

zarów-no zastosowanie komercyjne (np . urz ądzen i a głośno

mówiąceinstalowane w samochodach), jak również w

sprzęcie specjalistycznym (np.układy śledzenia m

ów-cy podczas konferencji czy zaawansowane systemy

monitoringu instalowane podczas wielkich imprezm a-sowych). Nawet w telefonachkomórkowychinst

alowa-ne sąaplikacjebazującenafiltracji adaptacyjnej,które

umożliwiają wykorzystanie dwóch mikrofonów w celu

tfumienia zakłóceń podczas prowadzenia rozmowy. Wszystko topowinnoprzyczyni ć siędowiększego za -interesowania zarówno wielo ka nałowymi technikami

redukcjiszumu, jakiukładam ipozwalaj ącymina sepa

-rację głosówposzczególny chmówcówtłumie .

PRZYPISY

1Sygnałyaddytywne to takie,któremożnazesobąłączyć

(sumować).

2Przyjmujesię,że sygnałmowy jest w przybliżeniu s ta-cjonarny,gdy analizowane segmenty mają długośćok.

20-30milisekund.

3Długookresowewidmo mocyszumubiałegojestpłaskie.

4Rozróżnia się filtry FIR (Finite fmpufse Response)

oskończonejodpowiedziimpulsowejoraz filtrytypu liR

(fnfinite ImpulseResponse) onieskończonejodpowiedzi

impulsowej.

5Rząd filtru określa złożoność układu ; im większy rząd, tym więcej współczyn nikówielementówopóźniających

tworzyfiltr.

6Sygnałharmonicznytosygnał,którymożna opisać

funk-cją sinusoidalną.

BIBLIOGRAF IA

1.Kuo S.M.,Lee B.H.,lian

w

.

:

Real-lime DigitalSignal Processing- Implementations and Applications,John Wiley & Sons L1d., England, Chichester,West Sussex, England

2006.

2.Vaseghi S.V.:Advanced DigitalSignal Processing and

NoiseReduction,JohnWiley&SansL1d.,England,C

hiche-ster,West Sussex, England2006.

(16)

3. Suzuki H.,Igarashi J. andIshii Y.: ExtractionofS

pe-ech in Noise by DigitalFiltering, "J. Acoust, Soc.ot Japan"

Aug.1977,Vol. 33,No. 8,pp.105-411.

4.Curt isR.A.,Niederjohn R.J.:An Investigationof

Seve-raiFrequency- Domain Methods for Enhancingthe

lntetllql-bility ot Speech in WidebandRandom Noise,ICASSP,April

1978,pp.602-605.

5. BoliS.:Suppression ot acoustic noise in speechusing

spectralsubtraction,IEEETransactionson AcousticsSpeech

andSignal Processing,ASSP-27(2 )pp.113-1 20,1979.

6.Berou t l M" SchwartzR.,Mak houl J.:Enhancement ot

speech corrupted by acouslic noise, IEEEICASSP'79, Wa

-shington 1979,pp.208-211.

7.Ep hraim Y. and Malah O.:Speech enhancement using a minimummean-square error short-time spectraIamplitude

estimator,IEEE Transactions on Acoustics, ..Speech, Signal

Process ing"Dec.1984,vol.ASSP-32,no.6,pp.1109-1121. 8. EphraimY.and Malah O.:Speechenhancementusing

a minimum mean square error tog-spectral amplitudeesti

ma-tor,IEEE Trans.on Acoust., ..Speech,Signal Processing"Apr.

1985,vol. ASSP-33,pp.443-445.

9. ScalartP. andVieira·FilhoJ.:Speech enhancement

based on a priori signal to noise estimation, 21st IEEE tnt.

Conf. Acousl. SpeechSignal Processing,Atlanta,GA,May

1996,pp.629-632.

10.Marti n R,:Speech Enhancement Using MMSEShort

Time Spectral Estimation with Gamma Oistributed Speech

Priors,IEEE ICASSP'02,Orlando,Florida,May2002 .

11. cchen 1.:Speech Enhancernent Using a Noncausal

A PrioriSNR Eslimalor,IEEE SignalProcessingLetters,Vol.

11,No.9,Sep.2004,pp.725-728 .

12.Hay kl n 5.:Adaplive FilterTheory,Prentice-HallInler

-national,Inc. USA,1991.

13.Rutkowski L.:Filtryadaptacyjne iadaptacyjne

prze-twarzanie sygnałów,WNT,Warszawa1994.

14.ZielińskiP.:CyfrowePrzetwarzanieSygnałów,odt eo-riidozastosowań,WKŁ,Warszawa2007,s.205.

15. Bronkhorst A.W.:The CocktailParty Phenomenon: A Review ot Researchon Speech Intelligibillity in Multiple-Ta l-ker Cond itions, Acustica- acta acust ica 2000. Vol. 86, pp.

117-128.

16. Hy vari nen A.and Oja E.: A Fast Fixed-PointAlgor

i-thrn for Independent Component Analysis,.Neural

Cornputa-tion" 1997,9(7),pp.1483-1492.

17. Hyvari nen A.: Fast and Robust Fixed-Point Algori

-thms for Independent Component Analysis, IEEE Transac

-lionsonNeuralNelworks10(3),pp.626-634,1999.

18. Hyvari nen A. and Oja E.: Independe nt Component Analysis: Algorithms and Applications, "Neural Networks"

2000,13(4-5),pp. 411-430.

PROBLEMY KRYMINALISTYKI 273(3)2011

19. Prasad R.,Saruwat arl H.,Shikano K.:BlindSepar

a-tion of Speechby Fixed-Point ICA with Source Adaptive N

e-gentropy Approximation, IEICE Trans. Fundamentais, Vol.

E-88A(7),2005.

20.PrasadR.,Saruwatar l H.,Lee A.,Shikano K.:A F

i-xed-Poinl lCA AlgorithmforConvoluledSpeech Signal Sep

a-ration,4th InternationalSymposiumon IndependentC ompo-nentAnalysis andBlind SignalSeparation(ICA2003),2003, Nara,Japan.

Streszczenie

Wpracynakreślono problemredukcjiaddytywnego szumu

izakłóceń w "agraniachjedno-i wielokanałowych orazwyja

-śnionozasadędziałan iaalgorytmówdetekcji mowyiwidmowej

redukcji SZJl11111.Opiscno metodyfiltracjiadaptacyj"ej,które

mogą zostać wykorzystane do poprawyzrozumiałości mowy

wmiejscach, wktórychstosoioa nesągeneratory szumuizakłó

reti.Przedstawionotakżetechnikiślepejseparacji,któresto

so-wanesą w celu oddzielaniagłosówmówcówzmieszanin re

je-strowanych przez dwa lubwięcejmikrofOlIÓW.PonadtoOpiS0110

techniki mm/izyskładowych niCZflleżnychwraz

z

metodamiwy

-znaczanta modelukierunkowegoiestymncjąkierunku,

z

którego

docieradźwięk. Powyższe rozwiązaniazostalyomówionewk

on-tekściepoprawyjakości"agrari,a efektyichdzia łania

zaprezen-towanow postaciwykresów.

Slowa kluczowe:korekcjanagrań, nagrania wielokanało

we,filtracjaadaptacyjna,efektcocktail party, ślepa separacja

źródeł,analizaskładowych niezależnych,TCA.

Summary

The paper addresses UIC problem of additive noise and

disiurban cc rcduction in single and multichannel audio

recordings.Jtexplainsseveral algorithms forspeechdetection

and speetralsubtractionofnoise.Itdescribesadaplivefiltering

metho ds, whieh can be used for speech intelligibility

enharlcemm t in noisyentnronments uhere noisy xeuerators are

used. The paper intrcduces ałso blind sourcr separation

methods, used in order to extraet speakers' uoice[rotn

contoluted mixtures recorded by two or more micropnonce. Furt her, it describes independent comp oncnt a1w!ysis

teclmiques unth directivity pattern compumnon and arrioat

dircetum estimation.Tncpaper prcsentsthedcscribcd toolsin

the context of audio enhancement, Thcir efft'etiVerlCSS is

presented011sample p/ats.

Keywords: audio enhuncentent, tnultichennel audio

recordings, adeptite fittrotion, cocktail party puenomenou.

blindSOllrct'scpamticn, independent component analysis,/CA .