Rafał
K
orycki
Wielokanałowe
t
echniki korekcj
i
nagrań
fonicznych
w krym
inalistyce
gdzie
n
oznacza indeks czasu dyskretnego,czyli nu-mer próbki sygnału. W większości przypadków przyj -mujesię, że sygnałmowy niejest skorelowany z szu-mem.Ma to jednak uzasadnienie wówczas,gdy sygna-ły użytecznyizakłócającygenerowanesąprzez nieza -leżn e żródła.Jednaznajprostszychmetod pozwalają ca na poprawę jakości nagrań mowy została szeroko opisana w literaturzejuż trzy dekady temu [3,4,5,6].Torozwiązaniesprowadzasiędoodjęciaestymaty w id-ma szumuz widmasygnałumowy,przyrównania ujem-nychróżnicdo zera,odtworzenia nowego widma z ory-ginalną wartością przesunięcia fazowego oraz rekon-ści znich moż na wyróż nićwspólnerozwiązania [1,
2J
.
Pierwszym etapem przetwarzania jest segmentacja,czyli podział sygnału na fragmenty o długości ok. 20-30 milisekund,anastęp n i e mnożenieich przeztzw.
funkcjęokna (np.Blackmana,Hanna itp.). Tak p rzygo-towane segmenty poddajesiędyskretnejtransformacji
Fouriera w celu otrzymania próbek widma. Kolejnym etapem jest tworzeniemodeli szumu.Istotnejest,aby algorytm"wiedzi ał"conależy usunąćw celu z apewnie-nia skutecznego odtworzenia syg nału użytecznego. W większości komercyjnych aplikacji stosowane są dwa rozwiązan ia : detekcja automatyczna oraz ręczn e pobieraniepróbek widma szumu.Pierwsze z nichpo le-ga na zastosowaniu systemów rozpoznawania mowy,
pon i eważwyznaczanie modelusyg nałuzakłócająceg o mamiejscew przerwach między wypowiedziami. Dru-gierozwiązaniewymagaodużytkowni kas amodzielne-go zaznaczenia fragmentu nagrania,w którymwystę pujewyłącznie syg n ałzakłócaj ący.Wyznaczenie es ty-maty widma mowy niezakłóconejto kolejnyetap reali-zowany przeztypowy system redukcji szumu.K oniecz-na jest wtym przypadku modyfikacja widmasygnału wejściowego stosownie do estymowanego stosunku sygnałudo szumu dlakażdej dyskretnej wartości czę stotliwości.Ostatnimetapemjest wyznaczenieodw rot-nej transformacjiFourierai odtworzenie fazysygnału.
Przyjmując założenie,żesyg nał mowysin) oraz sy -gnał szumu w(n)są addytywne
1,
"zaszumione" na gra-niemoż na opisać wnastępującysposób:Wstęp i cel pracy
Nagrania monofonicznestanowią wi ę kszość wśród materi ałównadsyłanychprzezzleceniodawcówdo b a-dań. Jed nokanałowe techniki redukcji szumu wydają się byćzatemnajbardziejupowszechnionewśród e ks-pertów z zakresu inżynierii dżwięku ifonoskopii. R oz-wiązaniatezal eżąod statystycznychmodelisyg nałów zakłócających, które mogą być estymowane wczasie brakuaktywnościmówcy lubtworzone i modyfikowane przezużyt kownika.Pomimowielulatbadańnad jedno
-kanałowymi systemami korekcji nagrań wciąż zdarza się, że efekt ichdziałan i a pozostaje niezadowalający. Wystarczy jednak uzyskać troch ę dodatkowych i nfor-macji natematsygnału zakłócającego, bymoż liweb y-ło zastosowanie całego arsenału środ ków technicz
-nych.Wartomiećtona uwadze,ponieważcoraz więk sza dostępnośćiduża popularność przenośnych reje-stratorów cyfrowych wyposaźonych w dwa mikrofony moż e przyczyn ić się do zmniejszenia liczby m onofo-nicznych nag rań przekazywanych do badań w ciągu kilku najbl iższych lat.
Celem niniejszej pracy jest krótkie omówienie kla-sycznych technik redukcji szumu i zakłóceń oraz przedstawienie rozwiązań, które mogą okazać się przydatne podczas analizy nagrań wielokanałowych. Zaprezentowanezostanątechnikifiltracji adaptacyjnej, które pozwalają na redukcję syg nałów zakłócających generowanych w celu zapewnienia poufności prowa
-dzonych rozmów. Przedstawione zostaną także a lgo-rytmy umożliwiające rozdzielanie jednoczesnych wy-powiedzimówców, comaniebagatelne znaczenie pod
-czas analizy nagrań rejestrowanych w dużych s kupi-skach ludzkich. Wszystkie opisane algorytmy zostały zaimplementowane i przetestowane,a wyniki symulacji zaprezentowane w postaci przebiegów czasowych ispektrogramów.
Jednokanalowe techniki poprawyjakości nagrań Systemy redukcjiszumuznacznieróżni ą sięod sie -bie zarówno podwzg lęd e m złożoności, jak i efektyw -ności, któraprzekłada się bezpośrednionastopień po-prawyzroz u m i ałościprzetwarzanej mowy. W
większo-yln )=si n )+wili) (I),
O(w )=P,(w)- PN(w ),
strukcji przebiegu czasowego syg nału. Proces można
opisaćwnastępujący sposób:
ps(w)jest tu widmemzakłóconego sygnału wejścio
wego,P";"w)stanowiwygładzonąestymatęwidma szu-mu, natomiast P~(w ) jest zmodyfikowanym widmem
sygnału. P";"w) otrzymuje się w dwóch etapach. Naj-pierw uśredniane jest widmo szumu z kilku kolejnych segmentów sygnał u, w których nie występ uje sygnał mowy,a następ nie tak otrzymane widmo jest wygła dzane[5J.
W przypadku większościmetod poprawy jakości
sy-gn ału mowyprzyjmujesię założen ie, żewidmo
sygna-łu zakłóconego jest równe sumie widm sygnału orygi-nalnego oraz szumu.Założenieto jest prawdziwe jedy-nie w sensie statystycznym imoże być spełnione przy zastosowaniuwidma wyznaczonegoz wykorzystaniem krótkiego okna2.Ze względu na fakt,że sygnałmowy orazsygnał zakłócającyniezawszespełniająwarunek braku wzajemnej korelacji, niektóre składowe Pslw)
mogą być ujemne.Wzwiązku z powyższym przyrów-nywane sądo zera [3,4,6].
Poważnymmankamentemopisanejmetody jest po-wstawanie tzw. szumu muzycznego, który może być
subiektywni eodbierany jako dzwonienie lubświergota nie.Wynika to zwystępowaniaszczytów i dolin w krót-kookresowymwidmie szumu białeg03. Ich amplituda i
położenie w dziedzinie częstotliwości mają charakter losowyizmien iająsięz ramkinaramkę.Poodjęci u
wy-gładzonejestymaty widma szumu z bieżącego widma szumu,wszystkie maksimawidmowe są redukowane,
podczasgdyminimasązerowane (2).Wefekcie p
oja-wiają się fluktuacje obwiedni widma szumu. Szersze maksima odbieranesąprzezsłuchaczajakowąskopa
smowy syg nał szumu.Węższe natomiast brzmieniem
przypominają sygnały tonalne o częstotliwościach zmiennych
w
czasie, które można określić mianem szumu muzycznego.Jest to jeden z najczęściejpoja-wiających się efektów podczas korzystaniaz popular -nychaplikacjisłużących do redukcji szumuizakłóceń.
Jednąz metodminimalizacjitegozjawiska jestrozwią
zanie zaproponowane w [6]: O(w )+G[PI(w) - aI~(w)]
P's('")
=
{Ol(w),jeś
li
Ol(w)>fiPN(w) fiPN(w),w
illIl ylll przypadkuZarówno syg nały mowy,jak iza kłóceni a mog ą być rejestrowan e zapomocąwielu sensorów,poczym pod -dawane sąfiltracji.Wykorzystywany jest fakt,żenawet w przypadku niewielkich odległości między poszcze-gólnymi mikrofonami docierające do nichsygnały róż niąsięod siebiepodwzględem natężeniaoraz charak-terystykiczęstotliwościoweji fazowej.Redukcjazakłó ceńw systemachwielokanałowychjestrealizowana na
podstawie zarówno samegosygnału użyteczn eg o, jak
izakłócającego . Istotnajestrównież szyb kość a
dapta-cji (przystos owania) współczynn i ków stosowanych fi
l-trów dozmieniającychsięwarunkówakustycznych.
Projektowanie filtrów cyfrowych polega na doborze struktury4, rzędu5 oraz wartości współczynników. Tak stworzony układ cechuje sięodpowiedn ią c haraktery-styką cz ęstotliwościową, dz i ęk i czemu um o ż l i wi a wzmacnianie lubtłumieni e okreś l onych zakresówcz
ę-Zalecasiętu zachowanienastę p uj ącyc hwarunków: a '" l,O<
fi
« 1;gdziea jestwspółczynni ki em r eduk-cji, natomiast współczynnikfi
jest związany z pozio-mem progowym widma.Dzięki tym parametrom możli wa jestzarówno lepsza redukcja szerszychmaksimów,
jak i zmniejszenie głębo kości minimów obwiedni. P o-nadtoyjestwspółczynnikiemredukcjiwidmamocy, na-tomiast Gwspółczyn ni kiem normalizacji[3,
4J.
Wśród algo rytmów poz wal aj ą cyc h na znaczne
zwiększenie wydajności rozwiązań polegających na odejmowaniu składników widma znajdują się B ay-esowskie metody estymacji widma amplitudowego. Wykorzystujesięw nichfunkcjegęstościp
rawdopodo-bieństwa sygnału i szumu oraz minimalizuje koszt
funkcji błęd u.
Jako przy kład praktycznej realizacji opisywanych rozwiązań zaprezen towa no wyniki implemen tacji trzech wybranych algorytmów redukcji szumu, w któ-rych zastosowanoautomatycznądetekcję sygnału mo-wy.Wypow iadane zdanie zostało zakłócone szumem
różowymowartościskutecznej równej-6dB.W pierw-szej z prezentowanych metod zastosowano estymację
minimalnego śred niego błędu kwadratowego kr ótko-czasowego widma amplitudowego [7,8] (ryc. 1b oraz
2b).Pozostałe dwa rozwiązania wykorzystują
estyma-cjęa priori stosunkusygnałudo szumu przedstawione -go przez Scałarta i Vieira-Filho [9J (ryc. 1c i 2c) oraz opisanego przezCohena
[
l l J
(ryc.1di2d).W przypad-ku pierwszego rozwiązania można było zauważyćnie-wielką poprawę jakości nagrania przy minimalnych zniekształce niac h wprowadzanych przez program. Najlepszeefekty uzyskano,stosującdwieostatnie me-tody,jednakże w przypadku zilustrowanym na rycinie te i2cwyrażniesłyszalnyjest szum muzyczny(ryc.2).
Filtracja adaptacyjna (2). (3). ji'ś/iO(w)>O UJinnym przypadku P;(w) ={O(w) , O, PROBLEMYKRYMINALISTYKI273(3) 2011 25
1.5 1.4 1.2 1.3 Czas (s] 1.1 1.5 1.4 1.2 1.3 Cza s(s] a) b) 0.15 0.1
•
0.05•
•
li!. •• "....
u .~ o. O ~.,..,.
'
!ł.{l.OS l' "..
-o.
t
1.1 1.2 1.3 1.4 1.5 1.1 1.2 1.3 1.4 1.5 Czas{5] Czas [s] e) d) 0.15 0.1•
u,
::= 0.4, -- - - , 0.4, -- - - -,Ry c.1.Porównaniealgoryt mówpop rawyjakościsygnałumowy.Przeb iegi czasoweprzedstawiają
a)sygnałmQwIzakłócon ej(cz ęstotliwośćpróbk owania 16 kHz,poziom addytywnegoszumuróżowego-6dB), b)sygnałpokorek cjizwykorzystaniem algorytmu opisanegow17,aj.
e)syg n ałpo zastosowaniumetodyopisanej'łoi[91. d)sygnatpoko rekc jimetodąprzedstawionąw[11J
Fig.1.Comparison otsinglechannel audio enhancementalgor ithms . Time plotsastonowe:
ajspeechs/gnal corruptedby noise(16kHz samplingfrequency,additivepinknotsetevei -edB), b) speechsignal afterenhancementby algonthmdescribed in[7.8),
c)speech signal alterenhancementbymethoddescribed in[9J, d) speech signal afterenhancementby algorithmdescribedin[11l
źród ło(ryc.1-19): autor
a) b) 6000 6000
"
"
!.6000 !.6000 :.l :.l o o .~4000 .~ 4000~
~
:!r2000 ~2000 u u O O O., O., 1.5 1.5 Czas [s] Czas(s] ci d) 6000 6000"
"
!.6000 !.6000 ~ ~ ~ ~ o o ~4000 .~4000~
I~
~2000--
~2000 u u O-
O 0.5 l.' 0.5 1.5 Czas (s] Czas [s]Ryc.2. Porównanie algorytmówpoprawyjakości sygnałumowy.Spekt rogramyprzedstawiają:
alsygnałmowyzakłócon ej (częstotliwośćpróbkowania16kHz,poziom addytywnego szumurózo weg o --6 dB), blsygnałpo korekcji z wykorzystaniemal
-gorytmu opisanegow(7. 8J,
c)sygnałpo zastosowaniumetody opisanejw (9).
d)sygnałpokorekcjimetodą przedstawionąw [11J
Fig. 2. Comparison otsinglechannelaudioenhancement afgo rithms.Spectrogramsasfo/lows: a)speech signal corrupted by noiee (samplingIrequency16kHz,additive pink noise level-6dB),
b) speech signa/stter enhaneementbyalgorithm deseribedin(7,B], e)speech signal etterenhancement by methoddeseribed in[9], d) speech signaletter enhancementby algorithmdescribedin(11]
stotliwości. W przypadku dokonywania rejestracji w zmiennych warunkach akustycznych istnieje k
o-nieczność dopasowania charaktery styk filtrów do
sy-gnałówzakłócających w takisposób,by możliwa była
skuteczna redukcja tych ostatnich. Filtry adaptacyjne
pozwalają na modyfikację charakterystyk przez au
to-matyczną aktualizację wartości współczynników. Pro-ces adaptacji polega na minimalizacjibłędu między
sy-gnałem wyjściowymasygnałemdocelowym (lubpożą
danym)[12].
Sygnałwejściowyd(n)jestsumąsygnałów użytecz negos(n) oraz zakłócającego w(n). Efektem działania algorytmu jest estymata sygnału zakłócającego. Po
odjęci uod siebie tych dwóchsygnałówuzyskuje się
sy-gnał błędu e(n). W zależności od własności sygnału zakłócającego przybliżeniem s(n) może być sygnał błędu lub sygnał wyjściowy. Proces adaptacji uzależ
niony jest od zastosowanego algorytmu aktualizacji współczynni kówfiltnu.
Algorytmy filtracjiadaptacyjnejstanowią dość li czną
grupę. Dwa najprostszeijedne znajczęściej sto sowa-nych wpraktyce to LMS (Least Mean Squares)i RLS
(Recu rsive Least Squares)[13,14].
Zależności(4) i (5)przedstawiająodpowiednio algo -rytm aktualizacji współczynników filtru metodą "naj
-mniejszejśredniejkwadratowej" (LMS)oraz rekurs yw-ny algorytm aktualizacji współczyn ników filtru metodą
najmniejszych kwadratów (RLS). Wektor w to wektor wartościwagwspółczynnikówfiltru,11jest współczyn ni
kiemszybkościadaptacji,Ryyoznacza macierz autoko
-relacji, natomiast i- peł n i funkcję współczynnika zapo-minania.
Na rycinie nr 3 zilustrowano proces adaptacji ch a-rakterystykifiltru dozmieniającejsięwczasieczęstotli
wości sygnału zakłócającego . Dosygnał umowyd oda-nosyg nałsinusoidalny o liniowo narastającejczęstot li wości w zakresie od 500 Hz do 2 kHz. Nie było k o-nieczne wykorzystanie dodatkowej informacji o zakłó
ceniach. Wystarczyło podanie jakosygnału odnies
ie-nia opóźnionej ojedną próbkę kopii sygnału wejścio
wego.Mimo niewielkiegoprzesunięciaw czasie sygnał
11'(11)= W(II- l)+k(lI)c(lI) (5), r 'R
y
9(n - l)y(n)k
(n)
gdzie: (4), 11'(11+ l)=11'(11)+II/Y( II)C(II)] al bl ci dlRyc.3.Przebiegiczasowe (a.c) orazspektrogramy(b.dl:sygnałumowyzakłóconegosygnałemsinusoidalnymOliniowonarastającej częstotliwości(a,b)
orazsygnałubłędunawyjściufiltruadaptacyjnegopo operacjimarącelna celuredukcję sygnału zakłócającego(c, d)
Fig. 3.Timeplots (a.ej and spectrograms (b.d)ot: speechsigna l corruptedbysine wave with Iinearfrequencymodulation(a.b) and errorsignal on the
outputotadap tive filier atter noise reductionoperation(c.d)
Odległość <:1 m Odległość>1 m O,Sm Mikrofony kierunkowe
1,2
m Mikrofony kierunkowe ~. -
41:...-V
Źródło dźwięku
~ 4:; ~...
V
Źródło dźwięku
RyC.4. Bysun e kpogl ądowyilustrującyrozm ieszc zeniemikrof onówpodczastest uzwykorzystani em gener ator a szum u
Fig.4.Oemonstrativefigure whichdepictsmicrophonespacing during the test withnoise generator
al
ci
---
-bl
dl
Ryc.5. Przebiegi czasowe(a.c)oraz spektrogramy(b,d):sygnał umowyzakłócon egogenerowa ny msz ume m (a.b)orazsyg nałunawyjściufiltru ada pta -cyjneg o(c.dl.Odl e głośćmówcyod mikrof onuwynosi 0,8m
Fig. 5.Time otots(a,ejandsoectroq rems(b,d) ot:speech s/gnalcomuned bygeneratednoise(a.b)andenhanced signal on(heoutp ul ot adaptive filter (c,d).Distance betweenmicrophoneand speaker:0.8m
sinusoidalnyjest bowiem nadal skorelowanyzeswoją kopią.Doobliczeńwykorzystano algorytmLMS.
Przykładem zastosowan ia filtracji adaptacyjnej do poprawy jakości nagrań rejestrowanych za pomocą więcej niż jednego mikrofonu może być próba o dtwo-rzeniatreści rozmowy prowadzonej wpomieszczeniu,
wktórymznajdujesi ę inne żródło dżwięku. Takas ytu-acja może mieć miejsce np.: w restauracji, w której włączonejest radio,czyteż wsamochodzie lub w ka-binie pilotów w samolocie,gdzie generatorem s ygna-łów zakłócających są pracujące silniki. Niekiedy in ter-lokutorzy,chcąc zach owaćpoufnośćprowadzonej roz-mowy,celowo prowad zą ją przy włączonym tele wizo-rze lubstosująrozwiązaniawpostacisystemów o chro-ny akustycznej.Takie systemy mogą być wyposażone w generator szumu lub innychsygnałów zakłócających o intensywności zależnej od głośności prowadzonej rozmowy.Abyrozmówcymoglisięwzajemniesłyszeć, urządzeniatego typuwyposażan e sąwsłuchawkizm i-krofonami.
Na rycinie4 zamieszczono rysunek poglądowy il u-strujący rozmieszczenie mikrofo nów podczas testu z wykorzystaniem generatora szumu.Zastosowano tu dwa mikrofony o charakterystyce kierunkowej(h iperkar-dioidalnej).Nagraniazrealizowano dla dwóch różnych
al
c)
od l egłościod mówcy:0,8m oraz 1,2m oraz od sygn a-łu zakłócającego: 0,2moraz 0,8m.Mikrofonybyłyod -daloneodsiebieo10cm. Zapisudokonanozapomocą przenośn eg ocyfrowegorejestratoraDAT zczęstotliwo ścią próbkowania44,1kHz. Powstępnej analizieuz y-skanych nagraństwierdzono brakwystępowaniawnich jakiejkolwiek informacji lingwistycznej. Wygenerowany szumcałkowicie zamaskował sygnałmowy. W celu wy -konaniakorekcjinagraniaposzczególne ścieżki podda-no synchronizacji, aby zniwelować wpływ opóżnienia syg nału zakłócającego docierającego do poszczegól -nychmikrofonów.Następ nie nagraniapoddanofi~racji adaptacyjnejz wykorzystaniem filtrówkratowych.Na ry-cinach 5 oraz 6 przedstawiono przebiegi czasowe i spektrogramy nagrań żródłowych oraz przetworzo -nych.Dzięki zastosowanej korekcjimożliwe było pelne odtworzeniezapisu prowadzonej rozmowy.
Podczas wykonywaniafiltracji adaptacyjnej n iezwy-kleistotnajestprawi dłowasynchronizacja poszczegól
-nych ści eżek audio.Na rycinie 7 przedstawiono efekt filtracjinagran iarejestrowanego wodległości 0,8m od mówcy zwykorzystaniem tych samych filtrów, jednak-że bezwstępnejsynchronizacji. Tym razem tylko w nie -znacznym stopniu udało się zredukować zakłócenia,
azapis mowypozostał nieczyteiny.
b)
d)
Ryc.6.Przebiegi czasoweoraz spektrogramy:sygnałumowyzakłóconegogenerowanymszumem(a,b) orazsygnałunaWYjŚciufiltru adaptacyjneg o(c, d).Odległoś ćmówcyodmikrofonu wynosi 1,2 m
Fig. 6.Time p/ots(a,ejand spe ctrograms(b, d) ot:speech signalcorruptedby generatednoee (a.b) and enhanced signalonIhe outpu totadaptive filter (c,d).D/stance between microph oneand spe aker:1,2m
a) b)
Rvc. 7. Przebieg czasowy (a) oraz spektrogram(blsygnałumowyzakłóconegogenerowanym szumem.Sygnałzwyjściafiltruadaptacyjnego przyniew
ta-ścwredobranychparametrachsynchronizacji(przesunięcieo1Dmswstosunku do optymalnegopunktusynchronizacji).OdległoŚĆmówcy od mikrolonu wynosiO,Bm
Fig.7.Timeplot(a) and spectrogram(b) otspeechsignal corrupted by generated noise.Enhancedsignalonthe outputo(adap tivetiner wnnoutproper synchronization(10msshiftInreteuonto optimum synchronizatlOn point).Oistance between microphone andspeaker:0,8m
Sepa rac ja źródeł
Nagrania przekazywanedo badań ekspertom z za-kresu inżynierii dźwięku i fonoskopii zawierają wiele komponentów, np.głosykilku mówców, muzykęlub in-ne syg n ały zakłócające. Część z nich uznaje się za niepoż ądanei próbuje się je usuwać lub przynajmniej redukować za pomocą specjalistycznego opro gramo-wania. Dostęp ne narzędzia pozwalają przeważnie na
tiltrację szumulubsygnałówharmonlcznychś. Problem pojawia się w sytuacji,gdy poszczególne wypowiedzi mówców zarejestrowanych w nagraniu zaczynają się na siebie nakładać. Przy zbliźonych barwach głosów uczestników rozmowy może to prowadzić do błędów przy prowadzeniuidentyfikacji wobrębie materiału do-wodowego.Może także uniemoźliwić ekstrakcję osob-niczych cech mówców,co jest niezwykle istotne wp ro-cesie identyfikacji z wykorzysta niem materiału
porów-nawczego.
Rejest racja nagrania zapomocądwóch mikrofonów znacznie ułatwia transkrypcję oraz przypisywanie wy-powiedzi poszczególnym uczestnikom rozmowy. Jest to spowo dowane natural ną zdolnością ludzkiego m ó-zgu do wykonywania przestrzen nej filtracji ikonce ntro-waniasiętylkona wybranymźródle dźwięku(tzw.efekt
cocktailparty) [15].Rejestracja stereofonicz na p rowa-dzona jest najczęściej za pomocą dwóch mikrofonów ustawionych bliskosiebie(np.dyktafon z wbudowany-mi mikrofonami). Dzię ki temu uzyskuje się możliwość subiektywnej lokalizacjiźródeł dźwięku.Każdyz mikro-fonów reje struje sygnały pochodzące od wszystkich mówców, jednakże proporcje między nimi są róż ne . Możnatozapisać w postaci układu równa ń:
30 {
X, (t )
=
UlIs,Ct)+
U12s,Ct)x,(t) = u2Is, (r)
+
U22S,Ct) (6),gdzieall'a'2'a21oraza22sąparametramizależny
mi od odległości źródeł dźwiękuod mikrofonów,
s,
iSzsą źródłami dźwi ęku (sygnałumowy),natom iast
x,
iX2sąmieszaninamisygnałówzarejest rowanymiprzez po -szczególne mikrofony.Przy znanychwartościach para-metrówaijrozwiązani e układ u równańnie stanowi łoby
problemu.Niestety,powyższyzestaw zmie nnych moż na jedynie estymować, co czyni opisane zagadnienie dużobardziejzłoźonym.
Jedną z możliwości rozwi ąza nia powyższego pro-blemu jest wykorzystanie statystycznychwłasnościs y-gnałów s~~do wyznaczeniaparametrówaij- Przyjmuje się, źe rejestrowane składowe są li niową kombin acją pewnych nieznanych zmiennych, przy czym sposób , wjakizostałypołączone, takżeniejest znany.Zakłada się ponadto, że szukane sygnały są niegaussowskie iwzajemnieniezależne,zatem nazywanesą składowy
miniezależnymilubźródłam i.
Separacji syg nałów pochodzących z wielu źródeł moźna dokonać za pomocą metody analizy składo wych niezależ nych (ICA - Independent Component Analysis). Jest to technik a wykorzystywana w wielu dziedzinach, takich jak: przetwarz ani eobrazów, prze -szukiwanie bazdanychdokumentów,ekonometriaczy obrazowanie medycz ne (np. elektroencefalografia). Jest przydatna wszędzie tam,gdziew wyniku pomia-rów otrzymujesięwielesygnałówlubserii danych, któ-renastępnienależyrozdzielić . Powyższyproblemop i-sywany jest terminem ślepa separacja źródeł (BSS
-Blind Source Separation), ze względu na niewielką ilość informacji zarówno o samych źródłach, jak i o sposobie ich połącze nia. Typowe zadania realiz o-wane za pomocą algorytmów ICA to rozplatanie: sy-gnałówmowy pochodzących od wielu mówców (ire je-strowanych za pom ocąwielumikrofonów),zapisówfal mózg owych zarejestrowa nychza pomocąwieluse nso-rów,naklad aj ących si ę sygnałów radiowychdocieraj ą
cych do telefonów bezprzewodowych lub- szczególnie
wprzemyśle- analizarównoległychseriidanych otrzy
-mywanych z wielu czujników [16J.
Metoda analizyskładowych niezależnychjest zatem
statystycz n ą techniką dekompozycji złożonych grup danychnaniezależnepodgrupy.W przypadku gdy dwa zarejestrowane sygnały są od siebie niezależne, tzn. obserwacja jednego z nichniepozwalanaznalezienie informacji na temat drugiego, dzięki ślepej separacji żródef możliwejest rozdzieleniesygnałów tworzących
supe rpozycj ę. Problemopisany równaniem (6) można przedstawić , stosujączapis macierzowy:
rzonejw postaci negentropii J(wTx),którądefiniujesię
następująco:
gdzie H oznacza entropię , natomiast ygauss jest
gaussowską zmien n ą losową o takiej samej macierzy kowariancji jak y.Negentropia jest zawsze nieujemna iosiągazero tylkowtedy,gdy marozkładGaussa. P
o-nadto wariancja wT
x
musibyć ograniczona do jedno-ści, co w przypadku wybielonych danych sprowadza
się do warunku: IIwlJ2 = 1.Jako przykład praktycznej
realizacji może posłużyć algorytm FastlCA, szeroko
opisany w literaturze [18J:
gdzies jest wektoremzawierającym niezależne
sy-gnałyżródłowe,Ajestmacierząmieszającą( kompozy-cji), natom iast x jest wektoremzawierającym zmik so-wanesygnały[15].Istotne jest, aby liczbaobserwowa
-nych składników mieszaniny sygnałów (np. liczba
mówców) była mniejsza lub równaliczbie z
astosowa-nychsensorów (mikrofonów)[17].Można także przyjąć
założenie, że współczynniki kompozycji aij są na tyle
różne, aby pozwolić na wyznaczenie macierzy W od
-wrotnej do macierzy A.Wówczas rozwiązanie
proble-mumiałoby postać:
1.Wybierzwartości początkowe wektora wag
w
2.Niechw+ =E{xg(wTx))- E{g'(wTx))w 3.Niech
w+
=w+
/11
w+łI
4.Jeślialgorytm nie jest zbiezny,przejdźdo2
Zbieżność algorytmu określana jest na podstawie
różnicy międzynowymi (w+)a poprzednimi wartościa
mi wektora w.Wymienione powyżej funkcje
g
orazfi
są pierwszą oraz drugą pochodną niekwadratowych
funkcjiG,które dobieranesąeksperymentalnie,np.:
x
=As{
SI (
t)
=
W
ll Xl (
t)
+
WIZ
X
Z(
t)
Sz(t)
=
WZIXl
(
t)
+
W
zzXz(t )
(7), (8). !(y )=H(ys"'''')- H(y )G,lu)= l/n,/agcosłin,", G2(1I)=-np(-1I2/2 ) g, (II)= tnll"(n ,II), g2(1I ) = 11exp(-u2/2),
(9),
(10),
(11),
Pierwszym krokiem większości algorytmów wyko
-rzystujących metodęanalizy składowych niezależnych
jestwyśrodkowanie danych (centering),tzn.usunięcie wartości średniej E{x}. Operacja wykonywana jest je-dynie wcelu uproszczeniaobliczeńi nieoznacza bra
-ku możliwości estymacji wa rtości śred n iej
separowa-nychsygnałów. Następniedokonujesięwybieleniada -nych (whitening). Przez lin iowątransformację wektora
x
uzyskuje się wektorx
,
któregowa rtości są nieskore-lowane,a ich wariancje sąrównejedności.Wykonanie
takiejoperacji jest zawszemożliwei przyczynia siędo
zmniejszenia liczby parametrów koniecznych do
esty-macji.Jednązczęściejstosowanych metod wybielania
jest dekompozycja wartości własnych macierzy kowa
-riancji[18].
Algorytm ICA
Wyznaczanie składowych niezależnych odbywasię
w sposób iteracyjny.Wkażdejiteracji aktualizowanesą wartości wektorawag w.AlgorytmICA polega na m ak-symalizacjiniegaussowości(nongaussianity)w Tx mie
-PROBLEMY KRYMINALISTYKI 273(3) 2011
gdzie
a
jeststałą dobieranądoświadczalnieimieścisi ęw granicach 1,;
a
s2 (najczęścieja
= 1). W prakty-cetakże wartość oczekiwaną należy zastąpićjej esty-matą wyznaczonąna podstawie odpowiednio dobranej
krótkiej serii danych.Algorytmpozwala na
wyznacze-nie tylkojednejskładowejwT
x.
Abyzwiększyćich licz-bę, obliczenia należy zrealizować osobno dla każdej skład owej
w
" ..
.
,
w
n. W celu przeciwdziała n ia osiąganiu przez poszczególne wektory tego samego maksi
-mum,konieczna jest dekorelacjawyników w,Tx,...,wlx pokażdejiteracji.Możnatoosiągnąć , stosując , np.o r-togonalizacjęGrama-Schmidta [17].
Opisane rozwiązanie postanowiono przetestować
na nagraniu stereofonicznym powstałym przez
zmikso-wanie dwóch nagrań monofonicznych przesuniętych
w panoramie odpowiednio 60% w lewo oraz 20% wprawo.Tak utworzonyzapiszawierał głosy obydwu
mówcówzarówno w jednym,jak i wdrugimkanale,co
znacznie utrudn iało zrozumienie poszczególnych
wy-powiedzi. Dzięki zastosowaniu opisanego algorytmu
możliwe było cał kowite rozdzielenie poszczególnych wypowiedzi (ryc. 8).
al bl
'''''~
•••
•
''. '•.ioo.
"
lo ••
"
• • •
•
.
ci dl
Ryc.6.Przebiegi czaso we(a. c) oraz spektrogramy (b.d):nagraniabędąceg o mieszanin ądwóch zapisów monofonicznych(a, b) oraznagra niapowst ałe gopozastosowaniu algorytmu opisanegow[161
Fig.8.Time p/ots (a. ejand spectrograms(b,d) ot: convo/uted mixtureottwo single channel recordings(a,b)and output recordingafterusing the
algori-lhm describedin[18J
Algorytm ICA z wykrywaniem kierunku lODA)
Opisany powyż ej problem analizy składowych
nie-zal eż n yc h zostałzdefiniowanyprzyzałożeni u, że każ
dyzsensorów (mikrofonów) rejestrujesyg nał miesza-gdziejako Sioznaczono zapisypochodzące od
po-szczególnych mówców.Przebiegiczasowe oraz
spek-trogramydlakażdego zkanałówprzedstawiono na ry-cinach 9 oraz 10.Ta kż ei tym razemmożliwa była peł
naseparacjaposzczegóinychżródeł. Wynikiseparacji przedstawiono na rycinach11 oraz 12.
Naturalnie liczbę mówców w mieszaninie można
zwię kszać, oileodpowiednio rosnąć będzietakże licz-basensorów.Powyż sze założeniesprawdzonodla na-grania trójkanałowego i zapisów wypowiedzi trzech osób,którezostały połączone według poniższejzależ
ności(9):
niny żródeł z zachowaniem różnych proporcji między tymi żródłam i. Odpowiada to wystę powani u macierzy miksującejA (por. równanie(3)oraz(4)). W przypadku ograniczenia liczbyżródeł do dwóchmodelowany sys-temrejestracjimożnaporównaćdostereofoniinatęże niowej, w której lokalizacja żródeł dźwięku następuje
na podstawie różnicy głoś n ośc i między
poszczególny-mikanałam i. Niestety,wi ększośćstereofonicznych
na-grań analizowanyc h przez ekspertów z zakresu inży
nieriidźwięku i fonoskopiitworzonajest z
wykorzysta-niem przenoś nyc h rejestratorów, w których odległości
międzymikrofonaminiesą duże (rzęd u2-3 cm). Skut-kuje to niewielkimiróżnicaminatężeń między poszcze-gólnymikanałami.Taki system rejestracjina leżyzatem
modelować jakostereofonięfazową,w której lokaliza-cja źródeł dźwięku następuje na podstawie róźnicy czasów dotarcia poszczególnychsygnałówdo mikrofo-nów.Różnicemiędzy opisanymi systemamizostały zi-lustrowane na rycinach 13a i 13b,gdzieprzedstawiono wykresy panoramy dla nagrania dwukanałowego bę
dącego mieszaniną dwóch zapisów monofonicznych
(przesuniętychw panoramieodpowiednio60%w lewo oraz20% w prawo - por.ryc.8) oraznagrania stereo-fonicznegobędącegorej estracjąjednoczesnych wypo-wiedzi dwóch osób utrwalonychzapomocą dwóch mi-(12),
{
Kana
l
1
=
0
,6
5
,
+
0
,3
52
+
0,
35
3
K
anal2
=
0
,35,
+
0,7
5
2+
0
,35
3
K
anal3
=
0
,35
,
+
0
,452
+
0,
6
53
Kanał1
ł
;~
1~~-+FE
1.5 2 2.5 3 3.5 4 4.5 5 5.5l
6 Czas [s) Kanał21!l
0
'
2
~
~
~
j
~ O - , , Co ~ -0.2 I _ . ' -0.4 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 Czas [sI Kana/3~
02
_
,
.
,
. • : . 'j
'" Oł
:~:
1~
1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 Czas(sIRyc.9. Przebiegiczasowesygna łówmowy trzechmówcówzmiksowanewe dł ugzal eż n ości(9)
Fig. 9.Timep/atsot speech signa/scomingtramtmeespeakers.mixedasdenotedin equation(9)
Kanał1 ~8000
I
::; 6000 ,~ o ~ 4000~
2000 0>-N O u 0.5 1.5 2 2.5 3 35 4 45 5 5.5 Czas [s) Kanał2 ~8000 ~6000 o .~ 4000~
2000 0>-N O U 0.5 1.5 2 2.5 3 3.5 4 45 5 5.5 Czas (sI Kanal3 ~8000 ~6000 o .~ 4000~
2000 0>-N U O 0.5 1.5 2 25 3 3.5 4 4.5 5 5.5 Czas(sIRyc.10.Spektrogramysygnałówmowytrzech mówcówzmiksowanewedłu g za leż noś ci(9)
Fig.10.Spectrogramsotspeech signals coming tramthreespeekers,mixedas deno/edineaue tkm (9)
Mówcanr1 m 0.5 u .i! O
a
E«
-0.5 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 Czas [sI Mówcanr2 6 5.5 5 4.5 4 3 2.5 3.5 Czas[si Mówca nr 3ł~:
1~
1.5 2 25 3 3.5 4 4.5 5 5.5l
Czas [sIRyc.11.Przebiegi czasowerozdzielonychsygnał6wmowy trzech mówców
Ryc.11.Timeplotsotaeconvotuteaspeechsignals ot threespeakers
Mówca nr1 ~aooo ~6000 o ~ 4000
~
2000 e-~ O o 0.5 1.5 2 2.5 3 3.5 4 4.5 5 5.5 Cza s(sI Mówcanr 2g
aooo
~ 6000 o .~ 4000~
.,.
2000 ~ O o 0.5 1.5 2 2.5 3 3.5 4 4.5 5 5.5 Cza s [sI Mówca nr3 ~8000 ~6000.
~
4000~
.,.
2000 ~ Oo
0.5 1.5 2 2.5 3 3.5 4 4.5 5 5.5 Czas [sJRyc.12. Spe ktrogramyrozdzielonychsyg nałówmowytrzechmówców
Ryc.12.Spectrogramsotdeconvoluledspeechsignals ot three speakers
al
c)
b)
d)
RYC.13.Porównanie wykresówpanoramy(a. b) orazcharakterystyk fazowych (c,dldladwóchnagra ństereofonicznych: nagraniabędąceg o miesza niną
dwóch zapisówmonofonicznych(a.c) orazzarejestrowanegozapomocąparymikrofonów(b,d)
Fig. 13.Compa risonotpanorama plots(a.b)and phaseptots(c.d)o/Iwostereorecordings:made by usingconvotateamixture otIwosingle channef re
-cordings(a.ejandmadebyusingIwomicrophones(b. d)
krofonów O charakterystyce dookólnej (ustawienie mówców: -600 oraz +200 od osimikrofonów). W o
by-dwuprzypadkachsubiektywnewraż enia przestrzenne i lokalizacja mówcówbyły zbliżone.
Mającna uwadzeinnymodel tworzenia mieszaniny
sygnałów, można zastosowaćalgorytm analizyskłado
wychniezależnych zpodziałemczęstotliwości (FD-ICA
- FreąuencyOomain Independent ComponentA
naly-sis).Sygnałwejściowyzkażdego ka nałunal eżyzatem
podzielić na ramki zwykorzystaniem funkcji okna (np.
Hanninga), anastęp n ie wyznaczyć dysk retną tr
ansfor-macjęFouriera dlakażdegozestawu próbek.Podobnie
jak w przypadku opisanego wcześniej rozwiązania ,
wektorywartościczęstotliwościdlakażdejchwili czasu poddajesięoperacjicentrowania iwybielania. Następ
nie stosowany jest adaptacyjny algorytm iteracyjny, który wyznacza wartości macierzy separacji W(~ dla
każdej grupy danych "czas-częstotliwość" w taki
spo-sób,aby maksym al izować negentropi ę. Wzóropis ują
cy sposób modyfikacji wartości wektorów macierzy
W( ~jestnastępujący[19]:
w
+
=
w
( E{g ( lwH
X
wIZ)
+
+
(l
w
HXw
IZ)g'(l wHX
wIZ)})
(13) .-
E{g (lw
llX
w
12)(X~
w)X
w).
PROB LEMYKRYMINALISTYKI273(3) 2011
Podobnie jak w poprzednim rozwiązaniu, wektor
w po każdej iteracji jest normalizowany, aby spełnić warunekIw21=1.W celuzwiększen ialiczbysepa
rowa-nych żródeł obliczenia należy rea lizować osobno dla
każdejskładowejw"...,Wn.Konieczna jestta kżede ko-relacja wyników pokażdej iteracji. Dokładność algoryt-muzależnajest odzastosowanej niekwadratowejfunk
-cji nieliniowej G.Opróczwariantów(10) oraz (11) cie -kawe własności mają uogólnione dystryb ucje gaus-sowskie (GGD)opisanew[19].
Każdywiersz macierzy separacjiodpowiada wek to-rowi separacji dlaróżnych źródeł, Kolejność wystę po wania wierszy macierzy W dla każdego zakresu czę
stotliwościjestró żna,jednakżew celu realizacji proce-su rozdzielania mieszaniny sygnałów istotne jest za
-pewnienietakiego samego rozmieszczenia i upo rząd
kowania wektorów separacjidlakaż deg o źródławkaż
dym zakresie częstotliwości. W tym celu stosuje si ę
metodę poleg aj ąca na wyznaczaniu modelu k
ierunko-wego(OP- Oirectivity Paltem) oraz kierunku,z k tóre-go dociera sygnał (DOA - Oirection Ot Arriva~.
Wzwiązku ze"ślepym" charakteremalgorytmu wa
rto-ści te muszą być estymowane dla każdego zakresu
częstotliwości napodstawiezermacierzy W,którewy
-stępuj ą na pozycjach odpowi adaj ącyc h kierunkowi, zjakiego odbieranyjestsyg n ał [20].
Opisany aigory tm postanowiono przetestować,
wykorzystuj ąc w tym celu stereofoniczne nagranie
jednocze snyc h wypowiedzi dwóch mówców za
reje-strowane w pom ieszczeniubiurowym zapom ocący
-frowego rejestratora DAT oraz dwóch mikrofonów o charakterystyce dookólnej (ustawienie mówców:
-600 oraz +20° od osi mikrofonów).Zapisu
dokona-no z częstotliwością próbkowania równą 44,1 kHz.
Na rycinie 14 przedstawiono przebiegi czasowe stworzo nego nagrania, natomiast na rycinie 15 za
-mieszczono spektrogramy dlaposzczególnyc hkana -łów. Nagrani e podzielono nabloki odłu g ości 10ms, poczymwyznac zono512- p u n ktową dyskretnątr
ans-formację Fouriera z wykorzystaniem okna Hanninga.
Jako funkcję ni el i n i ową przyjęto wyb ra ną w [20]
uogó ln i oną dystrybu cj ę gau ssowską(GGD). Na ry
ci-nie 16 przedstawiono przebiegi czasowe sygnałów
mowyposzczegól nych mówcówpoprzeprowadzonej operacji separacji,natomiastna rycinie 17 ich spek-trogramy. Z kolei na rycinie 18 zaprezentowano wy-kresy przedstawiające efekt wyznaczania modelu kierunkowego macierzy separacji (każda linia odpo
-wiada jedne mu prąż kowi widma). Czerwonymi
gwiazdkami naosiodciętychzaznaczono wynik
esty-macjirozmieszczen iamówców w przestrzeni:ok.52°
wlewoiok.24° w prawo. .. 0.5 'O
"
.
.,
Ci E-c
-05 1 .. 0.5 'O ~ Ci E-c
-0.5 1.5 1.5 2 2 2.5 2.5 Ka nałlewy 3 35 Czas [s] Ka n ałprawy 3 3.5 Czas [s] 4 4 4.5 4.5 5 5 5.5 55Ryc.14. Przebiegi czasowe zarejestrowanychzapomocądwóchmikrofonówsygnałówmowy dwóch mówców
Fig.14.Timep/ots ot speechsignalsottwospeakers recordedby usingtwo microphones
Kanałlewy 'N
sooo
I ~6000..,
o.
i!:
4000~
2000e-'"
o
O 2 25 3 3.5 4.5 5 0.5 1.5 4 Czas [s] Kanałprawyi
aooo
ii
6000 o1
4000*
e-2000•
'"
Oo
0.5 1.5 2 2.5 3 35 4 4.5 5 Czas [s]Ryc.15. Spektrogramy zarejestrowanych zapomocądwóch mikrofonówsygnałówmowydwóch mówców
Fig.15.Spectrogramsotspeech signals ot two speakersrecoraeaby using twomicrophones
Mówca nr1 m "O ~ . ~ C. E -c-0.5 1.5 2 25 3 3.5 4 4.5 5 55 Czas[s] Mówca nr2 m 0.5 "O ~ .~ C. E -c-05 1.5 2 2.5 3 3.5 4 4.5 5 5.5 Czas (s]
Ryc.16. Przebiegiczasowe odsepa rowanychsyg n ał ówmowy dwóch mówcó w Fig.16. Time p/ots ot separated speech signa/sottwa speakers
Mówcanr1 5 4.5 4 3.5 2.5 3 Czas [s] Mówca nr 2 2 1.5 05 ,,8000 I ~6000 o ~ 4000
~
20005"
O
L..:liżJ,!-~._.&.A..~"_~...JIlII!'~_~""""
-"I:
""'U"'o....J"""""'....,j~
_
5 4.5 4 3.5
•
•
2 2.5 3 Czas [s] 1,5 ł 0.5Na
ooo
I ~6000 o .~ 4000~
2000'5"
O'
-
"""
~
,":"::":
=-
~"",,,,,,
,:,,,,::
:;:.o"'
,,,::""'-"
'7
-:--
~::"
~
--:
:-:-'='
~
""""
-
'"""'
''"':
=
-
"'-:
'''''
-Ryc .17.Spektrogramy odseparowanychsyg n ałówmowy dwóch mówców
Fig.17. Spectrograms ot separated speech signa lsotIWospeakers
80 100 Pierwszymówca Drugi mówca 60 40 -20 O 20 40 DCA[stopnie]
Modelkierunkowymacierzy separacji powyskalowaniu
-80
Model kieru nkowy macierzy separacjiprzed wyskalowaniem
~
20
1
--;:::;;:;;;;;;;;~:;::=:;;;:sli:iii
==;:== = =;===il ,0 ~ Og
E!:
-20-100~---c":----c"C--<-":----c=---o--~-"=--"=--"=---'-! 80 100 Pierwszy mówca Drugi mówca 60 402
0
O DCA [stopniej -20 -40 -80 iii 20, .- --,-- - --r- - -.---- .,-- ---c, -- -,.- - - ,- --r= === = 'c==;J ~Ryc.18.Wykresyprzedstawiającemodelekierunkowe macierzyseparacji(niewyskalowany oraz wyskalowany)wraz z wynikiem estymacjikierunku.z któ-rego docierasygnał(czerwone gwiazdki).Rejestracjidokonano zapomocądwóch mikrofonów
Fig. 18.Direetivitypatternsot separationmatrix(unsca/edand scstea) with esumetton ot directionotarriva/ (redasterix).Recording wasmade by using twa microph ones.
Modelkierunkowymacierzyseparacj iprzed wyskalowaniem
100 80
-60 -40 -20 O 20 40 60
DOA[stopnie]
Model kierunkowymacierzyseparacjipo wyskalowaniu
-80 iD 40, - --,,--- --,- - ---,- - ---.-- - ---,- - -,-- - ---,- ---r= =;:== = =;====;l ~ .~ 20 .!!!
g
O
E ~ _20' - -- -'--- --'--- -'--- --l.-- -.-L_ --,L- ---Jc ----,-'--- .,e---,J -100 -80 -60 -40 -20 O DOA [stopnie] 20 40 60Pierwszymówca
Drug i mówca
80 100
RYC.19. Wykresyprzedstawiającemodele kierunkowe macierzyseparacji(niewyskalowanyoraz wyskalow any)wraz z wynikiem estymacji kierunku.z k
tó-rego dociera sygnal (czerwone gwiazdki).Nagraniejestmieszaninądwóchzapisów monofonicznych
Fig.19. Directivityoenemsotseparation matrix(unscaled and scaled)with estimst ion ot direction otemvet (redasterix). Recordingis the convotatea
mi-xture otrwosinglecnsrmetrecordings
Podobn ą symuiację przeprowad zono takżedlana
-grania będącego mieszaniną dwóch zapisów mo
nofo-nicznych (60%w lewo o 20%w prawo- ryc.19). Zgod-niez oczekiwaniamiwyznaczony kierunek ODA byf
bli-ski00,pon ieważw tym przypadku niewystępuje
prze-sunięciefazy międzykanafami.
Podsumowanie
Nagrania stereofoniczne stanowią mniejszość
wśród materiafów dowodowych nadsyłanych do b
a-dań, jednakcorazwiększa dostępnośćdyktafonów
wy-posaż o nych w dwamikrofony może przyczynić siędo
szybkiej zmiany tego stanu. Rośnie liczba dżwięko
wychsystemówwielo kan ałowych znajduj ących
zarów-no zastosowanie komercyjne (np . urz ądzen i a głośno
mówiąceinstalowane w samochodach), jak również w
sprzęcie specjalistycznym (np.układy śledzenia m
ów-cy podczas konferencji czy zaawansowane systemy
monitoringu instalowane podczas wielkich imprezm a-sowych). Nawet w telefonachkomórkowychinst
alowa-ne sąaplikacjebazującenafiltracji adaptacyjnej,które
umożliwiają wykorzystanie dwóch mikrofonów w celu
tfumienia zakłóceń podczas prowadzenia rozmowy. Wszystko topowinnoprzyczyni ć siędowiększego za -interesowania zarówno wielo ka nałowymi technikami
redukcjiszumu, jakiukładam ipozwalaj ącymina sepa
-rację głosówposzczególny chmówcówtłumie .
PRZYPISY
1Sygnałyaddytywne to takie,któremożnazesobąłączyć
(sumować).
2Przyjmujesię,że sygnałmowy jest w przybliżeniu s ta-cjonarny,gdy analizowane segmenty mają długośćok.
20-30milisekund.
3Długookresowewidmo mocyszumubiałegojestpłaskie.
4Rozróżnia się filtry FIR (Finite fmpufse Response)
oskończonejodpowiedziimpulsowejoraz filtrytypu liR
(fnfinite ImpulseResponse) onieskończonejodpowiedzi
impulsowej.
5Rząd filtru określa złożoność układu ; im większy rząd, tym więcej współczyn nikówielementówopóźniających
tworzyfiltr.
6Sygnałharmonicznytosygnał,którymożna opisać
funk-cją sinusoidalną.
BIBLIOGRAF IA
1.Kuo S.M.,Lee B.H.,lian
w
.
:
Real-lime DigitalSignal Processing- Implementations and Applications,John Wiley & Sons L1d., England, Chichester,West Sussex, England2006.
2.Vaseghi S.V.:Advanced DigitalSignal Processing and
NoiseReduction,JohnWiley&SansL1d.,England,C
hiche-ster,West Sussex, England2006.
3. Suzuki H.,Igarashi J. andIshii Y.: ExtractionofS
pe-ech in Noise by DigitalFiltering, "J. Acoust, Soc.ot Japan"
Aug.1977,Vol. 33,No. 8,pp.105-411.
4.Curt isR.A.,Niederjohn R.J.:An Investigationof
Seve-raiFrequency- Domain Methods for Enhancingthe
lntetllql-bility ot Speech in WidebandRandom Noise,ICASSP,April
1978,pp.602-605.
5. BoliS.:Suppression ot acoustic noise in speechusing
spectralsubtraction,IEEETransactionson AcousticsSpeech
andSignal Processing,ASSP-27(2 )pp.113-1 20,1979.
6.Berou t l M" SchwartzR.,Mak houl J.:Enhancement ot
speech corrupted by acouslic noise, IEEEICASSP'79, Wa
-shington 1979,pp.208-211.
7.Ep hraim Y. and Malah O.:Speech enhancement using a minimummean-square error short-time spectraIamplitude
estimator,IEEE Transactions on Acoustics, ..Speech, Signal
Process ing"Dec.1984,vol.ASSP-32,no.6,pp.1109-1121. 8. EphraimY.and Malah O.:Speechenhancementusing
a minimum mean square error tog-spectral amplitudeesti
ma-tor,IEEE Trans.on Acoust., ..Speech,Signal Processing"Apr.
1985,vol. ASSP-33,pp.443-445.
9. ScalartP. andVieira·FilhoJ.:Speech enhancement
based on a priori signal to noise estimation, 21st IEEE tnt.
Conf. Acousl. SpeechSignal Processing,Atlanta,GA,May
1996,pp.629-632.
10.Marti n R,:Speech Enhancement Using MMSEShort
Time Spectral Estimation with Gamma Oistributed Speech
Priors,IEEE ICASSP'02,Orlando,Florida,May2002 .
11. cchen 1.:Speech Enhancernent Using a Noncausal
A PrioriSNR Eslimalor,IEEE SignalProcessingLetters,Vol.
11,No.9,Sep.2004,pp.725-728 .
12.Hay kl n 5.:Adaplive FilterTheory,Prentice-HallInler
-national,Inc. USA,1991.
13.Rutkowski L.:Filtryadaptacyjne iadaptacyjne
prze-twarzanie sygnałów,WNT,Warszawa1994.
14.ZielińskiP.:CyfrowePrzetwarzanieSygnałów,odt eo-riidozastosowań,WKŁ,Warszawa2007,s.205.
15. Bronkhorst A.W.:The CocktailParty Phenomenon: A Review ot Researchon Speech Intelligibillity in Multiple-Ta l-ker Cond itions, Acustica- acta acust ica 2000. Vol. 86, pp.
117-128.
16. Hy vari nen A.and Oja E.: A Fast Fixed-PointAlgor
i-thrn for Independent Component Analysis,.Neural
Cornputa-tion" 1997,9(7),pp.1483-1492.
17. Hyvari nen A.: Fast and Robust Fixed-Point Algori
-thms for Independent Component Analysis, IEEE Transac
-lionsonNeuralNelworks10(3),pp.626-634,1999.
18. Hyvari nen A. and Oja E.: Independe nt Component Analysis: Algorithms and Applications, "Neural Networks"
2000,13(4-5),pp. 411-430.
PROBLEMY KRYMINALISTYKI 273(3)2011
19. Prasad R.,Saruwat arl H.,Shikano K.:BlindSepar
a-tion of Speechby Fixed-Point ICA with Source Adaptive N
e-gentropy Approximation, IEICE Trans. Fundamentais, Vol.
E-88A(7),2005.
20.PrasadR.,Saruwatar l H.,Lee A.,Shikano K.:A F
i-xed-Poinl lCA AlgorithmforConvoluledSpeech Signal Sep
a-ration,4th InternationalSymposiumon IndependentC ompo-nentAnalysis andBlind SignalSeparation(ICA2003),2003, Nara,Japan.
Streszczenie
Wpracynakreślono problemredukcjiaddytywnego szumu
izakłóceń w "agraniachjedno-i wielokanałowych orazwyja
-śnionozasadędziałan iaalgorytmówdetekcji mowyiwidmowej
redukcji SZJl11111.Opiscno metodyfiltracjiadaptacyj"ej,które
mogą zostać wykorzystane do poprawyzrozumiałości mowy
wmiejscach, wktórychstosoioa nesągeneratory szumuizakłó
reti.Przedstawionotakżetechnikiślepejseparacji,któresto
so-wanesą w celu oddzielaniagłosówmówcówzmieszanin re
je-strowanych przez dwa lubwięcejmikrofOlIÓW.PonadtoOpiS0110
techniki mm/izyskładowych niCZflleżnychwraz
z
metodamiwy-znaczanta modelukierunkowegoiestymncjąkierunku,
z
któregodocieradźwięk. Powyższe rozwiązaniazostalyomówionewk
on-tekściepoprawyjakości"agrari,a efektyichdzia łania
zaprezen-towanow postaciwykresów.
Slowa kluczowe:korekcjanagrań, nagrania wielokanało
we,filtracjaadaptacyjna,efektcocktail party, ślepa separacja
źródeł,analizaskładowych niezależnych,TCA.
Summary
The paper addresses UIC problem of additive noise and
disiurban cc rcduction in single and multichannel audio
recordings.Jtexplainsseveral algorithms forspeechdetection
and speetralsubtractionofnoise.Itdescribesadaplivefiltering
metho ds, whieh can be used for speech intelligibility
enharlcemm t in noisyentnronments uhere noisy xeuerators are
used. The paper intrcduces ałso blind sourcr separation
methods, used in order to extraet speakers' uoice[rotn
contoluted mixtures recorded by two or more micropnonce. Furt her, it describes independent comp oncnt a1w!ysis
teclmiques unth directivity pattern compumnon and arrioat
dircetum estimation.Tncpaper prcsentsthedcscribcd toolsin
the context of audio enhancement, Thcir efft'etiVerlCSS is
presented011sample p/ats.
Keywords: audio enhuncentent, tnultichennel audio
recordings, adeptite fittrotion, cocktail party puenomenou.
blindSOllrct'scpamticn, independent component analysis,/CA .