• Nie Znaleziono Wyników

Index of /rozprawy2/11076

N/A
N/A
Protected

Academic year: 2021

Share "Index of /rozprawy2/11076"

Copied!
94
0
0

Pełen tekst

(1)Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie Wydział Informatyki, Elektroniki i Telekomunikacji Katedra Elektroniki. ROZPRAWA DOKTORSKA MGR IN Z˙ .. R AFAŁ S AMBORSKI. W YKORZYSTANIE SZEROKOPASMOWEJ MATRYCY WIELOMIKROFONOWEJ W ROZPOZNAWANIU MÓWCY. P ROMOTOR : prof. dr hab. inz˙ . Mariusz Ziółko. Kraków 2016.

(2) Serdecznie dzi˛ekuj˛e prof. Mariuszowi Ziółce za opiek˛e naukowa˛ i cenne rady udzielone podczas pisania niniejszej pracy oraz dr. inz˙ . Jakubowi Gałce za inspirujace ˛ uwagi. Prac˛e dedykuj˛e mojej Rodzine, a w szczególno´sci ˙ Rodzicom i mojej Zonie Marysi..

(3) Spis tre´sci. 1. Wst˛ep................................................................................................................................ 11 1.1. Systemy wielosensorowe ......................................................................................... 11 1.2. Motywacja pracy...................................................................................................... 12 1.3. Struktura pracy ......................................................................................................... 15 2. Matryce wielomikrofonowe............................................................................................ 17 2.1. Podstawy działania matryc wielomikrofonowych ................................................... 17 2.2. Apertura matryc wielomikrofonowych .................................................................... 19 2.3. Charakterystyka kierunkowa matrycy liniowej........................................................ 20 2.4. Matryce o aperturze dyskretnej................................................................................ 22 2.5. Aliasing przestrzenny............................................................................................... 23 2.6. Inne apertury matryc wielomikrofonowych............................................................. 25 3. Lokalizacja z´ ródeł akustycznych................................................................................... 28 3.1. Korelacja wzajemna w dziedzinie czasu.................................................................. 29 3.2. Uogólniona korelacja wzajemna.............................................................................. 31 3.3. Normalizacja Rotha.................................................................................................. 32 3.4. Wygładzona transformacja koheretna ...................................................................... 33 3.5. Transformacja fazowa .............................................................................................. 33 3.6. Filtracja adaptacyjna ................................................................................................ 34 3.7. Wykorzystanie wielu par mikrofonów ..................................................................... 37 4. Filtracja adaptacyjna...................................................................................................... 39 4.1. Nieprzyczynowa filtracja adaptacyjna ..................................................................... 40 4.2. Przyczynowa filtracja adaptacyjna ........................................................................... 41 4.3. Rekurencyjna filtracja adaptacyjna .......................................................................... 42 4.4. Algorytm LMS......................................................................................................... 43 4.5. Znormalizowany algorytm LMS.............................................................................. 44 4.6. Złoz˙ ono´sc´ obliczeniowa algorytmów adaptacyjnych .............................................. 45 4.7. Filtracja adaptacyjna w dziedzinie cz˛estotliwo´sci ................................................... 46 3.

(4) ´ SPIS TRESCI. 4. 4.8. Praktyczne wykorzystanie filtracji adaptacyjnej w przetwarzaniu sygnału mowy .. 46 4.9. Wyniki eksperymentów z zastosowania filtracji adaptacyjnej w przetwarzaniu sygnału mowy .......................................................................................................... 49 5. Kształtowanie wiazki ˛ ...................................................................................................... 50 5.1. Kształtowanie wiazki ˛ poprzez sumowanie opó´znionych sygnałów......................... 52 5.2. Kształtowanie wiazki ˛ poprzez sumowanie filtrowanych sygnałów ......................... 53 5.3. Iteracyjna optymalizacja układów kształtujacych ˛ wiazk˛ ˛ e ....................................... 55 5.4. Symulacja procesu optymalizacji współczynników ................................................ 56 5.5. Wyniki eksperymentu z sygnałami rzeczywistymi .................................................. 58 6. Matryce wielomikrofonowe w rozpoznawaniu mówcy................................................ 60 6.1. Współczesne systemy telekonferencyjne................................................................. 61 6.2. Diaryzacja nagra´n .................................................................................................... 62 6.3. Tworzenie modeli opartych o mikstury gaussowskie .............................................. 63 6.4. Modelowanie mówcy w oparciu o cechy cz˛estotliwo´sciowe................................... 65 6.5. Modelowanie połoz˙ enia mówcy .............................................................................. 66 6.6. Hybrydowy algorytm klasyfikacji mówcy ............................................................... 67 7. Wyniki eksperymentów .................................................................................................. 71 7.1. Opis korpusu uz˙ ytego do bada´n ............................................................................... 71 7.2. Kryterium oceny działania systemu ......................................................................... 72 7.3. Działanie systemu wykorzystujacego ˛ cechy cz˛estotliwo´sciowe.............................. 74 7.4. Działanie systemu wykorzystujacego ˛ lokalizacj˛e mówcy ....................................... 75 7.5. Działanie systemu hybrydowego MFCC-GCC........................................................ 77 7.6. Wykorzystanie kształtowania wiazki ˛ w systemie wykorzystujacym ˛ cechy cz˛estotliwo´sciowe.......................................................................................................... 81 7.7. Porównanie wyników z rezultatami uzyskiwanymi podczas ewaluacji NIST......... 82 8. Podsumowanie ................................................................................................................. 85.

(5) Spis rysunków. 1.1. Zestawienie cech sygnału mowy pozwalajacych ˛ na budowanie systemów rozpoznawania mowy/mówcy [43]. .............................................................................. 13 2.1. Przykład matrycy wielomikrofonowej stworzonej na potrzeby bada´n opisanych w niniejszej pracy. Matryca oparta jest o cztery mikrofony Sennheiser ME 102.... 18 2.2. Matryca złoz˙ ona z dwóch mikrofonów oraz dwa z´ ródła d´zwi˛eku........................... 18 ´ 2.3. Zródło emitujace ˛ fal˛e d´zwi˛ekowa˛ s(t) oraz apertura opisana funkcja˛ wraz˙ liwos´ci w(f, ˆ r)................................................................................................................. 19 2.4. Sygnał odbierany przez matryc˛e o aperturze linowej .............................................. 20 2.5. Charakterystyka kierunkowa matrycy liniowej o długo´sci L [54]........................... 21 2.6. Matryca o aperturze dyskretnej złoz˙ ona z N mikrofonów rozmieszczonych w równych odległo´sciach od siebie.......................................................................... 22 2.7. Wykres pomiaru charakterystyki kierunkowej matrycy o aperturze liniowej złoz˙ onej z czterech mikrofonów odległych o 7 cm. ..................................................... 24 2.8. Dwuwymiarowa matryca wielomikrofonowa złoz˙ ona z 16 mikrofonów wykonana przez autora pracy............................................................................................ 27 3.1. Warto´sci korelacji wzajemnej w funkcji przesuni˛ecia w dziedzinie czasu pomi˛edzy sygnałami. ......................................................................................................... 30 3.2. Matryca złoz˙ ona z dwóch mikrofonów oraz z´ ródło, z którego d´zwi˛ek dociera pod nieznanym katem θ. .......................................................................................... 31 3.3. Matryca złoz˙ ona z dwóch mikrofonów wraz z filtrem adaptacyjnym typu FIR wpi˛etym do jednego z kanałów. ............................................................................... 34 3.4. Zmieniajace ˛ si˛e w czasie warto´sci współczynników filtru adaptacyjnego. Warto´sci stabilizuja˛ si˛e po ok. 1 sekundzie działania układu......................................... 35 3.5. Warto´sci współczynników filtru adaptacyjnego po 44100 próbkach (1 sekunda). Widoczne jest wyra´zne maksimum, które odpowiada róz˙ nicy odległo´sci pomi˛edzy mikrofonami a lokalizowanym z´ ródłem............................................................ 36 5.

(6) SPIS RYSUNKÓW. 6. 4.1. Ogólna struktura filtru adaptacyjnego strojonego róz˙ nica˛ pomi˛edzy sygnałem wyj´sciowym y a sygnałem referencyjnym z. ........................................................... 39 4.2. Ogólna struktura układu SAF z niezalez˙ nymi filtrami adaptacyjnymi pracuja˛ cymi w K pasmach b˛edacych ˛ wynikiem decymacji................................................ 47 4.3. Architektura dwumikrofonowego systemu poprawy jako´sci sygnału mowy .......... 48 5.1. Ogólny schemat układu realizujacego ˛ kształtowanie wiazki. ˛ .................................. 51 5.2. Struktura układu realizujacego ˛ kształtowanie wiazki ˛ poprzez sumowanie filtrowanych sygnałów. .................................................................................................... 54 5.3. Charakterystyka kierunkowo-cz˛estotliwo´sciowa układu realizujacego ˛ sumowanie opó´znionych sygnałów. ...................................................................................... 56 5.4. Charakterystyka kierunkowo-cz˛estotliwo´sciowa układu realizujacego ˛ sumowanie filtrowanych sygnałów o współczynnikach dobranych na drodze optymalizacji. ......................................................................................................................... 57 5.5. Matryca czteromikrofonowa podczas pomiarów w komorze bezechowej AGH..... 58 5.6. Wynik pomiaru charakterystyki kierunkowo-cz˛estotliwo´sciowej. .......................... 59 6.1. Proces treningu składowych uniwersalnego modelu tła dla konkretnego mówcy. .. 64 6.2. System wielomikrofonowy w konfiguracji pozwalajacej ˛ na diaryzacj˛e spotkania.. 66 6.3. Przykładowe przebiegi τ1,2 i τ3,4 podczas 100-sekundowej konferencji. Rzeczywiste granice wypowiedzi zostały oznaczone pionowymi przerywanymi liniami. Poszczególni mówcy oznaczeni zostali wielkimi literami A, ..., E. ........................ 68 6.4. Schemat hybrydowego systemu diaryzacji spotka´n................................................. 69 7.1. Uczestnicy podczas nagra´n korpusu testowego. Matryca mikrofonowa zaznaczona biała˛ elipsa.˛ .................................................................................................... 72 7.2. Zalez˙ no´sc´ bł˛edu diaryzacji od poziomu szumu dla modelu MFCC. ....................... 75 7.3. Porównanie zalez˙ no´sci bł˛edu diaryzacji od poziomu szumu dla modeli GCC i MFCC....................................................................................................................... 76 7.4. Zalez˙ no´sc´ bł˛edu diaryzacji od wagi poszczególnych strumieni informacji dla a) szumu biurowego, b) szumu przyj˛ecia..................................................................... 78 7.5. Optymalna warto´sc´ parametru α w zalez˙ no´sci od poziomu szumu......................... 79 7.6. Porównanie zalez˙ no´sci bł˛edu diaryzacji od poziomu szumu dla modeli hybrydowego, GCC i MFCC............................................................................................. 80 7.7. Porównanie zalez˙ no´sci bł˛edu diaryzacji od poziomu szumu dla systemu hybrydowego ze stałymi wagami i waga˛ dobierana˛ w zalez˙ no´sci od warunków akustycznych.................................................................................................................. 81.

(7) SPIS RYSUNKÓW. 7. 7.8. Porównanie zalez˙ no´sci bł˛edu diaryzacji od poziomu szumu dla zwykłego MFCC i MFCC wspieranego kształtowaniem wiazki. ˛ ............................................ 83.

(8) Spis tablic. 1.1. Skuteczno´sc´ rozpoznawania pojedynczych fonemów przez człowieka oraz przez komputer dla róz˙ nych poziomów szumu [46]. ............................................... 14 4.1. Porównanie złoz˙ ono´sci obliczeniowej algorytmów adaptacyjnych......................... 46 4.2. Poprawa jako´sci sygnału mowy w przypadku filtracji adaptacyjnej w porównaniu do algorytmu opartego o korelacj˛e wzajemna.˛ .................................................. 49 7.1. Porównanie wyników DER dla prac Vijayasenan et al. [78] i niniejszej rozprawy. 77 7.2. Porównanie wyników uzyskanych przez alternatywne algorytmy w testach NIST z wynikami działania autorskiego algorytmu MFCC-GCC........................... 84. 8.

(9) Wykaz skrótów i oznaczen´. λ σ c d D DCT DER DOA, θ, φ e, E E E EM f FDAF FFT G GCC GSC GMM h IID k L LCMV. długo´sc´ fali wariancja pr˛edko´sc´ d´zwi˛eku odległo´sc´ pomi˛edzy mikrofonami matrycy charakterystyka matrycy sensorów dyskretna transformacja kosinusowa (Discrete Cosine Transform) bład ˛ diaryzacji (Diarization Error Rate) kierunek dotarcia fali do sensora (Direction of Arrival) bład ˛ estymacji, charakterystyka sensora d´zwi˛eku bład ˛ s´redniokwadratowy warto´sc´ oczekiwana maksymalizacja warto´sci oczekiwanej (Expectation Maximisation) cz˛estotliwo´sc´ fali filtracja adaptacyjna w dziedzinie cz˛estotliwo´sci (FrequencyDomain Adaptive Filtering) szybka transformacja Fouriera (Fast Fourier Transform) transformacja Fouriera funkcji R uogólniona korelacja wzajemna (Generalized CrossCorrelation) General Sidelobe Canceller model oparty o mikstury gaussowskie (Gaussian Mixture Model) współczynniki filtru mi˛edzyuszna róz˙ nica nat˛ez˙ enia (Interaural Intensity Difference) wektor kierunkowy fali długo´sc´ matrycy wielomikrofonowej Linear Constrained Minimum Variance 9.

(10) WYKAZ SKRÓTÓW I OZNACZEN´. LLR LMS LPCC m MAP MFCC ML NLMS P r r1,2 R r s SAF SNR TDOA, τ0 UBM VAD w W xˆ. logarytmiczny wska´znik wiarygodno´sci (Log-Likelihood Ratio) metoda najmniejszego bł˛edu s´redniokwadratowego (Least Mean Square) predykcja liniowa oparta o współczynniki cepstralne (Linear Predictive Cepstral Coefficients) sensor d´zwi˛eku, sygnał zebrany przez sensor maximum a posteriori współczynniki cepstralne w skali melowej (Mel-Frequency Cepstral Coefficients) maksymalizacja prawdopodobie´nstwa (Maximum Likelihood) metoda znormalizowanego najmniejszego bł˛edu s´redniokwadratowego (Normalized Least Mean Square) charakterystyka kierunkowo-cz˛estotliwo´sciowa matrycy sensorów odległo´sc´ z´ ródła d´zwi˛eku od sensora róz˙ nica pomi˛edzy r1 i r2 funkcja korelacji wektor połoz˙ enia z´ ródło sygnału, sygnał emitowany przez z´ ródło adaptacyjna filtracja podpasmowa (Subband Adaptive Filtering) stosunek sygnału do szumu (Signal-To-Noise Ratio) róz˙ nica w czasie dotarcia (Time Difference of Arrival) uniwersalny model tła (Universal Background Model) wykrywanie aktywno´sci głosowej (Voice Activity Detection) funkcja wraz˙ liwo´sci sensora, współczynniki filtrów układu kształtujacego ˛ wiazk˛ ˛ e funkcja waz˙ aca ˛ uogólnionej korelacji wzajemnej sygnał x poddany operacji transformacji Fouriera. 10.

(11) 1. Wst˛ep. Dzi˛eki wykorzystaniu mocy obliczeniowej współczesnych urzadze´ ˛ n, szerokopasmowej transmisji internetowej oraz systemom rozpoznawania mowy i mówcy moz˙ liwe jest tworzenie nowoczesnych usług, które ułatwiaja˛ komunikacj˛e z komputerami oraz z innymi uz˙ ytkownikami. Ze wzgl˛edu na wzrost takiego zapotrzebowania, chcemy budowa´c lepsze narz˛edzia do komunikacji, lepsze narz˛edzia rejestracji d´zwi˛eku oraz lepsze narz˛edzia sterowania urzadze˛ niami. Aby sprosta´c tym oczekiwaniom producenci urzadze´ ˛ n elektronicznych coraz cz˛es´ciej wyposaz˙ aja˛ swoje produkty w wi˛ecej niz˙ jeden mikrofon, co pozwala na zastosowanie zaawansowanych algorytmów przetwarzania sygnałów w celu zapewnienia lepszej jako´sci komunikacji.. 1.1. Systemy wielosensorowe Z technicznego punktu widzenia sensory d´zwi˛eku umieszczone w urzadzeniu ˛ tworza˛ matryc˛e wielomikrofonowa˛ (ang. microphone array lub phase array). Matryca wielomikrofonowa to grupa mikrofonów rozmieszczonych w stosunkowo niewielkiej odległo´sci od siebie. Akwizycja sygnału z kilku punktów pozwala na ekstrakcj˛e informacji o połoz˙ eniu z´ ródła d´zwi˛eku oraz wzmocnienie sygnału pochodzacego ˛ z uz˙ ytecznego z´ ródła przy jednoczesnym tłumieniu d´zwi˛eków pochodzacych ˛ z otoczenia lub ze z´ ródeł zakłócajacych. ˛ Główne zalety takiego rozwiazania ˛ to redukcja szumów otoczenia (w tym z´ ródeł, które nie sa˛ w danym momencie interesujace) ˛ oraz zmniejszenie pogłosu poprzez wytłumienie niepoz˙ adanych ˛ artefaktów pojawiaja˛ cych si˛e w wyniku odbi´c d´zwi˛eku. W rezultacie otrzymujemy dane o lepszym stosunku sygnału do szumu. W ramach niniejszej pracy zbadane zostało wykorzystanie systemów wielosensorowych do odbioru sygnału mowy. Głównym motorem bada´n nad tego typu rozwiazaniami ˛ było pojawienie si˛e moz˙ liwo´sci komunikacji głosowej na odległo´sc´ . Najpierw w postaci telefonii naziemnej, nast˛epnie radiotelefonii, a obecnie telefonii mobilnej i rozwiaza´ ˛ n opartych o łacza ˛ internetowe. Niedoskonało´sc´ warunków, w jakich komunikujemy si˛e korzystajac ˛ z wymienionych urzadze´ ˛ n sprawia, z˙ e nasze wypowiedzi moga˛ by´c niezrozumiałe dla rozmówcy po drugiej stronie linii. Hałas dochodzacy ˛ z ulicy, rozmowy innych osób, czy powiewy wiatru powoduja˛ trudno´sci w komunikacji. Inz˙ ynierowie zajmujacy ˛ si˛e komunikacja˛ głosowa˛ dosy´c wcze´snie odkryli, z˙ e.

(12) 1.2. Motywacja pracy. 12. zastosowanie systemów złoz˙ onych z wielu mikrofonów moz˙ e poprawi´c jako´sc´ sygnału. Pierwsze tego typu systemu wdroz˙ one zostały, jak wiele innych innowacji, w urzadzeniach ˛ militarnych. Od dawna problemem była komunikacja z pilotami my´sliwców ze wzgl˛edu na panujacy ˛ w kabinie samolotu hałas. Okazało si˛e, z˙ e zastosowanie systemu wielomikrofonowego pozwoliło na znaczne poprawienie jako´sci komunikacji głosowej [81]. Rozwiazania ˛ tego typu zostana˛ szerzej przedstawione w dalszej cz˛es´ci pracy. Oczywi´scie, niedługo pó´zniej systemy wielomikrofonowe trafiły do zastosowa´n cywilnych. Obecnie rzadko spotyka si˛e urzadzenia ˛ mobilne (telefon komórkowy, laptop), który nie byłby wyposaz˙ ony w co najmniej dwa mikrofony. Wykorzystanie systemów wielomikrofonowych w dziedzinie komunikacji głosowej jest badane w kilku obszarach [7]: • Lokalizowanie z´ ródeł – uz˙ ycie wi˛ecej niz˙ jednego mikrofonu pozwala na lokalizowanie z´ ródeł. W tym obszarze stosowane sa˛ cz˛esto, opracowane na potrzeby nawigacji, algorytmy triangulacji oraz multilateracji [68]. Informacja o połoz˙ eniu mówcy jest nast˛epnie wykorzystywana w kolejnych etapach przetwarzania. W niektórych wypadkach juz˙ sama informacja o połoz˙ eniu moz˙ e by´c uz˙ yta np. do rozpoznawania mówcy na podstawie jego połoz˙ enia w´sród innych osób. • Filtracja adaptacyjna – pierwsze, i do tej pory najpopularniejsze zastosowanie dodatkowego mikrofonu w celu redukcji zakłóce´n [81]. Dodatkowy mikrofon w tej konfiguracji rejestruje przede wszystkim szum, który nast˛epnie odejmowany jest od sygnału rejestrowanego przez mikrofon główny. Uzyskiwany w ten sposób sygnał wynikowy jest pozbawiony duz˙ ej cz˛es´ci zakłóce´n. Obecnie wiele telefonów komórkowych wyposaz˙ onych jest w działajacy ˛ na tej zasadzie system aktywnego likwidowania szumów oparty o jeden lub wi˛ecej dodatkowych mikrofonów [19] • Kształtowanie wiazki ˛ (beamforming) – dodatkowe mikrofony uz˙ ywane sa˛ w celu kształtowania charakterystyki kierunkowej całego systemu tak, aby lepiej koncentrowa´c si˛e na z´ ródle uz˙ ytecznym tłumiac ˛ d´zwi˛eki docierajace ˛ z innych kierunków [23]. Rozwiazania ˛ tego typu znajduja˛ zastosowanie w systemach konferencyjnych [6, 85]. W tym obszarze szeroko wykorzystywane sa˛ do´swiadczenia zebrane wcze´sniej podczas prac nad antenami kierunkowymi. Oczywi´scie, systemy wielomikrofonowe cz˛esto wykorzystuja˛ rozwiazania ˛ z wi˛ecej niz˙ jednego obszaru wymienionego powyz˙ ej. Przykładem takiej sytuacji jest system, który lokalizuje z´ ródło, a nast˛epnie, wykorzystujac ˛ kształtowanie wiazki, ˛ „nastraja” si˛e na odbiór z okre´slonego kierunku, jednocze´snie wyciszajac ˛ potencjalne zakłócenia dochodzace ˛ z innych kierunków.. 1.2. Motywacja pracy Motywacja˛ przeprowadzonych przez autora i opisanych w niniejszej rozprawie bada´n sa˛ prace prowadzone od kilku lat w Zespole Przetwarzanie Sygnałów Katedry Elektroniki Akade-.

(13) 13. 1.2. Motywacja pracy. +Odporne na zmiany w kanale transmisyjnym - Trudne do ekstrakcji - Duża ilość danych potrzebna do treningu. Cechy wysokopoziomowe Fonemy, słownictwo, semantyka, akcent, wymowa. Cechy wyuczone (behawioralne) Status materialnospołeczny, miejsce urodzenia, doświadczenia językowe. Cechy prozodyczne + Łatwe do ekstrakcji + Stosunkowo niewielka ilość danych potrzebna do treningu + Większa szybkość działania - Mało odporne na szum i zmiany w kanale transmisyjnym. "Melodia" głosu, rytm mowy, czas trwania wypowiedzi, ton podstawowy (krtaniowy). Krótkoczasowe cechy częstotliwościowe Kształt widma. Cechy fizjologiczne Rozmiar strun głosowych, wymiary traktu głosowego. Rysunek 1.1: Zestawienie cech sygnału mowy pozwalajacych ˛ na budowanie systemów rozpoznawania mowy/mówcy [43]. mii Górniczo-Hutniczej im. Stanisława Staszica w Krakowie. Obejmuja˛ one zagadnienia zwia˛ zane z pozyskiwaniem i przetwarzaniem sygnału mowy. Technologia mowy to interdyscyplinarna dziedzina z pogranicza przetwarzania sygnałów, lingwistyki, fonetyki i informatyki. Głównym celem bada´n prowadzonych przez specjalistów zajmujacych ˛ si˛e tym obszarem wiedzy jest zbudowanie systemów pozwalajacych ˛ urzadzeniom ˛ elektronicznym (komputerom, telefonom komórkowym) rozpoznawa´c tre´sc´ wypowiedzi oraz identyfikowa´c mówc˛e. W tym celu naukowcy badaja,˛ jakie wła´sciwo´sci sygnału mowy pozwalaja˛ na najskuteczniejsze rozróz˙ nienie od siebie głosek, słów, fonemów i wreszcie poszczególnych mówców. Oczywi´scie, idealnie byłoby gdyby były to własno´sci, które daje si˛e w łatwy sposób wydoby´c z sygnału, które nie zmieniaja˛ si˛e pod wpływem szumu lub róz˙ nych warunków akustycznych, a do zbudowania ich modelu wystarczy niewielka baza danych. Okazuje si˛e, niestety, z˙ e sygnał mowy nie ma takich cech, które spełniałyby wszystkie te wymagania. Łatwiej b˛edzie to wyja´sni´c wprowadzajac ˛ podział cech sygnału mowy zaproponowany w [43]: • Cechy spektralne – sa˛ to cechy najniz˙ szego poziomu, których interpretacja˛ jest brzmienie, tembr głosu, zwykle wyznaczane sa˛ na podstawie ramek sygnału o długo´sci 20-50 ms. • Cechy prozodyczne – od greckiego pro sodic - poda˛z˙ a´c za melodia,˛ s´piewa´c. Determinuja˛ melodi˛e głosu, rytm wypowiedzi. Zaliczamy do nich równiez˙ ton podstawowy, krtaniowy. • Cechy wyz˙szego poziomu – zaliczamy do nich statystyki dotyczace ˛ uz˙ ycia fonemów, słownictwa, akcentu i wymowy. W skrócie moz˙ emy mówi´c, z˙ e sa˛ to cechy na poziomie j˛ezyka. Zestawienie rodzajów cech wraz z ich wadami i zaletami zostało przedstawione na Rysunku.

(14) 14. 1.2. Motywacja pracy. Odbiorca. SNR [dB]. Skuteczno´sc´. Spółgłoski. Samogłoski. Człowiek. -10 dB. 74.5%. 67.7%. 80.5%. ∞. 80.4%. 85.2%. 76.2%. 15. 76.1%. 77.7%. 74.6%. 10. 74.6%. 75.6%. 73.7%. 5. 69.8%. 69.5%. 70.0%. 0. 59.2%. 55.4%. 62.5%. -5. 49.8%. 41.0%. 57.5%. -10. 28.4%. 20.8%. 35.0%. Komputer. Tablica 1.1: Skuteczno´sc´ rozpoznawania pojedynczych fonemów przez człowieka oraz przez komputer dla róz˙ nych poziomów szumu [46]. 1.1. Powyz˙ sza klasyfikacja nie bierze pod uwag˛e cech jeszcze wyz˙ szych poziomów takich jak statystyki j˛ezyka, gramatyka. Wynika to z faktu, z˙ e nie sa˛ one istotne z punktu widzenia bada´n opisanych w pracy. Jak wida´c, cechami, które sa˛ najłatwiejsze w uz˙ yciu (ze wzgl˛edu na łatwo´sc´ ekstrakcji) zarówno w rozpoznawaniu mowy, jak i w rozpoznawaniu mówców, sa˛ cechy najniz˙ szego poziomu, cechy cz˛estotliwo´sciowe. Ich główna˛ wada˛ jest jednak fakt, z˙ e sa˛ niezwykle wraz˙ liwe na ewentualne szumy. Jako ludzie nie zdajemy sobie z tego sprawy poniewaz˙ nasz naturalny system rozpoznawania mowy wykorzystuje równiez˙ informacje wyz˙ szego poziomu, a dodatkowo wyposaz˙ ony jest w naturalne mechanizmy filtracji cz˛estotliwo´sciowej, które sprawiaja,˛ z˙ e znacznie lepiej sobie radzimy z rozpoznawaniem mowy i mówców w trudnych warunkach akustycznych niz˙ systemy automatyczne. Jak bardzo skuteczno´sc´ rozpoznawania mowy przez człowieka róz˙ ni si˛e od skuteczno´sci automatycznej pokazuja˛ dane w Tablicy 1.1 przy róz˙ nym stosunku sygnału do szumu (ang. signal-to-noise ratio, SNR) [46]. Warto zwróci´c uwag˛e na kilka rzeczy: 1. W tych samych warunkach akustycznych (SNR = 10 dB) skuteczno´sc´ rozpoznawania mowy przez człowieka jest znacznie wyz˙ sza niz˙ skuteczno´sc´ systemu komputerowego. 2. Skuteczno´sc´ rozpoznawania mowy przez system komputerowy spada dramatycznie wraz ze spadkiem SNR, nawet o 20% na kaz˙ de 5 dB. 3. Wraz z pogarszaniem si˛e stosunku sygnału do szumu znacznie szybciej spada skuteczno´sc´ rozpoznawania spółgłosek niz˙ samogłosek. Przyczyny nalez˙ y upatrywa´c w fakcie, iz˙ energia widma samogłosek jest zgromadzona w znacznie w˛ez˙ szym pa´smie niz˙ w przypadku spółgłosek, co powoduje, z˙ e ich „transmisja” jest bardziej odporna na szum. Je´sli wyobrazimy sobie system rozpoznawania mówcy, który ma pracowa´c dobrze zarówno w cichym mieszkaniu, podczas przyj˛ecia, jak i przy ruchliwej ulicy, to zrozumiemy trudno´sc´ tego zagadnienia. Patrzac ˛ jeszcze raz na Tabel˛e 1.1 widzimy, jak waz˙ ne jest dostarczenie do systemu rozpoznawania mowy/mówcy sygnału o jak najlepszej jako´sci, jak najwyz˙ szym SNR..

(15) 1.3. Struktura pracy. 15. Praktycznie kaz˙ dy 1 dB poprawy SNR przekłada si˛e na znaczna˛ popraw˛e skuteczno´sci działania systemu komputerowego (nawet o kilka procent!). Stad ˛ niezwykle istotnym elementem kaz˙ dego systemu przetwarzania mowy jest poprawa jako´sci sygnału wej´sciowego. Moz˙ e ona odbywa´c si˛e na dwa sposoby: 1. Poprzez uwzgl˛ednienie niekorzystnych zjawisk akustycznych na samym etapie modelowania statystycznego sygnału mowy, a nie we wcze´sniejszym przetwarzaniu. 2. Metodami cyfrowego przetwarzania zaszumionego sygnału. Zaproponowana w pracy metoda nalez˙ y do drugiej grupy. Wspomniany wcze´sniej znaczacy ˛ negatywny wpływ szumu zainspirował autora pracy do połaczenia ˛ do´swiadcze´n zdobytych w zakresie przetwarzania sygnałów rejestrowanych przez matryce wielomikrofonowe z do´swiadczeniami dotyczacymi ˛ algorytmów rozpoznawania mówcy. Wynikiem tego połaczenia ˛ jest unikatowa propozycja zastosowania klasycznych metod modelowania i klasyfikacji mówcy do sygnałów pochodzacych ˛ z matrycy. Po wydobyciu, za pomoca˛ uogólnionej korelacji wzajemnej (ang. generalized cross-correlation, GCC), cech dotyczacych ˛ połoz˙ enia mówcy, sa˛ one modelowane z wykorzystaniem mikstur gaussowskich (ang. Gaussian mixture models, GMM). Nast˛epnie przeprowadzana jest fuzja informacji z algorytmu badajacego ˛ informacje cz˛estotliwo´sciowe i algorytmu odpowiedzialnego za badanie pozycji mówcy. Chociaz˙ podobne rozwiazania ˛ bazujace ˛ na modelowaniu cech cz˛estotliwo´sciowych i połoz˙ enia mówcy za pomoca˛ modeli GMM były juz˙ wcze´sniej proponowane w literaturze, to istotna˛ nowo´scia˛ jest propozycja dynamicznego doboru wag współczynników z poszczególnych strumieni informacji w zalez˙ no´sci od warunków akustycznych, dzi˛eki czemu moz˙ liwe jest znaczne poprawienie skuteczno´sci rozpoznawania w stosunku do systemu ze stałymi wagami. Tez˛e niniejszej pracy mo˙zna sformułowa´c nast˛epujaco: ˛ Wykorzystanie kilku strumieni ´ Pocech w znaczacy ˛ sposób polepsza skuteczno´sc´ działania systemu diaryzacji nagran. przez dynamiczny dobór proporcji pomi˛edzy informacja˛ pochodzac ˛ a˛ z klasycznego systemu identyfikacji mówcy opartego o cechy cz˛estotliwo´sciowe (MFCC) a informacja˛ zwia˛ zana˛ z lokalizacja˛ mówcy (TDOA) nast˛epuje znaczaca ˛ poprawa wyników algorytmu w sto´ sunku do istniejacych ˛ rozwiaza ˛ n.. 1.3. Struktura pracy Niniejsza praca podzielona została na 8 rozdziałów. Rozdział 1 jest rozdziałem wst˛epnym. Rozdział 2 szczegółowo przedstawia rodzaje matryc wielomikrofonowych. Zaprezentowane zostały róz˙ ne konfiguracje sensorów w matrycy oraz ich wpływ na działanie tych układów. Omówione zostały parametry opisujace ˛ takie urzadzenie. ˛ W szczególno´sci dokładnie został omówiony temat charakterystyki kierunkowo-cz˛estotliwo´sciowej matrycy. W rozdziale tym omówione zostały równiez˙ zagadnienia zwiazane ˛ z róz˙ nica˛ pomi˛edzy praca˛ matrycy w polu bliskim.

(16) 1.3. Struktura pracy. 16. (gdy z´ ródło znajduje w pobliz˙ u matrycy) i w polu dalekim (w stosunkowo duz˙ ej odległo´sci od z´ ródła). Kolejne rozdziały stanowia˛ najwaz˙ niejsza˛ cz˛es´c´ pracy. Przedstawiaja˛ algorytmy przetwarzania sygnałów pochodzacych ˛ z wielu mikrofonów i sa˛ przystosowane do potrzeb sygnału mowy. Duz˙ y nacisk został połoz˙ ony na to, aby opis rozwiaza´ ˛ n był na tyle ogólny, aby moz˙ na było go zastosowa´c do róz˙ nego rodzaju matryc omówionych w Rozdziale 2. Rozdział 3 przedstawia algorytmy lokalizacji z´ ródeł d´zwi˛eku wykorzystujace ˛ informacj˛e z wielu mikrofonów. W Rozdziale 4 omówione zostały algorytmy bazujace ˛ na filtracji adaptacyjnej, a w Rozdziale 5 kształtowanie wiazki, ˛ które ma na celu skupienie si˛e na z´ ródle uz˙ ytecznym. Co istotne, rozdziały te przedstawiaja˛ równiez˙ wyniki prac autora zwiazane ˛ z zastosowaniem opisywanych algorytmów w rzeczywistych systemach rozpoznawania mowy i mówców. Rozdział 6 przedstawia w pełni autorski system rozpoznawania mówcy łacz ˛ acy ˛ standardowo wykorzystywane metody oparte o mikstury gausowskie oraz informacj˛e pochodzac ˛ a˛ z matrycy wielomikrofonowej. Dołaczenie ˛ tych informacji zwi˛eksza skuteczno´sc´ działania systemu. Wyniki eksperymentów potwierdzajace ˛ t˛e tez˛e zostały pokazane w Rodziale 7. Oparto si˛e o obiektywne wska´zniki skuteczno´sci takie jak diarization error rate (DER). Prac˛e zamyka podsumowanie oraz zestawienie bibliografii..

(17) 2. Matryce wielomikrofonowe. Matryca mikrofonowa to dwa lub wi˛ecej mikrofonów rozmieszczonych w okre´slonym z góry układzie, które współpracuja˛ ze soba˛ w celu uzyskania odpowiedniego sygnału wyj´sciowego [24]. Sygnał ten jest superpozycja˛ sygnałów pochodzacych ˛ z poszczególnych mikrofonów przetworzonych specjalnymi algorytmami. Głównym celem stosowania matryc wielomikrofonowych w komunikacji głosowej jest zapewnienie jak najwyz˙ szej jako´sci poz˙ adanego ˛ sygnału mowy (np. pochodzacego ˛ od okre´slonego mówcy) przy jednoczesnym obniz˙ eniu poziomu sygnałów dochodzacych ˛ z innych z´ ródeł. Najwaz˙ niejsze grupy algorytmów wykorzystujace ˛ potencjał matryc wielomikrofonowych to lokalizacja z´ ródeł akustycznych, kształtowanie wiazki ˛ oraz filtracja adaptacyjna. Kaz˙ demu z nich został po´swi˛econy osobny rozdział tej pracy, a krótkie omówienie tych obszarów znajduje si˛e w Rozdziale 1. Na wst˛epie warto wspomnie´c kilka słów na temat sensorów, które uz˙ yte zostały w opisywanych rozwiazaniach. ˛ O ile nie zaznaczono inaczej, zakładamy, z˙ e stosowane mikrofony: • maja˛ dookólna˛ charakterystyk˛e kierunkowa,˛ • maja˛ płaska˛ charakterystyk˛e amplitudowo-cz˛estotliwo´sciowa,˛ • maja˛ liniowa˛ charakterystyk˛e fazowa˛ (nie zmieniaja˛ opó´znienia fazowego). Eksperymenty wykazały, z˙ e stosowane powszechnie typowe mikrofony (elektretowe, dynamiczne, pojemno´sciowe) o charakterystyce dookólnej spełniaja˛ wystarczajaco ˛ dobrze te załoz˙ enia. Dodatkowo, wi˛ekszo´sc´ opisywanych algorytmów (w szczególno´sci adaptacyjnych) ze swojej natury koryguje pewne, w szczególno´sci cz˛estotliwo´sciowe, niedoskonało´sci sprz˛etowe sensorów. Dzi˛eki temu docelowo moz˙ liwa jest realizacja opisywanych rozwiaza´ ˛ n z wykorzystaniem tanich sensorów. Przykład matrycy wielomikrofonowej jest zaprezentowany na Rysunku 2.1.. 2.1. Podstawy działania matryc wielomikrofonowych Zasad˛e działania matryc wielomikrofonowych najłatwiej zilustrowa´c na prostym przykładzie. Wyobra´zmy sobie dwa z´ ródła d´zwi˛eku umieszczone w pomieszczeniu wolnym od pogłosu (ang. non-reverberant). W tym samym pomieszczeniu umieszczone zostały dwa mikrofony. Sytuacja ta zilustrowana jest na Rysunku 2.2. Czoło fali generowanej ze z´ ródła s1 dociera do obu 17.

(18) 18. 2.1. Podstawy działania matryc wielomikrofonowych. Rysunek 2.1: Przykład matrycy wielomikrofonowej stworzonej na potrzeby bada´n opisanych w niniejszej pracy. Matryca oparta jest o cztery mikrofony Sennheiser ME 102.. s2 H HH. HH H. θ. pHH. hm1 HH j H hm2. H. s1. r. 6. d. ?. Rysunek 2.2: Matryca złoz˙ ona z dwóch mikrofonów oraz dwa z´ ródła d´zwi˛eku.. mikrofonów jednocze´snie, podczas gdy to generowane przez z´ ródło s2 dociera wcze´sniej do mikrofonu m1 . Dodatkowa droga, jaka˛ przeby´c musi sygnał ze z´ ródła s2 zalez˙ y od warto´sci kata ˛ θ oraz odległo´sci mi˛edzy mikrofonami d. Załóz˙ my, z˙ e w tym wypadku sygnał generowany przez matryc˛e mikrofonowa˛ jest prosta˛ suma˛ sygnałów pochodzacych ˛ z poszczególnych mikrofonów. W zwiazku ˛ z tym, z˙ e droga od z´ ródła s1 do obydwu mikrofonów jest jednakowa, sygnał pochodzacy ˛ z tego z´ ródła jest wzmacniany. W tym samym czasie sygnał pochodzacy ˛ ze z´ ródła s2 dociera do mikrofonu m2 opó´zniony wzgl˛edem mikrofonu m1 , co sprawia, z˙ e suma sygnałów pochodzacych ˛ z tych mikrofonów nie powoduje konstruktywnej interferencji. Podsumowujac, ˛ ta prosta matryca dwumikrofonowa pozwala na wzmocnienie sygnałów pochodzacych ˛ ze z´ ródeł lez˙ acych ˛ na symetralnej odcinka łacz ˛ acego ˛ mikrofony m1 i m2 . Powyz˙ szy przykład pokazuje podstawowa˛ zalet˛e matrycy mikrofonów wzgl˛edem pojedynczego mikrofonu: Zastosowanie wielu mikrofonów, zamiast pojedynczego pozwala na wzmocnienie sygnału pochodzacego ˛ z wybranego z´ ródła przy jednoczesnym tłumieniu sygnałów pochodzacych ˛ z innych z´ ródeł..

(19) 19. 2.2. Apertura matryc wielomikrofonowych. H HH. s(t). H HH. HH. HH H. H HH. H H j H HH HH HH j H. Apertura w(f, ˆ r). ´ Rysunek 2.3: Zródło emitujace ˛ fal˛e d´zwi˛ekowa˛ s(t) oraz apertura opisana funkcja˛ wraz˙ liwo´sci w(f, ˆ r).. 2.2. Apertura matryc wielomikrofonowych Apertura˛ nazywamy pewien obszar przestrzeni, który odpowiada za emisj˛e lub odbiór propagujacych ˛ fal. W pierwszym przypadku mówimy o aperturze aktywnej, natomiast w tym drugim o aperturze pasywnej. W przypadku fal elektromagnetycznych moz˙ e to by´c obszar anteny odbiorczej, w przypadku aparatu fotograficznego apertura˛ jest otwór w przesłonie. W przypadku fal akustycznych apertura˛ aktywna˛ b˛edzie membrana gło´snika, natomiast apertura˛ pasywna˛ – membrana mikrofonu. Apertura moz˙ e by´c ciagła ˛ lub dyskretna. Rozwaz˙ my na pocza˛ tek bardziej ogólny przypadek apertury ciagłej. ˛ Na Rysunku 2.3 przedstawione zostały: z´ ródło d´zwi˛eku s(t) oraz pewna apertura odbierajaca ˛ docierajace ˛ do niej fale. Apertura opisana jest funkcja˛ wraz˙liwo´sci (ang. sensitivity funcion) w(f, ˆ r), która okre´sla czuło´sc´ okre´slonego punktu w zalez˙ no´sci od jego połoz˙ enia i od cz˛estotliwo´sci docierajacego ˛ sygnału. W celu łatwiejszej budowy modelu matematycznego, przejdziemy z opisem z´ ródła do dziedziny cz˛estotliwo´sci, a zatem załoz˙ ymy, z˙ e z´ ródło emituje sygnał sˆ(f ). W tej sytuacji sygnał docierajacy ˛ do punktu r moz˙ emy okre´sli´c jako sˆ(f )e−jr k , gdzie wektor kierunkowy fali k jest okre´slony jako i 1h k= sin θ cos φ sin θsinφ cosθ , λ. (2.1). gdzie θ i φ sa˛ kierunkami propagacji, a λ = c/f jest długo´scia˛ fali. Sygnał odebrany przez dany punkt apertury moz˙ emy okre´sli´c jako sˆ(f )w(f, ˆ r)e−jr k . Chcac ˛ okre´sli´c charakterystyk˛e kierunkowa˛ apertury wyznaczymy całk˛e [51] Z D(f, k) = V. w(f, ˆ r)e−2πjr k dr.. (2.2).

(20) 20. 2.3. Charakterystyka kierunkowa matrycy liniowej. Propagujace ˛ fale PP   )  q P     H H   Sygnał „widziany” H HH  H H H  H H H przez apertur˛e XXX  H H H H H  A XX j H H z X H   H H H AAU   H H H H    H H H H   H H H H H H H H . ?. H H H H. L. -. Rysunek 2.4: Sygnał odbierany przez matryc˛e o aperturze linowej. 2.3. Charakterystyka kierunkowa matrycy liniowej Podstawowym, a jednocze´snie najcz˛es´ciej stosowanym rodzajem apertury jest apertura liniowa, w której sensory d´zwi˛eku umieszczone sa˛ w jednej linii. Charakterystyka takiej matrycy jest zalez˙ na od kierunku. Wynika to z prostej obserwacji, z˙ e ilo´sc´ sygnału „widzianego” przez matryc˛e zalez˙ y od kierunku, z którego sygnał dociera. Wyja´snia to Rysunek 2.4. W przypadku matrycy liniowej wektor r wyst˛epujacy ˛ w (2.2)   xa   r=0 0. (2.3). posiada tylko jeden element niezerowy xa jednoznacznie definiujacy ˛ połoz˙ enie punktu na aperturze, co powoduje uproszczenie (2.2) do postaci Z. L/2. w(f, xa )e−2πjxa kx dxa ,. (2.4). sin θ cos φ . λ. (2.5). D(f, kx ) = −L/2. gdzie L jest długo´scia˛ matrycy, a kx =. Powyz˙ sze równania sa˛ poprawne dla sytuacji, w których mamy do czynienia ze z´ ródłem znajdujacym ˛ si˛e w polu dalekim. W takiej sytuacji czoło fali jest niemal płaskie. Dla apertury.

(21) 21. 2.3. Charakterystyka kierunkowa matrycy liniowej. Rysunek 2.5: Charakterystyka kierunkowa matrycy liniowej o długo´sci L [54]. liniowej, z´ ródło moz˙ e zosta´c uznane za znajdujace ˛ si˛e w polu dalekim je´sli [74] |r| >. 2L2 . λ. (2.6). Rozwaz˙ my teraz matryc˛e liniowa,˛ której charakterystyka nie zalez˙ y od cz˛estotliwo´sci, a zatem (2.7) w(x ˆ a ) = rect(xa /L) , gdzie  1 |x| ≤ L/2 rect(x/L) = . 0 |x| > L/2. (2.8). Po podstawieniu do (2.4) otrzymujemy D(f, kx ) = L. sin(kx L) . kx L. (2.9). Wykres funkcji charakterystyki kierunkowej wynikajacej ˛ z powyz˙ szej zalez˙ no´sci został przedstawiony na Rysunku 2.5. Tzw. listek główny charakterystyki rozciaga ˛ si˛e w zakresie −λ/L ≤ kx ≤ λ/L. Szeroko´sc´ listka głównego jest niezwykle istotnym parametrem opisujacym ˛ matryc˛e wielomikrofonowa.˛ Jak łatwo zauwaz˙ y´c, szeroko´sc´ listka głównego jest wprost proporcjonalna do długo´sci fali, co oznacza, z˙ e dla wysokich cz˛estotliwo´sci matryca jest bardziej selektywna niz˙ dla cz˛estotliwo´sci niskich. Łatwo tutaj dostrzec analogi˛e z ludzkim słuchem – duz˙ o łatwiej oceni´c kierunek, z którego docieraja˛ d´zwi˛eki o wyz˙ szych cz˛estotliwo´sciach. Cz˛esto uz˙ ywanym narz˛edziem do obrazowania charakterystyki kierunkowej jest jej wykres w dziedzinie współrz˛ednych biegunowych w zalez˙ no´sci od kata ˛ φ. Charakterystyka taka dana jest zalez˙ no´scia˛ L D(λ, f, φ) = sinc( cosφ). (2.10) λ.

(22) 22. 2.4. Matryce o aperturze dyskretnej. hmN. .. . hm3. s(t)H. HH H. HH hm2 r1HH θ HH H jhm H 1. 6. d. ?. Rysunek 2.6: Matryca o aperturze dyskretnej złoz˙ ona z N mikrofonów rozmieszczonych w równych odległo´sciach od siebie.. 2.4. Matryce o aperturze dyskretnej Matryca mikrofonowa o aperturze ciagłej ˛ jest wygodnym obiektem do rozwaz˙ a´n teoretycznych. W rzeczywisto´sci mamy jednak do czynienia z aperturami, w których mikrofony traktowane sa˛ jak punkty. Mówimy wtedy o aperturze dyskretnej, która˛ traktowa´c moz˙ emy jako spróbkowana˛ wersj˛e apertury ciagłej. ˛ Istnieje sporo analogii mi˛edzy tym podej´sciem a próbkowaniem sygnału w dziedzinie czasu. Rozwaz˙ my matryc˛e o aperturze dyskretnej w postaci N mikrofonów rozmieszczonych w równych odległo´sciach od siebie. Matryca taka została pokazana na Rysunku 2.6. Je´sli załoz˙ ymy, z˙ e kaz˙ dy z mikrofonów w aperturze ma charakterystyk˛e cz˛estotliwo´sciowa˛ opisana˛ jako en (f ), a odległo´sc´ pomi˛edzy mikrofonami wynosi d, to charakterystyk˛e cz˛estotliwo´sciowa˛ matrycy moz˙ na opisa´c jako w(f, ˆ xa ) =. N X. en (f, xa − nd) .. (2.11). n=0. Korzystajac ˛ z (2.4) otrzymujemy charakterystyk˛e kierunkowa˛ matrycy jako D(f, kx ) =. N X. En (f, kx )e−2πjndkx ,. (2.12). n=0. gdzie En (f, kx ) jest charakterystyka˛ kierunkowa˛ pojedynczego mikrofonu w matrycy. Załóz˙ my, z˙ e mikrofony maja˛ charakterystyk˛e dookólna˛ i (w interesujacym ˛ nas pa´smie) płaska˛ charakterystyk˛e cz˛estotliwo´sciowa˛ (czyli En (f, kx ) = const, ∀f, kx ). W takiej sytuacji cha-.

(23) 23. 2.5. Aliasing przestrzenny. rakterystyka kierunkowa upraszcza si˛e do D(f, kx ) =. N X. e−2πjndkx .. (2.13). n=0. Je´sli we´zmiemy pod uwag˛e jedynie horyzontalny kierunek, z którego dociera sygnał do matrycy, otrzymamy N X −2π (2.14) D(f, kx ) = e λ jndcosφ . n=0. Podsumowujac ˛ powyz˙ sze rozwaz˙ ania, widzimy, z˙ e charakterystyka kierunkowa matrycy dyskretnej zalez˙ y od nast˛epujacych ˛ czynników: • długo´sci fali λ, • ilo´sci mikrofonów N , • odległo´sci pomi˛edzy mikrofonami d. Dla danego urzadzenia ˛ warto´sci N i d sa˛ stałe. Natomiast charakterystyka zmienia si˛e wraz ze zmieniajac ˛ a˛ si˛e cz˛estotliwo´scia.˛ Oznacza to, z˙ e dla róz˙ nych cz˛estotliwo´sci, szeroko´sc´ listka głównego (a tym samym obszar przestrzeni), z którego wychwytywane sa˛ sygnały zmienia si˛e. Dobrze obrazuje to Rysunek 2.7. Inna˛ istotna˛ obserwacja,˛ jaka˛ moz˙ na poczyni´c patrzac ˛ w szczególno´sci na Rysunek 2.7, jest fakt, z˙ e charakterystyka kierunkowa matrycy jest symetryczna wzgl˛edem płaszczyzny samej matrycy. Wynika to z faktu, z˙ e opó´znienia pomi˛edzy mikrofonami b˛eda˛ takie same dla z´ ródła umieszczonego na kierunku φ = 30◦ i dla z´ ródła na kierunku φ = 150◦ .. 2.5. Aliasing przestrzenny Obserwujac ˛ Rysunek 2.7 moz˙ emy zauwaz˙ y´c wyst˛epowanie listków bocznych dla wyz˙ szych cz˛estotliwo´sci. Ich pochodzenie s´ci´sle zwiazane ˛ jest ze zjawiskiem aliasingu, a dokładniej przestrzennym odpowiednikiem aliasingu w dziedzinie czasu. Matryca próbkujac ˛ sygnał w róz˙ nych miejscach przestrzeni, tak naprawd˛e próbkuje ten sam sygnał, ale w róz˙ nych chwilach czasowych. Gdy mamy do czynienia z aliasingiem przestrzennym, matryca nie jest w stanie odróz˙ ni´c, z której strony dotarł do niej d´zwi˛ek o okre´slonej cz˛estotliwo´sci. Analogia˛ do kryterium Niquista [56] z dziedziny cz˛estotliwo´sci b˛edzie tutaj warunek fd =. 1 ≥ 2fdmax , d. (2.15). gdzie fd jest przestrzenna˛ cz˛estotliwo´scia˛ próbkowania, która wzdłuz˙ osi x jest zdefiniowana jako sin θ cos φ (2.16) . fd = λ.

(24) 2.5. Aliasing przestrzenny. 24. Rysunek 2.7: Wykres pomiaru charakterystyki kierunkowej matrycy o aperturze liniowej złoz˙ onej z czterech mikrofonów odległych o 7 cm..

(25) 2.6. Inne apertury matryc wielomikrofonowych. 25. Powyz˙ sza zalez˙ no´sc´ osiaga ˛ maksimum, dla minimalnej długo´sci fali, co prowadzi do stwierdzenia, z˙ e 1 , fdmax = (2.17) λmin co powoduje, z˙ e λmin (2.18) , 2 gdzie λmin jest minimalna˛ długo´scia˛ fali wyst˛epujac ˛ a˛ w rejestrowanym sygnale. Zalez˙ no´sc´ (2.18) znana jest jako twierdzenie o próbkowaniu przestrzennym [40]. Z tego twierdzenia płynie wniosek, z˙ e chcac ˛ uz˙ ywa´c matrycy wielomikrofonowej dla sygnałów o wyz˙ szych cz˛estotliwos´ciach (mniejszych długo´sciach), nalez˙ y zmniejsza´c odległo´sci pomi˛edzy mikrofonami. Nalez˙ y jednak pami˛eta´c o tym, z˙ e zmniejszanie tej odległo´sci wia˛z˙ e si˛e z mniejsza˛ skuteczno´scia˛ działania matrycy dla sygnałów o niz˙ szych cz˛estotliwo´sciach. d<. Jedna˛ z metod ograniczania aliasingu przestrzennego jest wykorzystanie matryc o nierównomiernych odległo´sciach pomi˛edzy mikrofonami. W szczególno´sci zyskały sobie popularno´sc´ matryce o mikrofonach rozmieszczonych losowo. Sa˛ one krótko omówione w dalszej cz˛es´ci rozdziału.. 2.6. Inne apertury matryc wielomikrofonowych Spo´sród wszystkich rodzajów matryc wielomikrofonowych najszersze zastosowanie znajduja˛ matryce liniowe o mikrofonach rozmieszczonych równomiernie. Na tego typu matrycy została wykonana wi˛ekszo´sc´ pomiarów, których wyniki zostały przedstawione w niniejszej pracy. Popularno´sc´ matryc liniowych wynika przede wszystkim z faktu, z˙ e moga˛ by´c umieszczone w wygodnej, podłuz˙ nej obudowie lub, co jest coraz cz˛es´ciej spotykane, w ramce ekranu komputera przeno´snego. Dodatkowym argumentem za uz˙ yciem matryc liniowych jest fakt, z˙ e wi˛ekszo´sc´ zjawisk zwiazanych ˛ z technologia˛ mowy odbywa si˛e w jednej płaszczy´znie. Usta ludzi siedzacych ˛ przed komputerami lub wokół stołu konferencyjnego umieszczone sa˛ na jednym poziomie. A zatem efektywno´sc´ matrycy liniowej jest w wi˛ekszo´sci takich sytuacji wystarczajaca. ˛ Dla porzadku ˛ jednak wspomnie´c nalez˙ y o innych aperturach matryc wielomikrofonowych. Głównym podziałem matryc jest ich rozróz˙ nienie ze wzgl˛edu na ilo´sc´ wymiarów, w których rozmieszczone sa˛ mikrofony. W tym zakresie moz˙ emy wyróz˙ ni´c: • Matryce liniowe – podstawowy i najbardziej popularny rodzaj macierzy mikrofonowej, w którym mikrofony umieszczone sa˛ w jednej linii. Przykład takiej matrycy został zaprezentowany na Rysunku 2.1. • Matryce dwuwymiarowe – w przypadku tych matryc mikrofony rozmieszczone sa˛ na wspólnej płaszczy´znie. Najcz˛es´ciej na planie prostokata. ˛ W ramach prac nad doktoratem wykonano tego typu matryc˛e (Rysunek 2.8). Znajduja˛ one zastosowanie w tworzeniu map hałasu, diagnostyce akustycznej..

(26) 2.6. Inne apertury matryc wielomikrofonowych. 26. • Matryce przestrzenne – matryce, w których mikrofony rozmieszczone sa˛ w trzech wymiarach. Znajduja˛ one zastosowanie przede wszystkim w pomiarach akustycznych, gdzie istotny jest pomiar całej przestrzennej sceny akustycznej (pomiary akustyki sal koncertowych i audytoryjnych). Ze wzgl˛edu na odległo´sci pomi˛edzy mikrofonami moz˙ emy wyróz˙ ni´c: • Matryce o mikrofonach rozmieszczonych równomiernie (ang. equispaced) - Podstawowy rodzaj macierzy mikrofonowej, w którym mikrofony umieszczone sa˛ w równych odległo´sciach od siebie. Ze wzgl˛edu na prostot˛e konstrukcji i algorytmów przetwarzania sygnałów jest to najcz˛es´ciej stosowany rodzaj apertury. • Matryce o mikrofonach rozmieszczonych logarytmicznie (ang. logarithmically spaced) Sposobem na poradzenie sobie z problemem aliasingu przestrzennego przy jednoczesnym zachowaniu wysokiej rozdzielczo´sci przestrzennej dla duz˙ ych długo´sci fal jest uz˙ ycie matrycy, w której odległo´sci pomi˛edzy mikrofonami sa˛ nierównomierne. Jednym z moz˙ liwych rozwiaza´ ˛ n jest rozmieszczenie mikrofonów w ten sposób, z˙ e odległo´sci pomi˛edzy kolejnymi parami rosna˛ logarytmicznie [42]. • Matryce o mikrofonach rozmieszczonych losowo (ang. randomly spaced) - W tej grupie macierzy, mikrofony umieszczone sa˛ w losowych odległo´sciach od siebie. Zabieg ten duz˙ o cz˛es´ciej spotykany jest w macierzach dwuwymiarowych i jest bardzo dobrym sposobem na ustrzez˙ enie si˛e przed aliasingiem przestrzennym i uzyskanie stałej charakterystyki kierunkowej w szerokim zakresie cz˛estotliwo´sci [34]. Zalety tego rozwiazania ˛ dostrzez˙ ono juz˙ w latach 60-tych XX wieku podczas prac nad matrycami anten radiowych [52, 1]. Porównanie działania poszczególnych typów rozmieszczenia mikrofonów znajduje si˛e w [4]. W ostatnich latach zyskuja˛ na popularno´sci rozwiazania, ˛ w których rozmieszczenie mikrofonów jest wynikiem optymalizacji, w której pozycje poszczególnych mikrofonów sa˛ parametrami, a wska´znikiem jako´sci róz˙ nica pomi˛edzy charakterystyka˛ zadana,˛ a uzyskana˛ w danej konfiguracji mikrofonów [45, 41]. Tego typu optymalizacja pozwala precyzyjnie kontrolowa´c zarówno połoz˙ enie i szeroko´sc´ listka głównego, jak i tłumi´c sygnały pochodzace ˛ z okre´slonych kierunków, w których znajduja˛ si˛e z´ ródła zakłóce´n. Wszystko to odbywa si˛e w dobrze okre´slonym zakresie cz˛estotliwo´sci. Połoz˙ enia mikrofonów w takiej zoptymalizowanej, matrycy wydaja˛ si˛e by´c losowe, ale gdy porównamy jej charakterystyk˛e z charakterystyka˛ matrycy o sensorach rozmieszczonych losowo, wida´c znaczac ˛ a˛ popraw˛e [18]..

(27) 2.6. Inne apertury matryc wielomikrofonowych. 27. Rysunek 2.8: Dwuwymiarowa matryca wielomikrofonowa złoz˙ ona z 16 mikrofonów wykonana przez autora pracy..

(28) 3. Lokalizacja z´ ródeł akustycznych. Lokalizacja z´ ródeł akustycznych jest jednym z najwaz˙ niejszych zastosowa´n wielosensorowych systemów akustycznych (w szczególno´sci matryc wielomikrofonowych). Równocze´snie procedura ta jest pierwszym krokiem działania wi˛ekszo´sci bardziej złoz˙ onych algorytmów poprawiajacych ˛ sygnał mowy. W wi˛ekszo´sci wypadków lokalizacja z´ ródła polega na wyznaczeniu kierunku (lub kierunków), z których d´zwi˛ek dociera do matrycy wielomikrofonowej (ang. direction of arrival, DOA). W przypadku uz˙ ycia wi˛ecej niz˙ dwóch mikrofonów, wyznaczy´c moz˙ na DOA dla kaz˙ dej pary mikrofonów, a nast˛epnie przy uz˙ yciu omówionych w tym rozdziale metod okre´sli´c połoz˙ enie z´ ródła. Aby okre´sli´c kierunek, z którego docieraja˛ do odbiornika sygnały konieczne jest wykorzystanie odbiornika kierunkowego (na tej zasadzie działa radar) lub kilku odbiorników oraz wyznaczenie róz˙ nic w czasie dotarcia sygnału do poszczególnych czujników. Druga moz˙ liwo´sc´ niesie za soba˛ wi˛ecej zalet. Przede wszystkim nie wymaga ciagłego ˛ „przeczesywania” przestrzeni wokół nadajnika, ale umoz˙ liwia natychmiastowe wykrycie kierunku, z którego docieraja˛ d´zwi˛eki. Współczesne algorytmy słuz˙ ace ˛ do lokalizowania z´ ródeł inspirowane sa˛ działaniem naszego słuchu. Otóz˙ mózg analizuje sygnały docierajace ˛ do uszu i wykrywa subtelne róz˙ nice mi˛edzy nimi, wynikajace ˛ z tego, z˙ e d´zwi˛ek ze z´ ródła umieszczonego po lewej stronie dociera najpierw do lewego ucha, a nast˛epnie do prawego. Rozwaz˙ my zalez˙ no´sc´ d t= , c. (3.1). gdzie d jest odległo´scia˛ mi˛edzy uszami, a c jest pr˛edko´scia˛ rozchodzenia si˛e rozwaz˙ anej fali. Podstawiajac ˛ do wzoru 3.1 odpowiednie warto´sci liczbowe otrzymujemy t=. 0,2 m ≈ 0,0006 s. 340 m/s. (3.2). Jak wida´c, róz˙ nice te nie przekraczaja˛ ułamków milisekund [31]. Warto´sc´ ta nazywana jest w literaturze mi˛edzyuszna˛ róz˙nica˛ czasu (ang. interaural time difference, ITD). Odpowiednikiem ITD dla systemu wielomikrofonowego b˛edzie wielko´sc´ nazywana róz˙ nica˛ w czasie dotarcia (time difference of arrival, TDOA). A zatem, podobnie jak w przypadku odpowiednika w natu28.

(29) 3.1. Korelacja wzajemna w dziedzinie czasu. 29. rze, wyznaczenie kierunku, z którego dociera d´zwi˛ek do matrycy sprowadza si˛e do wyznaczenia róz˙ nic w czasie dotarcia sygnału generowanego przez z´ ródło do poszczególnych sensorów. Ogólnym schematem, który pozwala na wyznaczenie TDOA jest obliczenie korelacji pomi˛edzy sygnałami docierajacymi ˛ do dwóch sensorów, a nast˛epnie znalezienie maksimum owej korelacji. Jak zostało wspomniane, równiez˙ cyfrowe algorytmy lokalizacji z´ ródeł akustycznych opieraja˛ si˛e na korelacji. W podstawowej wersji jest to korelacja liczona w dziedzinie czasu. Natomiast bardziej wyszukanym algorytmem jest algorytm uogólnionej korelacji wzajemnej (ang. generalized cross-correlation, GCC), w którym wykorzystywane sa˛ odpowiednie funkcje normalizujace. ˛ W niniejszym rozdziale posługiwa´c si˛e b˛edziemy naprzemiennie opisami w dziedzinie cia˛ głej i dyskretnej. Tam, gdzie mówi´c b˛edziemy o modelu matematycznym zjawiska pojawia´c si˛e b˛edzie opis w ciagłej ˛ dziedzinie czasu. Natomiast tam, gdzie b˛edziemy bliz˙ ej implementacji, wygodniej b˛edzie posługiwa´c si˛e opisem w dziedzinie dyskretnej.. 3.1. Korelacja wzajemna w dziedzinie czasu Podstawowa˛ metoda˛ okre´slenia kierunku, z którego dociera d´zwi˛ek do matrycy wielomikrofonowej jest wykrycie róz˙ nic czasowych pomi˛edzy sygnałami docierajacymi ˛ do poszczególnych mikrofonów. Rozwaz˙ my matryc˛e składajac ˛ a˛ si˛e z dwóch mikrofonów m1 oraz m2 oraz docierajacy ˛ do niej sygnał generowany przez z´ ródło s1 . Sytuacj˛e opisuje model m1 (t) = s1 (t) + n1 (t), m2 (t) = s1 (t + τ0 ) + n2 (t),. (3.3). gdzie n1 i n2 sa˛ niezalez˙ nymi od siebie, nieskorelowanymi szumami, a τ0 wynika z róz˙ nej odległo´sci pomi˛edzy z´ ródłem, a mikrofonami. Parametr τ0 odpowiada´c b˛edzie TDOA. Model przedstawiony w równaniu (3.3) nie uwzgl˛ednia zjawisk zwiazanych ˛ z odbiciami. A zatem opisuje sytuacj˛e podobna˛ do tej, z która˛ mamy do czynienia w komorze bezechowej. Aby znale´zc´ przesuni˛ecie pomi˛edzy sygnałami wykorzystamy korelacj˛e wzajemna˛ dwóch sygnałów. Korelacja wzajemna jest odpowiednikiem korelacji znanej ze statystyki, ale pozbawionym odejmowania s´redniej oraz bez dzielenia przez wariancj˛e [7]. Dla podkre´slenia tego skojarzenia b˛edziemy funkcj˛e korelacji wzajemnej oznacza´c litera˛ R. Metoda korelacji wzajemnej jest bardzo popularnym narz˛edziem w technice sonarowej [83]. Załóz˙ my, z˙ e mamy dwa sygnały m1 i m2 przesuni˛ete wzgl˛edem siebie o pewne τ0 , a naszym celem jest uzyskanie estymacji parametru τ0 . Najcz˛es´ciej mamy do czynienia z sygnałami w pewien sposób zakłóconymi, a obecno´sc´ duz˙ ej ilo´sci szumu moz˙ e znaczaco ˛ zmniejsza´c dokładno´sc´ estymacji parametru..

(30) 30. 3.1. Korelacja wzajemna w dziedzinie czasu. 60. 40. Rm1,m2 (τ). 20. 0. -20. -40. -60 -1000. -500. 0. 500. 1000. τ. Rysunek 3.1: Warto´sci korelacji wzajemnej w funkcji przesuni˛ecia w dziedzinie czasu pomi˛edzy sygnałami.. Estymacj˛e parametru τ0 rozpoczynamy od wyznaczenia funkcji korelacji wzajemnej pomi˛edzy sygnałami m1 i m2 . Sprowadza´c si˛e ona b˛edzie do obliczenia splotu Rm1 ,m2 (τ ) =. X. m1 (n)m2 (n − τ ). (3.4). n. pomi˛edzy wektorami zawierajacymi ˛ sygnały m1 i m2 dla róz˙ nych przesuni˛ec´ τ . Zgodnie z modelem (3.3) moz˙ emy to zapisa´c jako Rm1 ,m2 (τ ) = Rs1 ,s1 (τ + τ0 ) + Rs1 ,n2 (τ ) + Rn1 ,s1 (τ + τ0 ) + Rn1 ,n2 (τ ).. (3.5). Zakładajac, ˛ z˙ e szumy n1 (t) i n2 (t) nie sa˛ skorelowane z sygnałem s1 (t) otrzymujemy ostatecznie zalez˙ no´sc´ Rm1 ,m2 (τ ) = Rs1 ,s1 (τ + τ0 ) + Rn1 ,n2 (τ ).. (3.6). Przykład takiej funkcji został przedstawiony na Rysunku 3.1 [66]. Widoczne jest wyra´zne maksimum funkcji przy przesuni˛eciu równym 80 próbkom. W naszym rozwaz˙ aniu τ0 moz˙ na wyznaczy´c jako [7] τ0 = c arg max Rm1 ,m2 (τ ). (3.7) τ.

(31) 31. 3.2. Uogólniona korelacja wzajemna. s1. HH HH. H HH θ HH H H H HH HH jhm2 H H  HH H  H jhm1 H H Y j H. H. 6. d. ?. r1,2 ˙ Rysunek 3.2: Matryca złozona z dwóch mikrofonów oraz z´ ródło, z którego d´zwi˛ek dociera pod nieznanym katem θ. Przesuni˛ecie to przekłada si˛e, oczywi´scie, na konkretna˛ róz˙ nic˛e w odległo´sci, która˛ wyznaczy´c moz˙ emy ze wzoru r1,2 = cτ0 . (3.8) Wró´cmy jeszcze raz do sytuacji omówionej w Rozdziale 2 i przedstawionej na Rysunku 3.2. Zakładajac, ˛ z˙ e odległo´sci z´ ródła od mikrofonów sa˛ duz˙ o wi˛eksze niz˙ odległo´sc´ mi˛edzy mikrofonami, moz˙ emy w łatwy sposób przełoz˙ y´c róz˙ nic˛e w odległo´sci r1,2 na kat ˛ θ = arccos. r. 1,2. d. . .. (3.9). Patrzac ˛ na Rysunek 3.1 daje si˛e zauwaz˙ y´c wyra´zne maksimum funkcji przy przesuni˛eciu równym 80 próbkom. Poza tym widoczne jest wyra´zne minimum bezpo´srednio w pobliz˙ u maksimum. Obecno´sc´ tego minimum wynika z faktu, z˙ e sygnał mowy ma charakter zbliz˙ ony do okresowego, a co za tym idzie po przesuni˛eciu sygnału m2 o pół takiego okresu otrzymujemy warto´sc´ iloczynu skalarnego z odwróconym znakiem. Okresowo´sc´ tych sygnałów powoduje równiez˙ , z˙ e obok maksimum globalnego odpowiadajacemu ˛ odpowiedniemu przesuni˛eciu pomi˛edzy sygnałami, pojawiaja˛ si˛e dodatkowe maksima lokalne, w odległo´sci równej długo´sci okresu sygnałów. Obecno´sc´ szumu powoduje, z˙ e moga˛ one by´c wi˛eksze niz˙ maksimum wynikajace ˛ z róz˙ nicy odległo´sci od z´ ródła d´zwi˛eku. Dodatkowo, w całym przebiegu funkcji, widoczny jest wpływ szumu, który wyst˛epuje w obu sygnałach m1 i m2 (komponent Rn1 ,n2 (τ )). Pewnym remedium na te problemy jest uogólniona korelacja wzajemna.. 3.2. Uogólniona korelacja wzajemna Jak wspomnieli´smy powyz˙ ej zwykła korelacja wzajemna w dziedzinie czasu ma szereg wad, którym moz˙ emy zaradzi´c stosujac ˛ uogólniona˛ korelacj˛e wzajemna˛ zaproponowana˛ przez Knappa w roku 1976 [44, 7]. Zwykle definiuje si˛e ja˛ w dziedzinie cz˛estotliwo´sci. Z dwóch powodów. Po pierwsze w ten sposób najcz˛es´ciej jest implementowana ze wzgl˛edu na obecno´sc´ szybkiej transformacji Fouriera na procesorach sygnałowych. Po drugie ze wzgl˛edu na fakt, z˙ e w dziedzinie cz˛estotliwo´sci zdefiniowane sa˛ funkcje normalizacyjne..

(32) 32. 3.3. Normalizacja Rotha. Transformacja Fouriera dla równania (3.6) daje Gm1 ,m2 (f ) = Gs1 ,s1 (f )eπjf τ0 + Gn1 ,n2 (f ).. (3.10). Uogólniona korelacja wzajemna to taka, która posiada pewien człon normalizujacy ˛ (weighting function). Po dodaniu takiego członu zalez˙ no´sc´ (3.6) przyjmuje posta´c ∞. Z R1,2 (τ ) =. W (f )Gm1 ,m2 (f )e2πjτ df. (3.11). W (f )mˆ1 (f )mˆ2 ∗ (f )e2πjτ df,. (3.12). Z−∞ ∞ = −∞. gdzie mˆ1 (f ) i mˆ2 (f ) sa˛ odpowiednio transformatami Fouriera sygnałów m1 (t) i m2 (t), a ∗ oznacza sprz˛ez˙ enie zespolone. Dobór odpowiedniej funkcji waz˙ acej ˛ W (f ) zalez˙ ny jest od warunków, w których odbywa si˛e lokalizacja oraz od zasobów sprz˛etowych, którymi dysponujemy, jako z˙ e obliczenie niektórych spo´sród funkcji waz˙ acych ˛ jest znacznie bardziej złoz˙ one niz˙ pozostałych. Obliczenie przesuni˛ecia r1,2 przebiega w przypadku GCC dokładnie tak samo, jak w przypadku korelacji wzajemnej w dziedzinie czasu i sprowadza si˛e do znalezienia takiego τ0 , dla którego warto´sc´ funkcji Rm1 ,m2 (τ ) jest najwi˛eksza. Funkcje waz˙ ace ˛ stosowane w uogólnionej korelacji wzajemnej zostały omówione w klasycznej dla tej dziedziny pozycji [7]. Najwaz˙ niejsze z nich przytoczone zostały w dalszej cz˛es´ci rozdziału. Najlepsze rezultaty uzyskane zostały z wykorzystaniem transformacji PHAT omówionej we wspomnianej ksia˛z˙ ce w rozdziale 9.4.3. Argumenty, które przemawiaja˛ za tym wyborem zostały przytoczone poniz˙ ej.. 3.3. Normalizacja Rotha Podstawowa z funkcji waz˙ acych ˛ dla GCC, normalizacja Rotha, została zaproponowana przez Petera Rotha z Hewlett-Packard w 1971 [63] W (f ) =. 1 Gm1 ,m1 (f ). .. (3.13). Po uwzgl˛ednieniu tej funkcji normalizujacej, ˛ GCC przyjmuje posta´c Z. ∞. Gm1 ,m2 (f ) 2πjτ e df, Gm1 ,m1 (f ). (3.14). Gm1 ,m2 (f ) e2πjτ df. Gs1 ,s1 (f ) + Gn1 ,n1 (f ). (3.15). Rm1 ,m2 (τ ) = −∞. czyli Z. ∞. Rm1 ,m2 (τ ) = −∞.

(33) 33. 3.4. Wygładzona transformacja koheretna. W ten sposób zdefiniowana korelacja wzajemna pozwala zniwelowa´c wpływ szumu n1 poprzez stłumienie w widmie tych cz˛estotliwo´sci, dla których jego g˛esto´sc´ widmowa jest duz˙ a.. 3.4. Wygładzona transformacja koheretna Pewnym uogólnieniem normalizacji Rotha jest wygładzona transformacja koherentna (ang. Smoothed Coherence Transform, SCOT) zaproponowana przez Cartera w 1973 [14] 1 . Gm1 ,m1 (f )Gm2 ,m2 (f ). W (f ) = p. (3.16). Zwró´cmy uwag˛e, z˙ e gdy Gm1 ,m1 (f ) jest identyczne, jak Gm2 ,m2 (f ), to transformacja ta sprowadza si˛e do normalizacji Rotha. Po uwzgl˛ednieniu tej funkcji normalizujacej, ˛ GCC przyjmuje posta´c Z ∞ Gm1 ,m2 (f ) p Rm1 ,m2 (τ ) = e2πjτ df. (3.17) Gm1 ,m1 (f )Gm2 ,m2 (f ) −∞ Podobnie jak normalizacja Rotha, równiez˙ SCOT pozwala na zniwelowanie wpływu komponentów szumu w najbardziej zaszumionych pasmach.. 3.5. Transformacja fazowa Ostatnia˛ z najcz˛es´ciej stosowanych w towarzystwie GCC funkcji waz˙ acych ˛ jest transformacja fazowa (phase transform, PHAT) zaproponowana w tym kontek´scie przez autorów samej GCC [44] 1 , (3.18) W (f ) = |Gm1 ,m2 (f )| Z ∞ Gm1 ,m2 (f ) + Gn1 ,n2 (f ) 2πjτ Rm1 ,m2 (τ ) = e df. (3.19) −∞ |Gs1 ,s2 (f ) + Gn1 ,n2 (f )| Warto zwróci´c uwag˛e, z˙ e w sytuacji, gdy szumy docierajace ˛ do mikrofonów nie sa˛ ze soba˛ skorelowane tzn. Gn1 ,n2 (f ) = 0, równanie (3.19) przyjmuje posta´c Z. ∞. Rm1 ,m2 (τ ) = −∞. Gm1 ,m2 (f ) 2πjτ e df = |Gm1 ,m2 (f )|. Z. ∞. e2πjf τ0 e2πjf τ df = δ(τ − τ0 ),. (3.20). −∞. co odpowiada sytuacji, w której z´ ródło nadało sygnał impulsowy. Wyniki wcze´sniejszych prac pokazuja,˛ z˙ e transformacja PHAT najlepiej nadaje si˛e równiez˙ do przetwarzania sygnału mowy [7, 15], w szczególno´sci w typowych s´rodowiskach, w których mamy do czynienia z umiarkowanym poziomem zakłóce´n [64]. Transformacja PHAT ma równiez˙ niewielkie wymagania je´sli chodzi o zasoby obliczeniowe, co sprawia, z˙ e jest dobrym kandydatem do wszystkich rozwiaza´ ˛ n, które docelowo maja˛ by´c stosowane jako systemy wbudowane. Wła´snie ze wzgl˛edu na stosunkowo duz˙ a˛ odporno´sc´ na zakłócenia wynikajace ˛ z wie-.

(34) 34. 3.6. Filtracja adaptacyjna. s1. H HH. H HH θ HH H HH HH H H H jhm2- Adaptacyjny FIR H HH  H HH  . H jhm1 H H Y j H. . P − -.  + 6. r1,2. Rysunek 3.3: Matryca złoz˙ ona z dwóch mikrofonów wraz z filtrem adaptacyjnym typu FIR wpi˛etym do jednego z kanałów.. lo´sciez˙ kowej propagacji sygnału i niewielka˛ złoz˙ ono´sc´ obliczeniowa,˛ PHAT jest najcz˛es´ciej uz˙ ywany jako funkcja skalujaca ˛ GCC. Równiez˙ te argumenty zadecydowały o wyborze PHAT jako funkcji transformujacej ˛ w uogólnionej korelacji wzajemnej w naszym systemie.. 3.6. Filtracja adaptacyjna Alternatywna˛ metoda˛ znalezienia przesuni˛ecia pomi˛edzy sygnałami jest wykorzystanie filtracji adaptacyjnej. Samo zagadnienie filtracji adaptacyjnej zostanie szerzej omówione w Rozdziale 4. W tym miejscu skoncentrujemy si˛e na konkretnym zastosowaniu algorytmów adaptacyjnych. Rozwaz˙ my ponownie przypadek pokazany na Rysunku 3.2. Tym razem z jednym z dwóch mikrofonów stowarzyszony b˛edzie filtr o sko´nczonej odpowiedzi impulsowej (finite impulse response, FIR) skonstruowany w ten sposób, aby po przefiltrowaniu sygnał z pierwszego mikrofonu m1 jak najbardziej, w sensie bł˛edu s´redniokwadratowego, przypominał sygnał pochodzacy ˛ z drugiego mikrofonu m2 (Rysunek 3.3). Taka˛ architektur˛e nazywamy filtrem adaptacyjnym. Zostanie ona szerzej omówiona w Rozdziale 4. Tam równiez˙ przedstawione zostana˛ róz˙ ne metody adaptacji współczynników filtru. Poczatkowo ˛ współczynniki filtru zainicjalizowane sa˛ warto´sciami losowymi lub pewna˛ warto´scia˛ stała.˛ Po uruchomieniu filtru, współczynniki podlegaja˛ procesowi optymalizacji, podczas którego znajdowana jest taka ich kombinacja, która powoduje jak najlepsze, w sensie bł˛edu s´redniokwadratowego, dopasowanie sygnałów m1 i m2 do siebie. Taka˛ sytuacj˛e, w dziedzinie cz˛estotliwo´sci opisuje równanie ˆ ) + eˆ(f ). mˆ1 (f ) = mˆ2 (f )h(f. (3.21).

(35) 35. 3.6. Filtracja adaptacyjna. Rysunek 3.4: Zmieniajace ˛ si˛e w czasie warto´sci współczynników filtru adaptacyjnego. Warto´sci stabilizuja˛ si˛e po ok. 1 sekundzie działania układu.. Zakładajac, ˛ z˙ e udało si˛e zniwelowa´c całkowicie bład ˛ eˆ(f ) dopasowania sygnałów do siebie, a sygnał m1 jest po prostu opó´znionym sygnałem m2 moz˙ emy zapisa´c 2πjτ0 f ˆ ) = mˆ1 (f ) = mˆ2 (f )e = e2πjτ0 f , h(f mˆ2 (f ) mˆ2 (f ). (3.22). h(t) = δ(t − τ0 ).. (3.23). a w dziedzinie czasu. Oznacza to, z˙ e w idealnej (pozbawionej szumu i niekorzystnych zjawisk akustycznych) sytuacji moz˙ emy spodziewa´c si˛e, z˙ e warto´sci współczynników filtru h w dziedzinie czasu b˛eda˛ miały wyra´zne maksimum w miejscu odpowiadajacym ˛ przesuni˛eciu pomi˛edzy sygnałami. Na Rysunku 3.4 widoczny jest przykład sytuacji, w której współczynniki filtru zainicjalizowane zerami wraz z działaniem filtru dopasowuja˛ si˛e tak, aby ostatecznie około 1 sekundy po uruchomieniu filtru wskaza´c odpowiednie przesuni˛ecie. Na Rysunku 3.5 widoczne sa˛ wła´snie te współczynniki filtru po 1 sekundzie działania algorytmu. Widoczne jest wyra´zne maksimum w okolicy 85 współczynnika filtru. Przełoz˙ enie tej warto´sci na odległo´sc´ wynika z zalez˙ no´sci r1,2 = c. p1,2 , fs. (3.24). gdzie c jest pr˛edko´scia˛ d´zwi˛eku w danym o´srodku, p1,2 indeksem maksimum wyraz˙ onym w ilos´ci próbek, a fs jest cz˛estotliwo´scia˛ próbkowania. A zatem maksimum widoczne na Rysunku 3.5 przy próbkowaniu 44100 Hz przekłada si˛e na róz˙ nic˛e odległo´sci wynoszac ˛ a˛ 65 cm..

(36) 36. 3.6. Filtracja adaptacyjna. 0.02. 85 samples ↔ 63 cm. 0.015 0.01 0.005 0 -0.005 -0.01 -0.015. 0. 20. 40 60 Filter Coefficients. 80. 100. Rysunek 3.5: Warto´sci współczynników filtru adaptacyjnego po 44100 próbkach (1 sekunda). Widoczne jest wyra´zne maksimum, które odpowiada róz˙ nicy odległo´sci pomi˛edzy mikrofonami a lokalizowanym z´ ródłem..

(37) 37. 3.7. Wykorzystanie wielu par mikrofonów. Oczywi´scie zamiast kryterium LMS moz˙ e zosta´c uz˙ yte inne kryterium optymalizacyjne, co moz˙ e prowadzi´c, w danej sytuacji, do innych rezultatów [37].. 3.7. Wykorzystanie wielu par mikrofonów Przedstawione powyz˙ ej algorytmy opieraja˛ si˛e na informacjach pochodzacych ˛ z dwóch mikrofonów. Współczesne systemy wielomikrofonowe, równiez˙ te b˛edace ˛ przedmiotem bada´n opisanych w niniejszej pracy składaja˛ si˛e z wi˛ecej niz˙ dwóch mikrofonów. Zwi˛ekszenie ilos´ci mikrofonów pozytywnie wpływa na efektywno´sc´ i dokładno´sc´ lokalizacji, w szczególno´sci w sytuacjach, gdy mamy do czynienia z wysokim poziomem szumu. Jak zatem wykorzysta´c ten fakt do zwi˛ekszenia dokładno´sci okre´slenia TDOA? Najłatwiejsze podej´scie zakłada interpretacj˛e takiego wielomikrofonowego systemu jako wielu par mikrofonów. Aby to zilustrowa´c wyobra´zmy sobie matryc˛e mikrofonowa˛ o aperturze liniowej złoz˙ ona˛ z trzech mikrofonów m1 , m2 i m3 . Dzi˛eki niej wyznaczy´c moz˙ emy trzy TDOA: τ1,2 - przesuni˛ecie pomi˛edzy mikrofonem pierwszym i drugim, τ2,3 oraz τ1,3 . Moz˙ na zauwaz˙ y´c, z˙ e wspomniane trzy przesuni˛ecia nie sa˛ od siebie niezalez˙ ne. Konkretnie, je´sli z´ ródło sygnału znajduje si˛e w polu dalekim (a taka˛ sytuacj˛e załoz˙ yli´smy) wida´c, z˙ e τ3,1 = τ1,2 + τ2,3 . Problem wyznaczania TDOA przy uz˙ yciu wielu mikrofonów moz˙ na sformułowa´c jako R(s) =. P X P Z X a=1 b=1. ∞. W (f )mˆa (f )m ˆb ∗ (f )e2πj(τa −τb ) df,. (3.25). −∞. gdzie τa i τb sa,˛ zalez˙ nymi od połoz˙ enia s czasami, po których sygnał dociera od z´ ródła do, odpowiednio, mikrofonów a i b. Standardowe podej´scie przewiduje maksymalizacj˛e wartos´ci powyz˙ szego równania poprzez testowanie hipotez na temat potencjalnego połoz˙ enia z´ ródła s. Kaz˙ de z testowanych połoz˙ e´n wia˛z˙ e si˛e z odpowiednimi hipotezami na temat τi i τj , co pozwala na obliczenie warto´sci R(s). Przy załoz˙ eniu W (f ) = 1, otrzymujemy

(38) P

(39) 2

(40) X

(41)

(42) 2πjτi

(43) m ˆ i (f )e R(s) =

(44)

(45) df.

(46) −∞

Cytaty

Powiązane dokumenty

1. Zapis taki powinien się składać z następujących elementów ujętych w nawiasie kwadratowym: nazwisko autora cytowanej pracy, rok wydania publikacji i strona / strony, np.

W poniższej tabeli przedstawiono rozkład procentowy ich odpowiedzi (gwiazdką oznaczono od- powiedź poprawną). Naj- częściej wybieranym dystraktorem była odpowiedź A –

Uczestnicy przedsięwzięcia – dzieci, młodzież i ich ro- dzice i opiekunowie – będą mogli wziąć udział w krót- kich wykładach, warsztatach praktycznych, zajęciach

Ufam, że wyniki naszych badań choć w niewielkim stopniu przyczynią się do poznania wspaniałego daru języka, który dany jest człowiekowi i wspólnocie dla realizacji

Dysfunctions of the mitochondrial proteins lead to the mitochondrial diseases, which can be caused by muta- tions in mtDNA as well as in the nuclear genes.. Clinical features of

Obawy przed marginalizacją języka, jak i próby wyjaśniania, że będzie on jednym z języków urzędowych w Unii, to najczęściej pojawiające się tematy, które można odnaleźć

Only those countries whose average were significantly lower than the OECD average (Kazakhstan, Turkey, Qatar and the United Arab Emir- ates) showed a higher rate of change then

The aim of this research was to examine how critical thinking at junior high school level can be developed using the Internet as a source of information.. A group of second