W niniejszej pracy opisane zostały główne mo˙zliwo´sci zastosowa´n matryc wielomikrofo-nowych w technologii mowy, a w szczególno´sci w rozpoznawaniu mówcy i diaryzacji nagra´n. Głównym celem niniejszej pracy było rozwini˛ecie opisywanych wcze´sniej w literaturze [58, 78] systemów diaryzacji nagra´n bazuj ˛acych na wykorzystaniu jednocze´snie informacji bazuj ˛acej na cechach cz˛estotliwo´sciowych i poło˙zeniu mówcy (MFCC-TDOA). Zastosowane zostało, po-dobnie jak we wspomnianych pracach, modelowanie bazuj ˛ace na miksturach gaussowskich. Nowo´sci ˛a jest zastosowanie dynamicznego doboru proporcji pomi˛edzy informacj ˛a pochodz ˛ac ˛a z poszczególnych strumieni w zale˙zno´sci od warunków akustycznych. Wyniki zaprezentowane w pracy pokazuj ˛a, ˙ze ilo´s´c bł˛ednie opisanych ramek (DER) spada nawet o 30% w stosunku do systemu ze stał ˛a proporcj ˛a pomi˛edzy strumieniami informacji. Autor wykazał, ˙ze w trudnych warunkach akustycznych korzystniejsze jest oparcie si˛e w wi˛ekszym stopniu o cechy cz˛esto-tliwo´sciowe (MFCC). Wraz z popraw ˛a SNR w coraz wi˛ekszym stopniu wł ˛acza´c mo˙zna cechy zwi ˛azane z poło˙zeniem (TDOA).

Dzi˛eki zaproponowanej przez autora pracy fuzji informacji cz˛estotliwo´sciowej i zwi ˛azanej z poło˙zeniem mówcy z dynamicznie zmieniaj ˛ac ˛a si˛e proporcj ˛a, uzyskane za pomoc ˛a opisy-wanego wcze´sniej algorytmu MFCC-TDOA wyniki zostały znacznie poprawione. Dodatkowo wykazana została wi˛eksza ni˙z klasycznych rozwi ˛aza´n, odporno´s´c autorskiego algorytmu na zakłócenia. Wyniki te s ˛a interesuj ˛ace bior ˛ac pod uwag˛e coraz szersze wykorzystanie matryc wielomikrofonowych w urz ˛adzeniach mobilnych, które ze swojej natury nie pracuj ˛a w stacjo-narnych warunkach szumowych. Co istotne, przedstawione wyniki s ˛a efektem eksperymentów przeprowadzonych w nieprzystosowanych akustycznie pomieszczeniach bardzo zbli˙zonych do tych, w których docelowo b˛ed ˛a działa´c zaproponowane przez autora algorytmy. Niebadane dotychczas w tym kontek´scie wykorzystanie matrycy wielomikrofonowej jest zatem w pełni uzasadnione. Przede wszystkim pod k ˛atem wdro˙zeniowym, poniewa˙z ze wzgl˛edu na niewielki koszt sensorów d´zwi˛eku zwi˛ekszanie ich liczby w urz ˛adzeniach elektronicznych jest ekono-micznie uzasadnione.

Spadaj ˛ace ceny mikrofonów wykonanych w technologii MEMS powoduj ˛a, ˙ze coraz cz˛e´sciej urz ˛adzenia mobilne wyposa˙zane s ˛a w coraz wi˛eksz ˛a liczb˛e mikrofonów. Jak podaje raport firmy IHS z 2014 roku [12], całkowita sprzeda˙z tego typu sensorów wzrosła z 1,9 miliarda sztuk w 2013 do 2,6 miliarda sztuk w 2014. Raport prognozuje, ˙ze do 2017 roku roczna sprzeda˙z


mikrofonów wzro´snie do 5,4 miliarda sztuk rocznie. Taka tendencja pozwala przypuszcza´c, ˙ze wszelkie rozwi ˛azania algorytmiczne oparte o wykorzystanie systemów wielomikrofonowych znajd ˛a w najbli˙zszych latach coraz wi˛eksze zastosowanie.

Przedstawione rozwi ˛azanie b˛edzie dalej rozwijane zarówno od strony algorytmicznej, jak i wdro˙zeniowej, co zaowocuje powstaniem protypu demonstracyjnego. Dalszemu rozwojowi z pewno´sci ˛a poddane b˛ed ˛a metody fuzji decyzji tak, aby jeszcze zwi˛ekszy´c efektywno´s´c re-akcji algorytmu na zmieniaj ˛ace si˛e warunki akustyczne. Wnikliwiej zostanie równie˙z zbadany wpływ liczby mikrofonów w matrycy na skuteczno´s´c pracy systemu. W ramach tych prac zba-dane zostan ˛a równie˙z inne topologie rozmieszczenia mikrofonów. W tym równie˙z rozmieszcze-nie losowe. Przetestowane b˛ed ˛a inne (poza GMM) metody modelowania poło˙zenia mówców. Dalsza poprawa skuteczno´sci działania systemu b˛edzie mogła by´c dokonana poprzez zastoso-wanie w fuzji innych algorytmów rozpoznawania mówcy (np. opartych o iVectors) oraz innych metod fuzji decyzji (np. opartych o gł˛ebokie sieci neuronowe).

Przedstawione w rozprawie wyniki pokazuj ˛a, ˙ze w trudnych warunkach akustycznych wy-korzystanie takiego rozwi ˛azania mo˙ze zmniejszy´c DER o ponad 10%. Tak dobry wynik b˛edzie z pewno´sci ˛a motywacj ˛a do dalszych prac zwi ˛azanych z zastosowaniem bardziej zaawansowa-nych algorytmów kształtowania wi ˛azki (np. LCMV, GSC) jako stopnia wej´sciowego całego układu.

Planowane jest równie˙z rozwini˛ecie algorytmu w ten sposób, aby w fazie treningu nie było konieczne wskazywanie momentów, w których ko´ncz ˛a mówi´c poszczególne osoby. Takie roz-wi ˛azanie b˛edzie wymagało zastosowania technik uczenia maszynowego bez nauczyciela (ang. unsupervised learning).


