• Nie Znaleziono Wyników

Opis testów w środowisku zaszumionym

4. Projekt i testy systemu rozpoznawania izolowanych słów z użyciem sieci typu SVM

4.4 Opis testów w środowisku zaszumionym

Poziom sygnału mowy do szumu określa stosunek sygnału do szumu SNR (ang. Signal to

Noise Ratio) [13]7, definiowany jako:

10 log( x) 20 log(x )[ ]

y y

RMS RMS

P

SNR dB

P

, (4.1) gdzie:

– średnia energia sygnału mowy bez szumu, – średnia energia szumu,

– wartośd skuteczna RMS (ang. Root Mean Square) sygnału mowy bez szumu, – wartośd skuteczna szumu.

Ze względu na fakt, że baza CORPORA zawiera w większości nagrania zawierające jedynie sygnał mowy założono, że poziom sygnału mowy można określid wyliczając wartośd skuteczną [13]8 całego sygnału zgodnie z

2 1 1 Nx RMS i i x x x N N x x , (4.2) gdzie:

– oznaczenie normy wektora zdefiniowanej w (3.5), – sygnał mowy bez szumu,

– liczba próbek sygnału mowy.

Podobnie postąpiono definiując wartośd skuteczną szumu jako

2 1

1

Ny RMS i i y y

y

N

N

y

y

, (4.3) gdzie: 7

hasło: Signal-to-noise ratio

61 – szum,

– liczba próbek szumu.

Długośd wektora szumu uzależniona jest od rodzaju przeprowadzonego testu. Dla testów skuteczności rozpoznawania z wyznaczonym a priori początkiem i koocem sygnału bez stosowania algorytmu wyboru początku i kooca słowa, liczba próbek szumu była równa liczbie próbek sygnału.

Gdy dodatkowo testowano skutecznośd działania różnych wersji algorytmów VAD z użyciem bazy CORPORA, sygnał szumu poszerzono o dodatkowe 300ms, dodając po 150ms przed oryginalnym sygnałem i taką samą długośd za sygnałem. Ma to na celu urealnienie procesu rozpoznawania. Z reguły przed i po zakooczeniu wypowiedzi następuje cisza. W przypadku środowiska zaszumionego w tym czasie obecny jest więc tylko szum, z którego pobierane są informacje o środowisku zaszumionym (np. w pierwszych czy ostatnich 100ms nagrania).

Najpierw obliczano wartośd skuteczną całego sygnału mowy zgodnie z (4.2). Następnie, znając wartośd zakładanego SNR, obliczano wartośd skuteczną szumu zgodnie z zależnością

/ 20

10

x

y

RMS

RMS SNR . (4.4)

Na koniec generowano szum różowy o odpowiednim poziomie .

Sytuacja wygląda nieco inaczej przy wykonywaniu testów systemu, z wykorzystaniem algorytmu VAD na Własnej Bazie Imion. Sygnały tak zostały nagrane, aby algorytm samodzielnie znalazł początek i koniec sygnału, więc każdy z sygnałów zawiera zarówno sygnał mowy jak i sygnał zaszumiony. Zbadano na kilku przykładach, że średni poziom SNR bazy WBI wynosi ok. 32dB. W związku z tym nie mają sensu testy sytemu przy wyższym stosunku sygnału do szumu.

Należy zauważyd, że w przypadku badao z wykorzystaniem bazy WBI pojawia się problem z określeniem rzeczywistego poziomu sygnału do szumu, ponieważ brak w tym przypadku a priori takiej informacji. Założono więc, że cały sygnał będzie potraktowany jako sygnał mowy do wyznaczenia poziomu . Na jego podstawie zostaje obliczony poziom zgodnie z (4.4), a następnie generowany jest szum, który jest dodawany do całego sygnału. Uproszczenie takie powoduje, że zaniżana jest wartośd a przez to także . Błąd jest tym większy, im więcej w nagranym sygnale stanowi jedynie szum bez mowy. Dodatkowo dodawanie szumu do sygnału nie uwzględnia już obecnego w sygnale szumu związanego z nagrywaniem. Oba te uproszczenia powodują, że dany poziom SNR może różnid się od jego rzeczywistej wartości dla każdego z sygnałów z Własnej Bazy Imion.

Należy także wspomnied, że w przypadku bazy CORPORA, aby zbadad skutecznośd działania projektowanego systemu z algorytmem wyboru początku i kooca, poddano go testom, dodając do oryginalnego sygnału szum o takim natężeniu, aby SNR = 45dB. Proces zaszumienia sygnału przeprowadzono w sposób sztuczny, dodając szum różowy (patrz podrozdz 4.4.2) do oryginalnego

62

sygnału przed przystąpieniem do jakiejkolwiek dalszej obróbki sygnału. Wszystkie operacje były więc wykonywane na sygnale zaszumionym.

4.4.2 Wybór typu szumów do testów

Decydując o wyborze szumu akustycznego do testów systemu w środowisku zaszumionym kierowano się tym, aby szum odzwierciedlał wpływ rzeczywistych zakłóceo. Ze względu na fakt, że każde środowisko zewnętrzne charakteryzuje się inną charakterystyką szumu, nie ma idealnego źródła, które może reprezentowad każde środowisko.

W badaniach nad sygnałami akustycznymi bardzo często jako wzorzec testowy zakłóceo wybierany jest tzw. szum różowy (ang. pink noise, flicker noise) [13]9, [107]10, którego

charakterystykę w dziedzinie częstotliwości przedstawiono na Rys. 4.1. Ze względu na fakt, że jest on sygnałem, którego widmo częstotliwościowe oraz widmowa gęstośd mocy są proporcjonalne do odwrotności częstotliwości, nazywany jest także szumem (ang. one over f noise). Widmowa gęstośd mocy szumu różowego opada 10dB na dekadę czyli ok. 3dB na oktawę.

Rys. 4.1 Szum różowy w dziedzinie częstotliwości

W rzeczywistości wygenerowanie prawdziwego szumu różowego jest niemożliwe, ponieważ energia takiego sygnału byłaby nieskooczona. Oznaczałoby to, że energia szumu różowego w każdym przedziale częstotliwości od do jest proporcjonalna do , a jeśli jest nieskooczona to energia także. W praktyce więc szum różowy jest rzeczywiście „różowy” jedynie w ograniczonym zakresie częstotliwości, w paśmie przenoszenia karty dźwiękowej.

9

hasło: Pink noise

10 hasło: szum różowy

100 1000 8000 -60 -50 -40 -30 -20 -10 0 10 20 30 Częstotliwość [Hz] A m p li tu d a [ d B ]

63

Nasuwa się pytanie, dlaczego nie wykorzystano szumu białego [107]11 do badao. Ze względu na fakt, że ludzkie ucho odbiera bodźce w skali logarytmicznej a nie liniowej, najbardziej słyszalne są wysokie tony w przypadku szumu białego. Wynika to z faktu, że większośd odbieranych bodźców skupiona jest w najwyższej słyszalnej oktawie. W zakresie od 10kHz do 20kHz skupione jest tysiąc razy więcej mocy, niż w oktawie 10Hz do 20Hz. Podsumowując, szum różowy dużo lepiej reprezentuje zakłócenia odbierane przez ucho ludzkie niż szum biały, dlatego też ten ostatni nie został wykorzystany w niniejszej pracy.

Uwaga: Oznaczenie „brak szumu” lub „brak zewnętrznego szumu” (lub „szum naturalny”) oznacza, że nie dokładano w sposób sztuczny szumu do sygnału. Nie oznacza to jednak, że on nie występuje. Jest to naturalny szum powstały w czasie nagrywania w warunkach domowych w bezpośredniej bliskości komputera. SNR dla poszczególnych sygnałów między całym sygnałem a pierwszymi 100ms wynosi średnio ok. 40dB w przypadku Własnej Pierwotnej Bazy Danych.

4.5 Opracowanie i testy nowego algorytmu wyboru początku

Powiązane dokumenty