• Nie Znaleziono Wyników

Znane metody wykrywania tonalności jeszcze nie stosowane w astmie

W dokumencie Index of /rozprawy2/10729 (Stron 33-37)

3. Rozpoznawanie tonalności sygnału

3.3 Znane metody wykrywania tonalności jeszcze nie stosowane w astmie

(3.17)

oraz falkową bikoherencją (Wavelet Bicoherence – WBC).

(3.18)

które można policzyć analogicznie do bispektrum fourierowskiego [MHS95]. WBS wyraża ilość kwadratowej spójności fazowej w zadanym przedziale czasowym T pomiędzy funkcjami skalującymi a1, a2 i a sygnału x(t), takimi aby równanie

(3.19)

było spełnione. Interpretując współczynniki funkcji skalujących jako odwrotności częstotliwości, WBS jest traktowane jako zależność pomiędzy falkami o częstotliwościach spełniających równanie:

(3.20)

w zadanym przedziale częstotliwości.

Bazując na wyliczonych funkcjach WBS i WBC autorzy zdefiniowali zestaw cech, na bazie których jest dokonywana detekcja. Pierwsza z nich to cecha oparta na globalnej analizie szczytów. Analiza WBS/WBC przeprowadzana jest na całym sygnale. Daje to ogólne pojęcie czy w analizowanym nagraniu mogą występować tonalne zaburzenia. Kolejny deskryptor wykorzystuje analizę szczytów lokalnych − analiza WBS/WBC przeprowadzana jest w nim na fragmentach sygnałów o zdefiniowanej wcześniej długości t.

3.3

Znane metody wykrywania tonalności jeszcze nie stosowane w astmie

W tym podrozdziale przedstawiono znane miary tonalności, które po raz pierwszy zostały wykorzystane do detekcji świstów astmatycznych w niniejszej rozprawie.

Miary „rzadkości” danych: miara Hoyera i indeks Giniego. W [HR09] przebadano szereg

deskryptorów do wyznaczania tzw. „rzadkości” sygnału. Według autorów artykułu, rzadkość to cecha, która może być wykorzystana w wielu dziedzinach analizy sygnałów, w szczególności może być miarą rozkładu jego wartości. Autorzy zaznaczają, że nie ma uniwersalnej i jednoznacznej, oficjalnej definicji rzadkości, jednocześnie wyjaśniając, że sygnał nazywamy rzadkim, jeśli jego energia skupia się w jednym współczynniku rozkładu (jednej wartości), pozostałe zaś są równe zero. Z drugiej strony, sygnał jest najmniej rzadki jeśli jego całkowita energia rozłożona jest równomiernie na wszystkie współczynniki rozkładu wartości. Autorzy przedstawili 16 deskryptorów określających rzadkość oraz przetestowali je sześcioma testami. Spośród tych 16 cech najlepszymi okazały się: miara

34 (3.21)

oraz indeks Giniego zdefiniowany następująco:

(3.22)

Oba deskryptory są wyliczane dla N-elementowego wektora c wartości [c(1), c(2),…, c(N)]. Średnie widmo mocy (3.3) i średni moduł widma (3.4) sygnału tonalnego powinny być bardziej „rzadkie” niż te same widma dla szumu, gdyż zawierają one kilka wyeksponowanych prążków.

Obwiednia widma dźwięku w skali oktawowej. Obwiednia widma sygnału dźwiękowego

ASE (Audio Spectral Envelope) [ISO01] jest używana podczas kompresji dźwięku. Detekcja tonalności pozwala na inne kodowanie szumu i tonów, co podnosi efektywność kompresji. Deskryptor ten jest liczony za pomocą STFT i jest używany w standardzie audio ISO/IEC MPEG-7. Jest to podstawowy deskryptor do wykrywania tonalności uzyskany poprzez sumowanie energii widm w zadanych przedziałach częstotliwościowych. Według standardu [ISO01], ASE opisuje widmo jako serię współczynników, określających energię widma w przedziałach pomiędzy wartościami granicznymi loEdge i hiEdge, oraz dodatkowo po jednym współczynniku poza tymi granicami (rys. 3.2). Pomiędzy wartościami granicznymi widmo dzielone jest na pasma o rozdzielczości podanej w oktawach, zdefiniowanej za pomocą zmiennej resolution. W tym miejscu należy podkreślić podstawowe różnice pomiędzy przedstawioną powyżej metodą maksimów uśrednionego widma [TH07] a metodą ASE, polegające na tym, że w tej drugiej metodzie obliczenia są przeprowadzane w skali oktawowej a nie liniowej oraz bazuje się w niej na widmie energetycznym a nie amplitudowym.

62.5 1K 16000

1 współczynnik 8 współczynników 1 współczynnik

moc całkowita w zakresie

pasma

poniżej pasma powyżej

pasma

Rysunek 3.2 Graficzne przedstawienie sposobu wyznaczania liczby wsółczynników ASE;

przypadek dla fs – 32 kHz, resolution = 8 oktaw, loEdge = 62,5 Hz, hiEdge = fs/2 = 16 kHz [ISO01]

Współczynnik ASE otrzymuje się dla każdego pasma w wyniku zsumowania wartości kwadratów prążków uśrednionego widma (3.3):

( ) b ( ) b hiEdg k loEdg ASE b P k

b (1,2,...,resolution)

(3.23)

35

Płaskość widmowa [GM74] jest wykorzystywana podczas detekcji lub analizy mowy oraz

podczas analizy sygnału audio w standardzie MPEG-1/2 audio. Jest to prosta cecha, która opisuje rozkład modułu widma częstotliwościowego sygnału. W przypadku sygnałów tonalnych, energia widma skupia się w wybranych prążkach, odpowiadającym częstotliwościom sygnału. Sygnał szumowy ma z kolei energię rozłożoną równomiernie we wszystkich prążkach widma, chociaż losowo w jego kolejnych realizacjach. Gdy sygnał jest sumą sygnału tonalnego i szumu, widmo może zostać uśrednione po czasie, tzn. każdy prążek częstotliwościowy uśrednionego modułu widma jest wynikiem średniej arytmetycznej poszczególnych modułów prążków widm lokalnych (3.2) – średnia po zmiennej l. Wynikiem uśredniania jest wyeksponowanie niezmiennego w czasie prążka, odpowiadającego częstotliwości sygnału tonalnego, oraz wygładzenie prążków odpowiadających szumowi. Widmo szumu jest bardziej płaskie niż widmo sinusoidy występującej w szumie. Deskryptor płaskości widmowej jest zdefiniowany jako stosunek średniej geometrycznej modułu uśrednionego widma (3.4) sygnału do jego średniej arytmetycznej:

(3.24)

Indeks tonalności [Joh88] jest kolejnym deskryptorem wykorzystywanym do wykrywania

tonalności podczas kompresji dźwięku, znanym ze standardu MPEG-1/2 [ISO92]. Opiera się on na predykcji modułu i fazy kolejnych widm STFT i wykorzystuje fakt, że widmo sygnału tonalnego po okresie podstawowym powinno mieć ten sam moduł oraz fazę. Indeks tonalności jest używany w drugim modelu psychoakustycznym do przełączania trybów pracy w drugim zespole filtrów kodera MP3 sygnału dźwiękowego. Po pierwszej dekompozycji sygnału akustycznego na 32 podpasma częstotliwościowe każde podpasmo dzielone jest ponownie na 18 podkanałów (próbkowanych dwukrotnie w czasie) dla sygnałów tonalnych lub na 6 podkanałów (próbkowanych sześciokrotnie w czasie) dla sygnałów szumowych. Podział sygnałów jest dokonywany na podstawie entropii percepcyjnej. Niska wartość entropii (<1800) oznacza, że sygnał jest tonalny, większa  że sygnał ma charakter szumowy. Do obliczania entropii jest wykorzystywany indeks tonalności.

Cecha ta jest deskryptorem czasowo–częstotliwościowym, liczonym za pomocą STFT, opierającym się na predykcji r k( )modułu r(k)=|X(k)| i predykcji (k) fazy ( )kX k( ) zespolonego widma Fouriera X(k)=r(k)e−j(k) sygnału:

(3.25)

(3.26)

w których brane są pod uwagę 2 wcześniejsze bloki FFT (t1) i (t2). Na podstawie wyliczonych wielkości jest wyznaczany stopień nieprzewidywalności widmowej c(k) (3.27), energia eb (3.28) oraz ważona nieprzewidywalność cb (3.28), gdzie klow i khigh oznaczają dolną i górną granicę przedziału częstotliwości, który jest brany pod uwagę:

36 (3.27) (3.28)

Średnie widmo z kompensacją fazy [WW05]. Inną metodę zaproponowano do wykrywania

tonalności w systemach sonarowych. Początkowo korzystano ze wzorów [WGC00]:

(3.29) (3.30)

bazujących na równaniach (3.2), (3.4), czyli wykorzystywano kolejne moduły widm fourierowskich, liczone metodą STFT (podobnie jak w opisanej powyżej metodzie maksimów uśrednionego widma [TH07]). Następnie w [WW05] zaproponowano nową metodę: dodano kompensację fazy prążków kolejnych widm STFT (3.2), liczonych z przesunięciem Nstep

próbek sygnału. W tym celu wprowadzono dodatkową zmienną Zl(k), zdefiniowaną nastę-pującym wzorem:

, k = 0,1,…,N-1 (3.31)

Potem, dla każdej wartości k: 1) oblicza się dyskretną transformatę Fouriera wektora

Zl = [Z0(k), Z1(k),…, ZNmany-1(k)]T względem zmiennej l (opcjonalnie uzupełniając ten wektor na końcu zerami), 2) znajduje się maksimum modułu widma i indeks jego prążka kmax, 3) oblicza się Δ:

, (3.32)

4) wykorzystuje się  do kompensacji fazy:

(3.33)

W tym momencie posiadamy macierz o wymiarach NmanyNFFT, którą wykorzystujemy do podjęcia decyzji o ewentualnym występowaniu tonu o częstotliwości k. Miara tonalności jest wyznaczana za pomocą wyrażenia

37 (3.34) gdzie: (3.35) (3.36) (3.37)

Podczas detekcji tonów miara ta jest porównywana z odpowiednim progiem.

3.4

Zaproponowane i zmodyfikowane miary tonalności do detekcji

W dokumencie Index of /rozprawy2/10729 (Stron 33-37)

Powiązane dokumenty