• Nie Znaleziono Wyników

Parametryzacja dźwięków instrumentów muzycznych w systemie Matlab - analizy korelacyjne

N/A
N/A
Protected

Academic year: 2021

Share "Parametryzacja dźwięków instrumentów muzycznych w systemie Matlab - analizy korelacyjne"

Copied!
15
0
0

Pełen tekst

(1)

KATEDRA SYSTEMÓW

MULTIMEDIALNYCH

LABORATORIUM

AKUSTYKI MUZYCZNEJ

Ć

wiczenie nr 4: Analiza korelacyjna i

dyskryminacyjna parametrów sygnałów

muzycznych dla kategoryzacji gatunkowej

Opracowanie: prof. dr hab. inż. Bożena Kostek dr inż. Andrzej Kaczmarek

1. Wprowadzenie

Multimedialny serwis wyszukiwania informacji muzycznej obejmuje zarówno wyszukiwanie sygnału fonicznego (dźwięki monofoniczne, dźwięki polifoniczne, itd.), jak i nagrania w formacie MIDI. Standard MPEG 7 odnosi się m.in. do tworzenia opisu plików zawierających cyfrowe reprezentacje dźwięków i obrazów oraz informacji tekstowej w taki sposób, aby zawartość tych zbiorów mogła być automatycznie wyszukiwana w sieciach komputerowych i w dostępnych za ich pośrednictwem rozproszonych multimedialnych bazach danych. Przykładem opisu muzyki może być wektor cech (warstwa niska), jak i opis semantyczny (warstwa wysoka). Do tych pierwszych można zaliczyć parametry dźwięku, jak i sygnałów fonicznych ekstrahowane w oparciu o analizę czasowo-widmową, zaś do tych drugich zarówno meta opis (np. tytuł utworu, nazwa instrumentów muzycznych, kompozytor, czas trwania utworu, itp.), jak również cechy np. dźwięku czy utworu wyrażone słowami (np. dźwięk jasny, ciemny, ostry, itp.). Pomimo, że standard określił w sposób dość jednoznaczny opis obiektów muzycznych (np. za pomocą wektora cech), to jednak nie określa oceny przydatności tych parametrów w procesie wyszukiwania. Trzeba bowiem pamiętać, że opis muzyki jest bardzo różnorodny i dotyczy dźwięków muzycznych z uwzględnieniem rozszerzenia zastosowań o dźwięki polifoniczne i sygnały głosu ludzkiego (mowy i śpiewu). Inną reprezentacją może być sygnał foniczny, postać graficzna (partytura), kod MIDI czy wreszcie opis słowny. W każdym z tych przypadków problem automatycznego generowania opisu dotyczy innych trudności.

Bezpośrednia reprezentacja sygnału fonicznego w postaci ciągu jego próbek zawiera ogromną ilość informacji, przeważnie redundantnych, przez co jego analiza w celu identyfikacji czy klasyfikacji

(2)

jest bardzo złożona i wysoce nieefektywna. Z tego powodu dąży się do wprowadzenia parametrycznej reprezentacji sygnałów. Celem parametryzacji dźwięków instrumentów muzycznych jest ograniczenie ilości informacji zawartej w zapisie cyfrowym w celu umożliwienia ich automatycznej klasyfikacji. Ważny jest wybór elementów wchodzących w skład wektora parametrów, aby mógł on jak najpełniej opisać dźwięk każdego instrumentu muzycznego.

Na rys. 1 przedstawiono listę deskryptorów sygnałów fonicznych [6].

Rys. 1. Lista deskryptorów dźwięku sygnałów fonicznych standardu MPEG-7

Siedemnaście deskryptorów przedstawionych na rys. 1, będących wielkościami skalarnymi, bądź wektorowymi jest podzielonych na następujące grupy [2][6]:

Basic

Dwa parametry podstawowe, określające maksymalną i minimalną wartość przebiegu czasowego sygnału (AudioWaveform Descriptor) oraz uśrednioną w czasie moc sygnału (AudioPower Descriptor) stosowane są głównie w celach wizualizacji.

Basic Spectral

Cztery podstawowe widmowe deskryptory wyznaczane są na podstawie analizy czasowo-częstotliwościowej sygnału audio. Deskryptor AudioSpectrumEnvelope (w wektorze parametrów nazwy zaczynające się od PAR_ASE) to wektor zawierający krótkookresowe widmo mocy wyznaczone dla częstotliwości w odstępach logarytmicznych. Zastosowaniem tego deskryptora może

(3)

być wyświetlenie spektrogramu, służy on także jako podstawa działania algorytmów rozpoznawania dźwięków.

Wyznaczanie logarytmicznego widma mocy odbywa się dla zadanej długości okna analizującego i wartości skoku przy użyciu okienkowanej transformaty Fouriera, przy czym standardowo stosowane jest okno Hamminga. Domyślne wartości długości okna oraz skoku wynoszą odpowiednio 30 ms i 10 ms. Widmo mocy w każdej ramce reprezentowane jest przez jedną wartość reprezentującą moc w paśmie od 0 Hz do częstotliwości dolnej granicy (loEdge), szereg współczynników reprezentujących moc w pasmach o szerokości będącej ułamkiem bądź wielokrotnością oktawy (octaveResolution) oraz jedną wartość od górnej częstotliwości granicznej (hiEdge) do częstotliwości Nyquista. Górna i dolna granica (loEdge, hiEdge) powiązane są z częstotliwością 1 kHz i domyślnie wynoszą odpowiednio 62.5 Hz oraz 16 kHz (rys. 2).

Rys. 2. Pasma analizy widmowej AudioSpectrumEnvelope

Deskryptor AudioSpectrumCentroid (PAR_ASC) określa środek ciężkości widma mocy.

AudioSpectrumSpread (PAR_ASS) jest wyznaczany jako drugi moment statystyczny widma mocy.

Ostatni z tej grupy deskryptorów – AudioSpectrumFlatness (PAR_SFM) jest wektorem zawierającym wartości będące miarą odchylenia od płaskiego kształtu widma dla danego pasma częstotliwości.

Spectral Basis

Dwa deskryptory z tej grupy zawierają informacje o widmie mocy w postaci zredukowanej liczby danych, uzyskane za pomocą rozkładu macierzy względem wartości szczególnych (SVD). Przed dokonaniem dekompozycji widmo mocy (AudioSpectrumEnvelope) jest przekształcane do skali decybelowej a następnie normowane. Dekompozycji poddawana jest macierz X, której wiersze zawierają widma dla kolejnych ramek czasowych (spektrogram). W wyniku otrzymuje się macierze wektorów szczególnych U i V oraz diagonalną macierz wartości szczególnych S.

X = U S VT (1)

Do wyznaczenia deskryptorów AudioSpectrumBasis i AudioSpectrumProjection wykorzystuje się kilka pierwszych kolumn macierzy V. Pozwala to dokonać aproksymacji macierzy X, przez

(4)

ograniczenie się jedynie do kilku pierwszych wektorów szczególnych. Deskryptory te mogą następnie posłużyć do automatycznego rozpoznawania dźwięków w oparciu o modele probabilistyczne.

Signal Parameters

Grupa ta zawiera deskryptor AudioFundamentalFrequency określający częstotliwość podstawową sygnału oraz parametr AudioHarmonicity mówiący o tym, w jakim stopniu widmo dźwięku ma charakter harmoniczny.

Timbral Temporal

Dostępne są dwa parametry opisujące czasowe właściwości sygnału związane z barwą dźwięku.

LogAttackTime jest czasem narastania obwiedni sygnału zdefiniowanym w skali logarytmicznej, a TemporalCentroid (PAR_TC) określa środek ciężkości obwiedni sygnału. Parametry te są

zdefiniowane następującymi wzorami:

Temporal Centroid TC=

n= 1 length(SEnv) n/ sr⋅SEnv (n )

n=1 length(SEnv) SEnv(n ) , (2) gdzie:

SEnv(n) – obwiednia sygnału, sr – częstotliwość próbkowania.

Log Attack Time

LAT = log10(T1 – T0) (3)

gdzie T0 oznacza początek, a T1 koniec transjentu wejściowego.

Timbral Spectral

Deskryptory dotyczące barwy dźwięku, wyznaczane są w oparciu o widmo gęstości mocy z liniową skalą częstotliwości. Deskryptory te są najważniejsze z punktu widzenia percepcji dźwięków instrumentów muzycznych i mają zastosowanie raczej do całego segmentu sygnału, jakim może być np. pojedyncza nuta zagrana na klarnecie.

SpectralCentroid (PAR_SC) oznacza środek ciężkości widma mocy wyrażony w Hz. Cztery

(5)

HarmonicSpectralCentroid oznacza środek ciężkości amplitud harmonicznych, parametr ten jest

podobny do SC, z tym, że uwzględniane są jedynie składowe harmoniczne widma,

HarmonicSpectralSpread wyraża rozrzut prążków wokół środka ciężkości i jest zdefiniowany jako

odchylenie standardowe amplitud harmonicznych znormalizowane przez wartość

HarmonicSpectralCentroid. Deskryptor HarmonicSpectralDeviation wyznaczany jest jako odchylenie

logarytmu amplitud prążków od wartości średniej, natomiast HarmonicSpectralVariation to znormalizowany współczynnik korelacji amplitud harmonicznych z dwóch sąsiednich ramek sygnału.

W zależności od tego czy wymagana jest znajomość przebiegu zmienności powyższych parametrów w czasie, czy jedynie globalna wartość dla całego segmentu, standard MPEG7 zaleca obliczenie STFT dla różnych długości okna i zakładkowania. Jeśli wymagane są jedynie wartości globalne, to zalecana długość okna wynosi 8 okresów podstawowych, wartość skoku 4 okresy podstawowe. Jeśli natomiast potrzebna jest znajomość przebiegu zmienności, zalecana długość okna analizy wynosi 30ms, wartość skoku – 10ms. W obydwu przypadkach zalecane jest stosowanie okna Hamminga.

Parametry globalne obliczane są jako średnia wszystkich wartości chwilowych parametrów (Instantaneous) dla całego segmentu. Poniższe wzory definiują sposób wyznaczania parametrów chwilowych Timbral Spectral:

Instantaneous Harmonic Spectral Centroid

IHSC

(

frame

)

=

harmo=1 nbharmo

f

(

frame,harmo

)

⋅A

(

frame,harmo

)

harmo=1 nbharmo A

(

frame,harmo

)

, (4) gdzie:

A(frame,harmo) – amplituda harmonicznej harmo dla ramki frame, f(frame,harmo) – częstotliwość harmonicznej harmo dla ramki frame, nb_harmo – uwzględniona liczba harmonicznych.

(6)

Instantaneous Harmonic Spectral Deviation

IHSD

(

frame

)

=

harmo=1 nbharmo

∣log10

(

A

(

frame,harmo

)

)

log10

(

SE

(

frame,harmo

)

)

harmo=1 nbharmo log10A

(

frame,harmo

)

(5) gdzie:

A(frame,harmo) – amplituda harmonicznej harmo dla ramki frame, f(frame,harmo) – częstotliwość harmonicznej harmo dla ramki frame, nb_harmo – uwzględniona liczba harmonicznych,

SE(frame,harmo) – obwiednia widma harmonicznego, wyznaczona dla każdego prążka jako

średnia z trzech sąsiednich harmonicznych, dla pierwszej i ostatniej harmonicznej uśrednianie obejmuje 2 sąsiednie prążki, zgodnie z poniższymi wzorami:

SE(frame,harmo)=A( frame,harmo)+A(frame,harmo+ 1)

2 , harmo = 1 SE

(

frame,harmo

)

=

i= 1 1 A

(

frame,harmo+i

)

3 , harmo = 2, nb_harmo–1

SE(frame,harmo)=A( frame,harmo 1)+A(frame,harmo)

2

, harmo = nb_harmo

Instantaneous Harmonic Spectral Spread

IHSS

(

frame

)

= 1

IHSC

(

frame

)

harmo=1 nbharmo

A2

(

frame,harmo

)

[

f

(

frame,harmo

)

IHSC

(

frame

)

]

2

harmo=1 nbharmo A2

(

frame,harmo

)

(6) gdzie:

A(frame,harmo) – amplituda harmonicznej harmo dla ramki frame, f(frame,harmo) – częstotliwość harmonicznej harmo dla ramki frame,

(7)

nb_harmo – uwzględniona liczba harmonicznych.

Instantaneous Harmonic Spectral Variation

IHSV

(

frame

)

=1

harmo=1 nbharmo

A

(

frame 1, harmo

)

⋅A

(

frame,harmo

)

harmo=1 nbharmo A2

(

frame 1, harmo

)

harmo=1 nbharmo A2

(

frame,harmo

)

, (7) gdzie:

A(frame,harmo) – amplituda harmonicznej harmo dla ramki frame, f(frame,harmo) – częstotliwość harmonicznej harmo dla ramki frame, nb_harmo – uwzględniona liczba harmonicznych.

Spectral Centroid SC

(

frame

)

=

k f

(

k

)

⋅S

(

k

)

k S

(

k

)

, (8) gdzie:

S(k) – k-ty prążek widma mocy ramki sygnału, f(k) – częstotliwość k-tego prążka.

Parametry z grupy Timbral Spectral oraz Timbral Temporal tworzą w standardzie MPEG-7 przestrzeń pięciu parametrów opisujących barwę instrumentów o widmie harmonicznym (Harmonic

Timbre Space) oraz trzech określonych dla instrumentów perkusyjnych (Percussive Timbre Space),

przy czym miara odległości w obydwu przestrzeniach została dobrana eksperymentalnie.

Do parametrów, które nie są zawarte w standardzie MPEG 7, a są często stosowane w procesie parametryzacji należą parametry mel-cepstralne (PAR_MFCC)

Parametry mel-cepstralne – współczynniki cepstrum w skali melowej MFCC (ang.

(8)

MFCCk=

i= 1 n Li⋅cos

(

π n

(

i 0 .5

)

⋅k

)

(9)

gdzie MFCCk jest kolejnym współczynnikiem mel-cepstralnym, Li – energią i-tego podpasma

melowego wyrażonego w dB, a n - liczbą podpasm melowych.

W ćwiczeniu będzie pokazany przykład wektora cech dystynktywnych oparty na reprezentacjach czasowych, widmowych oraz czasowo-częstotliwościowych sygnałów muzycznych. Zadaniem studentów będzie przeprowadzenie analiz korelacyjnych oraz zastosowanie statystyki Behrensa–Fishera do badania separowalności poszczególnych parametrów. Analizy te pozwolą określić nadmiarowość cech w wektorze parametrów.

2. Opis bazy danych – parametrów nagrań muzycznych

Parametry wybrane do niniejszego ćwiczenia można podzielić na dwie duże grupy w zależności od dziedziny, w której zostały obliczone: czasowe lub widmowe. W przypadku parametrów widmowych została zastosowana segmentacja o długości 8192 próbki, zaś w przypadku parametrów czasowych została zastosowana segmentacja zmienna, zależna od długości nagrania tak, aby uzyskać określoną liczbę segmentów czasowych. Ponadto parametry widmowe zostały w większości obliczone w oparciu o podział na podpasma zdefiniowane w skali logarytmicznej, co ¼ oktawy. W efekcie każde nagranie jest opisane przez pojedynczy wektor parametrów o długości 171. Szczegółowe ich wyliczenie i opis są podane w tablicy 1.

Tab. 1. Wykaz parametrów nagrań muzycznych

Nazwa parametru numer opis

PAR_TC 1 Temporal Centroid – czasowy środek ciężkości

PAR_SC 2 Spectral Centroid - środek ciężkości widma liniowego

PAR_SC_V 3 Spectral Centroid Variance (wariancja)

PAR_ASE1 - PAR_ASE34 4-37 Audio Spectrum Envelope – w 34 podpasmach

PAR_ASE_M 38 ASE – średnia arytmetyczna z wszystkich podpasm

PAR_ASEV1 - PAR_ASEV34 39-72 Audio Spectrum Envelope Variance – w 34 podpasmach

PAR_ASE_MV 73 ASEV – średnia arytmetyczna z wszystkich podpasm

PAR_ASC 74 Audio Spectrum Centroid (środek ciężkości widma mocy) – w skali

oktawowej

(9)

PAR_ASS 76 Audio Spectrum Spread (rozrzut prążków wokół środka ciężkości)

PAR_ASS_V 77 Audio Spectrum Spread Variance

PAR_SFM1 - PAR_SFM24 78-101 Spectral Flatness Measure – w 24 podpasmach (miara płaskości widma)

PAR_SFM_M 102 SFM – średnia arytmetyczna z wszystkich podpasm

PAR_SFMV1 - PAR_SFMV24 103-126 Spectral Flatness Measure Variance – w 24 podpasmach

PAR_SFM_MV 127 SFMV – średnia arytmetyczna z wszystkich podpasm

PAR_MFCC1 - PAR_MFCC20 128-147 Mel Frequency Cepstral Coefficients – 20 pierwszych

PAR_THR_1RMS_TOT 148 Liczba próbek większych od wartości rms

PAR_THR_2RMS_TOT 149 Liczba próbek większych od podwojonej wartości rms

PAR_THR_3RMS_TOT 150 Liczba próbek większych od potrojonej wartości rms

PAR_THR_1RMS_10FR_MEAN 151 Średnia dla par. nr 148 w 10 segmentach czasowych

PAR_THR_1RMS_10FR_VAR 152 Wariancja dla par. nr 148 w 10 segmentach czasowych

PAR_THR_2RMS_10FR_MEAN 153 Średnia dla par. nr 149 w 10 segmentach czasowych

PAR_THR_2RMS_10FR_VAR 154 Wariancja dla par. nr 149 w 10 segmentach czasowych

PAR_THR_3RMS_10FR_MEAN 155 Średnia dla par. nr 150 w 10 segmentach czasowych

PAR_THR_3RMS_10FR_VAR 156 Wariancja dla par. nr 150 w 10 segmentach czasowych

PAR_PEAK_RMS_TOT 157 Stosunek pik do rms

PAR_PEAK_RMS10FR_MEAN 158 Średnia dla par. nr 157 w 10 segmentach czasowych

PAR_PEAK_RMS10FR_VAR 159 Wariancja dla par. nr 157 w 10 segmentach czasowych

PAR_ZCD 160 Liczba przejść przez zero

PAR_1RMS_TCD 161 Liczba przejść przez poziom rms

PAR_2RMS_TCD 162 Liczba przejść przez podwojony poziom rms

PAR_3RMS_TCD 163 Liczba przejść przez potrojony poziom rms

PAR_ZCD_10FR_MEAN 164 Średnia dla par. nr 160 w 10 segmentach czasowych

PAR_ZCD_10FR_VAR 165 Wariancja dla par. nr 160 w 10 segmentach czasowych

PAR_1RMS_TCD_10FR_MEAN 166 Średnia dla par. nr 161 w 10 segmentach czasowych

PAR_1RMS_TCD_10FR_VAR 167 Wariancja dla par. nr 161 w 10 segmentach czasowych

PAR_2RMS_TCD_10FR_MEAN 168 Średnia dla par. nr 162 w 10 segmentach czasowych

PAR_2RMS_TCD_10FR_VAR 169 Wariancja dla par. nr 162 w 10 segmentach czasowych

(10)

PAR_3RMS_TCD_10FR_VAR 171 Wariancja dla par. nr 163 w 10 segmentach czasowych

Wynikiem serii analiz wielu nagrań jest baza parametrów zawierająca wektory parametrów zapisane z podziałem na klasy – gatunki muzyczne. Plik nosi nazwę

ISMIS-6-171-klasyczna-jazz-blues-rock-pop-metal.xls. i ma postać arkusza EXCEL w formacie podobnym do formatu *.csv.

Baza danych składa się z 6 klas o nazwach: Klasyczna, Jazz, Blues, Rock, Pop i Metal. Liczności poszczególnych klas są następujące: 45, 55, 46, 46, 56 i 47. Informacje te są podane w pliku. Obiekty są zapisane wierszami, przy czym zastała dodana nazwa klasy na pierwszej pozycji. Zostały też zamieszczone numery i nazwy parametrów w 11 i 13 wierszu. Każdy wektor zaczyna się od nowej linii. Wszystkie elementy wektorów są zapisane w formacie zmiennoprzecinkowym.

3. Zadania

3.1. Używając funkcji statystycznej WSP.KORELACJI dokonać obliczeń kilku współczynników korelacji (pięć) dla wybranej kategorii muzyki. Porównać wyniki z danymi zawartymi w załączonych plikach z macierzami korelacji (m_k_Klasyczna.txt, m_k_Jazz.txt, m_k_Blues.txt,

m_k_Rock.txt, m_k_Pop.txt i m_k_Metal.txt). Uwaga: każdy taki plik zawiera tylko część

(trójkątną) całej macierzy, bez głównej przekątnej (zawierającej same jedynki) i bez pozostałej trójkątnej części będącej odbiciem lustrzanym wyników umieszczonych w pliku. Znaczenie wybranych współczynników jest objaśnione w tablicy 2.

Tab. 2. Znaczenie pierwszych współczynników z macierzy korelacji dla gatunku Blues

1 2 3 4 5 6

PAR_TC PAR_SC PAR_SC_V PAR_ASE1 PAR_ASE2 PAR_ASE3

1 PAR_TC 1 2 PAR_SC 0.286 1 3 PAR_SC_V 0.247 0.792 1 4 PAR_ASE1 -0.089 -0.110 -0.145 1 5 PAR_ASE2 -0.123 -0.211 -0.246 0.972 1 6 PAR_ASE3 -0.155 -0.381 -0.431 0.851 0.929 1

(11)

3.2. Obliczyć przy pomocy funkcji statystycznych na arkuszu EXCELa średnie arytmetyczne i odchylenia standardowe dla wszystkich parametrów wybranych dwóch klas. Znaleźć dwa takie parametry, które charakteryzują się stosunkowo dużą różnicą średnich (między klasami) i małymi odchyleniami standardowymi (np. maksymalizacja ułamka, w którym w liczniku jest wartość bezwzględna różnicy średnich, zaś w mianowniku suma odchyleń standardowych). Celem tego wyboru jest możliwość zobrazowania na płaszczyźnie rozmieszczenia obiektów dwóch klas, które zajmują w przestrzeni parametrów rozdzielne obszary.

3.3. Dla wybranej pary klas obliczyć wartości statystyk Behrensa-Fishera (wzór (12)) porównującej parami poszczególne parametry klas. Dane te będą potrzebne do wykresów, które są opisane w p. 4.3. i 4.4.

3.4.* Na podstawie macierzy korelacji wybranej klasy obliczyć macierz statystyk t-Studenta, korzystając ze wzoru (11).

4. Opracowanie

4.1. Znaleźć najbardziej skorelowane parametry dla wybranej klasy i przedstawić je na wykresie punktowym. Osie x i y powinny odpowiadać wartościom dwóch wybranych parametrów. Należy także podać odpowiadające im parametry statystyczne (średnie, odchylenia standardowe). Przykład takiego wykresu jest podany na rys. 3.

4.2. W podobny sposób jak w poprzednim punkcie przedstawić rozmieszczenie obiektów na płaszczyźnie parametrów charakteryzujących się średnimi oraz dla kontrastu małymi wartościami współczynników korelacji.

4.3. Pokazać na wykresie dane uzyskane w p. 3.2 oraz dwa przykłady porównujące dwie klasy: jeden dla dużych wartości statystyki B-F (co do wartości bezwzględnych) oznaczający dobrą separowalność i drugi dla małych wartości tej statystyki – łącznie 3 wykresy. Przykład takiego wykresu jest podany na rys. 4.

4.4.* Wykonać podobny wykres jak w poprzednim punkcie, ale obrazujący sytuację graniczną, jeśli chodzi o separowalność. Na podstawie znajomości wartości średnich i odchyleń standardowych podać kryterium takiej sytuacji przy założeniu trójkątnego kształtu rozkładu parametrów. Informacja dodatkowa: wariancja symetrycznego rozkładu trójkątnego na przedziale (-1, +1) wynosi 1/6.

4.5. Zinterpretować wyniki przedstawione na wykresach z p. 4.3. w kontekście skorelowania porównywanych parametrów.

(12)

Rys. 3. Przykład wykresu obrazującego rozmieszczenie obiektów gatunku Klasyczny na płaszczyźnie wybranych parametrów.

(13)

Rys. 4. Przykład wykresu obrazującego porównanie obiektów dwóch gatunków: Klasyczny i Metal na płaszczyźnie wybranych parametrów.

5. Dodatek

5.1. Współczynnik korelacji z próbki losowej (A1 , B1) … (Am , Bm):

Rm=

i=1 m

(

Ai ̄A

)(

Bi ̄B

)

i= 1 m

(

Ai ̄A

)

2

i=1 n

(

Bi ̄B

)

2 (10)

gdzie: ̄A , ̄B są wartościami średnimi parametrów A i B dla wybranej klasy.

jest oszacowaniem rzeczywistego współczynnika korelacji ρ populacji generalnej o rozkładzie normalnym. Można stąd obliczyć statystykę t, która ma rozkład t-Studenta o m-2 st. swobody:

(14)

t= Rm

1 Rm2

m 2

(11) i przy porównaniu z odpowiednią wartością krytyczną można wysnuć wniosek o istotności obserwowanej korelacji bądź o braku skorelowania (hipoteza zerowa oznacza przyjęcie ρ = 0). Przykładowo wartość krytyczna statystyki t-Studenta dla 5% poziomu istotności i 10 stopni swobody wynosi 2,228. Ze wzrostem liczby stopni swobody rozkład statystyki t-Studenta zmierza do rozkładu gaussowskiego, zaś wspomniana wartość krytyczna zmierza do wartości 1,96.

5.2. Test Behrensa-Fishera - test równości średnich w dwóch populacjach normalnych (o rozkładzie gaussowskim).

Statystyka V jest zdefiniowana jako [1][4]:

V= ̄AX ̄AY

SA X2 nX + SA Y 2 nY (12) gdzie: ̄ AX, ̄AY

– wartości średnie ocenianego parametru A dla klas X i Y,

nx, ny – liczebność klas X i Y, SAX2= 1 nX 1

i=1 nX

(

AXi ̄AX

)

2

– estymator wariancji parametru A dla klasy X,

SA Y2= 1 nY 1

i= 1 nY

(

AYi ̄AY

)

2

– estymator wariancji parametru A dla klasy Y. parametr c: c= S Ax 2nX SA x 2nX+S Ay 2nY (13)

służy do określenia wartości krytycznej statystyki V na podstawie tablic statystycznych. Fragment tych tablic dla poziomu istotności 5% jest podany poniżej (TABLICA 1 [7]). Liczby νννν1 i νννν2 oznaczają

stopnie swobody i wynoszą: νννν1=nX-1, νννν2=nY-1. Przekroczenie wartości krytycznej przez obserwowaną

statystykę V (co do modułu) oznacza odrzucenie hipotezy zerowej o równości średnich w porównywanych populacjach. W przeciwnym przypadku stwierdza się, że nie ma podstaw do odrzucenia tej hipotezy.

(15)

[7]

Statystyka V może być używana jako miara odległości (lub do określenia możliwości separacji) pomiędzy dwoma klasami w odniesieniu do pojedynczego parametru. Większe wartości bezwzględne oznaczają lepszą przydatność badanego parametru do klasyfikacji.

6. Literatura:

1. Cz. Basztura, Rozmawiać z komputerem. Wydawnictwo Prac Naukowych FORMAT, Wrocław, 1992.

2. P. Dalka, M. Dąbrowski, Opracowanie systemu automatycznego rozpoznawania dźwięków instrumentów muzycznych, praca dyplomowa KSM, Gdańsk 2003.

3. Information Technology — Multimedia Content Description Interface — Part 4: Audio, International Organization For Standardization, ISO/IEC JTC 1/SC 29, ISO/IEC FDIS 15938-4:2001(E), June 9, 2001.

4. A. Kaczmarek, A. Czyżewski, B. Kostek, Statystyka Behrensa-Fishera jako narzędzie wstępnego przetwarzania rozpoznawanych elementów fonetycznych. Prace V Sympozjum Inżynierii i Reżyserii Dźwięku, str. 55-62, Wrocław, 1993.

5. Kostek B., Czyżewski A., Representing musical instrument sounds for their automatic classification, J. Audio Eng. Soc., Vol. 49, pp. 768-784, 2001.

6. Overview of the MPEG-7 standard, International Organization For Standardization, ISO/IEC

JTC1/SC29/WG11, http://mpeg.telecomitalialab.com/standards/mpeg-7/mpeg-7.htm, Klangenfurt, July 2002.

7. R. Zieliński, W. Zieliński, Podręczne tablice statystyczne. Wydawnictwa Naukowo - Techniczne, Warszawa, 1987.

Cytaty

Powiązane dokumenty