Biometryczne rozpoznawanie mówców w kryminalistyce

(1)

ZPRAKTYKI

Wa

ldemar Ma

ciejko

Biometryczne rozpoznawanie mówców w kryminalistyce

Wstęp

Pomiar dowolnej wielkości fizycznej jest obciążony błędem wynikającymzdokładnościaparatury pomiarowej oraz metodyki pomiaru.Do oceny i eliminacji tych błę dów w klasycznejmetrologiiwykorzystywana jest analiza statystyczna. Pomiar wielkości fizycz nych opisujących anatomiczneibehawioralne cechy ludzkie jestznacznie

bardziej złożony, po n ieważ już samo badane zjawisko jest niepew ne. Oprócz czynnikówwymienionyc hwyżejna wynik pomiaru ma wpływ szereg dodatkowych zjawisk. Każdabadanawielkośćjestwypadkową uwarunkowań in-dywidu alnychi grupowych.Dlateg o zaobserwowanau jed-nostki cecha musi być rozpatrywa naw kontekście badań tej cechy w pop ulacji. Analiza statystyc zna w pomiarach biometrycznych, inaczej niż w klasycznej metrologii, jest narzędziem opisującym relację, jaka zachodzi pomiędzy

cec hą obserwowanąu jednostki a tą samą cechą zmie-rzonąuzbiorowości' ,

Współcześniedorobek biometrii służy budowie wyko-rzystujących anatomiczne lub behawioralne cechy l udz-kie zautomatyzowanych systemówrozpoznawania osób. Jednąztechn ikbiometrycznychjestautomatyczne

rozpo-znawanieosób napodstawiemowy.Ten rodzaj ro

zpozna-wania osóbznalazł zastosowanie tam,gdzie ważna jest weryfikacja tożsamości na odl eg łość z wykorzystaniem telefonii , czyli głównie w instytucjach finansowy ch. Inną dziedzinąjestdyscypl inakryminalistyki - tonoskopia.

Wykorzystaniesystemów automa tycz nego rozpoz

na-wania

m

ó

wc ów

(w skrócie ARM) w kryminalistyce przez wiele lat napotykało poważn e trudności. Przykładem możetu byćprojektAUROS rozwijany w latach 70.ubi e-głego wieku w NiemczechZachodnich oraz system SA-SIS budowany w USA. Oba tworzone były na potrzeby badańkryminalistycznychizostałyporzuconezewzględu

naniesatysfakcjonującewyniki'.Głównymiprzeszkodami była zła jakość nag rań oraz krótki czas ich trwania. Po-jawieniesię szybkichkompute rów oraz opracowanie n o-wych metod param etryzacjisygnału i modelowani a staty-stycznegocechosobniczych umoż liwiły wd roż en ie nowej generacji systemów.Dotychczasowetrudności związa ne główniezjakością nagrań wdużym stopniu zostały prze-zwyci ężon e.

Krokiem milowym w rozwoju systemówautornatycz -nego rozpoznania mówców była zmiana podejścia do procesu obliczania cech osobniczych. Metody wyko -rzystywane obecnie, bazuj ące na liniowym kodowaniu predykcyjnym, modelowaniu perceptualnym oraz ana-lizie homeomorficznej opracowywano głównie

w

latach

GO. i 70. ubieg łego wieku. Wówczas rozwijane systemy ARM opi erały się głównie na niskopoziom owych ce-chach widmowych. Systemy ws półczesne natomiast na podst awie obs erwacji cech widmowych z użyciem me-tod model owania statystycznego dokonują opisu jedno-stek fonetycznych mowy. Według danych literatu rowyc h najczęśc i ej proce s modelowan ia statystycznego prowa-dzonyjestz wykorzystaniem metody GMM3.

Celem niniejszegoopracowaniajest przedstawienieal -gorytmów obliczaniawidmowychcech głosuoraz metody ich modelowania statystycznegoopartegona mieszaninie modelinormalnych.Prezentowane wynikibadańprzepro -wadzono z wykorzystaniem bazy

m

ó

wc

ów

polskoj ęzycz nych.Przy tej okazjiprzedstawiono również metodologię

oceny pracy systemu opracowaną przez NIST (National Institute ot Standardsand Technology).

Automatyczny system rozpoznawania mówców Działaniesystemu automatycznegorozpoznaniamówców

składasię ztrzech głównych etapów,sąto: przetwarza-niewstępne,modelowanie itestowanie.Procespowyższy przebiega równoleglejsynchronicznie na trzechźródłach syg nału: wypowiedzi dowodowej (określanej w publikacji jako wypowiedzitestowa - na rycinie 1 to wypowiedż }),

wypowiedzi porównawczej (inaczej wypowiedź wzorce-wa - na rycinie 1towypowiedź mówcy,\1)orazwypow ie-dziach mówcówz bazy pop ulacyjnej (na rycinie 1 to wy-powiedż- Af).Struktura takiego systemu przedstawiona jestnarycinie 1.

Wynik ibada ńz dziedziny psychoakustykiwskazują,że

postrzeganiewysokościtonuprzezczłowiekajestuwaru n -kowaneprzede wszystkimczęstotliwości ątego tonu oraz jegopoziomem.Stwierdzonorównież , żenajmniejsza

po-strzegana różnica częstotliwości występuje dlawartości około 1 kHz i dladżwięków opoziomie z zakresu G0-70

(2)

Z PRAKTYKI

dB SPL'. Wyniki tych badań doprowadziły do stworze-nia subiektywnej skali wysokości, tzw. mel-skali. Między mel-skaląaskalą częstotliwościowąistniejeliniowazależ nośćdookoło1000 Hz,powyżejnatomiast tejwartości za-leż nośćprzechodziwlogarytmiczną.Parametry widmowe,

na których opiera sięprzedmiotowy system ARM,bazują właśniena met-skali.Obliczanesąonewedługschematu przedstawionego na rycinie 2.

Bazą parametrów MFCC (Mel Frequency Cepstrel Goellicienls) jest dyskretne widmo sygnału. Widmo pod-dawane jest filtracji za pomocą filtrów pasmowo-przepu-stowych,którychczęstotliwości środkowe sąrównomiernie

rozłożonena melowej osiczęstotliwości(tzw.bank filtrów).

Ten etap jest rodzajemważeniacharakterystyki widmowej,

której efektem jest modyfikowanie rozdzielczości zależnie od zakresu częstotliwości". Następnie wektory obserwacji z wszystkich pasm poddawane są logarytmowaniu i obli-czona zostaje dyskretna odwrotna transformata Fouriera.

To ostatnie przekształcenieto tzw.transformata cepstral-na. Dodatkowa informacja obejmująca dynamikę zmian sygnału w czasie reprezentowana jest przez tzw.współ czynniki delta. W ten sposób z każdejramki otrzymywany

jest wektor cech złożony z 16współczynnikówMFCC, 16

LlMFCC, energiiEoraz ilE.W sumie daje to 34 cechy wid-mowe w jednym wektorze obserwacji.

Wyliczone zgodnie z ryciną 2 parametry widmowe sta-nowią bazę dalszych obliczeń. Następnym etapem jest identyfikacja i eliminacja wektorów obserwacji, które nie

niosą informacji osobniczej, a które zostałyobliczone na fragmentach nagrań,gdzie brak jest sygnału mowy. Pau-zy są nieodłącznym elementem każdej wypowiedzi. Są to zawieszenia głosu między dwoma kolejnymi dźwięka mi w strumieniu fonetycznym. Pauzy są też elementem składni oraz podkreślają intonacyjne rozczłonkowanie ciągu wypowiedzenioweqo". System ARM samoczynnie potrafi rozpoznać sygnał nieniosący informacji osobni-czej, jednakże cały proces ekstrakcji i przygotowania danych widmowych przebiega przy założeniu, że na-granie poddane analizie zawiera wypowiedź pochodzą cą od jednego mówcy. Zgodnie z ryciną 1w przypadku wypowiedzi dowodowej jest to mówca

y,

a porównawczej mówca M.Takwięc podobnie jak w przypadku klasycznej analizy fonoskopijnej badania z wykorzystaniem systemu ARM muszą zostać poprzedzone identyfikacją mówcy

_

.~

.

..

Przetwa rzani e wstęp ne ~

..

Modelowanie mówcy~

..

Testowanie ~ Parametry Wykrywanie Normalizacja' _U_{czen ie}_, _M_odel_M

Mówca M syg n ału: ciszymodel parametrów _M_AP

MFCC,PLP bi-modaln y CMS

Parametry Wykrywa nie Normalizacja, P(Y IM)

WypowiedźY sygn ału: ciszymodel parametrów LR~P(Y I-M ) MFCC,PLP bi-modaln y CMS

Mówc

_,

_-

a

_,

-M Pa_s_{ygna łu}rametry_: Wy_cis_zykrywanie_m_odel Normalizacja' Uczenie,

l

i

parametrów

i:

ML-EM

:J

Model-M

MFCC,PLP bi-modalny CMS (UBM)

Ryc.1.Schematpracysystemu

Fig. 1.Mainmodules ot automatic speaker recognition

Źródło(ryc.1-11):autor

.

-i

Preemfaza Okienkowanie FFT Energia Bank filtrów melowych Odwrotna FFT E DeltaMFCC Delta E MFCC

Ryc. 2. ProcesobliczaniaparametrówwidmowychMFCC

Fig. 2.Btock diagram ot processingstepsfor extracfing spectral MFC coefficients

(3)

Z PRAKTYKI

gdzie s" to wartość sygnatu w danej chwili. Najbardziej

złożonym etapem jest ustalenie progu eliminacji. Jedno

zpodejśćwykorzystuje do tego celuanalizę statystyczną. Metodata polega na zamodelowaniudwu modalnego

roz-kładu gęstości współczynników energetycznych

obliczo-nych na wszystkichwektorachobserw acji (ryc.3).Nastę p nie weryfikowanyjest warunek:

(3). (4), (5). I .

'

exP

{-

~' (X- )l )'(L

r

'( x

-)l)}

(2

· Jl

")"

"IL,I'''

2 "

,

(5), N

c•.c'Is

(n )

= c.

(n )

-

I

l

e

.

(i)]

;=1 i=l R

p(x

1 0)

=

I

m,p

;

(x)

gdzieRtoliczbarozkładówGaussa(tzw.rządmodelu)

wmieszanini e,w,to wagakażdeg okomponentu m ieszani-nyspełniająca następ uj ącywarunek:

Z czasem metoda tazostałazmodyfikowana i uzupel-nionaonormalizacjęwspółczynników ,natomiastoperacja uśrednian ia jest prowadzona jedynie na ramkachr epre-zentującychwypowiedZi.Oznacza to,że zmo dyfi kow ana operacj a CMS musibyćpoprzedzonaalgorytmemdetekcji syg nałumowy .

Opisane wyżej działan ia to wstępny proces prze twa-rzaniaparametrów widmowych.Zgodniezryciną1kolejny etap to modelowaniecech osobniczychmówcy. Prezento-wanatutaj metoda wykorzystujemieszaninę modeli nor-malnych (Gaussian Mixlure Models). Modele mieszanin

rozkładówGaussaopierająsięna założeniu, że gęstość

prawdopodobień stwa wystąpieniapewnejcechy zdefin io-wanejwprzestrzeni wielowymiarowej może zostać pr

zy-bliżona funkcją będącą ważoną sumą skończonej liczby

rozkładównormal nyc h.Prawdopodo b i eń stwo wystąpienia

zatem danejcec hy zdefiniowane jestnastępująco:

p

,(x)

Czynnikp,(x) zwyrażenia(4) obliczanyjestze wzoru:

R

Im

,

=

1

;=1

gdzie D to liczba elementów wektora, 11,jest wektorem wartości średnich o wymiarachD x I, E, jest macierzą

kowarlanej o wymiarach D .r D. Reasu m ując , model (1 ),

(2). wobrębie materiału.W niniejszychbadaniach do detekcji ramek mowy wykorzystano kryterium energetyczne. Me

-toda ta polega na porównaniu energii poszczególnych ra-mek.Na podstawie analizy statystycznejprowadzonej na przestrzenicałego nagraniaustanowiony jest prógelirni -nacji. Ramki, reprezentowa ne przez współczynn ik en

er-getyczny, któ regowa rtośćznajd uje się poniżejprogu,są

etykietowane ipomijane

w

dalszej analizie. Założe n iem tejmetod y jestistotnaróżn icacharakterystyk ene rgetycz

-nychpom iędzy sygnałe mciszy asygnałem mowy. Ener

-gia sekwencji próbek{s... fic A1obliczana jestze wzoru:

.v

E

,

= log

L>

;

n=l

p

( E

,

I

PDF,"

"",,)

<

p(E

,

I

PDF

e;

,

,,)

Jeżeli warunek jest prawdziwy wektor zostaje zaety -kielowany jako cisza ipomin ięty

w

dalszejanalizie.

Sygnał przesyłanyprzez okreśłony kanałtransm isji to splot dwóchskładowych:sygnałuoryginalnego i odpowie-dzikanału.Takie zjawiska jak echo kanałuiinnezakłóce

nia addytywnepowstającew trakcietrans misji,modyfi kując

parame trywidmowe,wplywająnegatywn ie naefektywność pracysystemu.Jednąz metodpozwalającąusunąćz wek-torów obserwacjiskladowądodanąprzezkanałjest techni-ka CMS(CepslralMean Sublraclion).Zgodnie ztą metodą obliczenie nowychparametrównastępujeprzezodjęcieod

wartościdanegowspółczynnika obliczonegowdanej ram-ce sygnału

k

.)

współczynnika uśrednionego po calej wy -powiedz i' ,Wyrażenietoprzedstawiono na równaniu(3):

" ,---~--~--~---~--~--~---~---, \

.•

f---

+-,~-~IIIJiliI-l

•

norm/looIEll

"

..

•

• .

.

Ryc.3.Rozkładdwumodalny(rządmodelu równy2) obliczony na okolaa-mlnutcwymnagraniu

(4)

Z PRAKTYKI

mówcy opisany za pomocą GMM zdefiniowany jest

przez następujący zbiór parametrów mieszaniny rozkla

-dów:O~(w"

u

,

2:)gdziei~l, ....R".Model graficzny stw

o-rzony na bazie obliczonych parametrów rozkładu przed

-stawiono na rycinie4.

Model populacyjny ,którego parametrysąwykorzystywane do oszacowaniawartości mianownika wyrażenia (7), sta-nowiestymację parametrów populacji na podstawie próby z tej populacji.Model taki w skrócie nazywany jest UBM (Universal Background Mode~. Kryterium wyboru o

dpo-..

r----r---~---~---~---~---~---~

'"

~

ł

fi:

cr uoe norm{c1)

Ryc.4. ModelGMMrzędurównego8 dla pojedynczegowspółczynnikaMFCC obliczonegona zo-sekunco we]wypowiedzimówcyposług ująceg o sięjęzy

kiem polskim

Fig.4.Gaussian MixtureModel, order equafs 8 of theMFC coefficientcalcu/atedon 20 seconds utterance ot Polish speaker

Na podstawie empirycznych obserwacji stwierdzono,

żekomponenty mieszaniny zbudowane na podstawiedłu gookresowych obserwacji widma sygnału reprezentują jednostki fonetyczne, które określane są jako klasy a

ku-styczne. Pojedyncze rozkłady reprezentują samogłoski

i spółgłoski, a ich kombinacja jest reprezentacją układu artykulacyjnego mówcy.Ponieważ modelowane klasy nie są w żaden sposób oznaczane, mówi się o niejawnych klasach lub modelach' .

Ostatnimelementem pracy systemu jestidentyfikacja.

Polega ona na ocenie ilorazu dwóchprawdopodobieństw

według następującej zależności:

akceptacjac> LLR

~

łog(

p(Y1M) )

<:

s

(7).

p(Y

1-

M_u_oM)

Licznik wyrażenia (7)toprawdopodobieństwo przyna-leż nościparametrów widmowych wypowiedziYdo modelu GMM mówcy M. Mianownik natomiast to prawdopodo

-bieństwo przynależności parametrów Ydo modelu popu -lacyjnego - M.Jeżeli wynik ilorazu przekroczy określony wcześniej próg h,tożsamość mówcy zostaje zaakcept o-wana . Wyrażenia (7) nie należy utożsamiać z ilorazem wiarygodności(Likelihood Ratio)oznaczanym w literaturze

równieżprzez LR(lub LLR),którego formalizacja matema-tycznajestpodoona'vuorazwiarygodnościstanowiocenę

prawdziwości jednej z dwóchprzeciwstawnych hipotez".

W niniejszym opracowaniuautor,posługując si ę skrótem LLR, odnosi siędowartościzdefiniowanejwwyrażeniu(7).

22

wiedniej próby z populacji jest jednocześnie konkretną aplikacjąsystemu. Dotyczyto przede wszystkim systemów

pracujących na potrzeby analizy kryminalistycznej.Tutaj

istotny jest dobórstruktury modelu populacyjnegonie tylko zewzględunapłeć, wiek orazjęzyk,którymposługująsię mówcy, alerówn i eż technikęrejestracji,jakazostałaużyta

w celuutrwaleniagłosówbędącychprzedmiotemanalizy.

Wyniki

badań

Miarą stopnia zgodności cech osobniczych mówców

jest wartość uzyskana na podstawie wyrażenia (7).

Wy-nik pracy systemu interpretuje się na podstaw ie wyzna-czonego zgodnie z badaniamieksperymentalnego progu

J. Przyjętypróg pracy systemu determinuje

prawdopodo-bieństwo popełnienia błędu. Zależność tę obrazuje ryci-na 5. Przedstawia on dwa rozkłady utworzone na pod-stawie wyników LLR,gdzie rozkład zielony reprezentuje międzyosobniczą zmi e n n ośćwynikówporównań.Rozkład czerwony natomiast jest interpretowany jako wewnątrzo sobniczy za kres zmienności LLR. Gdy 6 rośnie , rośnie

również prawdopodobieństwo błędnegoodrzucenia,

ma-leje natomiast prawdopodobieństwo błędnej akceptacji .

Gdy Jmaleje .jednocześnie maleje prawdopodobieństwo

błędnego odrzucenia ,rośnie natomiastprawdopodobień

stwobłędnej akceptacji.Istnieje zatem funkcja pomiędzy

progiem Japrawdopodobieństwem błędnegoodrzucenia iprawdopodobieństwembłędnejakceptacji.

(5)

Z PRAKTYKI O" -0035 DO>

'"

'0

Ci.

-o ~0025

ł

prawdopodob

ieństwo

g. olmbłędnegoodrzucen ia

~ ~ 0015

t-a:

001.. 0005 -°3---.2· -~--:-llR prawdopodobieństwo błędnejakceptacji

~'"

l 2 3

Ry c.5.Rozkładywartościlogarytmu LRwyznaczonegozgod niezwyraża n i e m(7) dla wynikó w1754porów na ń pomiędzytymisamymi mówcami(roz kł ad czerwo ny)oraz25446 porównań pomi ędzy róż nym imówcami(rozkładzielony)

Fig . 5.Dis tribulions otlog LR scorescetcuts tea acco rding toexpresston no. 7,red curve repres ents withinscore variabilitycafcufatedfor1754 compariso ns,

greencurve repres ents betweenscorevariability calcu/atedfo r25446comparisons

Funkcja ta ka prezentowana jest graficzn ie za pomo

-cą charakterystyk DET (Oetection Error Tredeoiti.Cha -rakterystyki te mówią o relacji , jaka zachodzi pomiędzy prawdopodobie ństwe m wystąpienia błędnej akceptacji

(P

,)

iprawdopodob ieństwem błędnego odrzucenia

(

P

,J

Dzięki nieliniowo wyskalowanym osio m roś n i e rozdz

iel-czość charakterystyki, co ułatwia porównanie różnych

krzywych reprezentujących pracę w różnych warunkach

lubróżnychsystemów",

40

2

2 5 10 20 40

Prawdopodobienstwobłędne]akceptacji(%)Pfa

Oprócz charakterystyk DET do oceny wykorzystano

również wsp ółczyn nik EER (Equal Error Rate). Jest to punkt na krzywej DET. dlaktórego wartościp rawdopodo-bi eń stwa wystąpienia jednegozdwóch rodzajów błędów

sąsobie równe .Rycina6 przedstawia dwie c

harakterysty-kiDET wraz z ichinterpretacją.

Do badań wykorzystano bazę składającą się z 44

mówcówpolskojęzycznych.Jej opis zawarty jest w tabeli.

Porównanreskutecznościpracy systemu dla dwóch

przypadków:

nagranie testowe(dowodowe)o czasie trwania około30 sekund,nagraniewzarCaNe(porówn awcz e) o czasietrwaniaokoło30 sekund Otrzymanorezultat

prawdopodobieństwa błeduEER= - 5.1%.

nagrame testowe(dowodowe)o czasie trwania około 25 sekund,nagraniewzorcowe (porównawc ze)o czasie trwaniaokoło30 sekund.Otrzymanorezultat prawdopodobieństwabłęduEER= - 11%

Interpretacja:skrócenieczasu trwania nagrania

dowodowego o 5 sekundspowodowałopogorszenie

pracysystemu0- 6%(z - 5,1%do - 11%).Pogorszenie

skutecznościpracysystemu jest widoczne przez odsunięciesięcharaktery stkiw kierunku prawego górnego rogu pola wykresu.

Ryc.6. CharakterystykiDET wrazz ichinterpretacją.Wynikiuzyskano napodst awiewypowiedz i44 mówców polskojęzycznych komun ikujących sięza

pośrednictwemtelef oniiGSM

(6)

Z PRAKTYKI

Tabela Opis bazy mówców wykorzystanej w badaniach

Description ot group ot apeakers used in the study

Badanie Opis bazy Liczbaiopis wypowiedzi Liczba iopiswypowiedzi

testowych (dowodowych) wzorcowych (porównawczych)

Wpływczasu trwania

44mówców, rejestracja nagrania testowego

orazwpływczasu z wykorzystaniem GSM 160 wypowiedzi 170 wypowiedzi

trwanianagrania (częstotliwośćpróbkowania (średniook.4 wypowiedzi (średniook.4 wypowiedzi

8000 kHz, rozdzielczość od kazdego mówcy) od kazdego mówcy)

wzorcowego

16 bit,zapis PGM WAV)

naskuteczność

44mówców,rejestracja z wykorzystaniem GSM

160 wypowiedzi 170 wypowiedzi

Wpływ jakości z dodaniem szumubiałego _(średn_io_ok_._{4 wypowiedzi} _(średnio_ok_._{4 wypowiedzi}

nagrania (częstotliwośćpróbkowania

8000 kHz.rozdzielczość odkażdegomówcy) odkażdegomówcy)

16 bit, zapis PGM WAV)

44mówców,wypowiedzi GSM:160 wypowiedzi GSM:170 wypowiedz!

każdegozarejestrowano (średniook.4 wypowiedzi (średniook.4 wypowiedzi

trzema technikami odkażdegomówcy). odkażdegomówcy).

GSM, PSTN oraz w PSTN:213wypowiedzi PSTN:249wypowiedzi Badaniewpływu warunkach pokojowych (średniook.5 wypowiedzi (średniook.5 wypowiedzi

transmisji mik.pojemnościowy odkażdegomówcy). odkażdegomówcy).

(częstotliwośćpróbkowania Mik.pojemnościowy: Mik.pojemnościowy:

44100 Hz,rozdzielczość16 312 wypowiedzi(średnio 312 wypowiedzi(średnio

bit,zapisbezstratny PCM ok.8-9 wypowiedzi ok.8-9wypowiedzi

WAV). odkażdegomówcy) odkażdegomówcy)

Wypowiedzi zostałyzarejestrowane za pośrednictwem

telefonii GSM.Wynikbadańprzedstawiony jest na rycinie 9.

Najlepszy rezultat uzyskano dla sytuacji,w której wy

-powiedż testową (dowodową)orazwzorcową(porównaw

-czą) charakteryzuje współczynnikSNR > 20 dB (krzywa czerwona),dla tego przypadku uzyskano

prawdopodobień-wynosi 30 s. Krzywa żółta reprezentuje wyniki dla przy-padku,

w

którym czas trwania nagrania porównawczego wynosi 155, krzywa czarna 10 sikrzywa jasnoniebieska 5 s. Wyniki jednoznaczniewskazują, żeimdłuższy czas trwania nagrania wzorcowego,tym wyższa skuteczność

systemu (krzywezbliżają siędo lewego dolnego rogu wy-kresu). Najlepszy rezultat uzyskano dla nagrań o czasie trwania 30 s, dla któregoprawdopodobieństwobłędu wy-nosi - 5,2%,najgorszy natomiast dla czasu trwania

rów-nego 5 s.Dla tego przypadku prawdopodobieństwobłędu

wynosiokoło38,6%.

Kolejne badaniadotyczyłyskutecznościsystemu w funk-cji stopniazakłóceńnagrania testowego (dowodowego) oraz

nagrania wzorcowego (porównawczego). Zakłócenia

sy-mulowano szumembiałym. Stopień zakłóceniaopisano za

pomocą współczynnika SNR, zdefiniowanego poniżej(8). W ramach eksperymentu zbadano wpływczasu

trwa-nia, jakości oraz techniki transmisji na skuteczność sys~

temu. W badaniach wykorzystano nagrania typowe dia kryminalistycznej identyfikacji mówców.

W pierwszej kolejności zbadano jak obniży się sku

-tecznośćsystemu

w

miarę skracania trwania nagrania

te-stowego (dowodowego). Badania te przeprowadzono dla wypowiedzi zarejestrowanych za pośrednictwem GSM.

Wynik przedstawiony jest na rycinie 7.

Krzywa czerwona reprezentuje wyniki dla przypadku,

w którym nagrania testowe (dowodowe)trwają30 s, krzy-wa czarna 10s, a jasnoniebieska 5 s. Najlepszy rezultat otrzymano dla wypowiedzi testowych (dowodowych)

trwa-jących około30 s,dla którychprawdopodobieństwobłędu

(EER) wynosi najmniej i jest równeokoło5,2%. Dla wypo-wiedzi o czasie trwania 10 s oraz 5 s otrzymano bardzo

zbliżonewyniki,prawdopodobieństwo błędu(E ER) równe

jestokoło11%.

W kolejnej serii pomiarowej sprawdzonowpływczasu trwania nagrania wzorcowego (porównawczego) na

sku-tecznośćsystemu ARM. Wypowiedzi zarejestrowano za

pośrednictwem telefonii GSM. Wyniki tych badań przed-stawiono na rycinie 8.

Badania przeprowadzono

w

czterech seriach pomiaro-wych. We wszystkich przypadkach czas trwania nagrania dowodowego to 30 s. Krzywa czerwona reprezentuje wyni-kibadań,

w

których czas trwania nagraniaporównawczego

SNR

=

101 (

P

HMS. Sygnal

J

dB

agIO

p

RMS,Szum

(8).

(7)

Z PRAKTYKI

sIwo błęd u równe 5,2%.W miarę, gdy malejeSNR,s ku-teczność systemuspada. Dla wypowiedzi testowych (

do-wodowych),dlaktórych SNR=5dB,skutecznośćsystemu spadado- 20%.Jednakdla wypowiedziwzorcowycho ta

-kim samymSNRskutecznośćspadajużdo - 42%.

Ostatnimelementem zbadanym

wr

amachniniejszej pra

-cy

jestskutecznośćsystemuzależnieodtoru elektroakustyc

znego. Przeanalizowano wypowiedzizarejestrowaneza

po-średnictwem trzechróżnych kanałów:telefonij stacjonarnej

PSTN,telefonii komórkowej GSM oraz mikrofonu poje

mno-ściowego- wypowiedzibezpośredniezarejestrowane w w a-runkach pokojowych.Czastrwania porównywanych wypo

-wiedziwynosiłokoło30s,współczynnikSNR>20dB.

W wynikubadańuzyskano współczynnikEERdla te

-letonii stacjonarnej (krzywa czerwona) równyokoło6,6%,

dla telefonii komórkowej5,2%(krzywa niebieska) oraz dla

•

40

•

2 5 10 20

Prawdopodobienstwobiednejakceptacji(%) _ _lest=30s.wzór-:30s EER=5.1632 test=30s.wzór-:15s EER=18.2668 _ _test=30s,wzór=10s EER=24.1463 lest=30s.wzór=5s EER=38.5615 40

~

.0

~

ł

20

g,

•

{; ~_o ₁₀

~

_<

•

:o

ł

5 2 2 l l'' -- 7 - - - t"-- - -.'.- - -* - - ---== "'''--J tesł"3Os,wzóp3Qs EER=5.11132 _ bt st- 105,wzO<t30s EER-l06902 te~s.-or.-30s EER·l 1.6484

Ryc.7. Ocena pracysystemu ARM dlamalejącegoczasu trwania nagra

-nia testowego (dowodowego)przystałymczasie trwania nagrania wzor

-cowego(porównawczego)

Fig.7.Automatic speaker recognition evaJuationin function ot duration ot

test utterance andconslant duration ottarget uNerance

RyC.8. Badanieskutecznościpracy systemu ARM dlamalejącegoczasu

trwania nagraniawzorcowego przy stałymczasietrwanianagrania

tes-towego

Fig.8.Automa tic speakerrecognition eva/uationin tunction ot duration ot

target utterance and constant duration ottest uNerance

"

5 10 20

P'lIWdopodobienstwo biednejekceptłlcji(%)

"

S 10 20

P'-oopodo~nstwobiednej akceptacji(%)

2 2

_ ..~ SNR:~2Ode.WZÓfSNR>2Od8

.

'

PSTN-PSTN

ec EERaS1632 .0 EER-S620S

_ tnłSNR.l5dB.""ZÓfSNR,.2OdB Mic~.MId

EER.1 S 40tO EERa43541

_ t estSNR-5dB.wzórSNR>2OdB GSM-GSM

EER-204819 EER·S1632

l

_$l:SNR"2OdB.wzórSNR"'lSdB

_l

.0 EER·21 .5660 o

~ te'SłSNR>2OdB.'fIZ'ÓIfSNR=5dB

~

20 EERa42.0179 20

j

_i

~ ~

j

_i

!

"

! "

l

ł

~ ~ ₅ 5 ~

i

l

Ryc.9.Badaniesku teczności systemu ARM zależnieodja kości nag rań

testow ego iwzorcow ego

Fig.9.Automalie speaker recognitionevaluation in tunction ot quality ot target and test utterance

RyC. 10.Porównan ieskutecznościsystemu ARMdlawypowi edziprzesła

nychróżnymimetodamitransmisji sygnałumowy

Fig.10.Comparisonot automaticspeakerrecognition sys tem tortest and

(8)

Z PRAKTYKI

mikrofonupojemnościowego4,4% (krzywa zielona).Wyni

-kitepokazują, żezbudowany systemnie jestuzależniony od techniki rejestracji i transmisjidźwięku .We wszystkich

analizowanych przypadkach rezultatbyłpodobny.

Wnioski

Na podstawiebadaństwierdzono:

Spadek czasu trwa nia nagrania dowodowego

powo-duje spadek skuteczności systemu. Dla wypowiedzi

trzydziestosekundowych uzyskano wynik prawdopo

-dobieństwa błędu równy 5,2%, dla wypowiedzi oz

ie-sięciosekundowych 10,7% oraz dla pięciosekundo

wych 11,6 %. Materiał badawczy zarejestrowano za pośrednictwemtelefonii GSM.

Spadek czasu trwania nagrania porównawczego po-woduje spadek skutecznościsystemu. Dla

wypowie-dzi piętnastosekundowychuzyskano wynik 18,2%, dla wypowiedzidziesięciosekundowych prawdopodobień

stwo błędu wynosi 24,1% idla wypowiedzipięciose kundowych 38,8%.Materiał badawczyzarejestrowano

za pośrednictwemtelefoniiGSM.

Pogorszenie ja kośc i nagrań powoduje spadek

sku-teczności systemu.Na podstawiebad ań stwierdzono,

że parametr SNR analizowanychnag rań nie powinien byćmniejszyniż20 dB. Materiałbadawczy zarejestro

-wano zapośrednictwemtelefoniiGSM.

technika rejestracjinie wpływa naskuteczność sys

te-mu. Przebadano wypowiedzi zarejestrowane za po -średnictwem telełonii GSM, PSTN oraz bezpośrednio

mikrofonupojemnościowegow warunkachpokojowych. Dla trzechprzypadków uzyskano podobny rezultat.

W badaniach wykorzystano nagraniaonastępujących

parametrach: częstotl i wość próbkowania 8 kHz (dla

na-grań telefonicznych) oraz 44 kHz (dla wypowiedzibezpo

-średnich ),rozdzielczość16 bit, format zapisuPCM WAV.

Podsumowanie

Praca powyższakoncentrujesię nawspółcześnie sto-sowanych metodach w systemach automatycznego rozpo-znawaniamówców oraz na próbie odpowiedzina pytanie:

czybiometryczne systemy tego typumogą byćskutecznym

narzędziemw badaniach fonoskopijnych. W pracy, dzię

ki przeanalizowaniuwpływu różnych,typowych dlaspraw

kryminalistycznych czynników,potwierdzonowartość dia-gnostyczną metody'>. Przytoczone wynikibadań pokazu

-ją jednoznacznie użytecznośćtego typu oprogramowania

w kryminalistyce.Wykorzystaniesystemów automatycznej

identyfikacji mówców, w przeciwieństwie do tradycyjnych

metod stosowanych dotychczas w fonoskopii opartych

główniena analiziejęzykowo-audytywnej,ma wieleniewąt pliwych zalet,sąto m.in.obiektywizacjawyniku,możliwość

26

analizy porównawczej wypowiedzi mówców obcojęzycz

nychorazwypowiedziza ledwie kilkusekundowychróż nią cych się pod względem leksykalnym. Fundamentalna, ze

względu na ocenę dowodu z opiniibiegłego przez organ

procesowy, jest znaj omość prawdopodobieństwa błędu metodyzastosowanej w badaniach.Ważnejest torównież wkontekścienormy PN-EN ISO/lEC17025:2005,która za

-kłada,żewynikmiarodajnytowynik,któregowartość rze

-czywista zokreślonym prawdopodob ieństwemznajdujesi ę wewnątrzznanego przedziału niepewności". Niewątpliwe

zaletyspowod uj ą, że oprogramowanie tego typu w nieda

-lekiejprzyszłości staniesię ważnym narzędziemwspiera -jącym biegłych fonoskopiiposł ugujących się tradycyjnymi

metodami opartyminaaudytywnejanaliziejęzykowej .

PRZYP

ISY

1R.Tade us iew icz,A. Izworski,J.Majewski:B iome-tria,Wydawnic twoAGH,Kraków 1993,s. 7-8.

2D, Meuwly:Encyclopediaofforensicsciences,Aca -demi c Press 2000,s.1418.

3B.G,B ,Fauve,D,Matrouf,N,5chefler, J,F, Bonas-tre,J.S,O, Mason:State-of-the-artperformance in text-i n-dependent speaker verificationthroughopen-source s ott-war e, "IEEE Transactions on audio,speech and language

processing"wrzesień2007,vol. 15, nr 7.

4 C.J.B. Moore:Wprowadzeniedo psychologiisłysze

nia,PWN,Warszawa-Poznań 1999,s. 199.

55,B, Davis, p, Mermelstein: Comparison of

para-metric representations formonosytlabie word recognition

incontinuouslyspoken sentences,"IEEE Transactionson

acoustics , speech and signal processing" 1980, 28 (4), s.357-366.

6 J, Malczewski :Nauka ojęzyku,Wydawnictwo Szk

ol-neiPedagogiczne,Warszawa 1990,s.199.

7S. Furui:Cepstral analysis technique for automatic speaker verification, "IEEE Transactionsacoustics, spe~ ech, signal processing"1981,ASSP-29 ,s.254-272.

8 O,A, Reynolds, T,F, Quatieri,R.B,Ounn:Speaker

verification using adapted gaussianmixture models, .Diqi-tal Signal Processing"2000,nr 1O,s.19-41.

9 O,A, ReynoJds ,R,C, Rose:Robust text-independent

speaker identificationusing gaussian mixture speaker

mo-dels, "IEEE Transactions on Speech and Audio Proces

-sing"1995,nr 3(1),s. 72-83.

10 C.G.G. Aitken,F.Taroni: Statistics and the eva-luation of evidence for forensic scientlsts .John Wiley & Sons,Ltd., Chichester2004,s.94-98;p, Rose: Forensic

speaker identification,Taylor&Franc is2002,s. 72.

11 J. Gonzales-Rodriguez,A. Drygajlo, O. Ram

o-s-Castro, M, Garcia-Gomar,J. Ortega-Garcia: Robust

estimation, inte rpretation and assessment of like lihood ratlosinterensicspeaker recognition,.Cornputer Speech and Language"2006,nr 20,s. 331-355.

(9)

12A. Martin,G. Doddington, T. Kamm,M. Ordowski,

M. Przybocki: The DET curve in assessment of detection task performance, [w:] Proceedings of the 5'" European Conference on Speech Communication and Technology,

vol. 4,Rhodes, Greece1997,s.1895-1898.

13 Termin wartości diagnostycznej (identyfikacyjnej) zdefiniowano w literaturze,patrz na przykład: T.Wid/a:

Ocena dowodu z opiniibiegłego,Prace naukowe Uniwer-sytetuŚląskiegow Katowicach nr 1309,Uniwersytet Ślą ski,Katowice1992, s. 46.

14 PN-EN iSO/lEC 17025:2005, Ogólne wymagania

dotyczące kompetencji laboratoriówbadawczych i

wzor-cujących , PKN, Warszawa2005.

Streszczenie

AutomatyczneRozpoznawanie Mówców(ARM)jestjedną z

naj-szybciejrozwijającychsięmetodbionletrycznych.WspółczesJlcsystemy,

dzięki efektyw nemu przetwarzaniu sygnału mowy orazskutecz ny m

Z PRAKTYKI

metodom rozpoznawania,If/ogąbyćwykorzystaneUJwielu dziedzinach,

m.in.identyfikacjikryminalistycznej.Wpracyopisonokrótktjhistorię

rozwojuARM,przedstaunono system zgodny zewspółczesnymstanem wiedzywzakresie przetwarzaniasygnałuoraz metod rozpoznawania . Opisal/orówn ieżmetody ocenypracy systemu.

Słowa kluczowe: Automatyczne Rozpoznawanie Mówców, GMM,UHM, OET, EER, LR,wartośćdiagnostycznametody

Summary

Automatic SpeakerRecognition (ARM) belongs to one oj tue most extensively devcloped biometrietcchnioues.Tbe highfy effeetivesigI/al proceeeingand recognitionmethods can be sllcccssfullyimptetncntca

illoavious ficlds,such aslorensiescience. Tl,is paperdescribes a brief lIistory of ARM deoelopment, etate-oj-the-art signal processing and recognitionmet!lOds,inctudingtedmiq uceoj systemsasscssmcut,

Keywords:Automat/c Speaker Recognition, GMM,UBM,VET, EER, LR, method's diagnoeticoalue