ZPRAKTYKI
Wa
ldemar Ma
ciejko
Biometryczne rozpoznawanie mówców w kryminalistyce
Wstęp
Pomiar dowolnej wielkości fizycznej jest obciążony błędem wynikającymzdokładnościaparatury pomiarowej oraz metodyki pomiaru.Do oceny i eliminacji tych błę dów w klasycznejmetrologiiwykorzystywana jest analiza statystyczna. Pomiar wielkości fizycz nych opisujących anatomiczneibehawioralne cechy ludzkie jestznacznie
bardziej złożony, po n ieważ już samo badane zjawisko jest niepew ne. Oprócz czynnikówwymienionyc hwyżejna wynik pomiaru ma wpływ szereg dodatkowych zjawisk. Każdabadanawielkośćjestwypadkową uwarunkowań in-dywidu alnychi grupowych.Dlateg o zaobserwowanau jed-nostki cecha musi być rozpatrywa naw kontekście badań tej cechy w pop ulacji. Analiza statystyc zna w pomiarach biometrycznych, inaczej niż w klasycznej metrologii, jest narzędziem opisującym relację, jaka zachodzi pomiędzy
cec hą obserwowanąu jednostki a tą samą cechą zmie-rzonąuzbiorowości' ,
Współcześniedorobek biometrii służy budowie wyko-rzystujących anatomiczne lub behawioralne cechy l udz-kie zautomatyzowanych systemówrozpoznawania osób. Jednąztechn ikbiometrycznychjestautomatyczne
rozpo-znawanieosób napodstawiemowy.Ten rodzaj ro
zpozna-wania osóbznalazł zastosowanie tam,gdzie ważna jest weryfikacja tożsamości na odl eg łość z wykorzystaniem telefonii , czyli głównie w instytucjach finansowy ch. Inną dziedzinąjestdyscypl inakryminalistyki - tonoskopia.
Wykorzystaniesystemów automa tycz nego rozpoz
na-wania
m
ó
wc ów
(w skrócie ARM) w kryminalistyce przez wiele lat napotykało poważn e trudności. Przykładem możetu byćprojektAUROS rozwijany w latach 70.ubi e-głego wieku w NiemczechZachodnich oraz system SA-SIS budowany w USA. Oba tworzone były na potrzeby badańkryminalistycznychizostałyporzuconezewzględunaniesatysfakcjonującewyniki'.Głównymiprzeszkodami była zła jakość nag rań oraz krótki czas ich trwania. Po-jawieniesię szybkichkompute rów oraz opracowanie n o-wych metod param etryzacjisygnału i modelowani a staty-stycznegocechosobniczych umoż liwiły wd roż en ie nowej generacji systemów.Dotychczasowetrudności związa ne główniezjakością nagrań wdużym stopniu zostały prze-zwyci ężon e.
Krokiem milowym w rozwoju systemówautornatycz -nego rozpoznania mówców była zmiana podejścia do procesu obliczania cech osobniczych. Metody wyko -rzystywane obecnie, bazuj ące na liniowym kodowaniu predykcyjnym, modelowaniu perceptualnym oraz ana-lizie homeomorficznej opracowywano głównie
w
latachGO. i 70. ubieg łego wieku. Wówczas rozwijane systemy ARM opi erały się głównie na niskopoziom owych ce-chach widmowych. Systemy ws półczesne natomiast na podst awie obs erwacji cech widmowych z użyciem me-tod model owania statystycznego dokonują opisu jedno-stek fonetycznych mowy. Według danych literatu rowyc h najczęśc i ej proce s modelowan ia statystycznego prowa-dzonyjestz wykorzystaniem metody GMM3.
Celem niniejszegoopracowaniajest przedstawienieal -gorytmów obliczaniawidmowychcech głosuoraz metody ich modelowania statystycznegoopartegona mieszaninie modelinormalnych.Prezentowane wynikibadańprzepro -wadzono z wykorzystaniem bazy
m
ó
wc
ów
polskoj ęzycz nych.Przy tej okazjiprzedstawiono również metodologięoceny pracy systemu opracowaną przez NIST (National Institute ot Standardsand Technology).
Automatyczny system rozpoznawania mówców Działaniesystemu automatycznegorozpoznaniamówców
składasię ztrzech głównych etapów,sąto: przetwarza-niewstępne,modelowanie itestowanie.Procespowyższy przebiega równoleglejsynchronicznie na trzechźródłach syg nału: wypowiedzi dowodowej (określanej w publikacji jako wypowiedzitestowa - na rycinie 1 to wypowiedż }),
wypowiedzi porównawczej (inaczej wypowiedź wzorce-wa - na rycinie 1towypowiedź mówcy,\1)orazwypow ie-dziach mówcówz bazy pop ulacyjnej (na rycinie 1 to wy-powiedż- Af).Struktura takiego systemu przedstawiona jestnarycinie 1.
Wynik ibada ńz dziedziny psychoakustykiwskazują,że
postrzeganiewysokościtonuprzezczłowiekajestuwaru n -kowaneprzede wszystkimczęstotliwości ątego tonu oraz jegopoziomem.Stwierdzonorównież , żenajmniejsza
po-strzegana różnica częstotliwości występuje dlawartości około 1 kHz i dladżwięków opoziomie z zakresu G0-70
Z PRAKTYKI
dB SPL'. Wyniki tych badań doprowadziły do stworze-nia subiektywnej skali wysokości, tzw. mel-skali. Między mel-skaląaskalą częstotliwościowąistniejeliniowazależ nośćdookoło1000 Hz,powyżejnatomiast tejwartości za-leż nośćprzechodziwlogarytmiczną.Parametry widmowe,
na których opiera sięprzedmiotowy system ARM,bazują właśniena met-skali.Obliczanesąonewedługschematu przedstawionego na rycinie 2.
Bazą parametrów MFCC (Mel Frequency Cepstrel Goellicienls) jest dyskretne widmo sygnału. Widmo pod-dawane jest filtracji za pomocą filtrów pasmowo-przepu-stowych,którychczęstotliwości środkowe sąrównomiernie
rozłożonena melowej osiczęstotliwości(tzw.bank filtrów).
Ten etap jest rodzajemważeniacharakterystyki widmowej,
której efektem jest modyfikowanie rozdzielczości zależnie od zakresu częstotliwości". Następnie wektory obserwacji z wszystkich pasm poddawane są logarytmowaniu i obli-czona zostaje dyskretna odwrotna transformata Fouriera.
To ostatnie przekształcenieto tzw.transformata cepstral-na. Dodatkowa informacja obejmująca dynamikę zmian sygnału w czasie reprezentowana jest przez tzw.współ czynniki delta. W ten sposób z każdejramki otrzymywany
jest wektor cech złożony z 16współczynnikówMFCC, 16
LlMFCC, energiiEoraz ilE.W sumie daje to 34 cechy wid-mowe w jednym wektorze obserwacji.
Wyliczone zgodnie z ryciną 2 parametry widmowe sta-nowią bazę dalszych obliczeń. Następnym etapem jest identyfikacja i eliminacja wektorów obserwacji, które nie
niosą informacji osobniczej, a które zostałyobliczone na fragmentach nagrań,gdzie brak jest sygnału mowy. Pau-zy są nieodłącznym elementem każdej wypowiedzi. Są to zawieszenia głosu między dwoma kolejnymi dźwięka mi w strumieniu fonetycznym. Pauzy są też elementem składni oraz podkreślają intonacyjne rozczłonkowanie ciągu wypowiedzenioweqo". System ARM samoczynnie potrafi rozpoznać sygnał nieniosący informacji osobni-czej, jednakże cały proces ekstrakcji i przygotowania danych widmowych przebiega przy założeniu, że na-granie poddane analizie zawiera wypowiedź pochodzą cą od jednego mówcy. Zgodnie z ryciną 1w przypadku wypowiedzi dowodowej jest to mówca
y,
a porównawczej mówca M.Takwięc podobnie jak w przypadku klasycznej analizy fonoskopijnej badania z wykorzystaniem systemu ARM muszą zostać poprzedzone identyfikacją mówcy_
.~
.
..
Przetwa rzani e wstęp ne ~..
Modelowanie mówcy~..
Testowanie ~ Parametry Wykrywanie Normalizacja' Uczen ie, ModelMMówca M syg n ału: ciszymodel parametrów MAP
MFCC,PLP bi-modaln y CMS
Parametry Wykrywa nie Normalizacja, P(Y IM)
WypowiedźY sygn ału: ciszymodel parametrów LR~P(Y I-M ) MFCC,PLP bi-modaln y CMS
Mówc
,
-
a,
-M Pasygna łurametry: Wyciszykrywaniemodel Normalizacja' Uczenie,l
i
parametrówi:
ML-EM
:J
Model-MMFCC,PLP bi-modalny CMS (UBM)
Ryc.1.Schematpracysystemu
Fig. 1.Mainmodules ot automatic speaker recognition
Źródło(ryc.1-11):autor
.
-i
Preemfaza Okienkowanie FFT Energia Bank filtrów melowych Odwrotna FFT E DeltaMFCC Delta E MFCCRyc. 2. ProcesobliczaniaparametrówwidmowychMFCC
Fig. 2.Btock diagram ot processingstepsfor extracfing spectral MFC coefficients
Z PRAKTYKI
gdzie s" to wartość sygnatu w danej chwili. Najbardziej
złożonym etapem jest ustalenie progu eliminacji. Jedno
zpodejśćwykorzystuje do tego celuanalizę statystyczną. Metodata polega na zamodelowaniudwu modalnego
roz-kładu gęstości współczynników energetycznych
obliczo-nych na wszystkichwektorachobserw acji (ryc.3).Nastę p nie weryfikowanyjest warunek:
(3). (4), (5). I .
'
exP
{-
~' (X- )l )'(L
r
'( x
-)l)}
(2
·
Jl
")"
"IL,I'''
2
"
,
(5), Nc•.c'Is
(n )
= c.
(n )
-
I
l
e
.
(i)]
;=1 i=l Rp(x
1
0)
=I
m,p
;
(x)
gdzieRtoliczbarozkładówGaussa(tzw.rządmodelu)
wmieszanini e,w,to wagakażdeg okomponentu m ieszani-nyspełniająca następ uj ącywarunek:
Z czasem metoda tazostałazmodyfikowana i uzupel-nionaonormalizacjęwspółczynników ,natomiastoperacja uśrednian ia jest prowadzona jedynie na ramkachr epre-zentującychwypowiedZi.Oznacza to,że zmo dyfi kow ana operacj a CMS musibyćpoprzedzonaalgorytmemdetekcji syg nałumowy .
Opisane wyżej działan ia to wstępny proces prze twa-rzaniaparametrów widmowych.Zgodniezryciną1kolejny etap to modelowaniecech osobniczychmówcy. Prezento-wanatutaj metoda wykorzystujemieszaninę modeli nor-malnych (Gaussian Mixlure Models). Modele mieszanin
rozkładówGaussaopierająsięna założeniu, że gęstość
prawdopodobień stwa wystąpieniapewnejcechy zdefin io-wanejwprzestrzeni wielowymiarowej może zostać pr
zy-bliżona funkcją będącą ważoną sumą skończonej liczby
rozkładównormal nyc h.Prawdopodo b i eń stwo wystąpienia
zatem danejcec hy zdefiniowane jestnastępująco:
p
,(x)
Czynnikp,(x) zwyrażenia(4) obliczanyjestze wzoru:
R
Im
,
=
1
;=1
gdzie D to liczba elementów wektora, 11,jest wektorem wartości średnich o wymiarachD x I, E, jest macierzą
kowarlanej o wymiarach D .r D. Reasu m ując , model (1 ),
(2). wobrębie materiału.W niniejszychbadaniach do detekcji ramek mowy wykorzystano kryterium energetyczne. Me
-toda ta polega na porównaniu energii poszczególnych ra-mek.Na podstawie analizy statystycznejprowadzonej na przestrzenicałego nagraniaustanowiony jest prógelirni -nacji. Ramki, reprezentowa ne przez współczynn ik en
er-getyczny, któ regowa rtośćznajd uje się poniżejprogu,są
etykietowane ipomijane
w
dalszej analizie. Założe n iem tejmetod y jestistotnaróżn icacharakterystyk ene rgetycz-nychpom iędzy sygnałe mciszy asygnałem mowy. Ener
-gia sekwencji próbek{s... fic A1obliczana jestze wzoru:
.v
E
,
= logL>
;
n=lp
( E
,
I
PDF,"
"",,)
<
p(E
,
I
e;
,
,,)
Jeżeli warunek jest prawdziwy wektor zostaje zaety -kielowany jako cisza ipomin ięty
w
dalszejanalizie.Sygnał przesyłanyprzez okreśłony kanałtransm isji to splot dwóchskładowych:sygnałuoryginalnego i odpowie-dzikanału.Takie zjawiska jak echo kanałuiinnezakłóce
nia addytywnepowstającew trakcietrans misji,modyfi kując
parame trywidmowe,wplywająnegatywn ie naefektywność pracysystemu.Jednąz metodpozwalającąusunąćz wek-torów obserwacjiskladowądodanąprzezkanałjest techni-ka CMS(CepslralMean Sublraclion).Zgodnie ztą metodą obliczenie nowychparametrównastępujeprzezodjęcieod
wartościdanegowspółczynnika obliczonegowdanej ram-ce sygnału
k
.)
współczynnika uśrednionego po calej wy -powiedz i' ,Wyrażenietoprzedstawiono na równaniu(3):" ,---~--~--~---~--~--~---~---, \
.•
f---+-,~-~IIIJiliI-l
•
norm/looIEll"
..
•
•
.
.
Ryc.3.Rozkładdwumodalny(rządmodelu równy2) obliczony na okolaa-mlnutcwymnagraniu
Z PRAKTYKI
mówcy opisany za pomocą GMM zdefiniowany jest
przez następujący zbiór parametrów mieszaniny rozkla
-dów:O~(w"
u
,
2:)gdziei~l, ....R".Model graficzny stwo-rzony na bazie obliczonych parametrów rozkładu przed
-stawiono na rycinie4.
Model populacyjny ,którego parametrysąwykorzystywane do oszacowaniawartości mianownika wyrażenia (7), sta-nowiestymację parametrów populacji na podstawie próby z tej populacji.Model taki w skrócie nazywany jest UBM (Universal Background Mode~. Kryterium wyboru o
dpo-..
r----r---~---~---~---~---~---~'"
~ł
fi:
cr uoe norm{c1)Ryc.4. ModelGMMrzędurównego8 dla pojedynczegowspółczynnikaMFCC obliczonegona zo-sekunco we]wypowiedzimówcyposług ująceg o sięjęzy
kiem polskim
Fig.4.Gaussian MixtureModel, order equafs 8 of theMFC coefficientcalcu/atedon 20 seconds utterance ot Polish speaker
Na podstawie empirycznych obserwacji stwierdzono,
żekomponenty mieszaniny zbudowane na podstawiedłu gookresowych obserwacji widma sygnału reprezentują jednostki fonetyczne, które określane są jako klasy a
ku-styczne. Pojedyncze rozkłady reprezentują samogłoski
i spółgłoski, a ich kombinacja jest reprezentacją układu artykulacyjnego mówcy.Ponieważ modelowane klasy nie są w żaden sposób oznaczane, mówi się o niejawnych klasach lub modelach' .
Ostatnimelementem pracy systemu jestidentyfikacja.
Polega ona na ocenie ilorazu dwóchprawdopodobieństw
według następującej zależności:
akceptacjac> LLR
~
łog(
p(Y1M) )<:
s
(7).p(Y
1-
MuoM)Licznik wyrażenia (7)toprawdopodobieństwo przyna-leż nościparametrów widmowych wypowiedziYdo modelu GMM mówcy M. Mianownik natomiast to prawdopodo
-bieństwo przynależności parametrów Ydo modelu popu -lacyjnego - M.Jeżeli wynik ilorazu przekroczy określony wcześniej próg h,tożsamość mówcy zostaje zaakcept o-wana . Wyrażenia (7) nie należy utożsamiać z ilorazem wiarygodności(Likelihood Ratio)oznaczanym w literaturze
równieżprzez LR(lub LLR),którego formalizacja matema-tycznajestpodoona'vuorazwiarygodnościstanowiocenę
prawdziwości jednej z dwóchprzeciwstawnych hipotez".
W niniejszym opracowaniuautor,posługując si ę skrótem LLR, odnosi siędowartościzdefiniowanejwwyrażeniu(7).
22
wiedniej próby z populacji jest jednocześnie konkretną aplikacjąsystemu. Dotyczyto przede wszystkim systemów
pracujących na potrzeby analizy kryminalistycznej.Tutaj
istotny jest dobórstruktury modelu populacyjnegonie tylko zewzględunapłeć, wiek orazjęzyk,którymposługująsię mówcy, alerówn i eż technikęrejestracji,jakazostałaużyta
w celuutrwaleniagłosówbędącychprzedmiotemanalizy.
Wyniki
badańMiarą stopnia zgodności cech osobniczych mówców
jest wartość uzyskana na podstawie wyrażenia (7).
Wy-nik pracy systemu interpretuje się na podstaw ie wyzna-czonego zgodnie z badaniamieksperymentalnego progu
J. Przyjętypróg pracy systemu determinuje
prawdopodo-bieństwo popełnienia błędu. Zależność tę obrazuje ryci-na 5. Przedstawia on dwa rozkłady utworzone na pod-stawie wyników LLR,gdzie rozkład zielony reprezentuje międzyosobniczą zmi e n n ośćwynikówporównań.Rozkład czerwony natomiast jest interpretowany jako wewnątrzo sobniczy za kres zmienności LLR. Gdy 6 rośnie , rośnie
również prawdopodobieństwo błędnegoodrzucenia,
ma-leje natomiast prawdopodobieństwo błędnej akceptacji .
Gdy Jmaleje .jednocześnie maleje prawdopodobieństwo
błędnego odrzucenia ,rośnie natomiastprawdopodobień
stwobłędnej akceptacji.Istnieje zatem funkcja pomiędzy
progiem Japrawdopodobieństwem błędnegoodrzucenia iprawdopodobieństwembłędnejakceptacji.
Z PRAKTYKI O" -0035 DO>
'"
'0Ci.
-o ~0025ł
prawdopodob
ieństwo
g. olmbłędnegoodrzucen ia
~ ~ 0015
t-a:
001.. 0005 -°3---.2· -~--:-llR prawdopodobieństwo błędnejakceptacji~'"
l 2 3Ry c.5.Rozkładywartościlogarytmu LRwyznaczonegozgod niezwyraża n i e m(7) dla wynikó w1754porów na ń pomiędzytymisamymi mówcami(roz kł ad czerwo ny)oraz25446 porównań pomi ędzy róż nym imówcami(rozkładzielony)
Fig . 5.Dis tribulions otlog LR scorescetcuts tea acco rding toexpresston no. 7,red curve repres ents withinscore variabilitycafcufatedfor1754 compariso ns,
greencurve repres ents betweenscorevariability calcu/atedfo r25446comparisons
Funkcja ta ka prezentowana jest graficzn ie za pomo
-cą charakterystyk DET (Oetection Error Tredeoiti.Cha -rakterystyki te mówią o relacji , jaka zachodzi pomiędzy prawdopodobie ństwe m wystąpienia błędnej akceptacji
(P
,)
iprawdopodob ieństwem błędnego odrzucenia(
P
,J
Dzięki nieliniowo wyskalowanym osio m roś n i e rozdz
iel-czość charakterystyki, co ułatwia porównanie różnych
krzywych reprezentujących pracę w różnych warunkach
lubróżnychsystemów",
40
2
2 5 10 20 40
Prawdopodobienstwobłędne]akceptacji(%)Pfa
Oprócz charakterystyk DET do oceny wykorzystano
również wsp ółczyn nik EER (Equal Error Rate). Jest to punkt na krzywej DET. dlaktórego wartościp rawdopodo-bi eń stwa wystąpienia jednegozdwóch rodzajów błędów
sąsobie równe .Rycina6 przedstawia dwie c
harakterysty-kiDET wraz z ichinterpretacją.
Do badań wykorzystano bazę składającą się z 44
mówcówpolskojęzycznych.Jej opis zawarty jest w tabeli.
Porównanreskutecznościpracy systemu dla dwóch
przypadków:
nagranie testowe(dowodowe)o czasie trwania około30 sekund,nagraniewzarCaNe(porówn awcz e) o czasietrwaniaokoło30 sekund Otrzymanorezultat
prawdopodobieństwa błeduEER= - 5.1%.
nagrame testowe(dowodowe)o czasie trwania około 25 sekund,nagraniewzorcowe (porównawc ze)o czasie trwaniaokoło30 sekund.Otrzymanorezultat prawdopodobieństwabłęduEER= - 11%
Interpretacja:skrócenieczasu trwania nagrania
dowodowego o 5 sekundspowodowałopogorszenie
pracysystemu0- 6%(z - 5,1%do - 11%).Pogorszenie
skutecznościpracysystemu jest widoczne przez odsunięciesięcharaktery stkiw kierunku prawego górnego rogu pola wykresu.
Ryc.6. CharakterystykiDET wrazz ichinterpretacją.Wynikiuzyskano napodst awiewypowiedz i44 mówców polskojęzycznych komun ikujących sięza
pośrednictwemtelef oniiGSM
Z PRAKTYKI
Tabela Opis bazy mówców wykorzystanej w badaniach
Description ot group ot apeakers used in the study
Badanie Opis bazy Liczbaiopis wypowiedzi Liczba iopiswypowiedzi
testowych (dowodowych) wzorcowych (porównawczych)
Wpływczasu trwania
44mówców, rejestracja nagrania testowego
orazwpływczasu z wykorzystaniem GSM 160 wypowiedzi 170 wypowiedzi
trwanianagrania (częstotliwośćpróbkowania (średniook.4 wypowiedzi (średniook.4 wypowiedzi
8000 kHz, rozdzielczość od kazdego mówcy) od kazdego mówcy)
wzorcowego
16 bit,zapis PGM WAV)
naskuteczność
44mówców,rejestracja z wykorzystaniem GSM
160 wypowiedzi 170 wypowiedzi
Wpływ jakości z dodaniem szumubiałego (średniook.4 wypowiedzi (średniook.4 wypowiedzi
nagrania (częstotliwośćpróbkowania
8000 kHz.rozdzielczość odkażdegomówcy) odkażdegomówcy)
16 bit, zapis PGM WAV)
44mówców,wypowiedzi GSM:160 wypowiedzi GSM:170 wypowiedz!
każdegozarejestrowano (średniook.4 wypowiedzi (średniook.4 wypowiedzi
trzema technikami odkażdegomówcy). odkażdegomówcy).
GSM, PSTN oraz w PSTN:213wypowiedzi PSTN:249wypowiedzi Badaniewpływu warunkach pokojowych (średniook.5 wypowiedzi (średniook.5 wypowiedzi
transmisji mik.pojemnościowy odkażdegomówcy). odkażdegomówcy).
(częstotliwośćpróbkowania Mik.pojemnościowy: Mik.pojemnościowy:
44100 Hz,rozdzielczość16 312 wypowiedzi(średnio 312 wypowiedzi(średnio
bit,zapisbezstratny PCM ok.8-9 wypowiedzi ok.8-9wypowiedzi
WAV). odkażdegomówcy) odkażdegomówcy)
Wypowiedzi zostałyzarejestrowane za pośrednictwem
telefonii GSM.Wynikbadańprzedstawiony jest na rycinie 9.
Najlepszy rezultat uzyskano dla sytuacji,w której wy
-powiedż testową (dowodową)orazwzorcową(porównaw
-czą) charakteryzuje współczynnikSNR > 20 dB (krzywa czerwona),dla tego przypadku uzyskano
prawdopodobień-wynosi 30 s. Krzywa żółta reprezentuje wyniki dla przy-padku,
w
którym czas trwania nagrania porównawczego wynosi 155, krzywa czarna 10 sikrzywa jasnoniebieska 5 s. Wyniki jednoznaczniewskazują, żeimdłuższy czas trwania nagrania wzorcowego,tym wyższa skutecznośćsystemu (krzywezbliżają siędo lewego dolnego rogu wy-kresu). Najlepszy rezultat uzyskano dla nagrań o czasie trwania 30 s, dla któregoprawdopodobieństwobłędu wy-nosi - 5,2%,najgorszy natomiast dla czasu trwania
rów-nego 5 s.Dla tego przypadku prawdopodobieństwobłędu
wynosiokoło38,6%.
Kolejne badaniadotyczyłyskutecznościsystemu w funk-cji stopniazakłóceńnagrania testowego (dowodowego) oraz
nagrania wzorcowego (porównawczego). Zakłócenia
sy-mulowano szumembiałym. Stopień zakłóceniaopisano za
pomocą współczynnika SNR, zdefiniowanego poniżej(8). W ramach eksperymentu zbadano wpływczasu
trwa-nia, jakości oraz techniki transmisji na skuteczność sys~
temu. W badaniach wykorzystano nagrania typowe dia kryminalistycznej identyfikacji mówców.
W pierwszej kolejności zbadano jak obniży się sku
-tecznośćsystemu
w
miarę skracania trwania nagraniate-stowego (dowodowego). Badania te przeprowadzono dla wypowiedzi zarejestrowanych za pośrednictwem GSM.
Wynik przedstawiony jest na rycinie 7.
Krzywa czerwona reprezentuje wyniki dla przypadku,
w którym nagrania testowe (dowodowe)trwają30 s, krzy-wa czarna 10s, a jasnoniebieska 5 s. Najlepszy rezultat otrzymano dla wypowiedzi testowych (dowodowych)
trwa-jących około30 s,dla którychprawdopodobieństwobłędu
(EER) wynosi najmniej i jest równeokoło5,2%. Dla wypo-wiedzi o czasie trwania 10 s oraz 5 s otrzymano bardzo
zbliżonewyniki,prawdopodobieństwo błędu(E ER) równe
jestokoło11%.
W kolejnej serii pomiarowej sprawdzonowpływczasu trwania nagrania wzorcowego (porównawczego) na
sku-tecznośćsystemu ARM. Wypowiedzi zarejestrowano za
pośrednictwem telefonii GSM. Wyniki tych badań przed-stawiono na rycinie 8.
Badania przeprowadzono
w
czterech seriach pomiaro-wych. We wszystkich przypadkach czas trwania nagrania dowodowego to 30 s. Krzywa czerwona reprezentuje wyni-kibadań,w
których czas trwania nagraniaporównawczegoSNR
=
101
(
P
HMS. SygnalJ
dB
agIO
p
RMS,Szum
(8).
Z PRAKTYKI
sIwo błęd u równe 5,2%.W miarę, gdy malejeSNR,s ku-teczność systemuspada. Dla wypowiedzi testowych (
do-wodowych),dlaktórych SNR=5dB,skutecznośćsystemu spadado- 20%.Jednakdla wypowiedziwzorcowycho ta
-kim samymSNRskutecznośćspadajużdo - 42%.
Ostatnimelementem zbadanym
wr
amachniniejszej pra-cy
jestskutecznośćsystemuzależnieodtoru elektroakustycznego. Przeanalizowano wypowiedzizarejestrowaneza
po-średnictwem trzechróżnych kanałów:telefonij stacjonarnej
PSTN,telefonii komórkowej GSM oraz mikrofonu poje
mno-ściowego- wypowiedzibezpośredniezarejestrowane w w a-runkach pokojowych.Czastrwania porównywanych wypo
-wiedziwynosiłokoło30s,współczynnikSNR>20dB.
W wynikubadańuzyskano współczynnikEERdla te
-letonii stacjonarnej (krzywa czerwona) równyokoło6,6%,
dla telefonii komórkowej5,2%(krzywa niebieska) oraz dla
•
40
•
•
2 5 10 20
Prawdopodobienstwobiednejakceptacji(%) _ _lest=30s.wzór-:30s EER=5.1632 test=30s.wzór-:15s EER=18.2668 _ _test=30s,wzór=10s EER=24.1463 lest=30s.wzór=5s EER=38.5615 40
~
.0~
ł
20g,
•
{; ~o 10~
<•
:oł
5 2 2 l l'' -- 7 - - - t"-- - -.'.- - -* - - ---== "'''--J tesł"3Os,wzóp3Qs EER=5.11132 _ bt st- 105,wzO<t30s EER-l06902 te~s.-or.-30s EER·l 1.6484Ryc.7. Ocena pracysystemu ARM dlamalejącegoczasu trwania nagra
-nia testowego (dowodowego)przystałymczasie trwania nagrania wzor
-cowego(porównawczego)
Fig.7.Automatic speaker recognition evaJuationin function ot duration ot
test utterance andconslant duration ottarget uNerance
RyC.8. Badanieskutecznościpracy systemu ARM dlamalejącegoczasu
trwania nagraniawzorcowego przy stałymczasietrwanianagrania
tes-towego
Fig.8.Automa tic speakerrecognition eva/uationin tunction ot duration ot
target utterance and constant duration ottest uNerance
"
5 10 20
P'lIWdopodobienstwo biednejekceptłlcji(%)
"
S 10 20
P'-oopodo~nstwobiednej akceptacji(%)
2 2
_ ..~ SNR:~2Ode.WZÓfSNR>2Od8
.
'
PSTN-PSTNec EERaS1632 .0 EER-S620S
_ tnłSNR.l5dB.""ZÓfSNR,.2OdB Mic~.MId
EER.1 S 40tO EERa43541
_ t estSNR-5dB.wzórSNR>2OdB GSM-GSM
EER-204819 EER·S1632
l
_$l:SNR"2OdB.wzórSNR"'lSdBl
.0 EER·21 .5660 o
~ te'SłSNR>2OdB.'fIZ'ÓIfSNR=5dB
~
20 EERa42.0179 20j
i
~ ~j
i
!
"
! "
l
ł
~ ~ 5 5 ~i
l
Ryc.9.Badaniesku teczności systemu ARM zależnieodja kości nag rań
testow ego iwzorcow ego
Fig.9.Automalie speaker recognitionevaluation in tunction ot quality ot target and test utterance
RyC. 10.Porównan ieskutecznościsystemu ARMdlawypowi edziprzesła
nychróżnymimetodamitransmisji sygnałumowy
Fig.10.Comparisonot automaticspeakerrecognition sys tem tortest and
Z PRAKTYKI
mikrofonupojemnościowego4,4% (krzywa zielona).Wyni
-kitepokazują, żezbudowany systemnie jestuzależniony od techniki rejestracji i transmisjidźwięku .We wszystkich
analizowanych przypadkach rezultatbyłpodobny.
Wnioski
Na podstawiebadaństwierdzono:
Spadek czasu trwa nia nagrania dowodowego
powo-duje spadek skuteczności systemu. Dla wypowiedzi
trzydziestosekundowych uzyskano wynik prawdopo
-dobieństwa błędu równy 5,2%, dla wypowiedzi oz
ie-sięciosekundowych 10,7% oraz dla pięciosekundo
wych 11,6 %. Materiał badawczy zarejestrowano za pośrednictwemtelefonii GSM.
Spadek czasu trwania nagrania porównawczego po-woduje spadek skutecznościsystemu. Dla
wypowie-dzi piętnastosekundowychuzyskano wynik 18,2%, dla wypowiedzidziesięciosekundowych prawdopodobień
stwo błędu wynosi 24,1% idla wypowiedzipięciose kundowych 38,8%.Materiał badawczyzarejestrowano
za pośrednictwemtelefoniiGSM.
Pogorszenie ja kośc i nagrań powoduje spadek
sku-teczności systemu.Na podstawiebad ań stwierdzono,
że parametr SNR analizowanychnag rań nie powinien byćmniejszyniż20 dB. Materiałbadawczy zarejestro
-wano zapośrednictwemtelefoniiGSM.
technika rejestracjinie wpływa naskuteczność sys
te-mu. Przebadano wypowiedzi zarejestrowane za po -średnictwem telełonii GSM, PSTN oraz bezpośrednio
mikrofonupojemnościowegow warunkachpokojowych. Dla trzechprzypadków uzyskano podobny rezultat.
W badaniach wykorzystano nagraniaonastępujących
parametrach: częstotl i wość próbkowania 8 kHz (dla
na-grań telefonicznych) oraz 44 kHz (dla wypowiedzibezpo
-średnich ),rozdzielczość16 bit, format zapisuPCM WAV.
Podsumowanie
Praca powyższakoncentrujesię nawspółcześnie sto-sowanych metodach w systemach automatycznego rozpo-znawaniamówców oraz na próbie odpowiedzina pytanie:
czybiometryczne systemy tego typumogą byćskutecznym
narzędziemw badaniach fonoskopijnych. W pracy, dzię
ki przeanalizowaniuwpływu różnych,typowych dlaspraw
kryminalistycznych czynników,potwierdzonowartość dia-gnostyczną metody'>. Przytoczone wynikibadań pokazu
-ją jednoznacznie użytecznośćtego typu oprogramowania
w kryminalistyce.Wykorzystaniesystemów automatycznej
identyfikacji mówców, w przeciwieństwie do tradycyjnych
metod stosowanych dotychczas w fonoskopii opartych
główniena analiziejęzykowo-audytywnej,ma wieleniewąt pliwych zalet,sąto m.in.obiektywizacjawyniku,możliwość
26
analizy porównawczej wypowiedzi mówców obcojęzycz
nychorazwypowiedziza ledwie kilkusekundowychróż nią cych się pod względem leksykalnym. Fundamentalna, ze
względu na ocenę dowodu z opiniibiegłego przez organ
procesowy, jest znaj omość prawdopodobieństwa błędu metodyzastosowanej w badaniach.Ważnejest torównież wkontekścienormy PN-EN ISO/lEC17025:2005,która za
-kłada,żewynikmiarodajnytowynik,któregowartość rze
-czywista zokreślonym prawdopodob ieństwemznajdujesi ę wewnątrzznanego przedziału niepewności". Niewątpliwe
zaletyspowod uj ą, że oprogramowanie tego typu w nieda
-lekiejprzyszłości staniesię ważnym narzędziemwspiera -jącym biegłych fonoskopiiposł ugujących się tradycyjnymi
metodami opartyminaaudytywnejanaliziejęzykowej .
PRZYP
ISY
1R.Tade us iew icz,A. Izworski,J.Majewski:B iome-tria,Wydawnic twoAGH,Kraków 1993,s. 7-8.
2D, Meuwly:Encyclopediaofforensicsciences,Aca -demi c Press 2000,s.1418.
3B.G,B ,Fauve,D,Matrouf,N,5chefler, J,F, Bonas-tre,J.S,O, Mason:State-of-the-artperformance in text-i n-dependent speaker verificationthroughopen-source s ott-war e, "IEEE Transactions on audio,speech and language
processing"wrzesień2007,vol. 15, nr 7.
4 C.J.B. Moore:Wprowadzeniedo psychologiisłysze
nia,PWN,Warszawa-Poznań 1999,s. 199.
55,B, Davis, p, Mermelstein: Comparison of
para-metric representations formonosytlabie word recognition
incontinuouslyspoken sentences,"IEEE Transactionson
acoustics , speech and signal processing" 1980, 28 (4), s.357-366.
6 J, Malczewski :Nauka ojęzyku,Wydawnictwo Szk
ol-neiPedagogiczne,Warszawa 1990,s.199.
7S. Furui:Cepstral analysis technique for automatic speaker verification, "IEEE Transactionsacoustics, spe~ ech, signal processing"1981,ASSP-29 ,s.254-272.
8 O,A, Reynolds, T,F, Quatieri,R.B,Ounn:Speaker
verification using adapted gaussianmixture models, .Diqi-tal Signal Processing"2000,nr 1O,s.19-41.
9 O,A, ReynoJds ,R,C, Rose:Robust text-independent
speaker identificationusing gaussian mixture speaker
mo-dels, "IEEE Transactions on Speech and Audio Proces
-sing"1995,nr 3(1),s. 72-83.
10 C.G.G. Aitken,F.Taroni: Statistics and the eva-luation of evidence for forensic scientlsts .John Wiley & Sons,Ltd., Chichester2004,s.94-98;p, Rose: Forensic
speaker identification,Taylor&Franc is2002,s. 72.
11 J. Gonzales-Rodriguez,A. Drygajlo, O. Ram
o-s-Castro, M, Garcia-Gomar,J. Ortega-Garcia: Robust
estimation, inte rpretation and assessment of like lihood ratlosinterensicspeaker recognition,.Cornputer Speech and Language"2006,nr 20,s. 331-355.
12A. Martin,G. Doddington, T. Kamm,M. Ordowski,
M. Przybocki: The DET curve in assessment of detection task performance, [w:] Proceedings of the 5'" European Conference on Speech Communication and Technology,
vol. 4,Rhodes, Greece1997,s.1895-1898.
13 Termin wartości diagnostycznej (identyfikacyjnej) zdefiniowano w literaturze,patrz na przykład: T.Wid/a:
Ocena dowodu z opiniibiegłego,Prace naukowe Uniwer-sytetuŚląskiegow Katowicach nr 1309,Uniwersytet Ślą ski,Katowice1992, s. 46.
14 PN-EN iSO/lEC 17025:2005, Ogólne wymagania
dotyczące kompetencji laboratoriówbadawczych i
wzor-cujących , PKN, Warszawa2005.
Streszczenie
AutomatyczneRozpoznawanie Mówców(ARM)jestjedną z
naj-szybciejrozwijającychsięmetodbionletrycznych.WspółczesJlcsystemy,
dzięki efektyw nemu przetwarzaniu sygnału mowy orazskutecz ny m
Z PRAKTYKI
metodom rozpoznawania,If/ogąbyćwykorzystaneUJwielu dziedzinach,
m.in.identyfikacjikryminalistycznej.Wpracyopisonokrótktjhistorię
rozwojuARM,przedstaunono system zgodny zewspółczesnymstanem wiedzywzakresie przetwarzaniasygnałuoraz metod rozpoznawania . Opisal/orówn ieżmetody ocenypracy systemu.
Słowa kluczowe: Automatyczne Rozpoznawanie Mówców, GMM,UHM, OET, EER, LR,wartośćdiagnostycznametody
Summary
Automatic SpeakerRecognition (ARM) belongs to one oj tue most extensively devcloped biometrietcchnioues.Tbe highfy effeetivesigI/al proceeeingand recognitionmethods can be sllcccssfullyimptetncntca
illoavious ficlds,such aslorensiescience. Tl,is paperdescribes a brief lIistory of ARM deoelopment, etate-oj-the-art signal processing and recognitionmet!lOds,inctudingtedmiq uceoj systemsasscssmcut,
Keywords:Automat/c Speaker Recognition, GMM,UBM,VET, EER, LR, method's diagnoeticoalue