Pakiet programowy SIVE
jako
narzędzie wspomagające
kryminalistyczne badania fonoskopijne
z perspektywy praktyki eksperckiej.
Część
II
Wprowadzeni e do instrument alnych metod identyfikacji osób
Mimo ogromnego rozwoju technologii badania mo-wy, nadal brak jest teoretycznej wiedzy o tym,jakczło wiekodróżniajedengłos- jakosygnał dżwi ękowy- od drugiego.Nie udało się dotąd wskazaćtzw. uniwersal-nych cech mowy igłosu,na podstawie którychmożliwe byłobyprawid łowe, wpełniautomatyczne (pozbawione konieczności pomocy ze strony człowieka) rozróżnia
nie mówców, ni eza l eż n eodtreści wypowiedzi, współ ist n i ej ących zwypowiedziązakłóce ń , rodzaju i charak-teru kanał u transmisji wypowiedziitp. System biometrii
głosusprawdzasi ę ,jeś limówcypodleg aj ący rozróż nie
niu (identyfikacji) wypowiadaj ą ten sam tekst, w taki sam sposób,warunkiotoczenia i transmisji wypowiedzi są kontrolowane, a stosuneksyg n ału mowy do pozio-mu zakłóceń jest wysoki. Ponieważ jednak do badań kryminalistycznych na ogół nie trafiają nagrania speł niające powyższe warunki, a równocześnie wymaga się wysokiej trafności identyfikacji, opinia wydawana jest przez eksperta, który, w zależności od wymagań danego systemuprawnego, ma do dyspozycji między innymi kompleksową metodykę językowo-pomiarową. Takimi metodykami posługują się np. eksperci Litew-skiego Centrum Kryminalistycznego w Wilnie, podle-głego litewskiemu Ministerstwu Sprawiedliwości, oraz Centralnego Laboratorium Kryminalistycznego Komen-dyGłównejPolicji w Warszawie.Pol egająone na prze-prowadzeniubadań:
•audytywnych (słuchowo-percepcyjnych), obejmu-jących ocenę parametrówgłosu oraz analizy cech lingwistycznych,prozodycznychifonetycznych wy-stępujących w mowie badanych osób jako zjawi
-sku funkcjonującemu w obszarze bio-psycho -so-cjalnym,
• pomiarowych(akustycznych),polegającychna wy-znaczaniu liczbowychwartościfizycznych parame-trów głosu badanych osób jako sygnału (pomiary częstotliwości podstawowejtonu krtaniowegooraz formantów 1, 2, 3).
Jakwynikazprzeglądu sprawozda ń'ł- 5 Eksperckiej Grupy Roboczej ENFSIKryminalistycznejAnalizy Mo-wy i Nagrań Audio (FSAAWG),kompleksow a metody-ka językowo- pomia rowa fonosk opijnej identyfikacji
PROBLEMY KRYMINALISTYKI 267(styczeń-marzec)2010
osób jest obecnie stosowana w większości
laborato-riów.
W praktyce taczęść badań,która opierasięna ana-lizie językowej, wymaga określenia wszystkich możli
wych cech - grupowych i indywidualnych - badanej osoby,które występują w jej mowie. Analizujesię za-tem- wlicznychodsłuchachdokonywanyc h podkątem
opisu konkretnychcech - gramatykę, słownictwo, arty-kulację, prozodykę (związanąm.in.z akcentowaniem), ogólnecechy głosu. Są togłówn i e ocenyjakościowe, a liczba zjawisk w praktyce poddawanych tego typu analizomwynosiodkilkunastu dokilkudziesięciu,w za-leżności od rodzajui charakteru posiadanego
materia-łu badawczego. Natomiast część pomiarowa bad a ń , w dużym stopniu, zależ na jest od posiadania odpo-wiedniego narzędzi a . Jak to omówiono w poprzedniej części artykułu ("Problemy Kryminalistyki" 261/2008),
pomiarom poddaje sięm.in.te same parametry głosu,
które wcześniej poddawane są jakościowej ocenie au-dytywnej (np. wysokość głosu, jego barwa, dźwięcz ność). Pomiaru niektórych znichmożna dokonać rów-nież ręcznie, korzystającwprostz wydruku sonogramu lubjego obrazu widocznego na ekranie monitora kom-puterowego, posiłkując się znacznikami sonografu. Zarówno brak dokładności, niewygoda i czasochłon ność takich działań jaki inne trudności związane ztą metodąniewymagają komentarza. Jednak w fonosko-pijnych indywidualnych badaniach identyfikacyjnych osób możliwe jest wykorzystanie jeszcze jednej grupy zjawisk, najczęściej analizowanych w badaniach po-miarowych. Chodzi o szereg wielkości związanych
ztzw. formantami.
Najogólniej można powiedzieć, że formanty to sku-piska energiisygnału mowy,którychmiejsce występo wania (w dziedzinieczęstotliwości)ikształt zależne są zarówno od treści wypowiedzi (czyli zawartości kon-kretnych elementów dźwiękowych - fonemów), jak i cechosobniczych mówcy,związanych główniez ana-tomiczną budową jego aparatu mowy, tj. od kształtu
tzw.kanału głosowego . Można mówićzarówno o
war-tości ach dotyczącychpojedynczychformantów,jakteż icałych ichzespołach, zwanych strukturami formanto-wymi.Moż n a mierzyćkonkretnewartości, alemożliwa
jesttakż e jakościowa, wizualna ocena kształtu struktur formantowych, dokonywana na sonograficznym
zie wypowiedzi. Wykorzystanie parametrów zwi ąza
nych z kanałem głosowym mówcy,w tym analizy for-mantowej wypowiedzi, to właśnie domena drugiego
modułu systemu SIVE, któremu poświęcon a jest ta
część artykułu.
Niniejszy artykuł jest drugim z cyklu poświęconego systemowi SIVE, wykorzystywanemu jako narzędzie
wspomagająceekspertów fonoskopii CLK KGP w
War-szawie- oraz wielu zagranicznych laboratoriów krym
i-nalistycznych- w trakcie przeprowadzaniaindywidua
l-nychbadań identyfikacyjnych osób. W artykule tym
zo-stanie przedstawiony drugi moduł tego systemu,skła
dający sięz trzechprogramów;PHONEMOS,FONVEK
i FONDIST.
Moduł anałizy fonemow ej
Z fizycznego punktu widzenia,mowa jestsygnałem
akustycznym.W takim ujęciu, uproszczony mechanizm
jego powstawaniamożna przedstawić następująco; Powietrze wydostające się z płuc - przechodząc przez krtań - powoduje powstanie sygnału quasi-sta
-cjonarnego,zwanego sygnałem pobudzenia.Jednak,
abysygnałten mógł być usłyszany, musiulec
wzmoc-nieniu.Dokonujesię ono poprzezprzejście przeztzw.
kanał głosowy, składający się z gardła, jamy ustnej
inosowej,języka, podniebieniamiękkiego i twardego,
dziąseł i zębów. Na efekt wzmocnienia tego sygnału
wpływ mają równieżzatokiczołoweiszczękowe.Nale
-ży miećjednakświadomość, żeposzczegóine e
lemen-ty kanału głosowego zniekształcają pienwotną postać
przechodzącego przez niesygnału (głosu), m.in.
kon-centrującjegoenergięwróżnychpasmachczęstotliwo
ści, tworząctzw.struktury formantowe. Ponieważ
mo-wa jest zjawiskiem dynamicznym, w każdej chwili jej tnwaniakształt kanału głosowegoulega zmianie. Zmia-ny tezależąod cech osobniczych samego mówcy, aie
takżeodtreści wypowiedzi, którąmówca ten artykułu
je. W pewnym uproszczeniu można powiedzieć, że
przekaz językowy składany jest z bardzo małych ele
-mentów- zwanych fonemami- a dlakażdego z nich,
kształt kanału głosowegojest inny.Można też przyjąć,
żefonem odpowiada pojedynczejgłosce,a graficznym
reprezentantem niektórychgłosek sąlitery.Głoski dzie-limy m.in.nadżwięczneibezdżwięczne, formanty
naj-wyrażniej wyodrębniają się w głoskach dżwięcznych.
Chcąc najefektywniej wykorzystać materiał badawczy,
jakim są wypowiedzi identyfikowanych osób, należy
więcwyodrębniaćfonemydżwięczne,stosunkowoczę
stowystępującewjęzyku.Natomiastbiorącpoduwagę
dynamiczny charakter mowy, dodatkowo powinny to
być fonemy tnwające na tyle długo, aby w ich obrębie
sygnał (dżwięk) zdążył się ustalić. W języku polskim
kryteria te najlepiej spełniają samogłoski. Są bowiem
fonemamidżwięcznymi iponadto są oś rod kam i sylab,
dlategotnwają dłużej izawierają więcejenergiiniżinne fonemy.W paśmie częstotliwości do 5000 Hzmożliwe
jest wyodrębn ien ie od 3 do 5 formantów, przy czym zgodniezteorią powstawaniaformantów wiadomo,że
świadomywpływ mówiąceg onaznaczącązm ian ę czę
stotl i woś ci formantów możliwy jest tylko
w przypadkupienwszychdwóch-trzechformantów,
na-tomiast w przypadkuwyższych- od trzeciegodopiąte
go- decydujący wpływ na ichlokalizację mają cechy
osobnicze budowyaparatumowy danego mówcy.
Od-zwierciedlenieindywidualnościmówcy wwyższych for-mantach wykorzystuje sięw fonemowej metodzie iden-tyfikacji osób na podstawie analizy ich wypowiedzi.
Przy spełnieniu między innymi odpowiednich warun
-ków technicznych,fakt ten pozwaladokonać rozróżnie
nia mówcówznatury podobnie brzmiących oraz
mów-ców celowozniekształcającychswoje wypowiedzi,aby poprzezzmianę brzmienia głosu upodobnić się do
ko-goś innego.Stąd teżsystem SIVE- zapomocą jedne-go ze swoich modułów - umożli wi a przeprowadzenie
analizyformantowej, abiorącpoduwagę specyfikę róż
nychjęzyków, daje użytkownikowi możliwość przeana
-lizowania dowolnie przez niego wybranych fonemów,
w tymsamogłoskowych.
Porównaniecech kanału głosowego różnych
mów-ców przeprowadzasięnadrodzeanalizyszeregu para-metrów związanych ze strukturami formantowymi wy-branych- tych samych- fonemów.Warunek porówny
-wania wyników pochodzących z analizy tych samych fonemów jest bardzoważny,jakożebadania tej proble-matykiwy kazały, iż odległość (różnica) wyników otrzy
-manych dla dwóch różnych fonemów realizowanych przez tego samegomówcęjestwiększa niż między wy-nikami otrzymanymi dla tego samego fonemu, realizo-wanego przezróżnychmówców (ryc. 1).
Naturamowy jest taka,żeobszarzmienności osob-niczej cech mowy jest szerszy niż obszar różnic mię
dzyosobniczychposzczególnychjej elementów.
Sposób obliczania parametrów
struktur formantowych fonemów
W celu uzyskania wiarygodnychwyników identyfika-cyjnych przyjęto, że opisane poniżej procedurynależy
przeprowadzić dla trzech różnych fonemów, odrębnie
dla każdej z identyfikowanych osób - tak w materiale
dowodowym, jak i porównawczym.
Wstępne przygotowaniaobejmują więc wyodrębnie
nie zdżwiękowegomateriału badawczego,wygranego
wcześniej dla wszystkich mówców,po trzy pliki
zawie-rające wyłącznie odpowiednio wyekstrahowane , wy
-brane fonemy.Doświadczalnie ustalono,żeczas tnwa
-]5
.
"
4~r
'"
~-',5~
'"
t
.,
['"
E
71111D ?~(JU ~ )UfiO ...L....L..L...;....l...L .:...--._~l J~llll ~O Il U,
L...J...J-l...l...L..LJ.-l_ (',0 0 !.OOIlSbow Yiew Window 6bout
Ryc. 1.Średniespektrum fonemów
kolor niebieski- mówca 1.,fonem[a], kolor czerwony- mówca 1.,fonem [i],kolorbrązowy- mówca 2.,fonem[i])
żródłotrvc.1-2):autorzy
Fig. 1.Mean phoneme spectrum;b/ue- speaker1.,phoneme {aj ,red- speaker1.,phoneme(iJ.,brown- speaker2.,phoneme(i])
t,I fil, Jmplemlilnl S.ound
1~ 8 --ł ,
"
~
C1
'
'+
.
"
~
''
~
'''
I
'-
~
~
.
--'-
.
''=~·
-
.
""
ti>,.. SS) [....) ~Il'uclł,
-
r------,---,---~---""
,."
0.701 Iin\•••...
.,. 01"'1Jf-
-
-
-
-"
.
.
Fregm.ntltorlpOintO{miL Indpoint:700[m.]
Ryc. 2.Widok typowego oknaroboczego programuPHONEMOS
Fig.2.V/ewot typicalsereen in PHONEMOS
sekundy. Do ekstrakcji fonemów wykonywanej przez eksperta oraz automatycznego tworzenia plików
fone-mowych służy program PHONEMOS (ryc.2).
Następnie każdyplik fonemowypochodzącyodkaż
dego mówcy, którego wypowiedzi utrwalone są w ma
-teriale dowodowym, poddawany jest obliczeniom
pro-wadzącym do określenia obszaru zmienności cech
każdej z tych osób.Algorytmobliczeń dla pojedynczej
osoby jest następujący:
Wkażdympliku fonemowym,wobrębiekażdego
ko-lejnego okna Hamminga o szerokości 20 ms
(przesu-nięcie między oknami wynosi 2 ms), obliczane jest
chwilowe widmokanału głosowego, na podstawie LPC
12. rzędu6. W efekcie, każde takie okno opisane jest
36-elementowym wektorem (wierszem macierzy cech),
reprezentującym chwilowe wartości zespołu cech,
obejmującego częstotliwości czterech formantów
i dwóch antyformantów, znormalizowane amplitudy
czterech formantów oraz wieleinnych, obliczanych na
podstawie tych pierwszych.Jeślizdługościjednego pli
-ku fonemowego wyodrębni się w ten sposób N okien
(wektorów),to dla tego pliku powstaje macierz cech,
o wymiarach:N
x
36.Na dalszym etapieobliczeńma-cierze te - odrębne dla każdego fonemu - podlegają
tzw.normalizacji. Realizujesię jąpoprzez obliczenie ze
wszystkich wektorów (wierszy) wartości średnich dla
pierwszych trzech formantów, anastępnie określeniew
każdym wektorze (wierszu) odległości każdego
z pierwszych trzech formantów od uzyskanej dla każ
dego z nich wartości średniej. Te z wektorów
cecho-wych (wierszy normalizowanych macierzy), w których
obliczone odległości uzyskują zbyt duże wartości, są
odrzucane. W wyniku tego działania powstają nowe,
krótsze macierze cech,o liczbie wektorów (wierszy) K
i liczbie kolumn 36, gdzie K<N.Dalsze obliczenia bę
dą mogły zostać uznane za wiarygodne, jeśli liczba K
uzyskawartości należącedoprzedziałuod 200 do 600,
najlepiej ok. 400. Praktyczne znaczenie tych macierzy
sprowadza siędo stwierdzenia,żemodelkanału głoso
wego - wraz z granicami jego najczęstszej zmienności
- charakterystyczny dla wypowiadania przez danego
mówcę konkretnego fonemu, określony jest przez K
różnych wartości (kształtów) chwilowych (jak gdyby
próbek).
Podobną procedurę przeprowadza się względem
tych samych fonemów, ekstrahowanych zmateriału
po-równawczego,dlakażdejidentyfikowanej osoby odręb
nie.
Porównanie ustalonych cech dwóch osób
Porównanie cech dwóch osób realizuje się poprzez
porównanie uzyskanych wcześniej ich macierzy cech,
obliczonych dla tego samego fonemu. Jednak
porów-nanie tych macierzy wymaga wykonania względem
nich dalszychobliczeń iprzekształceniaich do nowych
postaci.Istotądokonywanych przekształceńjest
odna-lezienie dla tego samego fonemu najbardziej do siebie
podobnych kształtów kanału głosowego, spośród
chwi-lowych ich wartości, określanych przez poszczególne
wiersze macierzy dowodowej i macierzy
porównaw-czej. Po ich odnalezieniu tworzy się nowe macierze,
których elementy tym razemokreślają wartości swojej
odległości od odpowiadających im elementów należą
cych do odnalezionych wektorów najbardziej
podob-nych. Takapostaćmacierzy umożliwia następnie
obli-czenie dlakażdejz nichrozkładów każdegoparametru,
tj. po 36 (na podstawie wielkościotrzymanych wkażdej
kolumnie każdej macierzy). Wreszcie porównanie tych
rozkładów pozwala na określenie zakresu zbieżności,
a tym samym stopnia prawdopodobieństwa, że
porów-nywane próbki mowy pochodziłyod tej samej osoby.
Wszelkie obliczenia wartości elementów macierzy
reprezentujących każdyfonem dla każdego mówcy
re-alizowanesą zapomocąprogramu FONVEK, a
wszel-kie obliczenia konieczne w procesie porównywania
tych reprezentacji realizowanesązapomocąprogramu
FONDIST. Podsumowanie
Chociaż wiarygodnośćuzyskiwanych wyników
wy-maga spełnienia pewnych wymogów technicznych,
aobsługa- wstępnegoprzygotowania przezczłowieka
właściwego materiału badawczego, to duża dokład
ność analizy fonemowej sprawia, że jest ona bardzo
pomocna we wszystkich tych przypadkach, w których
charakter materiałubadawczego nie pozwala na
wyod-rębnienie zadowalającejliczbyistotnych cech
wykorzy-stywanych podczas analiz audytywnych. Najczęściej
dotyczy tomateriałówkrótkich isłabo zróżnicowanych.
W ostatnich latach przydatnośćta została zwiększona
poprzez całkowite zautomatyzowanie poszczególnych
etapów tych analiz i praktycznie prawiecałkowite
wyeli-minowanie z tego procesu udziału człowieka. Póżniej
sza wersja modułu systemu SIVE, której omówieniu
poświęcona jest ta część artykułu, została zastąpiona
modułem o nazwie VERIFICATION. Łączy on
w sobie funkcję automatycznego selekcjonowania
fo-nemów [a], [o], [i] i tworzenia dla nich plików
fonemo-wych, z funkcją samoczynnego obliczania macierzy
cech i wyliczania odległości. Zmiana ta stanowi
znacz-ne udogodnienie dla eksperta, któregozaangażowanie
zostałoograniczone do wyselekcjonowania z materiału
badawczego właściwego fragmentu mowy ciągłej
da-nego mówcy, o łącznym czasie trwania wynoszącym
ok. 10 sekund (ok.8słów). Dzięki temucałkowiciewy
segmento-wania z próbek wypowiedzi stanów ustalonych p
o-szczegó lnych fonemów, jak również konieczność ręcz
nego ich kwalifikowania do odpowiednich plików fone-mowych ,co nie tylko znacznie oszcz ędzaczas, ale tak -że nie wymaga od osoby obslugującejten moduł wie
-dzyidoświadczenia eksperta.
Bernardas śatna Alicja Malanowicz
AleksanderKowalczyk PRZYPISY
1Rose P.: Forensic Speaker Identification, London ,Tay
-lor&Francis,2002.
2 NolanE, Grigoras C.: A case for formant analysis in lo-rensie speaker identification, Internationa l Journal ot Speech, Languageand the Law12, 143-173 ,2005.
3Jessen M.,Ktoster O.,Gfroerer 5.: Influence otvocal efforton average andvariabilityot funda mentalfrequen -cy, International Journal ot Speech, Language and the Law2005,12, 174-213 .
4 Fore nsic speech and audioanalysisForensic linquistlcs 1998to2001,A Review.13lhINTERPOLForensicS
cien-ce8ymposium, Lyon,France, October2001.
5 Forensic audio and visual evidence 2004-2007 ,A R e-view, 15th INTERPOL Forensic Scien ce 8ymposium , Lyon,France,October2007.
6 Kabal P.,RamachandranR.P.:ThecomputationotLine Spectral Frequencies using Chebyshev Polynomia ls. IEEE Transactions on Acoustic,Speech andSignal Pr o-cessing, v. ASSP-34, December 1986, No. 6, p. 1419-1426 .
BIBLIOGRAFIA
1.DudaR.,Hart P.,D. 510rk: PaltemClassification .New York: Taylor & Francis, 2000.
2.KabałP.,Ramachandran R.P.:The computationof
u-neSpectrałFrequencies using Chebyshev Polynom ials.IEEE Transactions on Acoustic,Speech and Signa lProcessing,v. ASSP-34,December 1986,No.6,p.1419-1426.3.Kowalczyk A.,MalanowiczA.: Pakiet programowy SI· VE jako narzędz ie wspomagające kryminalistycz ne badania fonoskopi jne z perspektywy praktyki eksperckiej. Część I,
"Problemy Kryminalistyki" 2008, nr261.
4. 5alna B.,Mambro G.O.:Method andSystemfor Bierne
-tricsVoicePrintAuthentlcatlon.Patent USA, 2006.
Streszczenie
Publikacja jestdrugączęścią artykułupt. .Pakiet
programo-wySIVE jakona rzędzie wspomagającekryminalistyczne bada-niafonoskopijne
z
perspektywypraktyki eksperckiej", któryuka-zał sięw261numerze"ProblemówKryminalistyki", Wczęści
PROBLEMY KRYMINALISTYKI 267(styczeń-marzec)2010
tej opisanezostałykolejne mierzalne parametrygłosu, wykorzy-stywane w trakcie przeprowadzania badań identyfikacyjnych
osób na podstawie analizymowy oraz programysłużącedo ich pomiarów.
Sło wakluczo we: fonoskopia, badania fonoskopijne,języko wo-pomiarowa metodyka identyfikacjiosób, kanał głosowy, fo
-nem,formant.
Summary
The publicationis part II of article"SlVEsupporting[oren -sicvoiceprint analysisfrom perspectiveof expert practice. Part
l" published in "Problemy Kryminalistyki" no.261. Part IJ
comprises subsequent measurable parametersof voice used
du-ringidentification ofpersons based on speech analysis and so-ftwareJor their measuring.
Keywords : voiceprint identiiication, voiceprint cxamina -ticn, linguistic-measurement methodology of identification
oj
persans,voicechannet phoneme,formant.Informujemy
,
że możnakupić książkę
Magd aleny Spólnickiej
pt. .Polim orfizm STRniekodującegoregion u genu lud zk iego hormonuwzrostu (HUMGH@)
ijegowyko rzystani e
w identyfikacjiosobniczej" . ~ull"'orfi,..~n j.~<>d~lo<",,"'''!ll,,""V""l~,b~i"ll ho...""0""IHU"(;HlIl jj.~o"""Oll"''''' .. 1d<o'r1i\o<ji~.ołI"j".j cena
26
złZamów ien iamożna składa ćna ad res: BiuroLogistyki PolicjiKGP
ul. Domaniewska 36/38, 02-672 Warszawa
te!.(022)60-129-45,raks (022) 60-115-71