• Nie Znaleziono Wyników

11. Inne cechy

11.2. Wspóczynnik integracji

W tym podrozdziale zaprezentowano algorytm pomiaru parametru aproksymujcego jedn z cech charakteryzujcych motoryk pisma [94]. W algorytmie tym wykorzystano wiedz na temat parametru sterujcego (szeroko linii pisma) zmierzonego zgodnie z opisem z podrozdziau poprzedniego.

Wyrónian cech pisma rcznego zwizan z jego motoryk jest impuls pisma (IM, ang. impulse) [69]. W Katalogu Graficznych Cech Pisma Rcznego IES umiejscowiony impuls pisma zosta wród grupy cech motorycznych. Cecha ta zwizana jest z czstotliwoci odrywania materiau pisarskiego od podoa, co jest pewn miar szybkoci pisania. „Rozróniamy impuls: grammowy (gdy dany znak jest

zbudowany z kilku oddzielnych gramm), literowy (gdy dany znak jest zbudowany z jednej linii cigej), sylabowy (gdy dwa albo wicej znaków jest nakre lonych bez odrywania narzdzia pisarskiego od podoa), wyrazowy (gdy cae wyrazy s nakre lone bez odrywania narzdzia pisarskiego od podoa), wielowyrazowy (gdy dwa lub wicej wyrazów jest poczonych razem). Poniewa najcz ciej wystpuje kombinacja podstawowych rodzajów impulsu, w badaniach identyfikacyjnych okre la si dominujcy rodzaj impulsu. [107]” W tym przypadku mamy do czynienia

z pomiarem na skali porzdkowej trudnym do przeprowadzenia metodami obliczeniowymi.

Kolejn miar bdc liczbowym odpowiednikiem impulsu jest wspóczynnik integracji pisma WI:

G G G nw w w WI  (83)

gdzie: wG — liczba gramm wizanych,

nw — liczba gramm niewizanych G

oraz poziom integracji pisma IN [16]:

G G

nw w

IN (84)

Suma gramm wizanych (wG) i niewizanych (nwG) równa si liczbie wszystkich gramm w danym tekcie:

G G

G B w nw (85)

B

G — moc zbioru wszystkich gramm w obrazie B.

Pomiaru w tym przypadku dokonujemy na skali ilorazowej. Wspóczynnik integracji pisma i poziom integracji pisma s atwiej wyznaczalne metodami obliczeniowymi ni impuls pisma.

Poniewa w literaturze nie definiuje si precyzyjnie poj: liczba gramm wizanych i niewizanych stosowanych w powyszych definicjach, dlatego naley je ucili. W pracy [16] mówi si o „grammach powizanych” i „grammach nie powizanych, pozostajcych luno”. Trudno zinterpretowa pojcie „pozostajcych luno” moe ono bowiem oznacza, e dana gramma nie jest powizana z adn inn (w takim przypadku dla sytuacji z Rys. 38 (g) mielibymy w=4) jak i to, e nie jest wizana z poprzedni lub nastpn gramm (wtedy w=2).

W niniejszej pracy proponuje si natomiast wyj od pojcia poczenia pomidzy grammami. Liczb gramm wizanych (wG) uzaleniamy od liczby pocze (np), patrz formua (86).

wG=0 dla n =0 i wp G=n +1 dla n >0 p p (86) Rozpatrzmy przykady zestawu wiza w ukadzie czterogrammowym (poligrammy) z Rys. 38. Liczba pocze (np) przyjmuje warto 0, kiedy adna gramma nie jest wizana z inn (Rys. 38 (a)). W pozostaych przypadkach liczba pocze (np) jest z zakresu od 1 do liczby wszystkich gramm pomniejszonej o 1 (G

B 1).

Wspóczynnik integracji pisma przyjmuje wartoci od 0 do 1. Im wiksza warto tego wspóczynnika, tym wysza integracja pisma.

Rys. 38. Przykady wyznaczania wartoci wspóczynnika integracji pisma wybranych ukadów poligramm

Obliczenie powyszych parametrów wymaga jednak dokonania segmentacji pisma na poszczególne grammy, co nie jest problemem atwym. Dlatego mona próbowa znale parametr przybliajcy te wartoci.

Dobr aproksymacj wspóczynnika integracji pisma jest liczba obszarów spójnych LOS (ang. number of connected regions). Obszarem spójnym nazywamy taki podzbiór obrazu, którego dowolne dwa punkty da si poczy ciek cakowicie zawart w tym podzbiorze (Rys. 39).

Rys. 39. Ilustracja obszaru spójnego

Oczywicie zastosowanie tego parametru ma sens tylko w przypadku obrazów tekstów tej samej treci. W takim przypadku mówimy o identyfikacji zalenej od treci tekstu (ang. text-dependent) w przeciwiestwie do identyfikacji niezalenej od treci tekstu (ang. text-independent) [99]. Badania porównawcze w oparciu o ten sam tekst (identyfikacja zalena od treci tekstu) s moliwe. Autorzy podrczników kryminalistyki zalecaj, aby dyktowany tekst porównawczy by treciowo taki sam jak

tekst referencyjny (kwestionowany dokument), bd co najmniej zawiera wiele takich samych wyrazów, zwrotów, kombinacji liter jak znalezionych w badanym dokumencie [98, s. 470]. Tak zebrany materia badawczy da si wic bada proponowan metod.

Gdy w danym wyrazie obszarów spójnych jest mniej, wówczas mamy do czynienia z wikszym wspóczynnikiem integracji pisma, natomiast jeli w takim samym wyrazie obszarów spójnych jest wicej, to mamy do czynienia z mniejszym wspóczynnikiem integracji. Dwa przykady poetykietowanych obrazów pokazano na Rys. 40 (poszczególne poetykietowane obszary zaznaczono rónymi wypenianiami). W przypadku z Rys. 40 (a) mamy dwa obszary spójne, a z Rys. 40 (b) mamy pi obszarów spójnych.

Rys. 40. Obrazy etykietowane suce do zliczenie elementów

Przy przechodzeniu od ruchu pisarskiego do próbki pisma mamy oczywicie przekamanie w torze informacyjnym. Moe si zdarzy, e na poziomie mikroskopowym lad ruchu pisarskiego nie oddaje prawidowo trajektorii ruchu pisarskiego. W praktycznych przypadkach moemy mie do czynienia z zakóceniami kilku rodzajów. Moemy si spotka z niecigoci linii pisma w przypadku kiedy ruch pisarski by cigy. Linia ladu pisma moe by przerywana. Moemy te mie do czynienia z pozornym powizaniem gramm wynikajcym z nakadania si materiau kryjcego w przypadku, kiedy nie ma takiego powizania w odpowiadajcym ruchu pisarskim. Rozpatrzmy dwa przykady wyrazów z próbki pisma (zestaw 1, próba nr 1,

linia, wiersz 15, wyraz 6: „dorosymi” oraz w tym samym rkopisie wiersz 16, wyraz 11: „doros”) (Rys. 41).

a) b)

Rys. 41. Przykady wyrazów

Trajektori przebiegu linii pisma dla powyszych próbek pisma zrekonstruowano i przedstawiono na rysunkach poniej (Rys.42).

a) b)

Rys. 42. Trajektoria przebiegu linii pisma w przykadowych wyrazach. Liczby reprezentuj domnieman kolejno krelenia gramm lub grup gramm

W przykadzie pierwszym (Rys. 42 (a)) mamy powizanie pomidzy grammami litery „d” i „o”. Jeli zobaczymy obrazy pisma w duym powikszeniu (Rys. 43), to mona zaobserwowa w jaki sposób materia kryjcy zosta naniesiony na podoe. W przypadku z Rys. 43 (a), (c) i (e) linia pisma jest przerywana ze wzgldu na waciwoci materiau kryjcego i podoa. W przypadku drugim (Rys. 42 (b)), Rys. 43 (b), (d) i (f)) mamy przypadkow zbieno lokalizacji pooenia materiau kryjcego. Teoretycznie nie ma w tym przypadku wizania pomidzy grammami liter „” i „”.

a) b)

c) d)

e) f)

Rys. 43. Przykady powizania gramm; a), b) obrazy fragmentów wyrazów; c), d) obraz w duym powikszeniu; e), f) obrazy zbinaryzowane

W rozumieniu teorii informacji tak sytuacj okrelamy jako dezinformowanie [68, s. 141–152]. Akt pisania rozumiemy jako transformacj informacji, gdzie jako orygina moemy przyj trajektori narzdzia pisarskiego, a obrazem przeksztacenia (wynikiem transformacji) jest lad materiau kryjcego.

Powysze niejednoznacznoci wymagaj wyranego rozrónienia samego aktu pisarskiego od ladu, jaki w wyniku procesu pisania zostaje na podou pisarskim.

Powysze spostrzeenia nasuwaj nastpujcy wniosek: naley przedefiniowa pojcia zwizane z miar integracji pisma na potrzeby systemu obliczeniowego. Przy definiowaniu takich poj naley je odnie do stosowanych obecnie w praktyce pismoznawczej miar integracji pisma.

Algorytm zliczania obszarów spójnych opiera si w czci na algorytmie etykietowania obszarów spójnych omówionym w pracy [23, s. 40–48]. Algorytm ten w praktyce zosta zaimplementowany w Matlabie w postaci funkcji bibliotecznej

bwlabel. Etykietowanie jest operacj przeksztacenia obrazu binarnego B (Rys. 44 (a))

w reprezentacj symboliczn w tzw. obraz etykietowany (Rys. 44 (c)) reprezentowany przez zbiór E. Etykiet punktu obrazu B(x,y) oznaczono przez E(x,y). Przez ei oznaczmy warto kolejnej etykiety. Pocztkowo zbiór E inicjalizujemy wartociami

e1=1 dla punktów w kolorze materiau kryjcego. W wyniku kocowym etykietowania, liczba obszarów spójnych jest równa numerowi najwikszej etykiety: eNety (Nety oznacza liczb etykiet). W celu wyznaczenia powierzchni kadego z obszarów spójnych zliczamy liczb punktów l z etykiet e wedug formuy (87). i i

¦ ¦

i: li x y E(x,y) ei (87)

Ze znalezionych obszarów spójnych odrzucane s te o maej powierzchni, nie przekraczajcej pewnej progowej wartoci powierzchni. Takimi elementami o maej powierzchni mog by róne fragmenty kresek, które nie zostay usunite w etapie przetwarzania wstpnego, niecige fragmenty linii pisma itd. Próg () jest uzaleniony od szerokoci linii pisma SL:

2

SL

J (88)

Jest to warto zbliona do powierzchni kropki. Ze zbiorów obszarów wybieramy tylko te o wikszej powierzchni od wartoci progu . Liczba tych obszarów wyznacza LOS:

^

li i Nety

`

LOS !

J

: 1.. (89)

Algorytm obliczania LOS

1. Zakodowanie kodów acuchowych obrazu pisma (Rys. 44 (b)). 2. Przegld acuchów, oznaczanie wstpnych etykiet i zapis

odpowiedników w Lokalnej Tablicy Odpowiedników.

4. Przeetykietowanie kodów acuchowych w oparciu o rozpatrzone klasy (Rys. 44 (c)).

5. Wybranie z obszarów poetykietowanych tych, które speniaj kryterium minimalnej powierzchni (Rys. 44 (d)).

6. LOS=liczba etykiet speniajcych kryterium z punktu 5.

Rys. 44. Ilustracja kolejnych kroków algorytmu etykietowania obrazu: a) obraz binarny; b) obraz wstpnie poetykietowany; c) obraz z ostateczn postaci etykiet; d) etykiety

obszarów, które speniaj wymóg minimalnej powierzchni

Przeprowadzono szereg eksperymentów, które wykazay zwizek pomidzy wspóczynnikiem integracji pisma a liczb obszarów spójnych. Przygotowano dwa zbiory badawcze: jeden testowy i jeden walidacyjny zawierajcy próbki pisma 8 osób. Kada próbka pisma skadaa si z n=25 posegmentowanych wyrazów. Dla kadego wyrazu czowiek zmierzy liczb gramm wizanych i niewizanych. Na podstawie tego zostay obliczone wspóczynniki integracji pisma dla kadego z badanych wyrazów. Za pomoc opracowywanego algorytmu zmierzono automatycznie liczb obszarów spójnych tych samych wyrazów. Policzono nastpnie rednie wartoci wspóczynnika integracji pisma (WI ) patrz formua (90) oraz odwrotno rednich wartoci liczby obszarów spójnych (1/LOS) patrz formua (91). Zdecydowano si na obliczanie odwrotnoci LOS poniewa wartoci WI i LOS s wielkociami odwrotnie proporcjonalnymi. Jeli mamy w wyrazie mniejsz liczb obszarów spójnych wiadczy

to o wikszej integracji pisma. Natomiast gdy obszarów spójnych jest wicej to mamy do czynienia z mniejsz integracj pisma.

n B WI WI n i i

¦

1 (90)

gdzie: WI(B ) — wspóczynnik integracji i-tego obrazu pisma BBi iB,

n — liczba rozpatrywanych obrazów pisma.

¦

n i i B LOS n LOS 1 1 (91)

) — liczba obszarów spójnych i-tego obrazu pisma Bi

gdzie: LOS(BBi B.

W tabeli poniej pokazano uzyskane rednie wyniki pomiarów badanych cech pisma rcznego.

Tabela 16. rednie wartoci wspóczynnika WI i odwrotnoci rednich wartoci wspóczynnika LOS Próbka 1 2 3 4 5 6 7 8 Zestaw badawczy 1 0,97 0,75 0,51 0,44 0,65 0,37 0,40 0,65 WI 0,78 0,36 0,25 0,20 0,23 0,20 0,20 0,78 LOS / 1 Zestaw badawczy 2 0,95 0,71 0,58 0,44 0,64 0,38 0,39 0,68 WI 0,74 0,37 0,29 0,19 0,24 0,19 0,20 0,35 LOS / 1

Na Rys. 45 przedstawiono wykresy tych dwóch parametrów dla zbioru testowego i walidacyjnego. W obu przypadkach wida podobne charakterystyki wartoci poszczególnych parametrów. Ksztat krzywej dla rednich wartoci WI (WI ) i odwrotnoci rednich wartoi LOS (1/LOS) jest podobny. Mona zaobserwowa, e wartoci WI s okoo dwukrotnie wiksze ni wartoci 1/LOS.

a) 0 0,2 0,4 0,6 0,8 1 1,2 1 2 3 4 5 6 7 8 próbka WI LOS 1 b) 0 0,2 0,4 0,6 0,8 1 1,2 1 2 3 4 5 6 7 8 próbka WI LOS 1

Rys. 45. Zestawienie rednich wartoci wspóczynnika integracji pisma i odwrotnoci rednich wartoci liczby obszarów spójnych dla dwóch grup próbek pisma: a) pierwsza

próbka pisma; b) druga próbka pisma

Mona wic zastosowa wielko LOS do okrelania wspóczynnika integracji pisma. Naley tu jednak zaznaczy, e nie jest to miara tosama z WI w rozumieniu definicji ze wzgldu na to, e ograniczamy si do przypadku zalenego od treci tekstu jak i to, e nie zawsze jestemy w stanie odróni miejsc oderwania i ponownego przyoenia narzdzia pisarskiego do podoa, co zachodzi w obrazie zbinaryzowanym. Parametr zwizany z LOS jest w stanie uchwyci tylko te miejsca niecigoci pisma w których miejsce oderwania narzdzia pisarskiego nie jest tosame z miejscem inicjalizacji kolejnej grammy, czy te z obszarem dowolnego fragmentu innych gramm. W obrazie binarnym nie jestemy w stanie przeprowadza subtelnych analiz odcieni koloru materiau kryjcego, które s np. ladami wznowienia ruchu pisarskiego.

Powiązane dokumenty