• Nie Znaleziono Wyników

8. Wielko pisma

8.1. Metoda pomiaru automatycznego

Z informatycznego punktu widzenia pomiar wysokoci pisma wydawaby si problemem atwym do rozwizania. W literaturze przedmiotu analizowano moliwoci pomiaru wielkoci pisma rcznego oraz okrelania obszarów pisma metodami automatycznymi. Spotykamy róne podejcia w opracowaniu metod okrelania tych wielkoci, poczynajc od wczeniejszych prac Arazi’ego [2][3] a po publikacje wspóczesne [26]. Metoda Azari’ego oparta zostaa na analizie histogramów rozkadów czstoci wystpowania w rzutach poziomych i pionowych cigów punktów w kolorach podoa pisarskiego i materiau kryjcego o poszczególnych dugociach. Pomiar wielkoci pisma opiera si na hipotezie, e wielko liter jest zalena od pustych przestrzeni wewntrz konturów liter. W metodzie tej stosuje si globalny pomiar caego obrazu pisma.

Metoda okrelania obszarów pisma zaproponowana przez Henniga i Sherkata [26] opiera si na aproksymacji krzywymi sklejanymi. Pozwala ona bardziej subtelnie przybliy ksztat stref pisma (tzw. wstg pisma). Gruntownie zastosowanie krzywych w modelowaniu obiektów graficznych omówiono w monografiach: [17][45].

W pracach traktujcych o rozpoznawaniu pisma nie zawsze skupia si naleyt uwag nad problemem pomiaru wielkoci pisma. Czsto ten problem jest traktowany jako jeden z etapów procesu przetwarzania wstpnego. W spotykanych publikacjach czsto powysze zagadnienie omawiane jest jedynie przy okazji rozwaania problemu normalizacji obrazu pisma, który ma by nastpnie poddany procesowi rozpoznawania. Proces normalizacji jest omawiany jako jeden z etapów caociowego procesu rozpoznawania pisma. Dla przykadu, w pracy [14] przetwarzanie wstpne skada si z czterech etapów: normalizacji pochylenia linii podstawowej pisma, normalizacji

pooenia redniej podstawowej linii pisma, korekcji pochylenia pisma i wygadzania. Etap pierwszy i drugi zwizany jest z wyznaczaniem obszaru ródlinijnego, czyli wyznaczaniem wysokoci pisma.

Takie ujcie powoduje, e czsto kwestia pomiaru wielkoci pisma nie jest dogbnie analizowana, zwaszcza w odniesieniu do rezultatów pomiarów dokonywanych tradycyjnymi metodami przez czowieka

W procesie normalizacji stosowane s dwa podejcia. Jedno z nich oparte jest na reguach heurystycznych, w których mamy do czynienia z rcznym doborem parametrów [6][105]. Drugie podejcie to zastosowanie technik bez regu heurystycznych [116].

W tej pracy automatycznemu pomiarowi wielkoci pisma poddano poszczególne wyrazy z kadego rkopisu. Metoda pomiaru oparta zostaa na analizie wykresów rozkadu wartoci gstoci punktów w kolorze materiau kryjcego uzyskanych z rzutów poziomych obrazów rkopisów. Takie przeksztacenie nazywamy rzutowaniem (na Rys. 14 podano przykad wykresu rzutu).

Rzut obrazu (w dziedzinie przetwarzania obrazów [56, s. 133]), czy te uywajc innej nazwy: rzutowanie (ang. projection) oznacza odwzorowanie obrazu w formie wykresu, którego wartoci s sumami wartoci poziomów jasnoci (intensywnoci) punktów obrazu wzdu poszczególnych kierunków [86, s. 80]. Rzut poziomy okrelamy wedug formuy (8), a pionowy wedug formuy (9).

¦

x

x y x B y p max 1 , , (8)

¦

y

y y x B x p max 1 , , (9)

gdzie: B(x,y) — punkt obrazu o wspórzdnych dyskretnych x i y.

Wykrywanie obszaru ródlinia opiera si na hipotezie, e w rzucie poziomym gsto linii obrazu pisma lecych w obszarze ródlinia jest wysza w porównaniu z pozostaymi obszarami. Objawia si to wikszymi wartociami na wykresie rzutu w tym obszarze.

W celu oddzielenia obszaru rodkowego (wartoci duej gstoci) od pozostaych obszarów (wartoci maej gstoci) wyznacza si warto progow . Dzieli ona zbiór wartoci rzutu na dwie czci: poniej progu i powyej. Obszary (podzbiory odcitych) z wartociami (rzdne) powyej progu mog stanowi obszar ródlinia. Takich znalezionych obszarów moe by wicej. Jest to zalene od

pojawiania si zakócajcych elementów np. elementów poziomych czy te skonych liter „t”, „” lub gramm wstpnych albo wybiegowych. Dobór progu moe nastpowa wedug rónych algorytmów, które omówione zastay w dalszej czci pracy. Za obszar ródlinia przyjmuje si zwykle obszary wartoci wikszych od wartoci progowych, otaczajce najwyszy szczyt gstoci. Jednake ta technika jest wraliwa na obecno w wyrazie dugich poziomych linii, które dodaj do rzutów due piki, niekoniecznie lecych w obszarze ródlinia. Te piki mog zosta pomylone z rzeczywistym obszarem ródlinia, co moe doprowadzi do istotnych bdów w okrelaniu obszarów w wyrazie.

Obszarem ródlinia mona take uwaa ten ze znalezionych obszarów, który posiada najwiksz szeroko w rzucie lub obszar z najwiksz sum wartoci powyej progu w tyme rzucie. W niniejszych badaniach wybrano kryterium najwikszej szerokoci obszaru w rzucie ze wzgldu na fakt, e obszar ródlinia jest szerszy od gruboci pojedynczej grammy linii pisma.

Rzuty poziome w porównaniu z podejciami spotykanymi w literaturze (Bozinovic i Srihari [6], Senior i Robinson [105]) dokonywane s przy skorygowanych obrazach pisma. Korekcji dokonuje si ze wzgldu na pochylenie linii podstawowej pisma i brak wspóliniowoci punktów podstaw liter. Obraz pisma jest najpierw korygowany a nastpnie obliczany jest rzut poziomy. Aby dokona korekcji obrazu wyznacza si podstawy gramm ródlinijnych B(xk, yk). W praktycznych przypadkach nie s one pooone wspólinijnie (patrz Rys. 11).

Rys. 11. Wyznaczanie punktów podstaw gramm

Aby pomiar wielkoci pisma nie by obarczony bdem wynikajcym z tego braku wspóliniowoci podstaw gramm dokonywana jest wspomniana korekcja. Punkty

podstaw kadej grammy ródlinijnej s punktem odniesienia do nastpnego etapu algorytmu. Nastpnie dokonuje si lokalnego przesunicia punktów obrazu z kadej kolumny aby uzyska wspóliniowo podstaw liter. Przykad pokazano na Rys. 12.

Rys. 12. Sposób korekcji obrazu pisma

Na Rys. 13(a) pokazano przykad oryginalnego obrazu a na Rys. 13(b) po korekcji pooenia podstaw gramm.

a) b)

Rys. 13. Przykad dokonanej korekcji pooenia podstaw gramm w wyrazie: a) obraz pocztkowy; b) obraz skorygowany

Warto progu (

D

) jest dobierana jako uamek wartoci maksymalnej (max) w rzucie.

Jak ju wspomniano, za obszar ródlinia przyjmuje si ten sporód znalezionych obszarów, który posiada najwiksz szeroko. Granice tego obszaru stanowi ograniczenie strefy rodkowej pisma i wyznaczaj wysoko ródlinia. Za wielko pisma w danym wyrazie przyjmuje si szeroko tego obszaru wyraon w pikselach.

y

liczba czarnych pikseli max

D

Rys. 14. Przykad rzutu poziomego obrazu

Formalizujc kroki postpowania uzyskujemy nastpujcy algorytm:

Algorytm wyznaczania wielkoci pisma

1. Okrelenie punktów podstaw gramm ródlinijnych. 2. Korekcja pooenia podstaw gramm.

3. Obliczenie rzutu poziomego.

4. Odcicie obszaru ródlinia za pomoc wartoci progowej. 5. Pomiar szerokoci uzyskanego obszaru.

Ze wzgldu na róne obrazy rzutów poziomych wyrazy podzielono na cztery klasy ( ) pod wzgldem posiadania poszczególnych obszarów pisma. W zbiorze wyrazów (W) wydzielono klasy: tylko z obszarem ródlinijnym (klasa A), z obszarem ródlinijnym i nadlinijnym (klasa B), z obszarem ródlinijnym i podlinijnym (klasa C) oraz wyrazy ze wszystkimi obszarami (klasa D). Podobnego podziau mona dokona w zbiorze liter (L).

W pierwszym etapie pomiaru automatycznego zmierzono wielkoci pisma dla dobranego progu

D

=25% wartoci maksymalnej. Nastpnie dokonano tyche pomiarów w przypadku doboru optymalnych wartoci progowych indywidualnie dla kadej z klas wyrazów. W badaniach wyznaczono eksperymentalnie optymalne wartoci progów (Tabela 4).

Tabela 4. Optymalne wartoci progów wedug klas wyrazów odniesione do wartoci maksymalnych Wielko D Skala [%] Klasa wyrazów Próbka A (ródlinijne) B (nadlinijne) C (podlinijne) D (nad- i podlinijne) 1 27 32 30 35 2 25 34 30 38 3 30 41 36 37 4 30 36 34 39 5 20 30 25 31

Bezwzgldne wartoci progów mog si róni w przypadku innych próbek pisma. Mona jednak zaobserwowa, e wzajemna relacja midzy wielkociami wartoci progowych w rónych klasach pisma jest zachowana. Wyjtkiem jest próbka 3 z wartoci 37% dla klasy D.

Wartoci progów dla wyrazów jedynie z elementami ródlinijnymi s najmniejsze, gdy w obrazach rzutów poziomych w tym przypadku zasadniczo nie ma elementów, które znajduj si poza obszarem ródlinia. W obrazie rzutu w tym przypadku mamy jedynie do czynienia z pewn liczb maych wartoci. Poza zasadniczym obszarem ródlinia w tych wyrazach, w przypadku idealnym (kiedy grammy skadowe s tej samej wielkoci i pooone wspóliniowo), moemy mie jedynie do czynienia z elementami diakrytycznymi, które le poza obszarem ródlinia. Wnosz one mae wartoci do obrazu rzutu, w zwizku z czym „odcinajca” warto progowa moe by stosunkowa maa. Warto progów dla wyrazów z elementami nadlinijnymi (klasa B) oraz wyrazów z wszystkimi obszarami (klasa D) jest wiksza ze wzgldu na zakócajcy charakter elementów nadlinijnych lub podlinijnych. Jest to spowodowane tym, e trudno uchwyci wyran granic pomidzy obszarami. Granica ta nie jest tak wyrana, w zwizku z czym warto progowa musi by wiksza. Warto ta dla wyrazów z elementami podlinijnymi (klasa C) jest mniejsza od wartoci dla obu wczeniejszych przypadków, ze wzgldu na bardziej regularny przebieg skorygowanej w etapie wczeniejszym linii podstawowej.

Uzyskane rednie wartoci wielkoci pisma w kadej z próbek pokazano w tabeli poniej (Tabela 5). Zamieszczono tam wyniki pomiaru rcznego i pomiarów automatycznych. Wartoci w tabeli podano w pikselach, milimetrach i w skali porzdkowej. Niemal we wszystkich przypadkach pomiarów zaobserwowano, e

wielkoci pisma mierzone automatycznie t metod s zawyone w porównaniu z pomiarem rcznym. W przypadku pomiaru ze staym progiem ta nadwyka jest wiksza ni w przypadku, kiedy stosujemy róne progi dla poszczególnych klas wyrazów. Mona jednake zaobserwowa korelacj (rzdu 0,95–0,99) wartoci wielkoci pisma pomidzy rónymi rodzajami pomiarów we wszystkich tych przypadkach. Przy przechodzeniu ze skali ilorazowej na porzdkow nie zaobserwowano odmiennego zaklasyfikowania wielkoci pisma do innej wartoci wielkoci w przypadku pomiaru rcznego w porównaniu z pomiarem automatycznym.

Tabela 5. Wielko pisma w poszczególnych próbkach pisma

Wielko r h'r h'r Skala [pxl] [mm] [skala porzd-kowa] [pxl] [mm] [skala porzd-kowa] [pxl] [mm] [skala porzd-kowa] Rodzaj pomiaru Próbka

Pomiar rczny Pomiar automatyczny (próg 25%)

Pomiar automatyczny (róne progi dla kadej

z klas wyrazów)

1 48,88 2,07 mae 56,56 2,39 mae 51,47 2,18 mae

2 59,62 2,52 rednie 63,67 2,70 rednie 60,98 2,58 rednie

3 37,48 1,59 mae 44,29 1,87 mae 35,68 1,51 mae

4 51,05 2,16 mae 56,44 2,39 mae 51,72 2,19 mae

5 44,55 1,89 mae 46,38 1,96 mae 45,85 1,94 mae

Powiązane dokumenty