• Nie Znaleziono Wyników

Il. 1.

Baromiej Siedlarz Konwersja do DjVu

17 9

17 8

Baromiej Siedlarz Konwersja do DjVu

Il. 2. Przykład profilu bazującego jedynie na profilach nagłówkowych.

Il. 3. Przykład profilu ze zmianami w stosunku do dziedziczonych wartości.

bieżący profil dziedziczy wartości. Linia pierwsza zawiera nazwę wyświetlaną profilu. Jeżeli linia ta występuje, możliwe jest wybranie profilu z listy w programie Workflow Manager, który jest częścią pa-kietu; brak tych wartości ustawia profil, jako niewidoczny dla Workflow Manage-ra, natomiast nie blokuje możliwości wy-wołania profilu z linii poleceń. Wszystkie profile nagłówkowe nie są widoczne dla Workflow Managera (zwykle dlatego, iż nie są kompletne i mogą nie dawać ocze-kiwanych rezultatów). Linia druga usta-wia dany profil jako dostępny tylko do

odczytu, co blokuje programowi Confi-guration Manager dokonywanie jakich-kolwiek zmian ustawień w obrębie tak oznaczonego profilu. Nie zabezpiecza to przed wprowadzaniem zmian w wypadku bezpośredniej edycji pliku konfiguracyj-nego, w związku z czym podczas dokony-wania konfiguracji z użyciem tej metody należy zachować szczególną ostrożność i wykonywać regularne kopie bezpie-czeństwa. Configuration Manager jest niezwykle wrażliwy na błędy w składni profilów i w przypadku wystąpienia ta-kowych przywraca plik konfiguracyjny

do pierwotnej postaci, co może skut-kować utratą wcześniej sporządzonych ustawień. Linia czwarta zawiera długi opis profilu, który jest widoczny właści-wie jedynie po otwarciu profilu do edycji w programie Configuration Manager.

Powyższy przykład ukazuje sposób dokonywania zmian w wartościach po-szczególnych kluczy. Jak widać na przy-kładzie składnia opiera się na formacie klucz=wartość. Wartości mogą być nu-meryczne (zwykle są liczbami całkowi-tymi) oraz binarne (w postaci true lub false). Ukazana powyżej konstrukcja profilu wskazuje na dziedziczenie warto-ści z profilów nagłówkowych, ze zmiana-mi wyszczególnionyzmiana-mi poniżej. Wpisane wartości kluczy zastępują wartości dzie-dziczone z profilów bazowych.

Struktura profilów jest hierarchiczna, wszystkie profile dziedziczą z jednego profilu bazowego, który oznaczony jest jako H-base. Domyślnie profil ten nie za-wiera żadnych wartości, natomiast jego istnienie pozwala na łatwe ustawienie wartości jakiegoś parametru dla wszyst-kich następnych profilów (o ile wartość ta nie jest wymuszona w profilu docelo-wym). Domyślne profile nagłówkowe dzielą się na kilka kategorii:

• profile dotyczące optymalizacji dla dokumentów o danej rozdzielczości (np.

H-300 dpi, H-150 dpi);

• profile dotyczące jakości kompresji (np. H-normal-quality,

H-aggressive-quality);

• profile dotyczące typu dokumentu wej-ściowego (np. H-normal-text, H-drawn, H-map).

Na ich podstawie tworzone są komplet-ne profile użytkowe, które już nadają się do wykorzystania w procesie konwersji.

Oprócz profilów dla segmentera plik konfiguracyjny zawiera także profile dla konwersji obrazów jednowarstwowych, bitonalnych oraz kolorowych, jednakże z powodu użycia do tych typów kompresji osobnych programów z odrębnymi plika-mi konfiguracyjnyplika-mi, ich wykorzystanie zalecane jest jedynie w przypadku kon-wersji wymagającej zmiany trybu obrazu graficznego, co wykonywane jest raczej rzadko.

Oprócz wykorzystania przygotowanych przez producenta ustawień, możliwe jest tworzenie profilów użytkownika, które zwykle dopisywane są na końcu pliku konfiguracyjnego. Zwykle tworzenie własnego profilu polega jedynie na zmia-nie jednej lub kilku wartości, rzadko występuje potrzeba stworzenia całego profilu od podstaw, niemniej jest to moż-liwe i czasem jest jedynym sposobem na osiągnięcie oczekiwanych rezultatów.

Typy konwertowanych dokumentów Ze względu na specyfikę przetwarzanych w JBC materiałów konieczne było roz-szerzenie struktury podziału ustawień bazowych konwersji, gdyż standardowy

#@displayName:Scanned (300 dpi)

#@readOnly:true

scan300: H-300dpi H-normal-quality H-normal-text description="Scanned 300 DPI Documents"

#@displayName:Clean (200 dpi)

#@readOnly:true

clean200: H-200dpi H-clean-quality H-normal-text description="Clean (not scanned) 200 DPI Documents"

pix-filter-level=20

Baromiej Siedlarz Konwersja do DjVu

18 1

18 0

Baromiej Siedlarz Konwersja do DjVu schemat (scanned, drawn, manuscript, map, clean) nie zapewniał dostatecznej precyzji i konfigurowalności. Więk-szość digitalizowanego materiału to czasopisma i książki XIX- i XX-wieczne, w związku z czym bardzo niewiele do-kumentów podpada pod kategorie map i manuscript, praktycznie nie występują dokumenty z kategorii clean. Istniejące kategorie scanned i drawn stały się pod-stawą do opracowania bardziej szczegó-łowego podziału.

Z punktu widzenia digitalizacji nie ma istotnej różnicy pomiędzy czasopismem a książką. W obu przypadkach podsta-wową jednostką wejściową w procesie przetwarzania jest bitmapa zawierająca obraz strony dokumentu. Zawartość stron czasopism i książek jest jednak zróżnicowana. Można tu wydzielić na-stępujące kategorie według zawartości strony:

• tekst jednobarwny;

• tekst wielobarwny;

• tekst i grafika liniowa jednobarwna;

• tekst i grafika liniowa wielobarwna;

• tekst i ilustracje rastrowane;

• tekst i ilustracje ciągłotonalne;

• ilustracje ciągłotonalne;

• strony niezadrukowane.

Dla każdej z tych kategorii konieczne jest przygotowanie odrębnej rodziny profilów, zoptymalizowanych w celu przeniesienia odpowiednich cech obrazu w wystarczającej jakości, przy zachowa-niu niewielkiego rozmiaru pliku wyni-kowego.

Na jakość konwersji ma wpływ także ja-kość dokumentu wejściowego. Dla ska-nów pochodzących z digitalizacji bardzo zniszczonych oryginałów lub wykona-nych urządzeniami o niedostateczwykona-nych parametrach, konieczne jest dokonanie optymalizacji zwiększających skutecz-ność segmentacji i czytelskutecz-ność tekstu.

Główne czynniki mające wpływ na sku-teczność segmentacji to:

• zabrudzenia kart dokumentu;

• przebicie drugiej strony druku;

• niedokładnie odbity druk;

• brakujące fragmenty znaków;

• problemy z ostrością obrazu;

• aberracje chromatyczne i inne znie- kształcenia barw;

• szum;

• niedostateczna rozdzielczość obrazu;

• zniekształcenia geometryczne;

• niska dynamika obrazu.

Część z tych problemów może zostać wyeliminowana przez odpowiednie dobranie ustawień profilu konwersji, w większości wypadków wymagane jest także wykonanie dodatkowych operacji na obrazie przed dokonaniem konwersji w celu ułatwienia segmentacji. Najlep-sze rezultaty daje połączenie obu metod, czyli wykonanie obróbki wstępnej oraz dopracowanie profilu.

Optymalizacja ze względu na roz-miar oraz jakość

Najistotniejszą cechą formatu DjVu jest układ warstwowy, który umożliwia zasto-sowanie zoptymalizowanej kompresji dla każdej z warstw dokumentu, co umożli-wia uzyskanie niewielkich plików wyni-kowych przy jednoczesnym zachowaniu znacznej rozdzielczości istotnych ele-mentów obrazu. Mniej istotne fragmenty obrazu zwykle zostają zredukowane, co nie wpływa znacznie na całościowy od-biór wizualny dokumentu.

Typowy dokument DjVu składa się z trzech warstw: bitonalnej maski oraz obrazów pierwszego planu i tła, repre-zentujących barwy druku i podkładu, które zwykle są bitmapami ciągłotonal-nymi o zredukowanej rozdzielczości. Je-żeli obraz strony dokumentu nie zawiera w obszarze tła znaczących elementów, można znacznie zredukować rozdziel-czość tej warstwy, bez wpływu na szcze-gółowość elementów tekstu, a więc bez większego wpływu na czytelność. W nie-których przypadkach możliwe jest nawet

całkowite wyeliminowanie nieistotnych cech obrazu źródłowego w celu zmniej-szenia rozmiaru, co niekiedy poprawia całościowy odbiór dokumentu. Podobnie w przypadku warstwy pierwszego planu, jeżeli barwa druku jest w miarę jednoli-ta na obszarze całej strony możliwa jest znaczna redukcja rozdzielczości warstwy barwnej lub nawet zastąpienie jej jednym kolorem.

Zastosowanie zbyt ostrej redukcji powo-duje jednak wrażenie sztuczności obra-zu, co jest zwykle niepożądane. Podczas doboru parametrów konwersji zalecane jest zachowanie odpowiedniego balansu pomiędzy rozmiarem i jakością kompre-sji poszczególnych warstw w celu zapew-nienia wystarczającego komfortu odbio-ru materiału.

Typowym zakresem redukcji obrazów warstw jest podział obrazu pierwszego planu przez 12, a tła przez 3, co dla więk-szości typowych dokumentów zapewnia wystarczające odwzorowanie oryginału.

W przypadku czasopism, które zwykle mają większe rozmiary można stosować wyższe dzielniki, gdyż przy całościowym postrzeganiu strony nie ma to większego wpływu na jakość. Natomiast dla doku-mentów o niewielkich rozmiarach zale-cane jest zmniejszenie wartości współ-czynników podziału. Ma to związek z zachowaniem użytkownika podczas czytania z ekranu: zaobserwowana zo-stała tendencja do pomniejszania więk-szych dokumentów oraz powiększania mniejszych, w związku z czym większość

Baromiej Siedlarz Konwersja do DjVu

18 3

18 2

Baromiej Siedlarz Konwersja do DjVu przeglądarek domyślnie skaluje doku-ment do rozmiaru okna.

W przypadku dokumentów zawierają-cych ilustracje ciągłotonalne konieczne jest zastosowanie mniejszych dzielników w celu zapewnienia należytej jakości ilu-stracji, których fragmenty (lub całość) znajdują się w warstwach drugorzędnych dokumentu DjVu.

Generalnie automatyczna segmenta-cja obrazu poprawia czytelność tekstu, zmniejszając zarazem dokładność od-wzorowania ilustracji ciągłotonalnych.

Wynika to z niedoskonałości procesu analizy obrazu. Nadal nie jest możliwe uzyskanie idealnej segmentacji obrazów zawierających tekst oraz ilustracje cią-głotonalne (szczególnie pochodzących z dokumentów nie najlepszej jakości).

Jedynym gwarantem całkowitej popraw-ności segmentacji obrazu jest wykona-nie procesu ręczwykona-nie. Przeprowadzewykona-nie ręcznej segmentacji polega na uprzed-nim przygotowaniu obrazów wszystkich warstw, skompresowaniu ich oddzielnie i połączeniu w całość. W przypadku znacznej ilości materiału jest to uciążliwe i przez to rzadko wykonywane podczas dokonywania masowej digitalizacji.

Optymalizacja pod kątem uzyskania wysokiej jakości w procesie automatycz-nej segmentacji opiera się generalnie na zmniejszeniu stopnia kompresji oraz re-dukcji rozdzielczości warstw. W niektó-rych jednak przypadkach zastosowanie zbyt małych dzielników ma negatywny

wpływ na jakość obrazu wynikowego.

Redukcja rozdzielczości oraz kompresja stratna czasami powodują minimaliza-cję lub nawet całkowite usunięcie wad obrazu wejściowego, co może być po-żądane, szczególnie w przypadku pracy z obrazami zawierającymi zniekształce-nia barw. Szczególnie narażone na tego typu zniekształcenia są obrazy zawiera-jące ilustracje rastrowane, dla których konieczne jest często wykonanie znacz-nych korekt w obrazie wejściowym przed dokonaniem kompresji.

Elementy obrazu zakwalifikowane jako elementy istotne (głównie tekst i grafiki liniowe/rastrowe) zapisywane są do bito-nalnej maski, która może samodzielnie funkcjonować jako dokument czarno-biały. Jest to jedyna warstwa, na której nie jest dokonywana redukcja rozdzielczo-ści. Bitonalna natura tego obrazu niesie jednak za sobą pewne ograniczenia: kra-wędzie kształtów nie są gładkie. Możliwa jest jednak kompensacja tego zjawiska po stronie przeglądarki. Do kompresji ob-razów bitonalnych wykorzystywany jest w DjVu algorytm JB2, który umożliwia zmniejszenie rozmiaru pliku wynikowe-go przez zastosowanie redukcji podob-nych kształtów do wspólnego prototypu.

Zamiast kodowania każdego unikalnego kształtu zapisywany jest jedynie prototyp oraz różnice pomiędzy nim a kształtami pochodnymi. Wykorzystanie tej metody daje bardzo dobre rezultaty w przypadku konwersji dokumentów pochodzących ze składu cyfrowego, gdzie każde wystąpie-nie znaku pisarskiego jest identyczne.

W połączeniu z użyciem wspólnych dla wielu stron słowników kształtów pozwa-la to uzyskiwać bardzo efektywną kom-presję.

Dokumenty niesegmentowane Najprostszym do wykonania typem kon-wersji jest po prostu wykonanie kompre-sji obrazu bez zastosowania segmentacji.

Dla obrazów ciągłotonalnych możliwe jest dokonanie całościowej redukcji roz-dzielczości oraz dobór stopnia kompre-sji. Wykorzystanie tej metody powoduje jednak znaczne zmniejszenie ostrości tekstu. Obrazy wynikowe nie mogą być skompresowane zbyt mocno, gdyż arte-fakty kompresji są łatwo dostrzegalne, przekłada się to bezpośrednio na wiel-kość pliku wynikowego. Metoda ta fawo-ryzuje ilustracje ciagłotonalne o niewiel-kiej szczegółowości i małej ostrości.

W przypadku obrazów bitonalnych dokonywana jest uprzednio omówiona kompresja z wykorzystaniem prototypów kształtów. Możliwe jest wykonanie ope-racji odrzucenia pewnych kształtów na etapie kompresji. Pomaga to w przypad-ku obrazów bitonalnych zawierających odzwierciedlenia zabrudzeń, aczkolwiek nieostrożne użycie może usunąć frag-menty treści dokumentu.

Do przeprowadzenia kompresji obra-zów ciągłotonalnych oraz bitonalnych bez wykorzystania segmentacji nie jest wymagane użycie Document Express.

Wszystkie konieczne operacje można

przeprowadzić przy pomocy bezpłat-nych narzędzi z pakietu DjVuLibre, a w przypadku obrazów bitonalnych także specjalnego enkodera miniDjVu, zoptymalizowanego w celu uzyskania jak najmniejszych plików.

Istnieje jeszcze jeden rodzaj kompre-sji bez wykonania segmentacji. Obrazy o ograniczonej liczbie kolorów można skompresować także bezstratnie przy pomocy enkodera cpaldjvu z pakietu DjVuLibre. Cpaldjvu wskazuje jeden kolor (domyślnie taki, który dominuje na obrazie), jako kolor tła, na jego pod-stawie tworzona jest maska, natomiast wszystkie pozostałe barwy zostają prze-kierowane do pierwszego planu. Metoda ta nadaje się do kompresji, np. zrzutów ekranu.

OCR w Document Express

Przy pomocy Document Express możli-we jest wykonanie optycznego rozpozna-nia tekstu na obrazach DjVu. Niestety możliwości konfiguracyjne zastosowa-nego w DE silnika IrisOCR są niewielkie i ograniczają się jedynie do wyboru języ-ka rozpoznania. Na jakość rozpoznania tekstu ma jednak wpływ poprawność segmentacji obrazu, gdyż jako obraz wejściowy do silnika OCR trafia bitonal-na maska. Aby zwiększyć skuteczność rozpoznania należy sprawić, aby wszyst-kie znaki pisarswszyst-kie zostały poprawnie przydzielone do warstwy maski. Zbyt mała ostrość i słaba dynamika obrazu zmniejszają skuteczność segmentacji,

Baromiej Siedlarz Konwersja do DjVu

18 5

Il. 5. Fragment czasopisma skonwertowany z wy- korzystaniem profilu zapewniającego większą kontrolę nad segmentacją.

18 4

Il. 4. Fragment czasopisma skonwertowany z wy- korzystaniem standardowych ustawień Document Express.

Baromiej Siedlarz Konwersja do DjVu

co w rezultacie powoduje, że silnik OCR nie otrzymuje poprawnych kształtów.

Taki sposób działania oprogramowania Document Express skłania do dołoże-nia starań, by wykonać segmentację po-prawnie.

Postaci dokumentów DjVu

DjVu umożliwia zapis dokumentów w postaci scalonej i rozdzielonej. Ze wzglę-du na umożliwienie dostępu do każdej ze stron niezależnie postać rozdzielona dokumentu DjVu ma znaczny wpływ na wygodę użytkowania w środowisku sie-ciowym o ograniczonej prędkości trans-misji. Do przejrzenia danej strony nie jest wymagane pobranie całości dokumentu, przeglądarka podczas wyświetlania danej strony automatycznie pobiera następną i poprzednią, co usprawnia płynność przeglądania. Najprostsza postać roz-dzielona dokument DjVu zawiera obra-zów poszczególnych stron oraz indeks łączący je w całość. Jest to zgodne ze strukturą dokumentów HTML, co

umoż-liwia wykorzystanie serwerów WWW, jako platformy dystrybucji dokumentów DjVu w sposób bezpośredni.

Postać scalona DjVu zawiera obrazy stron oraz indeks zgromadzone w jed-nym pliku, co ułatwia lokalne zarządza-nie dokumentami.

Zawsze możliwe jest dokonanie kon-wersji postaci scalonej na rozdzieloną i odwrotnie, nawet przy użyciu jedynie dostępnej bezpłatnie przeglądarki.

Dokumenty DjVu mogą być osadzane bezpośrednio w HTML, co umożliwia integrację z serwisami WWW. Wciąż wymagane jest jednak użycie wtyczek do przeglądarek internetowych, gdyż for-mat nie jest jeszcze natywnie przez nie wspierany.

Istnieje także możliwość dodania znaku wodnego oraz zabezpieczenie dokumen-tu hasłem. Funkcje te nie są jednak zwy-kle wykorzystywane w przypadku

digita-lizacji materiałów z domeny publicznej.

Konwersja obrazów starych czaso-pism

Dokumenty przetwarzane w ramach projektu Jagiellońska Biblioteka Cyfro-wa to głównie wydawnictCyfro-wa ciągłe z XIX i XX wieku. Znaczną część stanowiły nieilustrowane wydawnictwa wielkofor-matowe, dla których należało zastosować zaawansowane metody obróbki i kompre-sji w celu zapewnienia względnie niewiel-kich rozmiarów plików wynikowych.

Konwersja materiału zawierającego je-dynie tekst jest względnie prosta. Proble-my mogą wystąpić jednak w przypadku tytulatury, nagłówków odbitych większą czcionką oraz elementów graficznych, a także fragmentów uszkodzonych lub wydrukowanych niedokładnie.

Il. 4. przedstawia wynik segmentacji ob-razu fragmentu czasopisma z wykorzysta-niem standardowych ustawień. Niektóre

znaki lub ich fragmenty zostały przydzie-lone do nieodpowiednich warstw, co za-burza integralność treści oraz pogarsza aspekt wizualny dokumentu.

Skuteczność segmentacji można zwięk-szyć dwustopniowo: poprzez dostoso-wanie profilu oraz optymalizację obrazu wejściowego. Ten sam obraz, skonwerto-wany przy użyciu specjalnie napisanego profilu prezentuje il. 5.

Taki sposób segmentacji zapewnia skuteczniejsze odwzorowanie treści do-kumentu oraz umożliwia generowanie plików wynikowych o mniejszym roz-miarze. Warstwa tła nie zawiera istot-nych elementów treści, gdyż wszystkie kształty zostają przydzielone do maski, w związku z czym, możliwe jest zwięk-szenie stopnia kompresji obrazów warstw bez znacznego pogorszenia czytelno-ści. Niestety użycie tej metody wiąże się z wyłączeniem optymalizacji znaków w Document Express, co skutkuje zwę-żeniem kształtów oraz rozjaśnieniem

Il. 4.

Il. 5.

Baromiej Siedlarz Konwersja do DjVu

18 7

Il. 7. Wpływ optymalizacji na segmentację ilustracji:

1. Ustawienia standardowe;

2. Profil specjalny;

3. Profil specjalny + zoptymalizowany obraz wejściowy.

18 6

Il. 6. Fragment czasopisma skonwertowany z wy- korzystaniem profilu zapewniającego większą kontrolę nad segmentacją wraz z optymalizacją obrazu.

Baromiej Siedlarz Konwersja do DjVu

koloru wypełnienia drobnych znaków.

Można to jednak skompensować przez dokonanie optymalizacji obrazu wejścio-wego. Zwiększenie grubości ciemnych obszarów obrazu kompensuje straty spowodowane rezygnacją z tej operacji w Document Express. Optymalizacja taka zwiększa czytelność tekstu oraz popra-wia kolor wypełnienia kształtów. Il. 6.

prezentuje segmentację obrazu zopty-malizowanego przy użyciu profilu z po-przedniego przykładu.

Zwiększenie grubości znaków nie jest wymagane dla każdego dokumentu, sto-sowane jest jedynie w przypadku stron o słabej jakości druku lub wydrukowa-nych czcionkami o niewielkich grubo-ściach elementów znaków pisarskich, które są mało widoczne przy skanowaniu z ograniczoną rozdzielczością. Tego ro-dzaju optymalizacje poprawiają także odzwierciedlenie ilustracji.

Przydział wszystkich elementów grafiki do jednej warstwy zapewnia poprawienie

czytelności obrazu przy jednoczesnym zmniejszeniu jego rozmiaru, a pogrubie-nie kształtów zwiększa ogólny kontrast.

Operacje takie jednak wymagają uzu-pełnienia procesu digitalizacyjnego o dodatkowe elementy, co wydłuża czas opracowywania materiału, jednakże przygotowane w ten sposób obrazy wej-ściowe są bardziej przyjazne dla segmen-tera, co skutkuje zmniejszeniem ilości błędów kompresji.

Il. 6.

Il. 7.

Adrian Drabik Organizacja automatyzacji pracy

Abstrakt: Artykuł opisuje znaczenie wsparcia programi-stycznego w procesie digitalizacji. Poruszone są kwestie dotyczące konieczności automatyzacji powtarzalnych zadań i dostosowywania narzędzi do specyficznych potrzeb biblioteki cyfrowej. Opisano również zagadnienia związane z konwersją obrazów grafiki rastrowej do formatu DjVu.

Wyjaśnione są podstawowe problemy związane z segmenta-cją zeskanowanych dokumentów, a także zaprezentowane są przykładowe rozwiązania stosowane przy digitalizacji w JBC.

Abstract: This article discusses the role of software in the digitization process, emphasizing necessity for automation of repeating tasks and importance of software customization to meet specific needs. Some aspects of raster graphic images conversion to DjVu file format as well as the main problems with mass segmentation of scanned documents are also described. It also provides examples of solutions used in the Jagiellonian Digital Library.

18 9

Słowa kluczowe: digitalizacja, projekt, biblioteka cyfrowa, oprogramowanie, digitalizacja, projekt, biblioteki cyfrowe, DjVu, grafika rastrowa, mieszana zawartość rastrowa.

Keywords: digitization, digital library, software, DjVu, raster graphic, mixed raster content

18 8

Adrian Drabik Organizacja automatyzacji pracy

Organizacja