• Nie Znaleziono Wyników

Modernizacja ścieżki procesów digitalizacyjnych ŚBC

Wyżej wspomniany tok procesów ścieżki digitalizacyjnej w BŚ związany jest z dotychczasowymi procedurami skanowania, korekty i redaktorskiego opracowania cyfrowych publikacji. Ich przebieg jest znany, bo wspólny dla praktycznie wszystkich ośrodków użytkujących oprogramowanie dLibra. Składa się z następujących etapów:

 skanowanie dokumentów i utworzenie zasobu archiwalnego – skanerzysta,

 prostowanie obrazu tekstu, przycięcie nadmiarowych części obrazów, filtrowanie oraz zapis jako zasobu produkcyjnego (JPEG) – korektor,

 przesłanie do kompresji i wytworzenie plików prezentacyjnych (np. PDF, DjVu) i skierowanie ich do publikacji – korektor,

 zachowanie nieprzetworzonych skanów, plików produkcyjnych oraz zbioru prezentacyjnych plików w określonej strukturze katalogowej i konwencji nazewniczej (jako zasobu archiwalnego) do archiwum – korektor,

 opracowanie (wytworzenie metadanych deskryptywnych w schemacie Dublin Core), powiązanie z plikiem prezentacyjnym – redaktor,

 udostępnienie ich poprzez przesłanie na platformę ŚBC za pomocą aplikacji redaktorskiej – redaktor.

Na Rysunku 1. kolorem niebieskim oznaczono przepływ powstałych i przetwarzanych zasobów cyfrowych, czerwonym – towarzyszący im obieg dokumentów oryginalnych:

122 Źródło: opracowanie własne.

Wszystkie etapy prac są słabo powiązane i realizowane na mocy lokalnej konwencji między operatorami ścieżki. Zautomatyzowana jest końcowa praca redaktora, przy jednocześnie dość „chałupniczym” i nieoprogramowanym biegu czynności poprzedzających. W toku prac dokonuje się także bezstratnej kompresji LZW, wielokrotnego kopiowania plików w celu ich przesłania do kolejnych stanowisk.

Składowanie w archiwum w dużej mierze jest manualne, co generuje wspomniane niespójności nazewnicze i konieczność doraźnych akcji korygujących. Wszystko to stanowi dodatkowy narzut czasowy dla pracowników i ogranicza wydajność tworzenia cyfrowych zasobów.

W ramach projektowej modernizacji tok ten zostanie przebudowany z uwzględnieniem zaleceń standardu OAIS (Open Archival Information System) [10], ściśle rozróżniającym etap produkcji zasobów, ich archiwizacji, a następnie udostępniania. Istotna jest tu kolejność procesów, ponieważ tylko pliki przyjęte i zaakceptowane przez logiczny moduł Archiwum jako składowe tzw. archiwalnego

Rysunek 3: Obecna ścieżka digitalizacyjna głównej pracowni ŚBC w BŚ.

123 pakietu informacyjnego (AIP) systemu mogą być udostępniane użytkownikom systemu.

Ze względu na ścisłą kontrolę zasobów Archiwum każda najdrobniejsza zmiana w cyfrowym zasobie (tak plików, jak i metadanych) powoduje konieczność ponownej budowy pakietu AIP, którego integralność jest systemowo kontrolowana. Dodatkowym wymogiem modelu OAIS jest restrykcyjna architektura informacyjna, której realizacja możliwa jest zasadniczo wyłącznie poprzez zastosowanie rozbudowanych metadanych strukturalnych. To z kolei wymaga automatyzacji ich tworzenia. Oczywistym postulatem jest także automatyzacja powtarzalnych czynności ścieżki jak np.

kompresja, cięcie oraz transfery plików.

Tok procesów digitalizacji będzie więc zmodyfikowany i skoncentrowany na stopniowym budowaniu wstępnego pakietu informacyjnego zawierającego metadane deskryptywne (schematu Dublin Core), pliki archiwalne, produkcyjne i prezentacyjne, który po opisaniu go metadanymi strukturalnymi oraz przedłożeniu i akceptacji w module Archiwum stanie się pakietem AIP – źródłem dla zweryfikowanej postaci prezentacyjnej zasobu i jej metadanych.

Pierwszym etapem nowej ścieżki jest przez redaktorów utworzenie zadań i publikacji planowanych o docelowej strukturze (np. publikacje wielotomowe lub czasopisma z podziałem na numery i dodatki) oraz metadanych deskryptywnych.

Czynności te w tle tworzą także strukturę katalogów – kontenerów dla poszczególnych instancji plików powstających w trakcie przetwarzania zasobów. Ta struktura katalogów, spakowana do archiwum typu ZIP jest pobierana przez skanerzystów, którzy wypełniają ją swoim cyfrowym „urobkiem” (pliki archiwalne TIFF) – do jednego, zbiorczego katalogu, obejmującego np. ciąg plików wszystkich numerów i dodatków rocznika czasopisma. Struktura ta jest po zakończeniu pracy skanerzysty automatycznie przesyłana do korektora, przy jednoczesnej, dokonywanej w tle kompresji bezstratnej typu LZW plików archiwalnych obiektu. Korektor dokonuje ręcznie podziału zbiorczego katalogu skanów na numery, dodatki, inicjuje procedurę automatycznego prostowania w tle obrazów dokumentu, a następnie przycina je także do pewnego stopnia zautomatyzowanym narzędziem, tworząc pliki produkcyjne (JPEG). Następnie kieruje je na serwer kompresji, który wykonuje rozpoznanie tekstów i pliki prezentacyjne np. PDF. W tym punkcie ścieżki następuje skompletowanie wszystkich elementów pakietu informacyjnego, który może zostać przesłany do

124 Archiwum. Po jego kontrolnej akceptacji następuje: a) automatyczna archiwizacja pakietu w module Archiwum jako AIP oraz b) automatyczna publikacja na platformie ŚBC plików prezentacyjnych, opisanych deskryptywnymi metadanymi.

Prócz wyżej opisanych głównych zmian w ścieżce digitalizacyjnej zostaną zlokalizowane, obok istniejącego Recognition Server firmy Abby, dodatkowe kompresory dla plików prezentacyjnych. Będzie to Tesseract, oprogramowanie otwartego kodu, praktycznie dorównujące jakością rozpoznania produktom komercyjnym, lecz umożliwiające nielimitowane rozpoznanie fraktury. Ze względu na językowy pokrój i chronologiczny zakres zasobu BŚ, konieczne jest zdecydowane podwyższenie jakości rozpoznania fraktur, lecz bez ponoszenia dodatkowych kosztów na dekrementacyjną (na określoną liczbę rozpoznań) licencję komercyjną. Kolejne kompresory to oprogramowanie do tworzenia „piramidkowych”, wielostronicowych plików TIFF lub JP2, które stanowią źródło dla tzw. strumieniowej prezentacji dokumentów według protokołu IIIF (International Image Interoperability Framework) [8]. Jest ona przydatna szczególnie w przypadku znacznych rozmiarów obiektów (np.

kartograficznych), ponieważ umożliwia płynne, dynamiczne przeskalowanie widoku obiektów bez utraty jakości obrazu. Faktycznie serwer strumienia wysyła do przeglądarki jedynie pożądany fragment obrazu, wcześniej zapisany w pliku wielostronicowym. Z kolei dla cyfrowego odwzorowania wielostronicowych, obszernych druków, dla których typowy plik PDF jest zbyt duży, zastosowany zostanie kompresor do plików HC-PDF (High Compression-PDF) [13], używających jako nośnika bitmapy pliku DjVu. Przebieg procesów zmodernizowanej ścieżki digitalizacyjnej ilustruje Rysunek 2:

125 Źródło: opracowanie własne.

Rysunek 4: Planowana ścieżka przetwarzania cyfrowego zasobu ŚBC

126 Na marginesie warto dodać, że już analiza przepływu zasobów podjęta na użytek projektowej modernizacji digitalizacyjnej ścieżki, zaowocowała istotnym usprawnieniem procesów. Mianowicie do niedawna podziałem zbioru skanów – np.

rocznika czasopisma – zajmowali się skanerzyści. Mając przed sobą oryginał dokumentu po przyuczeniu przez redaktorów-bibliotekarzy dokonywali podziału zbioru tworzonych skanów na katalogi zawierające strony poszczególnych dokumentów-numerów lub dodatków czasopisma.

Czynność dzielenia zbioru skanów na podfoldery numerów nie mogła być wykonywana równolegle ze skanowaniem, zatem istotnie wpływała na produktywność stanowisk skanujących. Przesunięto ją więc do następnego etapu, powierzając jej wykonanie w zespole korektorom. Otrzymali oni narzędzia istotnie automatyzujące ich pracę w innych obszarach, więc z powodzeniem i bez straty czasu mogli wkomponować w swoje czynności podział zbiorów plików od skanerzystów na podzbiory odzwierciedlające realne dokumenty. To proste usprawnienie podniosło produktywność całej ścieżki o wspomniane 20%.

Utworzenie nowego opisu ścieżki cyfryzacji pozwala także na opracowanie scenariusza dla archiwizacji zbiorów instytucji partnerskich. Po pierwsze, chcąc skorzystać z możliwości archiwizacji plików na zmodernizowanej platformie ŚBC, będą posługiwać się znanym im mechanizmem publikacji planowanych, zakładającym początkowe, zdalne wytworzenie metadanych deskryptywnych w aplikacji redaktora.

Czynność ta utworzy w systemie obsługi ścieżki ŚBC zadania, a wraz z nimi opisaną już wyżej strukturę katalogów publikacji oraz nada jej identyfikator. Strukturę tę zdalni redaktorzy będą mogli pobrać z poziomu aplikacji redaktora w postaci pliku ZIP. Po rozpakowaniu struktury – będą mogli ją wypełnić rozdzielonymi na numery plikami archiwalnymi oraz utworzonymi lokalnie plikami prezentacyjnymi, np. PDF. Całość, po przesłaniu siecią, a dla większych zasobów – po zapisaniu np. na zewnętrzny dysk twardy i nadaniu go zwykłą pocztą – będzie przesyłana do BŚ. Dzięki zapisanemu w strukturze plików identyfikatorowi publikacji, utworzonej jako publikacja planowana w ŚBC przez zdalnego redaktora, owa struktura katalogowa wraz z plikami, jakkolwiek dostarczona, będzie automatycznie rozpoznawana i włączana w tok procesów ścieżki w Bibliotece Śląskiej. Następnie dla całości struktury zostaną wykonane metadane

127 strukturalne i zostanie ona automatycznie zarchiwizowana. Jednocześnie nastąpi automatyczna publikacja prezentacyjnych plików opatrzonych już deskryptywnymi metadanymi na platformie prezentacyjnej ŚBC. W ten sposób archiwalny zasób instytucji partnerskich zostanie zabezpieczony w module Archiwum ŚBC.