• Nie Znaleziono Wyników

Archiwizacja w środowisku rozproszonych twórców zasobów

Wielość instytucji współtworzących jest pozytywną cechą ŚBC, skutkującą wspomnianą różnorodnością cyfrowego zasobu. Jednakże ma ona także swoją słabszą stronę – problem trwałego zabezpieczenia pozyskanych cyfrowych treści. Standardowo cyfryzacja piśmiennictwa przynosi przynajmniej dwojakiego rodzaju zasób. Pierwszy to odpowiednio wierna cyfrowa rejestracja oryginałów, składająca się na zbiór tzw. plików

118 archiwalnych. Są one w przypadku digitalizacji dokumentów piśmiennictwa zapisywane w formacie TIFF. Na ich bazie są wytwarzane pliki prezentacyjne (jak np.

PDF), udostępniane użytkownikom. Pośrednią instancją w tym procesie są tzw. pliki produkcyjne (dopuszczalny format to słabo- lub nieskompresowany JPEG). Ta trzecia instancja zawiera obrazy wyprostowanych i przyciętych plików archiwalnych, przy czym ich rozmiar jest zdecydowanie mniejszy niż plików TIFF. To dzięki zachowaniu plików produkcyjnych, w razie konieczności wytworzenia nowej wersji plików prezentacyjnych, unika się rozpoczynania procesu od ponownej obróbki plików archiwalnych i ich czasochłonnej korekty. Zatem w przypadku digitalizacji jednego dokumentu w optymalnym wariancie wytwarza się 3 instancje plików, które należy długoterminowo zachować.

Jednakże obecne możliwości przesyłu danych przez Internet, ograniczone właściwości użytkowanego oprogramowania ŚBC (dLibra) oraz brak odpowiednio pojemnego zaplecza archiwizacji w utrzymującej platformę ŚBC Bibliotece Śląskiej sprawiają, że kluczowy, archiwalny zasób jest przechowywany przez poszczególne instytucje. Każda z nich korzystając z aplikacji redaktora BC, przesyła na platformę ŚBC jedynie opisany deskryptywnymi metadanymi obiekt prezentacyjny. Zasób archiwalny (ewentualnie wraz z zasobem produkcyjnym) pozostaje w lokalnej dyspozycji instytucji współtworzącej i jest zabezpieczany, ze względu na techniczne możliwości tych instytucji, na różnym, często niedostatecznym poziomie.

Skutkuje to dużą niepewnością co do trwałości tak rozproszonego zasobu archiwalnego, jego logicznego powiązania z udostępnionym zasobem prezentacyjnym oraz spójności pełnej reprezentacji obiektu cyfrowego, np. w przypadku utraty części lub całości lokalnie przechowywanego zasobu archiwalnego. Wszystkie te deficyty naruszają zarówno dobre praktyki świadomego tworzenia cyfrowych zasobów, jak i standardy długoterminowego ich zachowywania, tak ważne w przypadku instytucji pamięci.

W samej Bibliotece Śląskiej, dzięki realizacji projektu „Śląska Internetowa Biblioteka Zbiorów Zabytkowych” ufundowano w 2010 roku pokaźne zaplecze do cyfrowej archiwizacji na rzecz ŚBC. Jednakże zabezpiecza ono jedynie cyfrowe treści Biblioteki Śląskiej, wyłącznie na poziomie fizycznym (krytyczna infrastruktura serwerowo-macierzowa, system UPS) oraz w przyjętym, a realizowanym przez

119 operatorów ścieżki systemie nazewniczym, wiążącym zasoby archiwalne z publikacjami – czyli opracowanymi obiektami prezentacyjnymi – w samej ŚBC.

Sam zasób archiwalny jest przechowywany w ustalonej strukturze katalogów i plików o specyficznym nazewnictwie [4, s. 32-33]. System ten, mimo że archiwalny zasób zawiera już ponad 5 mln plików TIFF, pozwala na odszukanie plików publikacji o znanej sygnaturze (ewentualnie roku i numerze w przypadku czasopism) w ciągu kilkunastu sekund.

Przykładowo pełna ścieżka do plików archiwalnych jest następująca:

/bs/master/cza/IV1234/1922/0012/iv1234-1922-12-0001.tif /iv1234-1922-12-0002.tif /iv1234-1922-12-0003.tif

Oznacza ona, że pliki TIFF są przechowywane w katalogu Biblioteki Śląskiej (bs), w przestrzeni archiwalnej (master), dla typu dokumentu „czasopismo” (cza), o określonej sygnaturze (IV1234), roku wydania (1922) oraz numerze (12). Nazewnictwo samych plików odzwierciedla część ścieżki w zakresie identyfikacji dokumentu. W strukturze takiej zapisywane są także pliki produkcyjne (katalog JPEG) oraz prezentacyjne w katalogach PDF lub/i DjVu w identycznych szablonach nazw.

W przypadku jednostek nieperiodycznych szablon w miejscu roku i numeru jest wypełniony znakiem „0” (zero). Przykładowo pierwszy plik archiwalny książki (podkatalog ksi) posiada następującą ścieżkę i nazwę:

/bs/master/ksi/II124335/0000/0000/ii12335-0000-0000-0001.tif

Powiązaniem między taką strukturą a publikacją umieszczoną w ŚBC jest na poziomie ogólnym sygnatura (ewentualnie rok i numer czasopisma), zapisana jako nazwa w strukturze katalogów archiwum oraz w polu „Źródło” opisu publikacji. Na poziomie plikowym za powiązanie odpowiada nazwa pliku prezentacyjnego publikacji, który jest również zapisany w strukturze plików danej publikacji w archiwum.

Wyżej opisany system nazewniczy jest w pewnej części tworzony ręcznie, co skutkuje błędami struktury i nazw plików. Jednakże dyscyplina w jego tworzeniu oraz regularne cyfrowe „skontra”, korygujące nieprawidłowości, w dużym stopniu pozwoliły na utrzymanie tak zalgorytmizowanej struktury nazewniczej. Jest ona podstawą do planowanej migracji obecnej postaci cyfrowego archiwum do systemu zautomatyzowanego, bazującego na generowaniu metadanych strukturalnych,

120 administracyjnych (schematów METS i PREMIS) i technicznych (MIX, ekstrahowanych z plików) dla archiwalnych pakietów danych. Pierwsze próby tworzonego algorytmu automatycznej migracji wykazały, że będzie jej można bezproblemowo poddać ok. 90% publikacji, reszta wymaga sprawdzenia i (najczęściej wsadowej) korekty nazw lub struktury katalogów.

Powyższy system nazewniczy został zaprezentowany instytucjom współtworzącym ŚBC, jednakże ze względu na różny poziom automatyzacji w tworzeniu nazw plików i katalogów dużych wolumenów danych okazał się on dla nich zbyt skomplikowany do codziennego stosowania. Potrzebne jest zatem niezależnie od migracji archiwalnego zasobu Biblioteki Śląskiej do nowego systemu opracowanie sposobu zabezpieczenia archiwalnych zasobów instytucji współtworzących. Zadanie to wiąże się z drugim istotnym elementem modernizacji, jakim jest przebudowa ścieżki digitalizacyjnej pracowni głównej Biblioteki Śląskiej. W obszarze tym zaplanowane jest utworzenie dedykowanego scenariusza dla archiwizacji wraz z automatyczną publikacją w ŚBC zasobów instytucji partnerskich. Scenariusz ten stanie się częścią tworzonej aplikacji zarządzającej przepływem zasobów między stanowiskami operatorów digitalizacyjnej ścieżki, która w pewnym zakresie zostanie udostępniona operatorom instytucji uczestniczących w ŚBC.

Wątek ten – poszerzenia zakresu archiwizacji ŚBC o zasoby archiwalne instytucji partnerskich – zostanie wzmocniony rozbudową infrastruktury sprzętowej BŚ.

Obecna infrastruktura, bazująca na macierzy oraz bibliotece taśmowej zainstalowanej w innej lokalizacji, która umożliwia łącznie przechowywanie ok. 200 TB danych, jest praktycznie zapełniona. Zostanie ona zastąpiona zdublowanym rozwiązaniem serwerowo-macierzowym wysokiej dostępności o pojemności min. 2,5 PB, umieszczonym w oddalonych lokalizacjach. Dodatkowo do operacyjnej obsługi transferów ścieżki pracowni digitalizacji planuje się wdrożenie macierzy o minimalnej pojemności 250 TB, opartej na dyskach SSD, połączonej z pracowniami wewnętrzną siecią światłowodową o przepustowości min. 40 Gbit/s.

121