Informacyjna architektura bibliotek - Automatyzacja bibliotek

Rozdział 2. Uwarunkowania regionalnych bibliotek cyfrowych

2.6. Automatyzacja bibliotek

2.6.2. Informacyjna architektura bibliotek

Organizacja działalności bibliotecznej w jednej instytucji, tradycyjnej czy cyfrowej, pozwala stosunkowo łatwo kontrolować obieg zasobu i towarzyszących im informacji. Współczesne zintegrowane systemy biblioteczne obejmują kontrolą praktycznie wszystkie obszary obiegu bibliotecznych dokumentów w tradycyjnej bibliotece, włącznie z automatyzacją ich magazy-nowania i udostępniania. Realizowana automatyzacja procesów bibliotecznych, których przedmiotem jest dokument i jego status w bibliotece wymaga, by dokument był na każdym etapie obiegu zaopatrzony w niezbędne informacje o nim samym, jak i jego statusie i aktual-nym położeniu w bibliotece lub poza nią. Wraz z cyfryzacją opis realizowanych procesów dematerializuje się do postaci zapisów w bazach danych, a wraz z cyfryzacją zasobu demate-rializuje się sama biblioteka.

Jak opisano wyżej, tworzenie instytucjonalnej BC pozwala na rozplanowanie przebiegu procesów tworzenia i udostępniania cyfrowych zbiorów, opartych na lokalnych ustaleniach, osobistych relacjach współpracowników oraz naoczności samego obiegu dokumentów i plików. Jednakże rosnący zasób, masowość digitalizacji oraz organizacyjne rozproszenie w przypadku RBC sprawia, że jej procesy mogą być realizowane – w znacznym stopniu – wielowątkowo, a więc równolegle i równocześnie przez wiele podmiotów współpracujących.

Ciąg procesów jest niekiedy podzielony i zazwyczaj zdepersonalizowany w czasie i przestrzeni. Nierzadko bowiem np. samą digitalizację wykonuje jedna instytucja, a konwer-sję do postaci prezentacyjnych wraz z rozpoznaniem tekstu przeprowadza inna. Wówczas zeskanowanemu zasobowi musi towarzyszyć minimum informacji o jego strukturze, oczeki-wanych wynikach konwersji, by kolejny wykonawca wiedział, co z wytworzonym zasobem dalej zrobić. Czynności te układają się w łańcuch procesów, w których kolejno przetwarzane są cyfrowe obiekty składające się na zasób RBC, zatem powinny im towarzyszyć niezbędne informacje dotyczące zarówno m.in. treści dokumentów, jak i ich statusu prawnego czy cyfro-wego „cyklu życia”.

Rośnie tym samym znaczenie abstrakcyjnego obszaru RBC, który można nazwać architekturą informacyjną biblioteki. Określa ona miejsce i postać zasobu, tj. zestawy cyfrowych danych (pakiety składające się z plików i towarzyszących im metadanych) niezbędne na każdym etapie jego przetwarzania. Przetwarzanie zasobu w rozproszonym środowisku wymaga dokładnej specyfikacji tych pakietów zarówno na „wejściu”, jak i „wyjściu” procesów.

Spójność i kompletność tych jest jednym z warunków sprawnej komunikacji i dostępności zasobów RBC dla użytkowników. Ustalenie ich zawartości pozwala na dalsze automatyzowa-nie procesów, np. w postaci aplikacji wspomagających formowaautomatyzowa-nie pakietów lub oprogramo-wania typu workflow, zarządzającego przepływem danych w obrębie RBC.

Architektura informacyjna BC staje się zatem kolejnym, po strukturze organizacyjnej oraz ciągu bibliotecznych procesów kluczowym elementem RBC, zapewniającym ich kompletność i spójność. Procesy składające się na ścieżkę digitalizacyjną, podobnie jak standardy jakości cyfrowych zasobów zostały już zasadniczo wypracowane i utrwalone wieloletnią praktyką.

Natomiast architektura informacyjna BC może być opisana za pomocą:

• różnych kategorii metadanych w poszczególnych obszarach: dotyczących treści zasobów (deskryptywne), zarządzania nim (administracyjne), właściwości obiektów (techniczne) lub długoterminowego zachowania (konserwatorskie).

• schematów metadanych strukturalnych, zestawiających i opisujących relacje między poszczególnymi obiektami i ich zbiorami w BC. Stanowią one swoiste „kontenery”, zawierające inne metadane oraz wskaźniki do zasobu plikowego. Owo strukturalizo-wanie danych i metadanych stanowi dziś otwarty obszar badań i wdrożeń. Opracowa-nie takiej architektury dla RBC, która jest zasilana przez wielu producentów zasobów, jest kluczowe dla jej funkcjonowania. Należy podkreślić, że kwestie opisu treści zasobów (metadanych deskryptywnych), tak chętnie i szeroko dyskutowane przez środowisko bibliotekarzy cyfrowych w Polsce, są ledwie drobnym fragmentem i zwieńczeniem całości tej problematyki.

• przyjętej struktury katalogów i podkatalogów, porządkującej pliki pierwotne, wtórne i pliki metadanych.

Schemat, który jest stosunkowo powszechnie stosowany do budowy pakietów przetwarza-nych w BC to METS. Definiuje on strukturę daprzetwarza-nych (np. pakiet) wyrażony w schemacie XML, umożliwiając wymianę danych między podmiotami. METS pozwala także na

włącza-nie w jego strukturę innych struktur definiowanych w postaci tzw. zatwierdzonych schematów zewnętrznych⁴¹¹. Należą do nich rozwijane przez Bibliotekę Kongresu m.in. schematy:

• deskryptywne DC (Dublin Core)⁴¹², MODS (Metadata Object Description Schema)⁴¹³,

• techniczne MIX (NISO Metadata for Images in XML)⁴¹⁴, dotyczące informacji o właściwościach obiektów rastrowych,

• administracyjno-techniczne („konserwatorskie”) PREMIS (Data Dictionary for Prese-rvation Metadata)⁴¹⁵, przeznaczone do długoterminowej archiwizacji cyfrowych zasobów,

• techniczne, dla tekstów rozpoznanych ALTO⁴¹⁶, przechowujące informacje o układzie i rozpoznanych znakach tekstu druków,

• techniczne dla tekstów textMD⁴¹⁷ (Technical metadata for text), zawierające informa-cje m.in. o kodowaniu, o znakach, językach, czcionkach, sekwencji stron,

• administracyjne METSRights⁴¹⁸ – pozwalające na oznaczenie praw własności intelek-tualnej do obiektów cyfrowych lub ich części posiadane przez osoby, instytucje, z określeniem typu praw i sposobu ich użycia.

Metadane strukturalne, zapewniające opis relacji między poszczególnymi składnikami cyfro-wego zasobu BC umożliwiają przedstawienie zawartości RBC (zbiór plików i metadanych) jako złożonego obiektu cyfrowego. Co więcej, metadane strukturalne w tym zastosowaniu tworzą kompleksowy opis zasobu RBC w jego transakcyjnie ustabilizowanej (z zamkniętymi transakcjami bazodanowymi) części – cyfrowych zbiorów zachowanych w archiwum oraz przeznaczonych do udostępniania. Jest on niezależny od warstwy sprzętowej RBC, zatem możliwa byłaby zmiana fizycznych i sprzętowych lokalizacji kolekcji RBC w sieci i urucha-mianie jej w miejscu udostępniającym odpowiednie moce obliczeniowe oraz obszar do przechowywania danych. Szybkość tej zmiany zależna byłaby od przepustowości sieci,

411External schemas for use with METS. Library od Congress, 2016. [Dostęp 20 czerwca 2020]. Dostępny w Internecie: http://www.loc.gov/standards/mets/mets-extenders.html.

412Dublin Core™ Metadata Initiative. Library of Congress, 2020. [Dostęp 20 czerwca 2020]. Dostępny w Inter-necie: https://www.dublincore.org.

413MODS: Metadata Object Description Schema. [Dostęp 20 czerwca 2020]. Dostępny w Internecie: https://

www.loc.gov/standards/mods/.

414MIX: NISO Metadata for Images in XML Schema. Library od Congress, 2015. [Dostęp 20 czerwca 2020].

Dostępny w Internecie: https://www.loc.gov/standards/mix

415PREMIS. Preservation Metadata Maintenance Activity… .

416ALTO principles. Library of Congress, 2019. [Dostęp 20 czerwca 2020]. Dostępny w Internecie: https://

www.loc.gov/standards/alto/description.html

417textMD: Technical Text Metadata for Text. Library of Congress, 2020. Dostęp 20 czerwca 2020]. Dostępny w Internecie: https://www.loc.gov/standards/textMD/

418METSRights. Dostęp 20 czerwca 2020]. Dostępny w Internecie: https://www.loc.gov/standards/rights/

METSRights.xsd

natomiast wznowienie operacyjnego działania RBC zależałoby od przywrócenia łańcucha procesów dostarczania danych na nową platformę ze strony współtwórców zasobu.

Architektura informacyjna BC to obszar stosunkowo słabo znany twórcom cyfrowych zasobów w Polsce. Problematyka ta jest marginalnie poruszana w branżowych publikacjach i to przede wszystkim od strony opisu schematów metadanych, ewentualnie standardów wskazujących ten zakres przemyśleń i działań jako istotny z punktu widzenia długotermino-wego zachowania i udostępniania, z omówieniem case study. Okazją do poznania tej dziedziny wiedzy nie była także powszechna praktyka, bibliotekarze cyfrowi bowiem nie zajmują się na ogół projektowaniem przebiegu procesów w BC, korzystając z funkcjonalno-ści, kreatorów i graficznego interfejsu najczęściej używanego oprogramowania dLibra.

Oprogramowanie to, jak wspominano wcześniej, oparte było na określonym paradygmacie BC, automatyzując operacje związane z metadanymi deskryptywnymi oraz zasobem wtórnym/prezentacyjnym.

Pewnym przedsmakiem przygotowywania cyfrowych zbiorów do długoterminowego przechowywania są wymogi Repozytorium BN dotyczące zorganizowania i opisu zasobu plików i metadanych kierowanych tam przez instytucje po realizacji projektów finansowa-nych przez MKiDN⁴¹⁹. Jednakże, mimo prowadzenia przez BN Centrum Kompetencji, wymogom tym nie towarzyszy szersza akcja edukacyjna środowiska twórców tych zasobów ani w zakresie sensu ich tworzenia, ani dotycząca narzędzi ich wytwarzania. Nie są także oferowane przez BN żadne usługi produkcji takich metadanych. BŚ, w razie konieczności wytworzenia tak opracowanych danych zleca ich wykonanie wyspecjalizowanej firmie.

Opisany w rozdziale I pracy model OAIS, rozszerzony o standard PAIS, które stają się podstawą tworzenia systemów długoterminowo udostępniających informacje, koncentrują się przede wszystkim na kwestiach tak rozumianej architektury informacji. Jej sercem jest pakiet AIP, budowany w procesie zasilania archiwum z pakietów SIP i którego dane są przekazy-wane użytkownikom w zestawie DIP.

419Warunki przekazywania obiektów cyfrowych do Biblioteki Narodowej. Oprac. Centrum Kompetencji do spraw digitalizacji materiałów bibliotecznych. Warszawa: Biblioteka Narodowa, 2019. [Dostęp 7 czerwca 2020].

Dostępny w Internecie: http://www.mkidn.gov.pl/media/po2019/wyniki_/

20190426_Warunki_przekazywania_obiektow_cyfrowych_do_Biblioteki_Narodowej.pdf

W dokumencie Model regionalnej biblioteki cyfrowej na przykładzie Śląskiej Biblioteki Cyfrowej (Stron 184-188)