Biblioteki cyfrowe na świecie - Realizacje bibliotek cyfrowych

1.5. Realizacje bibliotek cyfrowych

1.5.1. Biblioteki cyfrowe na świecie

Pierwszym i do dziś funkcjonującym przedsięwzięciem, które zaowocowało utworzeniem kolekcji publicznie dostępnych tekstów, był projekt Gutenberg¹⁷⁷ realizowany od roku 1971.

Misją projektu jest udostępnianie informacji, książek i innych materiałów szerokiej publicz-ności w prostej formie, by większość komputerów, programów i ludzi mogła je łatwo odczy-tać, cytować i wyszukiwać. Głównym założeniem projektu było spostrzeżenie, że największą wartością komputerów jest nie tylko ich zdolność do wykonywania obliczeń, lecz także do gromadzenia, wyszukiwania i udostępniania treści. Michael Hart przedstawił także „filozofię”

swojego pomysłu¹⁷⁸, wskazując, że technologia informatyczna stanowi „Replicator Techno-logy”, ponieważ wszystko, co może zostać wprowadzone do komputera, może być powielane w nieskończoność.

Ze względu na ideowe założenia projektu Gutenberg („Project Gutenberg is powered by ideas, ideals, and by idealism”¹⁷⁹) oraz dążenie do minimalizacji kosztów dostępu, tworzenie zasobów elektronicznych tekstów oparte jest na pracy wolontariuszy z całego świata, bez wsparcia organizacji finansowych lub politycznych. Elektroniczne teksty udostępniane w ramach projektu w znakomitej większości nie są objęte prawami autorskimi, w innym przypadku prawa te są pozyskiwane od autorów, wówczas ograniczone jest komercyjne wykorzystanie dzieł oraz tworzenie dzieł pochodnych.

Chociaż istniejący i rozwijany do dziś serwis Projektu Gutenberg oparty jest na nieco już przestarzałych technicznych rozwiązaniach, szereg idei i rozwiązań projektu sprzed ery WWW zainspirowało pokolenia twórców zasobów cyfrowych. Wśród nich można wymienić kwestie stosowania prostych rozwiązań technicznych, prostych, otwartych formatów plików oraz zabezpieczenie zasobów poprzez ich multiplikację i dyslokację. Sama idea nieodpłatnego udostępniania tekstów, wzmocniona także ekonomicznymi walorami ich

elektroniczno-177Project Gutenberg. [Dostęp 13 czerwca 2020]. Dostępny w Internecie: https://www.gutenberg.org

178M. Hart: The History and Philosophy of Project Gutenberg by Michael Harth. 1992. W: Project Gutenberg.

[Dostęp 13 czerwca 2020]. Dostępny w Internecie: h ttp://www.gutenberg.org/wiki/

Gutenberg:The_History_and_Philosophy_of_Project_Gutenberg_by_Michael_Hart.

179M. Hart: Project Gutenberg Mission Statement by Michael Hart. 2004. W: Project Gutenberg. [Dostęp 13 czerwca 2020]. Dostępny w Internecie: https://www.gutenberg.org/wiki/

Gutenberg:Project_Gutenberg_Mission_Statement_by_Michael_Hart

cyfrowego przetwarzania i dystrybucji, okazała się zbieżna z postulatami i działaniami biblio-tekarstwa publicznego różnych epok, które są kontynuowane przez współczesnych biblioteka-rzy cyfrowych.

Zamierzenia prezentacji w Internecie różnych form dziedzictwa kulturowego podjęły instytu-cje nauki i kultury na całym świecie. Można wśród nich wymienić: Perseus Digital Library¹⁸⁰ (w ramach Perseus Project, 1987), gromadzącą dokumenty historii, literatury i kultury świata grecko-rzymskiego, Project Runeberg¹⁸¹ (1992), prezentujący skandynawską klasykę, amery-kańskie archiwum dziedzictwa American Memory¹⁸² (1994), akademicki zasób czasopism JSTOR¹⁸³ (Journal Storage, 1995), narodową bibliotekę cyfrową Francji – Gallica¹⁸⁴ (1997), amerykańską National Science Digital Library¹⁸⁵ (2000) lub też polską Polonę¹⁸⁶ (2006).

Inną inicjatywą, która zainicjowała popularne dziś formy publikowania naukowego, był powstały w 1991 roku, a funkcjonujący do dziś preprintowy serwis arXiv¹⁸⁷. Zainicjował on także pewien model wydawniczy, znany dziś pod nazwą Open Access, stanowiący alterna-tywę dla komercyjnych dostawców publikacji naukowych. Serwis arXiv uważany jest za protoplastę współczesnych repozytoriów naukowych, umożliwiających autorom samodzielne umieszczanie plików z tekstami na wspólnej platformie publikacyjnej^188.

Pierwsze BC miały charakter informacyjny, tj. koncentrowały się przede wszystkim na prezentowaniu treści, a nie obrazów dokumentów, które owe treści zawierały. Prezentacja obejmowała treść utworu poprzez udostępnianie jego tekstu w postaci pliku tekstowego lub jego odmian (np. HTML). Jeśli nie był to dokument elektronicznie natywny, pozyskiwano go w drodze ręcznego przepisywania z oryginału, z czasem zaczęto dokumenty skanować i przetwarzać w tekst za pomocą oprogramowania rozpoznającego. Prezentacja miała zatem charakter informacyjny – dotyczyła sekwencji znaków utworu, w oderwaniu od jego typogra-ficznego obrazu i obejmowała logiczną strukturę dokumentu, czyli wyróżnienie tytułu,

180Perseus Digital Library. [Dostęp 13 czerwca 2020]. Dostępny w Internecie: http://www.perseus.tufts.edu/

hopper

181Project Runeberg. [Dostęp 13 czerwca 2020]. Dostępny w Internecie: http://runeberg.org

182Digital Collections. [Dostęp 13 czerwca 2020]. Dostępny w Internecie: https://www.loc.gov/collections

183JSTOR. [Dostęp 13 czerwca 2020]. Dostępny w Internecie: https://www.jstor.org

184Gallica. [Dostęp 13 czerwca 2020]. Dostępny w Internecie: https://gallica.bnf.fr

185National Science Digital Library. [Dostęp 13 czerwca 2020]. Dostępny w Internecie: https://nsdl.oercom-mons.org

186Polona. Dostęp 13 czerwca 2020]. Dostępny w Internecie: https://polona.pl.

187ArXiv. [Dostęp 13 czerwca 2020]. Dostępny w Internecie: http://arxiv.org

188W.M. Kolasa: Biblioteki cyfrowe na świecie…, s. 69.

podział na rozdziały, podrozdziały, akapity, przypisy etc. Jednym z istotnych powodów takiego podejścia był problem objętości danych – zarówno przetwarzanie, przechowywanie, jak i prezentacja odmian pliku tekstowego nie wymagały nadzwyczajnych środków informa-tycznych. Jednakże prowadzone w latach 80. i 90. amerykańskie inicjatywy digitalizacji dziedzictwa kulturowego¹⁸⁹ o charakterze zabytkowym wskazywały na potrzebę jak najwier-niejszej rejestracji obrazów obiektów oryginalnych. Postulowano zachowanie dużej głębi kolorów, odpowiednio wysokich rozdzielczości (300-600 dpi) w jawnie wyspecyfikowanych formatach plików (np. TIFF), bez użycia stratnych technik kompresji obrazu. Podejście to wymagało rejestracji i prezentacji dokumentu jako konkretnego, materialnego egzemplarza oraz ukazania pełnego obrazu stron dokumentu, tj. wydrukowanego tekstu (również ilustra-cji), jego nośnika i struktury fizycznej, czyli uporządkowanego zapisu obrazu stron w postaci bitmap. Szczegółowość oraz dokumentalność pozyskania obrazu, zależne od rozdzielczości i pełnej rejestracji kolorów oryginału przynoszą jednak bitmapowe pliki dużej objętości.

Podstawową przeszkodą techniczno-ekonomiczną dla udokumentowania wyglądu egzempla-rzy był brak ekonomicznie pegzempla-rzystępnych i bezpiecznych informatycznych rozwiązań w zakre-sie pamięci masowych wymaganej pojemności i żywotności, które pomieściłyby zasoby takich rozmiarów. Problem też stanowiła prezentacja takich złożonych obrazów dokumentów w Internecie. Inicjatywy, które archiwizowały obrazy dokumentów, realizowały to w postaci zapisu na dyskach optycznych (a więc offline, bez dostępu w czasie rzeczywistym).

Podkreślano jednocześnie kwestie nietrwałości oraz zagrożenie utratą kompatybilności nośni-ków i formatów zapisu plinośni-ków. Jednym ze sposobów niwelowania obaw z tym związanych w praktyce bibliotecznej była tzw. pośrednia digitalizacja. Cyfrowy obraz dokumentu pozyskiwany był z mikrofilmów, które darzono wyższym zaufaniem. Mikrofilm stanowił archiwalną (długoterminową) rejestrację dokumentu, poddawaną następnie cyfryzacji do wersji prezentacyjnych. Akceptowano przy tym fakt dużej stratności rejestracji mikrofilmo-wej względem oryginału, która w znakomitej większości dokonywała się w mocno okrojonej skali szarości, limitowanej wysoką kontrastowością mikrofilmu. Do typowego zestawu zastrzeżeń i obaw związanych z digitalizacją jako techniką zachowania obrazów zbiorów zaliczano:

 konieczność zastosowania sprzętu i oprogramowania jako interpreterów zakodowanej informacji cyfrowej.

189Description/specification/work statement. W: Requests Proposals For Digital Images of Pictorial Materials.

The Library of Congress, 1997. [Dostęp 17 maja 2020]. Dostępny w Internecie: https://memory.loc.gov/

ammem/prpsal9/rfp9c.html#B.

 krótką żywotność i dużą wrażliwość nośników cyfrowych,

 konieczność zachowania zdolności odczytywania starszych formatów danych przez oprogramowanie,

 brak możliwości określenia autentyczności oryginału oraz jego proweniencji na podstawie obiektu cyfrowego, jedynym gwarantem jest zaufanie do instytucji publiku-jącej cyfrowo,

 trudność weryfikacji integralności obiektów cyfrowych (szczególnie bez możliwości porównania z oryginałem)¹⁹⁰.

Dopiero w pierwszej dekadzie XXI w. sytuacja uległa istotnej zmianie. Z jednej strony pojawiły się techniczne środki (macierze dyskowe i inne gwarantowane pamięci masowe), umożliwiające przetwarzanie i przechowywanie krytycznych danych oraz zabezpieczanie ich integralności, Z drugiej zaś wypracowano postulaty architektury archiwum cyfrowego (np.

omówionego w dalszej części pracy modelu OAIS), zapewniającej długoterminowe przecho-wywanie danych cyfrowych. Od tego czasu to wysokiej jakości zbiór plików archiwalnych, wiernie dokumentujących wygląd oryginałów, uznawany jest za najbardziej istotny i krytyczny zasób BC. Niezależnie bowiem od funkcji dokumentacyjnej – zachowania obrazów oryginałów – stanowi źródło i zabezpieczenie zasobu prezentacyjnego, który może być generowany na nowo, bez ponownego skanowania oryginałów.

Funkcja archiwalna BC nabrała nowego znaczenia: zasób archiwalny jest rozumiany jako bazowa, informacyjnie nadmiarowa, dokumentacyjna rejestracja wyglądu dokumentu.

Standardy jego przygotowania, zarządzanie nim oraz powiązanie z zasobem prezentacyjnym stały się integralną częścią koncepcji, a za tym i realizacji BC. Jednocześnie przeznaczona do udostępniania w Internecie (w pewnych rozwiązaniach) prezentacyjna wersja zasobu cyfro-wego, wytworzona z plików archiwalnych to często plik „hybrydowy”¹⁹¹ (PDF lub DjVu).

Posiada on warstwę obrazową, ilustrująca wygląd dokumentu oraz tekstową, która może zostać zindeksowana, przeszukiwana. Tekst (logiczna struktura, rozkład na stronie) z kolei może zostać opisany metadanymi odnoszącymi i wiążącymi go z graficznym obrazem dokumentu.

190A. Smith: Why digitize? Council on Library and Information Resources, 1999. [Dostęp 17 maja 2020].

Dostępny w Internecie: https://www.clir.org/wp-content/uploads/sites/6/2016/09/pub80.pdf

191W.M. Kolasa: Formaty hybrydowe w bibliotekach cyfrowych (kontekst i praktyka). W: Konferencja

„Praktyczne aspekty tworzenia bibliotek cyfrowych”, Kraków, 12.09.2008. Kraków: Wojewódzka Biblioteka Publiczna, 2008. [Dostęp 17 maja 2020]. Dostępny w Internecie: http://www.wmkolasa.up.krakow.pl/tpdc/

digital2/00_formaty.pdf

Innym przykładem ewolucji idei BC jest zmiana rozumienia ich funkcji udostępniania zasobów, związana z rosnącymi możliwościami transmisji sieciowej, a także trendem tworze-nia serwisów sieciowych automatycznie czerpiących dane z różnych sieciowych źródeł. O ile w świetle niektórych wczesnych definicji przez BC można rozumieć uporządkowany zbiór nośników magnetycznych lub optycznych udostępnianych na izolowanych komputerach (czyli także lokalnie), współcześnie domyślnie rozumie się ją jako instalację dostępną przez globalną sieć. Następuje za tym postulat takiej jej organizacji, by można było względnie łatwo wprowadzać nowe funkcjonalności i usługi lub np. umożliwiać ponowne wykorzystanie (ang.

reuse) jej zasobów przez inne serwisy w sieci, zarówno w postaci agregowania metadanych, jak i wykorzystania samych dokumentów. Wiąże się to z ideą „Open data”¹⁹², zmierzającą do otwartości danych dla wszystkich, którzy chcą z nich skorzystać lub ponownie ich użyć, bez ograniczeń ze strony prawa autorskiego, patentów lub innych mechanizmów kontroli. Ów kontekst wtórnego, często zautomatyzowanego wykorzystywania jej zasobów wskazuje kolejne znaczenie BC – jako „pierwotnego źródła informacji”, które winno udostępniać wiarygodne dane.

W dokumencie Model regionalnej biblioteki cyfrowej na przykładzie Śląskiej Biblioteki Cyfrowej (Stron 78-82)