Bibliotheca Nostra. Śląski Kwartalnik Naukowy, 2010, No 2(21)

(1)

BIBLIOTHECA NOSTRA

BIBLIOTEKAUNIWERSYTETUŚLĄSKIEGO

INSTYTUTBIBLIOTEKOZNAWSTWA IINFORMACJINAUKOWEJUNIWERSYTETUŚLĄSKIEGO

(2)

prof. UŚ dr hab.A^NTONIB^ARCIAK prof. dr hab.E^LŻBIETAG^ONDEK prof. AWF dr hab.JANUSZISKRA prof. UŚ dr hab.ZYGMUNTKŁODNICKI

prof. zw. dr hab.J^ANM^ALICKI prof. UŚ dr hab.DARIUSZPAWELEC

prof. dr hab.MIROSŁAWPONCZEK prof. UŚ dr hab.MARIAZ. PULINOWA

prof. dr hab.I^RENAS^OCHA

prof. UŚ dr hab.AGNIESZKASTOPIŃSKA-PAJĄK prof. zw. dr hab.WOJCIECHŚWIĄTKIEWICZ

prof. zw. dr hab.JACEKWÓDZ prof. zw. dr hab.Z^BIGNIEWŻ^MIGRODZKI

REDAKCJA

dr J^OLANTAG^WIOŹDZIK– redaktor naczelny (Instytut Bibliotekoznawstwa i Informacji Naukowej UŚ) mgr KATARZYNABARAN, mgr JOANNACHWAŁEK, mgr MARIUSZPACHA,

mgr DAMIANZIÓŁKOWSKI(Biblioteka Główna AWF) dr A^NETAD^RABEK, mgr M^ARIAK^YCLER, (Biblioteka UŚ) mgr MONIKALECH(Biblioteka Główna Politechniki Śląskiej)

mgr AGATAMUC, mgr BOGUMIŁAWARZĄCHOWSKA(Biblioteka Teologiczna UŚ) dr G^RAŻYNAT^ETELA(Biblioteka Wydziału Nauk o Ziemi UŚ)

dr MARTAKUNICKA, mgr DOMINIKAPOTEMPA

(Biblioteka Wydziału Prawa i Administracji UŚ)

mgr IZABELAJURCZAK(Biblioteka Wyższej Szkoły Humanitas w Sosnowcu) mgr A^NNAK^OPKA(Biblioteka Wyższej Szkoły Mechatroniki w Katowicach)

dr AGNIESZKABAJOR, dr HANNALANGER, dr IZABELASWOBODA

(Instytut Bibliotekoznawstwa i Informacji Naukowej UŚ) WESELINAGACIŃSKA(tłumaczenie abstraktów)

CZASOPISMO POWSTAJE PRZY WSPÓŁUDZIALE

SÊKCJIBÎBLIOTEKS^ZKÓŁW^YŻSZYCHSTOWARZYSZENIABIBLIOTEKARZYPÔLSKICH

PRZYZARZĄDZIEOKRĘGU WKATOWICACH

(3)

BIBLIOTEKAGŁÓWNAAKADEMIIWYCHOWANIAFIZYCZNEGO IM. JERZEGOKUKUCZKI WKATOWICACH

BIBLIOTHECA NOSTRA

ŚLĄSKI KWARTALNIK NAUKOWY

KATOWICE 2010

O PRACOWANIE DOKUMENTÓW

BIBLIOTEKAUNIWERSYTETUŚLĄSKIEGO

INSTYTUTBIBLIOTEKOZNAWSTWA IINFORMACJINAUKOWEJUNIWERSYTETUŚLĄSKIEGO

(4)

REDAKTOR NUMERU MONIKALECH

prof. dr hab. W^IESŁAWB^ABIK

KOREKTA

Aneta Drabek, Maria Kycler

ISSN 1734-6576 ADRES REDAKCJI

Biblioteka Główna Akademii Wychowania Fizycznego im. Jerzego Kukuczki w Katowicach

ul. Mikołowska 72 A, 40-065 Katowice,

tel. 32 207 51 48, e-mail: bibliothecanostra@gmail.com Wersja elektroniczna

http://www.bibliothecanostra.awf.katowice.pl http://www.sbc.org.pl

REDAKCJA TECHNICZNA, SKŁAD I ŁAMANIE

Joanna Chwałek

DRUK Poligrafia AWF im. Jerzego Kukuczki, ul. Mikołowska 72 C, 40-065 Katowice Nakład: 230 egz.

REDAKCJA MERYTORYCZNA Małgorzata Cebula

WYDAWCA

Akademia Wychowania Fizycznego im. Jerzego Kukuczki w Katowicach

Zapraszamy zainteresowane instytucje do zamieszczania informacji o swojej ofercie na łamach Bibliotheca Nostra.

Kontakt: tel. 32 207 51 35, e-mail: bibl@awf.katowice.pl

(5)

S

PIS TREŚCI

Od Redakcji ●9

ARTYKUŁY I MATERIAŁY

Marek Nahotko Automatyczne tworzenie metadanych ●13 Agata Kyzioł Format MARC 21 dla książki - krok po kroku ●32

Urszula Iwańska, Irena Nowak Dylematy opracowania zbiorów kartograficznych – na przykładzie Biblioteki Wydziału Nauk o Ziemi Uniwersytetu Śląskiego ●73

SPRAWOZDANIA

Dominika Paleczna Konferencja Naukowa „Spotkanie z archiwum” 13 kwietnia 2010 ●87

Przemysław Kasperkiewicz Sprawozdanie z 55 Międzynarodowych Targów Książki w Warszawie ●90

Mariusz Pacha „Sport, turystyka i rekreacja bibliotekarzy” I Konferencja Naukowa Katowice, 25 czerwca 2010 r. ●97

OMÓWIENIA I RECENZJE

Jakość usług bibliotecznych w społeczeństwie informacyjnym. Red. Joanna Kamińska, Beata Żołędowska–Król (Agata Muc) ●101

Bibliosfera.net (Dominika Paleczna) ●109

Biblioteki szkół wyższych w społeczeństwie wiedzy. Uwarunkowania i wybrane zagadnienia. T. 1. Konteksty i uwarunkowania. Pod red. Zbigniewa Gębołysia; Biblioteki szkół wyższych w społeczeństwie wiedzy. Uwarunkowania i wybrane zagadnienia. T. 2 Narzędzia i formy funkcjonowania. Pod red. Ireny Sochy (Bogumiła Warząchowska) ●112 WYDARZENIA● 121

(6)

AKTUALNOŚCIAWF

Dorota Kusa, Jadwiga Mamzer Historia zdjęciem pisana ●127 Piotr Halemba AWF na szczytach świata ●130

INFORMACJE

Aktualny wykaz czasopism dostępnych w Bibliotece Głównej AWF w Katowicach ●133 Bazy danych dostępne w Bibliotece Głównej AWF w Katowicach ●137

NOWOŚCI W ZBIORACH

Wykaz książek zarejestrowanych w Bibliotece Głównej AWF w Katowicach w II kwartale 2010 roku ●139

NOWOŚCI WYDAWNICZEAWF ● 159

(7)

C

ONTENTS

Editorial ●9

ARTICLES AND MATERIALS

Marek Nahotko Automatic creation of metadata ●13 Agata Kyzioł Format MARC 21 for a book – step by step ●32

Urszula Iwańska, Irena Nowak Dilemmas in cataloguing and indexing cartographic collections – the example of Library of Faculty of Earth Sciences, University of Silesia ●73

REPORTS

Dominika Paleczna Scientific Conference „A meeting with an archive” 13th april 2010 ●87

Przemysław Kasperkiewicz Report on the 55th International Book Fair in Warsaw ●90 Mariusz Pacha „Sport, tourism and librarians’ pastime” The 1th Scientific Conference, Katowice, 25th june 2010 ●97

DISCUSSIONS AND REVIEWS

The quality of library services in the information society. Eds. Joanna Kamińska, Beata Żołędowska –Król (Agata Muc) ●101

Bibliosfera.net (Dominika Paleczna) ●109

College libraries in knowledge-based society. Conditioning and selected issues. Vol. I.

Contexts and conditionings. Ed. Zbigniew Gębołyś; College libraries in knowledge-based society. Conditioning and selected issues. Vol. II. Instruments and forms of functioning. Ed.

Irena Socha (Bogumiła Warząchowska) ●112 EVENTS● 121

(8)

A^{CADEMY OF}P^HYSICALE^DUCATION(AWF) N^EWS

Dorota Kusa, Jadwiga Mamzer History written by photography ●127 Piotr Halemba AWF at the top of the world ●130

I^NFORMATION

A current register of periodicals available at the Main Library of Academy of Physical Education (Biblioteka Główna AWF) in Katowice ●133

Data bases available at the Main Library of Academy of Physical Education (Biblioteka Główna AWF) in Katowice ●137

NEWS IN THE COLLECTION

Books registered in the Main Library of Academy of Physical Education (Biblioteka Główna AWF) in the second quarter of 2010 ●139

AWF’S PUBLISHING NEWS● 159

(9)

O

D

R

EDAKCJI

W

spółczesne zasoby informacyjne, powstałe dzięki rozwojowi technologii cyfrowych, wymagają nowego ujmowania podstawowych za- dań bibliotek: gromadzenia, opracowania, udostępniania i informo- wania o zbiorach. Znane systemy organizowania wiedzy, jak autorytatywne zbiory nazw, klasyfikacje (np. Klasyfikacja Biblioteki Kongre- su) i inne języki informacyjno-wyszukiwawcze (język deskryptorowy z tezaurusem czy język haseł przedmiotowych) znajdują nowe zastosowanie w sieci, m.in. w automatycznym rozpoznawaniu i wyodręb- nianiu metadanych. Stosowana tu metoda polega na przetwarzaniu syntaktycznym i wykorzystaniu algorytmów maszynowego uczenia się. Użytkownicy, przyzwyczajeni do narzędzi internetowych, np. do usług Google, oczekują podniesienia wartości i atrakcyjności infor- macyjnej katalogów bibliotecznych. Katalogi elektroniczne w Interne- cie są zatem uzupełniane o elementy dodatkowe, dodawane do rekor- dów bibliograficznych, takie jak odsyłacze, tagi, recenzje lub zeskano- wane obrazy okładek (to ostatnie wzorem Amazona). Możliwa staje się także zmiana błędnych zapytań czy pokazywanie relacji skojarzenio- wych między terminami, co służy lepszemu poznawaniu przez użyt- kownika i wykorzystywaniu zbiorów bibliotecznych. Do ich prezentacji w sieci wykorzystuje się programy komercyjne (jak Prima czy AquaBrowser), a także darmowe, działające na zasadzie open source (jak VuFind, SOPAC).

Takie rozwiązania są charakterystyczne dla wyszukiwarek semantycznych, korzystających z tzw. metadanych semantycznych, a więc opisujących treść dokumentu. Należą do nich po pierwsze wyszukiwarki analizujące “znaczenie” treści indeksowanych dokumen-

(10)

tów, np. Hakia przeszukuje nie tyle strony internetowe, co ich zawar- tość znaczeniową, stosując odpowiednie metody analizy tekstu dokumentu, dzięki procedurom mechanicznego przetwarzania języka naturalnego. Po drugie są to wyszukiwarki związane z rozwojem sieci semantycznej (Web 3.0), przeszukujące zawartość sieci semantycznej, czyli zawartość indeksowanych plików RDF, stanowiących metaopis zawartości dokumentów internetowych.

Tematykę automatycznego tworzenia metadanych podjął Marek Nahotko. To zagadnienie staje się szczególnie aktualne w sytuacji wzrastających zasobów sieci, powstawania globalnej biblioteki cyfrowej, czyli „scentralizowanych usług wyszukiwania informacji w rozproszonych zasobach informacyjnych”. W bibliotekach, archiwach czy ośrodkach informacji dominuje tworzenie metadanych przez ludzi, jednak szybki wzrost treści dostępnych w sieci wymaga wykorzystywania w tym celu procedur zautomatyzowanych. W pierwszym przypadku indeksowanie semantyczne jest realizowane dzięki prototypowym poję- ciom, w drugim – przez identyfikację zestawu cech, bez rozumienia sensu informacji zawartej w obiekcie cyfrowym. Często konieczna jest

„kompatybilność obu sposobów oceny treści”, a nawet ich integracja, gdy osoby inicjują lub kontrolują procesy zautomatyzowane.

W wyszukiwarkach komercyjnych automatyczne tworzenie metadanych jest wykonywane przed wysłaniem zapytania przez użyt- kownika, służy wówczas do przygotowania zasobu metadanych, z którymi jest porównywane to pytanie, a także już podczas prowadzenia wyszukiwania, dzięki czemu przeszukuje się zasoby poza ba- zą danych wyszukiwarki. Autor analizuje metody automatycznego tworzenia metadanych dla zasobów cyfrowych, zwracając jednak uwagę, że wciąż brakuje badań ich efektywności dla przygotowania rekordów metadanych. Kierunkom badań w ujęciu chronologicznym jest poświecona druga część jego artykułu. Zwraca także uwagę na generatory metadanych, specjalnie i wyłącznie przeznaczone do tworzenia rekordów metadanych.

Rozwój sieci semantycznych będzie wpływał na wzrost funkcjo- nalności wyszukiwarek, a także na integrację różnych modeli opisu danych, w tym formatów zapisu metadanych bibliograficznych.

Przykładem takich działań jest aplikacja Zotero, ułatwiająca archi- wizowanie i organizowanie źródeł informacji, w tym tworzenie bibliografii. Wraz dodatkiem Zotz (Firefox) pozwala na łatwiejsze przeszu- kiwanie i filtrowanie dużych zasobów, a pobrane dane można samodzielnie modyfikować. Interfejs jest także dostępny w języku pol-

(11)

skim. W tej sytuacji nowego znaczenia nabiera normalizacja i stosowanie standardów w zakresie formatu zapisu danych bibliograficznych w systemach komputerowych.

Agata Kyzioł w następnym artykule omówiła format MARC21 (MAchine Readable Cataloging), pierwotnie opracowany przez Biblio- tekę Kongresu (jako Pilot MARC w 1965 r.), a następnie modyfikowa- ny (obecna wersja opublikowana została po raz pierwszy w 1999 r.).

Wskazała oczywiste zalety formatu, jak prawidłowe odczytanie zapisu bez względu na kraj i język, możliwość uwzględniania specyfiki wielu rodzajów dokumentów, które ułatwiają wymianę rekordów i sprzyjają tworzeniu baz danych. Za twórcami formatu zdefiniowała pięć typów danych: opis bibliograficzny, zasób i lokalizacja, hasła wzorcowe, symbol klasyfikacji oraz dane faktograficzne. Autorka na przykładzie wydawnictw zwartych szczegółowo przeanalizowała opis bibliograficzny na różnych poziomach, z uwzględnieniem stosowania określo- nych pól i podpól, ich wzajemnych korelacji, co z pewnością posłuży praktycznemu poznaniu formatu.

Możliwość jego zastosowania w odniesieniu do opracowania zbio- rów kartograficznych jest jednym z zagadnień, poruszanych w tekście autorstwa Urszuli Iwańskiej i Ireny Nowak. Charakterystyczną cechą dokumentów kartograficznych (takich jak atlasy, różnego rodzaju ma- py, zdjęcia lotnicze i satelitarne, przekroje, globusy) jest zróżnicowanie jednostek opisu, jak dokument jednoczęściowy, praca współwydana, jedna część dokumentu wieloczęściowego oraz dokument wieloczęścio- wy jako całość. Zasadniczo wpływa to na sposób ich opracowania.

Związane z tym dylematy przedstawiono na przykładzie zbiorów kartograficznych Biblioteki Wydziału Nauk o Ziemi Uniwersytetu Śląskiego.

Omówiono obowiązującą normalizację i opracowanie zbiorów kartograficznych w dwóch systemach: Bitmap i Prolib, wykorzystujący format MARC21, rozważając ich cechy i zakres stosowania.

Różne aspekty współczesnego opracowania zbiorów nie tylko obrazują zmieniające się wraz z rozwojem technologii cyfrowych potrzeby użytkowników, ale także ukazują nowe możliwości ich zaspo- kajania, uzupełniające tradycyjne narzędzia. Automatyczne tworzenie metadanych okazuje się szybsze, tańsze i na tyle wydajne, że może być wykorzystane do indeksowania tak dynamicznych zaso- bów, jak dostępne we współczesnej Sieci: „…funkcjonuje poprawnie, można nawet powiedzieć, że daje równie dobre rezultaty, jak indeksowanie realizowane przez człowieka, jest tylko inne…”. Ważna jest także możliwość wykorzystania wiedzy internatów na potrzeby opra-

(12)

cowania zbiorów. Interesującym – i zakończonym sukcesem – przy- kładem takiego udziału społeczności internetowej jest projekt o naz- wie „The Commons”, animowany przez Bibliotekę Kongresu, służący udostępnianiu fotografii historycznej poprzez serwis Flickr, co zna- cząco wpłynęło także na promocję zbiorów fotografii, bowiem zbiory biblioteczne bywają nie w pełni wykorzystywane z powodu braku wiedzy o nich potencjalnych odbiorców.

Jolanta Gwioździk

(13)

A

UTOMATYCZNE TWORZENIE METADANYCH

MAREK NAHOTKO

Instytut Informacji Naukowej i Bibliotekoznawstwa Uniwersytetu Jagiellońskiego

C

zęsto powtarzane są informacje o szybkim tempie rozwoju zasobów Webu, porównywalnym do eksplozji¹. Zasadnicze znaczenie dla organizacji i udostępniania tych zasobów, zróżnicowanych pod względem treści, jakości, formy i formatu, ma tworzenie metadanych o odpowiedniej jako- ści. Wszystkie najnowsze kierunki rozwoju zasobów sieciowych, takie jak powstawanie globalnej biblioteki cyfrowej (Nahotko 2010), rozumianej jako scentralizowane usługi wyszukiwania informacji w rozproszonych zasobach informacyjnych oraz ich ewolucja w kierunku usług Semanty- cznego Webu, wymagają efektywnego tworzenia metadanych.

W obecnym środowisku sieciowym metadane są tworzone zarówno w procesach realizowanych przez ludzi, jak i bez ich bezpośredniego udziału, w sposób zautomatyzowany. W pierwszym przypadku autora- mi metadanych są profesjonalni twórcy metadanych (np. bibliotekarze, wydawcy) lub dostawcy treści (np. twórcy stron Web, autorzy publikacji, umieszczający własne treści w repozytoriach). Podstawą oceny ja- kości metadanych, tworzonych przez ludzi, jest zwykle poziom ich semantycznej i syntaktycznej zgodności z przyjętym schematem metadanych. Do niedawna był to jedyny sposób tworzenia metadanych. Obec-

1O rozwoju Internetu może świadczyć wzrost liczby hostów: w 1971 r. połączono ze sobą pierwsze 23 komputery; w 1987 r. było 10 tys. hostów, w 1989 r. – 100 tys.;

milion hostów przekroczony został w 1992 r. Obecnie zarejestrowanych jest 760 mln hostów (10 mln w Polsce), z których korzysta 1,8 mld użytkowników.

(14)

nie wciąż dominuje on w bibliotekach (w tym cyfrowych), muzeach (ró- wnież wirtualnych), archiwach i tym podobnych ośrodkach informacji, udostępniających dane o określonej jakości oraz metadane ich doty- czące. Pomimo początkowego braku zainteresowania, coraz częstsze jest także tworzenie przez ludzi metadanych dla dokumentów udostęp- nianych w Webie, na co wskazuje wzrost stosowania etykiet „słowa kluczowe” i „opis” (description) w etykietach <meta> XHTML (Çelik, Meyer, Mullenweg 2005, s. 994). Innym, stosunkowo nowym przykła- dem jest wykorzystanie w tym celu mikroformatów, takich jak DCMF dla metadanych Dublin Core². Tego typu inicjatywy nigdy nie miały na celu tworzenia metadanych dla wszystkich zasobów Webu – wręcz przeciwnie, dotyczą tylko bardzo niewielkich kolekcji (w stosunku do rozmiarów Internetu, bo istnieją biblioteki cyfrowe udostępniające mi- liony obiektów, opisanych metadanymi). Dalsze tworzenie metadanych w ten sposób może w przyszłości być utrudnione także z powodu coraz częstszego uwzględniania w bibliotekach zasobów powstających poza tradycyjnymi, scentralizowanymi metodami publikowania, takich jak blogi, osobiste zasoby multimediów i środowisko tagów powstających we współpracy użytkowników Webu. Wszystkie te czynniki powodują, że upowszechnia się tworzenie metadanych oparte na procedurach zautomatyzowanych, których szybkość działania dorównuje szybkości przyrostu treści w Sieci.

Maszynowe przetwarzanie zasobów sieciowych

Automatyczne tworzenie metadanych polega na maszynowym przetwarzaniu zasobów danych. Bibliotekarze i specjaliści od informacji naukowej najczęściej mają do czynienia z automatycznym indekso- waniem, którego głównym celem jest określenie zakresu indeksowane- go źródła. Tu warto zwrócić uwagę na różnicę w indeksowaniu treści tzw. semantycznym, realizowanym przez człowieka i program kompu- terowy. Człowiek indeksujący treść posługuje się zestawem prototypo- wych pojęć. Przetwarzanie maszynowe opiera się natomiast na identyfikacji zestawu cech. Cechy, wykorzystywane w automatycznym tworzeniu metadanych, stanowią podstawę do podejmowania ocen i de- cyzji podobnych do podejmowanych przez ludzi, więc powstają z inten- cją emulacji zachowań podobnych do działań użytkownika-człowieka,

2 Por. http://www.webposible.com/microformatos-dublincore/microformats_dublin- -core.html [dostęp: 2010-10-15]

(15)

podczas określania zestawu pojęć. Działania komputerów są jednak inne niż ludzi, gdyż opierają się raczej na zestawie heurystyk lub mia- rach statystycznych niż właściwym rozumieniu sensu informacji zawartej w obiekcie cyfrowym. W związku z tym konieczne jest zwracanie szczególnej uwagi na kompatybilność obu sposobów oceny treści.

Wyszukiwarki komercyjne stosują automatyczne tworzenie metadanych w dwóch przypadkach. Po pierwsze metadane są tworzone automatycznie, zanim jeszcze rozpocznie się jakiekolwiek wyszukiwanie użytkownika, przy pomocy oprogramowania – pająków, które bez prze- rwy przeglądają zawartość Webu pobierając i przechowując metadane jej dotyczące w bazach danych wyszukiwarek. Zapytanie użytkownika najpierw jest porównywane z tym apriorycznie przygotowanym zasobem metadanych. Po drugie, w przypadku gdy nie udało się stworzyć odpowiedzi na zapytanie użytkownika na podstawie zgromadzonych zawcza- su metadanych, automatycznie i dynamicznie, podczas prowadzenia wyszukiwania przez użytkownika, tworzone są nowe metadane, w wyniku działania algorytmów wyszukiwawczych na otwartym, globalnym za- sobie informacyjnym Webu, czyli poza bazą danych wyszukiwarki. Rep- rezentacje dokumentów w obu sytuacjach na ogół składają się z kilku pierwszych wierszy odszukanych dokumentów (zasobu Web), informacji o lokalizacji (głównie URL) oraz metadanych z etykiety „tytuł”.

Jeżeli obiekty cyfrowe, dla których tworzone są metadane, zdefiniu- jemy bardzo szeroko, jako dowolną jednostkę, formę lub działanie, dla których można zapisać dane kontekstualne (Greenberg 2003, s. 245), to wówczas stwierdzimy, że operacje automatycznego tworzenia metadanych wykonywane są masowo każdego dnia. Przykładem może być automatyczne tworzenie metadanych o wyrażeniach dokumentujących za- kupy dokonywane online lub transakcje realizowane za pomocą banko- matów, a także zapisy dotyczące odbytych rozmów telefonicznych. Auto- matyzacja tych procesów umożliwia przesunięcie ludzi do prac bardziej intelektualnych, również tych związanych z tworzeniem metadanych, a czasem po prostu jest warunkiem ich efektywnego wykonywania.

Automatyczne tworzenie metadanych w najczystszej postaci polega wyłącznie na przetwarzaniu maszynowym. Często są to jednak procesy, w realizację których włącza się ludzi. Mogą oni inicjować odpowiednie procesy, dalej wykonywane automatycznie; wyspecjalizowane oprogramowanie może działać na zasobach metadanych, tworzonych przez człowieka (np. realizując tzw. mashup danych bibliograficznych z wielu źródeł, w tym OPAC i innych baz danych); w końcu zdarza się także, że metadane tworzone automatycznie, szczególnie dotyczące za-

(16)

kresu dokumentu cyfrowego, są w końcowym etapie ich zestawiania kontrolowane i korygowane przez ludzi. Niektórzy autorzy uważają, że najbardziej efektywnym sposobem tworzenia metadanych jest podej- ście zintegrowane, łączące udział człowieka i programów komputerowych (Craven 2001). Może to odbywać się na przykład poprzez integra- cję technik przetwarzania języka naturalnego (Natural Language Pro- cessing, NLP) z zastosowaniem słowników kontrolowanych typu tezaurusa (Greenberg, Spurgin, Crystal 2006, s. 5).

Jane Greenberg wskazuje na dwie metody automatycznego two- rzenia metadanych dla zasobów cyfrowych: ekstrakcja (extraction) metadanych oraz ich zbieranie (harvesting) [Greenberg 2004, s. 63].

Ekstrakcja metadanych odbywa się podczas automatycznego wydo- bywania metadanych z treści dokumentu, wyświetlonego za pomocą przeglądarki internetowej. Treść dokumentu analizowana jest na poziomie podstawowym, co pozwala na tworzenie metadanych ustrukturyzowanych (etykietowanych), składających się na reprezentację obiektu cyfrowego. Można stwierdzić, że ustrukturyzowane metadane są zazwyczaj ekstrahowane z części „body” dokumentu HTML (XHTML). Automatyczna ekstrakcja metadanych może opierać się na skomplikowanych technikach automatycznego indeksowania i algo- rytmach klasyfikowania treści, które zwiększają jakość metadanych.

Część informacji jest łatwa do ekstrakcji dzięki temu, że jej składnia jest dobrze rozpoznawalna. Prostym przykładem może być adres po- czty elektronicznej lub strony internetowej URL. Jednak takie przy- kłady nie są najlepsze, gdyż Internet i jego usługi tworzone były od początku z myślą o wykorzystywaniu komputerów i wymienione elementy zaprojektowane zostały w sposób, ułatwiający ich automatyczne rozpoznawanie i przetwarzanie.

Istnieją także inne elementy danych łatwe do rozpoznania, chociaż w nieco bardziej zawodny sposób. Są to takie wartości, jak kwoty pie- niędzy, określenie godziny oraz daty. W tym zakresie kłopoty może sprawiać na przykład istnienie wielu wariantów przedstawienia daty.

Część błędów spowodowana jest różnicami kulturowymi, jak na przy- kład używanie kropki (na kontynencie europejskim) lub przecinka (w krajach anglosaskich) dla oddzielenia części „groszowych” od peł- nych jednostek płatniczych.

Często spotykanym, w codziennej praktyce wyszukiwania informacji, przykładem ekstrahowanych metadanych jest informacja o dokumencie Web (będąca w pewnym sensie odpowiednikiem abstraktu), którą wiele wyszukiwarek komercyjnych tworzy dynamicznie podczas

(17)

wyświetlania odpowiedzi na zapytanie użytkownika. Różnica pomiędzy tą informacją a „prawdziwym” abstraktem polega na tym, że jest ona tworzona z algorytmicznie pobieranych części dokumentu internetowe- go (np. kilka pierwszych zdań tekstu lub pierwsze zdanie z każdego akapitu), podczas gdy abstrakt tworzony jest w strukturze intelektual- nie logicznej (np. wstęp, metody, wyniki, wnioski). Bez względu na te różnice w obu przypadkach mamy do czynienia z ekstrakcją w takim sensie, że proces realizowany jest na treści dokumentu.

Zbieranie, druga podstawowa metoda automatycznego tworzenia metadanych, ma miejsce, gdy metadane są automatycznie gromadzone z etykiet <meta> znajdujących się w części nagłówkowej (header) kodu źródłowego strony Web w HTML lub też pobierane z zasobów w innych formatach (np. dokumentów MS Word, plików graficznych). Przetwa- rzanie tego typu opiera się na metadanych, tworzonych zarówno przez ludzi, jak i procesy całkowicie lub częściowo zautomatyzowane (wykonywane przez oprogramowanie). Na przykład oprogramowanie do tworzenia stron Web, takie jak MS Frontpage oraz większość edytorów (w tym MS Word i Adobe) tworzą automatycznie metadane w trakcie powstawania lub modyfikacji dokumentu, zapisując na przykład dane o formacie, dacie utworzenia oraz dacie modyfikacji bez udziału, a nawet wiedzy użytkownika. Podobnie działają urządzenia, takie jak cyfrowe aparaty fotograficzne, które zapisują wspomniane wcześniej metadane w pliku wykonanej fotografii. Tego rodzaju oprogramowanie-generator metadanych może także wspomagać półautomatyczne tworzenie metadanych przez prezentację użytkownikowi (np. autorowi dokumentu lub architektowi stron Web) formularza, przy pomocy którego można, w sposób wspomagany, wprowadzać ręcznie metadane, w rodzaju słów kluczowych lub streszczenia (abstraktu). Oprogramowanie wspomagające automatycznie konwertuje wprowadzone dane do odpo- wiednich wartości etykiet <meta>, zapisanych w wybranej syntaktyce (np. HTML, XML) i umieszcza je w nagłówku opisywanego dokumentu.

Metody te pozwalają na tworzenie metadanych, które nie tylko bezpo- średnio ułatwiają wyszukiwanie opisanego obiektu, ale także mogą być zbierane przez generator w celu utworzenia rekordu metadanych ustrukturyzowanych, który z kolei może stać się częścią bazy (meta)danych i służyć jako źródło danych do mashup’u.

Ekstrakcja i zbieranie metadanych są zasadniczymi elementami funkcji realizowanych przez generator metadanych, jednak wciąż brak szczegółowych badań efektywności tych technik dla tworzenia rekor- dów metadanych. Jeżeli inicjatywy, służące rozwojowi metadanych,

(18)

mają odnosić korzyści z możliwości automatycznego przetwarzania danych, niezbędne jest zbadanie wpływu tych metod na jakość metadanych i określenie sposobów ich praktycznego wdrożenia.

Kierunki badań

Badania automatycznego tworzenia metadanych opierają się na pracach naukowych dotyczących automatycznego indeksowania, ab- straktowania i klasyfikowania, które rozpoczęły się niedługo po po- wstaniu pierwszych tekstów elektronicznych, tzn. na początku lat 50.

XX wieku. Pierwsze prace w tym zakresie obejmowały głównie tworzenie opisu rzeczowego w postaci deskryptorów/słów kluczowych i abs- traktów. Obecnie automatyczne przygotowanie metadanych służy już nie tylko identyfikacji zakresu dokumentu, ale także obejmuje tworzenie wartości dla takich, tradycyjnie uznawanych za formalne, elemen- tów metadanych, jak autor, tytuł, daty (utworzenia, opublikowania, modyfikacji), format i wielu innych. Dodatkowo w Internecie funkcjo- nują tysiące informacyjnych baz danych, a ich zasoby są często tworzone z użyciem otwartych standardów ułatwiających współdziałanie, takich jak XML. Dzięki temu systemy automatycznego tworzenia metadanych mogą pracować na znacznie większych zasobach, co przyśpie- sza przechodzenie z fazy eksperymentów do praktycznych zastosowań.

Badania nad automatycznym tworzeniem metadanych podzielić można na dwa obszary: badania eksperymentalne, skupiające się na technikach wyszukiwania informacji i opisu treści zasobów cyfrowych oraz badania wdrożeniowe (aplikacyjne), dotyczące głównie rozwoju oprogramowania dla budowy zasobów i narzędzi tworzenia metadanych, stosowanych w działających systemach. Oba obszary omówione są w dalszej części artykułu.

Eksperymenty

Olbrzymie i stale rosnące zasoby cyfrowe dostarczają bogatego ma- teriału do eksperymentów w zakresie badania automatycznego tworzenia metadanych. Naukowcy, pracujący na treściach obiektów cyfrowych w celu tworzenia metadanych, prowadzą badania w dwóch zasadniczych kierunkach: struktury dokumentów i systemów organizacji wiedzy.

W pierwszym przypadku uczeni zidentyfikowali relacje pomiędzy rodzajem, treścią i strukturą dokumentu. Rodzaj dokumentu może na przykład być wnioskowany z gęstości tekstu, która bywa także wyko-

(19)

rzystana do przewidywania sposobu działania algorytmu ekstrakcji metadanych dla niektórych rodzajów dokumentów (Greenberg, Spur- gin, Crystal 2005, s. 4). W historii badań nad automatycznym indekso- waniem stosowane były dwa podstawowe modele teoretyczne: model wektorowo-przestrzenny i model probabilistyczny. Różnica pomiędzy tymi dwoma modelami jest niewielka, zasadza się na szczegółach ich aplikacji. Metadane mogą być ekstrahowane przy pomocy różnych środków, na przykład z wykorzystaniem maszyn wektorowych dla cech lingwistycznych. Pomyślny przebieg miały eksperymenty badające strukturę dokumentu z wykorzystaniem algorytmów SVM (Support Vector Machine) i DVHMM (Dual Variable Hidden Markov Model) do badania opisów bibliograficznych [Takasu 2003]. Pomyślnie wdrażano także metody heurystyczne.

James Anderson i José Pérez-Carballo przedstawili techniki i stra- tegie automatycznego indeksowania dokumentów tekstowych, w dużej części wypracowane w trakcie serii eksperymentów TREC³:

• Podział tekstu na słowa wydaje się tak prostą czynnością, jak zdefiniowanie słowa: jest to ciąg znaków oddzielony spacją lub zna- kiem przestankowym⁴. Problemy stwarza jednak decyzja o sposobie traktowania znaków przestankowych, takich jak kropki, przecinki, apostrofy lub nawiasy, znajdujących się w obrębie takich jednostek, jak np. symbole chemiczne lub równania matematyczne, które odgry- wają zasadniczą rolę w pracach naukowych wielu dyscyplin. Dużym utrudnieniem jest uwzględnianie znaków diakrytycznych, stosowanych w większości języków (poza angielskim). Należy także podjąć decyzję o sposobie traktowania tzw. form złożonych, typu „bardziej pociągają- cy” – czy traktować je jako dwa słowa, czy jedno wyrażenie, a jeśli tak, to w jaki sposób je automatycznie wyróżniać? Dla uniknięcia tych problemów niektórzy badacze odchodzą od wyszczególniania słów na rzecz tworzenia sekwencji znaków – na przykład wszystkich ciągów trój-, cztero- lub pięcioznakowych. Problem powstaje, gdy chcemy uw- zględniać cyfry, bo istnieje nieskończona ilość niepowtarzalnych liczb.

Inny problem stwarza odróżnianie dużych i małych liter. Podczas obliczania częstotliwości występowania słowa lepiej jest nie odróżniać wiel- kości liter, natomiast wyrazy pisane dużą literą mogą być przydatne do wyodrębniania nazw własnych. Najprostsze indeksowanie automaty-

3TREC – Text REtrieval Conferences (http://trec.nist.gov/) [dostęp: 2010-10-15].

4Definicja słowa oparta na spacji i znakach przestankowych jest odpowiednia dla większości systemów alfabetycznych, jednak nie sprawdza się np. w piśmie chińskim.

(20)

czne powoduje wyszczególnienie każdego wystąpienia dowolnego sło- wa; powstałe w ten sposób indeksy mogą być przedstawiane użytko- wnikowi jako indeks typu KWIC lub KWOC⁵. Oznacza to indeksowanie pełnotekstowe, znane z edytorów tekstów. W zastosowaniach baz danych dodawana jest możliwość tworzenia słów odrzuconych, tzw. stop- -listy, dzięki czemu ogranicza się rozmiary indeksu.

• Obliczanie częstości słów i ich wagi. Szybko okazało się, że samo wystąpienie słowa nie świadczy jeszcze o treści lub przeznaczeniu dokumentu. Programy zaczęły liczyć wystąpienia słów w tekście dla określenia częstości ich występowania, co ma lepiej wskazywać na ważne elementy tekstu. Dla grupowania słów różniących się tylko od- mianą stosowana jest także analiza morfologiczna, np. przez wskaza- nie postaci hasłowej słowa i połączenie jej z wszystkimi jego formami, wynikającymi z odmiany. Kolejnym krokiem jest ważenie słów o określonej częstotliwości przez porównywanie ich częstości w danym tekście z częstością występowania w całym zbiorze (np. tekstach danego języka naturalnego lub specjalistycznego). W ten sposób moż- na znaleźć słowa, które w danym tekście (dokumencie) występują z inną częstością niż zwykle. Taka częstość relatywna zwiększa efek- tywność wyszukiwania: im rzadziej słowo występuje w całym zbiorze dokumentów, tym wyższą wagę otrzymuje jego wystąpienie w kon- kretnym dokumencie. W ten sposób można obliczyć wagę każdego słowa w dokumencie, a na tej podstawie wagę dokumentu z punktu widzenia zapytania użytkownika.

• W wielu przypadkach wyróżnianie pojedynczych słów nie wy- starcza do opisania treści dokumentu. Często połączenia słów ozna- czają coś więcej, albo nawet coś zupełnie innego, niż pojedyncze sło- wa, dlatego bardzo przydatne (choć kosztowne) jest określenie metod i algorytmów identyfikacji fraz w tekście. Polegają one na analizie struktury gramatycznej tekstu w celu identyfikacji części mowy i struktur syntaktycznych.

• Indeksowanie jest zawsze oparte na grupowaniu elementów na podstawie podobieństwa wybranych cech charakterystycznych. Grupo- wanie (clustering) oznacza więc tworzenie klas elementów i/lub przydzie- lanie elementów do klas. Termin ten stosowany jest dla procesów wykonywanych automatycznie; w przypadku wykonywanych przez człowieka używa się terminu klasyfikowanie. Grupy mogą być tworzone według różnych kryteriów – współwystępowania terminów w dokumentach, au-

5KWIC – Keyword in context, KWOC – Keyword out of context.

(21)

torstwa, tytułu czasopisma, cytowań. W ten sposób można na przykład oferować wyszukiwanie dokumentów „podobnych” do wskazanego. Te- chniki automatycznego grupowania służą do obliczania stopnia podo- bieństwa pomiędzy terminami lub dokumentami. Grupowanie doku- mentów jest stosowane do organizowania plików obiektów cyfrowych (grupowanie statyczne) lub w tzw. locie, w celu prezentacji zbioru wy- szukanych dokumentów użytkownikowi (grupowanie dynamiczne).

• Interesującym źródłem informacji o wzajemnych relacjach po- między dokumentami są cytowania. Podążanie za cytowaniami, zawar- tymi w publikacjach uznanych za interesujące dla danego zagadnienia, powoduje tworzenie grupy połączonej cytowaniami. Zastosowanie komputerów znacznie ułatwiło korzystanie z cytowań nie tylko chrono- logicznie wstecz (kogo cytuje autor znanego nam dzieła), ale także do przodu (kto cytuje autora). Oprócz bardzo przydatnych możliwości wyszukiwawczych, indeksy cytowań wskazują na powiązania pomiędzy dokumentami podobnymi ze względu na wspólny temat, cel, znaczenie. Na podstawie cytowań bibliograficznych także tworzone są grupy – zgodnie z założeniem, że dokumenty posiadające te same opisy w bib- liografiach załącznikowych są do siebie podobne. W ten sposób tworzone grupy są statyczne (bibliografie załącznikowe w opublikowanych dokumentach nie zmieniają się). Odwrotna sytuacja ma miejsce w przypadku współcytowania – tu grupa powstaje z dokumentów wspólnie cytowanych w kolejnych, nowych publikacjach. Takie grupy są dynamiczne, gdyż nowych publikacji (z nowymi cytowaniami) wciąż przyby- wa. Odrębnym zagadnieniem jest problem linków w Webie, które także mogą być uważane za swego rodzaju cytowania (Anderson, Pérez-Car- ballo 2001b, s. 256-270).

Dla wielu rodzajów dokumentów można także przewidywać ich strukturę, co jest podstawą dla algorytmizowanej ekstrakcji ustrukturyzowanych metadanych. Na przykład artykuły naukowe publikowane w czasopismach naukowych zawierają zazwyczaj standardowe dane, takie jak „tytuł”, „autor” oraz „afiliacja autora”. Prowadzone były badania służące ekstrakcji tytułu jedynie na podstawie informacji o formacie tekstu, takich jak rozmiar czcionki i umiejscowienie akapitu. Takie podejście znajduje zastosowanie dla dokumentów w językach innych niż angielski (Tonkin, Muller 2008, s. 30). Działania związane określe- niem rodzaju jednostek służących do określenia czasu, daty, kwot pie- niędzy i nazw własnych w nieustrukturyzowanym tekście nazywane są ekstrakcją jednostek nadrzędnych (ang. generic entity extraction). Wiele serwisów stosuje heurystyki, służące do wykrywania tych jednostek.

(22)

Metody te można podzielić na:

• wykorzystujące preprogramowane heurystyki; po wstępnym oprogramowaniu heurystyki, do doskonalenia powstałych schematów, wykorzystywana jest ludzka inteligencja, co pozwala na uwzględnienie wyjątków, występujących w językach naturalnych; wiąże się to z konie- cznością stałej modyfikacji posiadanego zestawu schematów, powodo- wanej odkrywaniem i potrzebą uwzględnienia nowych problemów, któ- re w skrajnym przypadku mogą doprowadzić do tego, że system wy- mknie się spod kontroli;

• służące gromadzeniu konwencji tekstu na podstawie ręcznie etykietowanych danych ćwiczebnych; systemy te zawierają zdefiniowaną strukturę, która może być adaptowana do bieżąco napotykanych wzor- ców tekstowych. Adaptacja ta uwzględnia parametry oceny zgodne z etykietowanymi dokumentami ćwiczebnymi; w ten sposób można łat- wo uwzględniać nowo odkryte warianty przez dodanie do bazy ćwiczeb- nej kolejnych, ręcznie etykietowanych przykładów;

• heurystyki potrafiące samodzielnie podejmować działania adap- tacyjne, wykorzystując dane nieetykietowane; raz wprowadzone techniki autoadaptacyjne mogą funkcjonować autonomicznie dla dużej liczby nieetykietowanych dokumentów. Takie podejście daje dobre efekty przy minimalnym wysiłku manualnym.

Opisane techniki oparte na badaniu (tekstowej) treści dokumentu są znacznie mniej efektywne w zastosowaniu dla zasobów multimedialnych, takich jak wideo, nagrania muzyczne, obiekty graficzne i zestawy danych nietekstowych (np. obliczeń). Poprawna analiza treści tego rodzaju danych jest wciąż przedmiotem aktywnych badań, a jej metody w małym stopniu korzystają z metadanych dotyczących treści. Poszuki- wane są inne metody, czego częściowym efektem jest ostatni wzrost za- stosowań folksonomii, czyli etykietowania obiektów cyfrowych w oparciu o aktywność społeczności użytkowników. Niestety, swobodne etykieto- wanie przez ludzi jest użyteczne tylko w przypadku, gdy liczba użytko- wników znacznie przekracza liczbę zasobów do etykietowania oraz gdy nie jest wymagane użycie słowników kontrolowanych (patrz dalej) ani standardowych formatów metadanych. W innych sytuacjach Marko Rodriguez, Johan Bollen i Herbert Van De Sompel proponują ekstrapo- lację (Rodriguez, Bollen, Sompel 2009, s. 7:3) metadanych na podstawie podobieństwa opisywanych dokumentów (chodzi o podobieństwo w zakresie takich cech, jak autorstwo, data publikacji, cytowania). Istnieje duże prawdopodobieństwo, że dokumenty podobne mogą być opisane przy pomocy tych samych, wspólnych metadanych, więc wystarczy wy-

(23)

korzystać istniejące metadane dla określonych zasobów, aby opisać ni- mi podobne zasoby, ale nie opatrzone metadanymi. Można na przykład opisać metadanymi użytkownika, przygotowanymi dla fotografii cyfrowej, wszystkie inne fotografie tego użytkownika wykonane w podobnym czasie (np. w kilkuminutowych odstępach) w tym samym miejscu.

Technologie cyfrowe poważnie zwiększyły dostępność i użyte- czność takich systemów organizacji wiedzy, jak ontologie, tezaurusy, systemy klasyfikacyjne, autorytatywne zbiory nazw. W większości były one znane i stosowane wcześniej, jednak w zastosowaniach sieciowych znalazły nowe miejsce, między innymi w automatycznym rozpoznawaniu i wyodrębnianiu metadanych. Rozwój tych narzędzi oraz globalny zasięg Webu spowodowały konieczność budowy rejestrów metadanych specjalnie służących rozpowszechnianiu systemów organizacji wiedzy, takich jak Knowledge System Laboratory (KSL) Ontology Server w Stanford University (http://ksl.stanford.edu/, dostęp: 2010-10-15) oraz rejestr schematów metadanych SCHEMAS (http://www.schemas- -forum.org/registry/, dostęp: 2010-10-15) i rejestr elementów Dublin Core (http://dcmi.kc.tsukuba.ac.jp/dcregistry/ dostęp: 2010-10-15) Tego rodzaju zasoby dostarczają kolejnych źródeł do badań automatycznego tworzenia metadanych.

Systemy organizacji wiedzy szczególnie stosowane są podczas tworzenia tzw. metadanych semantycznych, a więc opisujących treść dokumentu [Park, Lu 2009, s. 226]. W tym zakresie wyróżniane są dwa modele. Pierwszy z nich, nazywany etykietowaniem semantycznym z użyciem ontologii, może być stosowany do tworzenia zestawu etykiet semantycznych opisujących treść dokumentu na różnych poziomach strukturalnych. Drugi model, nazywany semantycznym tworzeniem metadanych, ma na celu tworzenie metadanych, które opisują seman- tycznie treść adnotowanego dokumentu. W tym przypadku można zde- finiować w systemie własną ontologię lub przejąć istniejącą wcześniej (Yang 2009, s. 9710).

Stosowanie ontologii także może rozpoczynać się od opisanej wcześniej ekstrakcji danych z dokumentu. Dane te konwertowane są następnie do metadanych semantycznych w oparciu o posiadaną onto- logię. Na podstawie reguł heurystycznych, opartych na ontologii, metadane te są z kolei uzupełniane o elementy ontologii nie występujące wprost w tekście dokumentu.

Ontologie to efektywne narzędzia wspomagające automatyczne tworzenie metadanych, podwyższają one jednak koszty tego przedsięwzię- cia, gdyż ich zawartość i struktura wymagają aktualizacji wraz z rozwo-

(24)

jem wiedzy. Dlatego też stosowane są metody nie wymagające predefi- niowanej ontologii. Wówczas najczęściej ontologia tworzona jest metodą indukcyjną, w procesie generowania metadanych semantycznych, w oparciu o procesy maszynowego uczenia się i zbiór treningowych stron Web, z których pobierany jest wstępny zbiór słów kluczowych.

Istnieją także systemy automatycznej klasyfikacji dokumentów przy pomocy tradycyjnych systemów organizacji wiedzy. Często wykorzystywane są Klasyfikacja Biblioteki Kongresu i Język Haseł Przed- miotowych tej biblioteki. Stosowana tu metoda polega na przetwarzaniu syntaktycznym i wykorzystaniu algorytmów maszynowego uczenia się. Istotną cechą tego rodzaju systemów jest posiadanie przez nie na- rzędzi oceny metadanych, na podstawie której wspomagane są powta- rzalne procesy doskonalenia systemu. W ten sposób system może być dostosowywany do potrzeb otoczenia i udoskonalany w oparciu o wyniki oceny jakości tworzonych metadanych. Wykorzystywane są także inne klasyfikacje, na przykład Ei Thesaurus and Classification Scheme, składający się z dwóch części: tezaurusa terminów technicznych i schematu klasyfikacji (Golub, Lykke 2009, s. 903). Badania wykazały 62-procentową zbieżność indeksowania automatycznego z wykonywa- nym przez człowieka. W wyniku tych prac zaproponowano także modyfikacje samej klasyfikacji.

Istnieją również badania służące automatycznej kontroli autoryta- tywności nazw osobowych przy użyciu KHW Biblioteki Kongresu (Pat- ton i in. 2004). Nazwy w indeksowanym dokumencie ekstrahowane by- ły przez porównanie z kartoteką wzorcową.

Badania eksperymentalne, zajmujące się treścią dokumentu, spo- wodowały rozwój wiedzy o możliwościach automatycznego tworzenia metadanych. Pewne ograniczenia wynikają z faktu, że badania dotyczą zwykle określonego zakresu, rodzaju i/lub formatu dokumentów i ele- mentów metadanych. Badacze zdają sobie jednak sprawę z tych wad, wynikających z budowy algorytmów dla ograniczonych zastosowań i próbują znaleźć prototypowe narzędzia, pozwalające na tworzenie metadanych z zastosowaniem różnych ontologii (Hatala, Forth 2003). De- cyzja o wyborze najlepszej metody wymaga dalszych badań.

Aplikacje

Innym kierunkiem badań jest tworzenie aplikacji wspomagają- cych kreowanie zarówno treści, jak ich metadanych. Do przygotowania metadanych dla zasobów cyfrowych można używać zarówno opro-

(25)

gramowania ogólnego stosowania służącego tworzeniu treści, jak ró- wnież wyspecjalizowanych narzędzi, nazywanych generatorami metadanych. Aplikacje te stosowane są zazwyczaj przez autorów zasobów lub inne osoby nie posiadające zawodowego wyszkolenia w tworzeniu metadanych. Również zintegrowane systemy biblioteczne posiadają edytory wspomagające tworzenie metadanych, na ogół wyposażone w funkcje pozwalające na kontrolę i optymalizację jakości powstają- cych metadanych. W podobne moduły wyposażone są programy do tworzenia i obsługi bibliotek cyfrowych, takie jak polska dLibra (zob.

rys. 1). Tego rodzaju narzędzia przeznaczone są dla profesjonalistów – katalogerów, którzy posiadają odpowiednie przygotowanie i na bieżą- co podnoszą kwalifikacje. Możliwości edycyjne zintegrowanych syste- mów bibliotecznych stanowią jednak odrębne zagadnienie, którego nie będę dalej rozwijał.

Rys. 1. Edytor metadanych systemu dLibra.

Oprogramowanie do tworzenia treści stanowi bardzo zróżni- cowaną grupę narzędzi, które łączy jedna cecha – programy te służą do tworzenia dokumentów elektronicznych. Są to wszelkiego rodzaju edytory tekstów z MS Word na czele, ale także Adobe

(26)

Acrobat, Macromedia Dreamweaver czy Winamp – czyli każde oprogramowanie, wykorzystywane do tworzenia zasobów, zarówno tekstowych, jak i multimedialnych. W warunkach Webu tego rodzaju oprogramowanie używane jest do tworzenia dokumentu elektronicznego z przeznacze- niem do udostępniania poprzez standardową przeglądarkę Web i zwią- zane z nią oprogramowanie. Cyfrowy surogat dokumentu, zawierający dane bibliograficzne (metadane), także może być traktowany jako rodzaj (meta)treści, więc narzędzia typu EndNote Thompsona (http://www.endnote.com/), służące do tworzenia rekordów metadanych (bibliografii załącznikowych), mogą również być uważane za pewną formę oprogramowania tego rodzaju, edytor do tworzenia treści.

Rys. 2. Wypełniony formularz metadanych i metadane osadzone w pliku HTML

Oprogramowanie takie w coraz większym zakresie obsługuje także tworzenie metadanych w różnym trybie: przy pomocy funkcji zautomatyzowanych, częściowo zautomatyzowanych lub wykonywanych przez człowieka. W sposób zautomatyzowany tworzone są takie elementy metadanych technicznych, jak data utworzenia, data modyfikacji, rozmiar, rozdzielczość i format. Często również automatycznie jako twórca dokumentu wskazywany jest właściciel oprogramowania. Niektóre programy pobierają metadane z treści dokumentu, próbując tworzyć w ten sposób metadane opisowe, na przykład Word automatycznie określa tytuł dokumentu w oparciu o zawartość pierwszego wiersza dokumentu. Inne programy pozwalają wyświetlać formularze, wypełniane przez

(27)

użytkownika metadanymi. Metadane te mogą być później automatycznie ekstrahowane przez różne aplikacje i konwertowane do wybrane- go języka kodowania, na przykład XML, co z kolei pozwala na wkleje- nie ich do opisywanego dokumentu lub umieszczenie w bazie metadanych. Przykład stosowania tej funkcjonalności w Wordzie zawiera rys.

2., gdzie przedstawiony jest formularz (strona lewa), częściowo wypeł- niany automatycznie, uzupełniany przez użytkownika, zawierający podstawowe metadane o tworzonym dokumencie.

Gdy opisywany dokument zostanie zapisany jako plik HTML, metadane te automatycznie są integrowane z metadanymi z innych for- mularzy i umieszczane w nagłówku nowego dokumentu (rys. 2., prawa strona). Możliwość zapisania podobnego rodzaju metadanych dają nie tylko komputery, ale też innego rodzaju urządzenia cyfrowe, na przy- kład aparaty fotograficzne; są takie, które zapisują nie tylko czas wy- konania fotografii ale także współrzędne geograficzne fotografowanego miejsca. Służą do tego specjalne formaty metadanych, takie jak standard IPTC (http://ww.iptc.org/).

W coraz większym stopniu do tworzenia metadanych dla zaso- bów Web stosowane są generatory metadanych. Różnią się one od programów poprzednio opisanych tym, że są one specjalnie i wyłą- cznie przeznaczone do tworzenia rekordów metadanych. Można je podzielić, ze względu na stosunek pracy wykonywanej przez człowie- ka i automatycznie, na generatory, które nawet w całości same po- bierają metadane z obiektu cyfrowego w sposób zautomatyzowany oraz edytory, które łączą działania automatyczne z przetwarzaniem przez człowieka.

Takie generatory funkcjonują zarówno dla standardowych etykiet

Dla tego schematu dostępnych jest kilka narzędzi, pozwalających za- kodować elementy metadanych w wybranej syntaktyce (HTML, XML, RDF), konwertować wyniki do innych schematów, a także kodować wyrażenia tzw. mikroformatów. Często generator automatycznie pobie- ra metadane ze wskazanej strony Web, przedstawiając rezultaty użyt- kownikowi w celu dokonania ewentualnych modyfikacji poprzez uzu- pełnienie wyświetlonego formularza.

Rosnąca liczba tego typu aplikacji jest pozytywnym zjawiskiem, gdyż daje wzrost możliwości efektywnego tworzenia metadanych często przez osoby nie znające tego zagadnienia. Według Jane Greenberg aplikacje te posiadają jednak pewne ograniczenia:

(28)

• rzadko pozwalają na stosowanie standardowych funkcji kontroli bibliograficznej, w tym głównie kontroli autorytatywnej i kwalifikacji elementów metadanych;

• rzadko stosowane są w nich rozwinięte techniki i algorytmy automatycznego indeksowania, pomimo, że odpowiednie algorytmy już istnieją;

• tworzone są one w izolacji, co powoduje, że nie uwzględniają po- przednich, pozytywnie zweryfikowanych rozwiązań – jest to częściowo spowodowane brakiem standardów i rekomendowanych funkcji, które mogłyby zostać wykorzystane podczas projektowania aplikacji;

• do badania ich użyteczności i efektywności nie przywiązywano dotąd dostatecznej wagi (Greenberg, Spurgin, Crystal 2005, s.8).

Zakończenie

Oprócz, wcześniej opisanych, problemów technicznych istnieją także sprawy organizacyjne, mające wpływ na automatyczne tworzenie metadanych. Jedną z podstawowych jest posiadanie opracowywanego tekstu (obiektu) w wersji elektronicznej. Tak naprawdę przydatność procedur automatycznych widoczna jest w ich zastosowaniu do maso- wych zasobów sieciowych – ze wskazaniem na zasoby internetowe, któ- rych inaczej nie sposób zindeksować.

Istnienie wersji elektronicznej łączy się z problemem doboru for- matów. Można ogólnie powiedzieć, że dokumenty w niektórych formatach znacznie łatwiej poddawać komputerowej obróbce, niż w innych, gdyż format wpływa na poziom dostępności dokumentu. Należy więc uwzględnić te różnice już na etapie tworzenia dokumentów.

Istnieją także zagadnienia prawne, dotyczące wykorzystania lub analizy pełnych tekstów dokumentów dla ekstrahowania z nich suro- gatów. Po pierwsze mogą wystąpić problemy z akceptacją żądania do- stępu do dokumentu przez posiadający go serwis. Odrębnym zagadnieniem jest publikacja rekordu metadanych. W pewnych przypadkach wskazane jest bowiem zachowanie pełnego tekstu dokumentu przez system indeksujący (jak to robi Google) w celu umożliwienia jego kolej- nego przetwarzania i częściowej analizy treści.

Trudności sprawiać może ocena jakości rekordu metadanych utworzonego automatycznie. Stosując metody komputerowe, szczegól- nie oparte na statystyce, można oszacować stopień poprawności osiąg- niętych wyników. Ujawnianie tych informacji użytkownikom systemu nie jest jednak powszechnie przyjętą praktyką. Z punktu widzenia

(29)

użytkownika metadanych informacja ta jest więc tracona i nie jest wykorzystywana podczas stosowania metadanych.

Również język dokumentu i jego lokalizacja mogą powodować kło- poty podczas automatycznego tworzenia metadanych. Wiele z wymie- nionych narzędzi i metod (algorytmów) jest przygotowana do pracy w określonym języku, zazwyczaj angielskim.

Jak piszą James Anderson i José Pérez-Carballo, automatyczne indeksowanie dokumentów funkcjonuje poprawnie, można nawet powiedzieć, że daje równie dobre rezultaty, jak indeksowanie realizowane przez człowieka, jest tylko inne (Anderson, Pérez-Carballo 2001a, s. 236). Jest ono jednocześnie znacznie szybsze i tańsze niż tworzenie metadanych przez ludzi na podstawie analizy intelektual- nej i na tyle wydajne, że może być wykorzystane do indeksowania nawet tak olbrzymich, a jednocześnie tak dynamicznych zasobów, jak te funkcjonujące we współczesnym Webie. Według opinii Bożen- ny Bojar, poza stosowaniem różnego rodzaju metod przetwarzania języka naturalnego, nie ma innej alternatywy dla umożliwienia efektywnego wyszukiwania we współczesnych zasobach informacyjnych, tak wielkich, że z chaosu tych zasobów, w wyniku samoorganizacji, wyłania się nowy porządek (Bojar 2009, s. 19-23), który nie może być już opisany przy pomocy tradycyjnych narzędzi, służących do tworzenia metadanych przez ludzi.

Bibliografia

Anderson J., Pérez-Carballo J. (2001a), The nature of indexing : how humans and machines analyze messages and texts for retrieval. Part I: research, and the na- ture of human indexing. „Information Processing and Management” vol. 37, s. 321-245.

Anderson J., Pérez-Carballo J. (2001b), The nature of indexing : how humans and machines analyze messages and texts for retrieval. Part II: machine indexing and the allocation of human versus machine effort. „Information Processing and Management” vol. 37, s. 255-277.

Bojar B. (2009). Języki informacyjno-wyszukiwawcze wczoraj, dziś… czy jutro? „Za- gadnienia Informacji Naukowej” nr 1, s. 3-24.

Çelik T., Meyer E., Mullenweg M. (2005). XHTML Meta Data Profiles. W: Proc. of 14th International Conference of the World Wide Web Consortium (WWW2005), Chiba, Japan, 10-14 May 2005. Pod red. A. Ellis, T. Hagino. New York, s. 994- -995.

Craven T. (2001), Description meta tags in public home and linked pages [online]

(30)

„Libres” vol. 11 nr 2. [dostęp: 2010-05-15]. Dostępny w World Wide Web:

http://libres.curtin.edu.au/LIBRE11N2/craven.htm

Golub K., Lykke M. (2009). Automated classification of Web pages in hierarchical browsing. „Journal of Documentation” vol. 65 nr 6, s. 901-925.

Greenberg J. (2004). Metadata extraction and harvesting: a comparison of two auto- matic metadata generation applications. „Journal of Internet Cataloging” vol.

6 nr 4, s. 59-82.

Greenberg J. (2003), Metadata and the Word Wide Web. W: The encyclopedia of lib- rary and information science. 2nd ed. Pod red. M. Drake, vol. 72. New York, s. 244-261.

Greenberg J., Spurgin K., Crystal A. (2006), Functionalities for automatic metadata generation applications: a survey of metadata experts’ opinions. „Intern. Journal on Metadata, Semantics and Ontologies” vol. 1 nr 1, s. 3-20.

Greenberg J., Spurgin K., Crystal A. (2005), Final report for the AMeGA (Automatic Metadata Generation Applications) Project [online]. [dostęp: 2010-05-12]. Do- stępny w World Wide Web: http://www.loc.gov/catdir/bibcontrol/lc_amega _final_report.pdf

Hatala M., Forth S. (2003), A comprehensive system for computer-aided metadata creation. W: Proc. of 12th International Conference of the World Wide Web Con- sortium (WWW2003), Budapest, 20-24 May 2003. Pod red. G. Hencsey, B. Whi- te. New York, s. 334.

Nahotko M. (2010), Komunikacja naukowa w środowisku cyfrowym. Warszawa.

Park J., Lu C. (2009), Application of semi-automatic metadata generation in libraries:

types, tools and techniques. „Library & Information Science Research” vol. 31, s. 225-321.

Patton M. [i in.] (2004), Toward a metadata generation framework: a case study at the John Hopkins University. „D-Lib Magazine” [online]. 2004, Vol. 10 nr 11 [do- stęp: 2010-05-29]. Dostępny w World Wide Web: http://www.dlib.org/dlib/no- vember04/choudhury/11choudhury.html.

Rodriguez M., Bollen J., Sompel H. (2009), Automatic metadata generation using as- sociative networks. „ACM Transactions on Information Systems” vol. 27 nr 2, art. 7.

Takasu A. (2003), Bibliographic attribute extraction from erroneous references based on a model. W: Proc. of the 3rd ACM/IEEE conference on digital libraries JCDL.

Pod red. L. Delcambre, G. Henry, C. Marshall. Washington, s. 49-60.

Tonkin E., Muller H. (2008), Keyword and metadata extraction from pre-prints. W:

Open scholarship authority, community and sustainability in the age of Web 2.0. Proc. of the 12th Intern. Conference on Electronic Publishing ELPUB 2008, Toronto 25-27 June 2008. Pod red. L. Chan i S. Mornati. Torino, s. 30-44.

Yang H. (2009), Automatic generation of semantically enriched web pages by a text mining approach. „Expert Systems with Applications” vol. 36, s. 9709-9718.

(31)

M. Nahotko Automatic metadata creation Summary

Because of the enormous Web resources and their rapid increase it has become impossible to develop and indexing them by traditional methods - by trained cataloguers. Therefore are more and more widely methods of automatic metadata creation used, both on the formal characteristics (author, title, source) and the content of text documents. The article describes the latest developments in this field, both experimental studies and implementations.

(32)

J

uż od wielu lat na wszelkiego rodzaju bibliotekarskich spotkaniach ogólnopolskich lub lokalnych pojawia się jako hasło przewodnie „MARC 21”. Chodzi o format zapisu danych bibliograficznych w systemach komputerowych. Skrót MARC 21 skrywa angielską nazwę – MAchine Readab- le Cataloging. Format ten jest w pełni zgodny z normą ISO 2709:1996 i jej polskim odpowiednikiem, czyli PN-ISO 2709:1998.

Format MARC narodził się w amerykańskiej Bibliotece Kongresu w 1965 roku jako Pilot MARC. Po dwuletnim użytkowaniu otrzymano wiele uwag od bibliotekarzy, co z kolei przyczyniło się do powstania ulepszo- nego wariantu formatu, czyli MARC II. W 1980 roku dalsze modyfikacje wpłynęły na wdrożenie MARC format for bibliographic data, osiem lat póź- niej zaś zastosowano USMARC format for bibliographic data. UNIMARC zyskał także kilka odmian narodowych, stworzonych przez ośrodki informacji w różnych krajach. Były to między innymi: kanadyjski CAN/MARC, angielski UKMARC, francuski INTERMARC czy australijski AUSMARC.

W początkach lat osiemdziesiątych XX wieku pojawiła się także polska wersja tego formatu – MARC BN, opracowana przez Bibliotekę Narodową.

Nadal jednak nie było pełnej spójności formatów USMARC, CAN/MARC i UKMARC, dlatego też w latach dziewięćdziesiątych minionego wieku szu- kano sposobu na ich zharmonizowanie. Uwieńczeniem tych prac było po- wstanie w 1997 roku nowego formatu MARC 21, który miał zastąpić formaty stosowane wcześniej. Pierwsza publikacja opisująca rekord bibliograficzny w formacie MARC 21 ukazała się w 1999 roku pod tytułem MARC 21 format for bibliographic data. Obecnie trwają prace nad kolejną modyfikacją, minie jednak jeszcze jakiś czas zanim najnowsza wersja formatu zostanie udostępniona do powszechnego użytku.

AGATAKYZIOŁ

Pedagogiczna Biblioteka Wojewódzka im. KEN w Warszawie

F

ORMAT

MARC 21

DLA KSIĄŻKI

–

KROK PO KROKU

(33)

Skąd w ogóle potrzeba zastosowania formatu dla danych bibliograficznych? Świat ogarnęła fala informatyzacji, a co za tym idzie pojawiło się hasło „pracujemy lokalnie, a myślimy globalnie”. Zgodnie z tą tezą biblioteki podjęły szeroko zakrojoną współpracę w zakresie ujednolice- nia, w miarę możliwości, sposobu wyszukiwania i prezentacji informacji dla użytkowników. Oczywiście idealna zbieżność jest tu niemożliwa choćby ze względu na różnice w zastosowanych systemach komputerowych, a także ze względu na specyfikę i wielkość zbiorów poszczegól- nych książnic. Wiele zależy także od indywidualnych oczekiwań grup czytelniczych. Jednak w obrębie jednego typu bibliotek, obsługujących grupę użytkowników o zbliżonych potrzebach w określonym kraju, takie ujednolicenie jest nieco bardziej realne. Wówczas jedynym źródłem różnic będzie wielkość zbiorów, przekładająca się na prezentowanie większej liczby informacji, a także na nieco inny podział przedmiotowy, czy rzeczowy. Format MARC miał za zadanie tak podzielić elementy opisu bibliograficznego, aby każdej informacji przyporządkować odpowiednie pole i podpole. Dodatkowo zakodowano wiele innych przydatnych danych, które biblioteki mogą, choć często nie muszą, gromadzić.

W ten sposób uzyskaliśmy zapis bibliograficzny, który można prawidło- wo odczytać bez względu na kraj jego utworzenia, posługując się kodo- waniem marcowskim. Dodajmy do tego jeszcze możliwość przemie- szczania rekordów utworzonych w formacie pomiędzy różnymi syste- mami komputerowymi, a uzyskujemy globalną sieć informacji bibliote- cznej. Pozwala to znacznie szybciej budować bazy danych poszczegól- nym książnicom, bowiem mogą skorzystać z opisów wprowadzonych przez kolegów z innej placówki, a sami skupić się na dodatkowej dzia- łalności na rzecz środowiska i użytkowników. Obecnie od bibliotek oczekuje się, że będą nie tylko centrami informacji, ale także kultury i edukacji. Jednolita struktura formatu pozwoliła także odejść od tworzenia oddzielnych baz bibliograficznych dla różnych typów dokumen- tów, ponieważ uwzględniała specyfikę tych dokumentów, dodając odpowiednie pola dla każdego typu. Jako pierwszy powstał format dla wydawnictw zwartych, na bazie którego powstawały także formaty dla innych typów zbiorów bibliotecznych.

Wprowadzony format różni się znacznie od tego, do czego przyzwyczajeni byli bibliotekarze większości polskich placówek. Jako pierwsze przyjęły nowinkę książnice uniwersyteckie, które najwcześniej tworzyły sieć połączonych komputerowych baz bibliograficznych. Do dziś istnie- ją w Polsce placówki, które wdrożenia formatu MARC lub MARC 21 nie przewidują. Przywykliśmy dotąd myśleć kategoriami wprowadzonymi

(34)

przez normy bibliograficzne, czyli strefami opisu. W formacie MARC zo- stały one przełożone na pola i podpola, tym samym są uwzględniane przez format, jednak nie mają w nim odpowiednika. Dlaczego? Ze względu na fakt, że w formacie istotne jest właściwe umiejscowienie pól i podpól z uwzględnieniem reguł ich wypełniania. Bardzo ważna jest tu zasada powtarzalności niektórych pól.

W formacie MARC 21 zostało zdefiniowanych pięć typów danych:

opis bibliograficzny, zasób i lokalizacja, hasła wzorcowe, symbol klasyfikacji oraz dane faktograficzne. Skoncentruję się na opisie bibliografi- cznym wydawnictw zwartych, bowiem każdy typ zbiorów bibliotecznych MARC 21 ma nieco odmienne zasady stosowania pól i podpól.

Pola mają etykiety oznaczone trzycyfrowymi nazwami i dzielimy je na pola stałej i zmiennej długości. W tych pierwszych kodujemy określoną liczbę informacji, zawsze w ten sam sposób, przy czym naj- częściej są to dane dla systemu, dzięki którym prawidłowo przetwa- rzany jest rekord. Niejednokrotnie wprowadza je automatycznie system, po wcześniejszym ustawieniu kreatorów przez administratora, a użytkownik zyskuje możliwość nielicznych modyfikacji poprzez wy- bór właściwych oznakowań. Dodatkowe informacje zapewnia zaopa- trzenie niektórych pól w jednocyfrowe wskaźniki: pierwszy i drugi.

Mogą one wystąpić razem, może pojawić się tylko jeden lub pole może być ich pozbawione. Z kolei pola dzielą się na podpola, które określa litera, rzadziej cyfra, a oddziela separator w postaci określonego zna- ku (np. ^ % $ | itp.). Poniżej graficzna prezentacja elementów rekordu w formacie MARC:

Pola łączą się w grupy pionowo i w poziomie. Każda grupa koduje określone rodzaje informacji, co pokazuje tabela powyżej.

Rys. 1. Graficzna prezentacja elementów rekordu w formacie MARC

(35)

Przykładowo, jeżeli weźmiemy z grupy pól pionowych pole 1XX (hasło osobowe lub ciało zbiorowe), a z grupy poziomych X00 (nazwy osobowe), to uzyskamy hasło osobowe opisu bibliograficznego 100.

Odrzucamy X i XX, uzyskując właściwą etykietę pola rekordu bibliograficznego, kodującą nazwisko i imię autora. Analogicznie postępuje- my w przypadku tworzenia etykiet innych pól.

Rys. 2. Grupy pól rekordu MARC 21

Rekord bibliograficzny nigdy nie korzysta z wszystkich pól ofe- rowanych przez format MARC 21. Dla każdej pozycji wybiera się jedynie te pola, które odzwierciedlają konkretny dokument pod wzglę- dem danych formalnych i rzeczowych, z uwzględnieniem odpowie-

Rys. 2. Grupy pól rekordu MARC 21