Opis dokumentów elektronicznych
Teoretyczny model i możliwości jego aplikacji
Description of Digital Documents
Theoretical Model and Possibilities ol Its Application
Jagiellonian University Scholarly Fascicle MCCLXXXI
Studies in Library and Information Science Vol. 12 2006
Marek Nahotko
Description of Digital Documents
Theoretical Model and Possibilities ol Its Application
JAGIELLONIAN UNIVERSITY PRESS
Zeszyły Naukowe Uniwersytetu Jagiellońskiego MCCLXXXI
Prace z BibliotekoznawstwaiInformacji Naukowej Zeszyt IZ2006
Marek Nahotko
Opis dokumentów elektronicznych
Teoretyczny model i możliwości jego aplikacji
WYDAWNICTWO UNIWERSYTETU JAGIELLOŃSKIEGO
PublikacjadofinansowanaprzezUniwersytetJagielloński ze środkówcentralnej rezerwyna badaniawłasneorazInstytutuInformacjiNaukowej iBibliotekoznawstwa
REDAKTOR SERII
Dr hab. MariaKocójową, prof. UJ
RECENZENT
Drhab. Ewa Głowacka, prof. UMK
PROJEKTOKŁADKI Andrzej Harasz
Tekst na ostatniej stronieokładkinawiązuje dofragmentu publikacji PatrickaLe Boeufa [Le Boeuf 2005, s.2-3].
REDAKCJA
KatarzynaKolowca-Chmura
KOREKTA Elżbieta Wojtowicz SKŁAD I ŁAMANIE Regina Wojtyłko
© Copyrightby Marek Nahotko& Wydawnictwo UniwersytetuJagiellońskiego WydanieI,Kraków2006
All rightsreserved
Książka, ani żaden jej fragment,nie może byćprzedrukowywana bez pisemnej zgody Wydawcy.
Wsprawie zezwoleń na przedruk należy zwracać się do Wydawnictwa Uniwersytetu Jagiellońskiego
ISBN 83-233-2101-9 ISSN 1230-7025 www. wuj. pl
Wydawnictwo Uniwersytetu Jagiellońskiego Redakcja: ul. Michałowskiego9/2, 31-126 Kraków tel. 012-631-18-81,tel. /fax012-631-18-83 Dystrybucja: ul. Wrocławska 53, 30-011 Kraków tel. 012-631-01 -97,tel. /fax012-631-01-98
tel.kom. 0506-006-674,e-mail: wydaw@if. uj. edu. pl
Konto: BPHPBK SA IV/OKraków, nr62 1060 0076 000032000047 8769
SPIS TREŚCI
Wstęp... 9
Rozdział 1.Semantyczny Web... 19
1.1. PrzedSemantycznymWebem:metadane... 20
1.1.1. Metadaneopartena atrybutach... 20
1.1.2. Metadaneopartena obiektach... 23
1.1.3. Metadane w Webie... 29
1.2. SemantycznyWeb... 30
Rozdział 2. Teoretyczne podstawyontologii... 37
2. 1. Definicje ontologii... 38
2. 1.1. DefinicjaontologiiGrubera... 38
2.1.2. Definicjaontologii Guarino... 40
2. 1.3. Innedefinicje... 42
2.2. Podstawowe elementy ontologii... 44
2.3. Rodzajeontologii... 45
2.4. Inżynieriawiedzy(tworzenieontologii)... 47
Rozdział 3. Analizaontologiczna... 51
3. 1. Modelowanie... 52
3.2. Model ERimodelowanie obiektowe... 55
3.3. Ontologicznemodelowanie wiedzy... 58
3. 4. Metodologiaanalizyontologicznej... 62
Rozdział 4. Organizacja wiedzy wbibliotekach... 65
4. 1. Reprezentacja dokumentów... 66
4.1.1. Celebibliograficzne... 66
4.1.2. Podstawowezasadytworzeniaopisu bibliograficznego... 76
4.2. Metodydefiniowaniajednostek bibliograficznych... 78
4. 3. Relacje bibliograficzne... 80
4.3. 1. Rodzajerelacji bibliograficznych... 82
4. 3.2. Relacjebibliograficznewśrodowisku online... 89
Rozdział 5. Ontologiedokumentówbibliotecznych... 93
5.1. FRBR... 94
5. 1.1. Struktura FRBR... 95
5.1.2. FRANAR/FRAR... 102
5. 2. Rozszerzenieontologii FRBR w zakresie dokumentów elektronicznych... 104
5.2. 1. Ontologią INDECS... 105
5.2.2. OntologiąABC i model wydarzeń Lagoze’a... 108
6 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji
5.2.3. OntologiąJean HironsiCrystal Graham: dokumentyzintegrowane... 113
5.2.4. Ontologiąpriorytetu Realizacji ShoichiTaniguchiego... 116
Rozdział 6. Modelowaniesieciowychdokumentów elektronicznych... 119
6.1. Katalogielektroniczne... 119
6.2. Dokumentyelektroniczne adokumenty tradycyjne... 124
6.2.1. Architektura dokumentów w Webie... 128
6.2.2. Hipertekst... 129
6.3. Ontologią sieciowychdokumentów elektronicznych... 131
6.3.1. RolaRealizacjiDzieła... 133
6.3.2. Jednostkimodelu trójpoziomowego... 137
6.3.3. Relacje bibliograficzne... 141
6.3.4. Wydarzeniai zintegrowane dokumentyelektroniczne... 143
6.3.5. Atrybuty jednostek... 149
6.3.6.Problemy aplikacyjne ontologii... 155
Zakończenie... 165
Wybórwykorzystanej literatury... 169
Indeks... 181
Wykazskrótów... 187
Wykazrysunków i tabel... 189
Summary... 191
CONTENTS
Introduction... 9
Chapter1. SemanticWeb... 19
1.1.Before Semantic Web: metadata... 20
1.1.1. Attributesbased metadata... 20
1.1.2. Objectsbased metadata... 23
1.1.3. MetadatafortheWeb... 29
1.2.SemanticWeb... 30
Chapter2.Theoreticbasisfor ontology... 37
2.1.Ontologydefinitions... 38
2.1.1. Gruber’sontologydefinition... 38
2.1.2. Guarino’s ontology definition... 40
2.1.3. Other definitions... 42
2.2.Basicontology elements... 44
2.3. Ontology types... 45
2.4.Knowledgeengineering(ontology development)... 47
Chapter 3. Ontologieanalysis... 51
3.1. Modelling... 52
3.2. ERmodelandobject modelling... 55
3.3. Ontologie knowledgemodelling... 58
3.4. Ontologieanalysis methodology... 62
Chapter 4. Knowledgeorganization in libraries... 65
4.1. Documentsrepresentation... 66
4.1.1.Bibliographicobjectives... 66
4.1.2.Basic rules for bibliographic descriptionsdevelopment... 76
4.2. Methodsfordefining bibliographic entities... 78
4.3. Bibliographicrelations... 80
4.3.1.Types ofbibliographic relations... 82
4.3.2.Bibliographic relations intheonlineenvironment... 89
Chapter 5. Librarydocuments ontologies... 93
5.1. FRBR... 94
5.1.1. FRBRstructure... 95
5.1.2. FRANAR/FRAR... 102
5.2. FRBRontologydevelopment forelectronic documents... 104
5.2.1. INDECS ontology... 105
5.2.2. ABContologyandLagozeevents model... 108
8 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji
5.2.3. JeanHironsandCrystal Grahamontology:integrated documents... 113
5.2.4. ShoichiTaniguchiontology: priority oftheExpression... 116
Chapter 6. Modelling of networked electronic documents... 119
6.1. Electroniccatalogues... 119
6.2. Electronicdocuments and traditional documents... 124
6.2.1.Webdocumentsarchitecture... 128
6.2.2.Hypertext... 129
6.3. Networkedelectronic documents ontology... 131
6.3.1. Expression of Work role... 133
6.3.2. Three-levelmodelentities... 137
6.3.3. Bibliographic relations... 141
6.3.4.Events and integratedelectronicdocuments... 143
6.3.5.Entities attributes... 149
6.3.6.Applicationproblemsof theontology... 155
Conclusions... 165
Bibliography... 169
Index... 181
Listof abbreviations... 185
Listof illustrationsand tables... 187
Summary... 189
WSTĘP
Przedmiotemniniejszej pracy są modele stosowane w systemach organizacji wiedzy1 (SOW) o obiektach bibliograficznych, stanowiącychelementuniwersum bibliograficz
nego, opisujące procesy biblioteczne wspomagające tworzenie wiedzy. Od stuleci wspomaganie tworzenia wiedzy wpisane jest w zawód bibliotekarza. Zadanie to reali zowane jest także obecnie, w wieku mnożenia światów wirtualnych i zmienności świata rzeczywistego.Niezmiennie bibliotekarz jest krytycznym pośrednikiem w prze pływieinformacjipomiędzytwórcami a użytkownikami dokumentów.
1 Organizacjawiedzy jestto układ (np. porządek)elementów wiedzyprzyjęty w danej jej reprezenta
cji. W SIW układ ten zdeterminowanyjest przez metody inarzędzia zapisuzbioru informacyjnego oraz relacji między jego elementami,a takżeprzeprowadzanych na tych elementach operacji [wg: Bojar (red.) 2002, s. 187]. Sposobyzdobywania, kodyfikowania, systematyzowania i dystrybucji wiedzy w organizacji nazywasię zarządzaniem wiedzą (KM) [Głowacka 2002, s. 46]. B. Sosińska-Kalata za twórcę tego terminu uważa Henry’ego Blissa, który użyłgo w 1933 r. w publikacji Organization of Knowledge in Libraries and the Subject Approach to Books [Sosińska-Kalata 2005, s. 141]. System organizacji wiedzy (SOW) oznacza różnego rodzaju schematy porządkowania informacji, ułatwiające zarządzanie wiedzą w różnychśrodowi skachidla różnych celów [Sosińska-Kalata 2005, s. 142].
2Konceptualizacja rzeczywistościjest tosystem pojęćstanowiący podstawę kategoryzacji informacji o rzeczywistości (świecie rzeczywistym), umożliwiający włączanie nowych informacji [Bojar(red.) 2002, s. 142]. Jest sposobem,wjaki myśli się okonceptualizowanej części otaczającegoświata. Kiedy wyobra
żamysobie świat lub jego część, w umyśle mamy mentalny model tej części świata. Konkretny sposób myśleniaodanejdziedzinie jest konceptualizacją. Jej precyzyjnyi szczegółowy opisnazywany jest specy
fikacją.Stanowi etappozwalającyna późniejsząreprezentację wiedzy.
Według MariiPróchnickiej przepływ wiedzy łączysię z koniecznością wykreowa nia sposobów dokonywania abstrakcji myślowej zadań wyszukiwawczych oraz form, w jakich te abstrakcje będą reprezentowane. System informacyjno-wyszukiwawczy (SIW) może byćrozpatrywany w trzech wzajemnie sobie odpowiadających perspekty
wach:
• intencjonalnej - określającej cel, dlaktórego został zaprojektowany, oraz cele jego użytkowników; w obrębie tej perspektywy koncentrujemy się na wzajemnym od
działywaniu i przepływie informacji międzysystememajego otoczeniem;
• konceptualnej (logicznej) - związanej ze strukturą systemu, organizacją danych, sposobamireprezentowania wiedzy oraz dystrybuowaniainformacjiprzezsystem;
• fizycznej - dotyczącej sfery materialno-sprzętowej systemu [Próchnicka 2004, s. 13].
Zagadnienia analizowane w niniejszej pracy związane są z konceptualizacją rze czywistości2 (zob. rys. 1) i dotycząsposobów organizacjiwiedzy stosowanych w dzia
10 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji
łalności informacyjnej oraz narzędzi służących tworzeniu surogatów dokumentów w SIW,a więc reprezentacji wiedzy w tych systemach. W przedstawionejpracy bardzo istotną rolę odgrywa modelowanie procesów i zjawisk wiążących się z organizacją i reprezentacją wiedzy w systemach informacyjno-wyszukiwawczych.
Perspektywa konceptualna - struktura systemu - organizacja systemu
- sposoby reprezentacji wiedzy
Rys. 1. Podmioty wyszukiwania informacjiirelacjemiędzy nimi [za: Próchnicka 2004,s. 14]
Zdolność myślenia abstrakcyjnego orazplanowania i modelowania to najistotniej sze cechy ludzkiego umysłu. Od zarania dziejów homo sapiens wykorzystywał je do koordynowania działań podczas polowań, odnajdywania drogi czy tworzenia nowych narzędzi. Dziś modelowanie, także to realizowane zapomocą wielu różnych sformali
zowanych metodologii, obecne jest niemal we wszystkich działaniach człowieka. Mo
dele konceptualnemogą przybierać różne formy, np. tekstowąlub wizualizacji graficz
nej, mogą być tworzone na wysokim poziomie abstrakcji lub bardziej szczegółowo, bywają płaskie lub ustrukturyzowanehierarchicznie.
Organizacja wiedzy (ang. knowledgeorganization), przez niektórych autorów na zywana organizacją informacji, do tej pory - przynajmniej w postaci, w jakiej jest realizowana w bibliotekarstwie i informacji naukowej - byłamocno związana z two rzeniem narzędzi do przechowywania i wyszukiwania jednostek bibliograficznych.
Powstawały katalogi, indeksy czybazy danych, pozwalające na szybkie przeszukiwa
nie wielkich kolekcji rekordów, zawierających surogaty reprezentujące dokumenty, wraz zutrwalonąw nich wiedzą. Jakpiszę BarbaraSosińska-Kalata, wiedzaodwzoro
wana w dokumentacyjnych SIW odnosi się do dokumentów, traktowanych jako opisy wyodrębnionych wycinków rzeczywistości zewnętrznej. Przez modele organizacji wiedzy w dokumentacyjnych SIW rozumie się natomiastsposób, w jakistruktura wie
dzy, której fragmenty zawiera treść dokumentów, odwzorowana jest za pomocą metod i narzędzi reprezentacji informacji wykorzystywanych w tego rodzaju systemach [So sińska-Kalata 1999, s. 11]. Układ stosowany wewnątrz tych narzędzi może przyjmo wać różne formy, w zależności od ich struktury, przewidywanego sposobu wykorzy
stania, a takżeod reprezentowanejdziedziny wiedzy(domeny).
Jednym z podstawowych problemówbadawczychdotyczących SIWjestsposóbdo
stępu do wiedzy, w jednoczesnym odniesieniu do informacji i danych. Istnieje kilka
H^stęp 11
kluczowych cech różniących wiedzę od informacji. Należądo nich: obecność kontek
stu, powiązań, wyjaśnień; nadanie informacjiformydostosowanej do struktur poznaw czych użytkowników oraz ułatwiającej przyswojenie „wiedzy ukrytej” [Głowacka 2004, s. 20].
Coraz trudniej odnaleźć relewantne źródła wśród milionów rekordów umieszczo
nych w wielkich katalogach (szczególnie centralnych) i bazach danych, określić ich naturę, lokalizację i wartość w porównaniu z innymi, i w efekcie uzyskać dostęp do wiedzy, a nie do mało lub w ogóle nie relewantnej informacji. Większość działań związanychz organizacją wiedzy polega obecnie na organizacji informacji. Niewiele czyni się, aby „wiedza ukryta” stała się „wiedząjawną” [Fazlagić 2003, s. 8]. Wiedza kodowana jest w postaci danych bibliograficznych wbazach danych,jednak informa cja i daneniesąrestrukturyzowanei reprezentowane w formie wiedzy jawnej.
Wiedza jestefektem interpretacji informacji w określonym kontekście.Interpretacja tamoże być prowadzona zarówno przezpracownika informacji, jak i przez użytkowni ka. Polega ona na opisie i wyjaśnieniu określonego problemu na podstawie danych wzorcówlub ram określających znaczenie i relewancję informacji w stosunku do wy rażonychpotrzeb. Obecnie efektem pracy SIW jest wykaz dokumentówprawdopodob
nie relewantnych do zapytania. Wykaz ten jest następnie interpretowany przez użyt kownika w odniesieniudoposiadanego kontekstu. Część tego procesu może być prze prowadzona przez katalogującego przed wprowadzaniem danych, część przez system woparciu o przygotowany algorytm. Przekształcenie informacji w wiedzę następuje, gdyludzie:
• porównują i łącząinformacjęnowąz przyswojoną wcześniej,
• wyobrażająsobie konsekwencje swoich decyzji i działań,
• wymieniają i porównują idee i informacje [Fattahi 2002].
Wynikiem jest nowa, bardziej zrozumiała i wartościowa informacja. W systemach wyszukiwania informacji realizowanesą podobne procesy3.
3 Ewa Głowacka wyróżnia następujące działania podejmowanewcelu doskonalenia procesu informa
cyjnego: dodanieinformacjikontekstowej,podawanie informacjiotwórcy, oferowaniebaz ekspertowych, dodawanie materiałów multimedialnych oraz umożliwienie użytkownikom kontaktów ze specjalistami [Głowacka 2004, s.21].
Narzędzia reprezentacji informacji konstruowane były od stuleci na podstawie wie
dzy bibliograficznej, pragmatycznych celów stawianych samym dokumentom i przy jętych założeń dotyczących ich wykorzystania, a także ówczesnych możliwości tech
nologicznych. W drugiej połowie XIX w. powstałypierwsze zasady tworzenia katalo
gów. Stanowią one podstawę funkcjonowania bibliograficznych narzędzi wyszuki wawczych także w czasach współczesnych. Dziewiętnastowieczne bibliotekarstwo rozwinęło się międzyinnymi w wyniku zastosowanianaukowych metod modernizacji istniejącej bibliografii wzorganizowanej i ekonomicznie uzasadnionej formie. Biblio grafia, podobnie jak astronomia, została zrewolucjonizowana przez nowe technologie fotograficznei elektroniczne. Początkowo wielką szansąnamodernizacjęi rozwój były dla bibliotek techniki fotograficzne, a w szczególności graficzna reprodukcja opisów bibliograficznych w mikroskali. Miniaturyzacja była w połowie XX w. uważana za rozwiązanieproblemu rozrostu katalogów bibliotecznych, wynikającegoz gwałtowne go powiększania się zbiorów.
Jednak dopiero postępująca komputeryzacja zmieniła środowisko biblioteczne i otworzyła nowe możliwości w zakresie wyszukiwania informacji. Dodatkowo włą
12 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji
czono w nie funkcje związanez udostępnianiem zbiorów. Ostatnie dekady XX w. to okres eksplozji informacji. Wbibliotekarstwie tradycyjne katalogowanie dokumentów, którego efektem były katalogi kartkowe, sprawiało, że na całym świecie w dużych bibliotekach powstawały znaczne zaległości w opracowaniu zbiorów. Pojawianiu się nowych formdokumentównietowarzyszyło tworzenie nowych zasad funkcjonowania systemów, mogących spełniać rosnące wymagania użytkowników bibliotek. W takich warunkach automatyzacjasystemówmanualnych wydawała się panaceum naproblemy bibliotekarzy, jednak jej realizacja spowodowała również wiele nieprzewidzianych zmian. W drugiej połowie XXw. w związku z automatyzacjąi komputeryzacją prac bibliograficznych zasady katalogowania zostały znacznie rozbudowane w celu umożliwienia zarządzania konstruowaniem zarówno surogatów dokumentów (tzn.
rekordów bibliograficznych), jak i samych narzędzi służących wyszukiwaniu.
Wostatnich dekadach ubiegłego wieku pojawiły się głosy żądające zastosowania empirycznychmetod badawczych do opisania zjawisk dotyczących organizacji wie dzy i postulujące dalszy rozwój narzędzi wyszukiwawczych. Takie badaniapodjęto, a ich efektem była automatyzacja wyszukiwania informacji bibliograficznej. Na po czątku XXI w. naukowcy zajmujący się organizacją wiedzy, oprócz metod empi
rycznych, zaczęli stosować jakościowe metody badawcze. W ograniczonymzakresie zastosowano także badania historyczne w celu zrozumienia kontekstu społecznego zjawisk dotyczących zarządzania wiedzą. Zainteresowano się także narzędziami ontologicznymi i epistemologicznymi, do opisu podstawowych struktur wiedzy [Smiraglia 2002]. Epistemologia jest działem filozofii, zajmującym się naturą i po
chodzeniem wiedzy. Roberto Poli przeciwstawia sobie narzędzia ontologii i episte
mologii w zakresie organizacji wiedzy, stwierdzając, że o ileOntologią reprezentuje
„obiektywną” stronę rzeczywistości, o tyle epistemologia reprezentuje jej stronę
„subiektywną”. Ontologią (z gr. istnienie, byt) pozwala na stworzenie obiektywnych ram,w którychmożna organizować wiedzę, natomiast epistemologia (z gr. wiedzieć) pozwala na percepcję wiedzy [Poli 1996]. Epistemologia dotyczy więcteorii natury wiedzy. O ileOntologią służy jako rama dlaorganizacji wiedzy,o tyle epistemologia dostarcza podstawowej informacji o obiektach w organizacji informacji [Smiraglia 2001a).
Na przykładzie zastosowań biznesowychprzedstawićmożnakolejne etapyrozwoju organizacji wiedzynaprzełomieXXi XXIw.:
• Etap pierwszy był okresem odkrywania nowych możliwości technologii informa cyjnych; technologie te (Internet, intranety itp.) wykorzystywano do wymiany ol
brzymiej ilości wiedzy nagromadzonej wewnątrz konsorcjów; powstawały nowe usługi, określanemianem organizacji wiedzy.
• Etap drugi, przypadający na lata dziewięćdziesiąte XX w., charakteryzował się zauważeniem znaczenia „czynnika ludzkiego” i wpływu wartości kulturowych na organizacjęwiedzy; system wiedzymusi być nie tylkodobry technicznie, ale także przydatny użytkownikom.
• Etap trzeci (początek XXI w.) cechowałozwrócenie uwagi na rolę treści informacji imożliwości ich wyszukiwania, a więc na układ,opisistrukturę tych treści; w tym czasie zainteresowano się takimi narzędziami,jak taksonomie i Ontologie.
• Etap czwarty, trwający obecnie, to zwrócenie się ku informacjom zewnętrznym, a nie tylko tworzonym wewnątrz organizacji, a więc ku usługom informacyjnym, będącym tradycyjnie domeną bibliotekarstwa [Koenig 2005].
Wstęp 13 Głównym źródłem zaufania do bibliografii od czasów starożytnych byłastosowana w niej identyfikacja autorstwa, czyli użycie pewnego rodzaju metadanych reprezentu jących dzieła piśmiennicze. Wiązała się z tym autorytatywna kontrola danych, ozna czająca możliwość korzystania z akceptowanego źródła informacji ijego opisu biblio
graficznego. Obecnie pojęcie to nabiera także nowego znaczenia. Patrick Wilsonjest autorem teorii dotyczącej autorytamości kognitywnej, czyli procesu, w którym nasz osobistyświat wiedzy wzajemnie oddziałuje z publicznie dostępnymiźródłami infor
macji [Mason 1995]. Teoria ta może być określona jako epistemologia społeczna, bę
dąca opisem procesów kognitywnych przebiegających pomiędzy dwoma umysłami.
Model ten różni się od idealizacji przetwarzania informacji, pojmowanego jako inte rakcja pojedynczego umysłu z jego otoczeniem. Ocena informacjijestokreślana jako wartość dodanado informacjiw procesie tworzeniawiedzy, szczególnie przy założeniu funkcjonowania continuum od danych przez informację i wiedzę domądrości.
Patrick Wilson próbował zmienić mniemania dotyczące katalogów bibliotecznych, twierdząc, że nie powiedziano jeszcze ostatniego słowa wzakresie kontroli bibliogra ficznej. Krytykowałwspółczesnymu sposób stosowania katalogów, twierdząc, że nie spełniają onecelów, dla których zostały przygotowane. Uważał, żekatalogi nie dostar
czają informacji o wszystkich publikacjach wybranego autora, a indeksowanie przed miotowe nie wykorzystuje swoich potencjalnych możliwości.
Patrick Wilson jest także autoremkoncepcji obszarów opisowych (ang. descriptive domain) i obszarów eksploracji (ang. exploitative domain). W tej teorii podstawową rolę odgrywają narzędzia bibliograficzne(katalogi, klasyfikacje). Obszar opisowy jest to zakres, w którymodbywa się opisowa działalność bibliograficzna. W obszarze opi
sowym katalogerzy, bibliografowie i indeksatorzy usiłują tworzyć wykazy o różnej głębokości i szczegółowości; są wnich zapisywane dane o istnieniu dzieł dostępnych dla wyszukujących. W obszarze eksploracji naukowcy poszukują odpowiedzi na pyta nia badawcze, starając się zrobićjak najlepszy użytek z zarejestrowanej wiedzy. Pró
bują więc odkryć to, co jest już znane, a w efekcie tego procesu tworzona jest nowa wiedza [Smiraglia 2002].
Według Elaine Svenonius przechodzenie od katalogów kartkowych do ich wersji online, choćtrwa już ponad trzydzieści lat, wciąż jest na etapie początkowym [Sveno
nius 2001a, s. 63]. Katalogi elektroniczne tworzone były jako zautomatyzowane odpo
wiedniki swoich kartkowych poprzedników, czyli z założeniem, że powinny służyć wyłącznie dolokalizowania pozycji znanych użytkownikowi lub tworzenia odpowiedzi na precyzyjnie sformułowane zapytania rzeczowe. Barbara Tillett stwierdziła nato miast, że wciąż pozostajemyw ciemnych wiekach, oczekując powstania konwencjo
nalnych urządzeń, takich jak strony tytułowe, które mogłyby być powszechniestoso
wane w opracowaniu dokumentów elektronicznych. Zamiast tego możemy zaobser
wować funkcjonowanie ‘samoopisujących się jednostek’, materializacji z hasłami zawierającymi standardową informacjęopisową (metadane) stanowiącą część elektro nicznegotekstu[Tillett 1996].
Zmiany związane z komputeryzacją następują tak szybko, że trudno pokusić się odokładne przewidywanie nawet bliskiej przyszłości. Nie oznacza to jednak, że wy starczy usiąść zboku i poczekać, ażopadnie „cyfrowy kurz”. Niezbędnejestuzyskanie właściwego poglądu na obecnie funkcjonujący świat publikacji,jak najdokładniejsze przedstawienie sobie tego, co może zdarzyć się w przyszłości, i jaknajlepsze planowa nie zastosowania produktów nowej technologii do obecnie istniejących zasobów in-
14 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji
formacji. W przygotowaniach do funkcjonowania w tym nowym świecie mogą być pomocne współcześnie tworzonemetodymodelowania, w tym ontologicznego.
Niezbędnestająsięnarzędzia, pozwalające na współdziałanie słowników kontrolo
wanych oraz uproszczenie teorii i praktyki indeksowania dokumentów. Obecnie ist niejące narzędzia, takie jak LCSH czy MARC, są zbyt skomplikowane; do ich stoso
wania trzeba zatrudniać wysoko wykwalifikowany personel. Tworzone są więc nowe, łatwiejsze do zarządzania i stosowania, również takie, które mogą być samodzielnie wykorzystywane przez maszyny. Do nich należą Ontologie. Specjaliści z zakresu in
formatyki i informacji naukowej nadali noweznaczenie terminowi „Ontologią” w kon
tekście projektowania interfejsu człowiek-komputer: jestto opis pojęć i relacji między nimi, przeznaczony dla agenta4 lub wielu agentów, wyrażony w języku formalnym jako zestaw obiektów, nazw jednostek, standardowe słowniki itp.5 Ontologie w takim znaczeniu pozostają poza tradycyjną filozofią i odnoszą się do wymiany wiedzy mię dzy agentami (ludźmi, maszynami, sztucznymi inteligencjami).
4 Agent jest autonomiczną jednostką, posiadającą wyrażenieontologiczne, czylistwierdzenie,w któ rym zakładasię istnienierzeczy przez zbadanie istnienia innej rzeczy.Termin utworzony w filozofii. Każdy agent wykazuje zdolnośćdoautonomicznego działania dlaosiągnięcia założonych celów. W informatyce agentjest oprogramowaniem,działającym w określonym środowisku, zdolnym do komunikowania się, monitorowaniaswojegootoczenia ipodejmowania autonomicznych decyzji.
5 Definicja tego typu jest często stosowana w dokumentach normalizacyjnych [np. ISO 21127]. Defini cje ontologiiprzedstawione zostały szczegółowo w rozdz. 2.
6 Wedługprzyjętejkonwencji nazwy jednostek wyróżnianych w modelach konceptualnych zaczynają się dużą literą i pisane sąkursywą, np.Dzieło, Realizacja, Materializacja, Egzemplarz(jednostki wyróżnio ne w modeluFRBR). Atrybuty jednostek pisane są dużą literąiobjęte cudzysłowem, np. ‘Autor’, ‘Tytuł’.
Innym zadaniem jest zbadanie natury katalogu, przy założeniu możliwości jego in tegracji z innymi narzędziami wyszukiwawczymi, szczególniestosowanymi do odnaj dywania informacji w sieciach rozległych. Obecnie katalogi biblioteczne są narzę dziami, pozwalającymi na kontrolowany opis i dostęp do zasobów dokumentów fi zycznych i wirtualnych. W celu ich wykorzystania jako bramek internetowych czy portali należy prowadzić badania użytkowników, pozwalające na określenie sposobu i zakresu łączeniaróżnych narzędzi wyszukiwawczych (abstraktowych i indeksowych baz danych oraz katalogów bibliotecznych). Niezbędne jest także umożliwienie wy szukiwania w katalogu, który pozwoli na dotarcie do informacji dostępnej poprzez różne narzędzia wyszukiwawcze.
W niniejszej książce przedstawionazostała teza o możliwości rozwiązania zaryso
wanych problemów przez połączenie dwóch różnychpodejść: modeli konceptualnych wypracowanych w bibliotekoznawstwie i informacji naukowej (w szczególności FRBR, ale nie tylko) oraz narzędzi i technologii specyficznych dla Semantycznego Webu (ang. Semantic Web), w szczególności ontologii [Gradmann2003]. Przydatność takiego podejścia znajduje potwierdzenie w wielu obserwacjach.
Po pierwsze, informacja bibliograficzna tworzonaw bibliotekach w dużymstopniu pozostaje ukryta w tzw. „niewidocznym Internecie”. Łączenieróżnych poziomów in
formacji w rekordach bibliograficznych powoduje, że niebibliotekarze (czyli tzw.
użytkownicy końcowi) osiągają znacznie lepszą efektywność wyszukiwania, poprze
stając na stosowaniu standardowych technik wyszukiwania w zasobach sieci rozle głych, bez przeszukiwania tysięcy identycznych rekordów bibliograficznych wykazu
jącychjedynie różne Egzemplarze lub Materializacje tychsamychDziel6, „zanieczysz
czających” wyniki wyszukiwań wielościąinformacji redundantnych.
Wstęp 15 Po drugie,większość aspektów tworzonych przez bibliotekarzy modeli konceptual
nychoraz ich implementacje techniczne w większości systemów bibliotecznych mają niewiele wspólnego zhipertekstowąnaturąwyrażania relacjiw Webie; wszczególno
ścidotyczyto dokumentów złożonych,takich jak publikacje wielotomowei ciągłe, dla których stosowane sąpowiązania między rekordami. Jest to głównie problem wdroże
niowy, a nie konceptualny, gdyż struktury informacyjne z dużą ilością odnośników (ang. link) są typowe dla Intemetu. Jednaksposób,wjaki większość systemów biblio tecznych stosuje wewnętrzne struktury odnośników, jest trudny do przetłumaczeniana strukturyodnośników w WWW. Stwierdzenie to odnosi się do większości zautomaty zowanych systemów bibliotecznych i ich architektury danych, co bardzo ogranicza biblioteki, stwarzając strukturalny brakelastyczności technicznej.
Po trzecie, poważne problemy związane zmigracjądużej ilości danych do szersze
go środowiska technicznego powstrzymująwiększość bibliotekarzy przedposzukiwa
niem technicznych i funkcjonalnychalternatywdla aktualnych rozwiązań. Prowadzi to do sytuacji, gdy bibliotekarze zajmująsię głównie mało istotnymi szczegółamirozwią zań,zamiast badać możliwości zmian strukturalnych.
Powyższe obserwacjew pewnym stopniu mogą wyjaśnić przyczynę wciążpowol
nego wdrażania FRBR jakopodstawy nowych architektur informacji, chociaż zapewne istnieją także poważniejsze powody. Jednym z nich jestobawaprzed podejmowaniem wysiłków służących implementacji FRBR do istniejących zasobów danych i aplikacji katalogowych, bezjednoczesnego zastosowania standardowych technologii Intemetu.
Tylko takie połączenie daje możliwość utworzenia nowego, przyszłościowego modelu konceptualnegodziałalnościinformacyjnej.
Technologie SemantycznegoWebu, a w szczególności Ontologie, pozwalają na no
we i efektywniejsze wykorzystanie tradycyjnych semantycznych metadanych biblio
tecznych o dużej szczegółowości. Integracja technik Semantycznego Webu z wypra
cowanymi modelami katalogów bibliotecznych,nie tylkow celu realizacji wyszukiwa nia, ale także, na przykład, do generowania zasad wnioskowania logicznego, może znacznie wspomócpracę biblioteczną. Informacja,niezbędna do wyszukiwania i pro wadzenia wnioskowania dedukcyjnego, znajduje się w katalogach bibliotecznych, często stanowiąc element „niewidocznego Intemetu”. Narzędzia, takiejak Ontologie i agenci semantyczni, posłużą do budowy przyszłych systemów, które dzięki Seman tycznemu Webowi automatycznie będą docieraćdo niedostępnejobecnie informacji.
Z drugiej strony model FRBR i wynikająca z niego wielopoziomowa architektura metadanychjest szczególnie istotnym elementem umożliwiającym połączenie archi tektur metadanych typowych dla katalogów bibliotecznych oraz „płaskich” modeli metadanych typowych dla architektury informacji w Webie. Konsekwentna ewolucja katalogów bibliotecznych w stronę zastosowania podejścia opartego na FRBR pozwoli na znaczne obniżenie uciążliwościzjawisk przedstawionych powyżej,którepowodują, że biblioteczne zasoby metadanych wciąż są zamknięte w „niewidocznym Webie”.
Celem tej pracy jest stworzenie spójnej,uogólnionej koncepcji wykorzystania podsta wowychjednostek (ang. entity) semantycznych, Realizacji i Materializacji!Egzempla
rza do budowy modelu (ontologii), pozwalającego na wieloaspektowe opracowanie dokumentów elektronicznych. Stworzenie takiego modelu pozwoli na ukazanie wza jemnych relacji pomiędzy wyróżnionymijednostkami. Celten ma być osiągnięty przez
łączenie różnych modeli, tworzonych w różnych środowiskach, ale komplementarnych ze względu na podobieństwo implementacji. W efekcie możliwe będzie poprawne
16 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji
zrozumienie struktur informacji, u podstaw których leży hybrydowe połączenie róż
nychmodeli. Prace prowadzące do łączeniaFRBRi innych modelitworzonychw śro dowiskach bibliotecznych oraz technologii Semantycznego Webu mogą spowodować zmianę paradygmatówwmodelowaniuinformacji.
Niniejsza praca odwołuje sięgłównie do publikacji zagranicznych, gdyżw polskim bibliotekoznawstwie i informacji naukowej zagadnienia dotyczące modelowania kon
ceptualnego nie sąjeszcze powszechnie znane. Niewątpliwie pomocne było podsta
wowe dzieło Barbary Sosińskiej-Kalaty, dotyczącemodeli organizacji wiedzy[Sosiń
ska-Kalata 1999] oraz praca Jadwigi Woźniak [Woźniak 2000]. Istniejątakże pojedyn cze publikacje przedstawiające FRBR jako modelopracowania zbiorów bibliotecznych [Golec-Nycz 2004;Nahotko2001a; Padziński 2004a; Padziński 2004b; Sanetra 2004].
Sytuacja ta różni sięznacznie odstanu prac w bibliotekarstwiezachodnim,gdzie coraz śmielej przechodzi się do implementacji modeli teoretycznych w realnie działających systemach informacyjno-wyszukiwawczych. Część tych prac przedstawiona została wtej książce.
Układ poszczególnych rozdziałów książki dostosowany został do właściwego przedstawieniawymienionych problemów.Wybrane zagadnienia opisane są od najbar
dziej ogólnych do szczegółowych. Omówiono kolejno: problemy opisu dokumentów internetowych, Semantyczny Web i jego Ontologie, metodologię tworzenia ontologii i modelowania konceptualnego, Ontologie biblioteczne, ontologię elektronicznych do
kumentów internetowych.
Książkaskłada się z sześciurozdziałów, wstępu i zakończenia. W trzechpoczątko wych rozdziałach przedstawiono problemy związanez Semantycznym Webem i jego narzędziami. Rozdział pierwszyprezentuje ideę Semantycznego Webu na tle dotych czas funkcjonującego WWW,z zaznaczeniem roli metadanych- narzędziao zasadni
czym znaczeniu (dla Semantycznego Webu) w porządkowaniu zasobów sieci rozle głych. Zastosowany tu podział metadanych na 2 grupy (opierające się na atrybutach i na obiektach) ma nacelu uporządkowanie wiedzy o ich funkcjach i roli. W rozdziale przedstawiono ponadto podstawowe standardy metadanych, a następnie opisano archi
tekturę i technologie umożliwiające realizacjęSemantycznegoWebu.
Rozdział drugi stanowi wprowadzenie w zagadnienia dotyczące ontologii jako na rzędzia służącego konceptualizacji wiedzy. Podjęto w nim próbę przedstawienia róż
nychznaczeńtego terminu stosowanych wfilozofii i w odniesieniu dosztucznej inteli gencji. Omówione zostały definicje ontologii, ich elementy składowe wykorzystywane podczas formalizacji wiedzy odomenie, rodzaje i sposoby tworzenia ontologii. Ma to naceluwyjaśnienieterminologii stosowanejwtej książce.
Rozdział trzeci przedstawia sposób prowadzenia analizy ontologicznej i związane z nią ontologicznemodelowaniewiedzy. Zawarto tu podstawowe informacje dotyczące modelowania typujednostka-relacja (ER) i modelowania obiektowego (OM). Zapre
zentowano także język modelowania UML, ponieważ w niniejszym opracowaniu wszędzietam, gdzieto możliwe i właściwe, do modelowaniauniwersum bibliograficz
negoposłużono się diagramami UML.
Drugą część pracy tworząrozdziałyczwarty i piąty, dotyczące organizacji wiedzy w bibliotekach. Rozdział czwarty służy przybliżeniu bibliotecznej organizacji wiedzy zgodnie z zaprezentowanąwcześniej metodologią analizy ontologicznej. Przedstawio now nimhistoryczny rozwój pojmowania celówkatalogowania i katalogów,wynika
jące z nich zasady katalogowania, a także podstawowe elementy nowoczesnego mo
Wstęp 17 delowania konceptualnego: jednostki i relacjebibliograficzne.Nie jest to pełnahistoria katalogowaniai katalogów, ale wyłącznie tejej elementy,których znajomośćpozwala na modelowanie konceptualne procesów organizacji informacji. W ostatniej części rozdziałupodjętoproblem wpływu nowychtechnologii na wzrost zapotrzebowania na wyrażanie relacji bibliograficznychi ich znaczenia w wyszukiwaniu informacji. Wiąże się to z możliwościami - i koniecznością - efektywniejszego zarządzania takimi rela cjami. Rezultatem doskonalenia procesu wyrażania relacji w opisach powinien być wzrostefektywności wyszukiwaniainformacji.
W rozdziale piątym przedstawione zostały wybrane biblioteczne Ontologie doku
mentów, znane z literatury i zastosowań w działalności informacyjnej. Szczegółowo przedstawiono i omówiono model FRBR. Opisane zostały także modele stanowiące modyfikację FRBR, które wykorzystano w dalszej części pracy, podczas tworzenia ontologii elektronicznych dokumentów sieciowych (rozdz. 6). Opisano Ontologie IN- DECSi ABC, modelJean Hirons iCrystal Graham oraz ontologiępriorytetu Realizacji Shoichi Taniguchiego.
Ostatni rozdział jest efektem badań własnych autora. Przedstawiony został model konceptualny (ontologia domeny), dotyczący opisu sieciowych dokumentów elektro nicznych, pozwalający na zachowanie współdziałania pomiędzy schematami metada nych i integrację informacjidostępnejwformie elektronicznejw siecirozległej.
Dla potrzeb rozważań na temat ontologicznej reprezentacji dokumentów elektro
nicznych konieczne było określenie charakterystycznych cech informacyjnych zaso bów sieciowych dostępnych zdalnie, często poprzez biblioteki lub archiwa cyfrowe, oraz różnic między nimi a tradycyjnymi zbiorami dokumentów zapisanych na nośni
kach fizycznych (wktórych skład mogą wchodzićteż zasoby elektroniczne, utrwalone na nośnikach magnetycznych lub optycznych, o dostępie lokalnym), gromadzonych przez określonąinstytucję, np. bibliotekę.
W rozdzialeprzedstawiono zintegrowaną ontologię,pozwalającą modelować zjawi
ska związane z dokumentami elektronicznymi dostępnymi poprzez sieć rozległą, wszczególności Internet. Zaproponowaną ontologięopisano przezwyróżnienie jedno
stek bibliograficznych, wiążących je relacji, atakże atrybutówjednostek.
Na końcu rozdziału szóstego opisano wpływ przedstawionego modelu w zakresie modelowania konceptualnego i ogólnych zasad opracowania zasobów Webu. Rozwa żania te zakończono przykładem, obrazującym możliwości implementacji opisanej ontologii.
Podczas przygotowywania niniejszej publikacji wiele problemów stwarzały zagad
nienia terminologiczne. Wspomniano już, że w literaturzepolskiej zagadnienia, którym poświęcona jest książka, dopiero zaczynają siępojawiać, więc odpowiedniaterminolo gianie jest jeszcze rozwinięta.Natomiastzagraniczni autorzybibliograficznych modeli konceptualnych stosują niejednokrotnie własne, niepowtarzalne nazewnictwo, kłopo
tliwe w tłumaczeniu na język polski. Dodatkowo jest ono powiązane z terminologią informatyczną, stanowiącą trudno przyswajalny slang. Przy tym angielskojęzyczna terminologia jest w tych dziedzinach wiedzy tak rozpowszechniona, żepolskie odpo wiedniki częstobrzmią sztucznie. W przypadku wątpliwości, co do adekwatności tłu
maczenia lub możliwości użycia różnychwersjinazw polskich, w nawiasie przytacza
no nazwę oryginalną. Przykładem może być termin ‘hermetyzacja’ (ang. encapsula- tion), który bywa tłumaczony także jako kapsułowanie lub enkapsulacja (w tym przypadku przyjęto tłumaczenie stosowane w słownikach z zakresu obiektowości) lub
18 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji
termin ‘jednostka’ (ang. entity) - tłumaczony w wielu informatycznych pracach doty czącychbaz danych i ontologii jako encja, natomiast w opracowaniach bibliotekarskich występujący sporadycznie.
Pragnę serdecznie podziękować Paniom Prof, dr hab. Marii Kocójowej i Prof, dr hab. Wandzie Pindlowej,które wspomagały powstawanietej pracy na każdym etapie, motywując autora do podejmowania kolejnych wysiłków podczas przygotowywania tekstu i prowadzenia własnych badań, a także Pani Prof, dr hab. Ewie Głowackiej, której trafne i wnikliwe uwagi bardzo przyczyniły siędonadania ostatecznego kształtu tej rozprawie.
1
SEMANTYCZNY WEB
Podczas wyszukiwania informacji w sieci użytkownicy polegają na stosunkowo pro stym jej indeksowaniu i/lub zmuszani są do większego wysiłku intelektualnego pod czas nawigacji7. Dlatego następnym krokiem twórców WWW było włączenie do glo
balnej siecisztucznej inteligencji,którama zwiększyć efektywność tych wysiłków.
7 Nawigacja to termin używanydo określenia metody poruszania się po rozproszonych zasobachhi
pertekstowego i hipermedialnego systemu dokumentów WWW. J. Woźniak przedstawia dwa znaczenia nawigacji: system stworzony w celu zapewnienia niesekwencyjnego (nieliniowego) przeglądania doku
mentów oraz przyjęta przez użytkownika strategia wyszukiwawcza[Wożniak 2004bj.
Tim Berners-Lee zaprezentował wizję Semantycznego Webu, nazywanego także programowalnym Webemlub Webem wiedzy, któraprzenosi Web ijego podstawowe zasady działania bazujące na hipertekściena wyższy poziom, gdzie pojawia się inteli gentna nawigacja i wyszukiwanie informacji w sieci, zautomatyzowane korzystanie zrozproszonych źródeł informacji oraz usług opartych na wiedzy [Berners-Lee 1998;
Berners-Lee, Hendler, Lassila 2001].
Główną zasadą Semantycznego Webu jest reprezentacja i zastosowanie wiedzy zgromadzonej w Web. Pozwoli to na rozwiązanie zasadniczego problemu dotychcza
sowej sieci: braku połączeniainformacji z wiedzą. Według WWW Consortium (W3C - http://www.w3.org/)podstawowedziałania w zakresie Semantycznego Webu powin
nypolegać na umieszczeniu danych zrozumiałych dla maszynywWWW. Web może osiągnąć pełny potencjał tylko wtedy, jeżeli stanie się miejscem służącym rozprze strzenianiu i przetwarzaniu danych przy pomocyzarówno zautomatyzowanych narzę dzi, jak i ludzi. Służyć do tego będzie odpowiednie oprogramowanie, pozwalającena wymianę i przetwarzanie danych. Semantyczny Web jest wizją: zakłada posiadanie wInternecie danych zdefiniowanych i połączonych w taki sposób, aby mogły być użyteprzezmaszyny nie tylko w celu ich wyświetlenia, ale także automatycznej inte gracji i wielokrotnego użycia (ang. reusé)w wielu różnych aplikacjach.
Konsekwencją realizacji tej wizji będzie zasadnicza zmiana Webu i sposobów do
stępu do niego. Wielu badaczy i przedstawicieli przemysłu traktuje tę propozycję po
ważnie, pomimo zgłaszania licznych wątpliwości, wynikających ze społecznych i tech
nicznych problemów, stawiających pod znakiem zapytania jej realność i praktyczne korzyści. Świadczą o tym kwoty wydawane na badania problemówi technologiisłużą
cych Semantycznemu Webowi [Fensel2000].
20 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji
1.1. Przed Semantycznym Webem: metadane
Metadane to ustrukturyzowanej czytelnemaszynowo dane zawierające charaktery
stykę cyfrowych obiektów informacyjnych8 służącą ich efektywnemu oraz trafnemu wyszukiwaniu, szczególniew wielkich zasobach informacji w Internecie, zarządzaniu nimi i ich wartościowaniu [Nahotko 2004, s. 15]. Najczęściej mamy do czynienia z informacją opisową o źródle informacji, służącą poprawie jej maszynowego rozu
mienia. Metadanesątechnologią o zasadniczym znaczeniu dla Semantycznego Webu, gdyżumożliwiają maszynowerozumienie treści zasobów sieci.
8 Obiektinformacyjny jest jednostką lub grupą jednostek,bez względuna ichrodzaj czy format,które posiadają adres(mogą byćodszukane) lubmogąbyć przetwarzaneprzez komputer jako pojedyncze obiek
ty. Pojęcie to możebyć więc stosowane zarówno doobiektów pierwotnych (np. obrazów cyfrowych), jak i pochodnych (np.cech: treści, kontekstui struktury).
9 OCLC - OnlineComputer Library Center (http://www.oclc.org).
Wprawdzie termin ‘metadane’ jest stosunkowo nowy, ale kryjąsię pod nim pojęcia od dawna znane specjalistom informacji naukowej,jak choćby dane zawarte w biblio tecznych katalogach kartkowych. Bibliotekarze używają metadanych do opracowania piśmiennictwa; tu najpopularniejsze są formaty z grupy MARC, służące tworzeniu elektronicznych opisów bibliograficznych dokumentów bibliotecznych.
Badania nad wykorzystaniem metadanych trwają od wielu lat, tworząc podstawy praczwiązanych z SemantycznymWebem. We wcześniejszych publikacjach dotyczą cych semantyki odnośników hipertekstowych [Berners-Lee 1997; Kazienko 1998;
Sosińska-Kalata 1999; Wereszczyńska-Cisło 1997] uważa się metadane za semantykę dodaną wprost do odnośników, chociaż w Internecie dotychczas nie wykorzystano w pełni tej możliwości. Jednakczęsto semantyka włączana była w sam system hiper
tekstu, bezudostępniania jej zewnętrznym procesom, co oznacza, że metadane nie były czytelne maszynowo.
Obecnie wykorzystuje się wieleróżnych schematów i standardówschematów me tadanych, co wskazuje na dużą aktywność badawczą w tej dziedzinie. Ich aplikacje charakteryzujeróżnorodność zastosowań.
1.1.1. Metadane oparte na atrybutach
Pierwsze standardy metadanych wykorzystywały metodę przydzielania wartości tekstowychatrybutom(lubcechom) dokumentów [Kampa 2002, s. 42-51]. Dokument może posiadaćna przykładatrybuty ‘Twórca’ lub ‘Data’ oraz ich wartości, odpowied nio ‘Marek Nahotko’ i ‘02.10.2006’. Taka forma danych jest łatwa do utworzenia przezautorówi do analizy podczas przetwarzania, np. w celu podstawowego indekso
wania realizowanegoprzezwyszukiwarki.
Dublin Core
W marcu 1995 r. zaproszeni specjaliści z różnych dziedzin bliskich informatyce iinformacji naukowej spotkali się w Dublinie, w Ohio,w siedzibieOCLC9, aby prze
dyskutować problemyzwiązane z opisem, udostępnianiem i przeszukiwaniem zasobów
Semantyczny Web 21 Webu. Spotkanie to zaowocowało przygotowaniem propozycji prostego zestawu ele
mentów (atrybutów), odpowiednich zarówno dla zaawansowanych, jak i początkują
cych użytkowników, do tworzenia opisów zasobów dostępnych online. Zestaw tych elementów znany jestpod nazwąDublin Core Metadata Element Set (DCMES). Jest on obecnie zarządzany przez Dublin Core Metadata Initiative (DCMI - http://dublin core.org/).
DCMES stanowi słownik wyrażeń odpowiednich do opisu podstawowych atrybu tów zasobów Intemetu, takich jak ‘Twórca’ czy ‘Data’. Specyfikacja zawiera raczej nazwy samych cech, niż syntaktykę mogącąsłużyć ich reprezentacji. Syntaktyka pozo stajepoza rozwiązaniami dotyczącymi bezpośrednio DCMES. Dla tworzenia metada
nych wykorzystywana jest, na przykład, syntaktyka Resource Description Framework (RDF). Jej zastosowanie przedstawia następujący przykład:
<rdf:RDF xmlns:rdf=http://www.w3.org/l999/02/22-rdf-syntax-ns#
xmlns:dc=http://purl.org/dc/elements/l. l/>
<rdf:Descriptionrdf:about="http://nahotko.zajecia.webpark.pl">
<dc:creator>Marek Nahotko</dc:creator>
<dc:title>Zajęcia prowadzone wInstytucieInformacji Naukowej</dc:title>
<dc:description>Stronazawiera materiały i wskazówki dla studentów bibliotekoznaw
stwana UJ</dc:description>
<dc :date>2006-10-07</dc : date>
</rdf:Description>
</rdf:RDF>
Przedstawiony w przykładzie fragment kodu definiuje metadane dotyczące strony Web zlokalizowanej na stronie http://nahotko.zajecia.webpark.pl/. Elementy Dublin Coresąidentyfikowane przez etykietę przestrzeni nazw dc: znajdującąsię przed nazwą atrybutu. W tym fragmencie wykorzystano cztery elementy Dublin Core: ‘Twórca’,
‘Tytuł’, ‘Opis’ i ‘Data’10.
10 Więcejprzykładów zastosowaniaRDF z DublinCoreznaleźć można np. w Bibliotece Cyfrowej Po litechniki Wrocławskiej (http://dlib.bg.pwr.wroc.pl/dlibra).
11 Współdziałanie jest zdolnością dwóch lub więcej systemów lub ichczęści do wymiany informacji oraz wykorzystania informacji pochodzących z wymianybez dodatkowychprac w każdym z systemów [Nahotko 2004, s. 14].
12 Dotyczą onenp.rozbudowy kwalifikatorów dlaelementów podstawowych, schematów kodowania.
Zestaw DCMES zawiera 15 elementów. Celem tej inicjatywy jeststworzenie pro stego, zrozumiałego i dostępnego jak największej grupie użytkowników zestawu ele
mentów, zapewniającego jednocześnie współdziałanie różnych systemów11. Dublin Core stawiany jestw opozycji do standardu MARC, który uważany jest za trudny do adaptacji do powszechnegowykorzystania wWebie. Dla przykładu: MARC 21 zawie ra 1725 obecnie stosowanych pól i podpól [Moen, Bemardino 2003]. Prostota Dublin Core umożliwiamuzajmowanie pozycji najczęściej używanego standardu w zastoso
waniachmetadanych i jest przyczyną jego sukcesu. Tym bardziej niepokojące sąwięc nieustanne prace prowadzone w DCMI, których efektemjest komplikowanie formatu izasad jegowykorzystania. Szczęśliwie, działania te odbywająsię poza podstawowym zestawem 15elementów12.
22 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji
Formularze InternetAnonymous FTP Archives (IAFA)
Formularze IAFA zostały zaprojektowane w celu indeksowania archiwów ftp [Deutsch et al. 1995]. IAFA proponuje 14 formularzy, m.in. takich jak: użytkownik, organizacja, usługi, dokument i oprogramowanie. Każdy formularz zawiera atrybuty niezbędne do opisania obiektów, dla których formularz jest przeznaczony. Przykłado
wo formularz ‘wydarzenia’ może być wykorzystany dla opisania pliku zawierającego zwiastun konferencji. Nazwy atrybutóww tym formularzu (zob. poniżej) sąoznaczone jako słowa napoczątku wiersza, zakończone dwukropkiem.
Template-Type: EVENT
Description: Zaproszenie do składania referatów na II konferencję Internet w bi
bliotekach
Topics: Digitalizacjazbiorów bibliotek, Współpracabibliotek Deadlines:Abstrakty: 31 maj 2003; Pełne teksty: 15 sierpnia 2003.
Author-Email: a.n.autor@host.site.kraj Author-Name: A.N. Autor
Title: IIKonferencjaInternet w bibliotekach X-End-Date:2003-09-26
X-Start-Date: 2003-09-23
Last-Revision-Date-vO: 30Kwi2003 11:24:39
Summary Object InterchangeFormat(SOIF)
SOIFwykorzystywany jest przez system Harvest,będący zintegrowanym zestawem narzędzi służącym do gromadzenia, organizowaniai wyszukiwania informacjiw Inter necie [Hardy 1994]. SOIF bazuje na pracach wykonanych podczas konstruowania formularzy IAFA i narzędzi do tworzenia opisów bibliograficznych BibTeX. Jednak inaczej niż te standardy, SOIF został przeznaczony do obsługi danych binarnych.
Oznacza to, że może być wykorzystywany do opisu nagrań wideo, obrazów, plików skompresowanych i dokumentów postscriptowych, a także dokumentów tekstowych, takich jak kody programowe, HTMLi czyste(ang. raw) dane.
Harvest tworzyskróconą informację o obiektach i zapisuje ją w formacie SOIF, aby następnie informacje te gromadzić i indeksować. Dzięki temu można zadawać systemowiproste i złożone zapytania, napodstawie których wyszukiwana jest infor
macja. Format metadanych opracowany jest w formie par atrybut-wartość. Poniżej przedstawiono przykład wykorzystania SOIF do określenia tytułu i autora strony WWW.
@DOCUMENT { http://bortnianka.webpark.pl/
title {20}: Gospodarstwo agroturystycznezaprasza author{29}: Andrzej Horbal
}
Etykiety meta w HTML
HyperText Markup Language (HTML) jest językiem, w którym zakodowanych za stało miliony dokumentów wWebie,przez co stanowi paradygmatycznystandard two
rzenia metadanych. Niestety, HTML został zaprojektowany prawie wyłącznie jako format prezentacji danych, przez co ma bardzo niewiele elementów kodowania se
Semantyczny Web 23
mantyki. Istnieją jednakdwaatrybuty (‘Description’ i ‘Keyword’) etykiet ‘meta’, które mogą być wstawiane do nagłówka dokumentu HTML w celu stworzenia skrótowego opisutreścidokumentu, np.
<HEAD>
<TITLE>Metadane</TITLE>
<META name="description" content="Ten dokument zawiera informacje o meta danych'^
<META name="keywords" content="metadane, opracowaniedokumentów elektro
nicznych,Intemet">
</HEAD>
Te cechy umożliwiają autoromumieszczenie podstawowych metadanych wobrębie dokumentu HTML, pomimo że rozwiązanie to ma wiele wad, np. brak ustrukturyzo- wania i właściwego uszczegółowienia zawartości pól. Nie ma także zdefiniowanej metody lub standardu opisującego, jakie treści powinny zawierać pola. Mimo to nie które wyszukiwarki internetowe (np. Alta Vista) używają tych pól do podniesienia jakościprocesu indeksowaniadokumentów.
Możliwości wykorzystania metadanych w HTML zostały zwiększone przez utwo
rzenie tzw. Platform for Internet Content Selection (PICS) [Resnick, Miller 1996].
Początkowo było to narzędzie ułatwiające kontrolę dostępu do wybranych typów do
kumentów (np. pornografii), później wykorzystano je także przy realizacji podpisu elektronicznego i poufności danych.
Syntaktyka PICSjest kompatybilna z HTML:
<META http-equiv="PICS-Label"
content='(PICS-l. 1 http://www.rsac.org/ratingsv01.html comment"RSACi NorthAmerica Server"
for http://www.foobar.org on "2004.06.16T10:30-0500"
ratings (v3 n 4 s 3 1 2))’>
Tego typu kod PICS wstawiany jest do sekcji nagłówkowej dokumentu HTML, gdzieprocesy kontroli PICSwykorzystują go do określania, czy treści odpowiedniego źródła nadają siędo wyświetlenia. Każdejkategorii PICS przydzielona jest wartość od O do 4. W tym przykładzie stronie o adresiehttp://www.foobar.orgprzyznano wkate
gorii ‘przemoc’ (v) wartość 3, kategorii ‘nagość’ (n) wartość 4, kategorii ‘seks’ (s) wartość 3 i kategorii ‘język’ wartość 2 (stronawięcprawdopodobnie nie nadaje siędla dzieci).
1.1.2. Metadane oparte na obiektach
Możliwości autorów dokumentów Webużywających metadanych odwołującychsię do atrybutów są ograniczone do tworzenia prostych stwierdzeń dotyczących tych do
kumentów, takich jak ‘autoremjest Kowalski’. Metadane bazujące na obiektach są bardziej elastyczne dzięki umożliwieniu tworzenia dalszych stwierdzeń, dotyczących obiektóww dokumentach. Oprócz stwierdzenia, że autorem dokumentu jest ‘Jan Ko walski’, można na przykładdodać kolejnestwierdzenia, dotycząceadresu poczty elek
tronicznejautora i jego stronydomowej.
24 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji
Meta ContentFormat(MCF)
MCF jest formatem metadanych opierającym się na XML. Model jego danych przedstawiony został jakograf (zob. rys. 2), w którym węzły zawierająobiektylub ich atrybuty.
Obiekty mogą reprezentować cokolwiek, chociaż zazwyczaj wskazują na zasoby Webu. Co znamienne, metadane MCFsą przechowywane na zewnątrz w stosunku do dokumentu,który opisują. Kod przedstawiony poniżej opisuje przykładowo dwie stro nyWeb, obietypu ‘TextualityPage’. W tym przypadku ‘TextualityPage’ używany jest do ogólnego opisu strony WWW na stronie domowej Textuality Web. Posiada ona atrybuty ‘Autor’ i ‘Copyright’, które są przyznane odpowiednio dla ‘Textualitylnc.’
i ‘TextualityServices, Inc. All rights reserved’.
<WebPage id="w0001">
<url>http://www.textuality.com/</url>
<typeOf.T extualityPage</typeOf>
</WebPage>
<WebPage id="w0002"
<url>http://www.textuality.com/Lark/</url>
<typeO£>TextualityPage</typeOf>
</WebPage>
«¡Categoryid="TextualityPage">
<superTypeunit="WebPage"/>
«¡inheritspropertytype="AuthorOrg" unit="Textuality!nc"/>
Semantyczny Web 25
<inhertis propertytype="CopyrightNotice">
TextualityServices, Inc. All rights reserved.
</inherits>
</Category>
Proces przetwarzania metadanych umożliwia szybkie uzyskanie pełnej oceny do
kumentów na stronieTextuality Web, natomiast w mniejszym stopniu służy lokalizo waniuiściąganiupojedynczychstron,składającychsięna dokument.Tadruga funkcja zależy też od poprawności i kompletności odnośników hipertekstowych pomiędzy dokumentami strony, gdyż to one są wykorzystywane do lokalizacji wszystkich tych stron.
MetadataEncoding and TransmissionStandard (METS)
METS (http://www.loc.gov/standards/mets/) zostałutworzony dla potrzeb standar
dowej strukturydanych opisujących złożone obiekty biblioteki cyfrowej. Jest tosche
mat XML służący tworzeniu dokumentów XML opisujących strukturę obiektów bi bliotekcyfrowych, związane z nimi metadane opisowe i administracyjne, a także na zwyi lokalizacjeplików, składających się na danyobiekt. Dzięki temu, żewyrażenia METStworzone są wjęzyku schematuXML, stanowi on format dokumentu dla kodo
wania metadanych niezbędnych do zarządzania obiektami cyfrowymi, gromadzonymi w archiwach obiektów cyfrowych i wymianytych obiektów między archiwami.
DokumentMETS składa się z siedmiugłównych części:
1. Nagłówek METS - zawiera metadane opisujące sam dokument METS, w tym takie atrybutyjak ‘Twórca’, ‘Redaktor’ itp.:
<metsHdr CREATEDATE="2001-10-23T00:00:00" >
<agentROLE="CREATOR">
<name>Rick Beaubien</name>
</agent>
</metsHdr>
2. Metadane opisowe - odsyłajądo metadanych opisowych zewnętrznych w stosunku do dokumentu METS (np. rekord MARC w OPAC) lub do wewnętrznych metada
nych opisowych, bądźdo obu.
3.Metadane administracyjne - dostarczają informacji dotyczącej sposobu tworzenia plików, ich przechowywania, praw własności intelektualnej, oryginalnego obiektu źródłowego, z którego powstał obiekt z biblioteki cyfrowej, oraz proweniencji pli
kówskładających się na obiektcyfrowy.
4. Sekcja plików - wykazujewszystkie pliki zawierające treści składające się na wersje elektroniczneobiektucyfrowego.
5.Mapa strukturalna - opisuje strukturę hierarchiczną obiektu cyfrowego i wiąże ele
menty tej struktury:
<structMap>
<divTYPE=“QUAD15” LABEL="San Francisco Quad">
<fptr FILEID="FIDl"/>
<fptr FILElD="FID20"/>
<divTYPE="map" LABEL="1895" DMDID="DM2">
<fptr FILEID="FID2"/>
<fptr FILEID="FID14"/>
26 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji
<fptr FILEID="FID8"/>
</div>
</div>
</structMap>
6. Odnośniki strukturalne - pozwalają twórcom METS zapisywać węzły hierarchii opisanej wmapie strukturalnej.
7. Działania - łączą wykonywalnedziałania z treścią obiektu METS.
Nagłówek METS, sekcjaplików, mapa strukturalna, odnośniki strukturalne i dzia
łaniadefiniowanesą w schemacieMETS. Struktura ta wyglądanastępująco:
<METS:mets>
<METS:metsHdr />
<METS:dmdSec />
<METS:amdSec/>
<METS:fileSec/>
<METS:structMap />
<METS:behaviorSec />
Nagłówek
Metadane opisowe Metadane administracyjne Sekcja plików
Mapa strukturalna Działania
</METS:mets>
METS w mniejszym stopniu zajmuje się metadanymi opisowymi i administracyj
nymi, przerzucając te funkcje na schematy zewnętrzne, z których mają być pobierane specyficzne elementy. Dla metadanych opisowych przewidziano, na przykład, wyko rzystanietakich schematów metadanych,jak Dublin Core, MARCXMLi MODS.
XMLjako język metadanych
World Wide Web Consortium jest instytucją, która opublikowała kilka standardów, dotyczących zagadnień metadanych i współdziałania semantycznego. Jednym z naj ważniejszych jest Extensible Markup Language (XML), skrócona wersja Standard Generalized Markup Language (SGML). XML może być wykorzystywany do opisu strukturyi zawartościdokumentu, coumożliwiajegomaszynowe przetwarzanie.
Syn taktyka stosowana w XML jest podobna do HTML. Treści są otaczane przez etykiety elementów, można także umieszczać atrybuty i odesłania do jednostek. Ina
czej jednak niż w HTML, XML posługuje się pojęciem ‘dobrego uformowania’ - ze stawem zasad gwarantujących jednolitość syntaktycznej reprezentacji danych (np.
wszystkie etykiety są zamknięte, atrybuty są w cudzysłowach, zagnieżdżanie jestdo
zwolone). Aby zapisać krótki dokument XML opisujący dokument wideo, można na przykład stworzyć następującą reprezentację:
<?xml version=" 1,0?>
<!DOCTYPEvideo SYSTEM http://www.imdb.com.pl/video.dtd>
<video>
<tytuł>Historiaksiążki wzarysie</tytuł>
<producent>Jan Kowalski</producent>
<rok>2003</rok>
</video>
W wierszu DOCTYPE określony został typ dokumentu i wskazano definicję typu dokumentu (DTD), w której zdeklarowane są struktura i sposób przechowywania da nych pliku XML (tzn. jego gramatyka). Włączenie DTD jest opcjonalne, ale też ko
rzystne z powodu zwiększenia możliwości współdziałania. Dzięki temu inni użytków-
Semantyczny Web 27
nicy wykorzystują DTD do tworzenia semantycznie odpowiadających sobie doku
mentów, które sązrozumiałedlatych samychprocesów. DTD umożliwiają także two rzenie standardów międzynarodowych.
Elementy występujące w powyższym przykładzie: wideo, tytuł, producent i rok, służądo zdefiniowania atrybutówdokumentu wideo. Ta reprezentacja nie jest jedyną, która możesłużyć wyrażaniu danych o wideo w XML. Wręcz przeciwnie, istnieje nie skończonailość sposobówwyrażeniatej reprezentacji.
XML nie jest idealnym narzędziem tworzenia syntaktyki metadanych, jednak sta nowi ogólny, rozszerzalny i otwarty standard, pozwalający na efektywne definiowanie innych standardówdotyczącychsyntaktyki metadanych.
ResourceDescription Framework
RDF (http://www.w3c.org/TR/REC-rdf-syntax) jest kolejnym standardem przed stawionym przez W3C. Bazuje on na XML, a głównym jego celem jest zarządzanie metadanymi. Wielu autorów uważa go za idealne narzędzie, służące tworzeniu Se
mantycznego Webu. Podstawowy modeldanych RDF składa się z trzech elementów13:
podmiotu (ang. subject), orzeczenia (ang. predicate) i dopełnienia (ang. object).
13 Możemy je również nazwać obiektem, atrybutem obiektu iwartością atrybutu.
Rys. 3.Model danych RDF z przykładowymi danymi (oprać,własne)
Wyróżniona trójka może być również określona jako (odpowiednio): źródło, atry but i literał. Atrybutźródła (tzn. określenielub twierdzenie) jest reprezentowany kon
ceptualnie z wykorzystaniem etykietowanego grafu, jak przedstawiono na rysunku 3.
Odpowiednikod RDFwyglądanastępująco:
<rdf:RDF>
<rdf:Description about=http://nahotko.webpark.pl>
<s:Twórca>Marek Nahotko</s:Twórca>
</rdf:Description>
</rdf:RDF>
Źródło identyfikowane przez http://nahotko.webpark.pl posiada orzeczenie ‘Twór
ca’ z wartością ‘Marek Nahotko’. Alternatywnie atrybut ‘Twórca’ możewskazywać na źródło.
Toczą siędyskusjenad wzajemnymi stosunkami RDFi XML. Wiążą się z tym dwa podstawoweaspektydotyczące reprezentacjimetadanych.
Po pierwsze, XMLsłuży jako formatwymienny, natomiast nie jestodpowiedni do reprezentacji metadanych zpowodu sposobu, w jaki danesą w nim modelowane. XML