• Nie Znaleziono Wyników

Opis dokumentów elektronicznych : teoretyczny model i możliwości jego aplikacji

N/A
N/A
Protected

Academic year: 2022

Share "Opis dokumentów elektronicznych : teoretyczny model i możliwości jego aplikacji"

Copied!
200
0
0

Pełen tekst

(1)
(2)
(3)

Opis dokumentów elektronicznych

Teoretyczny model i możliwości jego aplikacji

Description of Digital Documents

Theoretical Model and Possibilities ol Its Application

(4)

Jagiellonian University Scholarly Fascicle MCCLXXXI

Studies in Library and Information Science Vol. 12 2006

Marek Nahotko

Description of Digital Documents

Theoretical Model and Possibilities ol Its Application

JAGIELLONIAN UNIVERSITY PRESS

(5)

Zeszyły Naukowe Uniwersytetu Jagiellońskiego MCCLXXXI

Prace z BibliotekoznawstwaiInformacji Naukowej Zeszyt IZ2006

Marek Nahotko

Opis dokumentów elektronicznych

Teoretyczny model i możliwości jego aplikacji

WYDAWNICTWO UNIWERSYTETU JAGIELLOŃSKIEGO

(6)

PublikacjadofinansowanaprzezUniwersytetJagielloński ze środkówcentralnej rezerwyna badaniawłasneorazInstytutuInformacjiNaukowej iBibliotekoznawstwa

REDAKTOR SERII

Dr hab. MariaKocójową, prof. UJ

RECENZENT

Drhab. Ewa Głowacka, prof. UMK

PROJEKTOKŁADKI Andrzej Harasz

Tekst na ostatniej stronieokładkinawiązuje dofragmentu publikacji PatrickaLe Boeufa [Le Boeuf 2005, s.2-3].

REDAKCJA

KatarzynaKolowca-Chmura

KOREKTA Elżbieta Wojtowicz SKŁAD I ŁAMANIE Regina Wojtyłko

© Copyrightby Marek Nahotko& Wydawnictwo UniwersytetuJagiellońskiego WydanieI,Kraków2006

All rightsreserved

Książka, ani żaden jej fragment,nie może byćprzedrukowywana bez pisemnej zgody Wydawcy.

Wsprawie zezwoleń na przedruk należy zwracać się do Wydawnictwa Uniwersytetu Jagiellońskiego

ISBN 83-233-2101-9 ISSN 1230-7025 www. wuj. pl

Wydawnictwo Uniwersytetu Jagiellońskiego Redakcja: ul. Michałowskiego9/2, 31-126 Kraków tel. 012-631-18-81,tel. /fax012-631-18-83 Dystrybucja: ul. Wrocławska 53, 30-011 Kraków tel. 012-631-01 -97,tel. /fax012-631-01-98

tel.kom. 0506-006-674,e-mail: wydaw@if. uj. edu. pl

Konto: BPHPBK SA IV/OKraków, nr62 1060 0076 000032000047 8769

(7)

SPIS TREŚCI

Wstęp... 9

Rozdział 1.Semantyczny Web... 19

1.1. PrzedSemantycznymWebem:metadane... 20

1.1.1. Metadaneopartena atrybutach... 20

1.1.2. Metadaneopartena obiektach... 23

1.1.3. Metadane w Webie... 29

1.2. SemantycznyWeb... 30

Rozdział 2. Teoretyczne podstawyontologii... 37

2. 1. Definicje ontologii... 38

2. 1.1. DefinicjaontologiiGrubera... 38

2.1.2. Definicjaontologii Guarino... 40

2. 1.3. Innedefinicje... 42

2.2. Podstawowe elementy ontologii... 44

2.3. Rodzajeontologii... 45

2.4. Inżynieriawiedzy(tworzenieontologii)... 47

Rozdział 3. Analizaontologiczna... 51

3. 1. Modelowanie... 52

3.2. Model ERimodelowanie obiektowe... 55

3.3. Ontologicznemodelowanie wiedzy... 58

3. 4. Metodologiaanalizyontologicznej... 62

Rozdział 4. Organizacja wiedzy wbibliotekach... 65

4. 1. Reprezentacja dokumentów... 66

4.1.1. Celebibliograficzne... 66

4.1.2. Podstawowezasadytworzeniaopisu bibliograficznego... 76

4.2. Metodydefiniowaniajednostek bibliograficznych... 78

4. 3. Relacje bibliograficzne... 80

4.3. 1. Rodzajerelacji bibliograficznych... 82

4. 3.2. Relacjebibliograficznewśrodowisku online... 89

Rozdział 5. Ontologiedokumentówbibliotecznych... 93

5.1. FRBR... 94

5. 1.1. Struktura FRBR... 95

5.1.2. FRANAR/FRAR... 102

5. 2. Rozszerzenieontologii FRBR w zakresie dokumentów elektronicznych... 104

5.2. 1. Ontologią INDECS... 105

5.2.2. OntologiąABC i model wydarzeń Lagoze’a... 108

(8)

6 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

5.2.3. OntologiąJean HironsiCrystal Graham: dokumentyzintegrowane... 113

5.2.4. Ontologiąpriorytetu Realizacji ShoichiTaniguchiego... 116

Rozdział 6. Modelowaniesieciowychdokumentów elektronicznych... 119

6.1. Katalogielektroniczne... 119

6.2. Dokumentyelektroniczne adokumenty tradycyjne... 124

6.2.1. Architektura dokumentów w Webie... 128

6.2.2. Hipertekst... 129

6.3. Ontologią sieciowychdokumentów elektronicznych... 131

6.3.1. RolaRealizacjiDzieła... 133

6.3.2. Jednostkimodelu trójpoziomowego... 137

6.3.3. Relacje bibliograficzne... 141

6.3.4. Wydarzeniai zintegrowane dokumentyelektroniczne... 143

6.3.5. Atrybuty jednostek... 149

6.3.6.Problemy aplikacyjne ontologii... 155

Zakończenie... 165

Wybórwykorzystanej literatury... 169

Indeks... 181

Wykazskrótów... 187

Wykazrysunków i tabel... 189

Summary... 191

(9)

CONTENTS

Introduction... 9

Chapter1. SemanticWeb... 19

1.1.Before Semantic Web: metadata... 20

1.1.1. Attributesbased metadata... 20

1.1.2. Objectsbased metadata... 23

1.1.3. MetadatafortheWeb... 29

1.2.SemanticWeb... 30

Chapter2.Theoreticbasisfor ontology... 37

2.1.Ontologydefinitions... 38

2.1.1. Gruber’sontologydefinition... 38

2.1.2. Guarino’s ontology definition... 40

2.1.3. Other definitions... 42

2.2.Basicontology elements... 44

2.3. Ontology types... 45

2.4.Knowledgeengineering(ontology development)... 47

Chapter 3. Ontologieanalysis... 51

3.1. Modelling... 52

3.2. ERmodelandobject modelling... 55

3.3. Ontologie knowledgemodelling... 58

3.4. Ontologieanalysis methodology... 62

Chapter 4. Knowledgeorganization in libraries... 65

4.1. Documentsrepresentation... 66

4.1.1.Bibliographicobjectives... 66

4.1.2.Basic rules for bibliographic descriptionsdevelopment... 76

4.2. Methodsfordefining bibliographic entities... 78

4.3. Bibliographicrelations... 80

4.3.1.Types ofbibliographic relations... 82

4.3.2.Bibliographic relations intheonlineenvironment... 89

Chapter 5. Librarydocuments ontologies... 93

5.1. FRBR... 94

5.1.1. FRBRstructure... 95

5.1.2. FRANAR/FRAR... 102

5.2. FRBRontologydevelopment forelectronic documents... 104

5.2.1. INDECS ontology... 105

5.2.2. ABContologyandLagozeevents model... 108

(10)

8 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

5.2.3. JeanHironsandCrystal Grahamontology:integrated documents... 113

5.2.4. ShoichiTaniguchiontology: priority oftheExpression... 116

Chapter 6. Modelling of networked electronic documents... 119

6.1. Electroniccatalogues... 119

6.2. Electronicdocuments and traditional documents... 124

6.2.1.Webdocumentsarchitecture... 128

6.2.2.Hypertext... 129

6.3. Networkedelectronic documents ontology... 131

6.3.1. Expression of Work role... 133

6.3.2. Three-levelmodelentities... 137

6.3.3. Bibliographic relations... 141

6.3.4.Events and integratedelectronicdocuments... 143

6.3.5.Entities attributes... 149

6.3.6.Applicationproblemsof theontology... 155

Conclusions... 165

Bibliography... 169

Index... 181

Listof abbreviations... 185

Listof illustrationsand tables... 187

Summary... 189

(11)

WSTĘP

Przedmiotemniniejszej pracy są modele stosowane w systemach organizacji wiedzy1 (SOW) o obiektach bibliograficznych, stanowiącychelementuniwersum bibliograficz­

nego, opisujące procesy biblioteczne wspomagające tworzenie wiedzy. Od stuleci wspomaganie tworzenia wiedzy wpisane jest w zawód bibliotekarza. Zadanie to reali­ zowane jest także obecnie, w wieku mnożenia światów wirtualnych i zmienności świata rzeczywistego.Niezmiennie bibliotekarz jest krytycznym pośrednikiem w prze­ pływieinformacjipomiędzytwórcami a użytkownikami dokumentów.

1 Organizacjawiedzy jestto układ (np. porządek)elementów wiedzyprzyjęty w danej jej reprezenta­

cji. W SIW układ ten zdeterminowanyjest przez metody inarzędzia zapisuzbioru informacyjnego oraz relacji między jego elementami,a takżeprzeprowadzanych na tych elementach operacji [wg: Bojar (red.) 2002, s. 187]. Sposobyzdobywania, kodyfikowania, systematyzowania i dystrybucji wiedzy w organizacji nazywasię zarządzaniem wiedzą (KM) [Głowacka 2002, s. 46]. B. Sosińska-Kalata za twórcę tego terminu uważa Henryego Blissa, który użyłgo w 1933 r. w publikacji Organization of Knowledge in Libraries and the Subject Approach to Books [Sosińska-Kalata 2005, s. 141]. System organizacji wiedzy (SOW) oznacza różnego rodzaju schematy porządkowania informacji, ułatwiające zarządzanie wiedzą w różnychśrodowi­ skachidla różnych celów [Sosińska-Kalata 2005, s. 142].

2Konceptualizacja rzeczywistościjest tosystem pojęćstanowiący podstawę kategoryzacji informacji o rzeczywistości (świecie rzeczywistym), umożliwiający włączanie nowych informacji [Bojar(red.) 2002, s. 142]. Jest sposobem,wjaki myśli się okonceptualizowanej części otaczającegoświata. Kiedy wyobra­

żamysobie świat lub jego część, w umyśle mamy mentalny model tej części świata. Konkretny sposób myśleniaodanejdziedzinie jest konceptualizacją. Jej precyzyjnyi szczegółowy opisnazywany jest specy­

fikacją.Stanowi etappozwalającyna późniejsząreprezentację wiedzy.

Według MariiPróchnickiej przepływ wiedzy łączysię z koniecznością wykreowa­ nia sposobów dokonywania abstrakcji myślowej zadań wyszukiwawczych oraz form, w jakich te abstrakcje będą reprezentowane. System informacyjno-wyszukiwawczy (SIW) może byćrozpatrywany w trzech wzajemnie sobie odpowiadających perspekty­

wach:

• intencjonalnej - określającej cel, dlaktórego został zaprojektowany, oraz cele jego użytkowników; w obrębie tej perspektywy koncentrujemy się na wzajemnym od­

działywaniu i przepływie informacji międzysystememajego otoczeniem;

• konceptualnej (logicznej) - związanej ze strukturą systemu, organizacją danych, sposobamireprezentowania wiedzy oraz dystrybuowaniainformacjiprzezsystem;

• fizycznej - dotyczącej sfery materialno-sprzętowej systemu [Próchnicka 2004, s. 13].

Zagadnienia analizowane w niniejszej pracy związane są z konceptualizacją rze­ czywistości2 (zob. rys. 1) i dotycząsposobów organizacjiwiedzy stosowanych w dzia­

(12)

10 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

łalności informacyjnej oraz narzędzi służących tworzeniu surogatów dokumentów w SIW,a więc reprezentacji wiedzy w tych systemach. W przedstawionejpracy bardzo istotną rolę odgrywa modelowanie procesów i zjawisk wiążących się z organizacją i reprezentacją wiedzy w systemach informacyjno-wyszukiwawczych.

Perspektywa konceptualna - struktura systemu - organizacja systemu

- sposoby reprezentacji wiedzy

Rys. 1. Podmioty wyszukiwania informacjiirelacjemiędzy nimi [za: Próchnicka 2004,s. 14]

Zdolność myślenia abstrakcyjnego orazplanowania i modelowania to najistotniej­ sze cechy ludzkiego umysłu. Od zarania dziejów homo sapiens wykorzystywał je do koordynowania działań podczas polowań, odnajdywania drogi czy tworzenia nowych narzędzi. Dziś modelowanie, także to realizowane zapomocą wielu różnych sformali­

zowanych metodologii, obecne jest niemal we wszystkich działaniach człowieka. Mo­

dele konceptualnemogą przybierać różne formy, np. tekstowąlub wizualizacji graficz­

nej, mogą być tworzone na wysokim poziomie abstrakcji lub bardziej szczegółowo, bywają płaskie lub ustrukturyzowanehierarchicznie.

Organizacja wiedzy (ang. knowledgeorganization), przez niektórych autorów na­ zywana organizacją informacji, do tej pory - przynajmniej w postaci, w jakiej jest realizowana w bibliotekarstwie i informacji naukowej - byłamocno związana z two­ rzeniem narzędzi do przechowywania i wyszukiwania jednostek bibliograficznych.

Powstawały katalogi, indeksy czybazy danych, pozwalające na szybkie przeszukiwa­

nie wielkich kolekcji rekordów, zawierających surogaty reprezentujące dokumenty, wraz zutrwalonąw nich wiedzą. Jakpiszę BarbaraSosińska-Kalata, wiedzaodwzoro­

wana w dokumentacyjnych SIW odnosi się do dokumentów, traktowanych jako opisy wyodrębnionych wycinków rzeczywistości zewnętrznej. Przez modele organizacji wiedzy w dokumentacyjnych SIW rozumie się natomiastsposób, w jakistruktura wie­

dzy, której fragmenty zawiera treść dokumentów, odwzorowana jest za pomocą metod i narzędzi reprezentacji informacji wykorzystywanych w tego rodzaju systemach [So­ sińska-Kalata 1999, s. 11]. Układ stosowany wewnątrz tych narzędzi może przyjmo­ wać różne formy, w zależności od ich struktury, przewidywanego sposobu wykorzy­

stania, a takżeod reprezentowanejdziedziny wiedzy(domeny).

Jednym z podstawowych problemówbadawczychdotyczących SIWjestsposóbdo­

stępu do wiedzy, w jednoczesnym odniesieniu do informacji i danych. Istnieje kilka

(13)

H^stęp 11

kluczowych cech różniących wiedzę od informacji. Należądo nich: obecność kontek­

stu, powiązań, wyjaśnień; nadanie informacjiformydostosowanej do struktur poznaw­ czych użytkowników oraz ułatwiającej przyswojenie „wiedzy ukrytej” [Głowacka 2004, s. 20].

Coraz trudniej odnaleźć relewantne źródła wśród milionów rekordów umieszczo­

nych w wielkich katalogach (szczególnie centralnych) i bazach danych, określić ich naturę, lokalizację i wartość w porównaniu z innymi, i w efekcie uzyskać dostęp do wiedzy, a nie do mało lub w ogóle nie relewantnej informacji. Większość działań związanychz organizacją wiedzy polega obecnie na organizacji informacji. Niewiele czyni się, aby „wiedza ukryta” stała się „wiedząjawną” [Fazlagić 2003, s. 8]. Wiedza kodowana jest w postaci danych bibliograficznych wbazach danych,jednak informa­ cja i daneniesąrestrukturyzowanei reprezentowane w formie wiedzy jawnej.

Wiedza jestefektem interpretacji informacji w określonym kontekście.Interpretacja tamoże być prowadzona zarówno przezpracownika informacji, jak i przez użytkowni­ ka. Polega ona na opisie i wyjaśnieniu określonego problemu na podstawie danych wzorcówlub ram określających znaczenie i relewancję informacji w stosunku do wy­ rażonychpotrzeb. Obecnie efektem pracy SIW jest wykaz dokumentówprawdopodob­

nie relewantnych do zapytania. Wykaz ten jest następnie interpretowany przez użyt­ kownika w odniesieniudoposiadanego kontekstu. Część tego procesu może być prze­ prowadzona przez katalogującego przed wprowadzaniem danych, część przez system woparciu o przygotowany algorytm. Przekształcenie informacji w wiedzę następuje, gdyludzie:

• porównują i łącząinformacjęnowąz przyswojoną wcześniej,

• wyobrażająsobie konsekwencje swoich decyzji i działań,

• wymieniają i porównują idee i informacje [Fattahi 2002].

Wynikiem jest nowa, bardziej zrozumiała i wartościowa informacja. W systemach wyszukiwania informacji realizowanesą podobne procesy3.

3 Ewa Głowacka wyróżnia następujące działania podejmowanewcelu doskonalenia procesu informa­

cyjnego: dodanieinformacjikontekstowej,podawanie informacjiotwórcy, oferowaniebaz ekspertowych, dodawanie materiałów multimedialnych oraz umożliwienie użytkownikom kontaktów ze specjalistami [Głowacka 2004, s.21].

Narzędzia reprezentacji informacji konstruowane były od stuleci na podstawie wie­

dzy bibliograficznej, pragmatycznych celów stawianych samym dokumentom i przy­ jętych założeń dotyczących ich wykorzystania, a także ówczesnych możliwości tech­

nologicznych. W drugiej połowie XIX w. powstałypierwsze zasady tworzenia katalo­

gów. Stanowią one podstawę funkcjonowania bibliograficznych narzędzi wyszuki­ wawczych także w czasach współczesnych. Dziewiętnastowieczne bibliotekarstwo rozwinęło się międzyinnymi w wyniku zastosowanianaukowych metod modernizacji istniejącej bibliografii wzorganizowanej i ekonomicznie uzasadnionej formie. Biblio­ grafia, podobnie jak astronomia, została zrewolucjonizowana przez nowe technologie fotograficznei elektroniczne. Początkowo wielką szansąnamodernizacjęi rozwój były dla bibliotek techniki fotograficzne, a w szczególności graficzna reprodukcja opisów bibliograficznych w mikroskali. Miniaturyzacja była w połowie XX w. uważana za rozwiązanieproblemu rozrostu katalogów bibliotecznych, wynikającegoz gwałtowne­ go powiększania się zbiorów.

Jednak dopiero postępująca komputeryzacja zmieniła środowisko biblioteczne i otworzyła nowe możliwości w zakresie wyszukiwania informacji. Dodatkowo włą­

(14)

12 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

czono w nie funkcje związanez udostępnianiem zbiorów. Ostatnie dekady XX w. to okres eksplozji informacji. Wbibliotekarstwie tradycyjne katalogowanie dokumentów, którego efektem były katalogi kartkowe, sprawiało, że na całym świecie w dużych bibliotekach powstawały znaczne zaległości w opracowaniu zbiorów. Pojawianiu się nowych formdokumentównietowarzyszyło tworzenie nowych zasad funkcjonowania systemów, mogących spełniać rosnące wymagania użytkowników bibliotek. W takich warunkach automatyzacjasystemówmanualnych wydawała się panaceum naproblemy bibliotekarzy, jednak jej realizacja spowodowała również wiele nieprzewidzianych zmian. W drugiej połowie XXw. w związku z automatyzacjąi komputeryzacją prac bibliograficznych zasady katalogowania zostały znacznie rozbudowane w celu umożliwienia zarządzania konstruowaniem zarówno surogatów dokumentów (tzn.

rekordów bibliograficznych), jak i samych narzędzi służących wyszukiwaniu.

Wostatnich dekadach ubiegłego wieku pojawiły się głosy żądające zastosowania empirycznychmetod badawczych do opisania zjawisk dotyczących organizacji wie­ dzy i postulujące dalszy rozwój narzędzi wyszukiwawczych. Takie badaniapodjęto, a ich efektem była automatyzacja wyszukiwania informacji bibliograficznej. Na po­ czątku XXI w. naukowcy zajmujący się organizacją wiedzy, oprócz metod empi­

rycznych, zaczęli stosować jakościowe metody badawcze. W ograniczonymzakresie zastosowano także badania historyczne w celu zrozumienia kontekstu społecznego zjawisk dotyczących zarządzania wiedzą. Zainteresowano się także narzędziami ontologicznymi i epistemologicznymi, do opisu podstawowych struktur wiedzy [Smiraglia 2002]. Epistemologia jest działem filozofii, zajmującym się naturą i po­

chodzeniem wiedzy. Roberto Poli przeciwstawia sobie narzędzia ontologii i episte­

mologii w zakresie organizacji wiedzy, stwierdzając, że o ileOntologią reprezentuje

„obiektywną” stronę rzeczywistości, o tyle epistemologia reprezentuje jej stronę

„subiektywną”. Ontologią (z gr. istnienie, byt) pozwala na stworzenie obiektywnych ram,w którychmożna organizować wiedzę, natomiast epistemologia (z gr. wiedzieć) pozwala na percepcję wiedzy [Poli 1996]. Epistemologia dotyczy więcteorii natury wiedzy. O ileOntologią służy jako rama dlaorganizacji wiedzy,o tyle epistemologia dostarcza podstawowej informacji o obiektach w organizacji informacji [Smiraglia 2001a).

Na przykładzie zastosowań biznesowychprzedstawićmożnakolejne etapyrozwoju organizacji wiedzynaprzełomieXXi XXIw.:

• Etap pierwszy był okresem odkrywania nowych możliwości technologii informa­ cyjnych; technologie te (Internet, intranety itp.) wykorzystywano do wymiany ol­

brzymiej ilości wiedzy nagromadzonej wewnątrz konsorcjów; powstawały nowe usługi, określanemianem organizacji wiedzy.

• Etap drugi, przypadający na lata dziewięćdziesiąte XX w., charakteryzował się zauważeniem znaczenia „czynnika ludzkiego” i wpływu wartości kulturowych na organizacjęwiedzy; system wiedzymusi być nie tylkodobry technicznie, ale także przydatny użytkownikom.

• Etap trzeci (początek XXI w.) cechowałozwrócenie uwagi na rolę treści informacji imożliwości ich wyszukiwania, a więc na układ,opisistrukturę tych treści; w tym czasie zainteresowano się takimi narzędziami,jak taksonomie i Ontologie.

• Etap czwarty, trwający obecnie, to zwrócenie się ku informacjom zewnętrznym, a nie tylko tworzonym wewnątrz organizacji, a więc ku usługom informacyjnym, będącym tradycyjnie domeną bibliotekarstwa [Koenig 2005].

(15)

Wstęp 13 Głównym źródłem zaufania do bibliografii od czasów starożytnych byłastosowana w niej identyfikacja autorstwa, czyli użycie pewnego rodzaju metadanych reprezentu­ jących dzieła piśmiennicze. Wiązała się z tym autorytatywna kontrola danych, ozna­ czająca możliwość korzystania z akceptowanego źródła informacji ijego opisu biblio­

graficznego. Obecnie pojęcie to nabiera także nowego znaczenia. Patrick Wilsonjest autorem teorii dotyczącej autorytamości kognitywnej, czyli procesu, w którym nasz osobistyświat wiedzy wzajemnie oddziałuje z publicznie dostępnymiźródłami infor­

macji [Mason 1995]. Teoria ta może być określona jako epistemologia społeczna, bę­

dąca opisem procesów kognitywnych przebiegających pomiędzy dwoma umysłami.

Model ten różni się od idealizacji przetwarzania informacji, pojmowanego jako inte­ rakcja pojedynczego umysłu z jego otoczeniem. Ocena informacjijestokreślana jako wartość dodanado informacjiw procesie tworzeniawiedzy, szczególnie przy założeniu funkcjonowania continuum od danych przez informację i wiedzę domądrości.

Patrick Wilson próbował zmienić mniemania dotyczące katalogów bibliotecznych, twierdząc, że nie powiedziano jeszcze ostatniego słowa wzakresie kontroli bibliogra­ ficznej. Krytykowałwspółczesnymu sposób stosowania katalogów, twierdząc, że nie spełniają onecelów, dla których zostały przygotowane. Uważał, żekatalogi nie dostar­

czają informacji o wszystkich publikacjach wybranego autora, a indeksowanie przed­ miotowe nie wykorzystuje swoich potencjalnych możliwości.

Patrick Wilson jest także autoremkoncepcji obszarów opisowych (ang. descriptive domain) i obszarów eksploracji (ang. exploitative domain). W tej teorii podstawową rolę odgrywają narzędzia bibliograficzne(katalogi, klasyfikacje). Obszar opisowy jest to zakres, w którymodbywa się opisowa działalność bibliograficzna. W obszarze opi­

sowym katalogerzy, bibliografowie i indeksatorzy usiłują tworzyć wykazy o różnej głębokości i szczegółowości; są wnich zapisywane dane o istnieniu dzieł dostępnych dla wyszukujących. W obszarze eksploracji naukowcy poszukują odpowiedzi na pyta­ nia badawcze, starając się zrobićjak najlepszy użytek z zarejestrowanej wiedzy. Pró­

bują więc odkryć to, co jest już znane, a w efekcie tego procesu tworzona jest nowa wiedza [Smiraglia 2002].

Według Elaine Svenonius przechodzenie od katalogów kartkowych do ich wersji online, choćtrwa już ponad trzydzieści lat, wciąż jest na etapie początkowym [Sveno­

nius 2001a, s. 63]. Katalogi elektroniczne tworzone były jako zautomatyzowane odpo­

wiedniki swoich kartkowych poprzedników, czyli z założeniem, że powinny służyć wyłącznie dolokalizowania pozycji znanych użytkownikowi lub tworzenia odpowiedzi na precyzyjnie sformułowane zapytania rzeczowe. Barbara Tillett stwierdziła nato­ miast, że wciąż pozostajemyw ciemnych wiekach, oczekując powstania konwencjo­

nalnych urządzeń, takich jak strony tytułowe, które mogłyby być powszechniestoso­

wane w opracowaniu dokumentów elektronicznych. Zamiast tego możemy zaobser­

wować funkcjonowanie ‘samoopisujących się jednostek’, materializacji z hasłami zawierającymi standardową informacjęopisową (metadane) stanowiącą część elektro­ nicznegotekstu[Tillett 1996].

Zmiany związane z komputeryzacją następują tak szybko, że trudno pokusić się odokładne przewidywanie nawet bliskiej przyszłości. Nie oznacza to jednak, że wy­ starczy usiąść zboku i poczekać, ażopadnie „cyfrowy kurz”. Niezbędnejestuzyskanie właściwego poglądu na obecnie funkcjonujący świat publikacji,jak najdokładniejsze przedstawienie sobie tego, co może zdarzyć się w przyszłości, i jaknajlepsze planowa­ nie zastosowania produktów nowej technologii do obecnie istniejących zasobów in-

(16)

14 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

formacji. W przygotowaniach do funkcjonowania w tym nowym świecie mogą być pomocne współcześnie tworzonemetodymodelowania, w tym ontologicznego.

Niezbędnestająsięnarzędzia, pozwalające na współdziałanie słowników kontrolo­

wanych oraz uproszczenie teorii i praktyki indeksowania dokumentów. Obecnie ist­ niejące narzędzia, takie jak LCSH czy MARC, są zbyt skomplikowane; do ich stoso­

wania trzeba zatrudniać wysoko wykwalifikowany personel. Tworzone są więc nowe, łatwiejsze do zarządzania i stosowania, również takie, które mogą być samodzielnie wykorzystywane przez maszyny. Do nich należą Ontologie. Specjaliści z zakresu in­

formatyki i informacji naukowej nadali noweznaczenie terminowi „Ontologią” w kon­

tekście projektowania interfejsu człowiek-komputer: jestto opis pojęć i relacji między nimi, przeznaczony dla agenta4 lub wielu agentów, wyrażony w języku formalnym jako zestaw obiektów, nazw jednostek, standardowe słowniki itp.5 Ontologie w takim znaczeniu pozostają poza tradycyjną filozofią i odnoszą się do wymiany wiedzy mię­ dzy agentami (ludźmi, maszynami, sztucznymi inteligencjami).

4 Agent jest autonomiczną jednostką, posiadającą wyrażenieontologiczne, czylistwierdzenie,w któ­ rym zakładasię istnienierzeczy przez zbadanie istnienia innej rzeczy.Termin utworzony w filozofii. Każdy agent wykazuje zdolnośćdoautonomicznego działania dlaosiągnięcia założonych celów. W informatyce agentjest oprogramowaniem,działającym w określonym środowisku, zdolnym do komunikowania się, monitorowaniaswojegootoczenia ipodejmowania autonomicznych decyzji.

5 Definicja tego typu jest często stosowana w dokumentach normalizacyjnych [np. ISO 21127]. Defini­ cje ontologiiprzedstawione zostały szczegółowo w rozdz. 2.

6 Wedługprzyjętejkonwencji nazwy jednostek wyróżnianych w modelach konceptualnych zaczynają się dużą literą i pisane sąkursywą, np.Dzieło, Realizacja, Materializacja, Egzemplarz(jednostki wyróżnio­ ne w modeluFRBR). Atrybuty jednostek pisane są dużą literąiobjęte cudzysłowem, np. ‘Autor’, ‘Tytuł.

Innym zadaniem jest zbadanie natury katalogu, przy założeniu możliwości jego in­ tegracji z innymi narzędziami wyszukiwawczymi, szczególniestosowanymi do odnaj­ dywania informacji w sieciach rozległych. Obecnie katalogi biblioteczne są narzę­ dziami, pozwalającymi na kontrolowany opis i dostęp do zasobów dokumentów fi­ zycznych i wirtualnych. W celu ich wykorzystania jako bramek internetowych czy portali należy prowadzić badania użytkowników, pozwalające na określenie sposobu i zakresu łączeniaróżnych narzędzi wyszukiwawczych (abstraktowych i indeksowych baz danych oraz katalogów bibliotecznych). Niezbędne jest także umożliwienie wy­ szukiwania w katalogu, który pozwoli na dotarcie do informacji dostępnej poprzez różne narzędzia wyszukiwawcze.

W niniejszej książce przedstawionazostała teza o możliwości rozwiązania zaryso­

wanych problemów przez połączenie dwóch różnychpodejść: modeli konceptualnych wypracowanych w bibliotekoznawstwie i informacji naukowej (w szczególności FRBR, ale nie tylko) oraz narzędzi i technologii specyficznych dla Semantycznego Webu (ang. Semantic Web), w szczególności ontologii [Gradmann2003]. Przydatność takiego podejścia znajduje potwierdzenie w wielu obserwacjach.

Po pierwsze, informacja bibliograficzna tworzonaw bibliotekach w dużymstopniu pozostaje ukryta w tzw. „niewidocznym Internecie”. Łączenieróżnych poziomów in­

formacji w rekordach bibliograficznych powoduje, że niebibliotekarze (czyli tzw.

użytkownicy końcowi) osiągają znacznie lepszą efektywność wyszukiwania, poprze­

stając na stosowaniu standardowych technik wyszukiwania w zasobach sieci rozle­ głych, bez przeszukiwania tysięcy identycznych rekordów bibliograficznych wykazu­

jącychjedynie różne Egzemplarze lub Materializacje tychsamychDziel6, „zanieczysz­

czających” wyniki wyszukiwań wielościąinformacji redundantnych.

(17)

Wstęp 15 Po drugie,większość aspektów tworzonych przez bibliotekarzy modeli konceptual­

nychoraz ich implementacje techniczne w większości systemów bibliotecznych mają niewiele wspólnego zhipertekstowąnaturąwyrażania relacjiw Webie; wszczególno­

ścidotyczyto dokumentów złożonych,takich jak publikacje wielotomowei ciągłe, dla których stosowane sąpowiązania między rekordami. Jest to głównie problem wdroże­

niowy, a nie konceptualny, gdyż struktury informacyjne z dużą ilością odnośników (ang. link) są typowe dla Intemetu. Jednaksposób,wjaki większość systemów biblio­ tecznych stosuje wewnętrzne struktury odnośników, jest trudny do przetłumaczeniana strukturyodnośników w WWW. Stwierdzenie to odnosi się do większości zautomaty­ zowanych systemów bibliotecznych i ich architektury danych, co bardzo ogranicza biblioteki, stwarzając strukturalny brakelastyczności technicznej.

Po trzecie, poważne problemy związane zmigracjądużej ilości danych do szersze­

go środowiska technicznego powstrzymująwiększość bibliotekarzy przedposzukiwa­

niem technicznych i funkcjonalnychalternatywdla aktualnych rozwiązań. Prowadzi to do sytuacji, gdy bibliotekarze zajmująsię głównie mało istotnymi szczegółamirozwią­ zań,zamiast badać możliwości zmian strukturalnych.

Powyższe obserwacjew pewnym stopniu mogą wyjaśnić przyczynę wciążpowol­

nego wdrażania FRBR jakopodstawy nowych architektur informacji, chociaż zapewne istnieją także poważniejsze powody. Jednym z nich jestobawaprzed podejmowaniem wysiłków służących implementacji FRBR do istniejących zasobów danych i aplikacji katalogowych, bezjednoczesnego zastosowania standardowych technologii Intemetu.

Tylko takie połączenie daje możliwość utworzenia nowego, przyszłościowego modelu konceptualnegodziałalnościinformacyjnej.

Technologie SemantycznegoWebu, a w szczególności Ontologie, pozwalają na no­

we i efektywniejsze wykorzystanie tradycyjnych semantycznych metadanych biblio­

tecznych o dużej szczegółowości. Integracja technik Semantycznego Webu z wypra­

cowanymi modelami katalogów bibliotecznych,nie tylkow celu realizacji wyszukiwa­ nia, ale także, na przykład, do generowania zasad wnioskowania logicznego, może znacznie wspomócpracę biblioteczną. Informacja,niezbędna do wyszukiwania i pro­ wadzenia wnioskowania dedukcyjnego, znajduje się w katalogach bibliotecznych, często stanowiąc element „niewidocznego Intemetu”. Narzędzia, takiejak Ontologie i agenci semantyczni, posłużą do budowy przyszłych systemów, które dzięki Seman­ tycznemu Webowi automatycznie będą docieraćdo niedostępnejobecnie informacji.

Z drugiej strony model FRBR i wynikająca z niego wielopoziomowa architektura metadanychjest szczególnie istotnym elementem umożliwiającym połączenie archi­ tektur metadanych typowych dla katalogów bibliotecznych oraz „płaskich” modeli metadanych typowych dla architektury informacji w Webie. Konsekwentna ewolucja katalogów bibliotecznych w stronę zastosowania podejścia opartego na FRBR pozwoli na znaczne obniżenie uciążliwościzjawisk przedstawionych powyżej,którepowodują, że biblioteczne zasoby metadanych wciąż są zamknięte w „niewidocznym Webie”.

Celem tej pracy jest stworzenie spójnej,uogólnionej koncepcji wykorzystania podsta­ wowychjednostek (ang. entity) semantycznych, Realizacji i Materializacji!Egzempla­

rza do budowy modelu (ontologii), pozwalającego na wieloaspektowe opracowanie dokumentów elektronicznych. Stworzenie takiego modelu pozwoli na ukazanie wza­ jemnych relacji pomiędzy wyróżnionymijednostkami. Celten ma być osiągnięty przez

łączenie różnych modeli, tworzonych w różnych środowiskach, ale komplementarnych ze względu na podobieństwo implementacji. W efekcie możliwe będzie poprawne

(18)

16 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

zrozumienie struktur informacji, u podstaw których leży hybrydowe połączenie róż­

nychmodeli. Prace prowadzące do łączeniaFRBRi innych modelitworzonychw śro­ dowiskach bibliotecznych oraz technologii Semantycznego Webu mogą spowodować zmianę paradygmatówwmodelowaniuinformacji.

Niniejsza praca odwołuje sięgłównie do publikacji zagranicznych, gdyżw polskim bibliotekoznawstwie i informacji naukowej zagadnienia dotyczące modelowania kon­

ceptualnego nie sąjeszcze powszechnie znane. Niewątpliwie pomocne było podsta­

wowe dzieło Barbary Sosińskiej-Kalaty, dotyczącemodeli organizacji wiedzy[Sosiń­

ska-Kalata 1999] oraz praca Jadwigi Woźniak [Woźniak 2000]. Istniejątakże pojedyn­ cze publikacje przedstawiające FRBR jako modelopracowania zbiorów bibliotecznych [Golec-Nycz 2004;Nahotko2001a; Padziński 2004a; Padziński 2004b; Sanetra 2004].

Sytuacja ta różni sięznacznie odstanu prac w bibliotekarstwiezachodnim,gdzie coraz śmielej przechodzi się do implementacji modeli teoretycznych w realnie działających systemach informacyjno-wyszukiwawczych. Część tych prac przedstawiona została wtej książce.

Układ poszczególnych rozdziałów książki dostosowany został do właściwego przedstawieniawymienionych problemów.Wybrane zagadnienia opisane są od najbar­

dziej ogólnych do szczegółowych. Omówiono kolejno: problemy opisu dokumentów internetowych, Semantyczny Web i jego Ontologie, metodologię tworzenia ontologii i modelowania konceptualnego, Ontologie biblioteczne, ontologię elektronicznych do­

kumentów internetowych.

Książkaskłada się z sześciurozdziałów, wstępu i zakończenia. W trzechpoczątko­ wych rozdziałach przedstawiono problemy związanez Semantycznym Webem i jego narzędziami. Rozdział pierwszyprezentuje ideę Semantycznego Webu na tle dotych­ czas funkcjonującego WWW,z zaznaczeniem roli metadanych- narzędziao zasadni­

czym znaczeniu (dla Semantycznego Webu) w porządkowaniu zasobów sieci rozle­ głych. Zastosowany tu podział metadanych na 2 grupy (opierające się na atrybutach i na obiektach) ma nacelu uporządkowanie wiedzy o ich funkcjach i roli. W rozdziale przedstawiono ponadto podstawowe standardy metadanych, a następnie opisano archi­

tekturę i technologie umożliwiające realizacjęSemantycznegoWebu.

Rozdział drugi stanowi wprowadzenie w zagadnienia dotyczące ontologii jako na­ rzędzia służącego konceptualizacji wiedzy. Podjęto w nim próbę przedstawienia róż­

nychznaczeńtego terminu stosowanych wfilozofii i w odniesieniu dosztucznej inteli­ gencji. Omówione zostały definicje ontologii, ich elementy składowe wykorzystywane podczas formalizacji wiedzy odomenie, rodzaje i sposoby tworzenia ontologii. Ma to naceluwyjaśnienieterminologii stosowanejwtej książce.

Rozdział trzeci przedstawia sposób prowadzenia analizy ontologicznej i związane z nią ontologicznemodelowaniewiedzy. Zawarto tu podstawowe informacje dotyczące modelowania typujednostka-relacja (ER) i modelowania obiektowego (OM). Zapre­

zentowano także język modelowania UML, ponieważ w niniejszym opracowaniu wszędzietam, gdzieto możliwe i właściwe, do modelowaniauniwersum bibliograficz­

negoposłużono się diagramami UML.

Drugą część pracy tworząrozdziałyczwarty i piąty, dotyczące organizacji wiedzy w bibliotekach. Rozdział czwarty służy przybliżeniu bibliotecznej organizacji wiedzy zgodnie z zaprezentowanąwcześniej metodologią analizy ontologicznej. Przedstawio­ now nimhistoryczny rozwój pojmowania celówkatalogowania i katalogów,wynika­

jące z nich zasady katalogowania, a także podstawowe elementy nowoczesnego mo­

(19)

Wstęp 17 delowania konceptualnego: jednostki i relacjebibliograficzne.Nie jest to pełnahistoria katalogowaniai katalogów, ale wyłącznie tejej elementy,których znajomośćpozwala na modelowanie konceptualne procesów organizacji informacji. W ostatniej części rozdziałupodjętoproblem wpływu nowychtechnologii na wzrost zapotrzebowania na wyrażanie relacji bibliograficznychi ich znaczenia w wyszukiwaniu informacji. Wiąże się to z możliwościami - i koniecznością - efektywniejszego zarządzania takimi rela­ cjami. Rezultatem doskonalenia procesu wyrażania relacji w opisach powinien być wzrostefektywności wyszukiwaniainformacji.

W rozdziale piątym przedstawione zostały wybrane biblioteczne Ontologie doku­

mentów, znane z literatury i zastosowań w działalności informacyjnej. Szczegółowo przedstawiono i omówiono model FRBR. Opisane zostały także modele stanowiące modyfikację FRBR, które wykorzystano w dalszej części pracy, podczas tworzenia ontologii elektronicznych dokumentów sieciowych (rozdz. 6). Opisano Ontologie IN- DECSi ABC, modelJean Hirons iCrystal Graham oraz ontologiępriorytetu Realizacji Shoichi Taniguchiego.

Ostatni rozdział jest efektem badań własnych autora. Przedstawiony został model konceptualny (ontologia domeny), dotyczący opisu sieciowych dokumentów elektro­ nicznych, pozwalający na zachowanie współdziałania pomiędzy schematami metada­ nych i integrację informacjidostępnejwformie elektronicznejw siecirozległej.

Dla potrzeb rozważań na temat ontologicznej reprezentacji dokumentów elektro­

nicznych konieczne było określenie charakterystycznych cech informacyjnych zaso­ bów sieciowych dostępnych zdalnie, często poprzez biblioteki lub archiwa cyfrowe, oraz różnic między nimi a tradycyjnymi zbiorami dokumentów zapisanych na nośni­

kach fizycznych (wktórych skład mogą wchodzićteż zasoby elektroniczne, utrwalone na nośnikach magnetycznych lub optycznych, o dostępie lokalnym), gromadzonych przez określonąinstytucję, np. bibliotekę.

W rozdzialeprzedstawiono zintegrowaną ontologię,pozwalającą modelować zjawi­

ska związane z dokumentami elektronicznymi dostępnymi poprzez sieć rozległą, wszczególności Internet. Zaproponowaną ontologięopisano przezwyróżnienie jedno­

stek bibliograficznych, wiążących je relacji, atakże atrybutówjednostek.

Na końcu rozdziału szóstego opisano wpływ przedstawionego modelu w zakresie modelowania konceptualnego i ogólnych zasad opracowania zasobów Webu. Rozwa­ żania te zakończono przykładem, obrazującym możliwości implementacji opisanej ontologii.

Podczas przygotowywania niniejszej publikacji wiele problemów stwarzały zagad­

nienia terminologiczne. Wspomniano już, że w literaturzepolskiej zagadnienia, którym poświęcona jest książka, dopiero zaczynają siępojawiać, więc odpowiedniaterminolo­ gianie jest jeszcze rozwinięta.Natomiastzagraniczni autorzybibliograficznych modeli konceptualnych stosują niejednokrotnie własne, niepowtarzalne nazewnictwo, kłopo­

tliwe w tłumaczeniu na język polski. Dodatkowo jest ono powiązane z terminologią informatyczną, stanowiącą trudno przyswajalny slang. Przy tym angielskojęzyczna terminologia jest w tych dziedzinach wiedzy tak rozpowszechniona, żepolskie odpo­ wiedniki częstobrzmią sztucznie. W przypadku wątpliwości, co do adekwatności tłu­

maczenia lub możliwości użycia różnychwersjinazw polskich, w nawiasie przytacza­

no nazwę oryginalną. Przykładem może być termin ‘hermetyzacja’ (ang. encapsula- tion), który bywa tłumaczony także jako kapsułowanie lub enkapsulacja (w tym przypadku przyjęto tłumaczenie stosowane w słownikach z zakresu obiektowości) lub

(20)

18 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

termin ‘jednostka’ (ang. entity) - tłumaczony w wielu informatycznych pracach doty­ czącychbaz danych i ontologii jako encja, natomiast w opracowaniach bibliotekarskich występujący sporadycznie.

Pragnę serdecznie podziękować Paniom Prof, dr hab. Marii Kocójowej i Prof, dr hab. Wandzie Pindlowej,które wspomagały powstawanietej pracy na każdym etapie, motywując autora do podejmowania kolejnych wysiłków podczas przygotowywania tekstu i prowadzenia własnych badań, a także Pani Prof, dr hab. Ewie Głowackiej, której trafne i wnikliwe uwagi bardzo przyczyniły siędonadania ostatecznego kształtu tej rozprawie.

(21)

1

SEMANTYCZNY WEB

Podczas wyszukiwania informacji w sieci użytkownicy polegają na stosunkowo pro­ stym jej indeksowaniu i/lub zmuszani są do większego wysiłku intelektualnego pod­ czas nawigacji7. Dlatego następnym krokiem twórców WWW było włączenie do glo­

balnej siecisztucznej inteligencji,którama zwiększyć efektywność tych wysiłków.

7 Nawigacja to termin używanydo określenia metody poruszania się po rozproszonych zasobachhi­

pertekstowego i hipermedialnego systemu dokumentów WWW. J. Woźniak przedstawia dwa znaczenia nawigacji: system stworzony w celu zapewnienia niesekwencyjnego (nieliniowego) przeglądania doku­

mentów oraz przyjęta przez użytkownika strategia wyszukiwawcza[Wożniak 2004bj.

Tim Berners-Lee zaprezentował wizję Semantycznego Webu, nazywanego także programowalnym Webemlub Webem wiedzy, któraprzenosi Web ijego podstawowe zasady działania bazujące na hipertekściena wyższy poziom, gdzie pojawia się inteli­ gentna nawigacja i wyszukiwanie informacji w sieci, zautomatyzowane korzystanie zrozproszonych źródeł informacji oraz usług opartych na wiedzy [Berners-Lee 1998;

Berners-Lee, Hendler, Lassila 2001].

Główną zasadą Semantycznego Webu jest reprezentacja i zastosowanie wiedzy zgromadzonej w Web. Pozwoli to na rozwiązanie zasadniczego problemu dotychcza­

sowej sieci: braku połączeniainformacji z wiedzą. Według WWW Consortium (W3C - http://www.w3.org/)podstawowedziałania w zakresie Semantycznego Webu powin­

nypolegać na umieszczeniu danych zrozumiałych dla maszynywWWW. Web może osiągnąć pełny potencjał tylko wtedy, jeżeli stanie się miejscem służącym rozprze­ strzenianiu i przetwarzaniu danych przy pomocyzarówno zautomatyzowanych narzę­ dzi, jak i ludzi. Służyć do tego będzie odpowiednie oprogramowanie, pozwalającena wymianę i przetwarzanie danych. Semantyczny Web jest wizją: zakłada posiadanie wInternecie danych zdefiniowanych i połączonych w taki sposób, aby mogły być użyteprzezmaszyny nie tylko w celu ich wyświetlenia, ale także automatycznej inte­ gracji i wielokrotnego użycia (ang. reusé)w wielu różnych aplikacjach.

Konsekwencją realizacji tej wizji będzie zasadnicza zmiana Webu i sposobów do­

stępu do niego. Wielu badaczy i przedstawicieli przemysłu traktuje tę propozycję po­

ważnie, pomimo zgłaszania licznych wątpliwości, wynikających ze społecznych i tech­

nicznych problemów, stawiających pod znakiem zapytania jej realność i praktyczne korzyści. Świadczą o tym kwoty wydawane na badania problemówi technologiisłużą­

cych Semantycznemu Webowi [Fensel2000].

(22)

20 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

1.1. Przed Semantycznym Webem: metadane

Metadane to ustrukturyzowanej czytelnemaszynowo dane zawierające charaktery­

stykę cyfrowych obiektów informacyjnych8 służącą ich efektywnemu oraz trafnemu wyszukiwaniu, szczególniew wielkich zasobach informacji w Internecie, zarządzaniu nimi i ich wartościowaniu [Nahotko 2004, s. 15]. Najczęściej mamy do czynienia z informacją opisową o źródle informacji, służącą poprawie jej maszynowego rozu­

mienia. Metadanesątechnologią o zasadniczym znaczeniu dla Semantycznego Webu, gdyżumożliwiają maszynowerozumienie treści zasobów sieci.

8 Obiektinformacyjny jest jednostką lub grupą jednostek,bez względuna ichrodzaj czy format,które posiadają adres(mogą byćodszukane) lubmogąbyć przetwarzaneprzez komputer jako pojedyncze obiek­

ty. Pojęcie to możebyć więc stosowane zarówno doobiektów pierwotnych (np. obrazów cyfrowych), jak i pochodnych (np.cech: treści, kontekstui struktury).

9 OCLC - OnlineComputer Library Center (http://www.oclc.org).

Wprawdzie termin ‘metadane’ jest stosunkowo nowy, ale kryjąsię pod nim pojęcia od dawna znane specjalistom informacji naukowej,jak choćby dane zawarte w biblio­ tecznych katalogach kartkowych. Bibliotekarze używają metadanych do opracowania piśmiennictwa; tu najpopularniejsze są formaty z grupy MARC, służące tworzeniu elektronicznych opisów bibliograficznych dokumentów bibliotecznych.

Badania nad wykorzystaniem metadanych trwają od wielu lat, tworząc podstawy praczwiązanych z SemantycznymWebem. We wcześniejszych publikacjach dotyczą­ cych semantyki odnośników hipertekstowych [Berners-Lee 1997; Kazienko 1998;

Sosińska-Kalata 1999; Wereszczyńska-Cisło 1997] uważa się metadane za semantykę dodaną wprost do odnośników, chociaż w Internecie dotychczas nie wykorzystano w pełni tej możliwości. Jednakczęsto semantyka włączana była w sam system hiper­

tekstu, bezudostępniania jej zewnętrznym procesom, co oznacza, że metadane nie były czytelne maszynowo.

Obecnie wykorzystuje się wieleróżnych schematów i standardówschematów me­ tadanych, co wskazuje na dużą aktywność badawczą w tej dziedzinie. Ich aplikacje charakteryzujeróżnorodność zastosowań.

1.1.1. Metadane oparte na atrybutach

Pierwsze standardy metadanych wykorzystywały metodę przydzielania wartości tekstowychatrybutom(lubcechom) dokumentów [Kampa 2002, s. 42-51]. Dokument może posiadaćna przykładatrybuty ‘Twórca’ lub ‘Data’ oraz ich wartości, odpowied­ nio ‘Marek Nahotko’ i ‘02.10.2006’. Taka forma danych jest łatwa do utworzenia przezautorówi do analizy podczas przetwarzania, np. w celu podstawowego indekso­

wania realizowanegoprzezwyszukiwarki.

Dublin Core

W marcu 1995 r. zaproszeni specjaliści z różnych dziedzin bliskich informatyce iinformacji naukowej spotkali się w Dublinie, w Ohio,w siedzibieOCLC9, aby prze­

dyskutować problemyzwiązane z opisem, udostępnianiem i przeszukiwaniem zasobów

(23)

Semantyczny Web 21 Webu. Spotkanie to zaowocowało przygotowaniem propozycji prostego zestawu ele­

mentów (atrybutów), odpowiednich zarówno dla zaawansowanych, jak i początkują­

cych użytkowników, do tworzenia opisów zasobów dostępnych online. Zestaw tych elementów znany jestpod nazwąDublin Core Metadata Element Set (DCMES). Jest on obecnie zarządzany przez Dublin Core Metadata Initiative (DCMI - http://dublin core.org/).

DCMES stanowi słownik wyrażeń odpowiednich do opisu podstawowych atrybu­ tów zasobów Intemetu, takich jak ‘Twórca’ czy ‘Data’. Specyfikacja zawiera raczej nazwy samych cech, niż syntaktykę mogącąsłużyć ich reprezentacji. Syntaktyka pozo­ stajepoza rozwiązaniami dotyczącymi bezpośrednio DCMES. Dla tworzenia metada­

nych wykorzystywana jest, na przykład, syntaktyka Resource Description Framework (RDF). Jej zastosowanie przedstawia następujący przykład:

<rdf:RDF xmlns:rdf=http://www.w3.org/l999/02/22-rdf-syntax-ns#

xmlns:dc=http://purl.org/dc/elements/l. l/>

<rdf:Descriptionrdf:about="http://nahotko.zajecia.webpark.pl">

<dc:creator>Marek Nahotko</dc:creator>

<dc:title>Zajęcia prowadzone wInstytucieInformacji Naukowej</dc:title>

<dc:description>Stronazawiera materiały i wskazówki dla studentów bibliotekoznaw­

stwana UJ</dc:description>

<dc :date>2006-10-07</dc : date>

</rdf:Description>

</rdf:RDF>

Przedstawiony w przykładzie fragment kodu definiuje metadane dotyczące strony Web zlokalizowanej na stronie http://nahotko.zajecia.webpark.pl/. Elementy Dublin Coresąidentyfikowane przez etykietę przestrzeni nazw dc: znajdującąsię przed nazwą atrybutu. W tym fragmencie wykorzystano cztery elementy Dublin Core: ‘Twórca’,

‘Tytuł’, ‘Opis’ i ‘Data’10.

10 Więcejprzykładów zastosowaniaRDF z DublinCoreznaleźć można np. w Bibliotece Cyfrowej Po­ litechniki Wrocławskiej (http://dlib.bg.pwr.wroc.pl/dlibra).

11 Współdziałanie jest zdolnością dwóch lub więcej systemów lub ichczęści do wymiany informacji oraz wykorzystania informacji pochodzących z wymianybez dodatkowychprac w każdym z systemów [Nahotko 2004, s. 14].

12 Dotyczą onenp.rozbudowy kwalifikatorów dlaelementów podstawowych, schematów kodowania.

Zestaw DCMES zawiera 15 elementów. Celem tej inicjatywy jeststworzenie pro­ stego, zrozumiałego i dostępnego jak największej grupie użytkowników zestawu ele­

mentów, zapewniającego jednocześnie współdziałanie różnych systemów11. Dublin Core stawiany jestw opozycji do standardu MARC, który uważany jest za trudny do adaptacji do powszechnegowykorzystania wWebie. Dla przykładu: MARC 21 zawie­ ra 1725 obecnie stosowanych pól i podpól [Moen, Bemardino 2003]. Prostota Dublin Core umożliwiamuzajmowanie pozycji najczęściej używanego standardu w zastoso­

waniachmetadanych i jest przyczyną jego sukcesu. Tym bardziej niepokojące sąwięc nieustanne prace prowadzone w DCMI, których efektemjest komplikowanie formatu izasad jegowykorzystania. Szczęśliwie, działania te odbywająsię poza podstawowym zestawem 15elementów12.

(24)

22 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

Formularze InternetAnonymous FTP Archives (IAFA)

Formularze IAFA zostały zaprojektowane w celu indeksowania archiwów ftp [Deutsch et al. 1995]. IAFA proponuje 14 formularzy, m.in. takich jak: użytkownik, organizacja, usługi, dokument i oprogramowanie. Każdy formularz zawiera atrybuty niezbędne do opisania obiektów, dla których formularz jest przeznaczony. Przykłado­

wo formularz ‘wydarzenia’ może być wykorzystany dla opisania pliku zawierającego zwiastun konferencji. Nazwy atrybutóww tym formularzu (zob. poniżej) sąoznaczone jako słowa napoczątku wiersza, zakończone dwukropkiem.

Template-Type: EVENT

Description: Zaproszenie do składania referatów na II konferencję Internet w bi­

bliotekach

Topics: Digitalizacjazbiorów bibliotek, Współpracabibliotek Deadlines:Abstrakty: 31 maj 2003; Pełne teksty: 15 sierpnia 2003.

Author-Email: a.n.autor@host.site.kraj Author-Name: A.N. Autor

Title: IIKonferencjaInternet w bibliotekach X-End-Date:2003-09-26

X-Start-Date: 2003-09-23

Last-Revision-Date-vO: 30Kwi2003 11:24:39

Summary Object InterchangeFormat(SOIF)

SOIFwykorzystywany jest przez system Harvest,będący zintegrowanym zestawem narzędzi służącym do gromadzenia, organizowaniai wyszukiwania informacjiw Inter­ necie [Hardy 1994]. SOIF bazuje na pracach wykonanych podczas konstruowania formularzy IAFA i narzędzi do tworzenia opisów bibliograficznych BibTeX. Jednak inaczej niż te standardy, SOIF został przeznaczony do obsługi danych binarnych.

Oznacza to, że może być wykorzystywany do opisu nagrań wideo, obrazów, plików skompresowanych i dokumentów postscriptowych, a także dokumentów tekstowych, takich jak kody programowe, HTMLi czyste(ang. raw) dane.

Harvest tworzyskróconą informację o obiektach i zapisuje ją w formacie SOIF, aby następnie informacje te gromadzić i indeksować. Dzięki temu można zadawać systemowiproste i złożone zapytania, napodstawie których wyszukiwana jest infor­

macja. Format metadanych opracowany jest w formie par atrybut-wartość. Poniżej przedstawiono przykład wykorzystania SOIF do określenia tytułu i autora strony WWW.

@DOCUMENT { http://bortnianka.webpark.pl/

title {20}: Gospodarstwo agroturystycznezaprasza author{29}: Andrzej Horbal

}

Etykiety meta w HTML

HyperText Markup Language (HTML) jest językiem, w którym zakodowanych za­ stało miliony dokumentów wWebie,przez co stanowi paradygmatycznystandard two­

rzenia metadanych. Niestety, HTML został zaprojektowany prawie wyłącznie jako format prezentacji danych, przez co ma bardzo niewiele elementów kodowania se­

(25)

Semantyczny Web 23

mantyki. Istnieją jednakdwaatrybuty (‘Description’ i ‘Keyword’) etykiet ‘meta’, które mogą być wstawiane do nagłówka dokumentu HTML w celu stworzenia skrótowego opisutreścidokumentu, np.

<HEAD>

<TITLE>Metadane</TITLE>

<META name="description" content="Ten dokument zawiera informacje o meta­ danych'^

<META name="keywords" content="metadane, opracowaniedokumentów elektro­

nicznych,Intemet">

</HEAD>

Te cechy umożliwiają autoromumieszczenie podstawowych metadanych wobrębie dokumentu HTML, pomimo że rozwiązanie to ma wiele wad, np. brak ustrukturyzo- wania i właściwego uszczegółowienia zawartości pól. Nie ma także zdefiniowanej metody lub standardu opisującego, jakie treści powinny zawierać pola. Mimo to nie­ które wyszukiwarki internetowe (np. Alta Vista) używają tych pól do podniesienia jakościprocesu indeksowaniadokumentów.

Możliwości wykorzystania metadanych w HTML zostały zwiększone przez utwo­

rzenie tzw. Platform for Internet Content Selection (PICS) [Resnick, Miller 1996].

Początkowo było to narzędzie ułatwiające kontrolę dostępu do wybranych typów do­

kumentów (np. pornografii), później wykorzystano je także przy realizacji podpisu elektronicznego i poufności danych.

Syntaktyka PICSjest kompatybilna z HTML:

<META http-equiv="PICS-Label"

content='(PICS-l. 1 http://www.rsac.org/ratingsv01.html comment"RSACi NorthAmerica Server"

for http://www.foobar.org on "2004.06.16T10:30-0500"

ratings (v3 n 4 s 3 1 2))’>

Tego typu kod PICS wstawiany jest do sekcji nagłówkowej dokumentu HTML, gdzieprocesy kontroli PICSwykorzystują go do określania, czy treści odpowiedniego źródła nadają siędo wyświetlenia. Każdejkategorii PICS przydzielona jest wartość od O do 4. W tym przykładzie stronie o adresiehttp://www.foobar.orgprzyznano wkate­

gorii ‘przemoc’ (v) wartość 3, kategorii ‘nagość’ (n) wartość 4, kategorii ‘seks’ (s) wartość 3 i kategorii ‘język’ wartość 2 (stronawięcprawdopodobnie nie nadaje siędla dzieci).

1.1.2. Metadane oparte na obiektach

Możliwości autorów dokumentów Webużywających metadanych odwołującychsię do atrybutów są ograniczone do tworzenia prostych stwierdzeń dotyczących tych do­

kumentów, takich jak ‘autoremjest Kowalski’. Metadane bazujące na obiektach są bardziej elastyczne dzięki umożliwieniu tworzenia dalszych stwierdzeń, dotyczących obiektóww dokumentach. Oprócz stwierdzenia, że autorem dokumentu jest ‘Jan Ko­ walski’, można na przykładdodać kolejnestwierdzenia, dotycząceadresu poczty elek­

tronicznejautora i jego stronydomowej.

(26)

24 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

Meta ContentFormat(MCF)

MCF jest formatem metadanych opierającym się na XML. Model jego danych przedstawiony został jakograf (zob. rys. 2), w którym węzły zawierająobiektylub ich atrybuty.

Obiekty mogą reprezentować cokolwiek, chociaż zazwyczaj wskazują na zasoby Webu. Co znamienne, metadane MCFsą przechowywane na zewnątrz w stosunku do dokumentu,który opisują. Kod przedstawiony poniżej opisuje przykładowo dwie stro­ nyWeb, obietypu ‘TextualityPage’. W tym przypadku ‘TextualityPage’ używany jest do ogólnego opisu strony WWW na stronie domowej Textuality Web. Posiada ona atrybuty ‘Autor’ i ‘Copyright’, które są przyznane odpowiednio dla ‘Textualitylnc.’

i ‘TextualityServices, Inc. All rights reserved’.

<WebPage id="w0001">

<url>http://www.textuality.com/</url>

<typeOf.T extualityPage</typeOf>

</WebPage>

<WebPage id="w0002"

<url>http://www.textuality.com/Lark/</url>

<typeO£>TextualityPage</typeOf>

</WebPage>

«¡Categoryid="TextualityPage">

<superTypeunit="WebPage"/>

«¡inheritspropertytype="AuthorOrg" unit="Textuality!nc"/>

(27)

Semantyczny Web 25

<inhertis propertytype="CopyrightNotice">

TextualityServices, Inc. All rights reserved.

</inherits>

</Category>

Proces przetwarzania metadanych umożliwia szybkie uzyskanie pełnej oceny do­

kumentów na stronieTextuality Web, natomiast w mniejszym stopniu służy lokalizo­ waniuiściąganiupojedynczychstron,składającychsięna dokument.Tadruga funkcja zależy też od poprawności i kompletności odnośników hipertekstowych pomiędzy dokumentami strony, gdyż to one są wykorzystywane do lokalizacji wszystkich tych stron.

MetadataEncoding and TransmissionStandard (METS)

METS (http://www.loc.gov/standards/mets/) zostałutworzony dla potrzeb standar­

dowej strukturydanych opisujących złożone obiekty biblioteki cyfrowej. Jest tosche­

mat XML służący tworzeniu dokumentów XML opisujących strukturę obiektów bi­ bliotekcyfrowych, związane z nimi metadane opisowe i administracyjne, a także na­ zwyi lokalizacjeplików, składających się na danyobiekt. Dzięki temu, żewyrażenia METStworzone są wjęzyku schematuXML, stanowi on format dokumentu dla kodo­

wania metadanych niezbędnych do zarządzania obiektami cyfrowymi, gromadzonymi w archiwach obiektów cyfrowych i wymianytych obiektów między archiwami.

DokumentMETS składa się z siedmiugłównych części:

1. Nagłówek METS - zawiera metadane opisujące sam dokument METS, w tym takie atrybutyjak ‘Twórca’, ‘Redaktor’ itp.:

<metsHdr CREATEDATE="2001-10-23T00:00:00" >

<agentROLE="CREATOR">

<name>Rick Beaubien</name>

</agent>

</metsHdr>

2. Metadane opisowe - odsyłajądo metadanych opisowych zewnętrznych w stosunku do dokumentu METS (np. rekord MARC w OPAC) lub do wewnętrznych metada­

nych opisowych, bądźdo obu.

3.Metadane administracyjne - dostarczają informacji dotyczącej sposobu tworzenia plików, ich przechowywania, praw własności intelektualnej, oryginalnego obiektu źródłowego, z którego powstał obiekt z biblioteki cyfrowej, oraz proweniencji pli­

kówskładających się na obiektcyfrowy.

4. Sekcja plików - wykazujewszystkie pliki zawierające treści składające się na wersje elektroniczneobiektucyfrowego.

5.Mapa strukturalna - opisuje strukturę hierarchiczną obiektu cyfrowego i wiąże ele­

menty tej struktury:

<structMap>

<divTYPE=“QUAD15” LABEL="San Francisco Quad">

<fptr FILEID="FIDl"/>

<fptr FILElD="FID20"/>

<divTYPE="map" LABEL="1895" DMDID="DM2">

<fptr FILEID="FID2"/>

<fptr FILEID="FID14"/>

(28)

26 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

<fptr FILEID="FID8"/>

</div>

</div>

</structMap>

6. Odnośniki strukturalne - pozwalają twórcom METS zapisywać węzły hierarchii opisanej wmapie strukturalnej.

7. Działania - łączą wykonywalnedziałania z treścią obiektu METS.

Nagłówek METS, sekcjaplików, mapa strukturalna, odnośniki strukturalne i dzia­

łaniadefiniowanesą w schemacieMETS. Struktura ta wyglądanastępująco:

<METS:mets>

<METS:metsHdr />

<METS:dmdSec />

<METS:amdSec/>

<METS:fileSec/>

<METS:structMap />

<METS:behaviorSec />

Nagłówek

Metadane opisowe Metadane administracyjne Sekcja plików

Mapa strukturalna Działania

</METS:mets>

METS w mniejszym stopniu zajmuje się metadanymi opisowymi i administracyj­

nymi, przerzucając te funkcje na schematy zewnętrzne, z których mają być pobierane specyficzne elementy. Dla metadanych opisowych przewidziano, na przykład, wyko­ rzystanietakich schematów metadanych,jak Dublin Core, MARCXMLi MODS.

XMLjako język metadanych

World Wide Web Consortium jest instytucją, która opublikowała kilka standardów, dotyczących zagadnień metadanych i współdziałania semantycznego. Jednym z naj­ ważniejszych jest Extensible Markup Language (XML), skrócona wersja Standard Generalized Markup Language (SGML). XML może być wykorzystywany do opisu strukturyi zawartościdokumentu, coumożliwiajegomaszynowe przetwarzanie.

Syn taktyka stosowana w XML jest podobna do HTML. Treści są otaczane przez etykiety elementów, można także umieszczać atrybuty i odesłania do jednostek. Ina­

czej jednak niż w HTML, XML posługuje się pojęciem ‘dobrego uformowania’ - ze­ stawem zasad gwarantujących jednolitość syntaktycznej reprezentacji danych (np.

wszystkie etykiety są zamknięte, atrybuty są w cudzysłowach, zagnieżdżanie jestdo­

zwolone). Aby zapisać krótki dokument XML opisujący dokument wideo, można na przykład stworzyć następującą reprezentację:

<?xml version=" 1,0?>

<!DOCTYPEvideo SYSTEM http://www.imdb.com.pl/video.dtd>

<video>

<tytuł>Historiaksiążki wzarysie</tytuł>

<producent>Jan Kowalski</producent>

<rok>2003</rok>

</video>

W wierszu DOCTYPE określony został typ dokumentu i wskazano definicję typu dokumentu (DTD), w której zdeklarowane są struktura i sposób przechowywania da­ nych pliku XML (tzn. jego gramatyka). Włączenie DTD jest opcjonalne, ale też ko­

rzystne z powodu zwiększenia możliwości współdziałania. Dzięki temu inni użytków-

(29)

Semantyczny Web 27

nicy wykorzystują DTD do tworzenia semantycznie odpowiadających sobie doku­

mentów, które sązrozumiałedlatych samychprocesów. DTD umożliwiają także two­ rzenie standardów międzynarodowych.

Elementy występujące w powyższym przykładzie: wideo, tytuł, producent i rok, służądo zdefiniowania atrybutówdokumentu wideo. Ta reprezentacja nie jest jedyną, która możesłużyć wyrażaniu danych o wideo w XML. Wręcz przeciwnie, istnieje nie­ skończonailość sposobówwyrażeniatej reprezentacji.

XML nie jest idealnym narzędziem tworzenia syntaktyki metadanych, jednak sta­ nowi ogólny, rozszerzalny i otwarty standard, pozwalający na efektywne definiowanie innych standardówdotyczącychsyntaktyki metadanych.

ResourceDescription Framework

RDF (http://www.w3c.org/TR/REC-rdf-syntax) jest kolejnym standardem przed­ stawionym przez W3C. Bazuje on na XML, a głównym jego celem jest zarządzanie metadanymi. Wielu autorów uważa go za idealne narzędzie, służące tworzeniu Se­

mantycznego Webu. Podstawowy modeldanych RDF składa się z trzech elementów13:

podmiotu (ang. subject), orzeczenia (ang. predicate) i dopełnienia (ang. object).

13 Możemy je również nazwać obiektem, atrybutem obiektu iwartością atrybutu.

Rys. 3.Model danych RDF z przykładowymi danymi (oprać,własne)

Wyróżniona trójka może być również określona jako (odpowiednio): źródło, atry­ but i literał. Atrybutźródła (tzn. określenielub twierdzenie) jest reprezentowany kon­

ceptualnie z wykorzystaniem etykietowanego grafu, jak przedstawiono na rysunku 3.

Odpowiednikod RDFwyglądanastępująco:

<rdf:RDF>

<rdf:Description about=http://nahotko.webpark.pl>

<s:Twórca>Marek Nahotko</s:Twórca>

</rdf:Description>

</rdf:RDF>

Źródło identyfikowane przez http://nahotko.webpark.pl posiada orzeczenie ‘Twór­

ca’ z wartością ‘Marek Nahotko’. Alternatywnie atrybut ‘Twórca’ możewskazywać na źródło.

Toczą siędyskusjenad wzajemnymi stosunkami RDFi XML. Wiążą się z tym dwa podstawoweaspektydotyczące reprezentacjimetadanych.

Po pierwsze, XMLsłuży jako formatwymienny, natomiast nie jestodpowiedni do reprezentacji metadanych zpowodu sposobu, w jaki danesą w nim modelowane. XML

Cytaty

Powiązane dokumenty

Ponadto można ustalić kolejność słów, które wyświetliliśmy: alfabetyczną, częstościową czy też a tergo oraz wybrać, czy program ma uwzględniać liczby, czy nie

nazywamy ruch, którego torem jest linia prosta, a szybkość ciała w. każdej sekundzie czasu wzrasta o tę

Zdecydowanie najlepszym rozwiązaniem jest ujmowanie gazu składowi- skowego połączone z produkcją energii, w Polsce głównie energii elektrycznej lub w skojarzeniu z energią

Also the model aerodynamic resistance in the condition under the carriage has to be determined and used for separating the wave-making

Babicz poinformował zebra- nych o stanie przygotowań do Sesji Jonstonowskiej i przedstawił projekt pro- gramu referatów, między którymi brak oceny dorobku Jana Jonstona przez

„Włączenie postanowień prawa wspólnotowego w systemy prawne poszczególnych państw członkowskich oraz generalnie litera i duch Traktatu powodują, że państwa te nie

tions  of  the  model  were  described,  broken  down  into  two  dimensions  ‐  cultural 

• Przewodniczący: dr Zbigniew Wałaszewski • Członek Zarządu: Przemysław Bociąga • Członek Zarządu: Maciej Ryng.