Opis dokumentów elektronicznych : teoretyczny model i możliwości jego aplikacji

(1)

(2)

(3)

Opis dokumentów elektronicznych

Teoretyczny model i możliwości jego aplikacji

Description of Digital Documents

Theoretical Model and Possibilities ol Its Application

(4)

Jagiellonian University Scholarly Fascicle MCCLXXXI

Studies in Library and Information Science Vol. 12 2006

Marek Nahotko

Description of Digital Documents

Theoretical Model and Possibilities ol Its Application

JAGIELLONIAN UNIVERSITY PRESS

(5)

Zeszyły Naukowe Uniwersytetu Jagiellońskiego MCCLXXXI

Prace z BibliotekoznawstwaiInformacji Naukowej Zeszyt IZ2006

Marek Nahotko

Opis dokumentów elektronicznych

Teoretyczny model i możliwości jego aplikacji

WYDAWNICTWO UNIWERSYTETU JAGIELLOŃSKIEGO

(6)

PublikacjadofinansowanaprzezUniwersytetJagielloński ze środkówcentralnej rezerwyna badaniawłasneorazInstytutuInformacjiNaukowej iBibliotekoznawstwa

REDAKTOR SERII

Dr hab. MariaKocójową, prof. UJ

RECENZENT

Drhab. Ewa Głowacka, prof. UMK

PROJEKTOKŁADKI Andrzej Harasz

Tekst na ostatniej stronieokładkinawiązuje dofragmentu publikacji PatrickaLe Boeufa [Le Boeuf 2005, s.2-3].

REDAKCJA

KatarzynaKolowca-Chmura

KOREKTA Elżbieta Wojtowicz SKŁAD I ŁAMANIE Regina Wojtyłko

All rightsreserved

Książka, ani żaden jej fragment,nie może byćprzedrukowywana bez pisemnej zgody Wydawcy.

Wsprawie zezwoleń na przedruk należy zwracać się do Wydawnictwa Uniwersytetu Jagiellońskiego

ISBN 83-233-2101-9 ISSN 1230-7025 www. wuj. pl

Wydawnictwo Uniwersytetu Jagiellońskiego Redakcja: ul. Michałowskiego9/2, 31-126 Kraków tel. 012-631-18-81,tel. /fax012-631-18-83 Dystrybucja: ul. Wrocławska 53, 30-011 Kraków tel. 012-631-01 -97,tel. /fax012-631-01-98

tel.kom. 0506-006-674,e-mail: wydaw@if. uj. edu. pl

Konto: BPHPBK SA IV/OKraków, nr62 1060 0076 000032000047 8769

(7)

SPIS TREŚCI

Wstęp... 9

Rozdział 1.Semantyczny Web... 19

1.1. PrzedSemantycznymWebem:metadane... 20

1.1.1. Metadaneopartena atrybutach... 20

1.1.2. Metadaneopartena obiektach... 23

1.1.3. Metadane w Webie... 29

1.2. SemantycznyWeb... 30

Rozdział 2. Teoretyczne podstawyontologii... 37

2. 1. Definicje ontologii... 38

2. 1.1. DefinicjaontologiiGrubera... 38

2.1.2. Definicjaontologii Guarino... 40

2. 1.3. Innedefinicje... 42

2.2. Podstawowe elementy ontologii... 44

2.3. Rodzajeontologii... 45

2.4. Inżynieriawiedzy(tworzenieontologii)... 47

Rozdział 3. Analizaontologiczna... 51

3. 1. Modelowanie... 52

3.2. Model ERimodelowanie obiektowe... 55

3.3. Ontologicznemodelowanie wiedzy... 58

3. 4. Metodologiaanalizyontologicznej... 62

Rozdział 4. Organizacja wiedzy wbibliotekach... 65

4. 1. Reprezentacja dokumentów... 66

4.1.1. Celebibliograficzne... 66

4.1.2. Podstawowezasadytworzeniaopisu bibliograficznego... 76

4.2. Metodydefiniowaniajednostek bibliograficznych... 78

4. 3. Relacje bibliograficzne... 80

4.3. 1. Rodzajerelacji bibliograficznych... 82

4. 3.2. Relacjebibliograficznewśrodowisku online... 89

Rozdział 5. Ontologiedokumentówbibliotecznych... 93

5.1. FRBR... 94

5. 1.1. Struktura FRBR... 95

5.1.2. FRANAR/FRAR... 102

5. 2. Rozszerzenieontologii FRBR w zakresie dokumentów elektronicznych... 104

5.2. 1. Ontologią INDECS... 105

5.2.2. OntologiąABC i model wydarzeń Lagoze’a... 108

(8)

6 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

5.2.3. OntologiąJean HironsiCrystal Graham: dokumentyzintegrowane... 113

5.2.4. Ontologiąpriorytetu Realizacji ShoichiTaniguchiego... 116

Rozdział 6. Modelowaniesieciowychdokumentów elektronicznych... 119

6.1. Katalogielektroniczne... 119

6.2. Dokumentyelektroniczne adokumenty tradycyjne... 124

6.2.1. Architektura dokumentów w Webie... 128

6.2.2. Hipertekst... 129

6.3. Ontologią sieciowychdokumentów elektronicznych... 131

6.3.1. RolaRealizacjiDzieła... 133

6.3.2. Jednostkimodelu trójpoziomowego... 137

6.3.3. Relacje bibliograficzne... 141

6.3.4. Wydarzeniai zintegrowane dokumentyelektroniczne... 143

6.3.5. Atrybuty jednostek... 149

6.3.6.Problemy aplikacyjne ontologii... 155

Zakończenie... 165

Wybórwykorzystanej literatury... 169

Indeks... 181

Wykazskrótów... 187

Wykazrysunków i tabel... 189

Summary... 191

(9)

WSTĘP

Przedmiotemniniejszej pracy są modele stosowane w systemach organizacji wiedzy1 (SOW) o obiektach bibliograficznych, stanowiącychelementuniwersum bibliograficz

nego, opisujące procesy biblioteczne wspomagające tworzenie wiedzy. Od stuleci wspomaganie tworzenia wiedzy wpisane jest w zawód bibliotekarza. Zadanie to reali zowane jest także obecnie, w wieku mnożenia światów wirtualnych i zmienności świata rzeczywistego.Niezmiennie bibliotekarz jest krytycznym pośrednikiem w prze pływieinformacjipomiędzytwórcami a użytkownikami dokumentów.

1 Organizacjawiedzy jestto układ (np. porządek)elementów wiedzyprzyjęty w danej jej reprezenta

cji. W SIW układ ten zdeterminowanyjest przez metody inarzędzia zapisuzbioru informacyjnego oraz relacji między jego elementami,a takżeprzeprowadzanych na tych elementach operacji [wg: Bojar (red.) 2002, s. 187]. Sposobyzdobywania, kodyfikowania, systematyzowania i dystrybucji wiedzy w organizacji nazywasię zarządzaniem wiedzą (KM) [Głowacka 2002, s. 46]. B. Sosińska-Kalata za twórcę tego terminu uważa Henry’ego Blissa, który użyłgo w 1933 r. w publikacji Organization of Knowledge in Libraries and the Subject Approach to Books [Sosińska-Kalata 2005, s. 141]. System organizacji wiedzy (SOW) oznacza różnego rodzaju schematy porządkowania informacji, ułatwiające zarządzanie wiedzą w różnychśrodowi skachidla różnych celów [Sosińska-Kalata 2005, s. 142].

2Konceptualizacja rzeczywistościjest tosystem pojęćstanowiący podstawę kategoryzacji informacji o rzeczywistości (świecie rzeczywistym), umożliwiający włączanie nowych informacji [Bojar(red.) 2002, s. 142]. Jest sposobem,wjaki myśli się okonceptualizowanej części otaczającegoświata. Kiedy wyobra

żamysobie świat lub jego część, w umyśle mamy mentalny model tej części świata. Konkretny sposób myśleniaodanejdziedzinie jest konceptualizacją. Jej precyzyjnyi szczegółowy opisnazywany jest specy

fikacją.Stanowi etappozwalającyna późniejsząreprezentację wiedzy.

Według MariiPróchnickiej przepływ wiedzy łączysię z koniecznością wykreowa nia sposobów dokonywania abstrakcji myślowej zadań wyszukiwawczych oraz form, w jakich te abstrakcje będą reprezentowane. System informacyjno-wyszukiwawczy (SIW) może byćrozpatrywany w trzech wzajemnie sobie odpowiadających perspekty

wach:

• intencjonalnej - określającej cel, dlaktórego został zaprojektowany, oraz cele jego użytkowników; w obrębie tej perspektywy koncentrujemy się na wzajemnym od

działywaniu i przepływie informacji międzysystememajego otoczeniem;

• konceptualnej (logicznej) - związanej ze strukturą systemu, organizacją danych, sposobamireprezentowania wiedzy oraz dystrybuowaniainformacjiprzezsystem;

• fizycznej - dotyczącej sfery materialno-sprzętowej systemu [Próchnicka 2004, s. 13].

Zagadnienia analizowane w niniejszej pracy związane są z konceptualizacją rze czywistości2 (zob. rys. 1) i dotycząsposobów organizacjiwiedzy stosowanych w dzia

(12)

łalności informacyjnej oraz narzędzi służących tworzeniu surogatów dokumentów w SIW,a więc reprezentacji wiedzy w tych systemach. W przedstawionejpracy bardzo istotną rolę odgrywa modelowanie procesów i zjawisk wiążących się z organizacją i reprezentacją wiedzy w systemach informacyjno-wyszukiwawczych.

Perspektywa konceptualna - struktura systemu - organizacja systemu

- sposoby reprezentacji wiedzy

Rys. 1. Podmioty wyszukiwania informacjiirelacjemiędzy nimi [za: Próchnicka 2004,s. 14]

Zdolność myślenia abstrakcyjnego orazplanowania i modelowania to najistotniej sze cechy ludzkiego umysłu. Od zarania dziejów homo sapiens wykorzystywał je do koordynowania działań podczas polowań, odnajdywania drogi czy tworzenia nowych narzędzi. Dziś modelowanie, także to realizowane zapomocą wielu różnych sformali

zowanych metodologii, obecne jest niemal we wszystkich działaniach człowieka. Mo

dele konceptualnemogą przybierać różne formy, np. tekstowąlub wizualizacji graficz

nej, mogą być tworzone na wysokim poziomie abstrakcji lub bardziej szczegółowo, bywają płaskie lub ustrukturyzowanehierarchicznie.

Organizacja wiedzy (ang. knowledgeorganization), przez niektórych autorów na zywana organizacją informacji, do tej pory - przynajmniej w postaci, w jakiej jest realizowana w bibliotekarstwie i informacji naukowej - byłamocno związana z two rzeniem narzędzi do przechowywania i wyszukiwania jednostek bibliograficznych.

Powstawały katalogi, indeksy czybazy danych, pozwalające na szybkie przeszukiwa

nie wielkich kolekcji rekordów, zawierających surogaty reprezentujące dokumenty, wraz zutrwalonąw nich wiedzą. Jakpiszę BarbaraSosińska-Kalata, wiedzaodwzoro

wana w dokumentacyjnych SIW odnosi się do dokumentów, traktowanych jako opisy wyodrębnionych wycinków rzeczywistości zewnętrznej. Przez modele organizacji wiedzy w dokumentacyjnych SIW rozumie się natomiastsposób, w jakistruktura wie

dzy, której fragmenty zawiera treść dokumentów, odwzorowana jest za pomocą metod i narzędzi reprezentacji informacji wykorzystywanych w tego rodzaju systemach [So sińska-Kalata 1999, s. 11]. Układ stosowany wewnątrz tych narzędzi może przyjmo wać różne formy, w zależności od ich struktury, przewidywanego sposobu wykorzy

stania, a takżeod reprezentowanejdziedziny wiedzy(domeny).

Jednym z podstawowych problemówbadawczychdotyczących SIWjestsposóbdo

stępu do wiedzy, w jednoczesnym odniesieniu do informacji i danych. Istnieje kilka

(13)

H^stęp 11

kluczowych cech różniących wiedzę od informacji. Należądo nich: obecność kontek

stu, powiązań, wyjaśnień; nadanie informacjiformydostosowanej do struktur poznaw czych użytkowników oraz ułatwiającej przyswojenie „wiedzy ukrytej” [Głowacka 2004, s. 20].

Coraz trudniej odnaleźć relewantne źródła wśród milionów rekordów umieszczo

nych w wielkich katalogach (szczególnie centralnych) i bazach danych, określić ich naturę, lokalizację i wartość w porównaniu z innymi, i w efekcie uzyskać dostęp do wiedzy, a nie do mało lub w ogóle nie relewantnej informacji. Większość działań związanychz organizacją wiedzy polega obecnie na organizacji informacji. Niewiele czyni się, aby „wiedza ukryta” stała się „wiedząjawną” [Fazlagić 2003, s. 8]. Wiedza kodowana jest w postaci danych bibliograficznych wbazach danych,jednak informa cja i daneniesąrestrukturyzowanei reprezentowane w formie wiedzy jawnej.

Wiedza jestefektem interpretacji informacji w określonym kontekście.Interpretacja tamoże być prowadzona zarówno przezpracownika informacji, jak i przez użytkowni ka. Polega ona na opisie i wyjaśnieniu określonego problemu na podstawie danych wzorcówlub ram określających znaczenie i relewancję informacji w stosunku do wy rażonychpotrzeb. Obecnie efektem pracy SIW jest wykaz dokumentówprawdopodob

nie relewantnych do zapytania. Wykaz ten jest następnie interpretowany przez użyt kownika w odniesieniudoposiadanego kontekstu. Część tego procesu może być prze prowadzona przez katalogującego przed wprowadzaniem danych, część przez system woparciu o przygotowany algorytm. Przekształcenie informacji w wiedzę następuje, gdyludzie:

• porównują i łącząinformacjęnowąz przyswojoną wcześniej,

• wyobrażająsobie konsekwencje swoich decyzji i działań,

• wymieniają i porównują idee i informacje [Fattahi 2002].

Wynikiem jest nowa, bardziej zrozumiała i wartościowa informacja. W systemach wyszukiwania informacji realizowanesą podobne procesy3.

3 Ewa Głowacka wyróżnia następujące działania podejmowanewcelu doskonalenia procesu informa

cyjnego: dodanieinformacjikontekstowej,podawanie informacjiotwórcy, oferowaniebaz ekspertowych, dodawanie materiałów multimedialnych oraz umożliwienie użytkownikom kontaktów ze specjalistami [Głowacka 2004, s.21].

Narzędzia reprezentacji informacji konstruowane były od stuleci na podstawie wie

dzy bibliograficznej, pragmatycznych celów stawianych samym dokumentom i przy jętych założeń dotyczących ich wykorzystania, a także ówczesnych możliwości tech

nologicznych. W drugiej połowie XIX w. powstałypierwsze zasady tworzenia katalo

gów. Stanowią one podstawę funkcjonowania bibliograficznych narzędzi wyszuki wawczych także w czasach współczesnych. Dziewiętnastowieczne bibliotekarstwo rozwinęło się międzyinnymi w wyniku zastosowanianaukowych metod modernizacji istniejącej bibliografii wzorganizowanej i ekonomicznie uzasadnionej formie. Biblio grafia, podobnie jak astronomia, została zrewolucjonizowana przez nowe technologie fotograficznei elektroniczne. Początkowo wielką szansąnamodernizacjęi rozwój były dla bibliotek techniki fotograficzne, a w szczególności graficzna reprodukcja opisów bibliograficznych w mikroskali. Miniaturyzacja była w połowie XX w. uważana za rozwiązanieproblemu rozrostu katalogów bibliotecznych, wynikającegoz gwałtowne go powiększania się zbiorów.

Jednak dopiero postępująca komputeryzacja zmieniła środowisko biblioteczne i otworzyła nowe możliwości w zakresie wyszukiwania informacji. Dodatkowo włą

(14)

czono w nie funkcje związanez udostępnianiem zbiorów. Ostatnie dekady XX w. to okres eksplozji informacji. Wbibliotekarstwie tradycyjne katalogowanie dokumentów, którego efektem były katalogi kartkowe, sprawiało, że na całym świecie w dużych bibliotekach powstawały znaczne zaległości w opracowaniu zbiorów. Pojawianiu się nowych formdokumentównietowarzyszyło tworzenie nowych zasad funkcjonowania systemów, mogących spełniać rosnące wymagania użytkowników bibliotek. W takich warunkach automatyzacjasystemówmanualnych wydawała się panaceum naproblemy bibliotekarzy, jednak jej realizacja spowodowała również wiele nieprzewidzianych zmian. W drugiej połowie XXw. w związku z automatyzacjąi komputeryzacją prac bibliograficznych zasady katalogowania zostały znacznie rozbudowane w celu umożliwienia zarządzania konstruowaniem zarówno surogatów dokumentów (tzn.

rekordów bibliograficznych), jak i samych narzędzi służących wyszukiwaniu.

Wostatnich dekadach ubiegłego wieku pojawiły się głosy żądające zastosowania empirycznychmetod badawczych do opisania zjawisk dotyczących organizacji wie dzy i postulujące dalszy rozwój narzędzi wyszukiwawczych. Takie badaniapodjęto, a ich efektem była automatyzacja wyszukiwania informacji bibliograficznej. Na po czątku XXI w. naukowcy zajmujący się organizacją wiedzy, oprócz metod empi

rycznych, zaczęli stosować jakościowe metody badawcze. W ograniczonymzakresie zastosowano także badania historyczne w celu zrozumienia kontekstu społecznego zjawisk dotyczących zarządzania wiedzą. Zainteresowano się także narzędziami ontologicznymi i epistemologicznymi, do opisu podstawowych struktur wiedzy [Smiraglia 2002]. Epistemologia jest działem filozofii, zajmującym się naturą i po

chodzeniem wiedzy. Roberto Poli przeciwstawia sobie narzędzia ontologii i episte

mologii w zakresie organizacji wiedzy, stwierdzając, że o ileOntologią reprezentuje

„obiektywną” stronę rzeczywistości, o tyle epistemologia reprezentuje jej stronę

„subiektywną”. Ontologią (z gr. istnienie, byt) pozwala na stworzenie obiektywnych ram,w którychmożna organizować wiedzę, natomiast epistemologia (z gr. wiedzieć) pozwala na percepcję wiedzy [Poli 1996]. Epistemologia dotyczy więcteorii natury wiedzy. O ileOntologią służy jako rama dlaorganizacji wiedzy,o tyle epistemologia dostarcza podstawowej informacji o obiektach w organizacji informacji [Smiraglia 2001a).

Na przykładzie zastosowań biznesowychprzedstawićmożnakolejne etapyrozwoju organizacji wiedzynaprzełomieXXi XXIw.:

• Etap pierwszy był okresem odkrywania nowych możliwości technologii informa cyjnych; technologie te (Internet, intranety itp.) wykorzystywano do wymiany ol

brzymiej ilości wiedzy nagromadzonej wewnątrz konsorcjów; powstawały nowe usługi, określanemianem organizacji wiedzy.

• Etap drugi, przypadający na lata dziewięćdziesiąte XX w., charakteryzował się zauważeniem znaczenia „czynnika ludzkiego” i wpływu wartości kulturowych na organizacjęwiedzy; system wiedzymusi być nie tylkodobry technicznie, ale także przydatny użytkownikom.

• Etap trzeci (początek XXI w.) cechowałozwrócenie uwagi na rolę treści informacji imożliwości ich wyszukiwania, a więc na układ,opisistrukturę tych treści; w tym czasie zainteresowano się takimi narzędziami,jak taksonomie i Ontologie.

• Etap czwarty, trwający obecnie, to zwrócenie się ku informacjom zewnętrznym, a nie tylko tworzonym wewnątrz organizacji, a więc ku usługom informacyjnym, będącym tradycyjnie domeną bibliotekarstwa [Koenig 2005].

(15)

Wstęp 13 Głównym źródłem zaufania do bibliografii od czasów starożytnych byłastosowana w niej identyfikacja autorstwa, czyli użycie pewnego rodzaju metadanych reprezentu jących dzieła piśmiennicze. Wiązała się z tym autorytatywna kontrola danych, ozna czająca możliwość korzystania z akceptowanego źródła informacji ijego opisu biblio

graficznego. Obecnie pojęcie to nabiera także nowego znaczenia. Patrick Wilsonjest autorem teorii dotyczącej autorytamości kognitywnej, czyli procesu, w którym nasz osobistyświat wiedzy wzajemnie oddziałuje z publicznie dostępnymiźródłami infor

macji [Mason 1995]. Teoria ta może być określona jako epistemologia społeczna, bę

dąca opisem procesów kognitywnych przebiegających pomiędzy dwoma umysłami.

Model ten różni się od idealizacji przetwarzania informacji, pojmowanego jako inte rakcja pojedynczego umysłu z jego otoczeniem. Ocena informacjijestokreślana jako wartość dodanado informacjiw procesie tworzeniawiedzy, szczególnie przy założeniu funkcjonowania continuum od danych przez informację i wiedzę domądrości.

Patrick Wilson próbował zmienić mniemania dotyczące katalogów bibliotecznych, twierdząc, że nie powiedziano jeszcze ostatniego słowa wzakresie kontroli bibliogra ficznej. Krytykowałwspółczesnymu sposób stosowania katalogów, twierdząc, że nie spełniają onecelów, dla których zostały przygotowane. Uważał, żekatalogi nie dostar

czają informacji o wszystkich publikacjach wybranego autora, a indeksowanie przed miotowe nie wykorzystuje swoich potencjalnych możliwości.

Patrick Wilson jest także autoremkoncepcji obszarów opisowych (ang. descriptive domain) i obszarów eksploracji (ang. exploitative domain). W tej teorii podstawową rolę odgrywają narzędzia bibliograficzne(katalogi, klasyfikacje). Obszar opisowy jest to zakres, w którymodbywa się opisowa działalność bibliograficzna. W obszarze opi

sowym katalogerzy, bibliografowie i indeksatorzy usiłują tworzyć wykazy o różnej głębokości i szczegółowości; są wnich zapisywane dane o istnieniu dzieł dostępnych dla wyszukujących. W obszarze eksploracji naukowcy poszukują odpowiedzi na pyta nia badawcze, starając się zrobićjak najlepszy użytek z zarejestrowanej wiedzy. Pró

bują więc odkryć to, co jest już znane, a w efekcie tego procesu tworzona jest nowa wiedza [Smiraglia 2002].

Według Elaine Svenonius przechodzenie od katalogów kartkowych do ich wersji online, choćtrwa już ponad trzydzieści lat, wciąż jest na etapie początkowym [Sveno

nius 2001a, s. 63]. Katalogi elektroniczne tworzone były jako zautomatyzowane odpo

wiedniki swoich kartkowych poprzedników, czyli z założeniem, że powinny służyć wyłącznie dolokalizowania pozycji znanych użytkownikowi lub tworzenia odpowiedzi na precyzyjnie sformułowane zapytania rzeczowe. Barbara Tillett stwierdziła nato miast, że wciąż pozostajemyw ciemnych wiekach, oczekując powstania konwencjo

nalnych urządzeń, takich jak strony tytułowe, które mogłyby być powszechniestoso

wane w opracowaniu dokumentów elektronicznych. Zamiast tego możemy zaobser

wować funkcjonowanie ‘samoopisujących się jednostek’, materializacji z hasłami zawierającymi standardową informacjęopisową (metadane) stanowiącą część elektro nicznegotekstu[Tillett 1996].

Zmiany związane z komputeryzacją następują tak szybko, że trudno pokusić się odokładne przewidywanie nawet bliskiej przyszłości. Nie oznacza to jednak, że wy starczy usiąść zboku i poczekać, ażopadnie „cyfrowy kurz”. Niezbędnejestuzyskanie właściwego poglądu na obecnie funkcjonujący świat publikacji,jak najdokładniejsze przedstawienie sobie tego, co może zdarzyć się w przyszłości, i jaknajlepsze planowa nie zastosowania produktów nowej technologii do obecnie istniejących zasobów in-

(16)

formacji. W przygotowaniach do funkcjonowania w tym nowym świecie mogą być pomocne współcześnie tworzonemetodymodelowania, w tym ontologicznego.

Niezbędnestająsięnarzędzia, pozwalające na współdziałanie słowników kontrolo

wanych oraz uproszczenie teorii i praktyki indeksowania dokumentów. Obecnie ist niejące narzędzia, takie jak LCSH czy MARC, są zbyt skomplikowane; do ich stoso

wania trzeba zatrudniać wysoko wykwalifikowany personel. Tworzone są więc nowe, łatwiejsze do zarządzania i stosowania, również takie, które mogą być samodzielnie wykorzystywane przez maszyny. Do nich należą Ontologie. Specjaliści z zakresu in

formatyki i informacji naukowej nadali noweznaczenie terminowi „Ontologią” w kon

tekście projektowania interfejsu człowiek-komputer: jestto opis pojęć i relacji między nimi, przeznaczony dla agenta4 lub wielu agentów, wyrażony w języku formalnym jako zestaw obiektów, nazw jednostek, standardowe słowniki itp.5 Ontologie w takim znaczeniu pozostają poza tradycyjną filozofią i odnoszą się do wymiany wiedzy mię dzy agentami (ludźmi, maszynami, sztucznymi inteligencjami).

4 Agent jest autonomiczną jednostką, posiadającą wyrażenieontologiczne, czylistwierdzenie,w któ rym zakładasię istnienierzeczy przez zbadanie istnienia innej rzeczy.Termin utworzony w filozofii. Każdy agent wykazuje zdolnośćdoautonomicznego działania dlaosiągnięcia założonych celów. W informatyce agentjest oprogramowaniem,działającym w określonym środowisku, zdolnym do komunikowania się, monitorowaniaswojegootoczenia ipodejmowania autonomicznych decyzji.

5 Definicja tego typu jest często stosowana w dokumentach normalizacyjnych [np. ISO 21127]. Defini cje ontologiiprzedstawione zostały szczegółowo w rozdz. 2.

6 Wedługprzyjętejkonwencji nazwy jednostek wyróżnianych w modelach konceptualnych zaczynają się dużą literą i pisane sąkursywą, np.Dzieło, Realizacja, Materializacja, Egzemplarz(jednostki wyróżnio ne w modeluFRBR). Atrybuty jednostek pisane są dużą literąiobjęte cudzysłowem, np. ‘Autor’, ‘Tytuł’.

Innym zadaniem jest zbadanie natury katalogu, przy założeniu możliwości jego in tegracji z innymi narzędziami wyszukiwawczymi, szczególniestosowanymi do odnaj dywania informacji w sieciach rozległych. Obecnie katalogi biblioteczne są narzę dziami, pozwalającymi na kontrolowany opis i dostęp do zasobów dokumentów fi zycznych i wirtualnych. W celu ich wykorzystania jako bramek internetowych czy portali należy prowadzić badania użytkowników, pozwalające na określenie sposobu i zakresu łączeniaróżnych narzędzi wyszukiwawczych (abstraktowych i indeksowych baz danych oraz katalogów bibliotecznych). Niezbędne jest także umożliwienie wy szukiwania w katalogu, który pozwoli na dotarcie do informacji dostępnej poprzez różne narzędzia wyszukiwawcze.

W niniejszej książce przedstawionazostała teza o możliwości rozwiązania zaryso

wanych problemów przez połączenie dwóch różnychpodejść: modeli konceptualnych wypracowanych w bibliotekoznawstwie i informacji naukowej (w szczególności FRBR, ale nie tylko) oraz narzędzi i technologii specyficznych dla Semantycznego Webu (ang. Semantic Web), w szczególności ontologii [Gradmann2003]. Przydatność takiego podejścia znajduje potwierdzenie w wielu obserwacjach.

Po pierwsze, informacja bibliograficzna tworzonaw bibliotekach w dużymstopniu pozostaje ukryta w tzw. „niewidocznym Internecie”. Łączenieróżnych poziomów in

formacji w rekordach bibliograficznych powoduje, że niebibliotekarze (czyli tzw.

użytkownicy końcowi) osiągają znacznie lepszą efektywność wyszukiwania, poprze

stając na stosowaniu standardowych technik wyszukiwania w zasobach sieci rozle głych, bez przeszukiwania tysięcy identycznych rekordów bibliograficznych wykazu

jącychjedynie różne Egzemplarze lub Materializacje tychsamychDziel6, „zanieczysz

czających” wyniki wyszukiwań wielościąinformacji redundantnych.

(17)

Wstęp 15 Po drugie,większość aspektów tworzonych przez bibliotekarzy modeli konceptual

nychoraz ich implementacje techniczne w większości systemów bibliotecznych mają niewiele wspólnego zhipertekstowąnaturąwyrażania relacjiw Webie; wszczególno

ścidotyczyto dokumentów złożonych,takich jak publikacje wielotomowei ciągłe, dla których stosowane sąpowiązania między rekordami. Jest to głównie problem wdroże

niowy, a nie konceptualny, gdyż struktury informacyjne z dużą ilością odnośników (ang. link) są typowe dla Intemetu. Jednaksposób,wjaki większość systemów biblio tecznych stosuje wewnętrzne struktury odnośników, jest trudny do przetłumaczeniana strukturyodnośników w WWW. Stwierdzenie to odnosi się do większości zautomaty zowanych systemów bibliotecznych i ich architektury danych, co bardzo ogranicza biblioteki, stwarzając strukturalny brakelastyczności technicznej.

Po trzecie, poważne problemy związane zmigracjądużej ilości danych do szersze

go środowiska technicznego powstrzymująwiększość bibliotekarzy przedposzukiwa

niem technicznych i funkcjonalnychalternatywdla aktualnych rozwiązań. Prowadzi to do sytuacji, gdy bibliotekarze zajmująsię głównie mało istotnymi szczegółamirozwią zań,zamiast badać możliwości zmian strukturalnych.

Powyższe obserwacjew pewnym stopniu mogą wyjaśnić przyczynę wciążpowol

nego wdrażania FRBR jakopodstawy nowych architektur informacji, chociaż zapewne istnieją także poważniejsze powody. Jednym z nich jestobawaprzed podejmowaniem wysiłków służących implementacji FRBR do istniejących zasobów danych i aplikacji katalogowych, bezjednoczesnego zastosowania standardowych technologii Intemetu.

Tylko takie połączenie daje możliwość utworzenia nowego, przyszłościowego modelu konceptualnegodziałalnościinformacyjnej.

Technologie SemantycznegoWebu, a w szczególności Ontologie, pozwalają na no

we i efektywniejsze wykorzystanie tradycyjnych semantycznych metadanych biblio

tecznych o dużej szczegółowości. Integracja technik Semantycznego Webu z wypra

cowanymi modelami katalogów bibliotecznych,nie tylkow celu realizacji wyszukiwa nia, ale także, na przykład, do generowania zasad wnioskowania logicznego, może znacznie wspomócpracę biblioteczną. Informacja,niezbędna do wyszukiwania i pro wadzenia wnioskowania dedukcyjnego, znajduje się w katalogach bibliotecznych, często stanowiąc element „niewidocznego Intemetu”. Narzędzia, takiejak Ontologie i agenci semantyczni, posłużą do budowy przyszłych systemów, które dzięki Seman tycznemu Webowi automatycznie będą docieraćdo niedostępnejobecnie informacji.

Z drugiej strony model FRBR i wynikająca z niego wielopoziomowa architektura metadanychjest szczególnie istotnym elementem umożliwiającym połączenie archi tektur metadanych typowych dla katalogów bibliotecznych oraz „płaskich” modeli metadanych typowych dla architektury informacji w Webie. Konsekwentna ewolucja katalogów bibliotecznych w stronę zastosowania podejścia opartego na FRBR pozwoli na znaczne obniżenie uciążliwościzjawisk przedstawionych powyżej,którepowodują, że biblioteczne zasoby metadanych wciąż są zamknięte w „niewidocznym Webie”.

Celem tej pracy jest stworzenie spójnej,uogólnionej koncepcji wykorzystania podsta wowychjednostek (ang. entity) semantycznych, Realizacji i Materializacji!Egzempla

rza do budowy modelu (ontologii), pozwalającego na wieloaspektowe opracowanie dokumentów elektronicznych. Stworzenie takiego modelu pozwoli na ukazanie wza jemnych relacji pomiędzy wyróżnionymijednostkami. Celten ma być osiągnięty przez

łączenie różnych modeli, tworzonych w różnych środowiskach, ale komplementarnych ze względu na podobieństwo implementacji. W efekcie możliwe będzie poprawne

(18)

zrozumienie struktur informacji, u podstaw których leży hybrydowe połączenie róż

nychmodeli. Prace prowadzące do łączeniaFRBRi innych modelitworzonychw śro dowiskach bibliotecznych oraz technologii Semantycznego Webu mogą spowodować zmianę paradygmatówwmodelowaniuinformacji.

Niniejsza praca odwołuje sięgłównie do publikacji zagranicznych, gdyżw polskim bibliotekoznawstwie i informacji naukowej zagadnienia dotyczące modelowania kon

ceptualnego nie sąjeszcze powszechnie znane. Niewątpliwie pomocne było podsta

wowe dzieło Barbary Sosińskiej-Kalaty, dotyczącemodeli organizacji wiedzy[Sosiń

ska-Kalata 1999] oraz praca Jadwigi Woźniak [Woźniak 2000]. Istniejątakże pojedyn cze publikacje przedstawiające FRBR jako modelopracowania zbiorów bibliotecznych [Golec-Nycz 2004;Nahotko2001a; Padziński 2004a; Padziński 2004b; Sanetra 2004].

Sytuacja ta różni sięznacznie odstanu prac w bibliotekarstwiezachodnim,gdzie coraz śmielej przechodzi się do implementacji modeli teoretycznych w realnie działających systemach informacyjno-wyszukiwawczych. Część tych prac przedstawiona została wtej książce.

Układ poszczególnych rozdziałów książki dostosowany został do właściwego przedstawieniawymienionych problemów.Wybrane zagadnienia opisane są od najbar

dziej ogólnych do szczegółowych. Omówiono kolejno: problemy opisu dokumentów internetowych, Semantyczny Web i jego Ontologie, metodologię tworzenia ontologii i modelowania konceptualnego, Ontologie biblioteczne, ontologię elektronicznych do

kumentów internetowych.

Książkaskłada się z sześciurozdziałów, wstępu i zakończenia. W trzechpoczątko wych rozdziałach przedstawiono problemy związanez Semantycznym Webem i jego narzędziami. Rozdział pierwszyprezentuje ideę Semantycznego Webu na tle dotych czas funkcjonującego WWW,z zaznaczeniem roli metadanych- narzędziao zasadni

czym znaczeniu (dla Semantycznego Webu) w porządkowaniu zasobów sieci rozle głych. Zastosowany tu podział metadanych na 2 grupy (opierające się na atrybutach i na obiektach) ma nacelu uporządkowanie wiedzy o ich funkcjach i roli. W rozdziale przedstawiono ponadto podstawowe standardy metadanych, a następnie opisano archi

tekturę i technologie umożliwiające realizacjęSemantycznegoWebu.

Rozdział drugi stanowi wprowadzenie w zagadnienia dotyczące ontologii jako na rzędzia służącego konceptualizacji wiedzy. Podjęto w nim próbę przedstawienia róż

nychznaczeńtego terminu stosowanych wfilozofii i w odniesieniu dosztucznej inteli gencji. Omówione zostały definicje ontologii, ich elementy składowe wykorzystywane podczas formalizacji wiedzy odomenie, rodzaje i sposoby tworzenia ontologii. Ma to naceluwyjaśnienieterminologii stosowanejwtej książce.

Rozdział trzeci przedstawia sposób prowadzenia analizy ontologicznej i związane z nią ontologicznemodelowaniewiedzy. Zawarto tu podstawowe informacje dotyczące modelowania typujednostka-relacja (ER) i modelowania obiektowego (OM). Zapre

zentowano także język modelowania UML, ponieważ w niniejszym opracowaniu wszędzietam, gdzieto możliwe i właściwe, do modelowaniauniwersum bibliograficz

negoposłużono się diagramami UML.

Drugą część pracy tworząrozdziałyczwarty i piąty, dotyczące organizacji wiedzy w bibliotekach. Rozdział czwarty służy przybliżeniu bibliotecznej organizacji wiedzy zgodnie z zaprezentowanąwcześniej metodologią analizy ontologicznej. Przedstawio now nimhistoryczny rozwój pojmowania celówkatalogowania i katalogów,wynika

jące z nich zasady katalogowania, a także podstawowe elementy nowoczesnego mo

(19)

Wstęp 17 delowania konceptualnego: jednostki i relacjebibliograficzne.Nie jest to pełnahistoria katalogowaniai katalogów, ale wyłącznie tejej elementy,których znajomośćpozwala na modelowanie konceptualne procesów organizacji informacji. W ostatniej części rozdziałupodjętoproblem wpływu nowychtechnologii na wzrost zapotrzebowania na wyrażanie relacji bibliograficznychi ich znaczenia w wyszukiwaniu informacji. Wiąże się to z możliwościami - i koniecznością - efektywniejszego zarządzania takimi rela cjami. Rezultatem doskonalenia procesu wyrażania relacji w opisach powinien być wzrostefektywności wyszukiwaniainformacji.

W rozdziale piątym przedstawione zostały wybrane biblioteczne Ontologie doku

mentów, znane z literatury i zastosowań w działalności informacyjnej. Szczegółowo przedstawiono i omówiono model FRBR. Opisane zostały także modele stanowiące modyfikację FRBR, które wykorzystano w dalszej części pracy, podczas tworzenia ontologii elektronicznych dokumentów sieciowych (rozdz. 6). Opisano Ontologie IN- DECSi ABC, modelJean Hirons iCrystal Graham oraz ontologiępriorytetu Realizacji Shoichi Taniguchiego.

Ostatni rozdział jest efektem badań własnych autora. Przedstawiony został model konceptualny (ontologia domeny), dotyczący opisu sieciowych dokumentów elektro nicznych, pozwalający na zachowanie współdziałania pomiędzy schematami metada nych i integrację informacjidostępnejwformie elektronicznejw siecirozległej.

Dla potrzeb rozważań na temat ontologicznej reprezentacji dokumentów elektro

nicznych konieczne było określenie charakterystycznych cech informacyjnych zaso bów sieciowych dostępnych zdalnie, często poprzez biblioteki lub archiwa cyfrowe, oraz różnic między nimi a tradycyjnymi zbiorami dokumentów zapisanych na nośni

kach fizycznych (wktórych skład mogą wchodzićteż zasoby elektroniczne, utrwalone na nośnikach magnetycznych lub optycznych, o dostępie lokalnym), gromadzonych przez określonąinstytucję, np. bibliotekę.

W rozdzialeprzedstawiono zintegrowaną ontologię,pozwalającą modelować zjawi

ska związane z dokumentami elektronicznymi dostępnymi poprzez sieć rozległą, wszczególności Internet. Zaproponowaną ontologięopisano przezwyróżnienie jedno

stek bibliograficznych, wiążących je relacji, atakże atrybutówjednostek.

Na końcu rozdziału szóstego opisano wpływ przedstawionego modelu w zakresie modelowania konceptualnego i ogólnych zasad opracowania zasobów Webu. Rozwa żania te zakończono przykładem, obrazującym możliwości implementacji opisanej ontologii.

Podczas przygotowywania niniejszej publikacji wiele problemów stwarzały zagad

nienia terminologiczne. Wspomniano już, że w literaturzepolskiej zagadnienia, którym poświęcona jest książka, dopiero zaczynają siępojawiać, więc odpowiedniaterminolo gianie jest jeszcze rozwinięta.Natomiastzagraniczni autorzybibliograficznych modeli konceptualnych stosują niejednokrotnie własne, niepowtarzalne nazewnictwo, kłopo

tliwe w tłumaczeniu na język polski. Dodatkowo jest ono powiązane z terminologią informatyczną, stanowiącą trudno przyswajalny slang. Przy tym angielskojęzyczna terminologia jest w tych dziedzinach wiedzy tak rozpowszechniona, żepolskie odpo wiedniki częstobrzmią sztucznie. W przypadku wątpliwości, co do adekwatności tłu

maczenia lub możliwości użycia różnychwersjinazw polskich, w nawiasie przytacza

no nazwę oryginalną. Przykładem może być termin ‘hermetyzacja’ (ang. encapsula- tion), który bywa tłumaczony także jako kapsułowanie lub enkapsulacja (w tym przypadku przyjęto tłumaczenie stosowane w słownikach z zakresu obiektowości) lub

(20)

termin ‘jednostka’ (ang. entity) - tłumaczony w wielu informatycznych pracach doty czącychbaz danych i ontologii jako encja, natomiast w opracowaniach bibliotekarskich występujący sporadycznie.

Pragnę serdecznie podziękować Paniom Prof, dr hab. Marii Kocójowej i Prof, dr hab. Wandzie Pindlowej,które wspomagały powstawanietej pracy na każdym etapie, motywując autora do podejmowania kolejnych wysiłków podczas przygotowywania tekstu i prowadzenia własnych badań, a także Pani Prof, dr hab. Ewie Głowackiej, której trafne i wnikliwe uwagi bardzo przyczyniły siędonadania ostatecznego kształtu tej rozprawie.

(21)

1 SEMANTYCZNY WEB

Podczas wyszukiwania informacji w sieci użytkownicy polegają na stosunkowo pro stym jej indeksowaniu i/lub zmuszani są do większego wysiłku intelektualnego pod czas nawigacji7. Dlatego następnym krokiem twórców WWW było włączenie do glo

balnej siecisztucznej inteligencji,którama zwiększyć efektywność tych wysiłków.

7 Nawigacja to termin używanydo określenia metody poruszania się po rozproszonych zasobachhi

pertekstowego i hipermedialnego systemu dokumentów WWW. J. Woźniak przedstawia dwa znaczenia nawigacji: system stworzony w celu zapewnienia niesekwencyjnego (nieliniowego) przeglądania doku

mentów oraz przyjęta przez użytkownika strategia wyszukiwawcza[Wożniak 2004bj.

Tim Berners-Lee zaprezentował wizję Semantycznego Webu, nazywanego także programowalnym Webemlub Webem wiedzy, któraprzenosi Web ijego podstawowe zasady działania bazujące na hipertekściena wyższy poziom, gdzie pojawia się inteli gentna nawigacja i wyszukiwanie informacji w sieci, zautomatyzowane korzystanie zrozproszonych źródeł informacji oraz usług opartych na wiedzy [Berners-Lee 1998;

Berners-Lee, Hendler, Lassila 2001].

Główną zasadą Semantycznego Webu jest reprezentacja i zastosowanie wiedzy zgromadzonej w Web. Pozwoli to na rozwiązanie zasadniczego problemu dotychcza

sowej sieci: braku połączeniainformacji z wiedzą. Według WWW Consortium (W3C - http://www.w3.org/)podstawowedziałania w zakresie Semantycznego Webu powin

nypolegać na umieszczeniu danych zrozumiałych dla maszynywWWW. Web może osiągnąć pełny potencjał tylko wtedy, jeżeli stanie się miejscem służącym rozprze strzenianiu i przetwarzaniu danych przy pomocyzarówno zautomatyzowanych narzę dzi, jak i ludzi. Służyć do tego będzie odpowiednie oprogramowanie, pozwalającena wymianę i przetwarzanie danych. Semantyczny Web jest wizją: zakłada posiadanie wInternecie danych zdefiniowanych i połączonych w taki sposób, aby mogły być użyteprzezmaszyny nie tylko w celu ich wyświetlenia, ale także automatycznej inte gracji i wielokrotnego użycia (ang. reusé)w wielu różnych aplikacjach.

Konsekwencją realizacji tej wizji będzie zasadnicza zmiana Webu i sposobów do

stępu do niego. Wielu badaczy i przedstawicieli przemysłu traktuje tę propozycję po

ważnie, pomimo zgłaszania licznych wątpliwości, wynikających ze społecznych i tech

nicznych problemów, stawiających pod znakiem zapytania jej realność i praktyczne korzyści. Świadczą o tym kwoty wydawane na badania problemówi technologiisłużą

cych Semantycznemu Webowi [Fensel2000].

(22)

1.1. Przed Semantycznym Webem: metadane

Metadane to ustrukturyzowanej czytelnemaszynowo dane zawierające charaktery

stykę cyfrowych obiektów informacyjnych8 służącą ich efektywnemu oraz trafnemu wyszukiwaniu, szczególniew wielkich zasobach informacji w Internecie, zarządzaniu nimi i ich wartościowaniu [Nahotko 2004, s. 15]. Najczęściej mamy do czynienia z informacją opisową o źródle informacji, służącą poprawie jej maszynowego rozu

mienia. Metadanesątechnologią o zasadniczym znaczeniu dla Semantycznego Webu, gdyżumożliwiają maszynowerozumienie treści zasobów sieci.

8 Obiektinformacyjny jest jednostką lub grupą jednostek,bez względuna ichrodzaj czy format,które posiadają adres(mogą byćodszukane) lubmogąbyć przetwarzaneprzez komputer jako pojedyncze obiek

ty. Pojęcie to możebyć więc stosowane zarówno doobiektów pierwotnych (np. obrazów cyfrowych), jak i pochodnych (np.cech: treści, kontekstui struktury).

9 OCLC - OnlineComputer Library Center (http://www.oclc.org).

Wprawdzie termin ‘metadane’ jest stosunkowo nowy, ale kryjąsię pod nim pojęcia od dawna znane specjalistom informacji naukowej,jak choćby dane zawarte w biblio tecznych katalogach kartkowych. Bibliotekarze używają metadanych do opracowania piśmiennictwa; tu najpopularniejsze są formaty z grupy MARC, służące tworzeniu elektronicznych opisów bibliograficznych dokumentów bibliotecznych.

Badania nad wykorzystaniem metadanych trwają od wielu lat, tworząc podstawy praczwiązanych z SemantycznymWebem. We wcześniejszych publikacjach dotyczą cych semantyki odnośników hipertekstowych [Berners-Lee 1997; Kazienko 1998;

Sosińska-Kalata 1999; Wereszczyńska-Cisło 1997] uważa się metadane za semantykę dodaną wprost do odnośników, chociaż w Internecie dotychczas nie wykorzystano w pełni tej możliwości. Jednakczęsto semantyka włączana była w sam system hiper

tekstu, bezudostępniania jej zewnętrznym procesom, co oznacza, że metadane nie były czytelne maszynowo.

Obecnie wykorzystuje się wieleróżnych schematów i standardówschematów me tadanych, co wskazuje na dużą aktywność badawczą w tej dziedzinie. Ich aplikacje charakteryzujeróżnorodność zastosowań.

1.1.1. Metadane oparte na atrybutach

Pierwsze standardy metadanych wykorzystywały metodę przydzielania wartości tekstowychatrybutom(lubcechom) dokumentów [Kampa 2002, s. 42-51]. Dokument może posiadaćna przykładatrybuty ‘Twórca’ lub ‘Data’ oraz ich wartości, odpowied nio ‘Marek Nahotko’ i ‘02.10.2006’. Taka forma danych jest łatwa do utworzenia przezautorówi do analizy podczas przetwarzania, np. w celu podstawowego indekso

wania realizowanegoprzezwyszukiwarki.

Dublin Core

W marcu 1995 r. zaproszeni specjaliści z różnych dziedzin bliskich informatyce iinformacji naukowej spotkali się w Dublinie, w Ohio,w siedzibieOCLC9, aby prze

dyskutować problemyzwiązane z opisem, udostępnianiem i przeszukiwaniem zasobów

(23)

Semantyczny Web 21 Webu. Spotkanie to zaowocowało przygotowaniem propozycji prostego zestawu ele

mentów (atrybutów), odpowiednich zarówno dla zaawansowanych, jak i początkują

cych użytkowników, do tworzenia opisów zasobów dostępnych online. Zestaw tych elementów znany jestpod nazwąDublin Core Metadata Element Set (DCMES). Jest on obecnie zarządzany przez Dublin Core Metadata Initiative (DCMI - http://dublin core.org/).

DCMES stanowi słownik wyrażeń odpowiednich do opisu podstawowych atrybu tów zasobów Intemetu, takich jak ‘Twórca’ czy ‘Data’. Specyfikacja zawiera raczej nazwy samych cech, niż syntaktykę mogącąsłużyć ich reprezentacji. Syntaktyka pozo stajepoza rozwiązaniami dotyczącymi bezpośrednio DCMES. Dla tworzenia metada

nych wykorzystywana jest, na przykład, syntaktyka Resource Description Framework (RDF). Jej zastosowanie przedstawia następujący przykład:

<rdf:RDF xmlns:rdf=http://www.w3.org/l999/02/22-rdf-syntax-ns#

xmlns:dc=http://purl.org/dc/elements/l. l/>

<rdf:Descriptionrdf:about="http://nahotko.zajecia.webpark.pl">

<dc:creator>Marek Nahotko</dc:creator>

<dc:title>Zajęcia prowadzone wInstytucieInformacji Naukowej</dc:title>

<dc:description>Stronazawiera materiały i wskazówki dla studentów bibliotekoznaw

stwana UJ</dc:description>

</rdf:Description>

</rdf:RDF>

Przedstawiony w przykładzie fragment kodu definiuje metadane dotyczące strony Web zlokalizowanej na stronie http://nahotko.zajecia.webpark.pl/. Elementy Dublin Coresąidentyfikowane przez etykietę przestrzeni nazw dc: znajdującąsię przed nazwą atrybutu. W tym fragmencie wykorzystano cztery elementy Dublin Core: ‘Twórca’,

‘Tytuł’, ‘Opis’ i ‘Data’10.

10 Więcejprzykładów zastosowaniaRDF z DublinCoreznaleźć można np. w Bibliotece Cyfrowej Po litechniki Wrocławskiej (http://dlib.bg.pwr.wroc.pl/dlibra).

11 Współdziałanie jest zdolnością dwóch lub więcej systemów lub ichczęści do wymiany informacji oraz wykorzystania informacji pochodzących z wymianybez dodatkowychprac w każdym z systemów [Nahotko 2004, s. 14].

12 Dotyczą onenp.rozbudowy kwalifikatorów dlaelementów podstawowych, schematów kodowania.

Zestaw DCMES zawiera 15 elementów. Celem tej inicjatywy jeststworzenie pro stego, zrozumiałego i dostępnego jak największej grupie użytkowników zestawu ele

mentów, zapewniającego jednocześnie współdziałanie różnych systemów11. Dublin Core stawiany jestw opozycji do standardu MARC, który uważany jest za trudny do adaptacji do powszechnegowykorzystania wWebie. Dla przykładu: MARC 21 zawie ra 1725 obecnie stosowanych pól i podpól [Moen, Bemardino 2003]. Prostota Dublin Core umożliwiamuzajmowanie pozycji najczęściej używanego standardu w zastoso

waniachmetadanych i jest przyczyną jego sukcesu. Tym bardziej niepokojące sąwięc nieustanne prace prowadzone w DCMI, których efektemjest komplikowanie formatu izasad jegowykorzystania. Szczęśliwie, działania te odbywająsię poza podstawowym zestawem 15elementów12.

(24)

Formularze InternetAnonymous FTP Archives (IAFA)

Formularze IAFA zostały zaprojektowane w celu indeksowania archiwów ftp [Deutsch et al. 1995]. IAFA proponuje 14 formularzy, m.in. takich jak: użytkownik, organizacja, usługi, dokument i oprogramowanie. Każdy formularz zawiera atrybuty niezbędne do opisania obiektów, dla których formularz jest przeznaczony. Przykłado

wo formularz ‘wydarzenia’ może być wykorzystany dla opisania pliku zawierającego zwiastun konferencji. Nazwy atrybutóww tym formularzu (zob. poniżej) sąoznaczone jako słowa napoczątku wiersza, zakończone dwukropkiem.

Template-Type: EVENT

Description: Zaproszenie do składania referatów na II konferencję Internet w bi

bliotekach

Topics: Digitalizacjazbiorów bibliotek, Współpracabibliotek Deadlines:Abstrakty: 31 maj 2003; Pełne teksty: 15 sierpnia 2003.

Author-Email: a.n.autor@host.site.kraj Author-Name: A.N. Autor

Title: IIKonferencjaInternet w bibliotekach X-End-Date:2003-09-26

X-Start-Date: 2003-09-23

Last-Revision-Date-vO: 30Kwi2003 11:24:39

Summary Object InterchangeFormat(SOIF)

SOIFwykorzystywany jest przez system Harvest,będący zintegrowanym zestawem narzędzi służącym do gromadzenia, organizowaniai wyszukiwania informacjiw Inter necie [Hardy 1994]. SOIF bazuje na pracach wykonanych podczas konstruowania formularzy IAFA i narzędzi do tworzenia opisów bibliograficznych BibTeX. Jednak inaczej niż te standardy, SOIF został przeznaczony do obsługi danych binarnych.

Oznacza to, że może być wykorzystywany do opisu nagrań wideo, obrazów, plików skompresowanych i dokumentów postscriptowych, a także dokumentów tekstowych, takich jak kody programowe, HTMLi czyste(ang. raw) dane.

Harvest tworzyskróconą informację o obiektach i zapisuje ją w formacie SOIF, aby następnie informacje te gromadzić i indeksować. Dzięki temu można zadawać systemowiproste i złożone zapytania, napodstawie których wyszukiwana jest infor

macja. Format metadanych opracowany jest w formie par atrybut-wartość. Poniżej przedstawiono przykład wykorzystania SOIF do określenia tytułu i autora strony WWW.

@DOCUMENT { http://bortnianka.webpark.pl/

title {20}: Gospodarstwo agroturystycznezaprasza author{29}: Andrzej Horbal

}

Etykiety meta w HTML

HyperText Markup Language (HTML) jest językiem, w którym zakodowanych za stało miliony dokumentów wWebie,przez co stanowi paradygmatycznystandard two

rzenia metadanych. Niestety, HTML został zaprojektowany prawie wyłącznie jako format prezentacji danych, przez co ma bardzo niewiele elementów kodowania se

(25)

Semantyczny Web 23

mantyki. Istnieją jednakdwaatrybuty (‘Description’ i ‘Keyword’) etykiet ‘meta’, które mogą być wstawiane do nagłówka dokumentu HTML w celu stworzenia skrótowego opisutreścidokumentu, np.

<HEAD>

<TITLE>Metadane</TITLE>

<META name="description" content="Ten dokument zawiera informacje o meta danych'^

<META name="keywords" content="metadane, opracowaniedokumentów elektro

nicznych,Intemet">

</HEAD>

Te cechy umożliwiają autoromumieszczenie podstawowych metadanych wobrębie dokumentu HTML, pomimo że rozwiązanie to ma wiele wad, np. brak ustrukturyzo- wania i właściwego uszczegółowienia zawartości pól. Nie ma także zdefiniowanej metody lub standardu opisującego, jakie treści powinny zawierać pola. Mimo to nie które wyszukiwarki internetowe (np. Alta Vista) używają tych pól do podniesienia jakościprocesu indeksowaniadokumentów.

Możliwości wykorzystania metadanych w HTML zostały zwiększone przez utwo

rzenie tzw. Platform for Internet Content Selection (PICS) [Resnick, Miller 1996].

Początkowo było to narzędzie ułatwiające kontrolę dostępu do wybranych typów do

kumentów (np. pornografii), później wykorzystano je także przy realizacji podpisu elektronicznego i poufności danych.

Syntaktyka PICSjest kompatybilna z HTML:

<META http-equiv="PICS-Label"

content='(PICS-l. 1 http://www.rsac.org/ratingsv01.html comment"RSACi NorthAmerica Server"

for http://www.foobar.org on "2004.06.16T10:30-0500"

ratings (v3 n 4 s 3 1 2))’>

Tego typu kod PICS wstawiany jest do sekcji nagłówkowej dokumentu HTML, gdzieprocesy kontroli PICSwykorzystują go do określania, czy treści odpowiedniego źródła nadają siędo wyświetlenia. Każdejkategorii PICS przydzielona jest wartość od O do 4. W tym przykładzie stronie o adresiehttp://www.foobar.orgprzyznano wkate

gorii ‘przemoc’ (v) wartość 3, kategorii ‘nagość’ (n) wartość 4, kategorii ‘seks’ (s) wartość 3 i kategorii ‘język’ wartość 2 (stronawięcprawdopodobnie nie nadaje siędla dzieci).

1.1.2. Metadane oparte na obiektach

Możliwości autorów dokumentów Webużywających metadanych odwołującychsię do atrybutów są ograniczone do tworzenia prostych stwierdzeń dotyczących tych do

kumentów, takich jak ‘autoremjest Kowalski’. Metadane bazujące na obiektach są bardziej elastyczne dzięki umożliwieniu tworzenia dalszych stwierdzeń, dotyczących obiektóww dokumentach. Oprócz stwierdzenia, że autorem dokumentu jest ‘Jan Ko walski’, można na przykładdodać kolejnestwierdzenia, dotycząceadresu poczty elek

tronicznejautora i jego stronydomowej.

(26)

Meta ContentFormat(MCF)

MCF jest formatem metadanych opierającym się na XML. Model jego danych przedstawiony został jakograf (zob. rys. 2), w którym węzły zawierająobiektylub ich atrybuty.

Obiekty mogą reprezentować cokolwiek, chociaż zazwyczaj wskazują na zasoby Webu. Co znamienne, metadane MCFsą przechowywane na zewnątrz w stosunku do dokumentu,który opisują. Kod przedstawiony poniżej opisuje przykładowo dwie stro nyWeb, obietypu ‘TextualityPage’. W tym przypadku ‘TextualityPage’ używany jest do ogólnego opisu strony WWW na stronie domowej Textuality Web. Posiada ona atrybuty ‘Autor’ i ‘Copyright’, które są przyznane odpowiednio dla ‘Textualitylnc.’

<url>http://www.textuality.com/</url>

<typeOf.T extualityPage</typeOf>

</WebPage>

<WebPage id="w0002"

<url>http://www.textuality.com/Lark/</url>

<typeO£>TextualityPage</typeOf>

</WebPage>

«¡Categoryid="TextualityPage">

<superTypeunit="WebPage"/>

«¡inheritspropertytype="AuthorOrg" unit="Textuality!nc"/>

(27)

</inherits>

</Category>

Proces przetwarzania metadanych umożliwia szybkie uzyskanie pełnej oceny do

kumentów na stronieTextuality Web, natomiast w mniejszym stopniu służy lokalizo waniuiściąganiupojedynczychstron,składającychsięna dokument.Tadruga funkcja zależy też od poprawności i kompletności odnośników hipertekstowych pomiędzy dokumentami strony, gdyż to one są wykorzystywane do lokalizacji wszystkich tych stron.

MetadataEncoding and TransmissionStandard (METS)

METS (http://www.loc.gov/standards/mets/) zostałutworzony dla potrzeb standar

dowej strukturydanych opisujących złożone obiekty biblioteki cyfrowej. Jest tosche

mat XML służący tworzeniu dokumentów XML opisujących strukturę obiektów bi bliotekcyfrowych, związane z nimi metadane opisowe i administracyjne, a także na zwyi lokalizacjeplików, składających się na danyobiekt. Dzięki temu, żewyrażenia METStworzone są wjęzyku schematuXML, stanowi on format dokumentu dla kodo

wania metadanych niezbędnych do zarządzania obiektami cyfrowymi, gromadzonymi w archiwach obiektów cyfrowych i wymianytych obiektów między archiwami.

DokumentMETS składa się z siedmiugłównych części:

1. Nagłówek METS - zawiera metadane opisujące sam dokument METS, w tym takie atrybutyjak ‘Twórca’, ‘Redaktor’ itp.:

<agentROLE="CREATOR">

<name>Rick Beaubien</name>

</agent>

</metsHdr>

2. Metadane opisowe - odsyłajądo metadanych opisowych zewnętrznych w stosunku do dokumentu METS (np. rekord MARC w OPAC) lub do wewnętrznych metada

nych opisowych, bądźdo obu.

3.Metadane administracyjne - dostarczają informacji dotyczącej sposobu tworzenia plików, ich przechowywania, praw własności intelektualnej, oryginalnego obiektu źródłowego, z którego powstał obiekt z biblioteki cyfrowej, oraz proweniencji pli

kówskładających się na obiektcyfrowy.

4. Sekcja plików - wykazujewszystkie pliki zawierające treści składające się na wersje elektroniczneobiektucyfrowego.

5.Mapa strukturalna - opisuje strukturę hierarchiczną obiektu cyfrowego i wiąże ele

menty tej struktury:

<divTYPE=“QUAD15” LABEL="San Francisco Quad">

<divTYPE="map" LABEL="1895" DMDID="DM2">

(28)

</div>

</structMap>

6. Odnośniki strukturalne - pozwalają twórcom METS zapisywać węzły hierarchii opisanej wmapie strukturalnej.

7. Działania - łączą wykonywalnedziałania z treścią obiektu METS.

Nagłówek METS, sekcjaplików, mapa strukturalna, odnośniki strukturalne i dzia

łaniadefiniowanesą w schemacieMETS. Struktura ta wyglądanastępująco:

<METS:mets>

<METS:metsHdr />

<METS:dmdSec />

<METS:amdSec/>

<METS:fileSec/>

<METS:structMap />

<METS:behaviorSec />

Nagłówek

Metadane opisowe Metadane administracyjne Sekcja plików

Mapa strukturalna Działania

</METS:mets>

METS w mniejszym stopniu zajmuje się metadanymi opisowymi i administracyj

nymi, przerzucając te funkcje na schematy zewnętrzne, z których mają być pobierane specyficzne elementy. Dla metadanych opisowych przewidziano, na przykład, wyko rzystanietakich schematów metadanych,jak Dublin Core, MARCXMLi MODS.

XMLjako język metadanych

World Wide Web Consortium jest instytucją, która opublikowała kilka standardów, dotyczących zagadnień metadanych i współdziałania semantycznego. Jednym z naj ważniejszych jest Extensible Markup Language (XML), skrócona wersja Standard Generalized Markup Language (SGML). XML może być wykorzystywany do opisu strukturyi zawartościdokumentu, coumożliwiajegomaszynowe przetwarzanie.

Syn taktyka stosowana w XML jest podobna do HTML. Treści są otaczane przez etykiety elementów, można także umieszczać atrybuty i odesłania do jednostek. Ina

czej jednak niż w HTML, XML posługuje się pojęciem ‘dobrego uformowania’ - ze stawem zasad gwarantujących jednolitość syntaktycznej reprezentacji danych (np.

wszystkie etykiety są zamknięte, atrybuty są w cudzysłowach, zagnieżdżanie jestdo

zwolone). Aby zapisać krótki dokument XML opisujący dokument wideo, można na przykład stworzyć następującą reprezentację:

<?xml version=" 1,0?>

<!DOCTYPEvideo SYSTEM http://www.imdb.com.pl/video.dtd>

<video>

<tytuł>Historiaksiążki wzarysie</tytuł>

<producent>Jan Kowalski</producent>

</video>

W wierszu DOCTYPE określony został typ dokumentu i wskazano definicję typu dokumentu (DTD), w której zdeklarowane są struktura i sposób przechowywania da nych pliku XML (tzn. jego gramatyka). Włączenie DTD jest opcjonalne, ale też ko

rzystne z powodu zwiększenia możliwości współdziałania. Dzięki temu inni użytków-

(29)

nicy wykorzystują DTD do tworzenia semantycznie odpowiadających sobie doku

mentów, które sązrozumiałedlatych samychprocesów. DTD umożliwiają także two rzenie standardów międzynarodowych.

Elementy występujące w powyższym przykładzie: wideo, tytuł, producent i rok, służądo zdefiniowania atrybutówdokumentu wideo. Ta reprezentacja nie jest jedyną, która możesłużyć wyrażaniu danych o wideo w XML. Wręcz przeciwnie, istnieje nie skończonailość sposobówwyrażeniatej reprezentacji.

XML nie jest idealnym narzędziem tworzenia syntaktyki metadanych, jednak sta nowi ogólny, rozszerzalny i otwarty standard, pozwalający na efektywne definiowanie innych standardówdotyczącychsyntaktyki metadanych.

ResourceDescription Framework

RDF (http://www.w3c.org/TR/REC-rdf-syntax) jest kolejnym standardem przed stawionym przez W3C. Bazuje on na XML, a głównym jego celem jest zarządzanie metadanymi. Wielu autorów uważa go za idealne narzędzie, służące tworzeniu Se

mantycznego Webu. Podstawowy modeldanych RDF składa się z trzech elementów13:

podmiotu (ang. subject), orzeczenia (ang. predicate) i dopełnienia (ang. object).

13 Możemy je również nazwać obiektem, atrybutem obiektu iwartością atrybutu.

Rys. 3.Model danych RDF z przykładowymi danymi (oprać,własne)

Wyróżniona trójka może być również określona jako (odpowiednio): źródło, atry but i literał. Atrybutźródła (tzn. określenielub twierdzenie) jest reprezentowany kon

ceptualnie z wykorzystaniem etykietowanego grafu, jak przedstawiono na rysunku 3.

Odpowiednikod RDFwyglądanastępująco:

<rdf:RDF>

<rdf:Description about=http://nahotko.webpark.pl>

<s:Twórca>Marek Nahotko</s:Twórca>

</rdf:Description>

</rdf:RDF>

Źródło identyfikowane przez http://nahotko.webpark.pl posiada orzeczenie ‘Twór

ca’ z wartością ‘Marek Nahotko’. Alternatywnie atrybut ‘Twórca’ możewskazywać na źródło.

Toczą siędyskusjenad wzajemnymi stosunkami RDFi XML. Wiążą się z tym dwa podstawoweaspektydotyczące reprezentacjimetadanych.

Po pierwsze, XMLsłuży jako formatwymienny, natomiast nie jestodpowiedni do reprezentacji metadanych zpowodu sposobu, w jaki danesą w nim modelowane. XML

Opis dokumentów elektronicznych : teoretyczny model i możliwości jego aplikacji

Opis dokumentów elektronicznych

Teoretyczny model i możliwości jego aplikacji

Description of Digital Documents

Theoretical Model and Possibilities ol Its Application

Marek Nahotko

Description of Digital Documents

Theoretical Model and Possibilities ol Its Application

JAGIELLONIAN UNIVERSITY PRESS

Marek Nahotko

Opis dokumentów elektronicznych

Teoretyczny model i możliwości jego aplikacji

WYDAWNICTWO UNIWERSYTETU JAGIELLOŃSKIEGO

SPIS TREŚCI

CONTENTS

WSTĘP

1

SEMANTYCZNY WEB