SEMANTYCZNY WEB
1.1. Przed Semantycznym Webem: metadane
1.1.2. Metadane oparte na obiektach
Możliwości autorów dokumentów Webużywających metadanych odwołującychsię do atrybutów są ograniczone do tworzenia prostych stwierdzeń dotyczących tych do
kumentów, takich jak ‘autoremjest Kowalski’. Metadane bazujące na obiektach są bardziej elastyczne dzięki umożliwieniu tworzenia dalszych stwierdzeń, dotyczących obiektóww dokumentach. Oprócz stwierdzenia, że autorem dokumentu jest ‘Jan Ko walski’, można na przykładdodać kolejnestwierdzenia, dotycząceadresu poczty elek
tronicznejautora i jego stronydomowej.
24 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji
Meta ContentFormat(MCF)
MCF jest formatem metadanych opierającym się na XML. Model jego danych przedstawiony został jakograf (zob. rys. 2), w którym węzły zawierająobiektylub ich atrybuty.
Obiekty mogą reprezentować cokolwiek, chociaż zazwyczaj wskazują na zasoby Webu. Co znamienne, metadane MCFsą przechowywane na zewnątrz w stosunku do dokumentu,który opisują. Kod przedstawiony poniżej opisuje przykładowo dwie stro nyWeb, obietypu ‘TextualityPage’. W tym przypadku ‘TextualityPage’ używany jest do ogólnego opisu strony WWW na stronie domowej Textuality Web. Posiada ona atrybuty ‘Autor’ i ‘Copyright’, które są przyznane odpowiednio dla ‘Textualitylnc.’
i ‘TextualityServices, Inc. All rights reserved’.
<WebPage id="w0001">
<url>http://www.textuality.com/</url>
<typeOf.T extualityPage</typeOf>
</WebPage>
<WebPage id="w0002"
<url>http://www.textuality.com/Lark/</url>
<typeO£>TextualityPage</typeOf>
</WebPage>
«¡Categoryid="TextualityPage">
<superTypeunit="WebPage"/>
«¡inheritspropertytype="AuthorOrg" unit="Textuality!nc"/>
Semantyczny Web 25
<inhertis propertytype="CopyrightNotice">
TextualityServices, Inc. All rights reserved.
</inherits>
</Category>
Proces przetwarzania metadanych umożliwia szybkie uzyskanie pełnej oceny do
kumentów na stronieTextuality Web, natomiast w mniejszym stopniu służy lokalizo waniuiściąganiupojedynczychstron,składającychsięna dokument.Tadruga funkcja zależy też od poprawności i kompletności odnośników hipertekstowych pomiędzy dokumentami strony, gdyż to one są wykorzystywane do lokalizacji wszystkich tych stron.
MetadataEncoding and TransmissionStandard (METS)
METS (http://www.loc.gov/standards/mets/) zostałutworzony dla potrzeb standar
dowej strukturydanych opisujących złożone obiekty biblioteki cyfrowej. Jest tosche
mat XML służący tworzeniu dokumentów XML opisujących strukturę obiektów bi bliotekcyfrowych, związane z nimi metadane opisowe i administracyjne, a także na zwyi lokalizacjeplików, składających się na danyobiekt. Dzięki temu, żewyrażenia METStworzone są wjęzyku schematuXML, stanowi on format dokumentu dla kodo
wania metadanych niezbędnych do zarządzania obiektami cyfrowymi, gromadzonymi w archiwach obiektów cyfrowych i wymianytych obiektów między archiwami.
DokumentMETS składa się z siedmiugłównych części:
1. Nagłówek METS - zawiera metadane opisujące sam dokument METS, w tym takie atrybutyjak ‘Twórca’, ‘Redaktor’ itp.:
<metsHdr CREATEDATE="2001-10-23T00:00:00" >
<agentROLE="CREATOR">
<name>Rick Beaubien</name>
</agent>
</metsHdr>
2. Metadane opisowe - odsyłajądo metadanych opisowych zewnętrznych w stosunku do dokumentu METS (np. rekord MARC w OPAC) lub do wewnętrznych metada
nych opisowych, bądźdo obu.
3.Metadane administracyjne - dostarczają informacji dotyczącej sposobu tworzenia plików, ich przechowywania, praw własności intelektualnej, oryginalnego obiektu źródłowego, z którego powstał obiekt z biblioteki cyfrowej, oraz proweniencji pli
kówskładających się na obiektcyfrowy.
4. Sekcja plików - wykazujewszystkie pliki zawierające treści składające się na wersje elektroniczneobiektucyfrowego.
5.Mapa strukturalna - opisuje strukturę hierarchiczną obiektu cyfrowego i wiąże ele
menty tej struktury:
<structMap>
<divTYPE=“QUAD15” LABEL="San Francisco Quad">
<fptr FILEID="FIDl"/>
<fptr FILElD="FID20"/>
<divTYPE="map" LABEL="1895" DMDID="DM2">
<fptr FILEID="FID2"/>
<fptr FILEID="FID14"/>
26 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji
<fptr FILEID="FID8"/>
</div>
</div>
</structMap>
6. Odnośniki strukturalne - pozwalają twórcom METS zapisywać węzły hierarchii opisanej wmapie strukturalnej.
7. Działania - łączą wykonywalnedziałania z treścią obiektu METS.
Nagłówek METS, sekcjaplików, mapa strukturalna, odnośniki strukturalne i dzia
łaniadefiniowanesą w schemacieMETS. Struktura ta wyglądanastępująco:
<METS:mets>
METS w mniejszym stopniu zajmuje się metadanymi opisowymi i administracyj
nymi, przerzucając te funkcje na schematy zewnętrzne, z których mają być pobierane specyficzne elementy. Dla metadanych opisowych przewidziano, na przykład, wyko rzystanietakich schematów metadanych,jak Dublin Core, MARCXMLi MODS.
XMLjako język metadanych
World Wide Web Consortium jest instytucją, która opublikowała kilka standardów, dotyczących zagadnień metadanych i współdziałania semantycznego. Jednym z naj ważniejszych jest Extensible Markup Language (XML), skrócona wersja Standard Generalized Markup Language (SGML). XML może być wykorzystywany do opisu strukturyi zawartościdokumentu, coumożliwiajegomaszynowe przetwarzanie.
Syn taktyka stosowana w XML jest podobna do HTML. Treści są otaczane przez etykiety elementów, można także umieszczać atrybuty i odesłania do jednostek. Ina
czej jednak niż w HTML, XML posługuje się pojęciem ‘dobrego uformowania’ - ze stawem zasad gwarantujących jednolitość syntaktycznej reprezentacji danych (np.
wszystkie etykiety są zamknięte, atrybuty są w cudzysłowach, zagnieżdżanie jestdo
zwolone). Aby zapisać krótki dokument XML opisujący dokument wideo, można na przykład stworzyć następującą reprezentację:
<?xml version=" 1,0?>
W wierszu DOCTYPE określony został typ dokumentu i wskazano definicję typu dokumentu (DTD), w której zdeklarowane są struktura i sposób przechowywania da nych pliku XML (tzn. jego gramatyka). Włączenie DTD jest opcjonalne, ale też ko
rzystne z powodu zwiększenia możliwości współdziałania. Dzięki temu inni
użytków-Semantyczny Web 27
nicy wykorzystują DTD do tworzenia semantycznie odpowiadających sobie doku
mentów, które sązrozumiałedlatych samychprocesów. DTD umożliwiają także two rzenie standardów międzynarodowych.
Elementy występujące w powyższym przykładzie: wideo, tytuł, producent i rok, służądo zdefiniowania atrybutówdokumentu wideo. Ta reprezentacja nie jest jedyną, która możesłużyć wyrażaniu danych o wideo w XML. Wręcz przeciwnie, istnieje nie skończonailość sposobówwyrażeniatej reprezentacji.
XML nie jest idealnym narzędziem tworzenia syntaktyki metadanych, jednak sta nowi ogólny, rozszerzalny i otwarty standard, pozwalający na efektywne definiowanie innych standardówdotyczącychsyntaktyki metadanych.
ResourceDescription Framework
RDF (http://www.w3c.org/TR/REC-rdf-syntax) jest kolejnym standardem przed stawionym przez W3C. Bazuje on na XML, a głównym jego celem jest zarządzanie metadanymi. Wielu autorów uważa go za idealne narzędzie, służące tworzeniu Se
mantycznego Webu. Podstawowy modeldanych RDF składa się z trzech elementów13:
podmiotu (ang. subject), orzeczenia (ang. predicate) i dopełnienia (ang. object).
13 Możemy je również nazwać obiektem, atrybutem obiektu iwartością atrybutu.
Rys. 3.Model danych RDF z przykładowymi danymi (oprać,własne)
Wyróżniona trójka może być również określona jako (odpowiednio): źródło, atry but i literał. Atrybutźródła (tzn. określenielub twierdzenie) jest reprezentowany kon
ceptualnie z wykorzystaniem etykietowanego grafu, jak przedstawiono na rysunku 3.
Odpowiednikod RDFwyglądanastępująco:
<rdf:RDF>
<rdf:Description about=http://nahotko.webpark.pl>
<s:Twórca>Marek Nahotko</s:Twórca>
</rdf:Description>
</rdf:RDF>
Źródło identyfikowane przez http://nahotko.webpark.pl posiada orzeczenie ‘Twór
ca’ z wartością ‘Marek Nahotko’. Alternatywnie atrybut ‘Twórca’ możewskazywać na źródło.
Toczą siędyskusjenad wzajemnymi stosunkami RDFi XML. Wiążą się z tym dwa podstawoweaspektydotyczące reprezentacjimetadanych.
Po pierwsze, XMLsłuży jako formatwymienny, natomiast nie jestodpowiedni do reprezentacji metadanych zpowodu sposobu, w jaki danesą w nim modelowane. XML
28 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji
nie nakłada ograniczeń co do struktury reprezentacji danych. Wielośćmożliwości re prezentacji tych samych danych znacznie zwiększa potrzebne przebiegi ich przetwa
rzania i transformacji. Również proces realizacji zapytań staje się złożony i nieefek
tywny, gdyż zapytania muszą funkcjonować wróżnych strukturach. Zazwyczaj meta dane są gromadzone w wielkich zasobach, stąd niezbędne jest stworzenie prostego i efektywnego, wspólnego formatu, umożliwiającego szybkie przetwarzanie.
Po drugie, XML służy bardziej definiowaniu struktury dokumentu niż narzucaniu jakiejkolwiek wspólnej interpretacji semantycznej [Decker i in. 2001]. Podczas defi
niowania złożonych metadanych określana jest konceptualizacja domeny (dziedziny zastosowania). Następnie jestona tłumaczona na schemat, służącydo strukturyzowania XML w celu stworzenia reprezentacji metadanych. Jednak podczas tworzenia kodu XML traci się całą warstwę semantyczną, pierwotnie określonąw schemacie. Nie ma możliwości odtworzenia oryginalnych relacji i stosunków wcześniej zdefiniowanych w schemacie. W RDF utrata znaczenia nie występuje, gdyż struktura obiekt-atrybut jesttam reprezentowana wsposób naturalny; metadane są odwzorowywane (ang. map ping)'4 bezpośrednio do modelu danych RDF, dzięki czemu ich semantyka nie jest
tracona.
Przeciwnicy RDF krytykują takżeto, że drzewadokumentów RDF mogą byćrepre
zentowanena różne sposoby,co wywołuje problemy dotyczące językówtransformacji, takichjak XSLT [Haustein 2001]. Zastrzeżenia takie nie sąbezpodstawne, gdyż dla RDF istnieją dwa głównestyle syntaktyki: forma skrócona i forma podstawowa.Tego typu zróżnicowanie syntaktyczne zwiększa obciążenie w zakresie przetwarzania da
nych. Ponadto RDF nie realizuje podstawowego celu XML, jakim jest umożliwienie kompromisu pomiędzy reprezentacją odpowiednią dla ludzi i czytelną maszynowo, gdyż jest trudniejszy do zrozumienia. XML i RDF stwarzajątakże problemy w zakre sie możliwości modelowania, co jest podstawowym wymogiem dla narzędzia służące go reprezentacji wiedzy w Semantycznym Webie, o czym mowa będzie w następnym rozdziale.
Według niektórych autorów przyszłościowym rozwiązaniemjest integracja tech
nologii Semantycznego Webu, głównie RDF i RDFS1415, z modelami stosowanymi w bibliotekarstwie i informacji naukowej (głównie FRBR) [Gradmann 2005]. Przy
kład takiegohybrydowego rozwiązania przedstawiony został na rysunku 4. Wyobra ża on sposób modelowaniajednostek FRBR (wszystkie trzy grupy jednostek połą
czone strzałkami z atrybutami) z wykorzystaniem RDF. Uwidoczniono tu relacje pomiędzy poszczególnymijednostkami, np. Dzieło powiązane zostałobezpośrednio z siedmioma innymijednostkami. Przykład ten ilustruje rodzaj prac niezbędnych do osiągnięcia tej integracji.
14 Angielski termin mapping tłumaczony jest w polskich publikacjach jako odwzorowywanie [np.
Woźniak-Kasperek 2005, s. 16].
15 RDFS (RDF Schema) jest rozszerzeniem języka RDF,dostarczającymmożliwości opisu aplikacji specyficznych dla danej klasyijej atrybutów.
Zastosowanie RDF do reprezentacji schematu metadanych Dublin Core przedsta
wione zostało także przez Wiesława Glińskiego [Gliński 2005a]. Prace te powinny przynieść wielekorzyści, między innymi związanych z katalogowaniem, a więc rów
nież udostępnianiem zasobów zaliczanych do „niewidocznego Webu”, a także zauto matyzowanierutynowych czynności masowowykonywanychpodczas katalogowania.
Semantyczny Web 29