• Nie Znaleziono Wyników

SEMANTYCZNY WEB

1.1. Przed Semantycznym Webem: metadane

1.1.2. Metadane oparte na obiektach

Możliwości autorów dokumentów Webużywających metadanych odwołującychsię do atrybutów są ograniczone do tworzenia prostych stwierdzeń dotyczących tych do­

kumentów, takich jak ‘autoremjest Kowalski’. Metadane bazujące na obiektach są bardziej elastyczne dzięki umożliwieniu tworzenia dalszych stwierdzeń, dotyczących obiektóww dokumentach. Oprócz stwierdzenia, że autorem dokumentu jest ‘Jan Ko­ walski’, można na przykładdodać kolejnestwierdzenia, dotycząceadresu poczty elek­

tronicznejautora i jego stronydomowej.

24 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

Meta ContentFormat(MCF)

MCF jest formatem metadanych opierającym się na XML. Model jego danych przedstawiony został jakograf (zob. rys. 2), w którym węzły zawierająobiektylub ich atrybuty.

Obiekty mogą reprezentować cokolwiek, chociaż zazwyczaj wskazują na zasoby Webu. Co znamienne, metadane MCFsą przechowywane na zewnątrz w stosunku do dokumentu,który opisują. Kod przedstawiony poniżej opisuje przykładowo dwie stro­ nyWeb, obietypu ‘TextualityPage’. W tym przypadku ‘TextualityPage’ używany jest do ogólnego opisu strony WWW na stronie domowej Textuality Web. Posiada ona atrybuty ‘Autor’ i ‘Copyright’, które są przyznane odpowiednio dla ‘Textualitylnc.’

i ‘TextualityServices, Inc. All rights reserved’.

<WebPage id="w0001">

<url>http://www.textuality.com/</url>

<typeOf.T extualityPage</typeOf>

</WebPage>

<WebPage id="w0002"

<url>http://www.textuality.com/Lark/</url>

<typeO£>TextualityPage</typeOf>

</WebPage>

«¡Categoryid="TextualityPage">

<superTypeunit="WebPage"/>

«¡inheritspropertytype="AuthorOrg" unit="Textuality!nc"/>

Semantyczny Web 25

<inhertis propertytype="CopyrightNotice">

TextualityServices, Inc. All rights reserved.

</inherits>

</Category>

Proces przetwarzania metadanych umożliwia szybkie uzyskanie pełnej oceny do­

kumentów na stronieTextuality Web, natomiast w mniejszym stopniu służy lokalizo­ waniuiściąganiupojedynczychstron,składającychsięna dokument.Tadruga funkcja zależy też od poprawności i kompletności odnośników hipertekstowych pomiędzy dokumentami strony, gdyż to one są wykorzystywane do lokalizacji wszystkich tych stron.

MetadataEncoding and TransmissionStandard (METS)

METS (http://www.loc.gov/standards/mets/) zostałutworzony dla potrzeb standar­

dowej strukturydanych opisujących złożone obiekty biblioteki cyfrowej. Jest tosche­

mat XML służący tworzeniu dokumentów XML opisujących strukturę obiektów bi­ bliotekcyfrowych, związane z nimi metadane opisowe i administracyjne, a także na­ zwyi lokalizacjeplików, składających się na danyobiekt. Dzięki temu, żewyrażenia METStworzone są wjęzyku schematuXML, stanowi on format dokumentu dla kodo­

wania metadanych niezbędnych do zarządzania obiektami cyfrowymi, gromadzonymi w archiwach obiektów cyfrowych i wymianytych obiektów między archiwami.

DokumentMETS składa się z siedmiugłównych części:

1. Nagłówek METS - zawiera metadane opisujące sam dokument METS, w tym takie atrybutyjak ‘Twórca’, ‘Redaktor’ itp.:

<metsHdr CREATEDATE="2001-10-23T00:00:00" >

<agentROLE="CREATOR">

<name>Rick Beaubien</name>

</agent>

</metsHdr>

2. Metadane opisowe - odsyłajądo metadanych opisowych zewnętrznych w stosunku do dokumentu METS (np. rekord MARC w OPAC) lub do wewnętrznych metada­

nych opisowych, bądźdo obu.

3.Metadane administracyjne - dostarczają informacji dotyczącej sposobu tworzenia plików, ich przechowywania, praw własności intelektualnej, oryginalnego obiektu źródłowego, z którego powstał obiekt z biblioteki cyfrowej, oraz proweniencji pli­

kówskładających się na obiektcyfrowy.

4. Sekcja plików - wykazujewszystkie pliki zawierające treści składające się na wersje elektroniczneobiektucyfrowego.

5.Mapa strukturalna - opisuje strukturę hierarchiczną obiektu cyfrowego i wiąże ele­

menty tej struktury:

<structMap>

<divTYPE=“QUAD15” LABEL="San Francisco Quad">

<fptr FILEID="FIDl"/>

<fptr FILElD="FID20"/>

<divTYPE="map" LABEL="1895" DMDID="DM2">

<fptr FILEID="FID2"/>

<fptr FILEID="FID14"/>

26 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

<fptr FILEID="FID8"/>

</div>

</div>

</structMap>

6. Odnośniki strukturalne - pozwalają twórcom METS zapisywać węzły hierarchii opisanej wmapie strukturalnej.

7. Działania - łączą wykonywalnedziałania z treścią obiektu METS.

Nagłówek METS, sekcjaplików, mapa strukturalna, odnośniki strukturalne i dzia­

łaniadefiniowanesą w schemacieMETS. Struktura ta wyglądanastępująco:

<METS:mets>

METS w mniejszym stopniu zajmuje się metadanymi opisowymi i administracyj­

nymi, przerzucając te funkcje na schematy zewnętrzne, z których mają być pobierane specyficzne elementy. Dla metadanych opisowych przewidziano, na przykład, wyko­ rzystanietakich schematów metadanych,jak Dublin Core, MARCXMLi MODS.

XMLjako język metadanych

World Wide Web Consortium jest instytucją, która opublikowała kilka standardów, dotyczących zagadnień metadanych i współdziałania semantycznego. Jednym z naj­ ważniejszych jest Extensible Markup Language (XML), skrócona wersja Standard Generalized Markup Language (SGML). XML może być wykorzystywany do opisu strukturyi zawartościdokumentu, coumożliwiajegomaszynowe przetwarzanie.

Syn taktyka stosowana w XML jest podobna do HTML. Treści są otaczane przez etykiety elementów, można także umieszczać atrybuty i odesłania do jednostek. Ina­

czej jednak niż w HTML, XML posługuje się pojęciem ‘dobrego uformowania’ - ze­ stawem zasad gwarantujących jednolitość syntaktycznej reprezentacji danych (np.

wszystkie etykiety są zamknięte, atrybuty są w cudzysłowach, zagnieżdżanie jestdo­

zwolone). Aby zapisać krótki dokument XML opisujący dokument wideo, można na przykład stworzyć następującą reprezentację:

<?xml version=" 1,0?>

W wierszu DOCTYPE określony został typ dokumentu i wskazano definicję typu dokumentu (DTD), w której zdeklarowane są struktura i sposób przechowywania da­ nych pliku XML (tzn. jego gramatyka). Włączenie DTD jest opcjonalne, ale też ko­

rzystne z powodu zwiększenia możliwości współdziałania. Dzięki temu inni

użytków-Semantyczny Web 27

nicy wykorzystują DTD do tworzenia semantycznie odpowiadających sobie doku­

mentów, które sązrozumiałedlatych samychprocesów. DTD umożliwiają także two­ rzenie standardów międzynarodowych.

Elementy występujące w powyższym przykładzie: wideo, tytuł, producent i rok, służądo zdefiniowania atrybutówdokumentu wideo. Ta reprezentacja nie jest jedyną, która możesłużyć wyrażaniu danych o wideo w XML. Wręcz przeciwnie, istnieje nie­ skończonailość sposobówwyrażeniatej reprezentacji.

XML nie jest idealnym narzędziem tworzenia syntaktyki metadanych, jednak sta­ nowi ogólny, rozszerzalny i otwarty standard, pozwalający na efektywne definiowanie innych standardówdotyczącychsyntaktyki metadanych.

ResourceDescription Framework

RDF (http://www.w3c.org/TR/REC-rdf-syntax) jest kolejnym standardem przed­ stawionym przez W3C. Bazuje on na XML, a głównym jego celem jest zarządzanie metadanymi. Wielu autorów uważa go za idealne narzędzie, służące tworzeniu Se­

mantycznego Webu. Podstawowy modeldanych RDF składa się z trzech elementów13:

podmiotu (ang. subject), orzeczenia (ang. predicate) i dopełnienia (ang. object).

13 Możemy je również nazwać obiektem, atrybutem obiektu iwartością atrybutu.

Rys. 3.Model danych RDF z przykładowymi danymi (oprać,własne)

Wyróżniona trójka może być również określona jako (odpowiednio): źródło, atry­ but i literał. Atrybutźródła (tzn. określenielub twierdzenie) jest reprezentowany kon­

ceptualnie z wykorzystaniem etykietowanego grafu, jak przedstawiono na rysunku 3.

Odpowiednikod RDFwyglądanastępująco:

<rdf:RDF>

<rdf:Description about=http://nahotko.webpark.pl>

<s:Twórca>Marek Nahotko</s:Twórca>

</rdf:Description>

</rdf:RDF>

Źródło identyfikowane przez http://nahotko.webpark.pl posiada orzeczenie ‘Twór­

ca’ z wartością ‘Marek Nahotko’. Alternatywnie atrybut ‘Twórca’ możewskazywać na źródło.

Toczą siędyskusjenad wzajemnymi stosunkami RDFi XML. Wiążą się z tym dwa podstawoweaspektydotyczące reprezentacjimetadanych.

Po pierwsze, XMLsłuży jako formatwymienny, natomiast nie jestodpowiedni do reprezentacji metadanych zpowodu sposobu, w jaki danesą w nim modelowane. XML

28 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

nie nakłada ograniczeń co do struktury reprezentacji danych. Wielośćmożliwości re­ prezentacji tych samych danych znacznie zwiększa potrzebne przebiegi ich przetwa­

rzania i transformacji. Również proces realizacji zapytań staje się złożony i nieefek­

tywny, gdyż zapytania muszą funkcjonować wróżnych strukturach. Zazwyczaj meta­ dane są gromadzone w wielkich zasobach, stąd niezbędne jest stworzenie prostego i efektywnego, wspólnego formatu, umożliwiającego szybkie przetwarzanie.

Po drugie, XML służy bardziej definiowaniu struktury dokumentu niż narzucaniu jakiejkolwiek wspólnej interpretacji semantycznej [Decker i in. 2001]. Podczas defi­

niowania złożonych metadanych określana jest konceptualizacja domeny (dziedziny zastosowania). Następnie jestona tłumaczona na schemat, służącydo strukturyzowania XML w celu stworzenia reprezentacji metadanych. Jednak podczas tworzenia kodu XML traci się całą warstwę semantyczną, pierwotnie określonąw schemacie. Nie ma możliwości odtworzenia oryginalnych relacji i stosunków wcześniej zdefiniowanych w schemacie. W RDF utrata znaczenia nie występuje, gdyż struktura obiekt-atrybut jesttam reprezentowana wsposób naturalny; metadane są odwzorowywane (ang. map­ ping)'4 bezpośrednio do modelu danych RDF, dzięki czemu ich semantyka nie jest

tracona.

Przeciwnicy RDF krytykują takżeto, że drzewadokumentów RDF mogą byćrepre­

zentowanena różne sposoby,co wywołuje problemy dotyczące językówtransformacji, takichjak XSLT [Haustein 2001]. Zastrzeżenia takie nie sąbezpodstawne, gdyż dla RDF istnieją dwa głównestyle syntaktyki: forma skrócona i forma podstawowa.Tego typu zróżnicowanie syntaktyczne zwiększa obciążenie w zakresie przetwarzania da­

nych. Ponadto RDF nie realizuje podstawowego celu XML, jakim jest umożliwienie kompromisu pomiędzy reprezentacją odpowiednią dla ludzi i czytelną maszynowo, gdyż jest trudniejszy do zrozumienia. XML i RDF stwarzajątakże problemy w zakre­ sie możliwości modelowania, co jest podstawowym wymogiem dla narzędzia służące­ go reprezentacji wiedzy w Semantycznym Webie, o czym mowa będzie w następnym rozdziale.

Według niektórych autorów przyszłościowym rozwiązaniemjest integracja tech­

nologii Semantycznego Webu, głównie RDF i RDFS1415, z modelami stosowanymi w bibliotekarstwie i informacji naukowej (głównie FRBR) [Gradmann 2005]. Przy­

kład takiegohybrydowego rozwiązania przedstawiony został na rysunku 4. Wyobra­ ża on sposób modelowaniajednostek FRBR (wszystkie trzy grupy jednostek połą­

czone strzałkami z atrybutami) z wykorzystaniem RDF. Uwidoczniono tu relacje pomiędzy poszczególnymijednostkami, np. Dzieło powiązane zostałobezpośrednio z siedmioma innymijednostkami. Przykład ten ilustruje rodzaj prac niezbędnych do osiągnięcia tej integracji.

14 Angielski termin mapping tłumaczony jest w polskich publikacjach jako odwzorowywanie [np.

Woźniak-Kasperek 2005, s. 16].

15 RDFS (RDF Schema) jest rozszerzeniem języka RDF,dostarczającymmożliwości opisu aplikacji specyficznych dla danej klasyijej atrybutów.

Zastosowanie RDF do reprezentacji schematu metadanych Dublin Core przedsta­

wione zostało także przez Wiesława Glińskiego [Gliński 2005a]. Prace te powinny przynieść wielekorzyści, między innymi związanych z katalogowaniem, a więc rów­

nież udostępnianiem zasobów zaliczanych do „niewidocznego Webu”, a także zauto­ matyzowanierutynowych czynności masowowykonywanychpodczas katalogowania.

Semantyczny Web 29