• Nie Znaleziono Wyników

SEMANTYCZNY WEB

1.1. Przed Semantycznym Webem: metadane

1.1.1. Metadane oparte na atrybutach

Pierwsze standardy metadanych wykorzystywały metodę przydzielania wartości tekstowychatrybutom(lubcechom) dokumentów [Kampa 2002, s. 42-51]. Dokument może posiadaćna przykładatrybuty ‘Twórca’ lub ‘Data’ oraz ich wartości, odpowied­ nio ‘Marek Nahotko’ i ‘02.10.2006’. Taka forma danych jest łatwa do utworzenia przezautorówi do analizy podczas przetwarzania, np. w celu podstawowego indekso­

wania realizowanegoprzezwyszukiwarki.

Dublin Core

W marcu 1995 r. zaproszeni specjaliści z różnych dziedzin bliskich informatyce iinformacji naukowej spotkali się w Dublinie, w Ohio,w siedzibieOCLC9, aby prze­

dyskutować problemyzwiązane z opisem, udostępnianiem i przeszukiwaniem zasobów

Semantyczny Web 21 Webu. Spotkanie to zaowocowało przygotowaniem propozycji prostego zestawu ele­

mentów (atrybutów), odpowiednich zarówno dla zaawansowanych, jak i początkują­

cych użytkowników, do tworzenia opisów zasobów dostępnych online. Zestaw tych elementów znany jestpod nazwąDublin Core Metadata Element Set (DCMES). Jest on obecnie zarządzany przez Dublin Core Metadata Initiative (DCMI - http://dublin core.org/).

DCMES stanowi słownik wyrażeń odpowiednich do opisu podstawowych atrybu­ tów zasobów Intemetu, takich jak ‘Twórca’ czy ‘Data’. Specyfikacja zawiera raczej nazwy samych cech, niż syntaktykę mogącąsłużyć ich reprezentacji. Syntaktyka pozo­ stajepoza rozwiązaniami dotyczącymi bezpośrednio DCMES. Dla tworzenia metada­

nych wykorzystywana jest, na przykład, syntaktyka Resource Description Framework (RDF). Jej zastosowanie przedstawia następujący przykład:

<rdf:RDF xmlns:rdf=http://www.w3.org/l999/02/22-rdf-syntax-ns#

xmlns:dc=http://purl.org/dc/elements/l. l/>

<rdf:Descriptionrdf:about="http://nahotko.zajecia.webpark.pl">

<dc:creator>Marek Nahotko</dc:creator>

<dc:title>Zajęcia prowadzone wInstytucieInformacji Naukowej</dc:title>

<dc:description>Stronazawiera materiały i wskazówki dla studentów bibliotekoznaw­

stwana UJ</dc:description>

<dc :date>2006-10-07</dc : date>

</rdf:Description>

</rdf:RDF>

Przedstawiony w przykładzie fragment kodu definiuje metadane dotyczące strony Web zlokalizowanej na stronie http://nahotko.zajecia.webpark.pl/. Elementy Dublin Coresąidentyfikowane przez etykietę przestrzeni nazw dc: znajdującąsię przed nazwą atrybutu. W tym fragmencie wykorzystano cztery elementy Dublin Core: ‘Twórca’,

‘Tytuł’, ‘Opis’ i ‘Data’10.

10 Więcejprzykładów zastosowaniaRDF z DublinCoreznaleźć można np. w Bibliotece Cyfrowej Po­ litechniki Wrocławskiej (http://dlib.bg.pwr.wroc.pl/dlibra).

11 Współdziałanie jest zdolnością dwóch lub więcej systemów lub ichczęści do wymiany informacji oraz wykorzystania informacji pochodzących z wymianybez dodatkowychprac w każdym z systemów [Nahotko 2004, s. 14].

12 Dotyczą onenp.rozbudowy kwalifikatorów dlaelementów podstawowych, schematów kodowania.

Zestaw DCMES zawiera 15 elementów. Celem tej inicjatywy jeststworzenie pro­ stego, zrozumiałego i dostępnego jak największej grupie użytkowników zestawu ele­

mentów, zapewniającego jednocześnie współdziałanie różnych systemów11. Dublin Core stawiany jestw opozycji do standardu MARC, który uważany jest za trudny do adaptacji do powszechnegowykorzystania wWebie. Dla przykładu: MARC 21 zawie­ ra 1725 obecnie stosowanych pól i podpól [Moen, Bemardino 2003]. Prostota Dublin Core umożliwiamuzajmowanie pozycji najczęściej używanego standardu w zastoso­

waniachmetadanych i jest przyczyną jego sukcesu. Tym bardziej niepokojące sąwięc nieustanne prace prowadzone w DCMI, których efektemjest komplikowanie formatu izasad jegowykorzystania. Szczęśliwie, działania te odbywająsię poza podstawowym zestawem 15elementów12.

22 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

Formularze InternetAnonymous FTP Archives (IAFA)

Formularze IAFA zostały zaprojektowane w celu indeksowania archiwów ftp [Deutsch et al. 1995]. IAFA proponuje 14 formularzy, m.in. takich jak: użytkownik, organizacja, usługi, dokument i oprogramowanie. Każdy formularz zawiera atrybuty niezbędne do opisania obiektów, dla których formularz jest przeznaczony. Przykłado­

wo formularz ‘wydarzenia’ może być wykorzystany dla opisania pliku zawierającego zwiastun konferencji. Nazwy atrybutóww tym formularzu (zob. poniżej) sąoznaczone jako słowa napoczątku wiersza, zakończone dwukropkiem.

Template-Type: EVENT

Description: Zaproszenie do składania referatów na II konferencję Internet w bi­

bliotekach

Topics: Digitalizacjazbiorów bibliotek, Współpracabibliotek Deadlines:Abstrakty: 31 maj 2003; Pełne teksty: 15 sierpnia 2003.

Author-Email: a.n.autor@host.site.kraj Author-Name: A.N. Autor

Title: IIKonferencjaInternet w bibliotekach X-End-Date:2003-09-26

X-Start-Date: 2003-09-23

Last-Revision-Date-vO: 30Kwi2003 11:24:39

Summary Object InterchangeFormat(SOIF)

SOIFwykorzystywany jest przez system Harvest,będący zintegrowanym zestawem narzędzi służącym do gromadzenia, organizowaniai wyszukiwania informacjiw Inter­ necie [Hardy 1994]. SOIF bazuje na pracach wykonanych podczas konstruowania formularzy IAFA i narzędzi do tworzenia opisów bibliograficznych BibTeX. Jednak inaczej niż te standardy, SOIF został przeznaczony do obsługi danych binarnych.

Oznacza to, że może być wykorzystywany do opisu nagrań wideo, obrazów, plików skompresowanych i dokumentów postscriptowych, a także dokumentów tekstowych, takich jak kody programowe, HTMLi czyste(ang. raw) dane.

Harvest tworzyskróconą informację o obiektach i zapisuje ją w formacie SOIF, aby następnie informacje te gromadzić i indeksować. Dzięki temu można zadawać systemowiproste i złożone zapytania, napodstawie których wyszukiwana jest infor­

macja. Format metadanych opracowany jest w formie par atrybut-wartość. Poniżej przedstawiono przykład wykorzystania SOIF do określenia tytułu i autora strony WWW.

@DOCUMENT { http://bortnianka.webpark.pl/

title {20}: Gospodarstwo agroturystycznezaprasza author{29}: Andrzej Horbal

}

Etykiety meta w HTML

HyperText Markup Language (HTML) jest językiem, w którym zakodowanych za­ stało miliony dokumentów wWebie,przez co stanowi paradygmatycznystandard two­

rzenia metadanych. Niestety, HTML został zaprojektowany prawie wyłącznie jako format prezentacji danych, przez co ma bardzo niewiele elementów kodowania se­

Semantyczny Web 23

mantyki. Istnieją jednakdwaatrybuty (‘Description’ i ‘Keyword’) etykiet ‘meta’, które mogą być wstawiane do nagłówka dokumentu HTML w celu stworzenia skrótowego opisutreścidokumentu, np.

<HEAD>

<TITLE>Metadane</TITLE>

<META name="description" content="Ten dokument zawiera informacje o meta­ danych'^

<META name="keywords" content="metadane, opracowaniedokumentów elektro­

nicznych,Intemet">

</HEAD>

Te cechy umożliwiają autoromumieszczenie podstawowych metadanych wobrębie dokumentu HTML, pomimo że rozwiązanie to ma wiele wad, np. brak ustrukturyzo- wania i właściwego uszczegółowienia zawartości pól. Nie ma także zdefiniowanej metody lub standardu opisującego, jakie treści powinny zawierać pola. Mimo to nie­ które wyszukiwarki internetowe (np. Alta Vista) używają tych pól do podniesienia jakościprocesu indeksowaniadokumentów.

Możliwości wykorzystania metadanych w HTML zostały zwiększone przez utwo­

rzenie tzw. Platform for Internet Content Selection (PICS) [Resnick, Miller 1996].

Początkowo było to narzędzie ułatwiające kontrolę dostępu do wybranych typów do­

kumentów (np. pornografii), później wykorzystano je także przy realizacji podpisu elektronicznego i poufności danych.

Syntaktyka PICSjest kompatybilna z HTML:

<META http-equiv="PICS-Label"

content='(PICS-l. 1 http://www.rsac.org/ratingsv01.html comment"RSACi NorthAmerica Server"

for http://www.foobar.org on "2004.06.16T10:30-0500"

ratings (v3 n 4 s 3 1 2))’>

Tego typu kod PICS wstawiany jest do sekcji nagłówkowej dokumentu HTML, gdzieprocesy kontroli PICSwykorzystują go do określania, czy treści odpowiedniego źródła nadają siędo wyświetlenia. Każdejkategorii PICS przydzielona jest wartość od O do 4. W tym przykładzie stronie o adresiehttp://www.foobar.orgprzyznano wkate­

gorii ‘przemoc’ (v) wartość 3, kategorii ‘nagość’ (n) wartość 4, kategorii ‘seks’ (s) wartość 3 i kategorii ‘język’ wartość 2 (stronawięcprawdopodobnie nie nadaje siędla dzieci).