Semantyczny Web

1.2. Semantyczny Web

Inicjatywa mająca na celu realizację Semantycznego Webu jest propozycją stwo rzenia Webu wiedzy. Jak twierdzi Tim Berners-Lee: „Zaprojektowany we właściwy sposób Semantyczny Web możewspomócrozwój całej ludzkiej wiedzy” [Berners-Lee, Hendler, Lassila 2001]. W pracy Semantic Web Roadmap autor ten przedstawił wizję Webu, w którym wszystkie treści są zrozumiałe dla maszyny [Berners-Lee 1998].

Pierwotnie system WWW miał być globalną siecią komputerową, zawierającą dane w formie, którą komputery mogą interpretować automatycznie, albo też w postaci, z której można automatycznieprzeprowadzić konwersjęna taki zapis. Przezinterpreta cjęrozumie się tu automatyczną identyfikację zawartości informacyjnej danych, czyli znaczenia (treści) zapisów przechowywanych w formie cyfrowej [Sosińska-Kalata 2005, s. 145].

Znaczna większość informacji dostępnej obecnie w Internecie została stworzona i przeznaczona do odbioru przez ludzi i zaprojektowana tak, aby była dla nich zrozu

miała. Maszyny przetwarzają, analizująi indeksują testrony, jednakniepotrafią ocenić i zrozumieć ich zawartości, stąd nie mogą być angażowane wżadną dyskusję o nich.

Mato dwieprzyczyny:

• zaawansowanie automatycznego przetwarzania języka naturalnego nie jest i nie będzie w najbliższej przyszłości wystarczające do adekwatnego określenia treści dokumentu,

• dokumentom Webbrak strukturyi wiedzymożliwej do zrozumienia przez kompu

tery,która to wiedzamogłaby być natychmiast przetwarzana maszynowo.

Semantyczny Web 31 Działania związanez Semantycznym Webem są porównywalne z badaniami pro wadzonymi ponad dwadzieścia lat temu. Badano wówczas sposobygromadzenia wie

dzy i jej reprezentacji. Gromadzenie wiedzyokazałosię kosztowne, natomiast systemy zaprojektowane dojej reprezentacji byływ większości małe i słabe,dające niepewne rozwiązania mało ważnych problemów. O ile miały one cele i zadania podobne,jak Semantyczny Web, tojednak nie posiadałyzalet właściwych całemu Webowi, z jego taniąsiłą roboczą milionów osób, realizujących procesy gromadzenia wiedzy. Na wy konywanie tego zadania wpływają aspekty społeczne, gdyż użytkownicy starają się, aby tworzona przez nich informacja była dostępna w skali globalnej. Podobnie jak poprzednio, zagadnienia związane z gromadzeniem i reprezentacją wiedzy znajdują się obecnie w centrumprac nad Semantycznym Webem.

Metadane przewidywane dla Semantycznego Webu są pełniejsze i bardziej skom plikowaneniżpary atrybut-wartość oferowane przez takie standardy, jak GILS, Dublin Core czy SOIF, a także podstawowy model obiektowy proponowany przez MCF iRDF. Umożliwieniezaawansowanych usługSemantycznego Webu wymagaposługi

wania się metadanymi dość wyrazistymi, aby pozwalałynareprezentację i modelowa

nie dziedziny, w której są stosowane. Dodanie do dokumentu metadanych, stwierdza

jących np. że jego autoremjest ‘Jan Nowak’, a temat to ‘ochrona środowiska’ wspo

maga oprogramowanie indeksujące i wyszukiwarki w odpowiednim „zaszufladkowa

niu” dokumentu, co zresztą było głównymzadaniem wcześniej opracowywanych me tadanych. Jednak taka forma metadanych nie umożliwia uzyskiwania odpowiedzi na wysokiego poziomu pytania kognitywne, takie jak: ‘W jaki sposób spalanie paliw sta łych wpływa na środowisko?’, ‘Czy Nowak opublikował prace o alternatywnych źró

dłach energii, powodujących mniejsze zanieczyszczenia?’, ‘Kto jest współpracowni

kiem Jana Nowaka, zajmującym się także ochroną środowiska?’. Powodemjest brak wiedzyo tym, co to jest autor, dokument i jego temat, wjaki sposób są te kategorie związane ze sobąi jakie sąich relacjez pojęciamiwystępującymi w innych dokumen

tach w Webie.

Aby uzyskać taką funkcjonalność metadane muszą mieć zdolność określania i re prezentacji pojęć, w przytoczonym przykładzie: osób, zanieczyszczeń, energii, tech

nologii energetycznej, środowiska i paliw stałych, oraz wykrywania relacji pomiędzy nimi (np. technologia energetyczna może powodować zanieczyszczenia, zanieczysz

czenia wpływająna środowisko). Stosująctradycyjne metadane, nie da się też ograni czać atrybutów obiektów, np. przez stwierdzenie, że technologia energetyczna wyko rzystuje maksymalniejedno źródłoenergiiodnawialnej.

Wyszukiwarki, wyposażonew precyzyjny model dziedziny zastosowań (domeny) i ograniczeń16 wyznaczającychjego zakres, mogą zwiększyćjakość indeksowania za sobów i odpowiadać efektywniej na zapytaniaużytkowników, agenci handlowi (opro

gramowanie) mogą negocjować warunki handlowe wsposóbinteligentny, a informacja może byćwe właściwy sposóbpersonalizowana i modyfikowana w celu pełnej realiza

cji wymogów wyznaczonych przez użytkownika. Podstawą Semantycznego Webu jest więc zdolność do reprezentacji i dokładnego modelowania dziedzin rzeczywistości pozawirtualnej i umożliwieniakomputerom osiągnięcia pełnego zrozumienia otoczenia (środowiska),w którym funkcjonują.

16Ograniczenia (ang.constraints) -dowolne ograniczenie wprowadzone do schematu danych, dia gramu klas itd. Definiują onezależności pomiędzy obiektami.

32 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

Rysunek 5 przedstawia siedem poziomów architektury, którą Berners-Lee przewi

działw2000 r.dla SemantycznegoWebu.

Najniższy poziom tej architektury zawiera podstawowy protokół adresowania (URI17) i metodę kodowania dokumentów (Unicode18). Kolejne poziomy zostały umieszczone nad podstawowym, w celu zapewnienia dostępudo metadanych i wiedzy w Semantycznym Webie. Rysunek wykazuje także, jak istotny jestpoziom pozwalają cyna zastosowanie technologii XML.

17 Uniform Resource Identifier(URI) jest ogólnym schematem adresowania obiektów w Internecie.

Unicode jest standardem służącym wymianie, przetwarzaniu i wyświetlaniu tekstów tworzonych w różnychjęzykach.

Rys. 5.Model architekturySemantycznego Webu[za: Berners-Lee2000]

Poziomy schematów wspomagająmożliwości strukturalne podstawowego mode

lowania. Są to poziomy ogólne, stanowiące podstawę dla kolejnych poziomów. Defi niują obiekty, relacje i ich ograniczenia, w efekcie czego powstaje precyzyjna repre

zentacja dziedziny zastosowań. Opisując pojęcia ‘syn’ i ‘ojciec’, ważne jest na przy

kład, aby dołączyć ograniczenie stwierdzające, że syn może mieć tylkojednego ojca, a ojciecjest zawsze starszy od syna. W ten sposób możnaprzedstawiać także relacje hierarchiczne, np. ‘wąż’ jest członkiemrodziny ‘gad’, więc dziedziczy jej cechy.

Schemat XML(XMLS) zaproponowanyzostałjako podstawowy język schematu.

DTD, choć często stosowane, nie posiada dostatecznej siły wyrażania dla właściwej specyfikacjii ograniczania elementów wdokumencie,a jego syntaktyka znacznieróżni się od syntaktyki samego XML, co oznacza,że pliki DTD niemogą być przetwarzane przez te same procesy, które przetwarzają plikiXML.

Jednakże XMLS nie zawiera żadnych elementów klas modelu, gdyż używanyjest wyłącznie do definiowania gramatyki. Specyfikacja schematu RDF (czyli RDFS)roz

szerza XMLS i uzupełnia RDF o model określania typu danych i możliwości działań napodstawowych obiektach. Umożliwia takżepodstawowe modelowanie.

Co istotne, pojęcia definiowane są jako klasy lub podklasy innych pojęć. Można także tworzyć relacjepomiędzy klasami. Do klas dołączane sąich cechy przez zdefi

Semantyczny Web 33

niowanie elementu cechy i zadeklarowanie jego dziedziny i zakresu. Następnie sche matjest wykorzystywanydotworzeniastwierdzeń RDF.

Efektem wykorzystania poziomów schematu jest powstanie samoopisującego się dokumentu, który może szeroko współdziałać z innymi dokumentami, będąc podstawą zasobów Semantycznego Webu.

Poziom ontologii dostarcza dalszych metainformacji służących zdefiniowaniu po

jęć i relacji, używając we właściwy sposób konstrukcji niedostępnych na poziomach schematu. Ontologie, jako konceptualizacja dziedziny zastosowań, są szeroko wyko

rzystywane do definiowania złożonych dziedzin, w celu zapewnienia ich maszynowe go zrozumienia i przetwarzania. Technologie tworzone dla tego poziomu skupiają się na reprezentacjikonstrukcji ontologicznychwformacie czytelnym maszynowo.

Poziom logicznyjest ściśle zintegrowany z poziomem ontologii, uzupełniając go o możliwości wnioskowania (wyprowadzanie nowych danychz istniejącej informacji) w Semantycznym Webie. Odbywa się ono przy użyciu języka deklaratywnego wyko rzystywanego na niższych poziomach do definiowania pojęć i relacji zachodzących w źródle oraz ich konwersji na języklogiki zrozumiałej dlakomputera.

Jeżeli na przykładmamy czterystwierdzenia:

• Książka pt. Metadane ma autoraJanKowalski.

• Jan Kowalski pracuje w zespole badawczymA.

• Książka pt. Ontologiema autora PiotrNowak.

• Piotr Nowak pracuje w zespole badawczym A.

tonapodstawie tychstwierdzeń możemy wysnuć wniosek,żeksiążkio tytułach Meta dane i Ontologie zawierają podobne treści, ponieważ są napisane przez autorówpra

cujących w tym samym zespole badawczym. Praca w tym samym zespole implikuje zajmowanie się tymi samymi zagadnieniami, więc jest prawdopodobne, żeautorzy ci opublikowali książki dotyczącepodobnych problemów.

Nie jest możliwe, głównie z powodów praktycznych, ani posiadanie jednego sche

matu lub ontologii, które definiowałyby wszystkie znane pojęcia i relacje istniejące w świecie, ani nawet jednego globalnego schematudefiniującego tylko określoną dzie

dzinę. Istnieje więc wiele schematów opisujących podobne dziedziny. Powoduje to potrzebę konwersji pomiędzy różnymi wersjami i typami schematów. W tym celu nowsza wersja schematu zawiera stwierdzenia logiczne formalnie opisujące sposób ewolucji schematu.

Poziom potwierdzenia i następny - poziom zaufania, a także propozycja podpisu elektronicznego dotej pory ciesząsię ograniczonym zainteresowaniem, aszczegóły ich realizacji są niepewne. Poziom potwierdzenia umożliwia procesy służąceweryfikacji prawdziwości stwierdzenia przy wykorzystaniu szeregu wnioskowań. Może, na przy

kład, istnieć potrzeba potwierdzenia, że A jest rodzajem B. Możemy je uzyskać przez skontrolowanie dwóch dokumentów pochodzących z miejsca o uznanym zaufaniu, z których jeden stwierdza, że„A jest rodzajem C”, a drugi - że„Bjest równe C”.Na tej podstawie możemy stwierdzić, że „Ajest rodzajemB”.

Poziomzaufania znajduje sięna szczycietej architektury. Umożliwia on realizację procesów pozwalających zagwarantować wysoką jakość zasobów i poprawność stwier dzeń, które one zawierają. Poziom zaufania zapewnią mechanizmy wartościowania stwierdzeń, dzięki czemu powstanie„Web zaufania” (ang. Web of Trust).

Podpis cyfrowy obejmuje cztery poziomy i pozwala na używanie na tych pozio machkryptografii kluczypublicznych w celu zabezpieczenia dokumentów. Zabezpie

34 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

czenia stają się szczególnie efektywne w przypadku, gdywykorzystanazostanie logika zaufania. Jeżeli klucze są obiektami pierwszej klasy19 (ang.first class objects - FCO), to maszyny wnioskujące nie ograniczają się do systemów weryfikujących podpisy.

Wtakim przypadku dokumenty są przetwarzane w drzewka stwierdzeń dotyczących tego,kto co podpisał.Efektemjestsystem zdolnydo wyrażania iwnioskowania o rela cjachfunkcjonującychw całym systemiezaufania.

19 Obiekt pierwszej klasy- obiekty dostępne w Internecie,tzn. zapisane najednymlub kilku serwe

rach,do którychdostęp możliwyjestpoprzezglobalnyidentyfikator (URI).

20 SAXjest metodą wspomagania rozumienia;uruchamia się, gdypojawia się konkretne wydarzenie (węzełwdrzewkuXML). Oznacza to,żeSAX działa szybkoi bardzo efektywnie zarządza pamięcią, gdyż nie ma potrzeby zapisywania do niejcałego dokumentu, więc przetwarzanemogą byćbardzo duże doku

menty. Niestety,SAX nie umożliwia swobodnego dostępu dodokumentu. DOM jest oficjalniezatwierdzo nymstandardem W3C. Inaczej niż SAX, wczytuje on do pamięci cały dokument, który jest dostępny za pomocą jego struktury drzewiastej. Niestety, powoduje to bardzo wysokie wymagania co do pojemności pamięci, w rezultacie czegoanalizasyntaktyczna dokumentujest mało efektywna.

21 Hermetyzacja (ang. encapsulation) to zamknięcie pewnego zestawu obiektów informatycznych w „kapsułę” owyraźnie określonych granicach;oddzielenie abstrakcyjnejspecyfikacji tej kapsuły(obiektu, klasy, modułu etc.) od jej implementacji; ukrycie części informacji zawartej wtej kapsule dla operacji z zewnątrz obiektu. Hermetyzacja jest podstawową techniką abstrakcji, tj. ukrycia wszelkich szczegółów danego przedmiotulubobiektu informatycznego,którena danym etapie rozpatrywania (analizy,projekto

wania, programowania) nie stanowiąjego istotnej charakterystyki.

Oprócz tworzenia podstawowych standardów i architektury, realizacja Semantycz

nego Webu wymagapodjęcia znacznych wysiłków w zakresie tworzenia technologii służącej przetwarzaniu ianalizie zasobówsemantycznych. Pozwoliona na prowadze

nie usług, mających nacelu eksploatację tych zasobów. W tymzakresieprzedstawione zostaną trzy zagadnienia: przetwarzanie i wyszukiwanie dokumentów, zastosowanie agentów orazporównanie ichroli z usługamiWebu.

Przetwarzanie dokumentów semantycznych wymaga utworzenia odpowiednich narzędzi. Zasoby opierają się na RDF i XML, co oznacza, że narzędzia przygotowane w XML będą przydatne do przetwarzaniazasobówSemantycznego Webu. Do analizy syntaktycznej i reprezentacji danychXML stosowane są głównie dwie metody dostę

pu: Simple API for XML (SAX- http://www.saxproject.org/) i DocumentObject Mo

del (DOM)20.

Możliwości związane z wyszukiwaniem dokumentów wykorzystuje się w celu pobierania i operowania informacją znajdującą się w dokumentach semantycznych. Ze względu na olbrzymią ilość metadanychniezbędnych do przetworzenia, wykształcenie efektywnych mechanizmów wyszukiwaniama wielkieznaczenie.

Agencitohermetyzowane21 systemykomputerowe,które zdolne są do autonomicz nych zachowań i funkcjonowania. Współpracująone ze sobą w celu rozwiązywania wspólnychproblemów. Wymaga to jakiegoś stopnia negocjacji, współpracy i koordy nacji. MichaelUschold twierdzi,że technologia agentów możezniszczyć Semantyczny Web [Uschold 2003]. Wskazuje się też na trudności w opanowaniu milionów samo

dzielnych wyspecjalizowanych inteligentnych usług[Fensel 2000].

Agenci zbierają i analizują zawartość Webu, wymieniająwyniki i współpracują przy ich opracowaniu. Możliwejest, na przykład, przeszukiwanie przez agenta wiel kich baz danych typu MEDLINE. Agent taki zna terminologię danej dziedziny (np.

medycyny) i - rozumiejąc poprawnie sformułowane zapytania - potrafi poprawnie zlokalizować informację.

Semantyczny Web 35

Usługi Webu stają się ważnącechą Intemetu, stwarzając szanse podniesienia po

ziomu współdziałaniamiędzy aplikacjami. Podobniejak agenci mobilni22, usługi Web są samoopisującymisię, samokontrolującymi modułami, zdolnymi do realizacji funkcji logicznych.Jednakgłówna różnica między usługami Webu a agentami polega na wy korzystaniu XML. Usługi Webu, inaczej niż agenci, sąbezpośrednio ukierunkowane na realizację usług w Webieprzy użyciu XML.

22 Agent jestmobilny,jeżeli miejsce jego rezydowania jest nieistotne. W efekcie agent mobilnymoże byćumieszczonyna komputerze typu desktop, mainframe lub na laptopie.

23 Remote Procedurę Cali (RPC) jest protokołem niezależnym od platformy,używanym przez pro gramy do żądaniausługod innych programów,znajdującychsię gdziekolwiek w sieci.

Usługi Webu używająSimpleObject Access Protocol (SOAP), protokołu opierają cegosię na XML,obsługującego Remote Procedure Calls23 (RPC). SOAP jest prostym mechanizmem, służącym wymianie ustrukturyzowanych i typowych informacji (jak równieżRPC i odpowiedzi). Komunikat SOAP składa się z definicji dokumentuXML jako komunikatu SOAP (ang. envelope),zestawu zasad kodowania itreści komunikatu.

SOAP wykorzystuje HTTP, więc możliwa jest jego integracja z Webem. Syntaktyka SOAP jest prostsza niż RDF i zawiera mniej zagnieżdżeń, dzięki czemu narzędzia analizy syntaktycznejsą efektywniejsze. Protokółtenmatakżepewne wady, m.in.brak konkretnych narzędzi do reprezentacji wiedzy i możliwościlogicznych.Jednakjest on podstawowym językiemkomunikacji dlausług Webu.

W przyszłościWWW może zawierać wiele tego typu agentów i usług,gromadzą

cych i analizujących dane oraz - co najważniejsze - współpracujących w celu ułatwie

nia realizacji zautomatyzowanych usług. Usługi takie sądoskonałą platformą dla Se

mantycznego Webu i wskazują na możliwości inteligentnej i zautomatyzowanej współpracy rozproszonych procesów [Mcllrath, Son, Zeng 2001].

Najnowszym dziełem W3C jest Web Ontology Language (OWL). Jak już wspo mniano, podstawą Semantycznego Webu będzie zdolność XML do definiowania ety kietowanych schematówdostosowanych do lokalnych potrzeb i elastyczna reprezenta cja danych RDF. Kolejny poziom wymagany przez Semantyczny Web, ponad RDF, stanowi język ontologii, zapomocą którego można formalnieopisać znaczenie termi nologii stosowanej w dokumentach Web. Jeżelichcemy, aby komputery byływ stanie realizować zadania wnioskowania na podstawie tych dokumentów, używany język musi posiadać bardziej rozbudowanąsemantykę niż schemat RDF.

OWL został zaprojektowany w sposób pozwalający na realizację potrzeb języka ontologii dla Web. Jest on częścią rekomendacji W3C dotyczących Semantycznego Webu, tworzących następującą strukturę:

• XMLdostarcza powierzchniowej syntaktyki dla ustrukturyzowanych dokumentów, ale nie pozwala na tworzenie ograniczeń semantycznych znaczeń tych dokumen tów.

• SchematXML jest językiem służącym ograniczaniu struktury dokumentów XML, jednocześnierozszerzającym XML o typydanych.

• RDF jest modelemdanychdla obiektów („zasobów”) i relacji między nimi,dostar

czającym prostą semantykę dla tego modelu danych, przy czym modele danych mogą byćreprezentowane w syntaktyceXML.

• Schemat RDF jestsłownikiem opisującym cechy i klasy zasobów RDF, posiadają cym semantykę dlahierarchizowania tychcech i klas.

36 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

• OWL natomiast pozwala na rozszerzenie słownika służącego opisowi atrybutów i klas; oferuje między innymi relacje pomiędzy klasami, bogatszy opis atrybutów z ichcharakterystykami(np. symetria) i wyliczenia klas.

Ontologie OWL mogą zawierać opisy klas, atrybutów i ich wystąpień. Formalna semantyka OWL pozwala na określeniedla takiej ontologii sposobów wyprowadzania logicznychkonsekwencji, tzn. faktów nieprezentowanych bezpośredniow ontologiach, ale będących konsekwencją zastosowania semantyki. Tego typu wnioskowania mogą bazować na pojedynczym dokumencie lubteż na wielu dokumentach rozproszonych, które można łączyć,stosującmechanizmyzdefiniowanewOWL.

PrzewagęOWL nad XMLi schematem XMLmożna streścić w dwóch punktach:

1. Ontologie różnią się od schematuXMLtym, żesą reprezentacjąwiedzy, a nie for

matem komunikatu.

2. Jedną z ważnych cech OWL będzie dostępność narzędzi, mogących prowadzić wnioskowaniana temat ontologii.

Semantyczny Web daje obietnicę rozwoju sieci w kierunku form bardziej inteli

gentnych, zrozumiałych i wykorzystywanychzarówno przez ludzi,jak i przez maszyny.

Maszyny będą używać wiedzy znajdującej sięw SemantycznymWebie, aby wspoma

gać użytkowników w takichdziałaniach, jak: wyszukiwanie, nawigacja whipertekście, e-handel, finanse i zautomatyzowane negocjacje.

Cele tej inicjatywy koncentrująsięnareprezentacji i wymianie wiedzy przy użyciu metadanych oraz metodach reprezentacji informacji przydatnych dla obróbki maszy

nowej. Pierwsze prace dotyczące metadanych dały w efekcie wiele różnych standar

dów, które jednak były zbyt podstawowe, aby reprezentować zawiłe struktury wiedzy, wymagane przez systemy zarządzania wiedzą. Konieczne są metadane zdolne do re prezentowania pojęć i relacji między nimi oraz ich niezbędnych ograniczeń, którełącz niestworzą strukturę dziedziny.

2

W dokumencie Opis dokumentów elektronicznych : teoretyczny model i możliwości jego aplikacji (Stron 32-39)