• Nie Znaleziono Wyników

SEMANTYCZNY WEB

1.2. Semantyczny Web

Inicjatywa mająca na celu realizację Semantycznego Webu jest propozycją stwo­ rzenia Webu wiedzy. Jak twierdzi Tim Berners-Lee: „Zaprojektowany we właściwy sposób Semantyczny Web możewspomócrozwój całej ludzkiej wiedzy” [Berners-Lee, Hendler, Lassila 2001]. W pracy Semantic Web Roadmap autor ten przedstawił wizję Webu, w którym wszystkie treści są zrozumiałe dla maszyny [Berners-Lee 1998].

Pierwotnie system WWW miał być globalną siecią komputerową, zawierającą dane w formie, którą komputery mogą interpretować automatycznie, albo też w postaci, z której można automatycznieprzeprowadzić konwersjęna taki zapis. Przezinterpreta­ cjęrozumie się tu automatyczną identyfikację zawartości informacyjnej danych, czyli znaczenia (treści) zapisów przechowywanych w formie cyfrowej [Sosińska-Kalata 2005, s. 145].

Znaczna większość informacji dostępnej obecnie w Internecie została stworzona i przeznaczona do odbioru przez ludzi i zaprojektowana tak, aby była dla nich zrozu­

miała. Maszyny przetwarzają, analizująi indeksują testrony, jednakniepotrafią ocenić i zrozumieć ich zawartości, stąd nie mogą być angażowane wżadną dyskusję o nich.

Mato dwieprzyczyny:

• zaawansowanie automatycznego przetwarzania języka naturalnego nie jest i nie będzie w najbliższej przyszłości wystarczające do adekwatnego określenia treści dokumentu,

• dokumentom Webbrak strukturyi wiedzymożliwej do zrozumienia przez kompu­

tery,która to wiedzamogłaby być natychmiast przetwarzana maszynowo.

Semantyczny Web 31 Działania związanez Semantycznym Webem są porównywalne z badaniami pro­ wadzonymi ponad dwadzieścia lat temu. Badano wówczas sposobygromadzenia wie­

dzy i jej reprezentacji. Gromadzenie wiedzyokazałosię kosztowne, natomiast systemy zaprojektowane dojej reprezentacji byływ większości małe i słabe,dające niepewne rozwiązania mało ważnych problemów. O ile miały one cele i zadania podobne,jak Semantyczny Web, tojednak nie posiadałyzalet właściwych całemu Webowi, z jego taniąsiłą roboczą milionów osób, realizujących procesy gromadzenia wiedzy. Na wy­ konywanie tego zadania wpływają aspekty społeczne, gdyż użytkownicy starają się, aby tworzona przez nich informacja była dostępna w skali globalnej. Podobnie jak poprzednio, zagadnienia związane z gromadzeniem i reprezentacją wiedzy znajdują się obecnie w centrumprac nad Semantycznym Webem.

Metadane przewidywane dla Semantycznego Webu są pełniejsze i bardziej skom­ plikowaneniżpary atrybut-wartość oferowane przez takie standardy, jak GILS, Dublin Core czy SOIF, a także podstawowy model obiektowy proponowany przez MCF iRDF. Umożliwieniezaawansowanych usługSemantycznego Webu wymagaposługi­

wania się metadanymi dość wyrazistymi, aby pozwalałynareprezentację i modelowa­

nie dziedziny, w której są stosowane. Dodanie do dokumentu metadanych, stwierdza­

jących np. że jego autoremjest ‘Jan Nowak’, a temat to ‘ochrona środowiska’ wspo­

maga oprogramowanie indeksujące i wyszukiwarki w odpowiednim „zaszufladkowa­

niu” dokumentu, co zresztą było głównymzadaniem wcześniej opracowywanych me­ tadanych. Jednak taka forma metadanych nie umożliwia uzyskiwania odpowiedzi na wysokiego poziomu pytania kognitywne, takie jak: ‘W jaki sposób spalanie paliw sta­ łych wpływa na środowisko?’, ‘Czy Nowak opublikował prace o alternatywnych źró­

dłach energii, powodujących mniejsze zanieczyszczenia?’, ‘Kto jest współpracowni­

kiem Jana Nowaka, zajmującym się także ochroną środowiska?’. Powodemjest brak wiedzyo tym, co to jest autor, dokument i jego temat, wjaki sposób są te kategorie związane ze sobąi jakie sąich relacjez pojęciamiwystępującymi w innych dokumen­

tach w Webie.

Aby uzyskać taką funkcjonalność metadane muszą mieć zdolność określania i re­ prezentacji pojęć, w przytoczonym przykładzie: osób, zanieczyszczeń, energii, tech­

nologii energetycznej, środowiska i paliw stałych, oraz wykrywania relacji pomiędzy nimi (np. technologia energetyczna może powodować zanieczyszczenia, zanieczysz­

czenia wpływająna środowisko). Stosująctradycyjne metadane, nie da się też ograni­ czać atrybutów obiektów, np. przez stwierdzenie, że technologia energetyczna wyko­ rzystuje maksymalniejedno źródłoenergiiodnawialnej.

Wyszukiwarki, wyposażonew precyzyjny model dziedziny zastosowań (domeny) i ograniczeń16 wyznaczającychjego zakres, mogą zwiększyćjakość indeksowania za­ sobów i odpowiadać efektywniej na zapytaniaużytkowników, agenci handlowi (opro­

gramowanie) mogą negocjować warunki handlowe wsposóbinteligentny, a informacja może byćwe właściwy sposóbpersonalizowana i modyfikowana w celu pełnej realiza­

cji wymogów wyznaczonych przez użytkownika. Podstawą Semantycznego Webu jest więc zdolność do reprezentacji i dokładnego modelowania dziedzin rzeczywistości pozawirtualnej i umożliwieniakomputerom osiągnięcia pełnego zrozumienia otoczenia (środowiska),w którym funkcjonują.

16Ograniczenia (ang.constraints) -dowolne ograniczenie wprowadzone do schematu danych, dia­ gramu klas itd. Definiują onezależności pomiędzy obiektami.

32 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

Rysunek 5 przedstawia siedem poziomów architektury, którą Berners-Lee przewi­

działw2000 r.dla SemantycznegoWebu.

Najniższy poziom tej architektury zawiera podstawowy protokół adresowania (URI17) i metodę kodowania dokumentów (Unicode18). Kolejne poziomy zostały umieszczone nad podstawowym, w celu zapewnienia dostępudo metadanych i wiedzy w Semantycznym Webie. Rysunek wykazuje także, jak istotny jestpoziom pozwalają­ cyna zastosowanie technologii XML.

17 Uniform Resource Identifier(URI) jest ogólnym schematem adresowania obiektów w Internecie.

Unicode jest standardem służącym wymianie, przetwarzaniu i wyświetlaniu tekstów tworzonych w różnychjęzykach.

Rys. 5.Model architekturySemantycznego Webu[za: Berners-Lee2000]

Poziomy schematów wspomagająmożliwości strukturalne podstawowego mode­

lowania. Są to poziomy ogólne, stanowiące podstawę dla kolejnych poziomów. Defi­ niują obiekty, relacje i ich ograniczenia, w efekcie czego powstaje precyzyjna repre­

zentacja dziedziny zastosowań. Opisując pojęcia ‘syn’ i ‘ojciec’, ważne jest na przy­

kład, aby dołączyć ograniczenie stwierdzające, że syn może mieć tylkojednego ojca, a ojciecjest zawsze starszy od syna. W ten sposób możnaprzedstawiać także relacje hierarchiczne, np. ‘wąż’ jest członkiemrodziny ‘gad’, więc dziedziczy jej cechy.

Schemat XML(XMLS) zaproponowanyzostałjako podstawowy język schematu.

DTD, choć często stosowane, nie posiada dostatecznej siły wyrażania dla właściwej specyfikacjii ograniczania elementów wdokumencie,a jego syntaktyka znacznieróżni się od syntaktyki samego XML, co oznacza,że pliki DTD niemogą być przetwarzane przez te same procesy, które przetwarzają plikiXML.

Jednakże XMLS nie zawiera żadnych elementów klas modelu, gdyż używanyjest wyłącznie do definiowania gramatyki. Specyfikacja schematu RDF (czyli RDFS)roz­

szerza XMLS i uzupełnia RDF o model określania typu danych i możliwości działań napodstawowych obiektach. Umożliwia takżepodstawowe modelowanie.

Co istotne, pojęcia definiowane są jako klasy lub podklasy innych pojęć. Można także tworzyć relacjepomiędzy klasami. Do klas dołączane sąich cechy przez zdefi­

Semantyczny Web 33

niowanie elementu cechy i zadeklarowanie jego dziedziny i zakresu. Następnie sche­ matjest wykorzystywanydotworzeniastwierdzeń RDF.

Efektem wykorzystania poziomów schematu jest powstanie samoopisującego się dokumentu, który może szeroko współdziałać z innymi dokumentami, będąc podstawą zasobów Semantycznego Webu.

Poziom ontologii dostarcza dalszych metainformacji służących zdefiniowaniu po­

jęć i relacji, używając we właściwy sposób konstrukcji niedostępnych na poziomach schematu. Ontologie, jako konceptualizacja dziedziny zastosowań, są szeroko wyko­

rzystywane do definiowania złożonych dziedzin, w celu zapewnienia ich maszynowe­ go zrozumienia i przetwarzania. Technologie tworzone dla tego poziomu skupiają się na reprezentacjikonstrukcji ontologicznychwformacie czytelnym maszynowo.

Poziom logicznyjest ściśle zintegrowany z poziomem ontologii, uzupełniając go o możliwości wnioskowania (wyprowadzanie nowych danychz istniejącej informacji) w Semantycznym Webie. Odbywa się ono przy użyciu języka deklaratywnego wyko­ rzystywanego na niższych poziomach do definiowania pojęć i relacji zachodzących w źródle oraz ich konwersji na języklogiki zrozumiałej dlakomputera.

Jeżeli na przykładmamy czterystwierdzenia:

• Książka pt. Metadane ma autoraJanKowalski.

• Jan Kowalski pracuje w zespole badawczymA.

• Książka pt. Ontologiema autora PiotrNowak.

• Piotr Nowak pracuje w zespole badawczym A.

tonapodstawie tychstwierdzeń możemy wysnuć wniosek,żeksiążkio tytułach Meta­ dane i Ontologie zawierają podobne treści, ponieważ są napisane przez autorówpra­

cujących w tym samym zespole badawczym. Praca w tym samym zespole implikuje zajmowanie się tymi samymi zagadnieniami, więc jest prawdopodobne, żeautorzy ci opublikowali książki dotyczącepodobnych problemów.

Nie jest możliwe, głównie z powodów praktycznych, ani posiadanie jednego sche­

matu lub ontologii, które definiowałyby wszystkie znane pojęcia i relacje istniejące w świecie, ani nawet jednego globalnego schematudefiniującego tylko określoną dzie­

dzinę. Istnieje więc wiele schematów opisujących podobne dziedziny. Powoduje to potrzebę konwersji pomiędzy różnymi wersjami i typami schematów. W tym celu nowsza wersja schematu zawiera stwierdzenia logiczne formalnie opisujące sposób ewolucji schematu.

Poziom potwierdzenia i następny - poziom zaufania, a także propozycja podpisu elektronicznego dotej pory ciesząsię ograniczonym zainteresowaniem, aszczegóły ich realizacji są niepewne. Poziom potwierdzenia umożliwia procesy służąceweryfikacji prawdziwości stwierdzenia przy wykorzystaniu szeregu wnioskowań. Może, na przy­

kład, istnieć potrzeba potwierdzenia, że A jest rodzajem B. Możemy je uzyskać przez skontrolowanie dwóch dokumentów pochodzących z miejsca o uznanym zaufaniu, z których jeden stwierdza, że„A jest rodzajem C”, a drugi - że„Bjest równe C”.Na tej podstawie możemy stwierdzić, że „Ajest rodzajemB”.

Poziomzaufania znajduje sięna szczycietej architektury. Umożliwia on realizację procesów pozwalających zagwarantować wysoką jakość zasobów i poprawność stwier­ dzeń, które one zawierają. Poziom zaufania zapewnią mechanizmy wartościowania stwierdzeń, dzięki czemu powstanie„Web zaufania” (ang. Web of Trust).

Podpis cyfrowy obejmuje cztery poziomy i pozwala na używanie na tych pozio­ machkryptografii kluczypublicznych w celu zabezpieczenia dokumentów. Zabezpie­

34 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

czenia stają się szczególnie efektywne w przypadku, gdywykorzystanazostanie logika zaufania. Jeżeli klucze są obiektami pierwszej klasy19 (ang.first class objects - FCO), to maszyny wnioskujące nie ograniczają się do systemów weryfikujących podpisy.

Wtakim przypadku dokumenty są przetwarzane w drzewka stwierdzeń dotyczących tego,kto co podpisał.Efektemjestsystem zdolnydo wyrażania iwnioskowania o rela­ cjachfunkcjonującychw całym systemiezaufania.

19 Obiekt pierwszej klasy- obiekty dostępne w Internecie,tzn. zapisane najednymlub kilku serwe­

rach,do którychdostęp możliwyjestpoprzezglobalnyidentyfikator (URI).

20 SAXjest metodą wspomagania rozumienia;uruchamia się, gdypojawia się konkretne wydarzenie (węzełwdrzewkuXML). Oznacza to,żeSAX działa szybkoi bardzo efektywnie zarządza pamięcią, gdyż nie ma potrzeby zapisywania do niejcałego dokumentu, więc przetwarzanemogą byćbardzo duże doku­

menty. Niestety,SAX nie umożliwia swobodnego dostępu dodokumentu. DOM jest oficjalniezatwierdzo­ nymstandardem W3C. Inaczej niż SAX, wczytuje on do pamięci cały dokument, który jest dostępny za pomocą jego struktury drzewiastej. Niestety, powoduje to bardzo wysokie wymagania co do pojemności pamięci, w rezultacie czegoanalizasyntaktyczna dokumentujest mało efektywna.

21 Hermetyzacja (ang. encapsulation) to zamknięcie pewnego zestawu obiektów informatycznych w „kapsułę” owyraźnie określonych granicach;oddzielenie abstrakcyjnejspecyfikacji tej kapsuły(obiektu, klasy, modułu etc.) od jej implementacji; ukrycie części informacji zawartej wtej kapsule dla operacji z zewnątrz obiektu. Hermetyzacja jest podstawową techniką abstrakcji, tj. ukrycia wszelkich szczegółów danego przedmiotulubobiektu informatycznego,którena danym etapie rozpatrywania (analizy,projekto­

wania, programowania) nie stanowiąjego istotnej charakterystyki.

Oprócz tworzenia podstawowych standardów i architektury, realizacja Semantycz­

nego Webu wymagapodjęcia znacznych wysiłków w zakresie tworzenia technologii służącej przetwarzaniu ianalizie zasobówsemantycznych. Pozwoliona na prowadze­

nie usług, mających nacelu eksploatację tych zasobów. W tymzakresieprzedstawione zostaną trzy zagadnienia: przetwarzanie i wyszukiwanie dokumentów, zastosowanie agentów orazporównanie ichroli z usługamiWebu.

Przetwarzanie dokumentów semantycznych wymaga utworzenia odpowiednich narzędzi. Zasoby opierają się na RDF i XML, co oznacza, że narzędzia przygotowane w XML będą przydatne do przetwarzaniazasobówSemantycznego Webu. Do analizy syntaktycznej i reprezentacji danychXML stosowane są głównie dwie metody dostę­

pu: Simple API for XML (SAX- http://www.saxproject.org/) i DocumentObject Mo­

del (DOM)20.

Możliwości związane z wyszukiwaniem dokumentów wykorzystuje się w celu pobierania i operowania informacją znajdującą się w dokumentach semantycznych. Ze względu na olbrzymią ilość metadanychniezbędnych do przetworzenia, wykształcenie efektywnych mechanizmów wyszukiwaniama wielkieznaczenie.

Agencitohermetyzowane21 systemykomputerowe,które zdolne są do autonomicz­ nych zachowań i funkcjonowania. Współpracująone ze sobą w celu rozwiązywania wspólnychproblemów. Wymaga to jakiegoś stopnia negocjacji, współpracy i koordy­ nacji. MichaelUschold twierdzi,że technologia agentów możezniszczyć Semantyczny Web [Uschold 2003]. Wskazuje się też na trudności w opanowaniu milionów samo­

dzielnych wyspecjalizowanych inteligentnych usług[Fensel 2000].

Agenci zbierają i analizują zawartość Webu, wymieniająwyniki i współpracują przy ich opracowaniu. Możliwejest, na przykład, przeszukiwanie przez agenta wiel­ kich baz danych typu MEDLINE. Agent taki zna terminologię danej dziedziny (np.

medycyny) i - rozumiejąc poprawnie sformułowane zapytania - potrafi poprawnie zlokalizować informację.

Semantyczny Web 35

Usługi Webu stają się ważnącechą Intemetu, stwarzając szanse podniesienia po­

ziomu współdziałaniamiędzy aplikacjami. Podobniejak agenci mobilni22, usługi Web są samoopisującymisię, samokontrolującymi modułami, zdolnymi do realizacji funkcji logicznych.Jednakgłówna różnica między usługami Webu a agentami polega na wy­ korzystaniu XML. Usługi Webu, inaczej niż agenci, sąbezpośrednio ukierunkowane na realizację usług w Webieprzy użyciu XML.

22 Agent jestmobilny,jeżeli miejsce jego rezydowania jest nieistotne. W efekcie agent mobilnymoże byćumieszczonyna komputerze typu desktop, mainframe lub na laptopie.

23 Remote Procedurę Cali (RPC) jest protokołem niezależnym od platformy,używanym przez pro­ gramy do żądaniausługod innych programów,znajdującychsię gdziekolwiek w sieci.

Usługi Webu używająSimpleObject Access Protocol (SOAP), protokołu opierają­ cegosię na XML,obsługującego Remote Procedure Calls23 (RPC). SOAP jest prostym mechanizmem, służącym wymianie ustrukturyzowanych i typowych informacji (jak równieżRPC i odpowiedzi). Komunikat SOAP składa się z definicji dokumentuXML jako komunikatu SOAP (ang. envelope),zestawu zasad kodowania itreści komunikatu.

SOAP wykorzystuje HTTP, więc możliwa jest jego integracja z Webem. Syntaktyka SOAP jest prostsza niż RDF i zawiera mniej zagnieżdżeń, dzięki czemu narzędzia analizy syntaktycznejsą efektywniejsze. Protokółtenmatakżepewne wady, m.in.brak konkretnych narzędzi do reprezentacji wiedzy i możliwościlogicznych.Jednakjest on podstawowym językiemkomunikacji dlausług Webu.

W przyszłościWWW może zawierać wiele tego typu agentów i usług,gromadzą­

cych i analizujących dane oraz - co najważniejsze - współpracujących w celu ułatwie­

nia realizacji zautomatyzowanych usług. Usługi takie sądoskonałą platformą dla Se­

mantycznego Webu i wskazują na możliwości inteligentnej i zautomatyzowanej współpracy rozproszonych procesów [Mcllrath, Son, Zeng 2001].

Najnowszym dziełem W3C jest Web Ontology Language (OWL). Jak już wspo­ mniano, podstawą Semantycznego Webu będzie zdolność XML do definiowania ety­ kietowanych schematówdostosowanych do lokalnych potrzeb i elastyczna reprezenta­ cja danych RDF. Kolejny poziom wymagany przez Semantyczny Web, ponad RDF, stanowi język ontologii, zapomocą którego można formalnieopisać znaczenie termi­ nologii stosowanej w dokumentach Web. Jeżelichcemy, aby komputery byływ stanie realizować zadania wnioskowania na podstawie tych dokumentów, używany język musi posiadać bardziej rozbudowanąsemantykę niż schemat RDF.

OWL został zaprojektowany w sposób pozwalający na realizację potrzeb języka ontologii dla Web. Jest on częścią rekomendacji W3C dotyczących Semantycznego Webu, tworzących następującą strukturę:

• XMLdostarcza powierzchniowej syntaktyki dla ustrukturyzowanych dokumentów, ale nie pozwala na tworzenie ograniczeń semantycznych znaczeń tych dokumen­ tów.

• SchematXML jest językiem służącym ograniczaniu struktury dokumentów XML, jednocześnierozszerzającym XML o typydanych.

• RDF jest modelemdanychdla obiektów („zasobów”) i relacji między nimi,dostar­

czającym prostą semantykę dla tego modelu danych, przy czym modele danych mogą byćreprezentowane w syntaktyceXML.

• Schemat RDF jestsłownikiem opisującym cechy i klasy zasobów RDF, posiadają­ cym semantykę dlahierarchizowania tychcech i klas.

36 Opis dokumentów elektronicznych. Teoretyczny model i możliwości jego aplikacji

• OWL natomiast pozwala na rozszerzenie słownika służącego opisowi atrybutów i klas; oferuje między innymi relacje pomiędzy klasami, bogatszy opis atrybutów z ichcharakterystykami(np. symetria) i wyliczenia klas.

Ontologie OWL mogą zawierać opisy klas, atrybutów i ich wystąpień. Formalna semantyka OWL pozwala na określeniedla takiej ontologii sposobów wyprowadzania logicznychkonsekwencji, tzn. faktów nieprezentowanych bezpośredniow ontologiach, ale będących konsekwencją zastosowania semantyki. Tego typu wnioskowania mogą bazować na pojedynczym dokumencie lubteż na wielu dokumentach rozproszonych, które można łączyć,stosującmechanizmyzdefiniowanewOWL.

PrzewagęOWL nad XMLi schematem XMLmożna streścić w dwóch punktach:

1. Ontologie różnią się od schematuXMLtym, żesą reprezentacjąwiedzy, a nie for­

matem komunikatu.

2. Jedną z ważnych cech OWL będzie dostępność narzędzi, mogących prowadzić wnioskowaniana temat ontologii.

Semantyczny Web daje obietnicę rozwoju sieci w kierunku form bardziej inteli­

gentnych, zrozumiałych i wykorzystywanychzarówno przez ludzi,jak i przez maszyny.

Maszyny będą używać wiedzy znajdującej sięw SemantycznymWebie, aby wspoma­

gać użytkowników w takichdziałaniach, jak: wyszukiwanie, nawigacja whipertekście, e-handel, finanse i zautomatyzowane negocjacje.

Cele tej inicjatywy koncentrująsięnareprezentacji i wymianie wiedzy przy użyciu metadanych oraz metodach reprezentacji informacji przydatnych dla obróbki maszy­

nowej. Pierwsze prace dotyczące metadanych dały w efekcie wiele różnych standar­

dów, które jednak były zbyt podstawowe, aby reprezentować zawiłe struktury wiedzy, wymagane przez systemy zarządzania wiedzą. Konieczne są metadane zdolne do re­ prezentowania pojęć i relacji między nimi oraz ich niezbędnych ograniczeń, którełącz­ niestworzą strukturę dziedziny.

2