Podsumowanie i kierunki pracy - Index of /rozprawy2/11550

Opisane podejścia przedstawiają panoramę metod dostępu do wiedzy w Semantic Web. W ogólnym ujęciu scenariusze zakładają dostęp w trybie nawigacyjnym, polegającym na trawersacji powiązań Linked Data, gromadzenie wiedzy w centrach przetwarzania, wykorzystanie wyszukiwarek indeksujących zasoby RDF oraz konstrukcję systemów fe-deracyjnych, umożliwiających rozproszone przetwarzanie zapytań do źródeł SPARQL. Każde z tych podejść obarczone jest mankamentami, krótko podsumowanymi w poniż-szym wypunktowaniu.

1. Gromadzenie danych w centralnych repozytoriach mierzy się z zagadnieniem utrzymywania aktualności danych będących kopią, jak również musi zderzyć się z problemem skalowalności, ograniczonych możliwości pojedynczego ośrodka skła-dowania i przetwarzania.

2. Eksploracja globalnego grafu Linked Data, rozumiana jako proces podążania za powiązaniami danych od wybranego punktu startowego nie jest metodą celowa-nego odszukania źródeł wiedzy niezbędnych do zbudowania odpowiedzi na zapy-tanie użytkownika bądź aplikacji.

3. Semantyczne wyszukiwarki indeksujące są scentralizowanymi usługami powiela-jącymi przypadki użycia tradycyjnych wyszukiwarek indeksujących zasoby Web – szukanie za pomocą słów kluczowych i rezultaty w postaci listy zasobów siecio-wych skojarzonych ze słowami kluczowymi.

4. Architektury federacyjne są najbliższe postulowanemu we wprowadzeniu zadaniu efektywnego pozyskiwania wiedzy, ale borykają się z problemem lokalizacji źró-deł wiedzy niezbędnych do dostarczenia odpowiedzi. W istniejących podejściach kwestiami otwartymi pozostaje zarówno zagadnienie dynamicznego odkrywania źródeł jak również problematyka niedopasowania ontologicznego.

Klasyczna sieć Web zawiera wiedzę w przeważającej części przeznaczoną dla czło-wieka, a jej wykorzystanie wymaga ukrytej wiedzy tła, którą dysponuje użytkownik, aby zrozumieć tekst naturalny oraz wymaga aktywnego pozyskiwania i syntetyzowa-nia w oparciu o ludzką inteligencję, nawet jeśli proces jej odszukiwasyntetyzowa-nia wspierany jest wyszukiwarkami internetowymi. Oba te czynniki są nieusuwalnymi składowymi „ar-chitektury” tradycyjnego dostępu do informacji. Semantic Web strukturyzuje wiedzę i ujawnia znaczenie, likwidując tym samym konieczność dysponowania wiedzą tła przez podmiot przetwarzający informacje. Na pierwszy plan wysuwa się problem przypad-ków wykorzystania Semantic Web i odpowiednich mechanizmów dostępu. W miejsce człowieka pojawia się automat, który jest odbiorcą wiedzy i który wymaga wyżej zor-ganizowanych mechanizmów dostępu do informacji. Inicjatywa Linked Data postuluje tworzenie powiązań pomiędzy rozproszonymi zbiorami RDF, co w konsekwencji pro-wadzić ma do utworzenia globalnego grafu powiązanych danych, a tym samym do wy-tworzenia globalnej przestrzeni informacyjnej. Wciąż jednak pomiędzy tą przestrze-nią a przewidywanymi aplikacjami końcowymi, inteligentnymi agentami automatycznie przetwarzającymi wiedzę, rozpościera się obszar wymagający istnienia mechanizmów udostępniania i integracji wiedzy. Dominujące w dzisiejszej sieci scenariusze dostępu do

Brak standardowego modelu danych i formalnej sematyki

Postulaty dotyczące powiązań między zbiorami i HTTP lookup otwierają możliwości wykorzystania bazujące na "przemierzaniu" sieci Nowe metody reprezentacji wiedzy, brak efektywnego scenariusza jej pozyskiwania i wykorzystania

Semantic Web

Jako metoda pozyskiwania konkretnej, założonej wiedzy jest nieefektywne

Przemierzanie

Gromadzenie wiedzy w centralnych zbiorach jest nieskalowalne i napotyka na problem aktualności danych

Centralizacja

Dokumento-centryczne, indeksowanie i wyszukiwanie oparte na słowach kluczowych

Wyszukiwarki semantyczne

Problem z doborem źródeł wiedzy, brak transparentności

Federacja zapytań Scenariusze i architektura wykorzystania Reprezentacja odwzorowań Różnorodność i nieprzystawalność ontologii w Semantic Web

Heterogeniczność semantyczna Linked Data

World Wide Web

Złożone zapytania SPARQL, aktywne zachowania sieci, pozyskiwanie wiedzy sterowane ontologią, indeksacja źródeł wiedzy, odwzorowania między ontologiami, rozproszone wykonanie, skalowalność, decentralizacja

Transparentna i zdecentralizowana infrastruktura integracji i dostępu do wiedzy w Semantic Web

Rysunek 2.6: Ewolucja paradygmatów dostępu do wiedzy - Web, Semantic Web,

Linked Data, transparentny dostęp do wiedzy oparty na współdzielonych ontologiach

danych obarczone są niedostatkami o charakterze architektonicznym i semantycznym. Syntetyczne ujęcie ewolucji dostępu do wiedzy w sieci Web zilustrowane jest na rysunku 2.6.

Przedstawione w rozdziale 1 zadanie pozyskiwania wiedzy scharakteryzowane 6-ma postulatami efektywności wymaga pokonania obu barier, architektonicznej i semantycz-nej, stojących na drodze do wykorzystania pełnego potencjału Semantic Web. Celem niniejszej pracy jest sformułowanie propozycji infrastruktury dostępu i integracji wiedzy, która mierzy się ze wskazanymi problemami i przybliża realizację zadania pozyskiwania

W niniejszym rozdziale zaprezentowany został przegląd obszaru badawczego zwią-zanego z architekturami udostępniania wiedzy w Semantic Web. Zarysowana została panorama rozwoju paradygmatów dostępu do wiedzy na różnych etapach rozwoju glo-balnej pajęczyny. Zidentyfikowane zostały bariery w dostępie do informacji w perspek-tywie historycznej i w obecnie dominujących modelach dostępu. Rozdział podsumowuje uzasadnienie kierunku badań podejmowanych w ramach pracy.

Koncepcja ActiveDiscovery

Niniejszy rozdział szczegółowo przedstawia koncepcję infrastruktury ActiveDiscovery pro-wadzącej do realizacji zadania pozyskiwania wiedzy i spełniającej postulaty efektyw-nościowe postawione we wstępie do pracy. Punktem wyjścia jest diagnoza obecnego stanu rzeczy dotyczącego dostępu do wiedzy i realizacji zapytań w Semantic Web i Linked Data, przedstawiona w rozdziale 2. W sekcji 3.1 zidentyfikowane są kluczowe założenia Semantic Web i Linked Data, ważne z punktu widzenia ActiveDiscovery. Na-stępnie, w sekcji 3.2 przedstawione są elementy budulcowe infrastruktury: adnotacje dla ontologii, węzły oraz kluczowe usługi. W 3.3 omówiony jest protokół realizacji zada-nia pozyskiwazada-nia wiedzy w wersji podstawowej, który następnie rozszerzony zostaje do wersji integracyjnej w sekcji 3.4, uwzględniającej odwzorowania między ontologiami. W sekcjach 3.5 oraz 3.6 podane są procedury przepisywania zapytań wraz z wykazaniem ich poprawności oraz przykładami ilustrującymi działanie. Rozdział zamykają sekcje z dyskusją złożoności obliczeniowej (3.7) oraz zagadnieniami optymalizacji zapytań w architekturze federacyjnej (3.8). Podane są techniki optymalizacyjne dla procedury wy-konania zapytania w oparciu o ActiveDiscovery.

3.1 Założenia bazowe i adnotacje

Z punktu widzenia dalszych rozważań i stawianych hipotez kluczowym postulatem Lin-ked Data jest żądanie, aby URI reprezentujące dowolny zasób, jednocześnie zawsze do-starczało mechanizmu jego pozyskania (ang. URI dereferenceability), w szczególności aby było adresem lokalizacji sieciowej zasobu (URL), umożliwiającym pobranie z sieci

informacji związanych z reprezentowanym zasobem. Jest to nie tylko postulatem Linked Data, ale również wymaganiem specyfikacyjnym OWL2 [116], stanowiącym że każda ontologia, przyjmująca postać fizycznego dokumentu, powinna być dostępna pod adre-sem odpowiadającym identyfikatorowi IRI tej ontologii. Na potrzeby dalszych rozważań, przyjmujemy to jako elementarne wymaganie i, niezależnie od rodzaju reprezentowa-nego zasobu (konkretny obiekt występujący w świecie, pojęcie ontologii czy dokument ontologii lub zbiór danych RDF), każdy identyfikator URI może być traktowany jako reprezentacja lokalizacji sieciowej zawierającej dane powiązane z przedmiotem iden-tyfikacji. W szczególności URI reprezentujące pojęcia ontologiczne lub całe ontologie używane do opisu danych są kluczem dostępowym do tych ontologii.

Punktem wyjścia jest zarysowany we wstępie scenariusz, w którym agent formułuje

pytanie do sieci, posługując się znanym sobie językiem i używając znanych sobie

po-jęć, czyli posługując się określonym zestawem ontologii lub identyfikatorów obiektów szczegółowych. Linked Data postuluje tworzenie powiązań pomiędzy zbiorami danych (ABox) oraz używanie pojęć ontologicznych (TBox), identyfikowanych przez URI, czyli tworzenie linków pomiędzy pojęciami ogólnymi i szczególnymi. Realizacja przedmioto-wego scenariusza wymaga takiego działania sieci, w którym dla pojęć ogólnych zawar-tych w pytaniu użytkownika możliwe jest odnalezienie wiedzy instancyjnej związanej z tymi pojęciami. Wymaga to nie tylko dostępności powiązania od pojęcia ogólnego do szczególnego, ale również indeksu wiedzy instancyjnej odpowiadającej użytemu pojęciu ogólnemu, użytej ontologii. Powiązanie to zrealizowane może zostać w formie adnotacji do ontologii OWL. Propozycja takiej adnotacji podana jest w definicji 1 i zilustrowana na rysunku 3.1.

Definicja 1 (Adnotacja indeksowa). Predykat adnotacyjny hasIndexingService

zdefi-niowany poniższymi asercjami nazywany będzie adnotacją indeksową. IndexingService : Class

hasIndexingService : AnnotationProperty

> v ∀ hasIndexingService.IndexingService ∃ hasIndexingService.Thing v Ontology

Wprowadzone zostało pojęcie usługi indeksowej reprezentowane klasą

ad:hasIndexingService owl:Ontology owl:AnnotationProperty ad:IndexingService owl:Class rdfs:domain rdfs:range rdf:type rdf:type

Rysunek 3.1: Adnotacja indeksowa - wskazanie na węzeł indeksowy dla ontologii

predykat adnotacyjny, odnoszący się do danej ontologii, hasIndexingService stanowi po-wiązanie pomiędzy ontologią a indeksem, reprezentowanym przez URL będący instancją pojęcia IndexingService.

W dokumencie Index of /rozprawy2/11550 (Stron 55-61)