Index of /rozprawy2/11550

(1)

WYDZIAŁ INFORMATYKI, ELEKTRONIKI I TELEKOMUNIKACJI

KATEDRA INFORMATYKI

Rozprawa doktorska

Zdecentralizowana infrastruktura

do integracji wiedzy w Semantic Web

Autor: Adam Łuszpaj

Dyscyplina: Informatyka

Promotor: prof. dr hab. inż. Grzegorz Dobrowolski

(2)

(3)

Sieć Web zrewolucjonizowała dostęp do wiedzy. Semantic Web niesie ze sobą nowy paradygmat dostępu, jakim jest automatyczne przetwarzanie danych w sieci globalnej przez aplikacje rozumiejące ich znaczenie. Nowe metody reprezentacji i manipulowania wiedzą, takie jak RDF, OWL czy SPARQL przekształcają sieć dokumentów w sieć zasobów, dostarczając zunifikowa-nego modelu danych i formalizmów wyrażania semantyki. Modele dostępu do danych, w tym gromadzenie danych RDF w centralnych repozytoriach, nawigowanie w sieci Linked Data, wyszukiwarki semantyczne czy systemy federacyjne, napotykają na dwie przeszkody. Pierwsza z nich, nazwana ba-rierą architektoniczną, dotyczy problemu lokalizacji źródeł i transparent-nego pozyskiwania wiedzy; druga, nazwana semantyczną, związana jest z zagadnieniami różnorodności i niedopasowania ontologii.

W ramach rozprawy sformułowane zostało zadanie pozyskiwania wiedzy, wobec którego kierowanych jest 6 postulatów efektywności. Zadanie polega na rozproszonym wykonaniu zapytania SPARQL opartego na ontologiach, w którym zakłada się identyfikację źródeł wiedzy w oparciu o elementy termi-nologiczne zapytania. Treścią rozprawy jest propozycja zdecentralizowanej infrastruktury ActiveDiscovery, która wspiera realizację zadania pozyskiwa-nia w zgodzie z postulatami efektywności, stanowiąc architekturę dostępu konceptualnie mierzącą się z obiema barierami.

Tytułowa integracja wiedzy dotyczy z jednej strony agregacji danych współ-dzielonych pomiędzy różnymi źródłami, z drugiej, odwzorowań pomiędzy ontologiami. Zadanie efektywnego pozyskiwania wiedzy w oparciu o Acti-veDiscovery spełnia warunek transparentności dostępu i aktywności sieci, ponieważ nie wymaga adresowania zapytania oraz maksymalizuje zbiór wy-ników poprzez integrację terminologiczną. Infrastruktura konstrukcyjnie

(4)

na-Zaproponowano indeks źródeł wiedzy instancyjnej (ABox) oraz indeks od-wzorowań wiedzy terminologicznej (TBox) w architekturze rozproszonych węzłów, które osiągalne są poprzez wprowadzone rozszerzenia adnotacyjne dla ontologii OWL w Semantic Web. Niezaadresowane zapytanie źródłowe typu ABox przetwarzane jest przez węzeł mediatora, którego zadaniem jest ekstrakcja predykatów występujących w zapytaniu, zlokalizowanie źródeł wiedzy oraz translacja i optymalizacja zapytania z użyciem informacji kon-tekstowych, a następnie wykonanie docelowego zapytania federacyjnego wo-bec zlokalizowanych punktów dostępowych SPARQL.

Wykonano prototypową implementację opracowanych węzłów infrastruk-tury, rozszerzeń adnotacyjnych, protokołu interakcji mediatora z pozosta-łymi węzłami i algorytmu translacji zapytania oraz przeprowadzono ewalu-ację, której wyniki wskazują na wartość dodaną i skalowalność zapropono-wanej infrastruktury.

(5)

The Web has deeply changed the way we acquire knowledge. The Semantic Web brings a new paradigm of machine-processable knowledge on a global scale by intelligent, semantics-aware applications. New methods of know-ledge representation and manipulation, such as RDF, OWL and SPARQL, transform a document-centric medium into resource-oriented space by pro-viding a uniform data model and means to express data semantics. The proposed knowledge access approaches, namely collecting data in central repositories, navigating in Linked Data, semantic indexing searchers or fe-derated systems, face two general impediments. The first, called an architec-tural barrier, regards the problem of knowledge discovery and transparency of knowledge sources access; the second, called a semantic barrier, is related to the question of semantic heterogeneity.

The dissertation discusses the problem of knowledge acquisition required to satisfy 6 conditions of effectiveness. The problem refers to the distributed execution of an ontology-based SPARQL query in which knowledge sources are dynamically detected, based on the query’s terminological boxes. The contribution of the dissertation is a proposal of a decentralized infrastruc-ture named ActiveDiscovery, designed to support a solution to the problem of knowledge acquisition in compliance with the effectiveness conditions, consitituting an architectural pattern which attempts to overcome both ac-cess barriers.

The knowledge integration concerns aggregation of data shared among di-sparate sources and ontology matching. The problem of effective knowledge acquisition in ActiveDiscovery meets the requirement of transparent ac-cess and network proactivity thanks to non-addressing query handling and

(6)

tures and worldwide Domain Name System.

An index of assertional (ABox) knowledge sources as well as an index of terminological (TBox) knowledge mappings have been proposed within an architecture of distributed nodes. Index nodes accessibility throughout the network is enabled by annotation extensions introduced in OWL ontologies. A non-addressing ABox source query is processed by the mediator node which is responsible for an extraction of TBoxes from the query, discovery of relevant knowledge sources, translation and optimization of the query based on context meta-data and finally an execution of the target query against federated SPARQL endpoints.

A proof-of-concept implementation has been carried out regarding the pre-viously designed node applications, annotation extensions, interaction pro-tocol between mediator node and other parties as well as an algorithm for query translation. Finally, an evaluation has been performed, revealing value added and scalability of the proposed infrastructure.

(7)

Pragnę podziękować mojemu promotorowi, Panu Profesorowi Grzego-rzowi Dobrowolskiemu, za nieocenioną pomoc okazaną w trakcie po-wstawania tej pracy, opiekę merytoryczną i niezliczone rady krytyczne. Niegasnąca inspiracja, wyrozumiałość i okazywane wsparcie motywo-wały mnie do ciągłego podejmowania i kontynuowania wyzwań badaw-czych.

Chciałbym wyrazić wdzięczność Pani dr inż. Annie Zygmunt za inspi-rację i zaproszenie do pierwszych projektów naukowych. Dziękuję rów-nież Panu dr. hab. inż. Jarosławowi Koźlakowi za cenne rady i wsparcie merytoryczne.

Dziękuję moim studentom w Katedrze Informatyki AGH, za zaangażo-wanie we wspólne projekty i ciekawe dyskusje.

Szczególne podziękowania chciałbym złożyć mojej rodzinie za nieustanne wsparcie, cierpliwość i motywację do dalszej pracy.

(8)

(9)

Spis rysunków xiii

1 Wprowadzenie 1

2 Dostęp do wiedzy w Semantic Web 7

2.1 Ewolucja sieci Web . . . 7

2.1.1 World Wide Web . . . 8

2.1.2 Semantic Web, ujęcie kanoniczne . . . 11

2.1.3 Semantic Web, inne ujęcia . . . 14

2.1.4 Linked Data . . . 15

2.1.5 Bariery w dostępie do wiedzy . . . 19

2.2 Bariera architektoniczna . . . 21

2.2.1 Repozytorium centralne . . . 23

2.2.2 Scenariusz nawigacyjny . . . 24

2.2.3 Semantyczne wyszukiwarki indeksujące . . . 26

2.2.4 Rozwiązania federacyjne . . . 28

2.3 Bariera semantyczna . . . 32

2.3.1 Perspektywa teoretyczna . . . 36

2.3.2 Perspektywa Linked Data . . . 37

2.4 Podsumowanie i kierunki pracy . . . 41

3 Koncepcja ActiveDiscovery 45 3.1 Założenia bazowe i adnotacje . . . 45

3.2 Elementy strukturalne ActiveDiscovery . . . 47

3.3 Protokół dostępu do wiedzy . . . 50

(10)

3.3.2 Pozyskiwanie wiedzy . . . 51

3.4 Integracja wiedzy w ActiveDiscovery . . . 53

3.5 Realizacja zapytania w ActiveDiscovery . . . 57

3.5.1 Algorytm LOC przekształcenia zapytania . . . 60

3.6 Realizacja zapytania z uwzględnieniem odwzorowań . . . 65

3.6.1 Odwzorowania jako nośniki integracji . . . 66

3.6.2 Algorytm MAPLOC przekształcenia zapytania . . . 67

3.7 Złożoność problemu zapytania . . . 71

3.7.1 Złożoność problemu ewaluacji zapytania . . . 72

3.8 Charakterystyka i optymalizacja zapytań . . . 74

3.8.1 Techniki optymalizacyjne . . . 74

3.8.2 Optymalizacja zapytań w ActiveDiscovery . . . 77

4 Ewaluacja ActiveDiscovery 81 4.1 Metodologia ewaluacji . . . 82

4.2 ActiveDiscovery a DNS . . . 84

4.3 Implementacja prototypu ActiveDiscovery . . . 84

4.4 Zapytania testowe . . . 87

4.5 Dane testowe . . . 90

4.6 Środowisko ewaluacyjne . . . 91

5 Wyniki i wnioski 93 5.1 Ewaluacja jakościowa . . . 93

5.1.1 Zapytanie typu gwiazdowego, rozłączne źródła danych . . . 94

5.1.2 Zapytanie typu multigwiazda, źródła danych współdzielące in-stancje . . . 97

5.1.3 Zapytanie z dwiema ontologiami, źródła danych współdzielące instancje . . . 100

5.1.4 Zapytanie w scenariuszu z odwzorowaniem między ontologiami . 102 5.2 Ewaluacja ilościowa . . . 105

5.2.1 Translacja zapytania . . . 106

5.2.2 Wykonanie zapytania . . . 107

5.3 Zapytania do rzeczywistych danych w Semantic Web . . . 119

(11)

5.3.2 Przykład 2. Łączenie danych z różnych źródeł . . . 121 5.4 Wnioski z wyników . . . 125

6 Podsumowanie i dalszy rozwój 133

(12)

(13)

2.1 World Wide Web . . . 10

2.2 Semantic Web . . . 13

2.3 Chmura Linked Open Data w styczniu 2019 . . . 17

2.4 Linked Data . . . 20

2.5 Klasyfikacja podejść do uzgadniania ontologii . . . 35

2.6 Ewolucja paradygmatów dostępu do wiedzy . . . 43

3.1 Adnotacja indeksowa . . . 47

3.3 Rejestracja wiedzy . . . 50

3.4 Pozyskiwanie wiedzy . . . 52

3.6 Adnotacja odwzorowań . . . 55

3.7 Pozyskiwanie wiedzy . . . 56

4.1 Diagram wdrożenia ActiveDiscovery . . . 91

5.1 Czas translacji zapytań . . . 107

5.2 Czas wykonania zapytania nr 1 . . . 109

(14)

5.10 Czasy zapytań porównawczo dla Fuseki . . . 126 5.11 Czasy zapytań porównawczo dla Stardog . . . 127 5.12 Czasy zapytań porównawczo dla Fuseki, ograniczony zakres danych . . . 129 5.13 Czasy zapytań porównawczo dla Stardog, ograniczony zakres danych . . 130

(15)

Wprowadzenie

Sieć Web w ciągu dwudziestu kilku lat swojego istnienia stała się jednym z najdonio-ślejszych wytworów ludzkiej cywilizacji, głęboko przeobrażając rzeczywistość, w której żyjemy. Bogactwo informacyjne i różnorodność dostępnych usług stanowią ogromny dorobek o niezaprzeczalnym wpływie na kształt współczesnej kultury, gospodarki, ży-cia społecznego, sposobów komunikacji międzyludzkiej czy stylu żyży-cia. U podstaw tego dynamicznego rozwoju, oprócz rozwiązań technologicznych, leży fundamentalna zasada wolności dostępu do informacji, zarówno w zakresie ich konsumowania jak i produko-wania, wspierana przez zdecentralizowaną architekturę, zakładającą brak nadrzędnych organów kontrolujących dostęp i przepływ informacji. Innymi istotnymi czynnikami, które doprowadziły do lawinowego przyrostu zawartości informacyjnej w sieci Web jest prostota jej założeń konstrukcyjnych, których podstawy wyznaczają bezstanowy proto-kół HTTP, sposób adresowania i język HTML, dostarczający metod prezentacji danych w przeglądarce internetowej. Usługi indeksujące i wyszukiwawcze, zbudowane na szczy-cie architektury Web i umożliwiające odnajdowanie treści z użyszczy-ciem słów kluczowych zdefiniowały podstawowe scenariusze pozyskiwania wiedzy w globalnych zasobach in-formacyjnych. Wiedza zgromadzona w sieci Web, w ogólnym ujęciu, wyrażana jest w języku naturalnym i przeznaczona do wykorzystania bezpośrednio przez człowieka, co stanowi fundamentalną barierę dla wizji przedstawionej na łamach Scientific American w 2001 roku [12]. W artykule przedstawiony jest scenariusz, w którym inteligentne apli-kacje, pozyskujące i operujące na wiedzy, redefiniują model interakcji z siecią, realizując złożone zadania na rzecz użytkownika. Urzeczywistnienie tej wizji wymaga nowego pa-radygmatu reprezentacji danych, który pozwoli aplikacjom rozumieć dane.

(16)

Semantic Web i Linked Data

Semantic Web (dalej również SW) pojawia się jako odpowiedź na tę potrzebę, stano-wiąc milowy krok w ewolucji globalnej przestrzeni informacyjnej, w której aplikacje przetwarzają dane z uwzględnieniem ich znaczenia. Ewolucja rozumiana jest tutaj jako wykorzystanie rozwiązań architektonicznych sieci Web, takich jak HTTP czy URI, jed-nak wizja przetwarzania danych w sposób automatyczny, uwzględniająca ich seman-tykę, wymaga radykalnej zmiany metod reprezentacji danych. Część wysiłków badaw-czych zmierza w stronę ekstrakcji semantyki z danych dostępnych w obecnej postaci z wykorzystaniem metod sztucznej inteligencji, takich jak web mining, analiza języka naturalnego czy uczenie maszynowe, jako kryterium sukcesu przyjmując poprawę sku-teczności wyszukiwania. Semantic Web w ujęciu kanonicznym W3C kładzie nacisk na opracowanie modeli, notacji i formalizmów kodujących informacje i ich znaczenie w taki sposób, aby notacje te mogły być rozumiane i przetwarzane przez maszyny. U podstaw SW leży język opisu zasobów Resource Description Framework (RDF) [129] wyko-rzystujący stwierdzeniową reprezentację wiedzy, język logiki opisowej Ontology Web Language (OWL) [115] pozwalający definiować warstwę ontologiczną oraz język i pro-tokół zapytań SPARQL [149] do wiedzy wyrażanej z użyciem RDF. Dotychczasowym osiągnięciem Semantic Web jest wypracowanie i promocja standardów strukturyzacji wiedzy i jawnego wyrażania jej znaczenia. Standardy te z powodzeniem wykorzystywane są w rozwiązaniach dziedzinowych, przykładami mogą być ontologie opisujące genetykę, klasyfikujące obiekty przemysłowe czy wspierające wymianę informacji naukowej.

Szybki przyrost ilości danych RDF w przestrzeni publicznej związany jest z poja-wieniem się inicjatywy Linked Data [14, 90], która promuje dobre praktyki dotyczące sposobu publikowania danych RDF w Semantic Web. Postuluje stosowanie HTTP URI, jako mechanizmu, który służy nie tylko identyfikacji zasobu ale również odpowiada za dostęp do niego (ang. dereferenceability ), zarówno na poziomie danych asercyjnych (ABox) jak i terminologicznych (TBox). Linked Data zwraca również uwagę na po-nowne użycie słowników i ontologii oraz zaleca tworzenie powiązań RDF pomiędzy zbiorami danych. Rozwój Semantic Web uzależniony jest z jednej strony od danych wyrażanych zgodnie z przyjętymi standardami, z drugiej od aplikacji użytkowych wy-korzystujących potencjał drzemiący w danych Linked Data. Pokłady wiedzy dostępnej publicznie urosły już do znacznych rozmiarów, ale brakuje przełomowego modelu

(17)

wyko-modelu skutecznego wykorzystania zbiorów Web of Data.

Modele pozyskiwania wiedzy

Wzorce przypadków użycia danych Semantic Web przenoszone są z dwóch środowisk, Web oraz baz danych. Aplikacjami zapewniającymi dostęp do wiedzy RDF są tzw. przeglądarki semantyczne, które – na wzór tradycyjnych przeglądarek webowych – je-dynie wyświetlają dane RDF. Zasoby indeksowane są przez centralne usługi, nazywane wyszukiwarkami semantycznymi, które swoim działaniem także daleko nie odbiegają od poprzedniczek, ponieważ indeksacja i wyszukiwanie oparte jest zasadniczo na sło-wach kluczowych odnajdowanych w dokumentach semantycznych. Ze względu na fakt, że dane RDF mają charakter strukturalny i mogą być pozyskiwane za pomocą języka SPARQL, wykorzystane zostały również metody znane z dziedziny baz danych. W szczególności koncepcja pobierania, tłumaczenia i ładowania danych (ETL) do jednego repozytorium, w celu ich dalszego przetwarzania, jest odzwierciedleniem procesów ma-jących miejsce w hurtowniach danych. Z kolei zagadnienia rozproszonych baz danych łączą się z federacyjnym wykonywaniem zapytań SPARQL w środowisku rozproszonych zbiorów RDF. Wszystkie te metody wydają się być niewystarczające z perspektywy obietnicy jaką niesie ze sobą Semantic Web. Przeglądanie i wyszukiwanie na podsta-wie słów kluczowych, odpopodsta-wiednie i skuteczne dla dokumentów HTML, nie może wy-korzystać wartości dodanej wnoszonej przez reprezentację wiedzy RDF i ujawnianie semantyki w ontologiach. Ładowanie danych do centralnego repozytorium jest nieska-lowalne i nie gwarantuje aktualności danych. Architektury federacyjne są krokiem we właściwą stronę, ale brakuje mechanizmów odkrywania poszukiwanej wiedzy, aplikacje nie powinny być ograniczone do z góry zadanych źródeł danych.

Poza zagadnieniem dostępu do danych, znanym i szeroko badanym problemem jest wielość, różnorodność i nieprzystawalność semantyczna ontologii używanych do opisu danych. Efektywne pozyskiwanie danych wymaga przezwyciężenia problemu heteroge-niczności terminologicznej zasobów Web of Data. Postulatem Semantic Web jest ujaw-nianie, formalizowanie i współdzielenie znaczenia danych w sieci, tak, aby aplikacje semantyczne mogły przetwarzać dane w oparciu o ich znaczenie, nie będąc ograniczo-nymi do predefiniowanych postaci danych. W artykule [14] wyrażone zostało

(18)

oczekiwa-nie na nowe paradygmaty interakcji związane z dostępem do rozproszonych danych, jak również wyrażona jest konieczność semantycznej integracji danych, opartej na odwzo-rowaniach pomiędzy danymi i ontologiami. Od tego czasu trudno zaobserwować na tym polu znaczącą zmianę. Linked Data potrzebuje mechanizmów dostępu do zunifikowanej wiedzy, która będzie zrozumiała i możliwa do przetworzenia przez aplikację. Potencjał nowej generacji sieci globalnej opiera się na inteligentnych aplikacjach, które będą w stanie w transparentny sposób korzystać z rozproszonych i autonomicznych zasobów Semantic Web.

Postulaty, teza i zakres rozprawy

Teza rozprawy wywodzi się ze spostrzeżenia, że pomiędzy warstwą semantycznego opisu danych a warstwą inteligentnych aplikacji brakuje infrastruktury pośredniej, która in-tegrowałaby wiedzę i udostępniała ją do wykorzystania w warstwie aplikacji. Wyma-ganiem architektonicznym dla takiej infrastruktury jest jej całkowita decentralizacja i brak wyróżnionych węzłów sieci, które mogłyby stać się wąskimi gardłami czy pojedyn-czymi punktami kontroli. Przedmiotem rozprawy jest opracowanie koncepcji zdecen-tralizowanej infrastruktury dostępu i integracji wiedzy w Semantic Web. Scenariuszem weryfikacyjnym dla takiej koncepcji jest zadanie polegające na pozyskaniu wiedzy z sieci przez agenta posługującego się ontologią do sformułowania zapytania o wiedzę bez specyfikowania lokalizacji jej źródeł. Postulaty efektywnego pozyskiwania wiedzy wy-punktowane są poniżej.

1. Postulat aktywności. Tradycyjnie, użytkownik poszukując informacji w sieci prze-jawia aktywne zachowanie, odwiedzając strony internetowe czy wykorzystując aplikacje webowe, przyswaja fragmentaryczne informacje i wykonuje operacje ta-kie jak złożenie zamówienia czy rezerwacja biletu. Postulat stanowi, że to sieć, poprzez infrastrukturę, powinna zachować się aktywnie odszukując pożądane in-formacje na podstawie postawionego pytania.

2. Postulat transparentności. Użytkownik nie zna lokalizacji źródeł wiedzy, nie po-daje ich w zapytaniu, sieć jest odpowiedzialna za ich odszukanie i użycie.

3. Postulat praktycznej kompletności. Sieć powinna zlokalizować i wykorzystać jak największą liczbę źródeł wiedzy przydatnych do skonstruowania odpowiedzi.

(19)

na ontologiach użytych do sformułowania pytania.

5. Postulat neutralności ontologii. Sieć powinna wykorzystać również wiedzę, która opisana jest innymi pojęciami i ontologiami, ale która jest interesująca z punktu widzenia zapytania i może poszerzyć zbiór jego wyników.

6. Postulat decentralizacji i skalowalności. Sieć nie powinna zakładać istnienia punk-tów centralnych o kluczowym znaczeniu dla jej działania, które mogłyby stanowić wąskie gardła czy wspierać kontrolę w dostępie do zasobów. Powinna być zdecen-tralizowana i skalowalna.

Przez zadanie pozyskiwania wiedzy rozumiana jest realizacja strukturalnego zapy-tania, jakim jest zapytanie SPARQL, skierowanego do sieci bez specyfikowania źródeł danych niezbędnych do uzyskania odpowiedzi przez podmiot formułujący zapytanie (nazywany dalej agentem). Agent posługuje się znaną sobie ontologią lub ontologiami do sformułowania zapytania i pojęcia ontologiczne wykorzystane w zapytaniu stanowią wyłączną przesłankę dla skutecznego odnalezienia odpowiedzi, podobnie jak język użyty przez człowieka zadającego pytanie stanowi wystarczającą przesłankę dla pozyskania niezbędnej wiedzy i udzielenia odpowiedzi.

Teza

Tezą rozprawy jest stwierdzenie o wykonalności zdecentralizowanej infra-struktury dostępu i integracji wiedzy w Semantic Web (nazywanej dalej ActiveDiscovery), spełniającej postulaty efektywnego pozyskiwania wiedzy.

Podjęta zostanie próba wykazania tej tezy poprzez opracowanie propozycji

zde-centralizowanej infrastruktury dostępu i integracji wiedzy ActiveDiscovery, zbudowanie

prototypowej implementacji oraz przeprowadzenie ewaluacji pokazującej wykonalność

zadania pozyskiwania (ze spełnieniem postulatów efektywności) oraz perspektywy

(20)

Realizacja zapytania skierowanego do zdecentralizowanej architektury wyposażo-nej w mechanizmy indeksowania i integracji wiedzy opiera się na jego dekompozycji sterowanej rozproszonym indeksem wiążącym dane asercyjne RDF z pojęciami termi-nologicznymi ontologii a następnie wykonaniu na zidentyfikowanych węzłach. Źródła wiedzy lokalizowane są w oparciu o pojęcia ontologiczne wykorzystane do sformuło-wania zapytania będącego treścią zadania. Decentralizacja i rozproszone wykonanie sprzyja wykorzystaniu zasobów obliczeniowych wielu węzłów stanowiących filary archi-tektoniczne ActiveDiscovery. Architektura tego typu jest rozwiązaniem łączącym zalety centralnego repozytorium RDF, jakim jest możliwość realizacji zapytania struktural-nego bez dodatkowej specyfikacji źródła wiedzy, z rozwiązaniem federacyjnym, jakim jest rozproszenie i operowanie na oryginalnych kopiach danych. Wykorzystuje federa-cję uzupełnioną o indeks umożliwiający transparentną lokalizafedera-cję relewantnych źródeł wiedzy. Na poziomie architektonicznym narzucającą się analogią jest porównanie do systemu DNS, zdecentralizowanej usługi przechowującej rozproszony indeks kojarzący nazwy domen internetowych z adresami IP. Użytkownik usługi DNS również nie zna lokalizacji węzła z odwzorowaniem pomiędzy nazwą domenową a adresem IP, za od-nalezienie tego węzła odpowiedzialna jest usługa sieciowa. Różnica polega na proce-sie odszukiwania, w DNS opartym na hierarchiczności budowy nazwy domenowej, w przypadku ActiveDiscovery wyposażonej w bardziej złożone mechanizmy wynikające z natury poszukiwanej wiedzy.

Zawartość rozprawy

Rozdział 2 zawiera przegląd i analizę aktualnego stanu badań i wiedzy dziedzinowej, rozszerza i dokumentuje zagadnienia poruszone we wprowadzeniu. Znajduje się w nim także szersze uzasadnienie motywacji dla podejmowanej tematyki pracy. Rozdział 3 szczegółowo przedstawia założenia, koncepcję i ograniczenia infrastruktury ActiveDi-scovery. Zawarta jest w nim charakterystyka poszczególnych elementów adnotacyjnych, strukturalnych i obliczeniowych składających się na infrastrukturę. Rozdział 4 pre-zentuje założenia metodologiczne dla ewaluacji koncepcji, określone są w nim kryteria oceny wykonalności. W rozdziale 5 udokumentowane są eksperymenty i zaprezentowane wyniki ewaluacji wraz z dyskusją i wnioskami płynącymi z przeprowadzonych badań. Rozdział 6 podsumowuje całość rozprawy, osiągnięte wyniki i prezentuje możliwości dalszego rozwoju ActiveDiscovery.

(21)

Dostęp do wiedzy w Semantic

Web

Rozdział zawiera przegląd stanu wiedzy i kierunków badawczych dotyczących zagad-nień dostępu do informacji w sieci Web. W sekcji 2.1 krótko zaprezentowana jest hi-storia rozwoju modeli dostępu, poczynając od wczesnych etapów sieci Web a kończąc na dzisiejszych scenariuszach wykorzystania informacji w sieci danych (ang. Web of

Data). Sekcja 2.1.5 rozwija zagadnienia związane ze współczesnymi modelami,

przed-stawiając problematykę integracji wiedzy na poziomie danych (2.2) oraz na poziomie ontologii (2.3). Przedstawiona jest ewolucja podejść do problemu integracji i pozyski-wania wiedzy w wysoce zdecentralizowanym i heterogenicznym środowisku Semantic Web. Rozdzial zamyka podsumowanie (2.4) ze wskazaniem i uzasadnieniem kierunku badań podejmowanych w ramach niniejszej pracy.

2.1 Ewolucja sieci Web

Początki sieci Web sięgają roku 1989, kiedy Tim Berners-Lee – motywowany potrzebami naukowców w CERN oraz innych środowisk naukowych – opracował szereg standardów, które miały umożliwić wymianę informacji naukowej i wyników badań. Koncepcja ba-zowała na infrastrukturze komunikacyjnej ówczesnego Internetu i, zgodnie z zapotrze-bowaniem, opierała się na tworzeniu dokumentów i ich publikacji w węzłach sieci, skąd mogły być pobierane i przeglądane za pomocą tzw. przeglądarki webowej. Podwali-nami tej koncepcji stał się znacznikowy język HTML do tworzenia dokumentów,

(22)

pro-tokół HTTP, bazujący na internetowym protokole TCP/IP, umożliwiający pobieranie dokumentów oraz mechanizm jednoznacznej, globalnej identyfikacji dokumentów UDI (ang. Universal Document Identifier ), znany później jako URL (ang. Uniform Resource

Locator ). W 1990 roku powstał pierwszy serwer obsługujący protokół HTTP i

pierw-sza przeglądarka interpretująca dokumenty HTML, oba autorstwa Berners-Lee. Istotną cechą języka HTML był fakt, że umożliwiał on tworzenie dokumentów zawierających zróżnicowaną zawartość; oprócz tekstu dokument zawierać mógł elementy graficzne, a w późniejszym czasie również multimedialne. Jednak to co miało prawdopodobnie naj-większy wpływ na dalszy, dynamiczny rozwój wczesnej sieci Web był sposób nawigacji pomiędzy stronami za pomocą tzw. hyperlinków osadzanych w dokumentach HTML. Odnośniki hipertekstowe osadzane w dokumentach pozwalały na pobranie innych do-kumentów (nazywanych stronami WWW) poprzez system globalnej identyfikacji URL, który wespół z systemem nazw domen internetowych umożliwił powstanie sieci global-nej. Pajęczyna zaczęła funkcjonować jako warstwa abstrakcji osadzona ponad mecha-nizmami Internetu i zapoczątkowała model przestrzeni informacyjnej, który zrewolu-cjonizował dostęp do wiedzy w skali globalnej. Prostota koncepcji, łatwość tworzenia, publikowania i korzystania z informacji stały się przyczyną rozpowszechnienia serwe-rów webowych, udostępniających zawartość w postaci dokumentów HTML. Dostępność zasobów fizycznych i zainteresowanie nowym medium w latach 90-tych spowodowało lawinowy wzrost ilości wiedzy prezentowanej w postaci dokumentów HTML, prowadząc do powstania fenomenu, który dzisiaj przyjęło się nazywać Web 1.0, pierwszą generacją sieci Web.

2.1.1 World Wide Web

Fundamenty technologiczne działania sieci WWW podzielić można na dwie grupy: • rozwiązania architektoniczno-infrastrukturalne, do których należy system DNS,

unikalna adresacja, odnośniki hipertekstowe, bezstanowy protokół HTTP oraz funkcjonująca poniżej tych warstw infrastruktura internetu oparta na protokołach TCP/UDP/IP,

• języki prezentacji treści, zogniskowane wokół języka HTML.

Głównym narzędziem użytkownika końcowego jest przeglądarka webowa obsługu-jąca protokół HTTP i interpretuobsługu-jąca język HTML.

(23)

W podstawowym ujęciu sieć WWW zorientowana jest na pobieranie, prezentowanie i nawigowanie pomiędzy dokumentami tekstowymi i multimedialnymi. Protokół HTTP opiera się na bezstanowym mechanizmie typu żądanie-odpowiedź, za pomocą którego przeglądarka (lub inna aplikacja) komunikuje się z serwerem webowym, żądając pobra-nia treści identyfikowanej przez URL, określający w unikalny sposób lokalizację danego dokumentu. Język HTML dostarcza znacznikowego mechanizmu definiowania struktury dokumentu i jednocześnie, wraz z elementami dodatkowymi, odpowiada za jego prezen-tację użytkownikowi w przeglądarce webowej. Istotną rolę pełnią tzw. odnośniki hiper-tekstowe, dzięki którym użytkownik może przemieszczać się między stronami, żądając pobrania kolejnego dokumentu. Mechanizm odnośników hipertekstowych jest podstawą nawigacyjnego schematu korzystania z zasobów Internetu, w którym użytkownik wy-chodząc od wybranego dokumentu porusza się po sieci dokumentów w oparciu o własną interpretację tekstowej reprezentacji odnośnika.

Ewolucyjnym następstwem było pojawienie się wyszukiwarek indeksujących, które – naśladując zachowanie użytkownika – przeglądają sieć w oparciu o odnośniki hipertek-stowe, kojarzą słowa kluczowe pojawiające się w dokumentach z ich adresami i zapisują w scentralizowanych indeksach, udostępniając je użytkownikom. Użytkownik nie musi znać adresu dokumentu, zadaje słowa kluczowe związane z interesującym go tematem a usługa zwraca listę adresów skojarzonych z tymi słowami, w zamierzeniu adresów dokumentów o poszukiwanej treści. Jest to w dzisiejszej sieci ciągle dominujący spo-sób pozyskiwania informacji na określony temat. Ponad 20 lat rozwoju wyszukiwarek internetowych uczyniły z nich wyrafinowane narzędzia o wysokim wskaźniku trafności zwracanych wyników.

Strony w dzisiejszym Internecie bardzo często są interfejsami użytkownika do sto-jących za nimi systemów usługowych, będąc nie tyle niezależnymi, statycznymi doku-mentami co eledoku-mentami złożonych aplikacji udostępnianych użytkownikom z wykorzy-staniem przeglądarki webowej. W tym scenariuszu użytkownik nie jest tylko odbiorcą statycznej treści, ale uzyskuje dynamicznie generowane dokumenty HTML w oparciu o wartości parametrów przekazywanych aplikacjom webowym.

Kolejny krok rozwojowy stanowi pojawienie się tzw. Web APIs, które nie są interfej-sem przeznaczonym bezpośrednio dla człowieka, ale dla innych aplikacji wchodzących w interakcję z usługami eksponowanymi w Internecie, które mogą je dalej przetwarzać. Usługi webowe (ang. Web Services), oparte na protokołach takich jak XML i SOAP,

(24)

stały się popularnym standardem integracji i wymiany danych pomiędzy systemami działającymi w sieci. Istotną cechą rozwiązań tego typu jest fakt, że strony biorące udział w takiej interakcji są przystosowane do produkowania i korzystania z danych w postaci, która musi być uprzednio między nimi uzgodniona. Integracja tego typu okre-ślana jest mianem punktowej (ang. point-to-point ), ponieważ dane wymieniane między stronami są wprawdzie dobrze ustrukturyzowane, ale nie posiadają uniwersalnie okre-ślonego znaczenia, które umożliwiałoby sensowne wykorzystanie ich przez aplikacje do tego nieprzystosowane.

World Wide Web

Odnośniki i przeglądanie Wyszukiwarki indeksujące Słowa kluczowe Użycie HTTP HTML URI Dane nieustrukturyzowane

Prezentacja a nie znaczenie

Niezrozumiała dla maszyn

Uniﬁkujący model Formalna semantyka Współdzielenie znaczenia Architektura Architektura Niedostatki Problemy

Rysunek 2.1: World Wide Web - Architektura, użycie, problemy, niedostatki

Aktualny pejzaż sieci Web, zilustrowany na rysunku 2.1, przedstawia się zatem następująco:

(25)

• wykorzystuje reprezentację HTML zorientowaną na strukturyzację pod kątem prezentacji danych, a nie ich znaczenia;

• główne scenariusze interakcji to nawigowanie w sieci dokumentów i wykorzysta-nie scentralizowanej wyszukiwarki indeksującej zasoby sieci w oparciu o słowa kluczowe;

• interfejsy aplikacyjne przeznaczone są raczej dla człowieka niż dla maszyn, • informacje reprezentowane w językach przeznaczonych do przetwarzania

maszy-nowego (XML) zamknięte są w domenie interpretacji założonej przez aplikacje wykorzystujące te dane.

Wizja inteligentnych aplikacji operujących na danych w sieci Web wymaga moż-liwości rozumienia danych przez oprogramowanie, które nie zostało do przetwarzania określonych danych wcześniej przygotowane. Automatyzacja przetwarzania danych sieci Web wymaga jawnego dostępu do warstwy semantycznej danych. Obecna postać, zo-rientowana na prezentację stanowi fundamentalną barierę dla oczekiwanych przypad-ków użycia, dlatego postulowana jest konieczność wprowadzenia nowych mechanizmów, które wsparłyby możliwości inteligentnego operowania na wiedzy i usługach interneto-wych.

2.1.2 Semantic Web, ujęcie kanoniczne

Odpowiedzią artykułowaną przez szeroką społeczność, w tym liczne środowiska akade-mickie i World Wide Web Consortium (W3C), jest nowa formuła globalnej sieci znana pod nazwą Semantic Web, która z medium dokumentów staje się medium wiedzy. Se-mantic Web jest architektonicznie zakorzeniona w standardach powstałych dla sieci po-przedniej generacji, wykorzystuje URI do identyfikacji zasobów i protokół HTTP jako warstwę transportu. Identyfikowanym przez URI zasobem jest dowolny byt: obiekt rze-czywistości zewnętrznej, abstrakcyjne pojęcie, osoba czy element danych. Oznacza to dosyć istotne przesunięcie ideowe, ponieważ URI reprezentujące, przykładowo Kraków, nie jest identyfikatorem porcji danych na temat Krakowa a samego miasta Krakowa, nawet jeśli użyte w aplikacji Semantic Web skutkuje zwróceniem tej porcji danych.

(26)

Zasadnicze prace standaryzacyjne, którym patronuje W3C, koncentrują się na opra-cowaniu standardów reprezentacji danych w sieci. Kluczową rolę odgrywa RDF (Reso-urce Description Framework) [129], będący propozycją standardowego modelu reprezen-tacji wiedzy w Semantic Web. RDF pozwala formułować stwierdzenia na temat zasobów reprezentowanych przez URI, mające postać trójek (subject, predicate, object ), w któ-rych subject jest zasobem określanym, predicate jest właściwością określanego zasobu lub relacją wiążącą go z innym zasobem, natomiast object jest wartością właściwości lub identyfikatorem innego zasobu. Konstrukcja, która pozwala każdemu dostawcy tre-ści dodać informacje na temat istniejącego i jednoznacznie identyfikowanego zasobu, jest zgodna z pierwotnym duchem sieci, której rudymentarną cechą jest swoboda wy-powiedzi. Zbiory stwierdzeń RDF przedstawiane są często w postaci grafu, w którym węzłami są zasoby (subject i object ) a krawędziami predykaty (predicate).

Drugim fundamentem Semantic Web są języki odpowiedzialne za definiowanie słow-ników i ontologii, czyli warstwy terminologicznej, niezbędnej do artykułowania wiedzy. Ontologie są nośnikami znaczenia pojęć, dostarczają ram pozwalających na formalne de-finiowanie semantyki elementów danych. Gruber [65] definiuje ontologię jako formalną

specyfikację pewnej konceptualizacji. Opis ontologiczny nabiera rzeczywistej wartości

wtedy, gdy jest szeroko współdzielony, rozpowszechniając wspólne rozumienie znacze-nia opisywanych pojęć. W Semantic Web językami zaprojektowanymi do budowaznacze-nia ontologii są RDFS (RDF Schema) [130] oraz OWL (Ontology Web Language) [115]. RDFS jest stosunkowo prostym meta-językiem służącym do modelowania danych w RDF, jest pozbawiony formalnej interpretacji i dostarcza ograniczonych możliwości wnioskowania. OWL, istniejący w kilku odmianach, jest oparty na logikach opisowych, z których wywodzi swoją ekspresywność i możliwości automatycznego przetwarzania formułowanej z jego użyciem wiedzy. Oba standardy dostarczają ontologiom Semantic Web środków do wysoko sformalizowanej i precyzyjnej reprezentacji danych zgodnej z modelem RDF.

Trzecim ważnym elementem budulcowym Semantic Web jest SPARQL (Simple Pro-tocol and RDF Query Language) [149], który jest językiem i protokołem służącym do realizacji zapytań i strukturalnego pozyskiwania informacji w RDF-owych bazach wie-dzy. SPARQL, podobnie jak RDF i OWL, jest standaryzowany przez W3C i jest obecnie dominującym językiem zapytań do pozyskiwania danych z grafów RDF.

(27)

Semantic Web Wykorzystanie dziedzinowe SPARQL do określonych źródeł Indeksacja dokumentów RDF RDF, OWL, SPARQL DL i wnioskowanie URI, HTTP Wyspy danych Różnorodność ontologii

Wysoki stopień komplikacji

Powiązania pomiędzy zbiorami Scenariusze pozyskiwania wiedzy Integracja wiedzy Architektura Problemy Niedostatki Użycie

Rysunek 2.2: Semantic Web - Architektura, użycie, problemy, niedostatki

Semantic Web przenosi akcent z dokumentu, będącego do tej pory pierwszopla-nowym rodzajem zasobu w sieci Web, na zasób, rozumiany jako dowolny byt repre-zentowany w sieci przez URI. Dostarcza zestandaryzowanego modelu danych, języków wspierających ujawnianie i współdzielenie semantyki danych oraz języka i protokołu od-pytywania modelu. Realizacja wizji Semantic Web [12], w której inteligentne aplikacje potrafią wykorzystać potencjał danych, wymaga elementu dopełniającego, jakim jest architektura wsparcia efektywnego dostępu i pozyskiwania informacji. Urzeczywistnie-nie scenariusza transparentnego wykorzystania potencjału sieci wymaga przełamania bariery architektonicznej i semantycznej poprzez wypracowanie wzorców pozyskiwania i metod integracji wiedzy. Synteza tej problematyki zilustrowana jest na rysunku 2.2.

(28)

2.1.3 Semantic Web, inne ujęcia

Interpretacja terminu Semantic Web, prezentowana przez dużą część społeczności inter-netowej, wykracza poza ujęcie kanoniczne. Niniejsza sekcja, dla kompletności charakte-rystyki tak szerokiego i złożonego zjawiska jakim jest Semantic Web, krótko przedstawia inne ujęcia często opatrywane tym mianem.

W powszechnej świadomości Semantic Web postrzegana jest jako dążenie do do-skonalenia sposobów pozyskiwania i wykorzystania informacji dostępnych w sieci w jej obecnej postaci, niekoniecznie związanych z działalnością standaryzacyjną W3C. Główna linia podziału przebiega pomiędzy ujęciem kanonicznym, zorientowanym na kształtowanie i promocję standardów opisu wiedzy wraz z wysokim poziomem sfor-malizowania jej semantyki, a podejściem koncentrującym się na wykorzystaniu metod

data miningu oraz przetwarzania języka naturalnego do ekstrakcji znaczenia danych z

obecnych zbiorów wiedzy zgromadzonej w sieci. Iskold [79] nazywa je dychotomicznie podejściem bottom-up i top-down, odpowiednio.

Podejście bottom-up zakładające, że dostawcy treści będą stosować skomplikowaną i teoretyczną aparaturę jest przez część zwolenników podejść top-down uznawane za utopijne. Inne stanowiska głoszą, że powinno być uzupełnione praktycznymi rozwiąza-niami zanim Web wypełni się treścią nowego typu. Postulują wprowadzanie rozwiązań pośrednich, rozwiązujących konkretne problemy, których zasadniczą cechą jest wyko-rzystanie zawartości Web w jej obecnej postaci. Stanowisko to, w dalszej kolejności, dzieli się na takie, w którym do ujawnienia semantyki danych zaprzęgane są heurystyki oparte na metodach analizy języka naturalnego i analizie statystycznej oraz na takie, w którym postulowana jest semantyczna adnotacja istniejącej wiedzy za pomocą rozwią-zań uproszczonych. Przykładem drugiego z wymienionych podejść są tzw. mikroformaty [105], umożliwiające semantyczne markowanie wybranych elementów w dokumentach HTML (wydarzenia, kontakty, adresy, współrzędne geograficzne, itp.).

Doskonalenie procesu wyszukiwania informacji jest punktem wyjścia dla propo-zycji, które nazwać można semantyzacyjnymi. Szczególnie popularnym wyobrażeniem jest możliwość zadawania pytań w języku naturalnym i otrzymywania bezpośrednich odpowiedzi zamiast posługiwania się słowami kluczowymi i podążania za odnośnikami będącymi odpowiedzią wyszukiwarki. Są to tzw. answer engines, które spotkać można w usługach takich jak Ask.com [6], Answers.com [3] czy Wolfram Alpha [171]. Ask.com

(29)

oraz WolframAlpha są przykładami usług odpowiadających na proste pytania o fakty (ang. factual queries) zwracając bezpośrednie odpowiedzi zamiast linków do dokumen-tów, na których odszukane zostały słowa kluczowe zawarte w pytaniu. Obie usługi opie-rają się na intensywnym przetwarzaniu własnych, zamkniętych baz wiedzy, ale szczegó-łowa technologia obliczeniowa stojąca za tymi usługami nie jest ujawniana. Zbliżonym projektem jest Google Direct Answer [59], stanowiący uzupełnienie dla standardowej wyszukiwarki Google, zwracający bezpośrednie odpowiedzi kojarzone z frazami zawie-rającymi słowa kluczowe. Inne podejście prezentował PowerSet [123] (później część Bing), który oprócz analizy statystycznej i słownikowej, wykorzystywał źródła wiedzy takie jak Wikipedia. Hakia [70] analizowała tekst pod kątem identyfikacji pełnych zdań, które służyć mogły jako indeks dla zapytań formułowanych w języku naturalnym. Z ko-lei TextDigger [159], prezentując użytkownikowi alternatywne wyniki, próbuje odkryć znaczenie słów na podstawie wyborów podejmowanych przez użytkownika. Wyszuki-warka Yahoo [172] stoi na stanowisku, że pozyskiwanie i integracja semantyczna jest niemożliwa bez strukturyzowania zawartości Web, odwołując się tym samym do obu podejść.

Wskazane usługi odpowiadają na bieżące zapotrzebowanie skuteczniejszego odnaj-dowania informacji w obecnej sieci Web przez człowieka, koncentrując się na komuni-kacji w języku naturalnym. Ich celem nie jest automatyzacja przetwarzania danych w rozumieniu Semantic Web, wskazuje na to postać zakładanych wyników. Celem Seman-tic Web jest nie tylko usprawnienie procesu wyszukiwania informacji, które następnie mogą być wykorzystane przez człowieka, reprezentacja wiedzy musi pozwalać na jej sku-teczne przetwarzanie maszynowe. Założenia teoretyczne Semantic Web wywodzą się z przekonania, że takie przetwarzanie wymaga stworzenia podwalin w postaci formal-nych i współdzieloformal-nych metod wyrażania znaczenia jakimi są ontologie, że odkrywanie semantyki w procesie automatycznej analizy tekstu naturalnego jest niewystarczające. W dalszej części pracy Semantic Web rozumiane będzie wyłącznie w ujęciu kano-nicznym.

2.1.4 Linked Data

Inicjatywa Linked Data [14, 90], określana również jako Linked Open Data dla pod-kreślenia otwartości i dostępności danych RDF, ma na celu upowszechnienie wzorców i

(30)

dobrych praktyk publikowania danych zgodnych ze standardami Semantic Web. Linked Data uzupełnia je o dodatkowe postulaty, które Berners-Lee [10] charakteryzuje jako:

1. Używanie URI jako identyfikatora dla zasobów.

2. Używanie HTTP URI, aby odbiorca mógł zażądać i pobrać informacje na temat zasobu.

3. Dostarczanie w odpowiedzi przydatnych informacji w formatach zgodnych z Se-mantic Web (RDF).

4. Tworzenie połączeń pomiędzy zbiorami RDF w sieci.

Postulaty te są syntetycznym ujęciem praktyk, których stosowanie prowadzić ma do urzeczywistnienia Semantic Web. Konstytutywnym dla Linked Data jest punkt czwarty, postulujący tworzenie i publikowanie semantycznych powiązań między zbiorami RDF w sieci. Powiązania tego typu są tworami analogicznymi do odnośników hipertekstowych w sieci dokumentów i, podobnie jak one, mają za zadanie tworzyć globalną przestrzeń informacyjną – Web of Data. Różnica pomiędzy powiązaniami semantycznymi a kla-sycznymi odnośnikami jest analogiem różnicy pomiędzy zbiorami RDF a dokumentami HTML. Powiązanie semantyczne pomiędzy dwoma zbiorami RDF ma postać trójki RDF, której podmiot kwalifikowany jest przestrzenią nazw jednego zbioru a obiekt przestrzenią nazw drugiego zbioru. Postulaty 1-4 uzupełniane są o dodatkowe zalecenia techniczne, jak właściwa konfiguracja serwera HTTP czy mechanizmu negocjacji HTTP [76, 166], jak również o zalecenia dotyczące reużytkowania istniejących i powszechnie znanych słowników oraz ontologii [17, 76].

Zasoby Linked Data rejestrowane są przez Lod-cloud.net [93], gdzie można zna-leźć statystyki dotyczące liczby zarejestrowanych zbiorów danych. Chmura połączo-nych zbiorów, których liczba w styczniu 2019 roku wynosiła 1234, przedstawiona jest symbolicznie na rysunku 2.3. W jej skład wchodzą duże publiczne zbiory danych zawie-rające wiedzę ogólną oraz dziedzinową. Sztandarowym przykładem takiego zbioru jest DBpedia [34], publiczna encyklopedia Semantic Web, której łączna wielkość we wszyst-kich wersjach językowych wynosiła w kwietniu 2016 roku 9,5 miliarda trójek RDF [93], oparta na własnej ontologii [35] o cechach ontologii uniwersalnej złożonej z około 700 klas i około 3000 właściwości. Innym dużym, publicznie dostępnym zbiorem wiedzy

(31)

ogólnej jest Freebase [53], objęty patronatem przez Google. Baza zawiera ustruktury-zowaną wiedzę wytworzoną przez członków społeczności, ale również czerpie z innych internetowych zasobów, takich jak Wikipedia. Freebase udostępnia zbiór liczący 1,9 miliarda trójek RDF. Legend Cross Domain Geography Government Life Sciences Linguistics Media Publications Social Networking User Generated status... GeoNam... Person... status... status... status... status... status... status... status... status... status... status... status... status... Amino ... Compar... Chemic... CRISP ... Logica... Cell l... MESH T... Medica... NCI Th... Nation... Nation... NIFSTD NanoPa... Read C... RxNORM SNOMED... SNP-On... Sequen... Sugges... VANDF DBpedi... DBpedia datahub openli... W3C Arthro... DBLP R... Freebase New Yo... status... status... status... status... status... status... status... status... TaxonC... BBC Wi... Europe... Fishes... GeoSpe... OpenCyc UMBEL ... UniProt status... status... DBTune... MusicB... Poképé... Pokede... Univer... OLiA Japane... Web ND... DBpedi... HEALTH... Cancer... Cancer... COSTART Human ... Experi... Health... ICPC-2... MedDRA Medlin... Natura... NIF Dy... Online... PMA 2010 RadLex WHO Ad... ChEMBL... Bio2RD... EPA-CDR EPA-FRS EPA-SRS DWS-Group Semant... semant... Bio2RD... Bio2RD... Bio2RD... Bio2RD... Bio2RD... Inspec... Czech ... Geospa... YAGO Wikidata Nation... Associ... CiteSe... Commun... ReSIST... DBLP C... ePrint... Univer... Univer... Resear... School... ReSIST... Uberbl... TIP Linked... Inﬂue... Advers... BioAss... Bone D... Basic ... BIRNLex Gene R... BioTop CAO Cell C... Chemic... Cell L... Cognit... Ontolo... Electr... Human ... Cardia... eagle-... eVOC (... Fly ta... Genera... Gene O... Gene R... Host P... Inform... Intern... Infect... Brucel... Malari... Intera... SysMO-... Mental... Emotio... Protei... Mosqui... Neural... Neomar... NIF Cell Neural... NMR-in... Ontolo... Ontolo... OBOE SBC Ontolo... Ontolo... Ontolo... Ontolo... Ontolo... Ontolo... Ontolo... Ontolo... Phenot... Pediat... PRotei... RNA on... Subcel... Sleep ... Semant... Softwa... Time E... Transl... VIVO Vaccin... MGED O... Mass s... Solana... Units ... Units ... Rechts... Parole... lexinfo Rat St... Africa... Minima... Physic... PHARE Pathwa... El Via... GeoLin... DBpedi... 2000 U... DBTune... ﬂickr... DailyMed DBLP B... Diseasome DrugBank Eurost... Projec... SIDER:... Linked... RDF Bo... Revyu.... TCMGen... WordNe... World ... Gemeen... zhishi... BabelNet DBpedi... Zhishi.me status... status... status... status... status... status... status... AI/RHEUM Bleedi... Curren... Common... Plant ... FlyBas... HCPCS Human ... ICD10 ICD10CM Intern... Intern... Molecu... Breast... Cell l... Master... Mammal... Mouse ... Metath... NCBI o... Ontolo... Orphan... Studen... Reuter... Amphib... Anatom... Basic ... Bilate... BRENDA... Cerebr... Human ... Human ... Drosop... Hymeno... Mouse ... Medaka... Teleos... Uber a... Verteb... verteb... Xenopu... Zebraf... CLLD-WOLD CLLD-G... Lexvo Persée... data.b... IdRef:... VIAF: ... EnAKTi... Ordnan... Prince... WordNe... openda... statis... Agenda... Instit... Ascomy... System... Cognit... Fungal... Fissio... Gene O... Cereal... Event ... IxnO MeGO Plant ... Plant ... Physic... System... SoyOnt... Plant ... Verteb... Yeast ... status... Linked... U.S. S... ichoose eagle-... Biomed... Basisr... Open D... eagle-... EventKG Deaths... Regist... data.g... status... status... Univer... EPA-TRI Family... Intern... eagle-... Intera... Didact... Focus ... status... status... status... status... status... MLSA -... wiktio... Dendri... Protei... openda... Linked... EUR-Le... ABA Ad... Cell type Enviro... Spider... Mosqui... C. ele... Tender... State ... R&D Pr... Temple... Semant... Syndro... Atheli... LemonW... Tradit... Multip... EARTh GEnera... ThIST UMTHES Deusto... MORElab CLLD-E... DBkWik Europe... Bundes... Food a... Intern... Transp... World ... ICD-10... Ontolo... Bio2RD... Bio2RD... Bio2RD... Bio2RD... Breast... Dictyo... Tick g... BBC Music openda... refere... RISM A... Gemein... Fundaç... Budape... Instit... France... Divers... Korean... Univer... Prince... Librar... Brown ... ICANE Lista ... cablegate Situat... Sample... Facete... Thai W... Reacto... UniProtKB Bio2RD... Bio2RD... Bio2RD... Bio2RD... Bio2RD... Bio2RD... Bio2RD... IMGT-O... Parasi... Proyec... openda... Biolog... FDA Me... Lipid ... PKO_Re Experi... dbnary ALPINO... School... Resili... DEPLOY... dotAC ... epsrc IBM Re... IEEE P... UK JIS... LAAS-C... Open A... Univer... RISKS ... Univer... ECS So... C. ele... Amphib... Taxono... Teleos... TOK_On... TWC: L... GovTra... vivo2doi CrossR... VIVO S... VIVO U... VIVO W... VIVO W... tags2c... WordNe... Europe... EEA Re... EIONET... Telegr... Linked... DBTune... Multil... Neomar... DATATU... NASA S... BBC Pr... Integr... Clinic... DBpedi... openda... eagle-... EUMIDA... Linked... NUTS (... Sudoc ... CE4R K... eagle-... OpenMo... Linked... lobid-... B3Kat ... Dewey ... Projec... lobid-... Open L... Automa... fun Linked... Bio2RD... Aperti... Animal... Spatia... ExO Logger... MIxS C... Sentim... openda... Google... LinkedCT Univer... Aperti... xLiD-L... dbpedi... Projet... DBpedi... Bio2RD... Manual... Debian... Bricklink Bio2RD... sloWNe... openda... Job ap... status... status... bio2rd... CLLD-afbo Aperti... ReSIST... southa... BPR ? ... Univer... Aperti... Open M... ISOcat wordpress Univer... lemonUby Univer... Univer... The Li... Univer... MARC C... lingvo... Englis... Genera... TDS SmartL... iServe... Verrij... Cornet... DBpedi...

Art & ... ERA - ...

openda... Medici... ATC gr... YSA - ... YSO - ... SALDO-RDF Data a... Compre... Alpine... BibBase busine... Chroni... Discog... Mosele... Data I... data.o... DBTropes DBTune... data.dcs educat... EnAKTi... EnAKTi... EnAKTi... enviro... ESD St... Eurost... EventM... TheSoz... Hungar... John G... Linked... Linked... Linked... The Lo... Lotico myExpe... Nation... OpenCa... Openly... patent... Englis... Last.F... resear... Techni... Deep B... UN/LOC... WordNe... Semant... STW Th... Surge ... Thesau... Open L... The Vi... transp... UK Leg... UK Pos... Univer... URIBurner VIVO C... VIVO I... 20th C... GeoEcu... Nation... Linked... Diagno... Non Ra... Random... datos.... Thesau... openda... Diavgeia Hellen... Hellen... status... status... status... status... status... status... status... status... Bio2RD... Linked... Schema... openda... associ... Edublogs EnAKTi... Accomm... Inever... Inever... CLLD-P... CLLD-WALS status... status... Genera... Code l... Cadast... status... Aperti... Public... openda... PreLex Linked... Drosop... eagle-... DBpedi... Amster... Commun... Italia... Albane... SIMPLE Weathe... MetaSh... TEKORD eagle-... ciard-... Univer... EU Age... Linked... OpenEI... KORE 5... MultiW... Federa... IATI a... The Eu... UNESCO... openda... openda... GeoWor... FrameB... LODAC ... Persia... status... Univer... theses.fr Polyma... Regist... EU Par... EU Who... Educat... CTIC P... Public... Bio2RD... DIKB-E... Epilepsy ICPS N... MaHCO ... Measur... Proteo... Role O... Traffi... CLLD-S... eagle-... Univer... Datos ... openda... proven... DBLP i... Reprod... status... status... status... status... status... status... status... status... status... status... status... status... status... status... status... status... DataGo... BulTre... Univer... IPTC N... apache Archiv... berlios Deutsc... Eniped... FAO ge... greek-... Linked... Linked... LOD2 P... myopen... NHS Ja... oreilly Planet... RDFohloh status... status... status... Chines... DBpedi... The Eu... Norweg... Tradit... Univer... EU: fi... Linked... MExiCo Instit... Organi... Univer... Smokin... FiESTA Bio2RD... Bio2RD... Airpor... unipro... Open D... Comput... Physic... C. ele... Linked... Univer... OpenWN... Univer... Nomenc... MediCare Social... openda... Active... Romani... Audite... Data a... Edinbu... eagle-... Linked... World ... Slovak... SORS openda... Nation... Linked... status... Rådata... Produc... Produc... photos status... eagle-... Univer... eagle-... eagle-... Deutsc... Instan... openda... status... Italia... Result... R&D Pr... Face Link Yahoo ... FinnWo... Univer... RAMEAU... World ... ISIL->... Bio2RD... DisGeNET Global... Univer... Univer... oceand... Aperti... Kallik... Bio2RD... Nobel ... ZBW Labs Univer... CLLD-A... HUGO IATE RDF Ocean ... Ocean ... Linked... Univer... openda... vulner... Salzbu... Univer... Betwee... openda... Summar... CIPFA Aperti... DBTune... OBOE openda... Bio2RD... thesaurus status... Univer... Norsk ... Univer... Entrez... status... Univer... Founda... Wordne... BioPAX Klapps... Chem2B... bio2rd... Univer... JITA C... GeoSpe... openda... PanLex Vytaut... Shoah ... Reposi... Open D... OLAC M... Images... OpenCo... openda... openda... Requir... Austra... Bank f... Spring... Schola... status... Mis Mu... Univer... Organi... VIVO status... Averag... Ruben ... NPM Ruben ... Bio2RD... Semant... EURAXE... QBOAir... Aperti... Wheat ... Nation... Aperti... Open D... Multex... WarSampo Aperti... Red Un... Univer... yso-fi... yso-fi... Copyri... eagle-... Univer... EMN Accomm... Taxons The Co... openda... Lexico... Bio2RD... semanlink Europe... prefix.cc ProductDB typepad Univer... openda... openda... webconf Addgene SwetoDblp AGROVOC Norweg... Scotti... Climb ... notube Unempl... Univer... ItalWo... status... Univer... Aperti... NERC V... WordLi... mEduca... FOODpe... German... Job ap... eagle-... openda... ISOcat... openda... Basque... taxonc... Open D... Period... Englis... Pleiades Europe... openda... Univer... Univer... AragoD... Aragon... Instit... Univer... tharaw... Ocean ... EPA-RCRA Prospe... Univer... Swedis... Univer... geodom... SLI Ga... data-h... ECCO-T... Linkin... openda... Merite... Plant ... LinkLi... ePrint... School... Biblio... Galici... AEMET ... Yovist... Courts... Univer... Green ... Europe... status... status... CORE -... RDFLic... Univer... Univer... Enviro... Metoff... Aperti... Ordnan... IEEE V... The Or... LCSubj... MASC-B... DanNet... Univer... openda... twc-op... Regist... IWN DBTune... Italia... Univer... RSS-50... Interc... status... Japane... openda... STITCH... PreMOn Lingui... Garnic... Univer... Select... SALDOM... EnAKTi... Lexvo.org openda... List o... IceWor... Renewa... Salzbu... webnma... Aperti... Chemic... Aperti... Farmac... Whisky... openda... openda... openda... openda... Influe... Eventseer Social... Univer... openda... eagle-... Mi Guí... ASN:US Univer... Europe... Swedis... status... openda... Number... openda... OLiA D... Hedatuz Termin... BioMod... Univer... eagle-... Aperti... Univer... Finnis... openda... Framester Biblio... status... plWord... CareLex openda... sears.com Open E... Univer... BioSam... Gene E... Phonet... HeBIS ... ESD-To... Calames Standa... Mathem... Univer... Brazil... Univer... Serend... eagle-... My Fam... LIBRIS eagle-... eagle-... Univer... Britis... openda... Learni... aliada... Aperti... Englis... eagle-... Univer... openda... de-gaa... Chines... Univer... Muninn... USPTO ... Thesau... Regist... Museos... taxonc... openda... Aperti... Univer... Aperti... openda... Europe... Aperti... Datos.... Catala... openda... GNOSS.... Evalua... GovWIL... EEA Vo... eagle-... Univer... List o... DBTune... eagle-... Allie ... Ontos ... WordLi... Sancti... Univer... Kidney... Salzbu... Freeyork DBTune... The Ge... 2011 U... Aperti... Open B... RDFizi... DM2E Judaic... N-Lex ... "Raini... Bans o... JRC-Na... Taiwan... Univer... data-s... Polyth... News-1... Hebrew... TAXREF... Orthol... Geolog... ISTAT ... Univer... status... Organi... gemet-... Publis... Lichfi... Web Sc... xxxxx UNODC ... BibSon... gdlc crowds... Confis... Street... Linked... Croati... Inspec... Struct... Wikili... Greek ... AgriNe... Univer... Univer... eagle-... interv... Univer... Glottolog Entorn... Aperti... ietflang Univer... ChEMBL... Biblio... Univer... Twarql Aperti... status... OntoBe... TCGA R... Drug D... World ... OSM Se... WOLF W... openda... Aperti... EuroSe... SweFN-RDF sandra... SPARQL... datos-... ISPRA ... Open W... Deusto... Social... Transc... PDEV-L... Geogra... bio2rd... NTNU s... Arabic... Open D... dev8d openda... Greek ... medline Source... linked... openda... AEGP, ... openda... openda... Next W... Linked... Univer... Near eagle-... WebIsALOD zarago... Biogra... Chat G... Univer... AGRIS Linked... Atlant... Bio2RD... semant...

The Linked Open Data Cloud from lod-cloud.net

Rysunek 2.3: Chmura Linked Open Data w styczniu 2019 - źródło http://

(32)

Chmura Linked Data, oprócz baz wiedzy ogólnej, takich jak DBpedia czy Freebase, zawiera zbiory wiedzy specjalistycznej oraz użytkowej. Do największych i najbardziej znanych należą:

• Geonames [56], zawiera blisko 12 milionów nazw geograficznych,

• RDF Book Mashup [18], zawiera informacje na temat książek (z Google Books i Amazon), autorów, recenzji, 100 milionów trójek RDF,

• ACM [1], biblioteki Association for Computing Machinery udostępniane w ramach projektu ReSIST tworzą zbiór 12 milionów trójek RDF,

• DBLP in RDF [33], indeks ponad 2-ch milionów publikacji związanych z infor-matyką, zbiór zawiera około 50 milionów trójek RDF,

• UniProtRDF [162], klasyfikacja enzymów i sekwencji białkowych z bazy UniProt w postaci zbioru RDF, liczba trójek RDF przekracza 1 miliard,

• MusicBrainz [108], liczący 60 milionów trójek RDF zbiór danych związanych z przemysłem muzycznym,

• LinkedMDB [92], niekomercyjny odpowiednik największej internetowej bazy fil-mów Internet Movie Database, zawiera ponad 6 milionów trójek RDF.

Zbiory wiedzy Linked Data publikowane są z uwzględnieniem zasad LOD, w szcze-gólności charakteryzują się dużą liczbą wzajemnych powiązań pomiędzy tymi samymi zasobami reprezentowanymi przez różne URI należące do ich własnych przestrzeni na-zewniczych. Ponadto, większość z nich udostępnia punkty dostępowe SPARQL pozwa-lające na odpytywanie, jak również swobodny dostęp do pełnych zbiorów w postaci zrzutów RDF. Należy jednak zauważyć, że brak jest standardu w zakresie wykorzy-stania jednej współdzielonej ontologii do opisu pojęć ogólnych przewijających się w poszczególnych zbiorach.

Najwięksi dostawcy usług internetowych związanych z wyszukiwaniem i zarządza-niem danymi, tacy jak Google czy Facebook, również wykorzystują i udostępniają zbiory Linked Data. Google Knowledge Graph [60] wykorzystał m.in. Freebase do wzbo-gacania wyników wyszukiwania podając informacje uzupełniające, które w zamierzeniu

(33)

redukują konieczność eksploracji adresów sieciowych zwracanych jako wyniki wyszuki-wania. Dzięki temu, że słowo kluczowe posiada kontekst semantyczny dostarczany przez graf, możliwe jest trafniejsze odgadywanie jego znaczenia. Knowledge Graph korzysta także z informacji wprowadzanych przez użytkowników, którzy posługując się słowami kluczowymi, dostarczają powiązań między nimi. Obecnie Google nie umożliwia wyko-rzystania SPARQL w odniesieniu do swojego grafu wiedzy, jest on wykorzystywany do wsparcia tradycyjnego scenariusza wyszukiwania z użyciem słów kluczowych. Facebook Open Graph [52] udostępnia protokół tworzenia grafu zasobów poprzez odpowiednie oznaczanie elementów zawartości dokumentów internetowych i łączenie ich za pomocą

akcji z innymi obiektami. Model przypomina RDF ze względu na wykorzystany wzorzec

trójki (użytkownik, akcja, obiekt ), gdzie akcja może być zdefiniowana przez użytkow-nika (powszechnie znaną akcję jest like). Użytkownicy serwisu Facebook, stanowiący

podmiot, poprzez wykonanie akcji (np. kliknięcie like) związanej z określonym obiektem

na stronie internetowej tworzą nowe powiązanie w grafie. Informacje te wyświetlane są w serwisie oraz w kontrolkach FB osadzanych przy danych obiektach.

2.1.5 Bariery w dostępie do wiedzy

Informacje zgromadzone w sieci Web, w ogólnym ujęciu, wyrażane są w języku natu-ralnym i przeznaczone są bezpośrednio dla człowieka. Niezależnie od wykorzystanego spektrum narzędzi, zebranie kompleksowej wiedzy na określony temat lub dotyczącej danego zasobu, która zazwyczaj wykracza poza pojedynczą stronę internetową, jest zadaniem spoczywającym na użytkowniku. W typowym przypadku posługuje się on przeglądarką webową i centralną usługą wyszukującą. Uzyskanie odpowiedzi na pyta-nie użytkownika jest zatem procesem polegającym na ręcznym przeszukiwaniu sieci, niezależnie od tego czy rozpocznie się od wyników wyszukiwania zwróconych przez wy-szukiwarkę czy, jak dawniej, tematycznego katalogu stron internetowych. Nawigowanie w sieci z użyciem odnośników hipertekstowych również wymaga umysłu użytkownika do zinterpretowania znaczenia odnośnika opatrzonego etykietą w języku naturalnym. W scenariuszu tym użytkownik jest stroną aktywną a sieć, rozumiana wespół z na-rzędziem użytkownika, którym zazwyczaj jest przeglądarka internetowa, zachowuje się

biernie. W tym ujęciu aktywne przejawy zachowania sieci mają miejsce w sytuacji, w

której na rzecz użytkownika działa aplikacja wykorzystująca ustrukturyzowaną wiedzę, np. w postaci źródła XML. Aplikacja taka ograniczona jest jednak do wykorzystania

(34)

danych o ściśle określonej postaci i, zazwyczaj, ograniczona jest do wskazanych źródeł. Jest to zatem sytuacja, w której semantyka danych jest wbudowana w przetwarzającą je aplikację. Jak ujmuje to [19], dane są w sieci, ale uwięzione w aplikacjach nie tworzą Web of Data. Linked Data Przeglądanie zasobów Indeksacja zasobów SPARQL i federacja Rozwiązywalne URI Powiązania semantyczne URI, HTTP, RDF Rozwiązania scenatralizowane

Dobór źródeł przy federacji

Nieprzystawalność ontologii Transparentna i zdecentralizowana architektura integracji i dostępu do wiedzy Architektura Problemy Niedostatki Użycie

Rysunek 2.4: Linked Data - Architektura, użycie, problemy, niedostatki

Oczekiwaniem w stosunku do Semantic Web, w sensie działania aplikacji realizują-cej zadanie efektywnego pozyskiwania wiedzy, jest aktywne zachowanie sieci w procesie pozyskiwania wiedzy oraz bierna rola użytkownika. Przeglądarka semantyczna w odpo-wiedzi na postawiony problem, utożsamiany z zapytaniem o dane, nie powinna ogra-niczać się do pozyskania reprezentacji zasobu bądź odpowiedzi na pytanie w oparciu o jedno, wskazane źródło danych ale powinna pozyskać możliwie pełną wiedzę doty-czącą przedmiotu zapytania, potencjalnie wykorzystując wiele źródeł danych. Problem

(35)

referencyjny, zaprezentowany we wprowadzeniu, dla pożądanego działania aplikacji Se-mantic Web może być sformułowany jako poszukiwanie odpowiedzi przez samą sieć na

pytanie zadane jej przez użytkownika. Scenariusz ten mierzy się z dwiema przeszkodami:

Bariera architektoniczna – duża część baz wiedzy RDF składowanych w węzłach

sieci to tzw. wyspy danych (ang. data islands), często wzajemnie niepołączone; brak jest standardów jednolitego i transparentnego dostępu do wiedzy;

Bariera semantyczna – bazy wiedzy dotyczące tych samych obszarów tematycznych,

odwołujące się do tych samych zagadnień czy wręcz tych samych obiektów, niejed-nokrotnie wykorzystują różne ontologie, co skutkuje rozbieżnością znaczeniową z punktu widzenia wykorzystania tych danych przez aplikacje.

Charakterystyka transparentnego pozyskiwania wiedzy zgodnie z paradygmatem Semantic Web i Linked Data zilustrowana jest na rysunku 2.4. Dwie kolejne sekcje poświęcone są zagadnieniom architektur dostępu i różnorodności semantycznej, pre-zentując przegląd badań w tych obszarach wiedzy.

2.2 Bariera architektoniczna

Wczesne Semantic Web charakteryzowało się istnieniem rozproszonych i niepowiąza-nych zbiorów daniepowiąza-nych. Praktyki promowane przez Linked Data stopniowo zmieniają oblicze Semantic Web, przekształcając archipelag wysp danych w semantyczną paję-czynę. Proklamowany cel, którym jest wykształcenie się globalnego grafu wiedzy stawia nowe wyzwania w zakresie efektywnego pozyskiwania z niego wiedzy. W pierwszym po-dejściu wyróżnić można dwie perspektywy wywodzące się z badań nad rozproszonymi bazami danych [74]:

Warehousing – gromadzenie danych w centralnych magazynach lub tworzenie

cen-tralnych indeksów, podejścia te wywodzą się odpowiednio ze sposobu postępo-wania z autonomicznymi źródłami danych o różnych modelach, które muszą być unifikowane i ładowane do wspólnego magazynu w celu dalszego przetwarzania oraz ze sposobu postępowania z zawartością Web, która musi być rejestrowana i indeksowana, aby mogła być w efektywny sposób udostępniana.

(36)

Podejście federacyjne – Web of Data postrzegane jest w tym wypadku jako

roz-proszony system bazodanowy, który może realizować strukturalne zapytania do danych poprzez rozbicie i delegację fragmentarycznych zadań do różnych źródeł; model ten przewiduje istnienie mediatora odpowiedzialnego za dekompozycję pro-blemu na mniejsze, potencjalną translację i zwrotną agregację wyników.

Podejścia te nie są wolne od problemów, w pierwszym przypadku pojawia się za-gadnienie skalowalności i aktualności danych, w drugim, zasadniczym problemem jest znajomość źródeł danych w środowisku otwartym i zmiennym. [74] zwraca uwagę, że adresy źródeł muszą być znane a priori i postuluje automatyczne wyszukanie i integrację w locie fragmentarycznych elementów wiedzy w celu uzyskania pełniejszego widoku. Nie podaje jednak żadnej propozycji rozwiązania tego problemu. [19] rozszerza klasyfikację podejść do pozyskiwania wiedzy na:

Navigational – wynikające z grafowej struktury Linked Data; proces wyszukiwania

rozpoczyna się od arbitralnie wybranego punktu startowego, agent sukcesywnie pobiera dane przemierzając graf w oparciu o powiązania Linked Data między zbiorami, zebrane dane stanowią bazę wiedzy, która jest wejściem do dalszego przetwarzania; model ten odpowiada działaniu robota zbierającego dane do zin-deksowania niż poszukiwaniu odpowiedzi w trybie interakcji z pytającym.

Direct access – pytanie skierowane jest do centralnego zbioru będącego sumą

wszyst-kich interesujących źródeł danych, abstrahuje od problemu dotyczącego sposobu uzyskania takiego zbioru.

Bounded – pytanie w modelu federacyjnym do zbioru źródeł określonego a priori,

problem odkrycia właściwych źródeł nie jest rozwinięty; ze względu na skalę, wykluczona jest możliwość zapytania do globalnej przestrzeni grafów.

[19] zwraca także uwagę na problem heterogeniczności danych, tworzonych z uwzględ-nieniem niekompatybilnych słowników i ontologii, jako na fundamentalny problem w jednolitym dostępie do danych. Dostrzega problem braku formalnej interpretacji lin-ków łączących różne przestrzenie w Linked Data, sugeruje, aby nadać im specjalną semantykę podkreślającą ich szczególny charakter, jakim jest łączenie grafów cząstko-wych. Postawione jest interesujące, z punktu widzenia pracy, pytanie o to, co w istocie

(37)

oznacza wystosowanie pytania do Web of Data i jakie ma formalne znaczenie. Pytanie to prowadzi do rozróżnienia pomiędzy wiązaniami wewnątrz pojedynczego, nazwanego grafu RDF, którym można przypisać dobrze zdefiniowaną interpretację a wiązaniami łączącymi różne grafy RDF w przestrzeni Linked Data, które takiej interpretacji są pozbawione, spełniając jedynie rolę mechanizmu dostępowego.

[91] podkreśla rolę modelu opartego na semantycznych wyszukiwarkach indeksu-jących. Wskazuje na problem nieznajomości źródeł danych przez silnik federacyjny w scenariuszu odpytywania sieci, wobec czego alternatywą dla wyszukiwarki staje się model nawigacyjny, wymagający punktu startowego, zebrania danych i ewentualnego wykonania zapytania na pobranych zbiorach.

Z przeglądu literatury wyłaniają się cztery zasadnicze podejścia do zagadnienia pozyskiwania danych z Web of Data: centralistyczne, nawigacyjne, wyszukiwarki in-deksujące oraz rozwiązania federacyjne. Podział ten nie tworzy klas rozłącznych, ale wskazuje na istotnie różne scenariusze zdobywania informacji. Kolejne 4 sekcje przybli-żają problematykę każdego z podejść oraz istniejące realizacje.

2.2.1 Repozytorium centralne

Model ten przewiduje zbieranie danych RDF w centralnych repozytoriach udostępniają-cych punkty dostępowe SPARQL do gromadzonej wiedzy. Metoda ta, w uproszczeniu, sprowadza się do pobierania z sieci, poprzez wykorzystanie powiązań Linked Data, i ładowania do lokalnego repozytorium pełnych zbiorów RDF. Podstawową zaletą tego podejścia jest możliwość wykonywania zapytań w sposób kompletny ze względu na fakt, że dostępna jest całkowita wiedza, która może być użyta do sformułowania odpowiedzi. Uzyskiwany jest również najwyższy wskaźnik wydajności, ponieważ dane dostępne są lokalnie i składowane są zazwyczaj w dedykowanych, zoptymalizowanych repozytoriach trójek RDF. Poważnym ograniczeniem w tym podejściu jest konieczność zapewnienia znacznych mocy obliczeniowych systemu centrum wiedzy, wynikająca z obsługi poten-cjalnie ogromnych ilości danych. Ujawnia się tutaj szereg innych problemów, znanych z problematyki baz danych, jak np. utrzymywanie aktualności zebranych danych czy pobieranie i ładowanie dużych zbiorów. Z uwagi na skalę, można sobie wyobrazić sto-sowanie tego podejścia z ograniczeniami, np. do wiedzy specjalistycznej, dotyczącej wybranej dziedziny czy obszaru użytkowego.

(38)

[148] opisuje centralne repozytorium zasilane ze wskazanych źródeł zewnętrznych. W oparciu o wzór grafowy zapytania pobierane są wszystkie trójki RDF z przewi-dzianych źródeł do jednego centralnego repozytorium. Dla każdego wzorca trójkowego zawierającego zmienną lub węzeł pusty, niezależnie, pobierane są wszystkie trójki odpo-wiadające tylko jemu. W ten sposób pozyskiwany jest nadmiarowy zbiór, umożliwiający potencjalne wnioskowanie przed realizacją właściwego zapytania.

[26] koncentruje się na zagadnieniu dotyczącym planowania rozkładu zawartości repozytorium na klaster węzłów obliczeniowych i zrównoleglania na nich obliczeń. Wy-korzystuje w tym celu repozytorium HBase. Z uwagi na to, że nie dotyka problemu pozyskania danych źródłowych, stanowić może przykład rozwiązania do zastosowań dedykowanych, konkretnych projektów, gdzie problematyka koncentruje się na wydaj-ności przetwarzania, a nie na sposobie pozyskania danych.

[147] jest przykładem biblioteki, która w trybie online buduje duży graf w oparciu o powiązania Linked Data.

2.2.2 Scenariusz nawigacyjny

Trawersacja linków jest techniką, której sens nadaje Linked Data. Istotą tego podejścia jest odszukiwanie potencjalnych źródeł wiedzy, użytecznych z punktu widzenia poszu-kiwania odpowiedzi na pytanie, w trakcie realizacji samego pytania. Jest to technika, która nie wymaga struktur pośredniczących, takich jak indeksy czy węzły w sieci do-starczające interfejsu do danych. Podstawowym założeniem jest wykorzystanie linków semantycznych Linked Data, które śledzone i pozyskiwane są w trakcie realizacji zapyta-nia a ich dobór sterowany jest treścią zapytazapyta-nia, tym samym pozwalając na ograniczenie „ślepego” podążania za dostępnymi linkami. Problemem trawersacji jest efektywność realizacji zapytania, ze względu na to, że źródła odszukiwane są w locie. Drugim cha-rakterystycznym elementem jest konieczność arbitralnego zdefiniowania jednego lub większej ilości punktów startowych dla procesu poszukiwania.

Scenariusz ten implementowany jest w tzw. przeglądarkach Semantic Web, spośród których najbardziej rozpoznawalną jest Tabulator [11], stworzony przez Berners-Lee jako przykładowa aplikacja wykorzystująca Linked Data. Tabulator dostępny jest w dwóch wersjach, jako dodatek do standardowej przeglądarki webowej (Firefox) oraz jako samodzielna aplikacja internetowa. Idea działania opiera się na nawigowaniu za pomocą linków, którymi są rozwiązywalne URI reprezentujące zasoby, o budowie http :