Perspektywa Linked Data - Bariera semantyczna

2.3 Bariera semantyczna

2.3.2 Perspektywa Linked Data

Podejścia przedstawiane w niniejszej sekcji są syntezą teoretycznych badań nad kształ-tem, ekspresywnością i semantyką metod reprezentacji odwzorowań z federacyjnym podejściem do pozyskiwania danych z Linked Data. Kwestia sposobu reprezentacji od-wzorowania zostaje rozszerzona o pytania dotyczące scenariuszy wykorzystania tych odwzorowań, zwłaszcza w kontekście istniejących standardów Semantic Web, jak RDF i SPARQL. W szczególności rozpatrywane jest zagadnienie wykorzystania odwzorowań do translacji zapytań.

[100, 101, 102] podkreśla znaczenie transparentnego dostępu do rozproszonych zbio-rów wiedzy w Linked Data. Podejście opiera się na przepisywaniu zapytań SPARQL w oparciu o odwzorowania pomiędzy ontologiami, które dzięki temu mogą być adreso-wane do źródeł RDF opisywanych inną ontologią. Propozycja o nazwie SPARQL-RW dostarcza złożonego formalizmu definiowania odwzorowań o semantyce zbliżonej do logik opisowych. Odwzorowanie wyrażane jest za pomocą równoważności lub subsump-cji, nie tylko między pojęciami nazwanymi, ale również pomiędzy klasą lub predykatem źródłowym a wyrażeniem klasowym lub predykatowym (1:N), odpowiednio. Odwzoro-wania dotyczą również instancji, wobec czego zakłada się istnienie jawnie dołączonych tłumaczeń pomiędzy identyfikatorami URI zasobów instancyjnych. Dostarczany zestaw narzędzi posiada analizator zapytań SPARQL i implementację algorytmu przepisywa-nia. Bazowa idea algorytmu polega na sukcesywnym przepisywaniu wzorców trójko-wych pojawiających się w zapytaniu źródłowym na wzorce zapytania wynikowego z wykorzystaniem operatorów SPARQL odpowiadających konstruktom logik opisowych. Przykładowo, użycie owl:unionOf w wyrażeniu klasowym odwzorowania przekłada się na przepisanie wzorca trójkowego na parę wzorców połączonych operatorem SPARQL UNION, podobnie użycie owl:intersectionOf przekłada się na złączenie SPARQL. Igno-rowane są elementy zapytania SPARQL spoza BGP, jak również wyklucza się wzorce trójkowe ze zmienną na pozycji predykatu. Kwestia dostępności i sposobu pozyskania samych odwzorowań jest poza zakresem pracy.

[28] prezentuje problem z bardzo podobnej perspektywy. Stwierdza, że relatywnie dużo wysiłku badawczego poświęcono dopasowywaniu ontologii w stosunku do możli-wości wykorzystania takiego dopasowania do integracji wiedzy w rzeczywistych warun-kach. Poziom terminologiczny jest potraktowany z taką samą uwagą jak poziom asercji, rozumiany jako konieczność identyfikacji tych samych obiektów świata rzeczywistego wskazywanych przez różne URI. Postawiona jest diagnoza, że dane rozsiane po sieci są słabo powiązane na poziomie organizacyjnym, co oznacza brak funkcjonalnych me-chanizmów dostępu do danych. Zagadnienie rozbite jest na dwie części: reprezentacja dopasowania i wykorzystanie go do tłumaczenia zapytań. Dopasowanie ontologii zdefi-niowane jest jako czwórka (zbiór URI ontologii źródłowej, zbiór URI ontologii docelowej,

zbiór URI docelowego zbioru asercji, zbiór odwzorowań). Odwzorowanie rozumiane jest

gdzie LHS jest pojedynczą trójką RDF a RHS określone jest zależnie od jednego z trzech poziomów:

• poziom 1 – równoważność/subsumpcja, gdzie RHS jest pojedynczą trójką, • poziom 2 – równoważność/subsumpcja, ze złożoną formułą logiczną po stronie

RHS i wyłącznie predykatami rdf:type,

• poziom 3 – poziom 2 rozszerzony o dowolne predykaty.

Algorytm przepisywania bazuje na dopasowaniu i ontologiach. Wejściem są ontologia źródłowa, ontologia wynikowa, ich dopasowanie oraz źródłowe zapytanie sformułowane w terminach ontologii źródłowej, a wyjściem – przetłumaczone zapytanie w terminach ontologii docelowej. Algorytm iteracyjnie przepisuje wzorce trójkowe korzystając z reguł

LHS ⇒ RHS. Ponadto, procedura aplikuje funkcje dołączone w ramach dopasowania,

które odwzorowują wartości, np. pomiędzy różnymi systemami miar oraz wykorzystuje serwis Sameas.org [135] do odnajdowania alternatywnych URI reprezentujących ten sam byt świata rzeczywistego.

BLOOMS [80] jest systemem do integracji ontologii w Linked Data. Punktem wyj-ścia jest stwierdzenie, że Linked Data ogranicza się niemal wyłącznie do powiązań na poziomie instancji (owl:sameAs), nie dostarczając mechanizmów do budowania powią-zań na poziomie schematów ontologicznych. System BLOOMS wymieniany jest w tym miejscu nie ze względu na taką czy inną metodę dopasowania ontologii, ale na po-czynione założenie dotyczące reprezentacji odwzorowań, które polega na wyznaczeniu relacji rdfs:subClassOf lub rdfs:subPropertyOf dla dwóch nazwanych pojęć pochodzą-cych z dopasowywanych ontologii.

Jednym z nielicznych pakietów do wyrażania i manipulowania odwzorowaniami jest AlignmentAPI [32, 45]. Istotnym założeniem projektowym jest możliwość posługiwania się obiektami odwzorowań w sieci jak zasobami reprezentowanymi przez HTTP URI. Zaproponowany sposób wyrażania odwzorowań abstrahuje od języka dopasowywanych ontologii. Wyróżnione są 3 poziomy odwzorowań:

• poziom 0 – odwzorowanie reprezentowane jest jako piątka (id,e1,e2,rel,strength), gdzie id jest unikalnym identyfikatorem, e1 i e2 są identyfikowanymi przez URI atomowymi pojęciami lub wyrażeniami w dopasowywanych ontologiach, rel jest

relacją równoważności lub subsumpcji a strength jest siłą tej relacji określaną przez dostawcę odwzorowania,

• poziom 1 – definicja jak w poziomie 0 przy czym e1 oraz e2 mogą być listami, • poziom 2 – odwzorowanie przyjmuje postać implikacji (reguły).

Dostępna jest otwarta implementacja w Javie, z pełnym API wspierającym struktury kodujące w/w poziomy odwzorowań oraz interfejsy pozwalające na podłączanie algo-rytmów automatycznego dopasowywania. Możliwe jest przedstawianie odwzorowań w postaci XSLT transformujących jedną ontologię w drugę lub w postaci SWRL do trans-formacji danych instancyjnych, jak również w postaci równoważności i subsumpcji w sensie logiki opisowej. Elementem składowym AlignmentAPI jest język EDOAL, będący w istocie ontologią specyfikującą wyżej scharakteryzowane rodzaje odwzorowań.

Innym pakietem narzędziowym jest R2R [16], który przyjmuje podobną do Ali-gnmentAPI optykę dotyczącą reprezentacji odwzorowań – są identyfikowanymi przez HTTP URI zasobami RDF w Linked Data. Ambicją projektu jest umożliwienie działa-nia aplikacji we współdzielonej, globalnej, uzgodnionej i zrozumiałej dla nich wirtualnej przestrzeni danych. Punktem wyjścia jest przekonanie zgodne z duchem Semantic Web, że utrzymywanie lokalnej lub centralnej bazy odwzorowań dla Linked Data jest niemoż-liwe, co prowadzi do dwóch zasadniczych postulatów:

• modelu pay-as-you-go zamiast wstępnego procesu uzgadniania ontologii na po-ziomie schematu,

• rozproszonej i zdecentralizowanej architektury publikowania i korzystania z od-wzorowań.

W ramach projektu zaproponowany został język wyrażania odwzorowań oparty na RDF i wykorzystujący specjalizowaną ontologię R2R. Standardowe relacje równoważności i subsumpcji (owl : equivalentClass, owl : equivalentProperty, rdfs : subClassOf oraz rdfs

: subPropertyOf ) zostały uznane za zbyt mało ekspresywne. Autorzy zwracają uwagę

na brak możliwości strukturalnej transformacji danych czy brak środków wyrazu do działań na typach danych. R2R operuje na poziomie RDF i z założenia abstrahuje od semantyki danych. Podstawowa konstrukcja odwzorowania zawiera wzorce grafowe

w sensie SPARQL, źródłowy i docelowy, oraz definicję operacji na typach podstawo-wych. Wzorzec źródłowy zawsze jest pojedynczą trójką i nie dopuszcza zmiennej na pozycji predykatu, z kolei wzorzec docelowy może składać się z wielu wzorców trójko-wych. Głównym przypadkiem użycia odwzorowań publikowanych jako zasoby Linked Data jest translacja danych do schematu docelowego aplikacji, która je przetwarza. Realizacja rozpoczyna się od pobrania odwzorowań z sieci do magazynu podręcznego, z którego korzysta silnik wykonujący konwersję. Przeprowadza on tłumaczenie do do-celowego schematu ontologicznego łańcuchowo aplikując zgromadzone odwzorowania. Silnik posługuje się heurystykami do oszacowania oraz selekcji jakości i wiarygodności odwzorowań.

W związku z oczekiwaniem artykułowanym w stosunku do aplikacji Semantic Web, że będą działać z uwzględnieniem znaczenia przetwarzanej wiedzy, niezbędne jest uzgad-nianie pomiędzy ontologią aplikacji (podmiotu) i ontologią danych (przedmiotu). Pro-pozycje reprezentacji odwzorowań terminologicznych do zastosowania w środowisku rozproszonym wskazują, że odwzorowania wspierające interoperabilność w Semantic Web będą dostarczane na zasadach podobnych do tych, które określają dostarczanie zbiorów RDF i zasobów Linked Data.

W dokumencie Index of /rozprawy2/11550 (Stron 51-55)