Rozwiązania federacyjne - Bariera architektoniczna

2.2 Bariera architektoniczna

2.2.4 Rozwiązania federacyjne

Federacja oparta jest na modelu rozpraszania przetwarzania zapytań strukturalnych SPARQL do zbiorów RDF. Element pośredniczący, mediator dekomponuje zapytanie źródłowe na podzapytania i deleguje ich wykonanie do węzłów sieci. Wyniki cząstkowe, stanowiące odpowiedź na poszczególne podzapytania są agregowane przez mediator i zwracane pytającemu. Podejście poprzez wykorzystanie rozproszenia cechuje się wyższą skalowalnością i eliminuje podstawowy problem aktualności danych, nie ma konieczności synchronizacji kopii danych z ich źródłem. Rozwiązania federacyjne operują na danych źródłowych, stanowiąc tym samym znaczący krok naprzód w stosunku do rozwiązań scentralizowanych. Dotyczy ich natomiast inny problem o fundamentalnym znaczeniu, jakim jest znajomość lokalizacji źródeł danych oraz dostępu do informacji o charaktery-styce ich zawartości. Oba czynniki determinują skuteczność i efektywność rozproszonego wykonania. Rozwiązania tego typu wyposażone są zazwyczaj w aprioryczną wiedzę na temat dostępności i lokalizacji źródeł.

Jedną z pierwszych prób zaadresowania problemu zapytań federacyjnych podjętych przez W3C w 2007 roku było rozszerzenie języka SPARQL o nazwie SPARQLfed [124], ale nie uzyskało ono statusu oficjalnego standardu. Rozpatrywanym problemem była głównie efektywność rozproszonego przetwarzania rozumiana jako sposób ogranicze-nia danych pobieranych z wielu źródeł. SPARQLfed postulował rozszerzenie protokołu SPARQL o klauzulę BINDINGS pozwalającą na wiązanie zmiennych w podzapytaniach kierowanych do kolejnych źródeł, na podstawie wyników podzapytań zrealizowanych w poprzedzających krokach. Język SPARQL w wersji 1.1, którego rekomendacja pochodzi

z marca 2013 roku, wprowadza mechanizm delegacji zapytań do zdalnych punktów do-stępowych w specyfikacji SPARQL 1.1 Federated Query [125]. Realizacja opiera się na klauzuli SERVICE, umożliwiającej jawne wskazanie źródła danych dla zestawu wzor-ców trójkowych. Dzięki niej jedno zapytanie realizowane przez silnik mediatora może odwołać się do wielu punktów dostępowych w różnych lokalizacjach a tym samym wykorzystać wiele bazowych zbiorów RDF. Podzapytanie określone przez SERVICE delegowane jest do wskazanego punktu dostępowego SPARQL a otrzymane wyniki po-średnie scalane są przez mediatora. Specyfikacje te nie poruszają problemu lokalizacji źródeł wiedzy.

Jednym z pierwszych reprezentantów federacji SPARQL był system DARQ (Distri-buted ARQ) [126]. Projekt nie jest kontynuowany, ale stanowi istotny krok na drodze rozwoju architektur federacyjnych w Linked Data. Jego celem jest udostępnienie infra-struktury do rozproszonej realizacji zapytań SPARQL, korzystających z wielu źródeł RDF. DARQ używa globalnego schematu dla rozproszonych źródeł. Ontologia nie jest zdefiniowana a priori, powstaje dynamicznie, na podstawie dobieranych źródeł wiedzy. Źródłami są węzły DARQ wyposażone w punkty dostępowe SPARQL. Węzły muszą być jawnie wyspecyfikowane w konfiguracji systemu, aby uczestniczyć w realizacji zapyta-nia. Opis źródła zawiera metadane wspierające efektywną dekompozycję zapytania, w wyniku której powstaje zbiór podzapytań do wyznaczonych węzłów. Proces transla-cji zapytania zakłada, że na pozytransla-cji predykatu nie występują zmienne i dla każdego wzorca trójkowego wyznaczany jest zbiór dostępnych źródeł. Posiłkuje się również sta-tystykami opisującymi źródła zdalne do optymalizacji planu wykonania. DARQ nie adresuje głębiej problemu lokalizacji źródeł.

Zbliżonym projektem jest SemWIQ (Semantic Web Integrator and Query Engine) [87, 88], którego celem również jest realizacja zapytania SPARQL z wykorzystaniem rozproszonych źródeł danych. Wyniki pośrednie reprezentowane są w postaci grafów cząstkowych, z których powstaje graf wirtualny będący zunifikowanym widokiem na grafy cząstkowe. Poszczególne źródła danych muszą się rejestrować w centralnym ser-wisie mediatora. System lokalnie je zapamiętuje i dostarcza pojęć ekstrahowanych ze związanych z nimi ontologii do formułowania zapytań. Rozwiązanie ograniczone jest do czerpania danych tylko z zarejestrowanych źródeł wiedzy i limituje możliwości ar-tykułowania zapytań tylko do znanej sobie terminologii. SemWIQ nie rozwiązuje pro-blemu uzgadniania warstwy ontologicznej gromadzonych zbiorów wiedzy, natomiast

wiele uwagi, podobnie jak w innych podejściach federacyjnych, poświęcone zostało kwe-stiom optymalizacyjnym i efektywności realizacji zapytań.

W oparciu o popularny framework semantyczny i repozytorium danych Sesame [144], zostało zbudowane rozwiązanie o nazwie Distributed SPARQL [139]. Autorzy, wśród głównych przyczyn problemów z integracją wiedzy i dostępem do niej w Se-mantic Web, wymieniają brak odpowiednich mechanizmów architektonicznych, które wsparłyby działanie aplikacji wykorzystujących potencjał Semantic Web. Jego rozsze-rzenie w kierunku rozproszonej realizacji zapytań [174] koncentruje się na optymalizacji efektywności. W tym celu proponowane jest również wiązanie zmiennych wysyłanych w podzapytaniach do zdalnych węzłów z użyciem klauzuli SPARQL FILTER. Odkry-wanie wiedzy i lokalizacja źródłowych węzłów SPARQL spoczywa na użytkowniku, od którego oczekuje się jawnego zaadresowania zapytania.

[122, 131, 132] poświęca uwagę wyborowi źródeł w federacji SPARQL, zauważa-jąc, że jest to czynnik o istotnym wpływie na efektywność wykonania zapytania. Mini-malizacja wyników pośrednich zależy w znacznym stopniu od eliminacji tych węzłów, które są źródłami wyników odrzucanych na etapie agregacji przez mediatora. Drugim czynnikiem wymagającym uwzględnienia jest zdolność do dostarczania wyników nie powielających wyników pochodzących z innych źródeł. Skuteczna strategia powinna dostarczać metod identyfikacji takich źródeł zanim dojdzie do transferu wyników po-średnich. Metoda polega na identyfikacji elementów URI wchodzących w skład wzorca grafowego zapytania i wykorzystania elementu URI Authority do wyboru źródeł. Wy-korzystywane są również metadane statystyczne do szacowania stopnia powielenia wy-ników w poszczególnych źródłach. W nawiązaniu do tych prac zaprezentowana jest rów-nież metodologia oceny i testowania wydajności architektur federacyjnych [133, 134]. Wyróżniającą cechą prezentowanego pakietu benchmarkowego FedBench jest drobno-ziarnista ewaluacja poszczególnych elementów procesu wykonania zapytania. Monito-rowanie parametrów takich jak liczba zapytań pomocniczych ASK, liczba wybranych źródeł czy czas selekcji źródeł umożliwia precyzyjniejsze dostrajanie komponentów sys-temu.

Optymalizacja planu wykonania zapytania urasta do rangi głównego problemu sys-temów federacyjnych i doczekała się dużej liczby opracowań i propozycji w ciągu ostat-nich kilku lat. [22] formalizuje semantykę klauzuli SERVICE i rozważa sposoby optyma-lizacji w implementacjach systemów federacyjnych opartych na standardzie SPARQL

1.1, podając eksperymentalne wyniki zaproponowanych zabiegów optymalizacyjnych. [66] stwierdza, że metody optymalizacji planu zapytania znane z zagadnień dotyczących baz danych, oparte na programowaniu dynamicznym lub heurystykach zachłannych nie są bezpośrednio aplikowalne do zapytań SPARQL. Proponuje algorytm reorganizacji za-pytań bazujący na uproszczeniach związanych ze stwierdzeniową strukturą RDF, a tym samym wzorców SPARQL. Z problemem optymalnego planu mierzy się również [173] prezentując heurystyczną metodą wyznaczania kolejności wzorców trójkowych w zapy-taniu.

System FedX [141, 142] optymalizuje wykonanie zapytania poprzez minimalizację odwołań do zdalnych węzłów. Nie wykorzystuje predefiniowanych metadanych, ale wy-znacza je za pomocą dodatkowych zapytań ASK utrzymywanych w pamięci podręcznej. Wykorzystuje regułowy optymalizator złączeń faworyzujący zmienne związane w taniu. SPLENDID [62] jest systemem federacyjnym, który do optymalizacji planu zapy-tania wykorzystuje metadane zgodne z notacją VoID [165]. Aderis [94, 95] koncentruje się na optymalizacji zapytania bez użycia istniejących metadanych. Statystyki tworzone są w locie za pomocą pomocniczych zapytań o wolumen predykatów występujących w zapytaniu źródłowym i stają się przesłanką do planowania zapytania docelowego. Wszystkie źródła danych muszą być uprzednio zarejestrowane w federatorze. System SemaGrow [24] poszukuje równowagi pomiędzy kosztem wyznaczania planu zapytania a kosztem jego wykonania. Opiera się na metadanych uzyskiwanych od węzłów SPARQL, dostarcza nieblokujących implementacji operatorów i wspiera strumieniowość. Anapsid [2] adaptuje się do warunków w fazie wykonania zapytania, reaguje na niedostępność źródeł zdalnych, dostarcza nieblokujących implementacji operatorów SPARQL, wspiera przetwarzanie strumieniowe i asynchroniczne.

[164] formalizuje problem dekompozycji zapytania w architekturze federacyjnej jako problem kolorowania w grafie. Zaproponowany jest algorytm aproksymacyjny, którego celem jest optymalizacja dekompozycji w taki sposób, aby maksymalizować wyniki przy utrzymaniu czasu wielomianowej złożoności wykonania. [78] dostarcza optymali-zatora dla zapytań federacyjnych wykorzystujących funkcje grupujące specyfikowane przez standard SPARQL 1.1. [118] proponuje częściową ewaluację i agregację wyników zapytania z grafów składowych dużego grafu rozproszonego, która może mieć charak-ter scentralizowany lub rozproszony. [163] zauważa, że niewielka ilość danych Linked

Data wyposażona jest w interfejsy zapytań i proponuje własny interfejs dostępu do da-nych, tzw. Triple Pattern Fragments wespół z modelem przetwarzania po stronie klienta emitującego zapytanie SPARQL. Efektem tego podejścia jest przeniesienie obciążenia związanego z przetwarzaniem zapytania z serwera na klienta. Podejście jest propozycją alternatywną dla standardowych punktów dostępowych SPARQL. Kosztem jest trans-fer większej ilości danych, natomiast korzyścią są bardziej wydajne i stabilne interfejsy w węzłach udostępniających dane Linked Data. [51] i [170] proponują podejścia oparte na ontologiach.

Przegląd systemów federacyjnych zawarty jest w [128]. Raport Dagstuhl [75] jest źródłem aktualnego podsumowania obszaru badawczego łączącego Semantic Web i sys-temy federacyjne.

Rozwiązania federacyjne zmierzają w kierunku wykorzystania potencjału i nowych możliwości jakie otwierają technologie Semantic Web. Czerpią z dorobku badawczego związanego z zagadnieniami integracji danych w relacyjnych bazach danych, wyko-rzystując strukturalny i semantyczny charakter nowych technologii webowych. Jest to istotna zmiana paradygmatu dostępu do wiedzy w porównaniu z wyszukiwarkami po-wielającymi schematy udostępniania danych znane z klasycznej sieci Web.

W dokumencie Index of /rozprawy2/11550 (Stron 42-46)