Zapytanie w scenariuszu z odwzorowaniem między ontologiami . 102

4.6 Środowisko ewaluacyjne

5.1.4 Zapytanie w scenariuszu z odwzorowaniem między ontologiami . 102

bez wykorzystania odwzorowań. Obecny scenariusz jest rozbudowany do wersji inte-gracyjnej i wykorzystane są również zbiory opisane ontologią O₂, pomimo tego, że oryginalne zapytanie sformułowane jest wyłącznie z użyciem ontologii O₁. W tym celu pomiędzy ontologiami potrzebne są odwzorowania, które umożliwią niezależny od uży-tej ontologii dostęp do większej liczby zbiorów i skutkować będą większą liczbą wyników spełniających zapytanie. Odwzorowania na potrzeby testu przedstawione są na listingu 5.9. Computer v Product Processor v ProductFeature Memory v ProductFeature (is-part-of)⁻ v has-feature has-price ≡ has-price has-core-number v value has-size v value

Listing 5.9: Odwzorowania pomiędzy ontologiami O₁i O2

Test polega na wykorzystaniu w zapytaniu jedynie ontologii O₁, następnie rozsze-rzonym tłumaczeniu zapytania źródłowego znajdującego się na listingu 5.10, w oparciu o odwzorowania pomiędzy ontologią zapytania a ontologią O₂. W wyniku rozszerzenia zapytania, procedura jego realizacji uzyska dostęp do dodatkowych węzłów indekso-wych i źródeł danych RDF. Zbiór wyników zapytania niezlokalizowanego zawiera sumę zbiorów wyników zapytań kierowanych, jak również zawiera zbiór wyników realizacji zapytania źródłowego bez rozszerzania na ontologię O₂.

Wartość dodana: możliwość pozyskania dodatkowych wyników pochodzących ze

zbiorów opisanych innymi ontologiami. Kontekst aktualny: • ontologie O1 i O₂,

• min. 4 zbiory danych wygenerowane w losowy sposób generatorem współdzielą-cym instancje między zbiorami, opisane zarówno ontologią O₁ jak i O₂,

• 1 węzeł z odwzorowaniami i 2 węzły indeksowe odpowiadające obu ontologiom.

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>

PREFIX prod: <http://www.semanticexperiments.com/products#>

SELECT ?prod ?price

WHERE {

?prod a prod:Product .

?prod prod:has-price ?price

FILTER ( ?price <= 3000 )

}

Listing 5.10: Zapytanie w scenariuszu z odwzorowaniem między ontologiami

Charakterystyka liczbowa źródeł danych i wyniki

Wpisy indeksowe odpowiadające ontologii O₁, udostępniane przez węzeł indeksowy ISN1, przedstawione są w tabeli 5.5, natomiast wpisy indeksowe odpowiadające on-tologii O₂, udostępniane przez węzeł indeksowy ISN2, znajdują się w tabeli 5.6.

URI TBox URI ABox URI SPARQL Liczność

O1:Product DS5253030 EP5253030/query 100 O1:ProductFeature DS5253030 EP5253030/query 200 O1:label DS5253030 EP5253030/query 200 O1:value DS5253030 EP5253030/query 200 O1:is-of-category DS5253030 EP5253030/query 100 O1:has-price DS5253030 EP5253030/query 100 O1:has-feature DS5253030 EP5253030/query 200

Tabela 5.5: Wpisy indeksowe dla ontologii O1

Zapytanie wynikowe przyjmuje postać przedstawioną na listingu 5.11.

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>

PREFIX prod: <http://www.semanticexperiments.com/products#>

PREFIX ecom: <http://www.semanticexperiments.com/ecommerce#>

SELECT DISTINCT ?prod ?price

WHERE {

{

URI TBox URI ABox URI SPARQL Liczność O2:Computer DS5253040 EP5253040/query 100 O2:Memory DS5253040 EP5253040/query 100 O2:Processor DS5253040 EP5253040/query 100 O2:is-part-of DS5253040 EP5253040/query 200 O2:has-size DS5253040 EP5253040/query 100 O2:has-price DS5253040 EP5253040/query 100 O2:has-core-nuber DS5253040 EP5253040/query 100

Tabela 5.6: Wpisy indeksowe dla ontologii O₂

{ ?prod rdf:type ecom:Computer }

UNION

SERVICE <EP5253030/DS5253030/query>

{ ?prod rdf:type prod:Product }

} {

SERVICE <EP5253040/DS5253040/query>

{ ?prod ecom:has-price ?price

FILTER ( ?price <= 3000 ) }

UNION

SERVICE <EP5253030/DS5253030/query>

{ ?prod prod:has-price ?price

FILTER ( ?price <= 3000 ) }

} }

Listing 5.11: Zapytanie w scenariuszu z odwzorowaniem między ontologiami po

przetwo-rzeniu

W zbiorze wynikowym jest 121 elementów. Zapytanie skierowane tylko do źródła odpowiadającego ontologii O₁ skutkuje 61 elementami.

Ewaluacja jakościowa zapytań niezlokalizowanych pokazuje uzyskiwaną wartość do-daną polegającą w pierwszym rzędzie na możliwości uzyskiwania wyników bez zna-jomości źródeł danych, co jest najistotniejszym potwierdzeniem zasadności prowadzo-nych badań. Zapytania pozbawione informacji dotyczącej źródeł daprowadzo-nych wykonywane bez wsparcia infrastruktury z oczywistych powodów nie zwracają żadnych wyników, w przeciwieństwie do wykonania tych samych zapytań z wykorzystaniem ActiveDiscovery. Eksperymenty przeprowadzone na wygenerowanych danych pokazują nie tylko tę

ko-rzyść, ale również możliwość uzyskiwania dodatkowych rezultatów wynikających z agre-gacji danych z różnych źródeł jak również z odwzorowań między ontologiami. Zapytania kierowane do źródeł współdzielących instancje zwracają więcej wyników spełniających zapytanie przy wykorzystaniu ActiveDiscovery.

5.2 Ewaluacja ilościowa

Ewaluacja ilościowa ma na celu eksperymentalne zbadanie kosztu czasowego realizacji zapytania w ActiveDiscovery jako funkcji rozmiaru danych bazowych. Z punktu widze-nia rozważań nad skalowalnością ActiveDiscovery, interesujące jest pytanie jak zmiewidze-nia się czas wykonania zapytania wraz ze wzrostem rozmiaru zbiorów danych RDF dla różnych warunków parametryzujących tę funkcję. Przedstawione dalej wyniki ekspe-rymentów dotyczą badania zależności czasu wykonania od rozmiaru danych bazowych dla trzech parametrów kontekstu wykonania i samego zapytania: wielkości zapytania mierzonego liczbą wzorców trójkowych w BGP, selektywności zapytania kontrolowanej za pomocą filtrowania i umieszczania instancji w zapytaniu oraz liczbą źródeł danych, czyli stopniem rozproszenia zadanego wolumenu danych bazowych. Ewaluacja opiera się zatem na zbadaniu zależności czasu przetwarzania od rozmiaru danych dla ośmiu zapytań stanowiących elementy iloczynu

{małe, duże} x {selektywne, nieselektywne} x {mało źródeł, dużo źródeł}.

Dla skrócenia zapisu w dalszej części używana będzie również notacja {0,1} x {0,1} x {0,1},

gdzie 0-em i 1-ką oznaczane są, odpowiednio, zapytanie małe i duże, zapytanie o niższym i wyższym stopniu selektywności oraz niższy i wyższy stopień rozproszenia danych w kontekście.

Uwzględnienie tych parametrów pozwoli uzyskać wgląd nie tylko w złożoność re-alizacji zapytania, ale również we wpływ wymienionych cech zapytań i kontekstu ich wykonania na koszt obliczeń. Należy w tym miejscu zwrócić uwagę, że realizacja za-pytania składa się z dwóch etapów. Pierwszym jest translacja, za którą odpowiadają węzły QSN, ISN i MSN, i której efektem końcowym jest zoptymalizowane zapytanie

wynikowe skierowane do zidentyfikowanych źródeł. Drugim etapem jest samo wykona-nie przetłumaczonego zapytania na węzłach DSN pod kontrolą węzła QSN. Translacja jest niezależna od rozmiarów źródeł danych i, co do zasady, jej koszt jest pomijalnie niski w porównaniu do kosztu wykonania. Dlatego ewaluacja koncentruje się na etapie wykonania, któremu poświęcona jest sekcja 5.2.2, natomiast wcześniej, w sekcji 5.2.1, krótko przedstawione jest porównanie czasów translacji ośmiu testowanych zapytań.

W dokumencie Index of /rozprawy2/11550 (Stron 116-120)