• Nie Znaleziono Wyników

RDF, SKOS, Linked Data

W dokumencie Model systemu informacji terminologicznej (Stron 158-161)

i format wymiany danych terminologicznych

2.2.2. Sieć Semantyczna

2.2.2.2. RDF, SKOS, Linked Data

Fundamentalnym komponentem Sieci Semantycznej jest język RDF (alle

manG, hendler, 2011). Początkowo służył on wyłącznie do zapisu metadanych na temat stron (zasobów)39 internetowych, ale obecnie może być wykorzystywany również do opisywania wszelkich obiektów, które posiadają swój identyfikator.

Celem języka RDF jest umożliwienie komputerowego przetwarzania opisów zasobów w sposób automatyczny, za pomocą wyrażeń składających się z trzech elementów: podmiotu, predykatu i obiektu. W RDF podmiot stanowi opisywany zasób, identyfikowany przez Uniform Resource Identifier (URI)40, predykat określa w postaci relacji, która cecha podmiotu jest opisywana, a obiektem jest wartość tej cechy41. Podstawowym założeniem RDF jest oddzielenie wizualnej (prezentacyjnej) warstwy informacji od warstwy ich przetwarzania, czyli od-dzielenie struktury dokumentu od jego treści.

39 Wskazuje na to sama nazwa Resource Description Framework (RDF); resource = zasób.

40 Przez URI mogą być reprezentowane także predykat i obiekt.

41 Przykładowa reprezentacja zdania w RDF: Albert Einstein jest autorem teorii względno-ści. Podmiot — Albert Einstein; predykat — jest autorem; dopełnienie — teoria względnowzględno-ści.

Standardy RDF i RDF Schema zostały wykorzystane w Simple Knowledge Organization System (SKOS, Prosty System Organizacji Wiedzy) — rodzinie języków formalnych służących do reprezentacji różnych form słownictwa kontrolowanego: taksonomii, tezaurusów, haseł przedmiotowych, klasyfikacji itp. W tym systemie, wykorzystującym podejście onomazjologiczne, punktem wyjścia analizy terminologicznej są reprezentowane przez zasoby i definio-wane za pomocą RDF pojęcia. Głównym celem SKOS -u jest umożliwienie publikowania i wymiany zbiorów słownictwa kontrolowanego na potrzeby Sieci Semantycznej. SKOS pozwala wyrażać tylko podstawowe struktury konceptualne, bez mechanizmów wnioskowania, co w wielu przypadkach jest jednak w pełni wystarczające, a zarazem korzystniejsze ze względu na niższe nakłady finansowe i mniejszą ilość czasu potrzebnego do stworzenia ustrukturyzowanych zbiorów słownictwa, od pełnej Sieci Semantycznej, która jest bardzo skomplikowana w budowie. Słownictwo wyrażone w SKOS może być ze sobą łączone w kompleksowe zbiory i wykorzystywane w ontologiach opisywanych za pomocą języka OWL, który jest niezbędny do wyrażania złożonych struktur danych, umożliwia zapisywanie aksjomatów i tworzenie mechanizmów wnioskowania.

Simple Knowledge Organization System, którego metamodel jest podobny do formatu tezaurusa przedstawionego w normie ISO 25964 ‑1:2011 Information and documentation — Thesauri and interoperability with other vocabularies — Part 1: Thesauri for information retrieval, jest coraz częściej wykorzystywany jako format zapisu tezaurusów. Przykładowymi tezaurusami udostępnianymi w tym formacie42 są:

1. EuroVoc: wielojęzyczny tezaurus Unii Europejskiej, obejmujący terminolo-gię z zakresu poszczególnych obszarów działalności tej organizacji, w szcze-gólności działalności parlamentarnej;

2. AGROVOC: wielojęzyczny tezaurus obejmujący pojęcia związane z działal-nością Organizacji Narodów Zjednoczonych do spraw Wyżywienia i Rolnic- twa (Food and Agriculture Organization of the United Nations, FAO);

3. GEMET: wielojęzyczny tezaurus zawierający ogólną terminologię z zakresu ochrony środowiska, rekomendowany przez Europejską Agencję Środowiska (European Environment Agency, EEA).

4. MeSH: przetłumaczony na wiele języków tezaurus, wykorzystywany do in-deksowania literatury biomedycznej; pierwszy SKOS dla MeSH został utwo-rzony przez badaczy z Vrije Universiteit w Amsterdamie. Istnieją również inne wersje SKOS dla tego tezaurusa.

Coraz więcej programów komputerowych do zarządzania słownictwem i ter-minologią, w tym tezaurusami, ma możliwość zapisu danych w formacie SKOS.

42 Częstą praktyką jest zapisywanie zbiorów słownictwa w różnych formatach. Wspomnia-ne tutaj tezaurusy są również udostępniaWspomnia-ne w kilku formatach, nie tylko w SKOS.

Opracowywane są także metody konwersji istniejących tezaurusów i słowników języków haseł przedmiotowych do tego formatu (aSSem et al., 2006).

RDF został także wykorzystany do realizacji koncepcji Linked Data Tima Bernersa -Lee. Linked Data (dosł. powiązane dane) to sposób na rozwiązanie problemu rozproszenia danych w internecie, polegający na opisywaniu i pub-likowaniu ustrukturyzowanych zbiorów danych w taki sposób, aby mogły one być ze sobą łączone i automatycznie wykorzystywane przez komputery. Linked Data zakłada tworzenie formalnych połączeń między heterogenicznymi, pocho-dzącymi z różnych źródeł danymi, przy pomocy technologii World Wide Web.

Opisywanie i publikowanie danych w tej koncepcji opiera się na wykorzystaniu wspólnego modelu reprezentacji informacji oraz powszechnie stosowanych w internecie technologicznych standardów.

Linked Data, jako model opisu, publikowania, łączenia i udostępniania danych w Sieci Semantycznej, wykorzystuje cztery główne technologie WWW:1. URI (Uniform Resource Identifier) w celu identyfikacji obiektów (za pomocą

ich nazw i adresów).

2. HTTP (Hypertext Transfer Protocol), aby uzyskać informacje o opisywanych obiektach.

3. RDF (Resource Description Framework) do wyrażenia informacji o obiek-cie.

4. Hiperłącza, aby powiązać ze sobą obiekty, stwarzając w ten sposób możli-wość eksploracji informacji (BernerS ‑lee, 2006).

Opublikowane zbiory danych o strukturze zgodnej z modelem Linked Data tworzą tzw. chmurę powiązanych danych (Linked Data Cloud), czyli globalną sieć powiązanych ze sobą zbiorów danych, która staje się nieustannie powięk-szającym się źródłem informacji. Linked Data jest wykorzystywany przez wiele instytucji i organizacji (rządowych i pozarządowych, głównie amerykańskich i brytyjskich), a także firm i przedsiębiorstw43.

Zasoby terminologiczne również mogą być publikowane jako zbiory Linked Data. Aby to było możliwe, dane terminologiczne muszą jednak zostać zapisane w odpowiednim formacie: SKOS, OWL, RDF lub XML. Zbiory terminologiczne będą wówczas poprawnie rozpoznawane i interpretowane przez programy kom-puterowe, co umożliwi wykorzystanie zgromadzonej i opracowanej terminologii w innych systemach i projektach. Problematyka publikowania danych w modelu Linked Data została przedstawiona w licznych artykułach, monografiach, po-radnikach oraz wideoprezentacjach dostępnych w internecie44. Powstało także

43 Wykaz dostępnych zbiorów danych w formacie Linked Data można znaleźć w serwisie DataHub (http://datahub.io/dataset?organization=lodcloud), prowadzonym przez Open Know- ledge Foundation. Serwis DataHub wykorzystuje system zarządzania danymi CKAN (http://

ckan.org), oferujący narzędzia do publikowania, łączenia, wyszukiwania i udostępniania danych.

44 Na przykład http://vimeo.com/36752317.

wiele aplikacji, które umożliwiają konwersję danych w istniejących formatach do postaci akceptowanej w modelu Linked Data45.

W dokumencie Model systemu informacji terminologicznej (Stron 158-161)