• Nie Znaleziono Wyników

Techniki organizacji i porządkowania danych na poziomie semantycznym w naukach przyrodniczych

N/A
N/A
Protected

Academic year: 2021

Share "Techniki organizacji i porządkowania danych na poziomie semantycznym w naukach przyrodniczych"

Copied!
9
0
0

Pełen tekst

(1)

Streszczenie

W pracy przedstawiono znaczenie podejĞcia opartego na technologiach seman-tycznych w systemach informaseman-tycznych a w szczególnoĞci w systemach zarządzania wiedzą. Zostały omówione podstawowe sposoby porządkowania i opisywania da-nych: meta dane, taksonomie, słowniki a w szczególnoĞci tezaurusy oraz ontologie. Przedstawiono takĪe najwaĪniejsze notacje wykorzystywane w tych technologiach, w szczególnoĞci sposoby zapisu ontologii. NastĊpnie zaprezentowano konkretne im-plementacje przedstawionych technologii w naukach przyrodniczych. W koĔcowej czĊĞci omówiono perspektywy zastosowania omówionych przypadków do tworzenia ontologii dotyczącej produkcji roĞlinnej.

Słowa kluczowe: metadane, taksonomie, tezaurusy, ontologie, zarzdzanie wiedz 1. Wprowadzenie

Technologie informatyczne znajduj obecnie zastosowanie we wszystkich dziedzinach ycia, ich rola systematycznie wzrasta. Dla wielu uytkowników komputer oraz coraz powszechniejszy Internet stanowi przede wszystkim ródło rozrywki, jednake nawet oni doceniaj fakt, e ta nowoczesna technologia ułatwia ycie. Powszechnie wyszukujemy potrzebne nam informacje takie jak godzina odjazdu pocigu, repertuar kinowy czy korzystna oferta ubezpieczenia samocho-du. Wyszukiwarki internetowe stały si bardzo przydatnym i czsto uywanym narzdziem. Pro-blemem, jaki si pojawia, jest jako uzyskiwanej informacji. Jeeli pytamy o seanse filmowe w okrelonym kinie prawdopodobnie łatwo znajdziemy oczekiwana odpowied , podobnie, gdy w zapytaniu podamy dokładny tytuł filmu, jaki chcielibymy obejrze. Z kolei gdybymy chcieli zapyta o film kryminalny, wywietlany w kinach nie dalej ni 10 kilometrów od miejsca naszego zamieszkania, pomidzy godzin 15-t a 20-t, moemy otrzyma odpowied niezadawalajc. Bardzo czsto równie nadmiar informacji w otrzymanej odpowiedzi nie ułatwia nam zadania. Nawigacja w gszczu wyszukanych stron internetowych jest praktycznie niemoliwa, nie jestemy w stanie przejrze wszystkich trafie a te, które wyszukiwarka zwróciła jako pierwsze mog by dla nas bezwartociowe i dotyczy zupełnie innej dziedziny. W takiej sytuacji potrzebne s meto-dy wyszukiwania informacji w zalenoci od kontekstu, oparte o dodatkowe wnioskowanie. Nie-zbdne jest aby narzdzie wyszukiwania miało moliwo analizy i syntezy informacji w stopniu przynajmniej podstawowym. Potrzebne s nowoczesne technologie informatyczne, dziki którym, zgodnie z definicj Ackoffa2,3, otrzymamy nie tylko informacje, czyli dane przetworzone w sposób przydatny uytkownikowi dajce odpowied na pytania: „co?”, „kto?”, „gdzie?”, „kiedy?”, ale

1 Praca naukowa finansowana ze Ğrodków na naukĊ w latach 2010-2011 jako projekt badawczy Nr N N310 038538. 2 Ackoff, R., From Data to Wisdom.

(2)

wiedz – aplikacj informacji odpowiadajc na pytanie „jak?”. Wówczas uytkownik rzeczywi-cie bdzie wspomagany w rozwizywaniu problemów i podejmowaniu decyzji. Takie metody i narzdzia uwzgldniajce kontekst i semantyk zapytania potrzebne s take przy automatycznej wymianie danych pomidzy systemami, nie tylko podczas interakcji systemu z człowiekiem.

Współczesne systemy informatyczne korzystaj z sieci globalnej, negocjuj z innymi syste-mami, wymieniaj z nimi dane i odpowiednio je interpretuj. W sieci globalnej dane mog pocho-dzi od rónych dostawców, niekoniecznie znanych w momencie tworzenia systemu. Warunkiem koniecznym w takiej sytuacji s rozwizania, w których dane s uporzdkowane, opisane i forma-towane w sposób umoliwiajcy zastosowanie automatycznych metod analizy i syntezy a wic s informacj. Aby stały si wiedz musz dodatkowo by uporzdkowane i opisane na poziomie semantycznym. Aby współpraca pomidzy systemami mogła by powszechna, takie rozwizania powinny by oparte na ustalonych, ogólnie przyjtych standardach. Standardy, chocia w mniej-szym stopniu, maj równie znaczenie dla wzmiankowanej wczeniej sytuacji przeszukiwania przez uytkownika zasobów Internetu. Zasoby opisane w standardowy sposób mog by w po-dobny sposób interpretowane przez róne wyszukiwarki oraz inne narzdzia wyprodukowane przez niezalenych dostawców.

Celem niniejszej pracy jest analiza sposobów porzdkowania i opisywania danych dla projek-tu realizowanego w Katedrze Informatyki SGGW: „Narzdzia zarzdzania wiedz w produkcji rolinnej”. Chcemy przedstawi jak mona organizowa i porzdkowa dane oraz wzbogaci upo-rzdkowane dane na poziomie semantycznym. Rozwaania nasze skupi si przede wszystkim na systemach dedykowanych naukom przyrodniczym a w szczególnoci rolnictwu. Dotycz one przede wszystkim integracji danych pochodzcych z zasobów internetowych o do swobodnie okrelonej strukturze, opisanej lub dajcej opisa si przy pomocy jzyka XML. Zagadnienia zwizane ze standardami opartymi na XML, a w szczególnoci agroXML, moliwymi do wyko-rzystania w rolniczych systemach zarzdzania wiedz zostały przedstawione we wczeniejszym artykule autora4. Skupienie si na zasobach internetowych jest przyczyn powoływania si głów-nie na ródła internetowe w szczególnoci za na zasoby Wikipedii, która głów-niezaległów-nie od głów- niedo-skonałoci, staje si współczenie wanym ródłem wiedzy i przykładem integracji informacji.

Naley podkreli, e przedstawiony przegld nie wyczerpuje całoci zagadnienia opisu i or-ganizacji danych w dziedzinie rolnictwa, olbrzymie zasoby informacji zgromadzone s w bazach danych o precyzyjnie okrelonej strukturze, głównie relacyjnej, najczciej bezporednio niedo-stpnych z poziomu Internetu. W takich sytuacjach podstawow metod wydobywania wiedzy jest drenie danych (data mining), czsto konieczne jest tworzenie wyspecjalizowanych narzdzi zapyta takich jak opisane w pracy R. Budziskiegi i M.Karkowiaka5, czy zaprojektowanie dedy-kowanych systemów opartych na bazach danych (patrz: W. Chmielarz6 ). Zagadnienia wykorzy-stania takich metod zarzdzania wiedz w dziedzinie rolnictwa wykraczaj poza zakres tej pracy.

4 Karwowski, W. Standardy oparte na XML w rolniczych systemach zarządzania wiedzą.

5 BudziĔski R., Krakowiak M., Modelowanie zapytaĔ i bazy reguł w regułowym jĊzyku zapytaĔ z wykorzystaniem logiki rozmytej.

(3)

2. Organizacja i porzdkowanie danych

Dane mog by organizowane i opisywane na rónych poziomach w zalenoci od potrzeb. Czasami wystarczy prosta etykieta, czasami konieczne jest opisanie skomplikowanych relacji z innymi danymi. Omówimy kolejno rozmaite podejcia.

Pierwsz metod porzdkowania danych s metadane – czyli „dane o danych”. Porzdkujc dane na ogół staramy si ustali podstawowe kryteria aby według nich dane grupowa czy klasyfi-kowa. Metadane to wszelkiego rodzaju dane, która daj dodatkow informacj na temat innych danych. Przykładem metadanych s klasyczne katalogi biblioteczne okrelajce informacje po-trzebne do opisu ksiki (autor, tytuł, rok wydania, słowa kluczowe, …). Metadane wykorzysty-wane s take do opisu informacji o schemacie np. struktur relacyjnych baz danych lub słu do okrelania prawa dostpu np. do informacji administracyjnych itp. Mog take by uyte do wzbogacenia zasobów takich jak dokumenty czy zdjcia o dodatkowe informacje na przykład imi i nazwisko autora dokumentu, tytuł lub data utworzenia. Przy pomocy metadanych opisywane s dokumenty elektroniczne, w szczególnoci dokumenty dostpne poprzez sieci komputerowe, np. strony WWW, a take dokumenty tworzce nowoczesne biblioteki cyfrowe. Najprostszym przy-kładem jest znacznik HTML meta, który jest niewidoczny dla uytkownika, ale moe by wyko-rzystywany przez wyszukiwarki:

<meta name="keywords" content="knowledge management, content manage-ment">

Jednym ze standardów metadanych jest Dublin Core Metadata Element Set (DCMES)7 prze-znaczony przede wszystkim do opisu zasobów sieciowych. Istnieje polska wersja tego standardu: „PN-ISO 15836:2006 Informacja i dokumentacja. Zestaw elementów metadanych Dublin Core”. Mamy standardy metadanych przeznaczone dla konkretnych dziedzin, przykładem jest EML (Eco-logical Metadata Language)8, jest to specyfikacja opracowana dla ekologii. Inny przykład z dzie-dziny biologii to Darwin Core, który specyfikuje metadane dla informacji na temat geograficznego wystpowania gatunku. Zagadnienia meta danych porusza take norma ISO/IEC 11179, która okrela standard wymiany danych, opartej na metadanych, w heterogenicznym rodowisku. Uy-wana jest ponadto norma ustalajca opis dokumentu na poziomie rekordów na noniku magne-tycznym – ISO 2709 (wersja polska – „PN-ISO 2709: 2010 Informacja i dokumentacja. Format do wymiany informacji”). Zawiera ona ustalenia dotyczce struktury rekordu bibliograficznego: układ, kolejno oraz sposób zapisywania danych.

Kolejnym pojciem wicym si z tym zagadnieniem s taksonomie. Taksonomia (gr. taksis – układ, porzdek + nomos – prawo) powstała jako poddyscyplina systematyki organizmów, nauka o zasadach i metodach klasyfikowania, w szczególnoci o tworzeniu i opisywaniu jednostek sys-tematycznych (taksonów) i włczaniu ich w układ kategorii taksonomicznych. Obecnie wykorzy-stywana jest ona w rozmaitych dziedzinach nauki i ycia. W przypadku uywania pojcia takso-nomii w szerszym znaczeniu nie ma cisłej definicji, najczciej rozumiana jest ona jako drzewia-sta struktura poj i obiektów. Przykładem moe tu by poddrzewia-stawowy podział na kategorie w Wiki-pedii. Gdy stosujemy taksonomie pojawia si kilka problemów. Pierwszy zwizany jest z metada-nymi moemy mie hierarchie matadanych (klas) i odpowiadajce im hierarchie obiektów (instan-cji) czasami konieczne jest rozrónienie tych dwu hierarchii. Drugi problem to trudno

zastoso-7 http://www.dublincore.org/.

(4)

wania hierarchicznego opisu do wielu zagadnie, nie wszystko da si opisa w postaci drzewa, std pojawiaj si próby dodania do taksonomii dodatkowych zwizków pomidzy pojciami, w Wikipedii s to na przykład kategorie zwizane9. Tak rozszerzona taksonomia staje si sieci (grafem) poj. Trzecim problemem jest sposób opisu (definicji) poj wystpujcych w taksono-mii, przydatne do tego zadania s słowniki.

Najczciej poprzez słownik rozumiemy zbiór słów lub wyrae ułoonych i opracowanych według jakiej zasady. Hasła najczciej s ułoone w porzdku alfabetycznym. Spotykamy roz-maite rodzaje słowników, cz ma charakter ogólny jednake ze wzgldów praktycznych obecnie tworzonych jest wiele słowników tematycznych. Oprócz tradycyjnych słowników takich jak „Słownik jzyka polskiego” charakterystycznym przykładem jest Wikisłownik (Wiktionary), roz-wijany obok Wikipedii dostpny take w jzyku polskim. Z punktu widzenia zarzdzania wiedz interesuj nas słowniki o silnie sformalizowanej strukturze, takie jak słowniki narzucone (control-led vocabulary – słownictwo narzucone). Słownik narzucony to zbiór starannie dobranych słów i zwrotów, które s uywane do oznaczania jednostek informacji, tak aby mogły by łatwiej znaj-dowane podczas wyszukiwania. Porzdkuj one takie zagadnienia jak synonimy, antonimy czy homogramy poprzez okrelenie zwizków i zalenoci pomidzy nimi. Najkrócej mówic reduku-j one niejasnoci zwizane z naturalnymi jzykami, w których na przykład ta sama koncepcja moe mie róne nazwy. Takie zbiory słów mog by łatwo wykorzystane do klasyfikacji zaso-bów np. przy uyciu metadanych. W słownikach narzuconych mog pojawi si take elementy taksonomii – hierarchie. Wyrónia si rozmaite rodzaje takich słowników, najbardziej interesujce s tezaurusy.

Tezaurus, według Wikipedii, to zbiór semantycznie i hierarchicznie powizanych terminów, ułatwiajcy wyszukiwanie pochodnych informacji lub słownik wyrazów bliskoznacznych doł-czany do niektórych procesorów tekstu10. Tradycyjnie rozumiany jest jako zbiór synonimów i antonimów. Historycznym przykładem w jzyku angielskim jest Roget’s Thesaurus, współcze-snym przykładem bazujcym na idei tezaurusa jest WordNet, leksykalna baza danych dla jzyka angielskiego11. WordNet grupuje słowa angielskie w zestawy synonimów o nazwie synsets, do-starcza równie ogólne definicje i zapisy rónych semantycznych relacji pomidzy tymi zestawami synonimów. Istniej dwa zdefiniowane standardy ISO dotyczce tezaurusów: ISO 2788 – opisuj-cy zasady budowy tezaurusów jednojzycznych (wersja polska PN-N-09018:1992 „Tezaurus jed-nojzyczny. Zasady tworzenia, forma i struktura”) oraz ISO 5964 – dotyczcy tezaurusów wielo-jzycznych. Obecnie trwaj prace nad połczon rozszerzon wersj tych standardów ISO 25964. Norma ta okrela zasady budowania hierarchii poj; dla danego terminu okrelany jest termin szerszy (to jest o jeden poziom wyej w hierarchii – Broader Term, skrót BT; według normy pol-skiej odpowiednikiem jest: SD – szerszy deskryptor) oraz terminy o wszym znaczeniu (Narro-wer Term, skrót NT; według normy polskiej odpowiednikiem jest: WD – wszy deskryptor). Ponadto zdefiniowany jest jeden termin zalecany (Preferred Term, skrót PT) sporód równowa-nych wariantów (Variant Term, skrót VT). Dodatkowo mamy terminy zwizane z danym pojciem (Related Term, skrót RT; według normy polskiej odpowiednikiem jest: KD – kojarzeniowy de-skryptor). Do wskazywania preferowanych terminów wykorzystuje si zwizki Use (skrót U) oraz

9 http://pl.wikipedia.org/wiki/Wikipedia:Kategoryzacja. 10 http://pl.wikipedia.org/wiki/Tezaurus.

(5)

Use For (skrót UF), co w polskiej wersji zostało ustalone jako U/NU (uywaj / nie uywaj). Tak definiowane tezaurusy zawieraj informacje o zwizkach pomidzy pojciami na poziomie seman-tycznym. Wyszy poziom organizacji semantycznej zapewniaj ontologie.

Ontologia w informatyce to formalna reprezentacja pewnej dziedziny wiedzy, na któr składa si zapis zbiorów poj i relacji midzy nimi, który moe słuy jednoczenie jako podstawa do wnioskowania o właciwoci opisywanych ontologi poj. Mona powiedzie, e ontologia jest to „model do opisywania jakiej dziedziny”, jest rozszerzeniem tezaurusa w tym sensie, e moli-we jest swobodne definiowanie relacji (nie ma ogranicze do „szersze / wsze” itd.). Pojcie ontologia po raz pierwszy w dziedzinie informatyki uył Gruber w 1993 roku. Podana definicja to „ontologia jest jawn specyfikacj konceptualizacji”12. Według Grubera ontologie s czsto uto-samiane z taksonomicznymi hierarchiami klas, definicjami klas oraz odpowiednich relacji, ale nie musz by ograniczone do tych form. Wspólne elementy ontologii obejmuj:

ƒ Instancje: konkretne istniejce obiekty klas;

ƒ Klasy: zbiory, kolekcje, koncepcje, typy obiektów lub rzeczy;

ƒ Atrybuty: aspekty, właciwoci, funkcje, właciwoci lub parametry, które obiekty i klasy mog mie;

ƒ Relacje: sposoby w jaki klasy i obiekty mog by ze sob powizane;

ƒ Terminy funkcyjne: złoone struktury utworzone z niektórych relacji, które mog by stosowane w miejsce jednostkowego terminu w stwierdzeniach;

ƒ Ograniczenia: formalnie opisy tego, co musi by spełnione, aby niektóre twierdzenia były akceptowane jako wejcie;

ƒ Reguły: stwierdzenia w formie „jeeli to” (if then), które opisuj logiczne wnioski, jakie mona wycign z twierdzenia w okrelonej formie;

ƒ Aksjomaty: twierdzenia (w tym reguły) w logicznej formie, które razem składaj si na ogóln teori, jak ontologia opisuje w swojej domenie aplikacji;

ƒ Zdarzenia: zmiany atrybutów lub relacji.

Ontologie maj znaczenie w wielu dziedzinach gdzie konieczne jest automatyczne wniosko-wanie. Ontologie s uywane w sztucznej inteligencji, realizacji sieci semantycznych, inynierii systemów, inynierii oprogramowania, informatyce biomedycznej, genetyce czy bibliotekoznaw-stwie.

Ontologie potwierdziły, e s bardzo przydatnym narzdziem do reprezentowania wiedzy w sposób ułatwiajcy wyciganie wniosków z wiedzy13. Powstaje problem jak zapisa ontologie, mona posługiwa si notacjami graficznymi np. UML, mona stosowa strukturalizowany jzyk naturalny jednake, aby zbudowa efektywne technologie do zarzdzania wiedz, ontologia musi by zakodowana w formie moliwej do automatycznego wykorzystania przez komputery. W cigu ostatnich kilku lat opracowano kilka jzyków reprezentacji ontologii. S to przykładowo: CL (Common Logic) opublikowany jako standard ISO/IEC 24707:2007, jego zadaniem jest stworze-nie ram dla rodziny jzyków opartych na logice pierwszego rzdu, co ma docelowo ułatwi wy-mian i przekazywanie wiedzy w systemach komputerowych; CycL to jzyk ontologii uywany przez projekt sztucznej inteligencji Cyc; IDEF5 (Integrated Definition for Ontology Description Capture Method) to jzyk modelowania wykorzystujcy notacje graficzn, tworzenia i rozwijania ontologii; KIF (Knowledge Interchange Format) jest komputerowo zorientowanym jzykiem do

12 Gruber, T. A translation approach to portable ontologies.

(6)

wymiany wiedzy pomidzy programami komputerowymi. Istnieje wiele innych jzyków ontologii, których w tym miejscu nie bdziemy wymienia, ale najbardziej interesujce wydaj si specyfi-kacje, opracowane przez World Wide Web Consortium, zwizane z inicjatyw Sieci Semantycznej (Sematic Web)14. Specyfikacje te wykorzystuj XML jako jzyk notacji. Podstaw inicjatywy jest RDF (Resource Description Framework) zaprojektowany jako specyfikacja modelu metadanych. Istnieje wiele moliwych notacji RDF, ale RDF/XML jest podstawowa (chocia inne N3 lub Turt-le s w wielu przypadkach bardzo przydatne). Nastpnym eTurt-lementem jest RDFS (RDF Schema) zapewnienia on podstawowe elementy opisu ontologii. RDF zawiera jedynie informacje w postaci grafu skierowanego, natomiast RDFS wprowadza podstawowe pojcia, pozwalajce na struktural-ne uporzdkowanie tego grafu. Kolejn rodzin specyfikacji jest SKOS (Simple Knowledge Orga-nization System), powicony organizacji wiedzy, ma ona na celu dostarczenie narzdzia do ujed-nolicenia słowników narzuconych. Czwart specyfikacja jest OWL (ang. Web Ontology Langua-ge) jzyk o składni opartej na XML, oraz semantyce opartej na logice opisowej. Stanowi on roz-szerzenie RDF i powstał głównie w celu reprezentacji i przetwarzania danych w sieci WWW w postaci ontologii. W tym momencie musimy wspomnie o dwóch bliskich inicjatywach, które stały si podstaw OWL: DAML i OIL. DAML (DARPA Agent Markup Language) został opra-cowany w USA przez DARPA (Defense Advanced Research Projects Agency) w celu reprezenta-cji danych do odczytu maszynowego dla sieci WWW, natomiast OIL (Ontology Inference Layer albo Ontology Interchange Language) został stworzony jako infrastruktura dla sieci semantycznej w Europie. Efektem połczenia wysiłków był DAML + OIL, który stał si podstaw opracowania OWL. OWL, obecnie w wersji OWL 2, wydaje si by dobrym standardem do reprezentowania ontologii w cigu najbliszych lat nie tylko dla sieci semantycznej ale take we wszystkich zagad-nieniach zwizanych z zarzdzaniem wiedz. Ontologie pomagaj nie tylko podczas wyszukiwa-nia informacji, umoliwiaj interoperacyjno semantyczn w heterogenicznych, wielojzycznych rodowiskach. Poniewa ontologie s niezalene od modeli danych na niszych poziomach, s one wykorzystywane do integracji rozmaitych ródeł danych. Dziki temu moemy budowa narz-dzia, które mog skutecznie przeszukiwa pliki, bazy danych, strony internetowe i inne zasoby na poziomie semantycznym, aby wydoby informacje i uchwyci jej znaczenie. Wielu twórców oprogramowania próbuje uy ontologii na du skal w semantycznej integracji aplikacji w roz-proszonych organizacjach, oraz do stworzenia otwartej infrastruktury do szerokiej współpracy z innymi aplikacjami.

3. Implementacje tezaurusów i ontologii w naukach przyrodniczych

Niewtpliwym liderem w implementacji technologii semantycznych w rolnictwie i naukach przyrodniczych jest FAO. Organizacja ta prowadzi serwis internetowy AIMS (Agricultural Infor-mation Management Standards)15 powicony zwikszaniu współpracy pomidzy systemami informacyjnymi przeznaczonymi dla rolnictwa i dziedzin pokrewnych. Jednym z elementów ser-wisu jest AgMES (Agricultural Metadata Element set) inicjatywa, która ma za zadanie stworzy podstaw dla semantycznych standardów w dziedzinie rolnictwa w zakresie opisu i odkrywania zasobów, interoperacyjnoci i wymiany metadanych pomidzy rozmaitymi rodzajami zasobów informacyjnych. Zakres metadanych AgMES jest znacznie obszerniejszy ni w Dublin Core.

Na-14 http://www.w3.org/2001/sw/. 15 http:// www.fao.org/aims/.

(7)

stpnym elementem serwisu AIMS jest AGROVOC – wielojzyczny, strukturalizowany i narzu-cony słownik terminologii dla rolnictwa, lenictwa, rybołówstwa, przemysłu spoywczego i in-nych pokrewin-nych dziedzin (np. ochrona rodowiska). Dostp do AGROVOC moliwy jest po-przez stron WWW, mona równie pobra kopi lokaln w formacie SKOS, albo jako baz da-nych MySql, Postgres czy MS Access, wreszcie jako tekst znakowany lub w formacie ISO 2709. W Stanach Zjednoczonych opracowano National Agricultural Library Thesaurus, zawiera on terminy z rolnictwa, biologii i dziedzin pokrewnych jest dostpny w sieci lub do lokalnego uytku w formacie XML, SKOS, PDF lub DOC. Interesujcy jest take GeMET (GEneral Multilingual Environmental Thesaurus), który został opracowany przez Europejsk Agencj Ochrony rodowi-ska, obejmujcy ogóln terminologi z zakresu rodowirodowi-ska, midzy innymi jest słownictwo zwi-zane z rolnictwem. Tezaurus dostpny jest w sieci a do uytku lokalnego w formacie tabel moli-wych do importu do bazy MS Access oraz w formacie RDF. Istnieje polska wersja tezaurusa przy-gotowana przez Instytut Ochrony rodowiska16. Tezaurus wielojzyczny EuroVoc17 dotyczy wszystkich zagadnie, którymi zajmuje si Unia Europejska, w tym równie rolnictwa. Rozwijany jest według zalece normy ISO 5964 i udostpniany w wersji internetowej, dostpny jest take w postaci pliku PDF oraz formacie SKOS.

Historycznie pierwsze ontologie zwizane z zagadnieniami zwizanymi z rolnictwem powsta-ły w dziedzinie biologii. Potrzeba biologicznych ontologii wzrosła w ostatnich latach w duej mierze ze wzgldu na szybki rozwój duych biologicznych baz danych. Na szczególn uwag zasługuje Gene Ontology (GO)18, która stanowi od lat baz wiedzy w dziedzinie genetyki. Jest to wspólne przedsiwzicie podjte w celu zaspokojenia potrzeby spójnego opisu genów w rónych bazach danych. GO jest czci wikszej inicjatywy OBO (Open Biomedical Ontologies pierwot-nie Open Biological Ontologies). OBO powstała by by podstaw do tworzenia narzuconych słowników do wspólnego uytku w rónych domenach biologicznych i medycznych. Trzeba zau-way, e został stworzony specjalny format reprezentacji ontologii nazwany OBO. Oprócz for-matu OBO ontologia GO dostpna jest w formacie RDF oraz OWL, dodatkowo mona korzysta z wersji w postaci relacyjnej bazy danych. Ciekaw inicjatyw w której tworzy si ontologie zwi-zane z rolnictwem jest Animal Trait Ontology tworzona przez European Animal Disease Geno-mics Network of Excellence for Animal Heath and Foof Safety, nie jest ona jednak zwiazana z produkcja rolinn. Kolejna ontologia jest zwizana z AIMS wspomnian inicjatyw prowadzo-n przez FAO. Ontologia ta ma ródło w projekcie AGROVOC a powstała poniewa zwykłe gro-madzenie danych w bazach wiedzy okazało si niewystarczajce. Take na bazie AGROVOC powstaje Concept Server (CS)19, jest to wersja tezaurusa w formacie OWL, ponadto CS ma mo-liwoci semantycznego okrelania relacji pomidzy pojciami, udostpnia take usługi sieciowe co umoliwi jego integracj przez niezalene systemy w sieci. Kolejn inicjatyw jest Plant Onto-logy20, której celem jest integracja słownictwa dla poszczególnych gatunków w jednolit ontologi dla rolin kwitncych: ryu, kukurydzy, rzodkiewnika (Arabidopsis) i innych okrytonasiennych (Angiosperms). Inne znane ontologie to Gramene Ontologies21 to grupa ontologii która wykorzy-stuje take wymienion Plant Ontology; ontologia dla kukurydzy (Ontology for Maze) opracowana

16 http:// www.ios.edu.pl/. 17 http://eurovoc.europa.eu/. 18 http:// www.geneontology.org. 19 http:// www.fao.org/aims/. 20 http://www.plantontology.org. 21 http://www.gramene.org.

(8)

przez Maize Mapping Project22 oraz Ontologies & Controlled Vocabularies for Gene Annotation of Arabidopsis opracowane przez The Arabidopsis Information Resource23.

4. Podsumowanie

Objto niniejszej pracy nie umoliwia pełnej prezentacji i analizy podstawowych sposobów porzdkowania i opisywania danych na poziomie semantycznym, oraz ich implementacji w dzie-dzinach powizanych z rolnictwem. Powyszy niepełny przegld stanowi punkt wyjciowy dla stworzenia ontologii dla produkcji rolinnej. Jednym z celów projektu „Narzdzia zarzdzania wiedz w produkcji rolinnej” realizowanego w Katedrze Informatyki SGGW jest włanie zbudo-wanie przykładowej ontologii dla rolnictwa w zakresie produkcji rolinnej w jzyku polskim jako wyjciowym (jednoczenie utworzona bdzie wersja angielska powstałej struktury). Bdzie ona stanowi narzdzie wykorzystane do projektowania i implementacji aplikacji do zarzdzania wie-dz w rolnictwie. Na podstawie przedstawionych w poprzednim rozdziale implementacji wydaje si, e punktem startowym powinno by wykorzystanie EuroVoc oraz AGROVOC. W pierwszym etapie zostan wybrane najwaniejsze pojcia w jzyku polskim, nastpi okrelenie ich struktury, relacji midzy nimi, a take sposób, w jaki naley rozumie pojcia i relacje. Nastpnie nastpi wstpna weryfikacja dobranych poj i relacji wzgldem dostpnych dokumentów i portali po-wiconych rolnictwu w jzyku polskim. Kolejnym krokiem bdzie weryfikacja i uzupełnienie terminologii wzgldem standardu agroXML. Powstanie ontologii umoliwi automatyczn współ-prac na poziomie semantycznym z rozmaitymi systemami, w ramach projektu zostan wykonane prototypowe aplikacje demonstrujce moliwoci wyszukiwania na poziomie semantycznym i interoperacyjnoci.

Bibliografia

[1] Ackoff, R., From Data to Wisdom. Journal of Applied Systems Analysis 16, 1989: s.3–9. [2] Bereziski M., Hołubiec J., Wagner D., Hierarchiczna struktura poznania – piramida wiedzy,

Polskie Stowarzyszenie Zarzdzania Wiedz Studia i Materiały, nr 19, Bydgoszcz 2009: s. 5– 17.

[3] Budziski R., Krakowiak M., Modelowanie zapyta i bazy reguł w regułowym jzyku zapy-ta z wykorzystaniem logiki rozmytej, Polskie Stowarzyszenie Zarzdzania Wiedz Studia i Materiały, nr 13, Bydgoszcz 2008: s. 5–16.

[4] Chmielarz W., Techniki zarzadzania wiedza w koncepcji eksperckiego systemu informatycz-nego, Polskie Stowarzyszenie Zarzdzania Wiedz Studia i Materiały, nr 5, Bydgoszcz 2006: s. 29–38.

[5] Fensel, D., Ontologies, A Silver Bullet for Knowledge Management and Electronic Commer-ce, Springer- Verlag Berlin Heidelberg, 2004.

[6] Gruber, T., A translation approach to portable ontologies. Knowledge Acquisition, 5(2) 1993: s. 199–220.

[7] http://eurovoc.europa.eu/

[8] http://knb.ecoinformatics.org/software/eml/

22 http://www.maizemap.org/. 23 http://www.arabidopsis.org/.

(9)

[9] http://pl.wikipedia.org/wiki/Tezaurus. [10] http://pl.wikipedia.org/wiki/Wikipedia:Kategoryzacja. [11] http://wordnet.princeton.edu/. [12] http://www.arabidopsis.org/. [13] http://www.dublincore.org/. [14] http:// www.fao.org/aims/. [15] http:// www.geneontology.org. [16] http://www.gramene.org. [17] http:// www.ios.edu.pl/. [18] http://www.maizemap.org/. [19] http://www.plantontology.org. [20] http://www.w3.org/2001/sw/.

[21] Karwowski, W. Standardy oparte na XML w rolniczych systemach zarzdzania wiedz. In-formatyka ku Przyszłoci, Warszawa 2010.

TECHNIQUES OF ORGANIZATION AND ORDERING DATA ON THE SEMANTIC LEVEL IN THE LIFE SCIENCES

Summary

The paper presents the importance of an approach based on semantic technolo-gies in information systems and in particular in knowledge management systems. There are discussed ways of organizing and describing data: metadata, taxonomies, dictionaries in particular thesauri, and ontologies. Also there are presented the main notations used in these technologies, in particular how to denote ontology. Then spe-cific implementations of the technology in the natural sciences are descibed. The fi-nal part discusses the prospects for applying the described cases, to create an ontol-ogy for crop production.

Keywords: metadata, taxonomy, thesaurus, ontology, knowledge management

Waldemar Karwowski Katedra Informatyki

Wydział Zastosowa Informatyki i Matematyki Szkoła Główna Gospodarstwa Wiejskiego ul. Nowoursynowska 159, 02-776 Warszawa e-mail: waldemar_karwowski@sggw.pl

Cytaty

Powiązane dokumenty

Odszyfrowywanie tego zapisu nazywa się właśnie ekspresją informacji genetycznej, a więc biosyntezę białka na podstawie sekwencji aminokwasów.. Jest to ekspresja na

Na czym polega fibrylacja komór serca i jaka może być jego przyczyna.. Na czym

Udowodni¢, »e z jest liczb¡ algebraiczn¡ wtedy i tylko wtedy, gdy ¯z (liczba sprz¦»ona) jest liczb¡

Udowodni¢, »e je±li M jest projektywny, to M jest

Chcemy także i obiecujemy, aby wszyscy kupcy z jakichkolwiek rejonów i krajów z towarami do rzeczonego miasta przybywający wszystkie ich przedmioty handlu lub towary mogli

Maszyna Turinga przesuwa głowicę wejś- ciową w prawo, zwiększając w każdym kroku licznik o 1, aż do pierwszej litery b (jeśli jej nie ma, to jest jeszcze łatwiej, bo

Jeśli funkcja całkowita f powstaje przez składanie λ−definiowalnych funkcji całkowitych, to też jest

Najbardziej kocham Cię za to, że pomagasz mi w nauce, opiekujesz się mną i chodzisz na spacery1. Z okazji Dnia Matki życzę Ci dużo zdrowia, radości i