Reprezentacja wiedzy z użyciem sieci semantycznych
Agnieszka Nowak 20 maja 2008
1 Sieci semantyczne
• Pewnego rodzaju logika przedstawiająca relacje pomiędzy obiektami w postaci rysunku
• Model nie ma ściśle zdefiniowanej syntaktyki i nie nadaje się do automa- tycznego generowania wiedzy
• Graf przedstawiający sieć semantyczną jest pomocny przy formułowaniu stwierdzeń i reguł
Do zdefiniowania tkiej sieci wprowadza się zbiory:
1. zbiór obiektów {oi} = O 2. zbiór cech {ci} = C
3. zbiór wartości cech {Vi} = V
Elementami zbioru obiektów mogą być symbole oznaczające konkrety lub abs- trakcje, np:
samochód - to symbol abstrakcji, zaś Fiat 126 p KAE 0321 - to symbol konkretu.
1.1 Relacje
• O × O - relacja między obiektami, relacja określona na zbiorze obiektów.
Może być postaci:
1. ISA - relacja typu ”część- całość” (nadrzędność)
2. ISPART - relacja podrzędności, czyli ”(coś) jest częścią (czegoś)”
Obie relacje są przechodnie, tzn. jeżeli ISA(x, y) i ISA(y, z) to ISA(x, z) oraz jeżeli .
1.2 Przykładowa sieć semantyczna
ISPART(x, y) i ISPART(y, z) to ISPART(x, z).
• O × C -relacja przysługiwania obiektom pewnych cech - ”posiada cechę”.
• V × C - relacja postaci ”jest wartością cechy”.
• V×V - relacja uporządkowania elementów zbioru wartości cech, np.: relacja typu: ”(coś) poprzedza (coś)”, lub ”(coś) następuje po (czymś)”.
• O × V - relacja typu ”posiada wartość cechy”, czyli przypisania obiektom wartości cechy. Czasem relacja ta jest tworzona przez złączenie relacji O×C oraz V × C.
Sieć semantyczna pozwala na określenie własności obiektów wg. własności przy- pisanych obiektom nadrzędnym (zasada dziedziczenia własności). Zwykle sieć semantyczna definiowana jest za pomocą grafu. Określa się go poprzez trójkę S =< P, T, R >, gdzie:
• P = O ∪ C ∪ V - zbiór pojęć (wierzchołków grafu, węzły),
• T - zbiór typów relacji, np.: ndk (należy do klasy), je (jest elementem),pc (posiada cechę), jwc (jest wartością cechy), pwc (posiada wartość cechy).
• R ⊂ O × T × O - zbiór wszystkich relacji występujących w danej sieci semantycznej (krawędzie, gałęzie grafu).
Przykładem takiej reprezentacji grafowej jest poniższy graf, reprezentujący sieć semantyczną pewnego typu materiałów budowlanych.
6x12x25 jwc // wymiary
cegła ceramiczna
ndk //
pwc
²²
cegła ndk//
pwc
OO
materiały budowlane
ceglasty
jwc
²²
cegła silikatowa
ndk
OO
pwc
²²
kolor biały
oo jwc gdzie:
• jwc - ”jest wartością cechy”,
• pc - ”posiada cechę”,
• ndk - ”należy do klasy”.
Czasami jednak taka reprezentacja grafowa może być dość złożona. W takim wypadku można stosować inne metody (języki), m.in. Prolog, np:
/*ndk = należy do klasy (ISPART)*/
ndk(cegła ceramiczna, cegła) ndk(cegła, materiały budowlane) ndk(cegła silikatowa, cegła) /*pwc = posiada wartość cechy*/
pwc(cegła, 6x12x25)
pwc(cegła ceramiczna, ceglasty) pwc(cegła silikatowa, biały) /*jwc = jest wartością cechy*/
jwc(biały,kolor) jwc(ceglasty,kolor) jwc(6x12x25,wymiary) itd.
Znaczenie nadawane sieci wynika tylko z treści procedur, które operują na sieci.
Sieci semantyczne są szybko rozwijającym się projektem, którego celem jest stworzenie uniwersalnego medium wymiany informacji. Projekt rozwijany jest pod opieką World Wide Web Consortium, a kierownikiem jest Tmi Berners-Lee, twórca hipertekstu. Celem prac jest stworzenie zestandaryzowanego szkieletu systemu, który pozwoli na swobodną wymianę danych między różnymi aplikacjami, środowiskami programowania i społecznościami. Głównym założeniem jest formalizacja i standaryzacja wiedzy oparta na specyfikacji RDE (Resource Descritpion Framewok - roszerzeniu XML), która pozwala na zrozumienie przez maszynę przechowywanej wiedzy. W planach jest stworzenie nowej architektury internetu, gdzie główną bazą informacji będzie właśnie rozproszona sieć semantyczna wraz z heterogenicznym wieloagentowym systemem wnioskowania.
1.3 Definicja sieci semantycznej
Sieć semantyczna jest specyficzną i bardzo silną metodą reprezentacji danych, opierającą się na opisie obiektów poprzez definiowanie relacji
między różnymi pojęciami. Obecnym standardem zapisu sieci semantycznych jest RDF lecz rekomendowanym przez W3Cw zastosowaniach sieciowych jest standard OWL, gdzie zasoby sieciowe (pojęcia) reprezentowane
są w URI,a dokładny wykaz relacji znajduje się pod adresem: http://www.w3.org/TR/owl-features/
Do tej pory nie opracowano definicji sieci semantycznej, ani standardowych narzędzi do ich opisu. Nie ma zatem powszechnie akceptowanego sposobu opisu semantyki sieci semantycznych ! (np. takiego, jaki stosuje się w logice 1-go
rzędu).
1.4 Budowanie sieci semantycznej
Zasadniczymi składnikami sieci są węzły sieci, łuki i napisy. Sieć jest pewnym grafem. Zasadniczą relacją jest relacja taksonomii ISA (dziedziczenia hierarchicznego).
1.4.1 Budowa ISA
• Wszystkie kosy są ptakami:
kos isa // ptak
Możemy tu dodać informację, że:
• Jaś jest kosem
Jaś isa // kos isa // ptak
Możliwe jest zatem natychmiastowe wnioskowanie dedukcyjne:
• Jaś jest kosem, kos jest ptakiem, zatem Jaś jest ptakiem.
1.5 Pułapki wnioskowania
Oprócz relacji taksonomii, zwykle potrzebne są do opisu świata modelowanego relacje opisujące własności obiektów, np. typu has parts.
Jaś isa // kos isa //
²²isa
ptak has part // skrzydła
gatunek
chroniony jest badany // uczeni
Wnioskowanie prowadzi do wniosku, żeuczeni badają Jasia, co może ale nie musi być prawdą !.Dla większości sieci semantyntycznych mechanizm wnioskowania oparty jest na dopasowywaniu reprezentacji kwerendy do posiadanej sieci semantycznej (która jest systemem informacyjnym).
1.5.1 Przykład
W podanym niżej systemie informacyjnym szukamy informacji na pytanie:
Co posiada Jaś ?
System informacyjny
Jaś isa // kos isa //
²²isa
ptak
posiada właściciel
OO
²²isa
ma // GNIAZDO isa // gniazdo
POSIADA
Kwerenda
Jaś
posiada właściciel
OO
ma //
²²isa
?
POSIADA
Naturalnie jeśli dopasowanie nie powiedzie się, system udzieli odpowiedzi:
Jaś nie posiada niczego.
2 Zastosowanie sieci semantycznych
Sieci semantyczne używano m.in. do:
• konceptualnego opisu projektowanych systemów informacyjnych (baz danych),
• rozumienia języka naturalnego,
• rozpoznawania i rozumienia mowy,
• budowy interfejsów do systemów baz danych opartych na języku naturalnym,
• budowania systemów odpowiadających na pytania (np. SIR),
• tworzenia korpusów wiedzy robotów.
Sieci badano także łącznie z ramami (frame) Minsky’ego.
3 Zadania egzaminacyjne
1. Panowie Marian, Wiktor i Janusz są biznesmenami. Każdy z nich prowadzi działalnooeć innego rodzaju. Jeden firmę informatyczną, drugi transportową a trzeci budowlaną. Mieszkają w trzech różnych miastach: Gdańsku, Krakowie i Poznaniu. Ich ulubione marki samochodów to Audi, Toyota i Mercedes, pod warunkiem, że są w kolorze czerwonym lub granatowym. Budowlaniec (a nie jest nim Wiktor) z Gdańska jeździ Mercedesem, ale nie czerwonym.
Janusz, informatyk mieszka w Krakowie i lubi czerwone Audi. Wiktor również lubi kolor czerwony, ale woli japońskie samochody i nie zajmuje się budownictwem.
Polecenie:
• Narysuj odpowiednią sieć semantyczną przedstawiającą powyższe zależności.
• Określ zbiór obiektów, cech, wartości cech i relacji.
• Odpowiedz na pytania:
– Jaką działalność każdy z nich prowadzi?
– W jakich miastach mieszkają?
– Jakimi samochodami jeżdżą (kolor i marka)?
2. Justyna, Beata i Cecylia to przyjaciółki, z których każda studiuje informatykę albo historię sztuki. Każda z nich wyjeżdża na wakacje do Włoch lub do Hiszpanii, z tym, że Cecylia zawsze jeździ sama. Justyna, studentka informatyki zawsze spędza wakacje z jedną z przyjaciółek. W tym roku nie pojedzie do Hiszpanii, co oznacza, że wybierze się na wakacje z jedną ze studentek historii sztuki.
Polecenie:
• Narysuj odpowiednią sieć semantyczną przedstawiającą powyższe zależnoości.
• Określ zbiór obiektów, cech, wartości cech i relacji.
• Odpowiedz na pytania:
– Kto co studiuje?
– Dokąd każda z dziewcząt pojedzie na wakacje?
Rozwiązanie
Włochy
yyttttttjwcttt
Justyna oo pwc
pwc
§§±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±±
pwc
®®ºººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººººº ndk
²²
wakacje
Hiszpania jwc
eeJJJJJJJJJ
Informatyka
yyttttttjwctttt Przyjaciółki pc //
pc
GG²²²
²²²²
²²²²
²²²²
²²²²
²²²²
²²²²
²²²²
pc
ºº...
....
....
....
....
....
....
....
..
studia Przyjaciółki*
Historia sztuki jwc
ddIII IIIIII
tak
zzuuuuuujwcuuuu towrzystwo
na wakacje Beata
ndk
GG²²²
²²²²
²²²²
²²²²
²²²²
²²²²
²²²²
²²²²
²²²
nie jwc
ddIIIIII IIII
Cecylia oo pwc
ndk
OO
Uwaga !
Dorysować krawędzie:
pwc(Beata, Historia sztuki) pwc(Beata, Włochy)
pwc(Cecylia, Historia sztuki) pwc(Cecylia, Hiszpania)
• P = O ∪ C ∪ V, przy czym:
– O = { Przyjaciółki, Justyna, Beata, Cecylia}, – C = { studia, wakacje, towarzystwo na wakacje},
– V = { informatyka, historia sztuki, Włochy, Hiszpania, tak, nie},
• T - zbiór typów relacji, np.: ndk (należy do klasy), je (jest elementem),pc (posiada cechę), jwc (jest wartością cechy), pwc (posiada wartość cechy).
• R ⊂ O × T × O - zbiór wszystkich relacji występujących w danej sieci semantycznej (krawędzie, gałęzie grafu), np:.
– ndk(Justyna, Przyjaciółki),ndk(Beata, Przyjaciółki),ndk(Cecylia, Przyjaciółki),
– pc(Przyjaciółki,studia), pc(Przyjaciółki,wakacje),pc(Przyjaciółki, towarzystwo na wakacje),
– jwc(informatyka, studia), jwc(historia sztuki,studia),jwc(Włochy, wakacje), jwc(Hiszpania, wakacje), jwc(tak, towarzystwo na wakacje), jwc(nie,towarzystwo na wakacje),
– pwc(Justyna, informatyka) , pwc(Justyna, Włochy), pwc(Cecylia, nie), pwc(Justyna, tak).
Odpowiedzi na pytania:
– Kto co studiuje?
Odp:
Justyna studiuje informatykę. Skoro Cecylia zawsze jeździ sama, a wiadomo, że Justyna pojedzie w towarzystwie Beaty lub Cecylii, a ta, z którą pojedzie studiuje historię sztuki (jest powiedziane:
”justyna wybierze się z jedną ze studentek historii sztuki...” co oznacza, że obie: Beata i Cecylia są studentkami historii sztuki.) – Dokąd każda z dziewcząt pojedzie na wakacje?
Odp:
Justyna nie pojedzie do Hiszpanii, więc pojedzie do Włoch z Beatą, a Cecylia sama do hiszpanii.
3. Zaproponuj sieć semantyczną umożliwiającą zaklasyfikowanie mieszkań do określonego typu (np. Ml, M2, M3. Każdy typ mieszkania jest określany przez metraż i ilość pomieszczeń. Każde pomieszczenie w mieszkaniu opisują parametry:
• Metraż
• Posiadanie okna
• Przeznaczenie (np. pokój, kuchnia, łazienka).
Jako przykład przyjmij dwupokojowe M3 o powierzchni 54m2, łazienka bez okna, kuchnia z oknem.
4. Komputer jest opisywany przez następujące parametry:
• procesor
• pamięć RAM
• karta grafiki
• dysk twardy i inne podstawowe parametry.
Przedstaw sieć semantyczną opisującą powyższe zależności jako przykład przyjmij komputer: procesor Pentium I, pamięć RAM –32 MB, karta grafiki S3 Trio, dysk HDD 4GB i inne.
Rozwiązanie
Pentium I jwc // Procesor
32 MB jwc // Pamięć RAM
S3 Trio jwc // Karta
grafiki oo pc komputer
pc ggOOOO
OOOOOOOOO pc __@@@
@@@@@@
@@@@@@
@@@@@@
@@@@
wwooooooooopcoooo
4 GB jwc // dysk twardy