Systemy informacyjne nad grafami ontologicznymi
Krzysztof Pancerz
Wyższa Szkoła Zarządzania i Administracji w Zamościu Wyższa Szkoła Informatyki i Zarządzania w Rzeszowie
Seminarium Zakładu Inteligentnych Systemów Wspomagania Decyzji w Instytucie Informatyki Politechniki Poznańskiej
Klasyczne systemy informacyjne
System informacyjny
SI = (U, A, V , f ) gdzie:
U jest niepustym, skończonym zbiorem obiektów, A jest niepustym, skończonym zbiorem atrybutów,
V = S
a∈A
Va, Va jest dziedziną (zbiorem wartości) atrybutu a,
f : A × U → V jest funkcją informacyjną, taką że f (a, u) ∈ Va
Klasyczne systemy informacyjne
Wartości atrybutów mogą być: symboliczne,
Klasyczne systemy informacyjne
System decyzyjny
SD = (U, C , D, Vc, Vd, c, d )
gdzie:
U jest niepustym, skończonym zbiorem obiektów,
C jest niepustym, skończonym zbiorem atrybutów warunkowych, D jest niepustym, skończonym zbiorem atrybutów decyzyjnych, Vc= S
a∈C
Va, Vajest dziedziną (zbiorem wartości) atrybutu warunkowego a,
Vd=
S
a∈D
Va, Vajest dziedziną (zbiorem wartości) atrybutu decyzyjnego a,
c : C × U → V jest funkcją informacyjną, taką że f (a, u) ∈ Va dla każdego
a ∈ C i u ∈ U,
d : D × U → V jest funkcją decyzyjną, taką że f (a, u) ∈ Vadla każdego a ∈ D i
Klasyczne systemy informacyjne
Relacja nierozróżnialności
Dla systemu informacyjnego SI = (U, A, V , f ) oraz B ⊆ A definiujemy relację nierozróżnialności określoną na U × U:
RNB = {(u, v ) ∈ U × U : ∀ a∈B
f (a, u) = f (a, v )}.
Relacja nierozróżnialności jest relacją równoważności.
Klasa równoważności dla danego obiektu u ∈ U oznaczana jest przez RNB(u).
Klasyczne systemy informacyjne
Przybliżenia zbioru
Niech X ⊆ U oraz B ⊆ A. Dla X definiujemy B-dolne i B-górne przybliżenie w następujący sposób:
B-dolne przybliżenie zbioru X :
BX = {u ∈ U : RNB(u) ⊆ X },
B-górne przybliżenie zbioru X :
Klasyczne systemy informacyjne
Dokładność przybliżenia zbioru
Niech X ⊆ U oraz B ⊆ A. Numeryczna dokładność przybliżenia zbioru X definiowana jest jako:
αB(X ) =
card (BX ) card (BX ).
Klasyczne systemy informacyjne
Relacja podobieństwa
Dla systemu informacyjnego SI = (U, A, V , f ), dla którego nad U zdefiniowana jest przestrzeń metryczna z miarą odległości odl , możemy zdefiniować relację podobieństwa określoną na U × U:
RPA = {(u, v ) ∈ U × U : odl (u, v ) ≤ τ }.
Główne klasy problemów semantycznych w systemach
decyzyjnych
1 Problemy związane z semantyką wartości atrybutów warunkowych.
2 Problemy związane z semantyką wartości atrybutów decyzyjnych.
Systemy decyzyjne z acyklicznymi grafami skierowanymi
(Midelfart, Komorowski)
System decyzyjny z acyklicznym grafem skierowanym (DAG-Decision System)
SD = (U, C , D, Vc, Vd, c, d , <)
gdzie:
U jest niepustym, skończonym zbiorem obiektów,
C jest niepustym, skończonym zbiorem atrybutów warunkowych, D jest niepustym, skończonym zbiorem atrybutów decyzyjnych, Vc= S
a∈C
Va, Vajest dziedziną (zbiorem wartości) atrybutu warunkowego a,
Vd= S a∈D
Va, Vajest dziedziną (zbiorem wartości) atrybutu decyzyjnego a,
c : U × C → V jest funkcją informacyjną, taką że f (u, a) ∈ Va dla każdego
a ∈ C i u ∈ U,
d : U × D → V jest funkcją decyzyjną, taką że f (u, a) ∈ Vadla każdego a ∈ D i
Zbiory przybliżone oparte na relacji dominacji - DRSA
(Słowiński, Greco, Matarazzo)
Zbiory przybliżone oparte na relacji dominacji uwzględniają semantyczne korelacje między atrybutami - kryteriami (warunkowymi i decyzyjnymi).
SD = (U, C , D, Vc, Vd, c, d ) systemem decyzyjny, gdzie
D = {ad}.
Dla każdego atrybutu ac ∈ C , na zbiorze obiektów U
zdefiniowana jest relacja <ac słabej preferencji taka, że
(x , y ) ∈<ac oznacza x jest co najmniej tak dobry jak y .
Mówimy, że x dominuje y ze względu na P ⊆ C , co
oznaczamy przez xDpy , jeśli (x, y ) ∈<ac dla każdego ac ∈ P.
Dla każdego x ∈ U definiujemy:
zbiór P-dominujący: DP+(x ) = {y ∈ U : yDpx },
Zbiory przybliżone oparte na relacji dominacji - DRSA
(Słowiński, Greco, Matarazzo)
Atrybut ad dokonuje podziału zbioru U na skończoną liczbę
klas decyzyjnych Clad = {Clt : t ∈ T }, gdzie T = {1, . . . , n}.
Na zbiorze Clad zdefiniowana jest relacja dominacji Sad taka,
że (u, v ) ∈ Sad oznacza u jest co najmniej tak dobre jak v .
Dla zbioru Clad definiujemy:
złożenie klas decyzyjnych w górę: Clt≥=
S
s≥t
Cls,
złożenie klas decyzyjnych w dół: Clt≤=
S
s≤t
Cls, gdzie Clt, Cls ∈ Clad.
Zbiory przybliżone oparte na relacji dominacji - DRSA
(Słowiński, Greco, Matarazzo)
ac-dolne przybliżenie zbioru Clt≥:
ac(Clt≥) = {u ∈ U : Da+c(u) ⊆ Cl
≥ t },
ac-górne przybliżenie zbioru Clt≥:
ac(Clt≥) =
[
u∈Clt≥
Da+c(u),
ac-dolne przybliżenie zbioru Clt≤:
ac(Clt≤) = {u ∈ U : Da−c(u) ⊆ Cl
≤ t },
ac-górne przybliżenie zbioru Clt≤:
ac(Clt≤) =
[
u∈Clt≤
Relacje semantyczne pomiędzy słowami
W lingwistyce, logice i psychologii poznawczej wyróżnionych zostało wiele relacji semantycznych pomiędzy słowami. Relacje semantyczne pozwalają na opisywanie związków między różnymi znaczeniami różnych słów.
Relacje semantyczne ograniczają lub określają znaczenie. Podstawowa taksonomia relacji semantycznych (wzorowana na projekcie Wikisaurus):
relacje synonimiczne, relacje antonimiczne,
relacje hiponimiczne / hiperonimiczne (zawierania się klas), relacje meronimiczne / holonimiczne (część - całość).
Relacje semantyczne pomiędzy słowami
Przykłady:
samochód jest synonimem auta, również auto jest synonimem samochodu
góra jest antonimem dołu, również dól jest antonimem góry pies jest hiponimem ssaka, ale ssak jest hiperonimem psa, palec jest meronimem dłoni, ale dłoń jest holonimem palca.
Relacje semantyczne pomiędzy słowami
Relacje semantyczne pomiędzy słowami
Oznaczenia:
R∼ - relacja synonimiczna, (u, v ) ∈ R∼ oznacza "u jest
sybninimem v ",
R↔ - relacja antonimiczna, (u, v ) ∈ R↔ oznacza "u jest
antonimem v ",
RC - relacja hiponimiczna, (u, v ) ∈ RC oznacza "u jest hiponimem v ",
RB - relacja hiperonimiczna, (u, v ) ∈ RB oznacza "u jest hiperonimem v ",
R⊂ - relacja meronimiczna, (u, v ) ∈ R⊂ oznacza "u jest
meronimem v ",
R⊃ - relacja holonimiczna, (u, v ) ∈ R⊃ oznacza "u jest
Graf ontologiczny
Dla danej ontologii O możemy zdefiniować graf ontologiczny GO.
Graf ontologiczny
Grafem ontologicznym nazywamy uporządkowaną czwórkę GO = (C, E , R, ρ)
gdzie
C jest niepustym skończonym zbiorem węzłów reprezentujących pojęcia ontologii O,
E ⊆ C × C jest skończonym zbiorem krawędzi reprezentujących relacje pomiędzy pojęciami ze zbioru C,
R jest rodziną semantycznych opisów (w języku naturalnym) typów relacji (reprezentowanych przez krawędzie)pomiędzy pojęciami,
ρ : E → R jest funkcją przyporządkowującą każdej krawędzi semantyczny opis reprezentowanej przez nią relacji.
Lokalny podgraf ontologiczny
Lokalny podgraf ontologiczny
Lokalnym podgrafem LGO grafu ontologicznego GO = (C, E , T , ρ) nazywamy graf
LGO = (CL, EL, T , ρL)
CL⊆ C, EL⊆ E ,
Systemy informacyjne nad grafami ontologicznymi
Nad grafami ontologicznymi możemy zbudować system informacyjny na wiele sposobów, np.:
1 Wartościami atrybutów systemu informacyjnego są pojęcia ze zbiorów C - elemntarny system informacyjny nad grafami ontologicznymi.
2 Wartościami atrybutów systemu informacyjnego są lokalne podgrafy ontologiczne LGO grafów ontologicznych GO -złożony system informacyjny nad grafami ontologicznymi.
Proste systemy informacyjne nad grafami ontologicznymi
Prosty system informacyjny nad grafami ontologicznymi
SI = (U, A, {OGa}a∈A, f )
gdzie:
U jest niepustym, skończonym zbiorem obiektów, A jest niepustym, skończonym zbiorem atrybutów,
{OGa}a∈A jest rodziną grafów ontologicznych skojarzonych z
atrybutami ze zbioru A,
f : A × U → Ca, jest funkcją informacyjną, taką że
f (a, u) ∈ Ca dla każdego a ∈ A i u ∈ U, gdzie Ca jest zbiorem
Proste systemy decyzyjne nad grafami ontologicznymi
Prosty system decyzyjny nad grafami ontologicznymi
SDSOG = (U, C , D, {OGa}a∈C, Vd, c, d ),
where:
U jest niepustym, skończonym zbiorem obiektów,
A jest niepustym, skończonym zbiorem atrybutów warunkowych, Djest niepustym, skończonym zbiorem atrybutów decyzyjnych, {OGa}a∈C ∪D jest rodziną grafów ontologicznych skojarzonych z atrybutami warunkowymi i decyzyjnymi ze zbioru C ,
c : C × U → C, gdzie C = S a∈C
Ca, jest funkcją informacyjną, taką że f (a, u) ∈ Ca dla każdego a ∈ C i u ∈ U, gdzie Cajest zbiorem pojęć z grafu OGa,
d : D × U → C, gdzie C = S a∈D
Ca, jest funkcją decyzyjną, taką że f (a, u) ∈ Ca dla każdego a ∈ D i u ∈ U, gdzie Ca jest zbiorem pojęć z grafu OGa.
Złożone systemy informacyjne nad grafami ontologicznymi
Złożony system informacyjny nad grafem ontologicznym
Złożonym systemem informacyjnym nad grafami ontologicznymi nazywamy uporządkowaną czwórkę
SI = (U, A, {GOa}a∈A, f )
gdzie:
U jest niepustym, skończonym zbiorem obiektów, A jest niepustym, skończonym zbiorem atrybutów,
{GOa}a∈A jest rodziną grafów ontologicznych skojarzonych z
atrybutami ze zbioru A,
f : A × U → LGOa, jest funkcją informacyjną, taką że
f (a, u) ∈ LGOa dla każdego a ∈ A i u ∈ U, gdzie LGOa jest
Przybliżenia zbiorów - wybrane problemy
Tablica: Systemy decyzyjne
U/C ∪ D Stopien Miejscowosc Zatrudnienie u1 Doktor Metropolia Zatrudniony na caly etat u2 Licencjat Miasto Zatrudniony na caly etat u3 Licencjat Miasto Zatrudniony na pol etatu u4 Licencjat Wies Niezatrudniony U/C ∪ D Stopien Miejscowosc Zatrudnienie
u1 Doktor Metropolia Zatrudniony na caly etat u2 Licencjat Miasto Zatrudniony na caly etat u3 Licencjat Miasto Niezatrudniony u4 Licencjat Wies Niezatrudniony
Przybliżenia zbiorów - wybrane problemy
Niech B = {Stopien, Miejscowosc}. Przybliżenia Xcaly −etat = {u1, u2}:
B(Xcaly −etat) = {u1},
B(Xcaly −etat) = {u1, u2, u3},
ponieważ B(u1) = {u1}, B(u2) = B(u3) = {u2, u3} oraz
B(u4) = {u4}. Stąd dokładność przybliżenia:
αB(Xcaly −etat) =
1 3.
Przybliżenia zbiorów - wybrane problemy
Rysunek: Grafy ontologiczne skojarzone z atrybutami systemów decyzyjnych.
Przybliżenia zbiorów - wybrane problemy
Rysunek: Grafy ontologiczne skojarzone z atrybutami systemów decyzyjnych (cd.).
Przybliżenia zbiorów - wybrane problemy
Zatrudniony na caly etat jest hiponimem Zatrudniony oraz Zatrudniony na pol etatu jest hiponimem Zatrudniony , dlatego:
B(Xcaly −etat) = {u1, u2, u3},
B(Xcaly −etat) = {u1, u2, u3}.
Stąd dokładność przybliżenia:
αB(Xcaly −etat) = 1.
Niezatrudniony jest antonimem Zatrudniony , dlatego: B(Xcaly −etat) = {u1}, B(Xcaly −etat) = {u1, u2, u3}. Stąd dokładność przybliżenia: αB(Xcaly −etat) = 1 3.
Przybliżenia zbiorów - wybrane problemy
Rysunek: Przybliżenia zbiorów
Założenia:
1 C1 i C2 są hiponimami pewnego pojęcia C3. 2 C4 i C5 są antonimami.
Z punktu widzenia klasycznej teorii zbiorów przybliżonych mamy jednakową dokładność przybliżeń.
Przybliżenia zbiorów - wybrane problemy
Rysunek: Przybliżenia zbiorów
Przybliżenia zbiorów - wybrane problemy
Tablica: Systemy decyzyjne
U/C ∪ D Miejscowosc Zatrudnienie Staus materialny u1 Metropolia Zatrudniony na caly etat Wysoki u2 Miasto Zatrudniony na caly etat Sredni u3 Miasto Zatrudniony na pol etatu Sredni
u4 Wies Niezatrudniony Niski
U/C ∪ D Miejscowosc Zatrudnienie Staus materialny u1 Metropolia Zatrudniony na caly etat Wysoki u2 Miasto Zatrudniony na caly etat Sredni
u3 Miasto Niezatrudniony Sredni
Przybliżenia zbiorów - wybrane problemy
Niech B = {Miejscowosc, Zatrudnienie}. Przybliżenia XSredni = {u2, u3}:
B(XSredni) = {u2, u3},
B(XSredni) = {u2, u3},
Stąd dokładność przybliżenia:
αB(Xcaly −etat) = 1.
Przybliżenia zbiorów - wybrane problemy
Odpowiedź: tak, różnica pomiędzy tymi przypadkami istnieje: w pierwszym przypadku XSredni jest aproksymowany granulami
generowanymi przez pojęcia semantycznie "bliskie", tj. Zatrudniony na caly etat jest hiponimem Zatrudniony oraz Zatrudniony na pol etatu jest hiponimem Zatrudniony , w drugim przypadku XSredni jest aproksymowany granulami
generowanymi przez pojęcia semantycznie "dalekie", tj. Zatrudniony na caly etat jest hiponimem Zatrudniony ale Niezatrudniony jest antonimem Zatrudniony .
Przybliżenia zbiorów - wybrane problemy
Jaka jest to dla nas informacja?
Atrybut Staus materialny może nie zależeć od atrybutu Zatrudnienie.
Może istnieć pewna sprzeczność w danych.
Taka informacja może zostać wykorzystana w procesach fuzji informacji (ang. Information fusion).
Przybliżenia zbiorów - wybrane problemy
Rysunek: Przybliżenia zbiorów
Z punktu widzenia klasycznej teorii zbiorów przybliżonych mamy jednakową sytuację. Jednak:
1 Pojęcie C1 jest przybliżane dokładnie przez granule wiedzy opisywane pojęciami semantycznie bliskimi (np. synonimami, hiponimami, hiperonimami).
2 Pojęcie C2 jest przybliżane dokładnie przez granule wiedzy opisywane pojęciami semantycznie dalekimi (np. antonimami).
Podejście DRSA dla elementarnych systemów
informacyjnych nad grafami ontologicznymi
SI = (U, A, {GOa}a∈A, f ) - elementarny systemem
informacyjnym nad grafami ontologicznymi.
OGa = (Ca, Ea, R, ρa) - graf ontologiczny przypisany
atrybutowi a. c1, c2 ∈ Ca.
SR(a) relacja uszczegółowienia zdefiniowana w grafie ontologicznym OGa.
GR(a) relacja uogólnienia zdefiniowana w grafie ontologicznym OGa.
c1 dominuje c2, co oznaczamy jako D≥(c1, c2), jeśli
(c2, c1) ∈ SR(a), tj. c2 jest uszczegółowione przez c1.
Podejście DRSA dla elementarnych systemów
informacyjnych nad grafami ontologicznymi
Oznaczenia: D+v
a = {u ∈ U : D≥(a(u), v )}, tj. zbiór wszystkich obiektów
u ∈ U, dla których a(u) dominuje v .
Da−v = {u ∈ U : D≤(a(u), v )}, tj. zbiór wszystkich obiektów u ∈ U, dla których a(u) jest zdominowane przez v .
Reguły bazujące na podejściu DRSA w elementarnych
systemach informacyjnych nad grafami ontologicznymi
Deskryptory warunkowe (a, v )≥ nad C oraz C, gdzie a ∈ C oraz v ∈ C, czytane jako a jest co najmniej v zgodnie z grafem ontologicznym OGa.
Deskryptory decyzyjne (a, v )≥ nad D oraz Vd, gdzie a ∈ D
oraz v ∈ Vd, czytane jako a jest co najmniej v zgodnie z relacją dominacji zdefiniowaną dla a.
Deskryptory warunkowe (a, v )≤ nad C oraz C, gdzie a ∈ C oraz v ∈ C, czytane jako a jest co najwyżej v zgodnie z grafem ontologicznym OGa.
Deskryptory decyzyjne (a, v )≤ nad D oraz Vd, gdzie a ∈ D
oraz v ∈ Vd, czytane jako a jest co najwyżej v zgodnie z relacją dominacji zdefiniowaną dla a.
Reguły bazujące na podejściu DRSA w elementarnych
systemach informacyjnych nad grafami ontologicznymi
1 D≥-elementarna reguła decyzyjna:
(ac, rc)≥⇒ (ad, vd)≥,
Może być czytana jako: jeśli ac jest co najmniej rc, to ad jest
co najmniej vd.
2 D≤-elementarna reguła decyzyjna:
(ac, rc)≤⇒ (ad, vd)≤,
Może być czytana jako: jeśli ac jest co najwyżej rc, to ad jest
Reguły bazujące na podejściu DRSA w elementarnych
systemach informacyjnych nad grafami ontologicznymi
1 Reguła (1) jest prawdziwa w SDSOG wtedy i tylko wtedy, gdy:
D+rc ac ⊆ Cl ≥ vd oraz D+rc ac 6= ∅,
2 Reguła (2)jest prawdziwa w SDSOG wtedy i tylko wtedy, gdy:
D−rc ac ⊆ Cl ≤ vd oraz D−rc ac 6= ∅,
Przykład
Tablica: Prosty system informacyjny nad grafami ontologicznymi
U/C ∪ D Pojazd Nieruchomosc Status materialny u1 Samochod Mieszkanie wynajmowane Sredni
u2 Minivan Dom Wysoki
u3 Samochod Mieszkanie Sredni
u4 Rower Mieszkanie wynajmowane Niski
u5 SUV Dom parterowy Wysoki
u6 Samochod Mieszkanie wynajmowane Niski
u7 Samochod Mieszkanie wlasnosciowe Sredni
Przykład
Przykład
Rysunek: Graf ontologiczny OGNieruchomosc przypisany atrybutowi
Przykład
Reguła 1
(Nieruchomosc, Dom)≥⇒ (Status materialny , Sredni )≥,
Jeśli Nieruchomosc jest co najmniej Dom, to Status materialny jest co najmniej Sredni . Reguła jest prawdziwa SDSOG ponieważ:
DNieruchomosc+Dom = {u2, u5, u8},
ClSredni≥ = {u1, u2, u3, u5, u7, u8},
Przykład
Reguła 2
(Pojazd , Samochod )≥⇒ (Status materialny , Sredni )≥,
Jeśli Vehicle jest co najmniej Car , to Status materialny jest co najmiej Sredni .
Reguła nie jest prawdziwa SDSOG ponieważ:
D+Samochod
Pojazd = {u1, u2, u3, u5, u6, u7, u8},
ClSredni≥ = {u1, u2, u3, u5, u7, u8},
Nabardziej ogólne reguły elementarne
Reguła elementarna (ac, rc)≥⇒ (ad, vd)≥, gdzie ac ∈ C , rc ∈ Cac
w grafie OGac, ad ∈ D, vd ∈ Vd, jest nazywana najbardziej ogólną
regułą ze względu na część warunkową i ustaloną część decyzyjną (ad, vd)≥ wtedy i tylko wtedy, gdy:
1 reguła (ac, rc)≥⇒ (ad, vd)≥ jest prawdziwa w SDSOG, 2 reguła (ac, r0
c)≥⇒ (ad, vd)≥, gdzie rc0 = Rodzic(rc), nie jest
Nabardziej ogólne reguły elementarne
Nabardziej ogólne reguły elementarne mogą być generowane za pomocą algorytmu przeszukiwania w głąb z przycinaniem bieżącym.
Przykład
Przykład
Zbiór wszystkich nabardziej ogólnych reguł decyzyjnych w systemie SDSOG ze względu na część warunkową i ustaloną część decyzyjną (Status materialny , Sredni )≥ includes the following rules:
(Pojazd , SUV )≥⇒ (Status materialny , Sredni )≥,
(Pojazd , Minivan)≥⇒ (Status materialny , Sredni )≥,
(Nieruchomosc, Mieszkanie wlasnosciowe)≥⇒ (Status materialny , Sredni )≥,
Podsumowanie
1 Prezentowane podejście jest próbą włączenia do metod teorii zbiorów przybliżonych informacji o semantycznych
powiązaniach pomiędzy wartościami atrybutów zadanej w postaci grafów ontologicznych.
2 Prezentowane podejście wpisuje się w paradygmat obliczeń na słowach (ang. computing with words) zaproponowany przez L. Zadeha.
Dalsze prace
1 Wyznaczanie jakości przybliżeń zbiorów w zależności od różnych typów relacji semantycznych (także typów bardziej wyszukanych).
2 Generowanie reguł decyzyjnych w prostych systemach decyzyjnych nad grafami ontologicznymi w zależności od różnych typów relacji semantycznych.
3 Generowanie reguł decyzyjnych w złożonych systemach decyzyjnych nad grafami ontologicznymi
4 Uwzględnienie problemu OSVP (Optimal Symbolic Value Partition) w prostych systemach decyzyjnych nad grafami ontologicznymi.
Publikacje własne
1 Pancerz, K.: Toward Information Systems over Ontological Graphs. In: J.T. Yao et al. (Eds.), Proceedings of the 8th International Conference on Rough Sets and Current Trends in Computing (RSCTC’2012), Chengdu, China, August 17-20, 2012, Lecture Notes in Artificial Intelligence, Vol. 7413, Springer-Verlag, Berlin Heidelberg, 2012, pp. 243-248.
2 Pancerz, K.: Dominance-Based Rough Set Approach for Decision Systems over Ontological Graphs. In: M. Ganzha, L. Maciaszek, M. Paprzycki (Eds.), Proceedings of the Federated Conference on Computer Science and Information Systems (FedCSIS’2012), Wroclaw, Poland, September 9-12, 2012, pp. 345–352.
3 Pancerz, K.: Decision Rules in Simple Decision Systems over Ontological Graphs. In: Computer Recognition Systems, Advances in Intelligent and Soft Computing, Springer-Verlag, Berlin Heidelberg, 2013 (to appear).