Eksploracja regułowych baz wiedzy: analiza i sposoby prezentacji reguł

(1)

Eksploracja regułowych baz wiedzy: analiza

i sposoby prezentacji reguł

Agnieszka Nowak-Brzezińska agnieszka.nowak@us.edu.pl Uniwersytet Śląski Instytut Informatyki

Zakład Systemów Informatycznych 11 kwietnia 2017

(2)

Plan wystąpienia

1 Tematyka badawcza - wprowadzenie.

2 Regułowe bazy wiedzy i procesy wnioskowania. 3 _{Koncepcja podziałów reguł.}

4 kbExplorer - cele i zadania.

5 Eksploracja regułowych baz wiedzy: cele i metody ich realizacji. 1 Grupy reguł podobnych - narzędzie modularyzacji bazy wiedzy. 2 Odchylenia w regułowych bazach wiedzy - reguły nietypowe. 3 Metody reprezentacji skupień reguł - profile grup.

6 _{Eksperymenty.} 7 Wnioski.

(3)

Tematyka badawcza - wprowadzenie.

Tematyka badawcza: eksploracja regułowych baz wiedzy.

Regułowe bazy wiedzy są jedną z najbardziej popularnych metod reprezentacji wiedzy. Analiza dużych baz wiedzy wpływa niestety na obniżenie efektywności wnioskowania.

Regułowe bazy wiedzy oprócz wyrażonej jawnie wiedzy dziedzinowej, zawierają dodatkową, ukrytą wiedzę, rozproszoną w zbiorach reguł o potencjalnie dużej liczebności. Wiedza ta często odzwierciedla trudno formalizowalne kompetencje

ekspertów (uogólnienia i niejawne powiązania), wiedzę intuicyjną, wyjątki, przypadki specjalne, tzw. skróty myślowe.

Efektywna eksploracja baz wiedzy rozumiana jest jako: skrócenie czasu wnioskowania oraz wydobycie wiedzy użytecznej z punktu widzenia oczekiwań użytkownika (eksperta dziedzinowego, inżyniera wiedzy).

(4)

Regułowe bazy wiedzy - postać reguł

Postać ogólna

ifcond1andcond2 and. . . andcondn thenconclusion

Źródła reguł

bezpośrednio od eksperta dziedzinowego,

generowane automatycznie z danych (np. RSES).

Przykład reguły w praktyce

(health = priority)&(f inance = inconv)&(parents =

(5)

Zarządzanie dużymi bazami reguł - aktualny stan badań

w dziedzinie

Brak uporządkowania reguł wpływa na niską efektywność systemów z bazami wiedzy (wnioskowanie jest nieefektywne). Literatura: grupowanie bądź redukcja reguł:

XT T 2(EXtended Tabular Trees) - reguły podobne lokowane są w tych samych tablicach decyzyjnych, tworzona jest struktura hierarchiczna tablic decyzyjnych.

D3_RJ

- dane podlegają dekompozycji i reguły generowane są w podtablicach.

CHIRA- agregacja reguł podobnych pozwala skrócić reguły (generalizacja).

Brak rozwiązań, które pozwalałyby grupować tzw. reguły produkcji i dostarczać struktur grup łatwych do dalszej eksploracji.

(6)

Proponowane podejście do zarządzania regułami:

Grupowanie reguł o podobnych przesłankach (idea tzw. podziałów reguł bazy wiedzy). Powstaje struktura hierarchiczna

(dendrogram).

Dla każdej grupy tworzony jest reprezentant (tzw.profil grupy). Wnioskowanie polega na przeszukiwaniu struktury skupień od korzenia do liści i znajdowaniu grupy reguł najbardziej podobnych do podanej wiedzy (faktów) - złożonośćlog2n.

(7)

Analiza skupień - Rozważane algorytmy grupowania

k-średnich ik- medoidów (wada: nieznana optymalna liczba skupień, zbyt mała odporność na odchylenia w danych). gęstościoweDBSCAN1 _oraz_{OP T ICS.}

aglomeracyjneAHC (wada: nie ma sensu grupować, gdy podobieństwo jest już zbyt małe - zaproponowano własne modyfikacje: mAHC).

Aglomeracyjny algorytm grupowania reguł:

1 _klasyczny _AHC_,

2 mAHC z kontrolą podobieństwa, 3 _mAHC _{z kontrolą liczby grup.}

1_{Nowak-Brzezińska A., Xięski T.: Exploratory clustering and visualization.} Procedia Computer Science, Vol. 35, Elsevier Science, p.1082 - 1091, 2014

(8)

Eksploracja wiedzy niepełnej

Grupując reguły algorytmamiAHC imAHC efektywność wnioskowania zależy w dużym stopniu od pełności wiedzy wejściowej.

Proponowane rozwiązanie: zastosowanie tzw.współczynnika niepełnościwiedzy IF (ang.incompleteness factor )2

określającego w jakim stopniu podana wiedza wejściowa pokryta jest przez wiedzę zapisaną w regułach i grupach reguł.

Rezultat: reguły pewneiprawdopodobne.

2_{Nowak-Brzezińska A., Jach T. The incompleteness factor method as a} modification of a knowledge base browsing. Springer Verlag, CCIS, p.201-210, 2014

(9)

Idea podziałów reguł

Podział całego zbioru reguł na grupy (każda grupa otrzymuje pewną etykietę pozwalającą na jej szybkie wyszukanie -reprezentant).

Podziału dokonują strategie podziału reguł(ang. partition strategy).

Wyróżniać będziemy dwa typy strategii: proste i złożone. Motywacja jest dwutorowa: celem jest opracowanie efektywnych metod reprezentacji dużych i złożonych baz wiedzy oraz poprawa efektywności algorytmów wnioskowania przy użyciu koncepcji podziałów reguł i strategii tych podziałów.

(10)

kbExplorer - http://kbexplorer.ii.us.edu.pl/

SystemKBExplorer3 _{pozwala inżynierom wiedzy tworzyć bazy} wiedzy w postaci reguł oraz kontrolować spójność i kompletność takich źródeł wiedzy. Ekspertom dziedzinowym system umożliwia interpretację wiedzy zapisanej w złożonych bazach regułowych, dając im do dyspozycji narzędzia czy metody wykrywania reguł nietypowych czy sprzecznych, nad którymi w przyszłości eksperci mogliby pracować.

KBExplorerto aplikacja internetowa pozwalająca na tworzenie, edycję, przechowywanie i udostępnianie regułowych baz wiedzy. SystemKBExplorerDesktop, jest wieloplatformową aplikacją klasy desktop, pozwalającą na analizę i eksplorację baz wiedzy zbudowanych z wykorzystaniem systemuKBExplorer.

3_Projekt_KBExplorer_{był finansowany ze środków Narodowego Centrum} Nauki (NCN: 2011/03/D/ST6/03027, „Eksploracja regułowych baz wiedzy”)

(11)

(12)

(13)

Podstawowe założenia

Baza wiedzyRskłada się znreguł:r1, . . . , ri, . . . , rn. Każda reguła ri ∈ Rma formę klauzuli Horna:

ri: p1∧ p2∧ . . . ∧ pm→ c, gdzie mjest liczbą literałów4_.

Mając zbiór atrybutów A, dla każdegoa ∈ A, zbiórVa będzie określany jako zbiór wartości atrybutua.

Atrybuta ∈ A może tworzyć zarówno konkluzję jak i przesłankę reguły ri.

Dla każdej regułyri funkcjaconcl(ri)zwróci literał stanowiący konkluzję regułyri zaś funkcjacond(ri)zwróci literały tworzące część warunkową reguły ri .

Baza wiedzyKB to zbiór reguł i faktów:R ∪ F , gdzie zbiór faktów określany będzie jakoF = {f1, f2, . . . fs}.

4_{literały w formie par atrybutów i ich wartości}_{(a, v}a

(14)

Strategie podziałów

Strategia podziału P S generuje podział regułP R: P S(R)gen⇒ P R ⊆ 2R : P R = {R1, R2, . . . , Rk} k - liczba grup reguł,Rj - j -ta grupa reguł,

o przydziale reguł do grup decyduje tzw. kryterium przynależnościmc : R × P R → [0..1]:mc(ri, Rj) = 1jeśli sim(ri, Rj) T lub0w p.p.

Włączając operator _{op ∈ {>, >, <, 6, =, 6=}}podziałP R definiujemy jako:

P R = {R : R ∈ 2R∧ ∀r∈R mc(ri, Rj) op T }

gdzie wartośćmc(ri, Rj)może być większa, większa bądź równa, równa, mniejsza, mniejsza bądź równa wartości progowejT (0 ¬ T ¬ 1).

(15)

Strategie: proste i złożone

Grupy reguł o takiej samej konkluzji. Grupy jednoelementowe.

Grupy reguł o tej samej liczbie przesłanek.

Strategia wyboru pary reguł najbardziej podobnych do siebie. Grupy reguł o podobnych częściach warunkowych.

Grupy reguł o identycznych przesłankach i sprzecznych decyzjach - reguły sprzeczne.

Grupy reguł o identycznych przesłankach i konkluzjach -redundancja reguł.

Grupy reguł o minimalnej wymaganej liczbie przesłanek.

Grupy reguł o minimalnym wymaganym stopniu dopasowania do zbioru faktów.

Grupy reguł o zmiennej wadze atrybutów. Grupy reguł połączonych.

(16)

Strategie proste:

Strategia tworzenia reguł o podobnych przesłankach (w stopniu T ): każdą grupę Rjda się zapisać następująco:

Rj= {r ∈ R : ∀ri∈Rj,ri6=rsim(r, rj) T }

Strategia reguł o identycznych przesłankach: każdą grupę Rjda się zapisać następująco:

Rj= {r ∈ R : ∀ri∈Rj,ri6=rcond(r) = cond(rj)}

Strategia reguł identycznych: każdą grupę Rjda się zapisać następująco:

Rj= {r ∈ R : ∀ri∈Rj,ri6=rcond(r) = cond(rj)&concl(r) = concl(rj)} Strategia reguł konfliktowych (a więc o tych samych przesłankach lecz różnych konkluzjach): każdą grupę Rjda się zapisać następująco:

(17)

Strategia podziału bazująca na podobieństwie

Strategia podziału bazująca na podobieństwiema następujące własności:

Grupuje reguły podobne do siebie wykorzystując ideę analizy skupień.

Realizowana jest poprzez iteracyjne użycie prostej strategii podziałów5 _{aż do momentu, gdy podobieństwo jest już nie} większe niż pewien zadany próg minimalnyT (0 ¬ T ¬ 1). W efekcie powstajekgrup regułR1, R2, . . . , Rl, . . . , Rk takich, że

^

ri,rf∈Rl

sim(ri, rf) T.

Czyli każda grupaRlzawiera reguły, których podobieństwo jest nie mniejsze niż T .

(18)

Strategie złożone: algorytm AHC

Klasyczny algorytm AHC działa następująco:

1 _{Podziel wszystkie obiekty (1, . . . , n) na osobne (jednoelementowe) grupy (n}

grup).

2 _{Dopóki nie utworzysz jednej grupy:}

1 znajdź dwa obiekty najbardziej do siebie podobne i połącz je w

jedną grupę.

2 usuń/zablokuj obiekty połączone w grupę. Algorytm AHC

Cały algorytm grupowania można zapisać następująco: 1: procedure ClusteringStrategy (R); 2: begin 3: INPUT: R; 4: R ← SingletonSelection (R) 5: while |R| 2 or ∗ do 6: {Rp, Rq} = findTwoMostSimilarGroupsOfRules(R); 7: newGroup = createNewGroup({Rp, Rq}, R ); 8: excludeRules({Rp, Rq}); 9: end while 10: OUTPUT: R ; 11: end

(19)

Strategie złożone: algorytm AHC

gdzie:

1 _{procedura znalezienia dwóch grup reguł maksymalnie do siebie podobnych}

(strategia prosta tworząca selekcję bazując na podobieństwie): procedure findTwoMostSimilarGroupsOfRules( R ) begin for all i = 1 to n do for all j = 2 to n do m[i, j] ← sim(Ri, Rj) end for end for {Rp, Rq} = {Rp, Rq∈ R : max{sim(Rp, Rq)}} end

2 _{procedura utworzenia grupy z dwóch grup reguł najbardziej do siebie}

podobnych: procedure createNewGroup({Rp, Rq}, R) begin newGroup = {Rp, Rq} R ← R ∪ newGroup end

3 procedura usunięcia grup, które tworzą teraz nową grupę: procedure excludeRules({Rp, Rq}); begin for all Ri∈ {Rp, Rq} do R ← R|{Ri} end for end

(20)

Podobieństwo reguł i grup reguł

Podobieństwo regułri i rj :

sim(ri, rj) =

|cond(ri) ∩ cond(rj)| |cond(ri) ∪ cond(rj)|

Podobieństwo grup regułRj1 i Rj2:

sim(Rj1, Rj2) =

|P rof ile(Rj1) ∩ P rof ile(Rj2)| |P rof ile(Rj1) ∪ P rof ile(Rj2)| .

gdzie:P rof ile(Rj1) i P rof ile(Rj2)to reprezentanci (profile) grupRj1 orazRj2 . sim : R × R → [0..1]

(21)

Uogólniona miara podobieństwa reguł

Podobieństwo regułri i rj : sim(ri, rj) = N X s=1 ws· ss(ris, rjs) gdzie:

ss(ris, rjs)to podobieństwo przesłanek regułriirj(dlas- tego

atrybutu),

wsoznacza wagę przypisaną atrybutowiasi zazwyczajws=_d1 ,

dlas = 1, . . . , d,

f określa częstość wystąpienia przesłankidw grupie reguł (f (d) = 0gdyd /∈ KB),

p(x) =f (d)_N to prawdopodobieństwo wystąpienia przesłankidw grupie reguł (może być takżep2_{(d) =}f (d)(f (d)−1)

(22)

Wykaz wybranych miar podobieństwa reguł

SM C (Simple Matching Coefficient) - 1 dla identycznych przesłanek, 0 w p.p.

wSM C (miara Jaccarda).

IOF (Inverse occurrence frequency) - mniejsze podobieństwa dla częstych wartości.

OF (Occurrence frequency) - dla rzadszych wartości mamy większe podobieństwa.

G1 − G4: G1, G3 zwracają większe podobieństwo, gdy dana przesłanka jest nieczęsta, zaś G2, G4 - w p.p.

Gower - dobrze radzi sobie z danymi złożonymi o różnych typach atrybutów.

(23)

Wybrane miary podobieństwa

Miara s(rji, rki) = sjki

SMC ifrji= rki then sjki= 1 else 0

wSMC if rji= rki then sjki= 1_n else 0, n - liczba atrybutów IOF if rji= rki then sjki= 1 else sjki=_{1+log(f (r} 1

ji))·log(f (rki))

OF if rji= rki then sjki= 1 else sjki= 1 1+log N

f (rji)·log N f (rki)

G1 if rji= rki then sjki= 1 −P_q∈Qp2(q) else 0 {Q ⊆ A : ∀q∈Qpi(x) ¬ pi(rji)}

G2 if rji= rki then sjki= 1 −P_q∈Qp2(q) else 0 {Q ⊆ A : ∀q∈Qpi(x) pi(rji)}

G3 if rji= rki then sjki= 1 − p2(rji) else 0

G4 if rji= rki then sjki= p2(rji) else 0

Gower ifri is numerical sjki= 1 −

|rji−rki|

range(ri)

(24)

Miary łączenia skupień

SL - metoda pojedynczego wiązania (single link): odległość między skupieniamiCi iCj to minimalna odległość między dowolną parą reguł ri irj , takich żeri∈ Ci ,rj ∈ Cj , CoL - metoda pełnego wiązania (complete link) : odległość między skupieniamiCi iCj to największa odległość między dowolnymi obiektami dwóch grup.

AL - metoda średnich połączeń (average link) odległość między skupieniamiCi iCj to średnia odległość wszystkich par obiektów znajdujących się wewnątrz rozpatrywanych skupień.

CL- metoda środków ciężkości (centroid link) odległość między skupieniamiCi iCj to odległość między ich środkami. Środkiem grupy nazywa się pseudo-obiekt, którego wartości atrybutów są średnimi wartościami wszystkich obiektów znajdujących się w danej grupie.

(25)

Reprezentacja grup reguł - stan wiedzy

Literatura:

tzw. środek ciężkości bądź zbiór cech najczęściej występujących. klasyfkacja pojęciowa: grupa reprezentowana jest przez pojęcia. Zasada brzytwy Ockhama oraz MDL: szukamy rozwiązania najprostszego i najbardziej ogólnego.

Proponowane podejście:

Każda grupaRj∈ Rw podzialeP Rotrzymuje reprezentanta zwanego

profilem (P rof ile(Rj)).

podejście bazowe: reprezentant to koniunkcja przesłanek mających pokrycie w nie mniej niżk%reguł z danej grupy (default =30%), podejście oparte na idei dolnego i górnego przybliżenia z teorii zbiorów przybliżonych oraz ważonego przybiżenia reprezentanta.

(26)

Idea reprezentanta grupy

Reprezentant grupy reguł w bazie wiedzy

Reprezentacja grupy wpływa na efektywność eksploracji bazy reguł. Najczęściej reprezentantem jest zbiór wspólnych bądź najczęściej pojawiających się przesłanek reguł w grupie.

(27)

Relacja nierozróżnialności

Nierozróżnialność reguł - reguły redundantne

Regułyri irj są nierozróżnialne względemP R(riP R rf j) wtedy i tylko

wtedy, gdyriirj mają te same przesłanki względemP R:

IN D(C) = {(ri, rj) ∈ R × R : cond(ri) = cond(rj)},

Podobieństwo reguł - reguły podobne

Reguły podobne to reguły, których podobieństwo jest nie mniejsze niż zadany prógT :

IN D(C) = {(ri, rj) ∈ R × R : sim(cond(ri), cond(rj)) T }

(28)

RST w tworzeniu reprezentantów grup

Dla przesłanekps regułritworzących daną grupęRj: Dolne przybliżenie reprezentanta grupy

P rof ile(Rj) = [

{ps: ∀ri∈Rj ps∈ cond(ri)}

Górne przybliżenie reprezentanta grupy

P rof ile(Rj) = [

{ps: ∃ri∈Rj ps∈ cond(ri)}

Ważone przybliżenie reprezentanta grupy

W eightedP rof ile(Rj) = [

{ps: f requency(ps, Rj) weight}

gdzief requency(ps, Rj)oznacza częstość wystąpienia przesłankipsw regułach grupyRj

(29)

Przykłady reprezentacji podziałów reguł

Zakładając, że baza wiedzy składa się z 5 reguł:

r1: (a, 1) ∧ (b, 1) ∧ (c, 1) → (dec, A) r2: (a, 1) → (dec, B) r3: (d, 1) → (dec, A) r4: (d, 1) ∧ (e, 1) → (dec, C) r5: (a, 1) ∧ (b, 1) → (dec, B) {P R}∗= {{r3, r4}, {r1, r2, r5}}6: dla grupy R2:

P rof ile(R2) = {(a, 1)} P rof ile(R2) = {(a, 1), (b, 1), (c, 1), (d, 1)}

bądź w przypadku metody ważonej z progiem 50%:

W eightedP rof ile(R2) = {(a, 1), (b, 1)}

W podejściu bazowym (domyślnym, dla pokrycia równego 30%): ClassicP rof ile(R2) = {(a, 1), (b, 1), (c, 1)}

(30)

Wykrywanie odchyleń w regułach - reguły nietypowe

AHCOB (Agglomerative Hierarchical Clustering Outlier Based)

1 Wykrycie reguł sprzecznych,

2 _{wykrycie małych (jednoelementowych) skupień}_{(poniżej pseudokod),} 3 wykrycie reguł wpływowych.

7

Algorytm AHCOB

Rconf, Rsmall, Rinf l ← ∅

for all Rj∈ R do

begin

for all rp, rq(rp6= rq) ∈ Rjdo

Rconf ← ConflictedRulesDetector (Rj); Rsmall ← smallClusterDetector (Rj, t); Rinf l ← InfluentialRulesDetector (Rj, test);

end for end for

OUTPUT: Rconf, Rsmall, Rinf l;

7_{Nowak-Brzezińska A.:„Outlier Mining in Rule-Based Knowledge Bases”,} RSCTC, Chengdu, China,206–211, 2012.

(31)

Selekcja reguł nietypowych - algorytm AHCOB

algorytm wykrywania reguł sprzecznych:

procedure ConflictedRulesDetector (Rj);

begin Rj= {r1, r2, . . . , rd}

Out ← ∅

for all rp, rq(rp6= rq) ∈ Rj do

begin

if simC(rp, rq) = 1&simD(rp, rq) < 1 then

Out ← Out ∪ {rp, rq∈ Rj}

end if end for end.

algorytm wykrywania skupień małolicznych:

procedure smallClusterDetector (Rj, t); begin Out ← ∅ if sizeOf (Rj) < T then Out ← Out ∪ {Rj} end if end.

algorytm wykrywania reguł wpływowych:

procedure InfluentialRulesDetector ( Rj, test );

begin Out ← ∅ for all ri∈ Rjdo if !test(ri) then Out ← Out ∪ {ri∈ Rj} end if end for end.

(32)

Wnioskowanie w bazach wiedzy z podziałami reguł

Im więcej reguł w bazie wiedzy, tym więcej czasu zajmować będzie jej przeszukanie.

Eksploracja skupień reguł ma polegać na analizie reprezentantów tych skupień tak, aby w efekcie znaleźć reguły (skupienia reguł) najbardziej relewantne w stosunku do posiadanej wiedzy

wejściowej (celem badań jest realizacja wnioskowania wprzód dla skupień reguł).

wnioskowanie przebiega następująco: w każdej iteracji

przeszukiwani są reprezentaci grup i wybierana jest grupa (-y) z największym stopniem podobieństwa do obecnego zbioru faktów. Tylko ta wybrana grupa jest następnie w pełni przeszukiwana, a więc każda reguła do niego należąca jest analizowana i jeśli przesłanki którejś z reguł w tej grupie pokrywają w pełni zbiór faktów, reguła jest aktywowana, a jej konkluzja zostaje uznana za nową wiedzą i dopisana do bazy faktów.

(33)

Wnioskowanie w przód

Alg03: Klasyczny algorytm wnioskowania w przód Require: R, F , strategy;

Ensure: C,r,f;

procedure ForwardInference(R, F, strategy)

repeat C ← ∅; C :=findRules(R, F, strategy) r :=selectRule(R, F, strategy) f :=fireRule(R, F, strategy) F ← F ∪ f;

until osiągnięto cel lub nie można zastosować więcej reguł OUTPUT: F;

(34)

Conflict set i strategie doboru reguł

literatura8 _{:random, textual order, recency, specificity,} refractoriness.

praktyka:

MYCIN: rule ordering (FIFO), recency, specificity, refractoriness. CLIPS: salience (priorytet przyporządkowany regułom, najpierw uaktywniane są reguły o wyższym priorytecie), niezależnie od

salience realizowane są strategie: recency, complexity, simplicity,

random.

JESS: salience, depth (default, LIFO) i breath, FIFO. Drools: salience, recency, primacy, FIFO, LIFO,

complexity(specificity), simplicity (najkrótsze reguły najpierw), Load order i random.

R1/XCON: context limiting (reguły są dzielone na grupy rozłączne wg podobnych warunków i najpierw uaktywniane są reguły pasujące kontekstem), LEX (ang.lexicographical order), MEA (means ends analysis) (modyfikacja LEX’a).

8_{P. Jackson: Introduction to Expert Systems, 3rd Edition, Addison-Wesley,} 1999.

(35)

Strategie doboru reguł - implementacja

W eksperymentach wykorzystano strategie:

FR(first rule)- uaktywniona będzie pierwsza reguła na liście reguł możliwych do uaktywnienia (textual order),

LR (last rule)- uaktywniona będzie ostatnia reguł na liście reguł możliwych do uaktywnienia (recency),

SR (shortest rule) - uaktywnia najpierw najkrótsze reguły, LOR(longest rule) - uaktywnia w pierwszej kolejności reguły o największej liczbie przesłanek (specificity).

(36)

Porównanie strategii wyboru reguł - wyniki

Strategia liczba liczba reguł Całkowita Czas

iteracji uaktywnionych liczba reguł algorytmu [ms] analizowanych FR 5,11 ± 4,44 5,22± 4,31 15,44± 18,62 30,92± 15,84 LR 3,67 ± 3,65 3,83± 3,54 9,67± 13,90 26,99± 13,39 SR 5,22 ± 4,37 5,22± 4,21 14,67± 17,99 23,11± 11,50 LOR 5,11± 4,56 5,22± 4,31 14,94± 18,77 28,36± 12,84 brak 2,33± 2,69 5,33± 4,44 5,33± 4,44 28,64± 13,01

(37)

Wnioskowanie dla skupień reguł

Alg04: Modyfikacja algorytmu wnioskowania w przód Require: R, F; Ensure: F; procedure forwardInference( R, F) varR; begin createFactsMatchingSelection (R, F , R); while R 6= ∅do applyRules(R, F); excludeRules( R, R); createFactsMatchingSelection (R, F , R); end while end procedure

(38)

Wnioskowanie w strukturze grup - Przykład

Zbiór faktów:F = {(a, 1), (b, 1)}

Krok Operacja P rof ile(Rj) P rof ile(Rj)

R1= {(d, 1), (e, 1)} R1= {(d, 1)} R2= {(a, 1), (b, 1), (c, 1), (d, 1)} R2= {(a, 1)}

1 szukanie sim(F, R1) = 0 sim(F, R1) = 0

grup/reguł sim(F, R2) = 1₂ sim(F, R2) = 1

wybór grupy R2= {r1, r2, r5} R2= {r1, r2, r5} wybór reguły sim(F, r1) = 2₃, sim(F, r1) = 2₃,

sim(F, r2) = 1, sim(F, r2) = 1,

sim(F, r5) = 1₂ sim(F, r5) = 1₂

nowy fakt (d, 1) (d, 1)

2 szukanie sim(F, R1) = 1₂ , sim(F, R1) = 1 ,

grup/reguł sim(F, R2) = 3₄ sim(F, R2) = 1

wybór grupy R2= {r1, r2, r5} R1= {r3, r4} wybór reguły sim(F, r1) = 2₃, sim(F, r3) = 1,

sim(F, r5) = 1 sim(F, r4) = 1

2

(39)

Wizualizacja grup reguł - mapy prostokątów (ang.

treemaps)

Klasyczna mapa prostokątów dzieli obszar roboczy rekurencyjnie na prostokąty (im więcej obiektów w grupie, tym większy prostokąt). Dwa algorytmy:slice-and-diceisquarified9.

Kolista mapa prostokątów (ang. Circular Treemap)10.

Algorytmy zostały zaimplementowane w systemieCluV is/ kbExplorer.

9 _{Slice-and-dice dzieli obszar roboczy w zależności od tego, czy jest szerszy czy dłuższy, na} podłużne prostokąty – odpowiednio pionowe lub poziome. Wada: tendencja do tworzenia cienkich prostokątów - zła czytelność wizualizacji.

10_{Obiektami wizualizacji są koła. Wada: nieefektywne wykorzystanie dostępnego obszaru} roboczego. Duży wpływ na ilość wolnego miejsca na ekranie ma liczba oraz wielkość wizualizowanych skupień.

(40)

(41)

(42)

Eksperymenty

Baza Wiedzy Liczba atrybutów liczba reguł liczba węzłów

arythmia 280 154 295,5 audiology 70 42 77,1 autos 26 60 112,1 balance 5 287 555 breast cancer 10 125 239 diab 9 483 937,3 diabetes 9 490 950,5 heart 14 99 188,5 weather symb. 5 5 7,1 vote 17 26 46,1 Prim.tumor 18 170 326,5 Post oper. 9 46 85 nursery 9 867 1704 lenses 5 5 8 średnia 31,8 316,6 616,8

(43)

Oznaczenia badanych parametrów

A - liczba atrybutów. N- liczba reguł.

C- liczba skupień reguł.

U- liczba reguł, których nie udało się połączyć z innymi (tzw. outlierów).

BRS- Biggest representative size - liczba deskryptorów w najdłuższym reprezentancie.

ARS- średnia liczba deskryptorów opisujących grupy reguł. wARS- ważona średnia liczba deskryptorów opisujących grupy reguł (dzielona przez liczbę atrybutów).

BRL- Biggest representative length - liczba deskryptorów w największym skupieniu.

BCS - Biggest cluster size - rozmiar największej grupy (liczba reguł w największym skupieniu).

(44)

I etap eksperymentów - badania ogólne

przebadano14baz z UCI ML Repository, wykonano1144 pomiary.

parametry grupowania:algorytm AHC. parametry podlegające zmianie:

liczba skupień (liczba skupień wynosiła arbitralnie10bądź ≈ 10%sizeOf (N )).

4 metody łączenia skupień:SL, CoL, AL, CL.

9 miar podobieństwa reguł/skupień:IOF, OF, G1, G2, G3, G4, Gower, SMCorazwSMC.

(45)

I etap eksperymentów - wyniki

Metoda C BCS BRL U BRS wARS p Ns P < 0, 05 Ns P < 0, 05 Ns P < 0, 05 SL 16, 7 ± 15, 4 300, 4 ± 311, 1 21, 2 ± 36, 3 13, 3 ± 13, 9 21, 4±37, 3 2, 2 ± 0, 8 1, 0 − 57, 0 1, 0 − 865, 0 3, 0 − 148, 0 0, 0 − 56, 0 2, 0−159, 0 1, 2 − 4, 6 CL 15, 4 ± 15, 2 166, 8 ± 256, 7 19, 6 ± 35, 1 5, 9 ± 10, 8 20, 1±35, 9 1, 7 ± 0, 4 1, 0 − 57, 0 1, 0 − 865, 0 3, 0 − 150, 0 0, 0 − 55, 0 2, 0−159, 0 1, 1 − 2, 8 AL 16, 8 ± 15, 4 207, 4 ± 239, 2 21, 2 ± 36, 3 4, 6 ± 5, 2 21, 7±37, 2 1, 8 ± 0, 6 1, 0 − 57, 0 1, 0 − 865, 0 3, 0 − 154, 0 0, 0 − 39, 0 2, 0−165, 0 1, 1 − 3, 5 CoL 16, 8 ± 15, 4 157, 5 ± 179, 9 21, 2 ± 36, 4 6, 7 ± 8, 6 21, 7±37, 6 1, 9 ± 0, 8 1, 0 − 57, 0 1, 0 − 855, 0 3, 0 − 154, 0 0, 0 − 40, 0 2, 0−165, 0 1, 1 − 3, 9 średnia 16, 4 ± 15, 3 207, 0 ± 257, 2 20, 8 ± 36, 0 7, 6 ± 10, 7 21, 2±37, 0 1, 91 ± 0, 7 1, 0 − 57, 0 1, 0 − 865, 0 3, 0 − 154, 0 0, 0 − 56, 0 2, 0−165, 0 1, 1 − 4, 6

(46)

I etap eksperymentów - wyniki

Miara C BCS BRL U BRS wARS p Ns Ns P < 0, 05 Ns P < 0, 05 P < 0, 05 G1 16, 4 ± 15, 3 179, 9±227, 0 20, 7 ± 36, 1 7, 6 ± 10, 5 21, 0 ± 37, 0 16, 7 ± 32, 0 1, 0 − 57, 0 1, 0 − 865, 0 3, 0 − 150, 0 0, 0 − 55, 0 2, 0 − 159, 0 2, 2 − 146, 7 G2 16, 4 ± 15, 4 209, 3±254, 8 20, 8 ± 36, 1 8, 0 ± 11, 1 21, 1 ± 36, 7 16, 6 ± 31, 9 1, 0 − 57, 0 1, 0 − 865, 0 3, 0 − 149, 0 0, 0 − 55, 0 2, 0 − 156, 0 2, 2 − 147, 2 G3 16, 4 ± 15, 4 214, 4±274, 8 20, 7 ± 36, 0 8, 2 ± 11, 9 21, 3 ± 36, 9 17, 2 ± 32, 1 1, 0 − 57, 0 1, 0 − 865, 0 3, 0 − 148, 0 0, 0 − 56, 0 2, 0 − 156, 0 2, 2 − 146, 4 G4 16, 4 ± 15, 4 235, 9±280, 4 20, 8 ± 36, 1 8, 3 ± 10, 5 21, 3 ± 37, 4 16, 8 ± 32, 0 1, 0 − 57, 0 1, 0 − 865, 0 3, 0 − 150, 0 0, 0 − 42, 0 2, 0 − 159, 0 2, 2 − 145, 3 Gower 16, 5 ± 15, 3 214, 0±263, 7 20, 9 ± 36, 4 8, 0 ± 10, 8 21, 2 ± 37, 2 17, 4 ± 33, 4 1, 0 − 57, 0 1, 0 − 865, 0 3, 0 − 154, 0 0, 0 − 50, 0 2, 0 − 159, 0 2, 2 − 146, 5 IOF 16, 4 ± 15, 4 199, 5±249, 8 20, 7 ± 36, 0 7, 8 ± 11, 0 21, 2 ± 36, 8 16, 9 ± 32, 4 1, 0 − 57, 0 1, 0 − 865, 0 3, 0 − 147, 0 0, 0 − 55, 0 2, 0 − 156, 0 2, 2 − 144, 9 OF 16, 4 ± 15, 4 221, 6±281, 9 20, 7 ± 35, 9 8, 5 ± 11, 8 21, 1 ± 36, 8 16, 4 ± 31, 6 1, 0 − 57, 0 1, 0 − 865, 0 3, 0 − 147, 0 0, 0 − 55, 0 2, 0 − 155, 0 2, 2 − 147, 4 SMC 16, 4 ± 15, 4 212, 0±263, 6 20, 8 ± 36, 1 6, 8 ± 9, 8 21, 2 ± 37, 3 17, 2 ± 32, 4 1, 0 − 57, 0 1, 0 − 865, 0 3, 0 − 151, 0 0, 0 − 50, 0 2, 0 − 165, 0 2, 2 − 148, 9 w SMC 18, 1 ± 16, 5 204, 8±226, 0 8, 2 ± 4, 0 5, 7 ± 9, 0 8, 2 ± 4, 0 6, 5 ± 3, 1 1, 0 − 57, 0 1, 0 − 865, 0 3, 0 − 17, 0 0, 0 − 49, 0 2, 0 − 17, 0 2, 2 − 15, 9 średnia 16, 4 ± 15, 3 207, 0±257, 2 20, 8 ± 36, 0 7, 6 ± 10, 7 21, 2 ± 37, 0 17, 0 ± 32, 2 1, 0 − 57, 0 1, 0 − 865, 0 3, 0 − 154, 0 0, 0 − 56, 0 2, 0 − 165, 0 2, 2 − 148, 9

(47)

II etap eksperymentów - badania szczegółowe

przebadano4 (diabetes, heart disease, nursery i weather symbolic) z 14 baz z UCI ML Repository, wykonano8640 pomiarów.

parametry grupowania: algorytm AHC dla zmieniającego się k =√N ± i%N dlak 2.

4 metody łączenia skupień: SL, CoL, AL, CL.

9 miar podobieństwa reguł/skupień:IOF, OF, G1, G2, G3, G4,

Gower, SMCorazwSMC.

6 metod tworzenia reprezentanta: bazowe11_{, dolne}12 _{lub górne}13 przybliżenie reprezentanta, ważone przybliżenie reprezentanta z 3 progami (25% ,50%oraz 75%).

11_{zbiór przesłanek, które wystąpiły w co najmniej 30% reguł z danej grupy.} 12_{zbiór przesłanek, które wystąpiły w każdej regule z danej grupy.}

(48)

Ustalenie liczby skupień

Liczba skupień (k):

Założenie:k =√N ± i%Ndlak 2. Dla bazy nursery, N = 867:

i = 1, k =√867 ± i · 867 ≈ 30 ± 1 · 9 = 30 ± 9, czyli k = 21 oraz k = 39 i = 2, k =√867 ± i · 867 ≈ 30 ± 2 · 9 = 30 ± 18, czyli k = 12 oraz k = 48 i = 3, k =√867 ± i · 867 ≈ 30 ± 3 · 9 = 30 ± 27, czyli k = 3 oraz k = 57 BW N liczba skupień (k) diabetes 490 k = 13, 18, 23, 28, 3, 33, 43, 8 heart disease 99 k = 1, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 2, 3, 4, 5, 6, 7, 8, 9 nursery 867 k = 39, 21, 12, 48, 3, 57 weather symbolic 5 k = 1, 2, 3, 4, 5

(49)

Metoda tworzenia reprezentanta grupy a zawartość

reprezentanta

reprezentant zdarza się pusty niepusty razem lowerApprox 1353(93, 96%) 87(6, 04%) 1440(16, 67%) upperApprox 1008(70%) 432(30%) 1440(16, 67%) Classic 0(0%) 1440(100%) 1440(16, 67%) Weighted25p 0(0%) 1440(100%) 1440(16, 67%) Weighted50p 0(0%) 1440(100%) 1440(16, 67%) Weighted75p 1048(72, 78%) 392(27, 22%) 1440(16, 67%) średnia 3409(39, 46%) 5231(60, 54%) 8640

(50)

Wpływ metod reprezentacji skupień na strukturę grup

Metoda BCS BRL U BRS wARS p P < 0, 05 P < 0, 05 P < 0, 05 P < 0, 05 P < 0, 05 lowerApprox 138, 32 ± 196, 3 1, 05 ± 0, 26 1, 89 ± 3, 18 2, 91 ± 2, 10 1, 49 ± 0, 73 upperApprox 153, 23 ± 205, 95 59, 07 ± 67, 40 4, 28 ± 7, 55 59, 37±67, 29 20, 59±20, 10 Classic 145, 95 ± 200, 52 7, 26 ± 2, 23 3, 83 ± 7, 03 7, 69 ± 2, 24 6, 14 ± 2, 33 Weighted25p 153, 0 ± 217, 66 9, 65 ± 4, 52 4, 0 ± 7, 37 12, 39 ± 4, 58 7, 96 ± 3, 95 Weighted50p 129, 56 ± 185, 27 3, 23 ± 2, 11 2, 55 ± 4, 28 6, 43 ± 3, 69 3, 57 ± 2, 03 Weighted75p 136, 12 ± 193, 72 1, 68 ± 0, 86 1, 84 ± 3, 21 3, 39 ± 1, 98 1, 87 ± 0, 97 średnia 142, 70 ± 200, 29 13, 66 ± 34, 40 3, 06 ± 5, 85 15, 36±34, 05 6, 94 ± 10, 69

(51)

Wpływ metody tworzenia reprezentanta na liczbę

odchyleń w regułach

(52)

III etap eksperymentów - badania szczegółowe

dodatkowe

Rozmiar bazy wiedzy a częstość wystąpienia pustego reprezentanta:

N zdarza się pusty niepusty Razem

> 250 1476(42, 71%) 1980(57, 29%) 3456(40%) co najwyzej 250 1933(37, 29%) 3251(62, 71%) 5184(60%) Razem 3409(39, 46%) 5231(60, 54%) 8640(100%) Rozmiar bazy wiedzy a moment wystąpienia pustego

reprezentanta:

N EmptyR

> 250 25, 48 ± 59, 52 co najwyzej 250 10, 62 ± 21, 80 Ogół 16, 57 ± 41, 91

Charakterystyka małych i dużych baz wiedzy:

N C BCS BRL U ARS

> 250 26, 1±15, 7 301, 3±238, 4 18, 5 ± 50, 9 4, 4 ± 8, 2 6, 6±13, 6

¬ 250 8, 5 ± 5, 7 36, 99 ± 32, 4 10, 4 ± 14, 8 2, 2 ± 3, 1 7, 16±8, 2 średnia 15, 6±13, 9 142, 7±200, 3 13, 7 ± 34, 4 3, 1 ± 5, 9 6, 9±10, 7 p p < 0, 05 p < 0, 05 p < 0, 05 p < 0, 05 p < 0, 05

(53)

Po jakim czasie otrzymujemy pustego reprezentanta ?

Moment otrzymania pustego reprezentanta - metoda reprezentanta

metoda EmptyR lowerApprox 52, 59 ± 56, 83 upperApprox 6, 0 ± 4, 58 Classic nigdy Weighted25p nigdy Weighted50p nigdy Weighted75p 44, 12 ± 64, 98 średnia 16, 57 ± 41, 91

(54)

IV etap eksperymentów - badania szczegółowe

dodatkowe

Analiza kompletności wyszukiwania reguł do uaktywnienia

P rof ileupperApprox P rof ilelowerApprox P rof ileweighted

KB classic AHC mAHC AHC mAHC AHC mAHC

1 100% 100% 100% 100% 100% 100% 100% 2 100% 100% 100% 100% 100% 100% 100% 3 100% 100% 75% 100% 75% 100% 100% 4 100% 100% 100% 100% 75% 100% 100% 5 100% 100% 100% 100% 75% 100% 100% 6 100% 100% 100% 100% 100% 100% 100% 7 100% 100% 100% 100% 100% 100% 100% 8 100% 100% 100% 100% 100% 100% 100% 9 100% 100% 100% 100% 100% 100% 100% 10 100% 100% 100% 100% 100% 100% 100% 11 100% 100% 100% 100% 100% 100% 100% 12 100% 100% 100% 60% 80% 84% 92% 13 100% 100% 100% 100% 100% 100% 100% 14 100% 100% 100% 100% 100% 100% 100% 15 100% 100% 100% 100% 100% 100% 100% 16 100% 100% 100% 100% 100% 100% 100% 17 100% 100% 100% 100% 100% 100% 100% Average 100% 100% 98, 5% 97, 6% 94, 4% 99, 1% 99, 5%

(55)

Analiza kompletności wyszukiwania reguł do

uaktywnienia

(56)

Wnioski

Koncepcjapodziałów reguł(ang. rules partition) wraz z metodami reprezentacji grup pozwala sterować efektywnością wnioskowania poprzez przyspieszenie czasu analizy bazy wiedzy, ograniczenie liczby reguł

przeglądanych w trakcie wnioskowania oraz zapewnienie kompletności równej bądź porównywalnej do podejścia klasycznego.

Opracowane algorytmy grupowaniaAHCorazmAHC pozwalają utworzyć optymalne podziały reguł.

Reprezentacja grup reguł z wykorzystaniem aproksymacji bądź ważenia przesłanek reguł pozwala wydobyć informację o własnościach utworzonych grup reguł oraz uniknąć pustych reprezentantów.

Utworzone narzędziakbExplorerorazCluV ispozwolą inżynierom wiedzy i ekspertom dziedzinowym lepiej zarządzać bazą wiedzy i w miarę potrzeb uzupełniać wiedzę o nowe reguły.

Zarówno miary podobieństwa jak i miary łączenia skupień mają istotny wpływ na strukturę reprezentanta skupień jak i liczbę tzw. reguł niezgrupowanych (tzw. outlierów).

W najbliższej przyszłości przeprowadzona zostanie analiza metod oceny jakości skupień.

(57)