• Nie Znaleziono Wyników

Reprezentacja niepewności w wiedzy w systemach ekspertowych

N/A
N/A
Protected

Academic year: 2021

Share "Reprezentacja niepewności w wiedzy w systemach ekspertowych"

Copied!
21
0
0

Pełen tekst

(1)Reprezentacja niepewności w wiedzy w systemach ekspertowych Agnieszka Nowak 7 czerwca 2008. 1 Niepewność w wiedzy - reprezentacja wiedzy niepewnej w bazach wiedzy Niepewność może występować zarówno w faktach jak i w regułach. Do rozwiązania problemu niepewności w bazach wiedzy wykorzystuje się: • prawdopodobieństwo zajścia jakiegoś zdarzenia (faktu). Wykorzystuje się w tym celu twierdzenie Bayes’a, określające prawdopodobieństwo warunkowe. Jest to oczywiście prawdopodobieństwo zajścia zdarzenia A pod warunkiem zdarzenia B - co odpowiada prostej regule ”Jeżeli B to A”, którego ogólna postać wygląda następująco: P(A/B) =. P(B/A) ∗ P(A) P(B). i oznacza, że stwierdzenia A może być uznane jako prawdziwe wtedy, kiedy stwierdzenie B jest uznane jako prawdziwe. Znajomość prawdopodobieństwa warunkowego pozwala na realizację procesów wnioskowania, które polegają na rozpatrywaniu prawdopodobieństwa stwierdzeń traktowanych jako pewne hipotezy. Aby np. określić prawdopodobieństwo faktu, że dany student ma przyznane stypendium, przy założeniu, że nie posiadamy żadnej wiedzy na ten temat, zgodnie z teorią prawdopodobieństwa musimy określić zdarzenia elementarne dotyczące badanej dziedziny. Zatem jeśli założymy, że istnieją tylko dwa elementarne zdarzenia D = {α, β}, gdzie odpowiednio: α - to zdarzenie polegające na tym, że dany student ma przyznane stypendium, β - to zdarzenie polegające na tym, że dany student nie ma przyznanego stypendium, to wykorzystując rachunek prawdopodobieństwa możemy stwierdzić, że prawdopodobieństwo zajścia zdarzenia α jest równe prawdopodobieństwu zajścia zdarzenia β i wynosi P(α) = P(β) = 12 . Dostosowując się do wzoru Bayes’a, w przypadku, gdy mamy dwa fakty: A - jeżdżę na rowerze, oraz B - jest ładna pogoda, gdzie P(A) = 0, 2 i P(B) = 0, 4 oraz równocześnie w bazie wiedzy istnieją reguły : 1.

(2) R1 : Jeżeli jest ładna pogoda to jeżdżę na rowerze - co po prostu oznacza P(A/B) R2 : Jeżeli jeżdżę na rowerze to jest ładna pogoda - co odpowiednio oznacza P(B/A), to znając prawdopodobieństwo zajścia zdarzenia B pod warunkiem A, tzn., gdy wiemy, że P(B/A) = 0, 8, możemy także określić prawdopodobieństwo zajścia zdarzenia A pod warunkiem B. Korzystając z wzoru Bayes’a otrzymujemy wartość P(A/B) = [(0, 8 ∗ 0, 4)/0, 2] = 0, 4. Wzór ten pozwala nam ustalić pewną hipotezę pod warunkiem, że znamy hipotezę przeciwną. • zbiory przybliżone, gdzie wiedza pewna jest określona przez dolne lub górne przybliżenie zbioru, a to, co znajduje się na brzegu reprezentuje wiedzę niepewną (brzeg to różnica między górnym a dolnym przybliżeniem zbioru), • zbiory rozmyte, wchodzące w kolizję z klasyczną logiką, która oparta jest na prawie wyłączonego środka ”tertium non datur”, oznaczającego, że zdanie może być albo prawdziwe, albo fałszywe, że dany przedmiot może należeć do zbioru lub nie. W przypadku zbiorów rozmytych owo trzecie wyjście istnieje: przedmiot może bowiem należeć do zbioru w pewnym tylko stopniu (a tym samym jednocześnie w określonym stopniu do niego nie należeć). Dlatego, w teorii zbiorów rozmytych niezwykle istotne są właściwości charakteryzujące obiekty, gdyż to one decydują o przynależności tych obiektów różnych zbiorów obiektów. Właściwość (cecha) dobrze określona wyznacza dla danego zbioru jednoznaczne granice oddzielające elementy należące od nie należących do niego. Jeśli bowiem przyjmujemy, że U to przestrzeń rozważanych obiektów, zbiór taki będziemy mogli określać przez funkcję f wyznaczającą przynależność obiektów do zbioru fw : U → {0, 1}, gdzie w oznacza zbiór obiektów. Jeśli teraz oznaczymy przez X zbiór odpowiadający pewnej właściwości, to funkcja przynależności określona jest następująco: ( 1 dla u ∈ X fx (u) = 0 dla u < X Niestety, istnieją takie właściwości, dla których trudno jest określić granicę rozdzielającą elementy spełniające tę właściwość od elementów jej nie spełniających. W tym celu wykorzystuje się właśnie funkcję przynależności, która przekształca przestrzeń U w odcinek [0, 1]. Po prostu, zdanie postaci: ”Prawdopodobieństwo chłodu w dniu 1 stycznia 2000 wynosi 60 %” znaczy co innego niż stwierdzenie ”Tego dnia jest chłodno w 60 %”. Stosując logikę rozmytą możemy tym zdaniem wyrazić stopień naszego przekonania o istniejących, rzeczywistych warunkach atmosferycznych, że jest raczej zimno niż ciepło. Wnioskowanie rozmyte przebiegać powinno zgodnie z algorytmem: – wyznaczenie wartości funkcji f dla poszczególnych pojęć rozmytych występujących w warunkach reguł, 2.

(3) – wyznaczenie obszarów rozmytych na podstawie wartości obliczonych w punkcie pierwszym, – zestawienie obszarów rozmytych, – wyznaczenie wynikowego obszaru rozmytego, – dokonanie defuzyfikacji wynikowego obszaru rozmytego, czyli zamiany tego zbioru na pewną wartość liczbową. • współczynnik CF, Współczynnikiem pewności CF (ang. Certainy Factor) obarczone mogą być zarówno fakty jak i reguły. Zapis: < student, srednia ocen, wysoka, CF = 0.5 > określa, że nie wiemy na pewno, że tak jest w rzeczywistości, wiemy natomiast, że stopień pewności wynosi 0, 5. Występowanie CF zarówno w przesłance jak i w konkluzji wpływa na całą regułę, na jej pewność, gdyż ostateczny CF jest iloczynem CF w przesłance i w konkluzji. Zatem zapis stwierdzeń niepewnych (hipotez, przypuszczeń), uzupełniający każdą trójkę < O, A, V > o stopień pewności CF (ang.: Certainty Factor), powoduje, że ostatecznie ta metoda reprezentacji wiedzy ma postać czwórki: < O, A, V, CF >. W takim przypadku zapis postaci < student, przyznane stypendium, tak, 0.8 > oznaczać ma po prostu fakt, że dany student ma przyznane stypendium ze stopniem pewności CF = 0.8. Wielkość ta ma określać stopień naszego przekonania o prawdziwości konkluzji danej reguły w przypadku prawdziwości jej przesłanki. Taki sposób przetwarzania wiedzy niepewnej w obrębie regułowej reprezentacji wiedzy stanowi dość istotny problem i jako taki nie jest raczej stosowany. Powodem tego jest fakt, iż współczynnik pewności jest oszacowaniem ilościowym o zbyt małym stopniu ekspresji. • teoria Dempstera-Sheffera, W teorii Dempstera - Sheffera wprowadza się tzw. funkcję wiarygodności oraz współczynnik pozornej słuszności. Wprowadzone tu zostało pojecie przestrzeni U, a stwierdzenia są rozpatrywane jako pewne podzbiory w tej przestrzeni. Przestrzeń U rozpatrywana jest jako zbiór wszystkich możliwych wartości zmiennej x. Wówczas każdemu stwierdzeniu typu: Prawdopodobna wartość zmiennej x zawarta jest w zbiorze A, gdzie A ⊂ U (A jest podzbiorem U), może być przyporządkowany pewien współczynnik wiarygodności zwany stopniem wiarygodności. Wówczas, funkcję wiarygodności otrzymujemy jako sumę wszystkich wiarygodności liczb m(B) po wszystkich podzbiorach, gdzie liczba m(B) to elementarna liczba prawdopodobieństwa będąca miarą stwierdzenia, że prawdziwa wartość x jest podzbiorem P A. Bel(A) = B∈A m(B) Inaczej mówiąc, w sytuacji, gdy  jest zbiorem wszystkich podzbiorów zbioru U, to funkcja wiarygodności jest definiowana w najogólniejszy sposób jako: Bel :  → [0, 1] i spełnia założenia: Bel(∅) = 0 oraz Bel(U) = 1. Generalnie wiarygodność jest liczbą ze zbioru [0, 1]. 3.

(4) Funkcja wiarygodności służy do określenia stopnia wiarygodności: Dou(A) = Bel(¬A). Z kolei dopełnienie stopnia wątpliwości do 1 to inaczej stopień pozornej słuszności, co zapisujemy jako: Pl(A) = 1 − Dou(A) = 1 − Bel(¬A). Zatem, w sytuacji, gdy przy pełnej niewiedzy mamy za zadanie określić na ile prawdopodobne jest zajście zdarzenia polegającego na tym, że dany student ma lub nie ma przyznanego stypendium, gdzie odpowiednio α i β to zdarzenia elementarne, w sytuacji gdy konkluzją jest β, współczynniki Dempstera - Sheffera będą wynosiły: – Bel(α) = Bel(β) = 0, ponieważ obydwa zdarzenia są równie niewiarygodne, – P(α) = P(β) = 1/2, gdyż prawdopodobieństwo zajścia któregokolwiek z nich jest takie samo przy pełnej niewiedzy, – Pl(α) = Pl(β) = 1, ponieważ pozornie słuszne są obydwa fakty, – Dou(α) = Dou(β) = 0, ponieważ obydwa zdarzenia są równie wątpliwe. W tym konkretnym przypadku, wiarygodność faktów jest zawsze taka sama, niezależnie od wprowadzonych zdarzeń elementarnych.. 2 Przetwarzanie wiedzy niepewnej - wybrane metody Przedstawione do tej pory metody reprezentacji wiedzy zakładały pewność i zupełność informacji przechowywanych w bazach wiedzy. Niestety w warunkach rzeczywistych często trudno jest arbitralnie stwierdzić, że dana konkluzja jest pewna w stu procentach czy też określić, że dany fakt na pewno miał miejsce. Prowadzi to do konieczności uwzględnienia w metodach reprezentacji wiedzy pewnego sposobu określania stopnia pewności informacji. Osobnym zagadnieniem jest problematyka przetwarzania wiedzy niepełnej co nie jest jednak tematem tego opracowania. Rozważmy następujący przykład ilustrujący warunki stosowalności wiedzy niepewnej. Załóżmy, że zadaniem inżyniera wiedzy jest dobór właściwej reprezentacji wiedzy dla następującego fragmentu wiedzy medycznej, która będzie zapisana w bazie wiedzy przyszłego systemu ekspertowego wspomagającego diagnozę w przypadku chorób serca: ”Miażdżyca powoduje często zwężenie tętnic wieńcowych. Prowadzi to zazwyczaj do zmniejszenia przepływu krwi w tych naczyniach, co może wywołać niedotlenienie mięśnia sercowego, zwłaszcza przy wysiłku fizycznym”.. 4.

(5) Zwraca uwagę nieostrość stwierdzeń spowodowana stosowaniem przysłówków często, zazwyczaj, czy określeniem może powodować. Wykorzystując reprezentacje wiedzy w postaci rachunku perceptów czy predykatów (czy np. reguł w postaci klauzul Horna bez współczynnika CF) inżynier wiedzy zmuszony byłby do przekształcenia powyższego zdania do ścisłej formy umożliwiającej zastosowanie klarownych implikacji: ”Miażdżyca powoduje zwężenie tętnic wieńcowych. Prowadzi to do zmniejszenia przepływu krwi w tych naczyniach, co wywołuje niedotlenienie mięśnia sercowego, zwłaszcza przy wysiłku fizycznym”. Niestety prowadzi to do znacznej radykalizacji prezentowanych stwierdzeń oraz potencjalnych problemów z odwzorowaniem ostatniej części zdania. Najważniejszą wadą jest uniemożliwienie przywiązania różnych wag do poszczególnych symptomów. Lekarz bowiem jest zainteresowany informacjami o dużo subtelniejszej naturze niż stwierdzenie, że pacjent z miażdżycą ma niedotleniony mięsień sercowy (co wydaje się oczywiste lecz nie zawsze prawdziwe). Kardiolog może oczekiwać od przyszłego systemu ekspertowego, że będzie ”umiał” on odpowiedzieć np. na pytania: • jaki ma wpływ wysiłek fizyczny na niedotlenienie mięśnia sercowego u ludzi z jednakowo posuniętą miażdżycą, wykonujących wysiłek fizyczny o różnym natężeniu? • w jakim stopniu człowiek u którego nie występuje niedotlenienie z powodu wysiłku, narażony jest na zwężenie tętnic z powodu miażdżycy? Zauważmy, że kardiologa nie interesuje wyłącznie występowanie pewnej cechy (atrybutu) a głównie pewna miara np. częstości czy stopnia występowania danej cechy. Powoduje to, że nie możemy ograniczyć się do cech mających charakter dwuwartościowy (np. cecha występuje lub cecha nie występuje) lecz dokonać w pewien sposób dyskretyzacji wartości danej cechy lub określić inny sposób stopniowania natężenia w jakiej ona występuje . Istnieją różne podejścia umożliwiające odwzorowanie przykładowego fragmentu wiedzy medycznej w swej pierwotnej postaci oraz umożliwiające realizację procesu wnioskowania również w przypadku postawionych poprzednio pytań. Podejścia te opierają się zwykle na metodach numerycznych. Do najważniejszych należą tutaj metody probabilistyczne, wielowartościowe, rozmyte czy wykorzystujące teorię Dempstera-Shafera. Pierwszym etapem automatyzacji przetwarzania informacji niepewnej jest ustalenie konkretnej metody przydzielania i stopniowania niepewności informacji wchodzących w skład bazy wiedzy. W potoczym określaniu niepewności używa się pewnych arbitralnie przyjętych określeń, takich jak : prawdopodobny, możliwy, konieczny, wiarygodny, częsty, zwykle spotykany itp.Określenia te w każdej ze wspomnianych metod nabierają konkretnego wymiaru, zwykle o przekonywującej interpretacji matematycznej. Drugim etapem jest określenie metody wnioskowania uwzględniającej zagadnienie propagacji niepewności informacji. Załóżmy, że do określenia stopnia pewności faktów jak i hipotez użyjemy oszacowania procentowego. Jeżeli u danego 5.

(6) pacjenta lekarz stwierdzi miażdżycę pewną na 30% oraz wpływ miażdżycy na potencjalne niedotlenienie określi wartością 40%, to hipoteza, że pacjent ten ma niedotlenienie mięśnia sercowego, posiada pewien wynikowy stopień pewności będący wynikiem nie tylko stopnia pewności implikacji lecz również stopnia pewności obserwacji, że pacjent cierpi na miażdżycę. Mówi się zatem o propagacji niepewności informacji, a zagadnienia sposobu składowania i kumulowania niepewności w trakcie wnioskowania są przedmiotem sygnalizowanych metod modelowania wiedzy niepewnej.. 2.1 Podejście probabilistyczne - teoria Bayesa Zastosowanie teorii prawdopodobieństwa do reprezentacji wiedzy niepewnej wydaje się stosunkowo oczywiste. Już wspominane wcześniej określenia w postaci prawdopodobnie, najczęściej itp. skłaniają do wykorzystania rachunku prawdopodobieństawa. Niezależnie od przyjętej definicji prawdopodobieństwa (tzw. częstotliwościowa, aksjomatyczna), liczba reprezentująca prawdopodobieństwo odzwierciedla jedynie wiedzę obserwatora o świecie, nie oddaje więc prawdopodobieństwa obiektywnego. 2.1.1 Reprezentacja wiedzy Punktem wyjścia dla różnych metod probabilistycznych jest twierdzenie Bayesa. Załóżmy, że mamy zbiór wzajemnie wyłączających się hipotez: H = {h1 , . . . , hn }, dla których jest spełnione P(hi ) > 0, i = 1, 2, . . . , n. Mamy również do dyspozycji zbiór obserwacji E = {e1 , . . . , em }. Każdy fragment obserwacji ei jest niezależny warunkowo względem każdej hipotezy. Rozważmy przykład w którym n = m = 1. Mamy zatem jedną obserwację e oraz jedną hipotezę h. Załóżmy, że interesuje nas związek przyczynowo skutkowy pomiędzy obserwacją e a hipotezą h reprezentowany przez regułę: Jeżeli e To h co może być przedstawione graficznie (rysunek 1): 89:; ?>=< e. ?>=< / 89:; h. Obserwacja e oraz hipoteza h są reprezentowane przez wierzchołki grafu, natomiast natomiast wnioskowanie przez krawędź. Rozpatrywana reguła może być 6.

(7) rozpatrywana w modelu Bayesa następująco: P(h|e) =. P(e|h)P(h) P(e). Powyższy wzór jest szczególnym przypadkiem wzoru Bayesa, który w jednej ze swych postaci może być podany następująco: Qm P(hi )P(e1 , . . . , em |hi ) j=1 P(e j |hi ) P(hi ) = Pn Qm P(hi |e1 , . . . , em ) = Pn j=1 P(e j |hk )P(hk ) k=1 P(e1 , . . . , em |hk )P(hk ) k=1 co uzyskujemy wykorzystując założoną uprzednio warunkową niezależność każdej obserwacji ei względem każdej hipotezy, co można opisać wzorem: P(e1 , . . . , em |hi ) =. m Y. P(e j |hi ), dlai = 1, . . . , n. j=1. Powyższe wzory zostały podane w celach informacyjnych, ich rodowód oraz interpretacja nie są tematem ćwiczeń. W warunkach rzeczywistych nigdy nie występuje jedna reguła, zatem również zamiast prostego grafu z jedną krawędzią i dwoma wierzchołkami otrzymamy sieć. Taka sieć nazywana siecią wnioskowań może mieć następującą postać: ?>=< 89:; a 1 RRR 11 RRRR RRR 11 RRR 11 RRR RRR  ?>=< 89:; ?>=< ?>=< / 89:; / ( 89:; E b d< << << << <   89:; ?>=< ?>=< 89:; ?>=< / 89:; c F G. gdzie: a, b, c, d to obserwacje, zaś E, F, G to hipotezy. Sieć wnioskowań przedstawiona powyżej może być opisana zgodnie z konwencją opisu grafów. Aby zdefiniować graf zwykle podaje się zbiór jego wierzchołków oraz zbiór jego krawędzi. Każdy wierzchołek reprezentuje obserwację lub hipotezę, każda krawędź jest określona w ten sposób, że podaje się dla niej informacje o wierzchołkach które dana krawędź łączy, oraz ewentualnie dla grafów skierowanych informację o kierunku krawędzi. Załóżmy, że G będzie grafem określonym zbiorem wierzchołków N i krawędzi E. Załóżmy, również że dany jest zbiór prawdopodobieństw warunkowych CP. Elementami tego zbiory są prawdopodobieństwa opisujące poszczególne krawędzie grafu (patrz rys. 1 i jego interpretacja). Prawdopodobieństwa te opisują prawdopodobieństwo przejścia od jednego wierzchołka grafu np. b do c.. 7.

(8) 2.1.2 Definicja sieci Bayesowskiej Pod pojęciem sieci Bayesowskiej rozumieć będziemy trójkę: B = {N, E, CP}, gdzie dwójka {N, E} jest zorientowanym grafem acyklicznym zbudowanym na podstawie zadanych prawdopodobieństw warunkowych zawartych w zbiorze CP. Inaczej mówiąc: Sieć Bayesa stanowi numeryczny model związków przyczynowo-skutkowych zachodzących między elementami zbioru obserwacji i hipotez. Stosując twierdzenie Bayesa, można dokonywać zarówno wnioskowania progresywnego (wnioskowanie w przód), jak i wnioskowania regresywnego (wnioskowanie wstecz). 2.1.3 Przykład syntezy sieci Bayesa Załóżmy, że dany jest zbiór pewnych zmiennych identyfikujących obserwacje i hipotezy. Przyjmijmy również, że nie jest dla nas w tym momencie ważne, które elementy tego zbiory są obserwacjami a które hipotezami. Niech zbiór tych zmiennych ma następującą postać: Z = {A, B, C, D, E, F, G, H} Dane są również informacje opisujące związki przyczynowo-skutkowe pomiędzy tymi zmiennymi w postaci zbiory prawdopodobieństw warunkowych CP: CP = {P(A), P(B|A), P(C|B), P(C|F), P(D|C), P(E|CH), P(F|G), P(G), P(H|G)} Na podstawie tych informacji możemy zbudować następujący graf skierowany, który po uzupełnieniu zbiorem konkretnych wartości prawdopodobieństw warunkowych opisuje sieć Bayesa: B = {N, E, CP} co można przedstawić graficznie:. 89:; ?>=< G

(9) 333

(10) 33

(11) 33

(12)

(13)

(14)   

(15) 89:; ?>=< ?>=< 89:; 89:; ?>=< B3 F H 33     33   33        89:; ?>=< C II  I  II II  II. II .  I$ ?>=< 89:; 89:; ?>=< D E ?>=< 89:; A. Sieć Bayesa stanowi numeryczny model związków przyczynowo-skutkowych zachodzących pomiędzy elementami zbioru obserwacji i hipotez. Stosując twier8.

(16) dzenie Bayea, można dokonywać zarówno wnioskowania progresywnego (wnioskowanie w przód), jak i wnioskowania regresywnego (wnioskowanie wstecz).. 2.2 Metoda współczynników pewności CF Celem ćwiczeń jest przedstawienie koncepcji rozszerzenia modelu reprezentacji wiedzy w postaci reguł produkcji o współczynniki pewności CF oraz zarys metody wnioskowania w systemie reguł produkcji z uwzględnieniem wiedzy niepewnej.. 2.2.1 Reguły produkcji ze współczynnikiem pewności CF Prezentowana w poprzedniej części metoda reprezentacji i przetwarzania wiedzy niepewnej ma charakter wybitnie numeryczny. Zarówno struktura sieci Bayes’a jak również metody wnioskowania oparte są całkowicie o metody probabilistyczne (czy podobne jak np. teoria Dempster’a-Shafer’a). Istnieje kilka wad tych metod, dotyczą one zarówno kwestii teoretycznych jak również zagadnień związanych z programową realizacją probabilistycznego systemu ekspertowego. Jako przykład podać można umiarkowaną zdolność do generowania objaśnień (ang. explanations) procesu wnioskowania powodowaną wybitnie numerycznym jego charakterem. Istotnymi problemami są również zagadnienia związane np. ze złożonością obliczeniową jak również pamięciową procesu wnioskowania. Inną metodą reprezentacji i przetwarzania wiedzy niepewnej jest rozszerzenie systemu reguł produkcji o współczynniki pewności CF (ang. certainty factor). Metoda ta zwana jest metodą współczynników pewności lub modelem MYCIN. Ostatnia nazwa pochodzi od systemu ekspertowego MYCIN, który był jednym z wczesnych i najbardziej znanych praktycznie wykorzystywanych systemów ekspertowych. Metoda współczynników pewności zakłada rozszerzenie modelu regułowego o pewne numeryczne oszacowanie stopnia pewności eksperta o prawdziwości danej reguły czy też faktu. Taka rozszerzona reguła może mieć następującą postać: Jeżeli e1 &e2 &...&en To h ze stopniem pewności CF gdzie e1 , e2 , . . ., en to przesłanki reguły a h to konkluzja, & to operator logiczny And. Takie podejście nie wydaje się czymś specjalnie zaskakującym, w istocie prezentowane wcześniej (w poprzedniej części) prawdopodobieństwo warunkowe niosło podobną informację. Inna jest jednak koncepcja wnioskowania oraz reprezentacji współczynnika CF. W systemach zbliżonych do modelu MYCIN wnioskowanie odbywa się w sposób klasyczny, z wykorzystaniem interpretera reguł produkcji, który np. w systemie MYCIN pracuje w trybie wnioskowania wstecz. W trakcie tego procesu niepewność jest uwzględniana w kolejnych krokach wnioskowania poprzez obliczenie współczynnika pewności poszczególnych konkluzji. Proces ten ma jednak charakter pomocniczy i to nie on steruje procesem wnioskowania, główną 9.

(17) rolę odgrywa tutaj interpreter reguł. Innymi słowy, przetwarzanie niepewności jest tutaj procesem równoległym, mającym na celu określenie stopnia pewności konkluzji generowanych przez interpreter reguł. Przypomnijmy, że w systemach Bayes’owskich (i podobnych) to mechanizm przetwarzania wiedzy niepewnej decydował o konkluzji i określał pewne numeryczne oszacowanie jej pewności (w postaci prawdopodobieństw czy np. Dempster’owko-Shafer’owskich mas). Również współczynnik pewności CF nie jest tutaj bezpośrednio rozumiany jako klasyczne prawdopodobieństwo. Jak podają autorzy systemu MYCIN, Shortliffe i Bachman, współczynnik pewności jest chwytem pozwalającym połączenie stopnia wiedzy oraz niewiedzy i odwzorowanie ich w postaci jednej liczby. Do odwzorowania wiedzy służy współczynnik MB zwany miarą wiarygodności (ang. measure of belief), do opisania niewiedzy służy zaś współczynnik MD zwany miarą niewiarygodności (ang. measure of disbelief). Ponieważ współczynnik CF wiązany jest z regułą , również współczynniki MB i MD są wiązane z regułą. Załóżmy, że dana jest reguła: Jeżeli e to h. Współczynniki dla takiej reguły będą określone odpowiednio MB(h, e), MD(h, e), CF(h, e). Współczynnik CF(h, e) jest zdefiniowany jako różnica pomiędzy miarą wiarygodności a miarą niepewności: CF(h, e) = MB(h, e) − MD(h, e) Interpretacja miar wiarygodności i niewiarygodności (w powiązaniu z prawdopodobieństwem warunkowym) może być następująca: • jeżeli P(h|e) = 1 to h jest prawdziwe na pewno, wtedy MB(h, e) = 1, MD(h, e) = 0, oraz CF(h, e) = 1, • jeżeli P(¬h|e) = 1 to h jest fałszywe na pewno, wtedy MB(h, e) = 0, MD(h, e) = 1, oraz CF(h, e) = −1, • jeżeli P(h|e) = P(h) to h co znaczy, że h i e są niezależne, wtedy MB(h, e) = 0, oraz MD(h, e) = 0, CF(h, e) = 0. Powyższe zależności można przedstawić w bardziej zwartej postaci:   1 P(h) = 1     MB(h, e) P(h|e) > P(h)    0 P(h|e) = P(h) CF(h|e) =     −MD(h, e) P(h|e) < P(h)     −1 P(h) = 0 Wartość współczynnika CF należy zatem do przedziału od [−1, +1]. Dodatnie wartości odpowiadają wzrastaniu wiarygodności hipotezy, natomiast ujemne odpowiadają zmniejszaniu się wiarygodności.. 10.

(18) 2.2.2 Propagacja niepewności w modelu współczynników pewności Wnioskowanie w modelu współczynnika pewności CF (w rozszerzonym modelu reguł produkcji ) odbywa się w oparciu o działanie interpretera reguł. Dla przypomnienia, można ten proces skrótowo omówić następująco: • Proces wnioskowania jest inicjowany przez użytkownika systemu. • W trybie wnioskowania wstecz, określa on cel wnioskowania, tzn. hipotezę której prawdziwość ma być dowiedziona, w trybie wnioskowania do przodu poszukuje się konkluzji jaką można wywieść ze znanych faktów. • Rozpoczęciu wnioskowania towarzyszy zwykle ustalenie pewnych faktów inicjujących proces wnioskowania. Fakty te zwykle odpowiadają obserwacjom, które skłoniły użytkownika do konsultacji z systemem ekspertowym. • Fakty są składowane w pamięci podręcznej interpretera reguł (ang. working memory) zwanej także często globalną bazą danych. • Interpreter określa regułę lub reguły, które mogą być w danych warunkach zastosowane (min. w oparciu o zawartość pamięci podręcznej), wybiera jedną z nich i wykonuje. • Efekt zastosowania danej reguły prowadzi zwykle do modyfikacji zawartości pamięci podręcznej, polegającej np. na dopisaniu nowych faktów ustalonych w trakcie wnioskowania. • Proces doboru i wykonywania reguł jest powtarzany tak długo aż hipoteza zostanie potwierdzona (wnioskowanie wstecz) lub zostanie wyprowadzona konkluzja (wnioskowanie do przodu) bądź ani jedno ani drugie nie może być osiągnięte. W czasie wnioskowania następuje zatem zjawisko przechodzenia od reguły do reguły, czego efektem jest jest budowa drzewa wywodu odwzorowującego wybrane i uaktywnione reguły oraz ich kolejność. W trakcie tego procesu nastąpić musi równoległy proces obliczania współczynników pewności. W trakcie tego procesu dochodzi do propagowania niepewności co jest wynikiem odpowiednich złożeń jakim podlega współczynnik CF w trakcie budowy drzewa wywodu. Należy zwrócić wagę na to, że również fakty mogą posiadać swój współczynnik pewności, który ma odwzorowywać przekonanie użytkownika systemu o pewności danej obserwacji. Fakty te zwykle wchodzą w skład przesłanki (nazwijmy ją e) pewnej reguły, którą umownie nazwiemy R. Sama reguła R też posiada współczynnik pewności CF. Jeżeli e to h ze stopniem pewności CF Konkluzja (niech nazywa się ona h) reguły R jest zatem obarczona niepewnością wynikającą zarówno z niepewności faktu w chodzącego do przesłanki e jak. 11.

(19) również współczynnika CF samej reguły R. Końcowy współczynnik pewności wyznaczany jest w następujący sposób: CF(h, e) = CF(e) ∗ CF(h) gdzie: CF(e) to współczynnik pewności przesłanki, a CF(h) to współczynnik pewności reguły R. W przypadku gdy przesłanka reguły zawiera wyrażenie zawierające operator AND (&) : Jeżeli e1&e2 to h ze stopniem pewności CF to współczynnik pewności konkluzji h wyznaczany jest w następujący sposób: CF(h, e1&e2) = Minimum{CF(e1), CF(e2)} ∗ CF(h) W przypadku gdy przesłanka reguły zawiera wyrażenie zawierające funktor OR (|) : Jeżeli e1 | e2 to h ze stopniem pewności CF to współczynnik pewności konkluzji h wyznaczany jest w następujący sposób: CF(h, e1|e2) = Maksimum{CF(e1), CF(e2)} ∗ CF(h) W przypadku, gdy jedna hipoteza h jest konkluzją więcej niż jednej reguły: Jeżeli e1 to h Jeżeli e2 to h co ilustruje rysunek:. ?>=< 89:; e1. ?>=< / 89:; h

(20) E

(21)

(22)

(23)

(24)

(25)

(26) 89:; ?>=< e2. współczynnik pewności można obliczyć ze wzoru:   CF(h, e1 ) + CF(h, e2 ) − CF(h, e1 ) ∗ CF(h, e2 )    CF(h, e ) + CF(h, e ) + CF(h, e ) ∗ CF(h, e ) 1 2 1 2 CF(h, e1 , e2 ) =    CF(h,e1 )+CF(h,e2 )  1−min{(|CF(h,e1 )|)(|CF(h,e2 )|)}. W przypadku połączenia ”szeregowego” reguł: Jeżeli e1 to e2 Jeżeli e2 to h. 12. CF(h, e1 ), CF(h, e2 ) > 0 CF(h, e1 ), CF(h, e2 ) < 0 CF(h, e1 ) ∗ CF(h, e2 ) < 0.

(27) co można przedstawić graficznie: ?>=< 89:; e1. ?>=< / 89:; e2. ?>=< / 89:; h. obowiązuje następujący wzór: CF(h, e1 ) = CF(e2 , e1 ) ∗ CF(h, e2 ) Metoda obliczania współczynnika pewności CF doczekała się wielu modyfikacji. Różni autorzy podają własne interpretacje metod obliczania i propagacji tego współczynnika, metoda przedstawiona w tym opracowaniu jest zatem jedną z możliwych. Zastosowanie przedstawionych wyżej formuł ilustruje przykład nr 1. Zawiera on przykładową sieć wnioskowania oraz współczynniki pewności dla węzłów e1 , . . . , e5 . W poszczególnych krokach dokonano redukcji sieci tak aby obliczyć współczynnik pewności hipotezy h. Przykład ten ma charakter wybitnie numeryczny. 2.2.3 Podsumowanie Model współczynnika pewności CF ma szereg zalet polegających głównie: • na prostocie i łatwości w interpretacji, • powiązaniu z najbardziej popularną reprezentacją wiedzy w postaci reguł produkcji, • stosunkowo łatwymi obliczeniami nie obciążającymi czasowo ani pamięciowo. Jednak posiada on również szereg wad. Najwięcej krytyki dotyczy mało stabilnej podbudowy teoretycznej, bardzo luźnego związku z teorią prawdopodobieństwa. Udowodniono wyraźne rozbieżności pomiędzy wynikami wnioskowania czysto probabilistycznego a w oparciu o model CF. Dodatkowo metodzie tej zarzuca się to, że pojedynczy współczynnik CF jest zbyt słabym narzędziem do odwzorowania wiedzy i niewiedzy. Przykładem może być wartość CF = 0, co może oznaczać zarówno sytuacje w której współczynniki wiarygodności i niewiarygodności mają wartość równą zeru : MB(h, e) = MD(h, e) = 0, jak również sytuacje w której współczynniki te mają jednakowe wartości : MB(h, e) = MD(h, e) = 1 (pamiętajmy, że współczynnik pewności jest równy różnicy tych wartości). Inny problem pojawia się w przypadku gdy ekspert budujący bazę wiedzy nie jest w stanie podać pojedynczej wartości liczbowej, lecz powie raczej, że w przypadku prawdziwości określonej przesłanki dana reguła będzie prawdziwa na co jest szansa wahająca się od 40% do 60%. W takich przypadkach trzeba dokonać decyzji o wyborze pojedynczej liczby, może to być kres dolny lub górny przedziału lub jedna z wartości charakterystycznych z wnętrza przedziału. Można zaprezentować na konkretnych przykładach jak bardzo może zmieniać się wynikowy współczynnik pewności konkluzji wraz ze zmianą wartości-reprezentanta takiego przedziału. 13.

(28) 2.3 Przykład nr 1. Przykładowa sieć wnioskowania oraz wartości współczynników CF. Kolejne rysunki prezentują kolejne kroki obliczania wynikowego współczynnika pewności hipotezy h. 0.6 / 89:; ?>=< ?>=< ?>=< ?>=< 89:; e2 0.5 / 89:; e e1 0.9 / 89:; Ah @ 4       −0.2  0.5    89:; ?>=< 89:; ?>=< e3 e5 CF(e4 , e1 , e2 ) = CF(e2 , e1 ) ∗ CF(h, e2 ) = 0.9 ∗ 0.5 = 0.45 @ABC GFED e1 e2. 0.6 / 89:; ?>=< ?>=< / 89:; e h ? 4 ~ A ~  ~   ~~  0.5 ~~ −0.2  ~  ~ 89:; ?>=< 89:; ?>=< e3 e5. CF(e4 , e1 , e2 , e3 ) =. 0.45. 0.45 + (−0.2) CF(e4 , e1 , e2 ) + CF(e4 , e3 ) = 1 − min{(|CF(e4 , e1 , e2 )|), (|CF(e4 , e3 )|)} 1 − min{(|0.45|), (| − 0.2|)}. =. 0.25 0.25 0.25 = = = 0.3125 1 − min{0.45, 0.2} 1 − 0.2 0.8 XYZ[ _^]\ ?>=< e1 e2 e3 0.3125 / 89:; e4. ?>=< / 89:; Ah    0.5   89:; ?>=< e5 0.6. CF(h, e1 , e2 , e3 , e4 ) = CF(h, e4 ) ∗ CF(e4 , e1 , e2 , e3 ) = 0.3125 ∗ 0.6 = 0.1875 gfed `abc e1 e2 e3 e4 0.1875. ?>=< / 89:; h z= z z z zz zz 0.5 z z zz 89:; ?>=< e5. CF(h, e1 , e2 , e3 , e4 , e5 ) = CF(h, e1 , e2 , e3 , e4 ) + CF(h, e5 ) − CF(h, e1 , e2 , e3 , e4 ) ∗ CF(h, e5 ) = 0.1875 + 0.5 − 0.1875 ∗ 0.5 = 0.6875 − 0.1875 ∗ 0.5 = 0.5937 gfed `abc e1 e2 e3 e4 e5. 0.5937. 14. ?>=< / 89:; h.

(29) 3 Zadania z wiedzy niepewnej - sieci Bayes’a 1. W podanym niżej tekście występują pewne zależności przyczynowo skutkowe opisane liczbowo prawdopodobieństwami warunkowymi. Proszę podać zbiór CP takich prawdopodobieństwa warunkowych oraz narysować graf przyczynowo-skutkowy. Czy otrzymany graf jest siecią Bayes’a - proszę uzasadnić odpowiedź. Jeżeli masz sporo pieniędzy, lubisz szybkie samochody i masz małą rodzinę to stawiam 10 do 100, że kupisz mały, czerwony, sportowy samochód. Ale jeśli masz sporo pieniędzy, lubisz szybkie samochody i masz sporo dzieci to kupisz na pewno kombi z mocnym silnikiem. Jeżeli jesteś na stanowisku kierowniczym i dbasz o prestiż to na 50 % kupisz sedana ze skórzaną tapicerką. Jeżeli potrzebujesz jedynie wygodnego , prostego samochodu to na pewno kupisz auto klasy kompaktowej. Jeżeli jest ci wszystko jedno to na 30 % kupisz malucha. Rozwiązanie O - obserwacje: • a - mała rodzina (mało dzieci), • b - sporo pieniędzy, • c - lubić szybkie samochody, • e - spora rodzina (sporo dzieci), • f - stanowisko kierownicze, • h - posiadany prestiż, • j - chęć wygodny i prostoty, • k - obojętność. H - hipotezy: • D - czerwony, sportowy samochód, • G - kombi, • I - sedan ze skórzaną tapicerką, • L - samochód kompaktowy, • M - maluch. CP = {P(D|a, c) = 0.1, P(G|b, e) = 1.0, P(I| f, h) = 0.5, P(L|j) = 1.0, P(M|k) = 0.3}. 15.

(30) Reprezentacja graficzna:. 89:; ?>=< a---89:; ?>=< b-  --  -  --89:; ?>=< c    89:; ?>=< e. 0.5 89:; ?/ >=<. I.    89:; ?>=< h. 89:; ?>=< k. ?>=< / 89:; G. 1.0. 89:; ?>=< f ----. 89:; ?>=< j. ?>=< / 89:; D. 0.1. 1.0. 0.3. 89:; ?/ >=< I GFED / @ABC M. Jak widać graf jest skierowany (dokładnie określone są kierunki wnioskowania), jest on acykliczny (gdyż nie zawiera żadnych cykli), zatem jest on siecią Bayesa. 2. W podanym niżej tekście występują pewne zależności przyczynowo skutkowe opisane liczbowo prawdopodobieństwami warunkowymi. Proszę podać zbiór CP takich prawdopodobieństwa warunkowych oraz narysować graf przyczynowo-skutkowy. Czy otrzymany graf jest siecią Bayes’a - proszę uzasadnić odpowiedź. Prawdopodobieństwo wystąpienia anginy w przypadku objawów takich jak ból gardła i gorączka jest wysokie i wynosić może 0.8. Jednak wystąpienie gorączki i bólu głowy może świadczyć. 16.

(31) o grypie, co jest hipoteza prawdopodobna na 0.6. W przypadku gdy pacjent cierpiący na grypę nie wyleczył się całkowicie może dojść do zapalenia oskrzeli z prawdopodobieństwem 0.4. Zapalenie oskrzeli może spowodować ból gardła z prawdopodobieństwem 0.3. 3. W podanym niżej tekście występują pewne zależności przyczynowo skutkowe opisane liczbowo prawdopodobieństwami warunkowymi. Proszę podać zbiór CP takich prawdopodobieństw warunkowych oraz narysować graf przyczynowo-skutkowy. Czy otrzymany graf jest siecią Bayes’a - proszę uzasadnić odpowiedź. Prawdopodobieństwo awarii suportu roweru z powodu zawilgocenia wynosi 0.4, zabrudzenia 0.1, natomiast z powodu zużycia 0.3. Awaria suportu na pewno spowoduje większe opory w czasie jazdy. Awaria suportu może na 30% spowodować uszkodzenie mufy suportowej, to z kolei na 85% spowoduje konieczność zakupu nowej ramy. Zabrudzenie na pewno wpłynie na nieprecyzyjną pracę przerzutek a także na 5% może spowodować wzrost oporów w czasie jazdy. Wzrost oporów w czasie jazdy może spowodować z prawdopodobieństwem 0.35 awarię suportu. 4. W podanym niżej tekście występują pewne zależności przyczynowo skutkowe opisane liczbowo prawdopodobieństwami warunkowymi. Proszę podać zbiór CP takich prawdopodobieństw warunkowych oraz narysować graf przyczynowo-skutkowy. Czy otrzymany graf jest siecią Bayes’a - proszę uzasadnić odpowiedź. Prawdopodobieństwo awarii tylniej przerzutki z powodu zawilgocenia wynosi 0.3, zabrudzenia 0.6, natomiast z powodu zużycia 0.7. Awaria tylniej przerzutki uniemożliwi jazdę na 40%. Zawilgocenie i zabrudzenie na 70% spowodują przedwczesne wytarcie się klocków hamulcowych. Wytarte klocki na 20% uniemożliwią jadę. Prawdopodobieństwo awarii suportu roweru z powodu zawilgocenia wynosi 0.6 a zabrudzenia 0.3. Awaria suportu na pewno uniemożliwi jazdę. Brak możliwości jazdy na rowerze na 40% spowoduje spadek zainteresowania jego stanem technicznym, a to na pewno negatywnie wpłynie na jego czystość - czyli na jego zabrudzenie. 5. Dany jest zbiór obserwacji O, zbiór hipotez H oraz zbiór prawdopodobieństw warunkowych CP odzwierciedlający związki przyczynowo-skutkowe zachodzące pomiędzy elementami obu zbiorów. Należy narysować graf stanowiący graficzną reprezentację sieci Bayes’a, która może być zbudowana na podstawie posiadanych informacji. Zbiory mają następującą postać; O = {A, B, C, D, E} 17.

(32) H = {X, Y, Z} CP = {P(A), P(B), P(C), P(D), P(E), P(C|A, B), P(X|C, D), P(Y|C, D), P(Z|E)} 6. Dany jest zbiór obserwacji O, zbiór hipotez H oraz zbiór prawdopodobieństw warunkowych CP odzwierciedlający związki przyczynowo-skutkowe zachodzące pomiędzy elementami obu zbiorów. Należy narysować graf stanowiący graficzną reprezentację sieci Bayes’a, która może być zbudowana na podstawie posiadanych informacji. Zbiory mają następującą postać; O = {A, B, C, D, E} H = {X, Y, Z} CP = {P(A), P(B), P(C), P(D), P(E), P(X|A, B), P(C|X), P(Y|C, D, E), P(Z|C, E), P(B|Z)} Czy otrzymana sieć jest rzeczywiście siecią Bayes’a? 7. Dany jest zbiór obserwacji O, zbiór hipotez H oraz zbiór prawdopodobieństw warunkowych CP odzwierciedlający związki przyczynowo-skutkowe zachodzące pomiędzy elementami obu zbiorów. Należy narysować graf stanowiący graficzną reprezentację sieci Bayes’a, która może być zbudowana na podstawie posiadanych informacji. Zbiory mają następującą postać; O = {A, B, C, D, E, G} H = {X, Y, Z, F} CP = {P(A), P(B), P(D), P(E), P(F), P(G), P(D|B), P(X|A, B), P(F|G), P(C|X), P(Y|C, D, E), P(Z|C, E), P(B|Z)} Rozwiązanie - reprezentacja graficzna: o.  ?>=< 89:; ?>=< / 89:; BB B1 D BB 11 BB 11 B  ?>=< ?>=< ?>=< / 89:; / 89:; / 89:; F X C Y (( |> | | (( || ||(( ?>=< 89:; 89:; ?>=< / E LL A (( LLL LLL (( LL( ?>=< 89:; ?>=< ?>=< / 89:; / 89:; F Z G Jak widać otrzymany graf jest skierowany, ale niestety jest cykliczny w drodze wnioskowania: ?>=< 89:; B. ?>=< / 89:; X. ?>=< / 89:; C. 18. ?>=< / 89:; Z. ?>=< / 89:; B.

(33) , w związku z czym nie możemy powiedzieć, że otrzymany graf jest siecią Bayesa.Widzimy też pewien odłamek w grafie: 89:; ?>=< G. ?>=< / 89:; F. , który jest częścią naszej sieci, ale nie powiązaną w całością, jednak nie ma w definicji sieci Bayesa warunku, aby graf był spójny.. 19.

(34) 4 Zadania z wiedzy niepewne - współczynniki pewności CF 1. Dla podanej powyżej bazy wiedzy obliczyć współczynnik pewności dla hipotezy e zakładając, że wszystkie przesłanki (a, , c, d, f, g) są prawdziwe. (a) If a Then b With -0.2 (b) If c Then b With 0.1 (c) If d Then b With 0.2 (d) If b Then e With -0.4 (e) If f Then e With 0.4 (f) If g Then e With 0.1 2. Czy, przedstawiona niżej, wiedza zapisana z wykorzystaniem współczynników CF może być przedstawiona w postaci sieci Bayesa. Jeżeli nie to dlaczego? Jeżeli tak to jak wyglądałaby taka sieć (graf i zbiór prawdopodobieństw) i czy spełnia założenia sieci Bayesa? (a) if a= 1 and b=l then c= 1 with 1 (b) if d= I and e= 1 then c= 1 with -1 (c) if c = 1 and f= 1 then g = 1 with 0 (d) if g = I and h = 1 then g a = 1 with 1 3. Dla podanej powyżej bazy wiedzy obliczyć współczynnik pewności dla hipotezy zdanie egazaminu zSE = możliwe zakładając, że wszystkie podanych poniżej reguł są spełnione. (a) if zaliczenie = wpisane then iść na egazamin z SE = tak with 0.9 (b) if zadania = przerobione then iść na egazamin z SE = tak with 0.5 (c) if iść na egazamin z SE = tak then zaliczenie pisemnego = możliwe with -0.5 (d) if zaliczenie pisemnego = możliwe then materiał z wykładu = opanowany with 0.9 (e) if materiał z wykładu = opanowany then zdanie ustnego = możliwe with 0.8 (f) if zdanie ustnego = możliwe then zdanie egazaminu z SE = możliwe with 0.9 4. Dla podanej poniżej bazy wiedzy obliczyć współczynnik pewności dla hipotezy: pogoda pod psem = tak zakładając, że wszystkie przesłanki poniższych reguł są spełnione. (a) if pogoda = deszcz then wziąć parasol = tak with 05. 20.

(35) (b) if pogoda = deszcz ze śniegiem then wząć parasol = tak with 0.5 (c) if pogoda = śnieg then wziąć parasol = tak with -0.5 (d) if wziąć parasol = tak then ubrać kalosze = tak with -0.9 (e) if zachmurzenie = słabe then ubrać kalosze = tak with 0.1 (f) if ubrać kalosze = tak then pogoda pod psem = tak with 0.9 5. Dla podanej powyżej bazy wiedzy obliczyć współczynnik pewnooeci dla hipotezy zakladajac, że wszystkie przesłanki (a,b,c,d,e) są prawdziwe. (a) If a Then b With 0.1 (b) If c Then b With 0.8 (c) If b Then d With 0.4 (d) If e Then d With 0.1 6. Dla podanej poniżej bazy wiedzy obliczyć współczynnik pewnooeci dla hipotezy e zakładając, że wszystkie przesłanki (a, b, c, d) są prawdziwe. (a) If a Then b With 0.1 (b) If c Then b With 0.2 (c) If d Then b With 0.1 (d) lf b Then e With 0.2 (e) If f Then e With 0.1. 21.

(36)

Cytaty

Powiązane dokumenty

Die Popularität der ethnischen Witze wird durch eine große Kreativität in die- sem Bereich bestätigt. Viele von ihnen sind neue Fassungen von Witzen über an- dere Nationen,

Opisane podejście jest kontynuacją projektu budowy inteligent- nego kokpitu dla menedżerów (InKoM), którego głównym celem było ułatwienie analizy i interpretacji

[r]

Suraj, Z.: Parameterised Fuzzy Petri Nets for Approximate Reasoning in Decision

By referring to the specifics cf stłldent grcup:s frcm w,nosę assignrnęnts the enors \,vere extracted, it is postulated that teaching Fotrislr gramrnar to

Metody oparte na logice — reprezentacja wiedzy w języku logiki 1.. Dlaczego logika matematyczna jest dobrym językiem reprezentacji wiedzy dla

- rama jest strukturą opisują cą obiekt lub klasę obiektów, - rama składa się z klatek opisują cych konkretną cechę obiektu,.. - klatka składa się z fasetów określają