Odkrywanie wiedzy z danych przy użyciu zbiorów przybliżonych
Wykład 3
W internecie…
• Teoria zbiorów przybliżonych – zaproponowany w 1982 r. przez prof. Zdzisława Pawlaka formalizm matematyczny, stanowiący rozwinięcie klasycznej teorii zbiorów.
• Zbiór przybliżony (ang. rough set) to obiekt matematyczny zbudowany w oparciu o logikę trójwartościową.
• W swym pierwotnym ujęciu zbiór przybliżony to para klasycznych zbiorów: przybliżenie dolne i przybliżenie górne.
• Istnieje również odmiana zbioru przybliżonego, definiowana przez parę przybliżeo będących zbiorami rozmytymi (ang. fuzzy set). Dany element może należed do obydwu przybliżeo, do żadnego lub tylko do przybliżenia górnego. Ten ostatni przypadek jest o tyle ciekawy, że pozwala na modelowanie niepewności.
Wstęp
• Teoria zbiorów przybliżonych opracowana przez Zdzisława Pawlaka, dostarcza narzędzi matematycznych do formalnego opisu wiedzy, w tym wiedzy niepełnej i niedokładnej.
• Wykorzystywana jest skutecznie m.in.
w eksploracji danych i odkrywaniu wiedzy, złożonych zadaniach klasyfikacji oraz w komputerowych systemach wspomagania decyzji.
• Dziedziny, w których teoria ta została zastosowana to nie tylko medycyna czy biznes (bankowośd, badania rynku) ale również rozpoznawanie mowy, sieci neuronowe czy ogólnie mówiąc sztuczna inteligencja.
O metodzie słów kilka…
• Metodologia zbiorów przybliżonych zyskała sobie dużą popularnośd.
Świadectwem tego może byd chociażby fakt, że jest ona przedmiotem badao wielu naukowców na całym świecie, co udokumentowane zostało ok dwoma tysiącami publikacji.
• Tematyka ta cieszy się ogromnym zainteresowaniem badaczy, którzy czynnie uczestniczą w prowadzonych w tej dziedzinie cyklicznie międzynarodowych konferencjach i seminariach.
• Wśród krajów szczególnie zaangażowanych wyróżnid można prócz Polski, m.in. USA, Kanadę, Japonię, Francję czy Norwegię.
• W Polsce tematyka ta znalazła się w centrum badao naukowych prowadzonych w wielu ośrodkach, również na Uniwersytecie Śląskim w Zakładzie Systemów Informatycznych, szczególnie w zakresie zastosowao medycznych.
System informacyjny
System informacyjny a system
decyzyjny
Cel: wygenerowanie reguł
Tablica decyzyjna
Relacja nierozróżnialności
• IND(C) = {{1},{2,5},{3},{4},{6}}
Ale
• IND({gm})={{1,4,6},{2,5},{3}}
Klasy abstrakcji
Klasy abstrakcji - przykład
Aproksymacja zbiorów
Zbiory przybliżone a problem z
jednoznacznością klasyfikacj¡ obiektów
Pojęcia nieostre a zbiór dokładny oraz zbiór
przybliżony
Dolne przybliżenie
• BX = {Y IND(B): Y X}
• Czyli będą to takie obiekty należące do IND(B), które w całości zawierają się zbiorze X.
• O obiektach należących do dolnego
przybliżenia mówimy, że NA PEWNO należą do
danego pojęcia (danej klasy decyzyjnej).
IND(B) = {{1},{2,5},{3},{4},{6}}
X = X
tak+ X
nieKtóre z Y-ków należących do IND(B) w całości zawierają się
w X ? BX = {Y IND(B): Y X}
Xtak = {1,2,3,4}
Xnie = {5,6}
BXTak = {1,3,4}
BXNie = {6} Obiekty {1,3,4} na pewno mają grypę ! Obiekt {6} na pewno nie ma grypy !
Górne przybliżenie
• BX = {Y IND(B): Y ∩ X }
• Czyli będą to takie obiekty należące do IND(B), które wystarczy, że mają częśd wspólną ze
zbiorem X.
• O obiektach należących do górnego
przybliżenia mówimy, że BYD MOŻE należą do
danego pojęcia (danej klasy decyzyjnej).
IND(B) = {{1},{2,5},{3},{4},{6}}
X = X
tak+ X
nieKtóre z Y-ków należących do IND(B) mają częśd wspólną z
X ? BX = {Y IND(B): Y ∩ X }
Xtak = {1,2,3,4}
Xnie = {5,6}
BXTak = {1,2,3,4,5}
BXNie = {2,5,6} Obiekty {1,2,3,4,5} byd może mają grypę ! Obiekty {2,5,6} byd może nie ma grypy !
Zbiór dokładny a zbiór przybliżony
Interpretacja
Tablice decyzyjne deterministyczne i niedeterministyczne
• Każdy obiekt tablicy decyzyjnej TD może zostać zapisany w postaci zdania warunkowego
(postaci: jeżeli warunki to decyzja) i byd
traktowany jako reguła decyzyjna.
1. jeżeli (g=nie) i (m=tak) i (t=wysoka) to (c=tak) 2. jeżeli (g=tak) i (m=nie) i (t=wysoka) to (c=tak) 3. jeżeli (g=tak) i (m=tak) i (t=bardzo wysoka) to (c=tak) 4. jeżeli (g=nie) i (m=tak) i (t=bardzo wysoka) to (c=tak)
5. jeżeli (g=tak) i (m=nie) i (t=wysoka) to (c=nie) 6. jeżeli (g=nie) i (m=tak) i (t=normalna) to (c=nie)
reguły deterministyczne
Reguła w tablicy decyzyjnej TD jest deterministyczna, gdy równość atrybutów warunkowych implikuje równośd atrybutów decyzyjnych.
Fakt ten możemy wyrazid przy pomocy
następującej zależności dla obiektów tablicy
decyzyjnej:
reguły niedeterministyczne
• Reguła w tablicy decyzyjnej TD jest
niedeterministyczna, gdy równość atrybutów
warunkowych nie implikuje równości
atrybutów decyzyjnych, co można wyrazid
następującą zależnością dla obiektów tablicy
decyzyjnej:
Niespójnośd
Metody usuwania niespójności
1 metoda
Metoda jakościowa
• IND(B) = {{1}{2,5}{3}{4}{6}}
• X
tak= {1,2,3,4}
• X
nie= {5,6}
• BX
Tak= {1,3,4}
• BX
Nie= {6}
•
Tak=3/6
•
Nie=1/6
Metoda mówi, aby usunąd ten obiekt, dla którego uzyskano mniejszą dokładnośd dolnego, bądź górnego
przybliżenia.
Usuniemy niespójnośd ze zbioru „NIE”
• IND(B) = {{1}{2,5}{3}{4}{6}}
• X
tak= {1,2,3,4}
• X
nie= {5,6}
• BX
Tak= {1,3,4}
• BX
Nie= {6}
•
Tak=3/6
•
Nie=1/6
Metoda mówi, aby usunąd ten obiekt, dla którego uzyskano mniejszą dokładnośd dolnego, bądź górnego
przybliżenia.
Usuniemy niespójnośd ze zbioru „NIE”