użyciu zbiorów przybliżonych

(1)

Odkrywanie wiedzy z danych przy użyciu zbiorów przybliżonych

Wykład 3

(2)

W internecie…

• Teoria zbiorów przybliżonych – zaproponowany w 1982 r. przez prof. Zdzisława Pawlaka formalizm matematyczny, stanowiący rozwinięcie klasycznej teorii zbiorów.

• Zbiór przybliżony (ang. rough set) to obiekt matematyczny zbudowany w oparciu o logikę trójwartościową.

• W swym pierwotnym ujęciu zbiór przybliżony to para klasycznych zbiorów: przybliżenie dolne i przybliżenie górne.

• Istnieje również odmiana zbioru przybliżonego, definiowana przez parę przybliżeo będących zbiorami rozmytymi (ang. fuzzy set). Dany element może należed do obydwu przybliżeo, do żadnego lub tylko do przybliżenia górnego. Ten ostatni przypadek jest o tyle ciekawy, że pozwala na modelowanie niepewności.

(3)

Wstęp

• Teoria zbiorów przybliżonych opracowana przez Zdzisława Pawlaka, dostarcza narzędzi matematycznych do formalnego opisu wiedzy, w tym wiedzy niepełnej i niedokładnej.

• Wykorzystywana jest skutecznie m.in.

w eksploracji danych i odkrywaniu wiedzy, złożonych zadaniach klasyfikacji oraz w komputerowych systemach wspomagania decyzji.

• Dziedziny, w których teoria ta została zastosowana to nie tylko medycyna czy biznes (bankowośd, badania rynku) ale również rozpoznawanie mowy, sieci neuronowe czy ogólnie mówiąc sztuczna inteligencja.

(4)

(5)

(6)

O metodzie słów kilka…

• Metodologia zbiorów przybliżonych zyskała sobie dużą popularnośd.

Świadectwem tego może byd chociażby fakt, że jest ona przedmiotem badao wielu naukowców na całym świecie, co udokumentowane zostało ok dwoma tysiącami publikacji.

• Tematyka ta cieszy się ogromnym zainteresowaniem badaczy, którzy czynnie uczestniczą w prowadzonych w tej dziedzinie cyklicznie międzynarodowych konferencjach i seminariach.

• Wśród krajów szczególnie zaangażowanych wyróżnid można prócz Polski, m.in. USA, Kanadę, Japonię, Francję czy Norwegię.

• W Polsce tematyka ta znalazła się w centrum badao naukowych prowadzonych w wielu ośrodkach, również na Uniwersytecie Śląskim w Zakładzie Systemów Informatycznych, szczególnie w zakresie zastosowao medycznych.

(7)

System informacyjny

(8)

System informacyjny a system

decyzyjny

(9)

(10)

Cel: wygenerowanie reguł

(11)

Tablica decyzyjna

(12)

Relacja nierozróżnialności

(13)

(14)

• IND(C) = {{1},{2,5},{3},{4},{6}}

Ale

• IND({gm})={{1,4,6},{2,5},{3}}

(15)

Klasy abstrakcji

(16)

Klasy abstrakcji - przykład

(17)

(18)

(19)

Aproksymacja zbiorów

(20)

(21)

Zbiory przybliżone a problem z

jednoznacznością klasyfikacj¡ obiektów

(22)

Pojęcia nieostre a zbiór dokładny oraz zbiór

przybliżony

(23)

Dolne przybliżenie

• BX = {Y  IND(B): Y  X}

• Czyli będą to takie obiekty należące do IND(B), które w całości zawierają się zbiorze X.

• O obiektach należących do dolnego

przybliżenia mówimy, że NA PEWNO należą do

danego pojęcia (danej klasy decyzyjnej).

(24)

IND(B) = {{1},{2,5},{3},{4},{6}}

X = X

_tak

+ X

_nie

Które z Y-ków należących do IND(B) w całości zawierają się

w X ? BX = {Y  IND(B): Y  X}

X_tak = {1,2,3,4}

X_nie = {5,6}

BX_Tak = {1,3,4}

BX_Nie = {6} Obiekty {1,3,4} na pewno mają grypę ! Obiekt {6} na pewno nie ma grypy !

(25)

Górne przybliżenie

• BX = {Y  IND(B): Y ∩ X   }

• Czyli będą to takie obiekty należące do IND(B), które wystarczy, że mają częśd wspólną ze

zbiorem X.

• O obiektach należących do górnego

przybliżenia mówimy, że BYD MOŻE należą do

danego pojęcia (danej klasy decyzyjnej).

(26)

IND(B) = {{1},{2,5},{3},{4},{6}}

X = X

_tak

+ X

_nie

Które z Y-ków należących do IND(B) mają częśd wspólną z

X ? BX = {Y  IND(B): Y ∩ X  }

X_tak = {1,2,3,4}

X_nie = {5,6}

BX_Tak = {1,2,3,4,5}

BX_Nie = {2,5,6} Obiekty {1,2,3,4,5} byd może mają grypę ! Obiekty {2,5,6} byd może nie ma grypy !

(27)

Zbiór dokładny a zbiór przybliżony

(28)

(29)

Interpretacja

(30)

Tablice decyzyjne deterministyczne i niedeterministyczne

• Każdy obiekt tablicy decyzyjnej TD może zostać zapisany w postaci zdania warunkowego

(postaci: jeżeli warunki to decyzja) i byd

traktowany jako reguła decyzyjna.

(31)

1. jeżeli (g=nie) i (m=tak) i (t=wysoka) to (c=tak) 2. jeżeli (g=tak) i (m=nie) i (t=wysoka) to (c=tak) 3. jeżeli (g=tak) i (m=tak) i (t=bardzo wysoka) to (c=tak) 4. jeżeli (g=nie) i (m=tak) i (t=bardzo wysoka) to (c=tak)

5. jeżeli (g=tak) i (m=nie) i (t=wysoka) to (c=nie) 6. jeżeli (g=nie) i (m=tak) i (t=normalna) to (c=nie)

(32)

reguły deterministyczne

Reguła w tablicy decyzyjnej TD jest deterministyczna, gdy równość atrybutów warunkowych implikuje równośd atrybutów decyzyjnych.

Fakt ten możemy wyrazid przy pomocy

następującej zależności dla obiektów tablicy

decyzyjnej:

(33)

reguły niedeterministyczne

• Reguła w tablicy decyzyjnej TD jest

niedeterministyczna, gdy równość atrybutów

warunkowych nie implikuje równości

atrybutów decyzyjnych, co można wyrazid

następującą zależnością dla obiektów tablicy

decyzyjnej:

(34)

Niespójnośd

(35)

(36)

Metody usuwania niespójności

(37)

1 metoda

(38)

(39)

Metoda jakościowa

(40)

• IND(B) = {{1}{2,5}{3}{4}{6}}

• X

_tak

= {1,2,3,4}

• X

_nie

= {5,6}

• BX

_Tak

= {1,3,4}

• BX

_Nie

= {6}

• 

_Tak

=3/6

• 

_Nie

=1/6

Metoda mówi, aby usunąd ten obiekt, dla którego uzyskano mniejszą dokładnośd dolnego, bądź górnego

przybliżenia.

Usuniemy niespójnośd ze zbioru „NIE”

(41)

• IND(B) = {{1}{2,5}{3}{4}{6}}

• X

_tak

= {1,2,3,4}

• X

_nie

= {5,6}

• BX

_Tak

= {1,3,4}

• BX

_Nie

= {6}

• 

_Tak

=3/6

• 

_Nie

=1/6

Metoda mówi, aby usunąd ten obiekt, dla którego uzyskano mniejszą dokładnośd dolnego, bądź górnego

przybliżenia.

Usuniemy niespójnośd ze zbioru „NIE”

(42)

Po usunięciu …

(43)

Metoda ilościowa

(44)

Metoda uogólnionego atrybutu

decyzyjnego

(45)

Redukcja atrybutów – pojęcie jądra i reduktów

(46)

(47)

(48)

(49)

Inny przykład…

(50)

(51)

(52)

Metoda „z definicji”

(53)

(54)

(55)

(56)

(57)

(58)

(59)

(60)

(61)

(62)

(63)

(64)