• Nie Znaleziono Wyników

Wprowadzenie do zbiorów przybli»onych

N/A
N/A
Protected

Academic year: 2021

Share "Wprowadzenie do zbiorów przybli»onych"

Copied!
170
0
0

Pełen tekst

(1)

Wprowadzenie do zbiorów przybli»onych

dr Agnieszka Nowak-Brzezi«ska

Instytut Informatyki, Uniwersytet ‘l¡ski, ul. B¦dzinska 39, Sosnowiec, Polska Tel (32) 2 918 381, Fax (32) 2 918 283

Wykªad II i III

(2)

Wst¦p

Teoria zbiorów przybli»onych zostaªa sformuªowana przez Zdzisªawa Pawlaka w 1982 roku.

Jest to matematyczne narz¦dzie pozwalaj¡ce wnioskowa¢ w warunkach niepewno±ci o nieostrych poj¦ciach. W najwi¦kszym skrócie jest to nowe podej±cie do problemów nieostrych poj¦¢.

Jest ona wykorzystywana jako narz¦dzie do syntezy zaawansowanych i efektywnych metod analizy oraz do redukcji zbiorów danych. Znalazªa ona zastosowanie m.in. w eksploracji danych i odkrywaniu wiedzy, zªo»onych zadaniach klasykacji oraz w komputerowych systemach wspomagania decyzji.

Metodologia zbiorów przybli»onych zyskaªa sobie du»¡ popularno±¢. Jest ona przedmiotem bada« wielu osób na caªym ±wiecie. Po±wi¦cono jej przeszªo 2000 publikacji, w tym kilkana±cie ksi¡»ek. Cyklicznie odbywaj¡

si¦ na jej temat mi¦dzynarodowe konferencje i seminaria (m.in. w USA, Kanadzie i Japonii).

(3)

Zbiory przybli»one znane na caªym ±wiecie

(4)

Zbiory przybli»one znane na caªym ±wiecie

(5)

Wprowadzenie do teorii zbiorów przybli»onych

Cz¦±¢ I

Denition

Wprowadzenie do teorii zbiorów przybli»onych.

Cz¦±¢ I.

(6)

System informacyjny

Istnieje szereg struktur, które mog¡ by¢ wykorzystane do przechowywania danych. Sposób reprezentacji danych powinien jednak posiada¢ dwie podstawowe cechy:

uniwersalno±¢ - (powinien pozwala¢ na gromadzenie i przechowywanie zbiorów ró»norodnych danych, opisuj¡cych badane zjawiska i procesy),

efektywno±¢ - (powinien umo»liwia¢ w ªatwy sposób komputerow¡ analiz¦

tak zapisanych danych).

Obie te cechy posiada znany i cz¦sto wykorzystywany w praktyce tablicowy sposób reprezentacji danych.

(7)

System informacyjny

Denicja

System informacyjny SI zdeniowany jest jako dwójka: SI = (U, A) gdzie:

U jest niepustym, sko«czonym zbiorem obiektów,

A jest niepustym, sko«czonym zbiorem atrybutów.

Zbiór Va jest dziedzin¡ atrybutu a ∈ A, V = Sa∈AVa.

Deniuje si¦ rownie» funkcj¦ informacyjn¡. f : U × A → V , tak¡, »e ∀a∈A,x∈U, f (a, x) ∈ Va.

(8)

System informacyjny

Jak nale»y rozumie¢ denicj¦ SI ?

Rysunek:Jak nale»y rozumie¢ denicj¦ SI?

f (C2, 1) = Niski, f (C2, 2) = Wysoki, f (C1, 4) = 2, f (C1, 2) = 1, f (S, 3) = O, f (S, 7) = On.

f : U × A → V : ∀a∈A,x∈Uf (a, x) ∈ Vagdzie Va jest dziedzin¡ atrybutu a ∈ A.

(9)

System informacyjny

System informacyjny a tabela bazy danych?

Rysunek:Jak nale»y rozumie¢ denicj¦ SI?

Poj¦cie systemu informacyjnego odpowiada poj¦ciowo poj¦ciu tabeli (relacji) w bazach danych.

(10)

System informacyjny a system decyzyjny

System decyzyjny to rodzaj systemu informacyjnego, który przydziela obiekty do pewnych klas okre±lonych za pomoc¡ jednego z atrybutów, zwanego atrybutem decyzyjnym.

Atrybuty zawarte w zbiorze A s¡ nazywane warunkowymi albo po prostu warunkami, za± d jest nazywane konkluzj¡ b¡d¹ po prostu decyzj¡ systemu.

Zbiory te s¡ zbiorami sko«czonymi.

i-taklasa decyzyjnato zbiór obiektówCi = {x ∈ U : d(x) = di}, gdziedi jest i -t¡ warto±ci¡ decyzji odpowiadaj¡c¡ zbiorowi warto±ci decyzji

Vd = {d1, . . . ,d|Vd|}.

Reguªa decyzyjnajest formuª¡: (ai1=v1) ∧ . . . ∧ (aik=vk) ⇒ (d = vd),gdzie 1 ≤ i1< . . . <ik ≤m, vj∈Vaij .

(11)

Indukcja reguª decyzyjnych

W procesie indukcji pomocna jestfunkcja rozró»nialno±ci fA, która pozwala budowa¢ reguªy minimalne (optymalne) dla danej tablicy decyzyjnej.

Funkcja rozró»nialno±cifAdla danego systemu informacyjnegoAjest funkcj¡

boolowsk¡mzmiennych boolowskicha1, . . . ,am (odpowiadaj¡cych atrybutom a1, . . . ,am)zdeniowanym przez:

fA=^ n _ cij|1 ≤ j ≤ i ≤ n, cij 6= ∅o gdziecij= {a|a ∈ cij}.

(12)

Tablica decyzyjna

Tablic¡ decyzyjn¡ DT nazywa¢ b¦dziemy system informacyjny w postaci:

DT = (U, A ∪ {d}), gdzie d /∈ A jest atrybutem decyzyjnym niezaliczanym do zbioru atrybutow A systemu.

Atrybuty a ∈ A nazywamy atrybutami warunkowymi.

(13)

System informacyjny - tablica decyzyjna

Pacjent Ból gªowy (g) Ból mi¦sni (m) Temperatura (t) Grypa (c)

1 nie tak wysoka tak

2 tak nie wysoka tak

3 tak tak bardzo wysoka tak

4 nie tak bardzo wysoka tak

5 tak nie wysoka nie

6 nie tak normalna nie

Tabela przedstawia przykªadowy system informacyjny zawieraj¡cy wyniki bada«

przeprowadzonych dla grupy pacjentów. System ten skªada si¦ z sze±ciu obiektów (1, 2, ..,6) oraz czterech atrybutów: Ból gªowy, Ból mi¦±ni, Temperatura, Grypa.

(14)

Denicja przykªadowego SI

Rozpatrywany system informacyjny mo»e zosta¢ zapisany w nast¦puj¡cej postaci: SI = (U, A, V , f ) gdzie:

U={1, 2, 3, 4, 5, 6}

A={Ból gªowy, Ból mi¦±ni, Temperatura, Grypa}

V = VBolglowy∪VBolmiesni∪VTemperatura∪VGrypa

VBolglowy= {nie, tak}

VBolmiesni = {nie, tak}

VTemperatura= {normalna, wysoka, bardzowysoka}

VGrypa= {nie, tak}

f : U × A → V (np. f(1, Ból gªowy)=nie; f(3, Grypa) = tak)

(15)

Powtórka  iloczyn kartezja«ski

Iloczyn kartezja«ski zbiorów A i B to zbiór wszystkich par uporz¡dkowanych (a, b), takich, »e a nale»y do zbioru A, za± b nale»y do zbioru B. Oznacza si¦

go symbolem A × B. Formalnie:

A × B = {(a, b) : a ∈ A, b ∈ B}

Iloczyn kartezja«ski mo»e by¢ zbudowany na tym samym zbiorze, np. A × A, co bywa oznaczane A2. Formalnie:

A × A = {(a, b) : a ∈ A, b ∈ A}

Iloczyn kartezja«ski dla zbioru obiektów U tablicy decyzyjnej DT : Iloczyn kartezja«ski U × U to zbiór par obiektów.

U × U = {(x, y) : x ∈ U, y ∈ U}

U×U = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (3, 3), (3, 4), (3, 5), (3, 6), (4, 4), (4, 5), (4, 6), (5, 5), (5, 6), (6, 6)}

(16)

Powtórka  relacja

Denition

Relacja pomi¦dzy elementami zbioru A a elementami zbioru B to wybrany podzbiór iloczynu kartezja«skiego A × B.

Relacj¦ tworz¡ pary elementów wybrane z iloczynu kartezja«skiego wedªug pewnego kryterium.

W praktyce najpopularniejsze i najszerzej stosowane s¡ relacje dwuargumentowe (dwuczªonowe, binarne), zwykle nazywane po prostu relacjami.

Denition

Je±li zaªo»ymy, »e relacja nazywa si¦ np. R, to zapis xRy oznacza, »e x jest w relacji R z y.

(17)

Relacja nierozró»nialno±ci

O relacji nierozró»nialno±ci mówimy wówczas, gdy w rozpatrywanym systemie mamy do czynienia z obiektami o identycznych opisach, b¡d¹ obiektami o tej samej warto±ci danego atrybutu (-ów [kilku, nie wszystkich]).

Analizuj¡c poszczególne obiekty z tabeli mo»na zaobserwowa¢, »e obiekty o numerach 1, 4 i 6 maj¡ te same warto±ci atrybutów: ból gªowy oraz ból mi¦±ni za± obiekty o numerach 1 i 5 maj¡ t¦ sam¡ warto±¢ atrybutu temperatura. O obiektach numer 1, 4 i 6 powiemy, »e s¡ nierozró»nialne ze wzgl¦du na atrybuty: ból gªowyorazból mi¦±ni, za± obiekty o numerach 1 i 5 s¡

nierozró»nialne ze wzgl¦du na atrybut: temperatura.

T¦ obserwacj¦ mo»na uogólni¢ i wyrazi¢ w sposób formalny stosuj¡c odpowiednio zdeniowan¡ relacj¦.

(18)

Relacja nierozró»nialno±ci

Niech SI = (U, A, V , f ) b¦dzie systemem informacyjnym i niech B ⊆ A.

Denition

Relacj¦ nie rozró»nialno±ci (ang. indiscernibility relation) na zbiorze obiektów U generowan¡ przez zbiór atrybutów B okre±lamy jako:

IND(B) = {(x, y) ∈ U × U : ∀

a ∈ Ba(x) = a(y)}

gdzie znak = mi¦dzy a(x) i a(y) nale»y rozumie¢ w ten sposób, »e dla obiektów x i y, nale»¡cych do U, atrybut a przyjmuje tak¡ sam¡ warto±¢.

Denition

Zapis w postaci: xIND(B)y oznacza, »e x jest w relacji IND(B) z y. Mówi¡c konkretnie: obiekt x systemu informacyjnego SI jest nierozró»nialny od obiektu y tego» samego systemu, ze wzgl¦du na wybrany podzbiór atrybutów B.

(19)

Wªasno±ci relacji nierozró»nialno±ci

Poszczególne pary obiektów nale»¡ do relacji wtedy, gdy posiadaj¡ te same warto±ci dla wszystkich atrybutów ze zbioru B.

Relacja nierozró»nialno±ci IND(B) jest relacj¡ równowa»no±ci, gdy» jest relacj¡:

zwrotn¡, gdy»: u∈U (u, u) ∈ IND(B)

symetryczn¡, gdy»: u,v∈U ((u, v) ∈ IND(B) ⇒ (v, u) ∈ IND(B))

przechodni¡, gdy»:

u,v,w∈U((u, v) ∈ IND(B) V(v, w) ∈ IND(B) ⇒ (u, w) ∈ IND(B))

(20)

Relacja nierozró»nialno±ci - cd

Dla systemu informacyjnego przedstawionego w tabeli mo»na wyznaczy¢ relacje nierozró»nialno±ci generowane przez ró»ne zbiory atrybutów:

Pacjent Ból gªowy (g) Ból mi¦sni (m) Temperatura (t) Grypa (c)

1 nie tak wysoka tak

2 tak nie wysoka tak

3 tak tak bardzo wysoka tak

4 nie tak bardzo wysoka tak

5 tak nie wysoka nie

6 nie tak normalna nie

Tablica:System informacyjny / tablica decyzyjna Niech: A1= {g, m, t}, A2= {t}, A3= {g, m}, A4= {g, t, c}, A5= {g, m, t, c}

INDSI(A1) = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6), (2, 5), (5, 2)}

INDSI(A2) = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6), (1, 2), (2, 1), (1, 5), (5, 1), (2, 5), (5, 2), (3, 4), (4, 3)}

INDSI(A3) = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6), (1, 4), (4, 1), (1, 6), (6, 1), (4, 6), (6, 4), (2, 5), (5, 2)}

INDSI(A4) = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}

(21)

Dowód, »e IND(B) jest relacj¡ zwrotn¡

1. Niech SI = (U, A) b¦dzie systemem informacyjnym i niech B ⊆ A.

2. Relacja IND(B) jest zwrotn¡, bo:

3. We¹my dowolny obiekt x ∈ U, mamy wi¦c:

a∈B,a(x) = a(x)

4. a wi¦c z denicji:

(x, x) ∈ IND(B).

(22)

Dowód, »e IND(B) jest relacj¡ symetryczn¡

1. Niech SI = (U, A) b¦dzie systemem informacyjnym i niech B ⊆ A.

2. Relacja IND(B) jest symetryczn¡, bo:

3. We¹my dowolne obiekty x, y ∈ U, 4. zaªó»my, »e:

(x, y) ∈ IND(B) 5. mamy wtedy:

a∈B,a(x) = a(y) 6. st¡d:

a∈B,a(y) = a(x) 7. a wi¦c:

(y, x) ∈ IND(B)

(23)

Dowód, »e IND(B) jest relacj¡ przechodni¡

1. Niech SI = (U, A) b¦dzie systemem informacyjnym i niech B ⊆ A.

2. Relacja IND(B) jest przechodni¡, bo:

3. We¹my dowolne obiekty x, y, z ∈ U,

4. zaªó»my, »e (x, y) ∈ IND(B) oraz (y, z) ∈ IND(B), 5. mamy wtedy:

a∈B, (a(x) = a(y) ∧ a(y) = a(z)) 6. st¡d:

∀a ∈ B, a(x) = a(z) 7. a wi¦c:

(x, z) ∈ IND(B).

(24)

Klasy abstrakcji

Relacja nierozró»nialno±ci IND(B) b¦d¡c relacj¡ równowa»no±ciow¡, dzieli zbiór obiektów U na rozª¡czne, niepuste klasy abstrakcji.

Klasy abstrakcji relacji nierozró»nialno±ci IND(B) oznacza si¦ U/IND(B).

Ka»da klasa abstrakcji relacji nierozró»nialno±ci IND(B) to zbiór obiektów nierozró»nialnych ze wzgl¦du na atrybuty ze zbioru B.

Klasy abstrakcji U/IND(B) relacji nierozró»nialno±ci IND(B) to zatem zbiór zbiorów takich obiektów, które s¡ nierozró»nialne ze wzgl¦du na atrybuty ze zbioru B.

Klasa abstrakcji dla obiektu x ∈ U relacji IND(B) zdeniowana jest nast¦puj¡co: [x]IND(B)= {y ∈ U, ∀a∈B,a(x) = a(y)}

(25)

Klasy abstrakcji - cd

Powy»sze relacje dziel¡ zbiór obiektów systemu informacyjnego na nast¦puj¡ce klasy abstrakcji (zbiory elementarne):

U/IND(A1) = {{1}, {2, 5}, {3}, {4}, {6}}

U/IND(A2) = {{1, 2, 5}, {3, 4}, {6}}

U/IND(A3) = {{1, 4, 6}, {2, 5}, {3}}

U/IND(A4) = {{1}, {2}, {3}, {4}, {5}, {6}}

U/IND(A) = {U/IND(A4)}

Na tej podstawie mo»na wyznaczy¢ przykªadowe klasy abstrakcji zawieraj¡ce poszczególne obiekty systemu informacyjnego:

ISI ,A3(1) = {1, 4, 6}

ISI ,A3(2) = {2, 5}

ISI ,A3(3) = {3}

(26)

Aproksymacja zbiorów  przybli»enie dolne, górne, brzeg zbior Problem z jednoznaczn¡ klasykacj¡ obiektów do pewnego podzbioru

Jednym z celów wnioskowania w systemach decyzyjnych jest próba stwierdzenia czy obiekt (lub ich grupa) nale»y do pewnej klasy, lub nie.

Inaczej mówi¡c  czy nale»¡ do pewnego poj¦cia czy nie.

Proces taki opiera si¦ na opisie obiektu wyra»onym przy pomocy atrybutów.

Wybrany podzbiór atrybutów systemu informacyjnego determinuje podziaª obiektów na rozª¡czne klasy abstrakcji.

Wa»nym problemem jest zdolno±¢ radzenia sobie z niedoskonaªymi danymi. Jednym ze ¹ródeª trudno±ci w zadaniach opisu czy klasykacji jest istnienie niespójno±ci w dost¦pnych danych.

Obiekty posiadaj¡ce identyczne (lub podobne) opisy, lecz zaliczone do ró»nych poj¦¢, uniemo»liwiaj¡ stworzenie jednoznacznej denicji tych»e poj¦¢.

Niespójno±ci nie powinny by¢ traktowane wyª¡cznie jako wynik bª¦du czy szumu informacyjnego. Mog¡ one tak»e wynika¢ z niedost¦pno±ci cz¦±ci informacji, naturalnej granularno±ci i niejednoznaczno±ci j¦zyka

reprezentacji.

(27)

Zbiory przybli»one a problem z jednoznaczn¡ klasykacj¡ obiektów

Teoria zbiorów przybli»onych (ang. rough sets) zaproponowana przez Zdzisªawa Pawlaka jest dogodnym narz¦dziem analizy tego typu niespójno±ci informacji.

Teoria oparta jest na zaªo»eniu, »e posiadaj¡c informacj¦ reprezentowan¡ za pomoc¡ atrybutów i ich warto±ci na obiektach, mo»liwe jest okre±lenie relacji zachodz¡cej pomi¦dzy tymi obiektami. Obiekty posiadaj¡ce ten sam opis, wyra»ony za pomoc¡ atrybutów, s¡ nierozró»nialne ze wzgl¦du na dost¦pn¡

informacj¦.

W przypadku niemo»liwo±ci precyzyjnego zdeniowania zbioru obiektów (poj¦cia, klasy decyzyjnej) tworzy ona dolne i górne przybli»enie tego zbioru na podstawie klas relacji nierozró»nialno±ci pomi¦dzy obiektami.

(28)

Poj¦cia nieostre a zbiór dokªadny oraz zbiór przybli»ony

Operowanie poj¦ciami nieostrymi (nie±cisªymi, nieprecyzyjnymi) jest bez w¡tpienia jednym z gªównych problemów rozumowa« potocznych. Poj¦cia nieostre ró»ni¡ si¦ tym od poj¦¢ ostrych, »e w przeciwie«stwie do tych ostatnich nie zawsze mo»liwe jest jednoznaczne zaklasykowanie obiektu do poj¦cia, tzn. dla pewnej grupy obiektów z otaczaj¡cej nas

rzeczywisto±ci nie mo»na  stwierdzi¢ jednoznacznie czy dany obiekt nale»y do rozpatrywanego poj¦cia, czy te» nie nale»y. Na przykªad mog¡

to by¢ poj¦cia takie jak: maªe dziecko, pi¦kna kobieta, wysoki czªowiek, dobra ksi¡»ka, ªatwe zadanie itd.

Teoria zbiorów przybli»onych proponuje zast¡pienie nieostrego (nieprecyzyjnego) poj¦cia,par¡ poj¦¢ precyzyjnych, zwanych dolnym i górnym przybli»eniem tego poj¦cia.

Ró»nica mi¦dzy górnym i dolnym przybli»eniem jest wªa±nie tym obszarem granicznym, do którego nale»¡ wszystkie przypadki, które nie mog¡ by¢

prawidªowo zaklasykowane na podstawie aktualnej wiedzy. Im wi¦kszy obszar graniczny poj¦cia tym bardziej jest ono nieostre (nieprecyzyjne).

(29)

Zbiór dokªadny oraz zbiór przybli»ony

(30)

Aproksymacja - denicje

Denition

Niech SI = {U, A, V , f } b¦dzie systemem informacyjnym i niech B ⊆ A.

Denition

Mówimy, »e zbiór P ⊆ U jest zbiorem B  dokªadnym (B  deniowalnym) wtedy, gdy jest on sko«czon¡ sum¡ zbiorów B  elementarnych.

Denition

Ka»dy zbiór, który nie jest sko«czon¡ sum¡ zbiorów B  elementarnych jest zbiorem B  przybli»onym.

(31)

Przykªad

Niech:

X1= {1, 2, 3, 5}

X2= {3, 4, 5, 6}

A1= {g, m, t}, A2= {t}

oraz

U/INDSI(A1) = {{1}, {2, 5}, {3}, {4}, {6}}

U/INDSI(A2) = {{1, 2, 5}, {3, 4}, {6}}

Wówczas:

Zbiór X1jest zbiorem A1 dokªadnym, gdy» jest sko«czon¡ sum¡ zbiorów A1 elementarnych: X1= {{1} ∪ {2, 5} ∪ {3}}

Ale:

Zbiór X2jest zbiorem A1 przybli»onym, gdy» nie jest sko«czon¡ sum¡ zbiorów A1

 elementarnych (obiekty 2 i 5 nale»¡ do jednego zbioru B  elementarnego, za±

zbiórX2zawiera tylko obiekt numer 5, a nie zawiera obiektu numer 2)

(32)

Przykªad - cd

Niech:

X1= {1, 2, 3, 5}

X2= {3, 4, 5, 6}

A1= {g, m, t}, A2= {t}

U/INDSI(A1) = {{1}, {2, 5}, {3}, {4}, {6}}

U/INDSI(A2) = {{1, 2, 5}, {3, 4}, {6}}

Mo»emy dalej stwierdzi¢, »e:

Zbiór X1jest zbiorem A2 przybli»onym, gdy» nie jest sko«czon¡ sum¡ zbiorów A2 elementarnych (obiekty 3 i 4 nale»¡ do jednego zbioru C  elementarnego, za± zbiór X1

zawiera tylko obiekt numer 3, a nie zawiera obiektu numer 4)

Zbiór X2jest zbiorem A2 przybli»onym, gdy» nie jest sko«czon¡ sum¡ zbiorów A2 elementarnych (obiekty 1, 2 i 5 nale»¡ do jednego zbioru C  elementarnego, za± zbiór X2zawiera tylko obiekt numer 5, a nie zawiera obiektów numer 1 i 2)

(33)

Aproksymacja zbioru - denicja

Je±li SI = {U, A, V , f } jest systemem informacyjnym takim, »e B ⊆ A oraz X ⊆ U to:

B  dolnym przybli»eniem (aproksymacj¡) zbioru X w systemie informacyjnym SI nazywamy zbiór:

BX = {x ∈ U : ISI ,B(x) ⊆ X }

B  górnym przybli»eniem (aproksymacj¡) zbioru X w systemie informacyjnym SI nazywamy zbiór:

BX = {x ∈ U : ISI ,B(x) ∩ X 6= ∅}

(34)

Aproksymacje zbiorów  interpretacja

Za pomoc¡ dolnej i górnej aproksymacji jeste±my w stanie okre±li¢ nieostre poj¦cie w ±cisªy sposób.

Dolna aproksymacja poj¦cia, to wszystkie te obiekty, które nale»¡ bez w¡tpienia do poj¦cia X . Nale»¡ one bowiem do takich klas abstrakcji, które w caªo±ci zawieraj¡ si¦ w poj¦ciu X .

Górna aproksymacja poj¦cia, to zbiór takich obiektów, co do których nie mo»emy wykluczy¢, »e nale»¡ do poj¦cia X . Jest to spowodowane tym, »e nale»¡ do klas abstrakcji maj¡cych niepuste przeci¦cie z poj¦ciem X . S¡

zatem nierozró»nialne z pewnymi obiektami nale»¡cymi do tego poj¦cia.

Brzeg zbioru X zawiera obiekty, których nie mo»na jednoznacznie przydzieli¢ do X z uwagi na sprzeczny opis.

(35)

Wspóªczynniki dokªadno±ci dla aproksymacji zbioru X

Zbiór przybli»ony X mo»e by¢ scharakteryzowany ilo±ciowo za pomoc¡:

Wspóªczynnika dokªadno±ci przybli»enia: αBX = ||BX |BX |, gdzie |X | to liczno±¢ niepustego zbioru X ,

Wspóªczynnika dokªadno±ci przybli»enia dolnego: αBX =|BX ||U|

Wspóªczynnika dokªadno±ci przybli»enia górnego:αBX = |BX ||U|

(36)

Obszary pozytywne i negatywne zbiorów

B  pozytywnym obszarem (ang. positive area)zbioru X w systemie informacyjnym SI nazywamy zbiór:

POSB(X ) = BX

B brzegiem (granic¡) (ang. boundary)zbioru X w systemie informacyjnym SI nazywamy zbiór:

BNB(X ) = BX − BX

B  negatywnym obszarem (ang. negative area)zbioru X w systemie informacyjnym SI nazywamy zbiór:

NEGBX = U − BX

(37)

Interpretacja dolnego i górnego przybli»enia zbioru

Denition

Dolne przybli»enie poj¦cia jest to wi¦c poj¦cie, do którego nale»¡ wszystkie obiekty, co do których nie ma w¡tpliwo±ci, »e s¡ one reprezentantami tego poj¦cia w ±wietle posiadanej wiedzy.

Denition

Do górnego przybli»enia nale»¡ obiekty, których nie mo»na wykluczy¢, »e s¡

reprezentantami tego poj¦cia.

Denition

Brzegiem za± poj¦cia s¡ wszystkie te obiekty, co do których nie wiadomo czy s¡

czy nie reprezentantami danego zbioru.

Z denicji powy»szych mo»emy wysnu¢ nast¦puj¡ce wnioski:

BX ⊆ X ⊆ BX

zbiór X jest B-dokªadny, gdy: BX = BX ⇐⇒ BNBX = ∅

zbiór X jest B-przybli»ony, gdy: BX 6= BX ⇐⇒ BNBX 6= ∅

(38)

Interpretacja dolnego i górnego przybli»enia zbioru

Denition

Dolne przybli»enie poj¦cia jest to wi¦c poj¦cie, do którego nale»¡ wszystkie obiekty, co do których nie ma w¡tpliwo±ci, »e s¡ one reprezentantami tego poj¦cia w ±wietle posiadanej wiedzy.

Denition

Do górnego przybli»enia nale»¡ obiekty, których nie mo»na wykluczy¢, »e s¡

reprezentantami tego poj¦cia.

Denition

Brzegiem za± poj¦cia s¡ wszystkie te obiekty, co do których nie wiadomo czy s¡

czy nie reprezentantami danego zbioru.

Z denicji powy»szych mo»emy wysnu¢ nast¦puj¡ce wnioski:

BX ⊆ X ⊆ BX

zbiór X jest B-dokªadny, gdy: BX = BX ⇐⇒ BNBX = ∅

zbiór X jest B-przybli»ony, gdy: BX 6= BX ⇐⇒ BNBX 6= ∅

(39)

Interpretacja dolnego i górnego przybli»enia zbioru

Denition

Dolne przybli»enie poj¦cia jest to wi¦c poj¦cie, do którego nale»¡ wszystkie obiekty, co do których nie ma w¡tpliwo±ci, »e s¡ one reprezentantami tego poj¦cia w ±wietle posiadanej wiedzy.

Denition

Do górnego przybli»enia nale»¡ obiekty, których nie mo»na wykluczy¢, »e s¡

reprezentantami tego poj¦cia.

Denition

Brzegiem za± poj¦cia s¡ wszystkie te obiekty, co do których nie wiadomo czy s¡

czy nie reprezentantami danego zbioru.

Z denicji powy»szych mo»emy wysnu¢ nast¦puj¡ce wnioski:

BX ⊆ X ⊆ BX

zbiór X jest B-dokªadny, gdy: BX = BX ⇐⇒ BNBX = ∅

zbiór X jest B-przybli»ony, gdy: BX 6= BX ⇐⇒ BNBX 6= ∅

(40)

Liczbowa charakterystyka aproksymacji zbioru

Ka»dy zbiór (przybli»ony lub dokªadny) mo»na scharakteryzowa¢ ilo±ciowo za pomoc¡ wspóªczynnika dokªadno±ci aproksymacji (przybli»enia).

Denition

Wspóªczynnik dokªadno±ci aproksymacji zbioru X w systemie informacyjnym SI wzgl¦dem zbioru atrybutów B wyra»a si¦ wzorem:

αB(X ) = card(POSB(X ))

card(BX ) = card(BX ) card(BX ) gdzie card(X ) oznacza liczno±¢ zbioru X .

Šatwo zauwa»y¢, »e:

0 ≤ αB(X ) ≤ 1

je»eli X jest zbiorem dokªadnym to: αB(X ) = 1

je»eli X jest zbiorem przybli»onym to: 0 ≤ αB(X ) < 1

(41)

Liczbowa charakterystyka aproksymacji zbioru

Ka»dy zbiór (przybli»ony lub dokªadny) mo»na scharakteryzowa¢ ilo±ciowo za pomoc¡ wspóªczynnika dokªadno±ci aproksymacji (przybli»enia).

Denition

Wspóªczynnik dokªadno±ci aproksymacji zbioru X w systemie informacyjnym SI wzgl¦dem zbioru atrybutów B wyra»a si¦ wzorem:

αB(X ) = card(POSB(X ))

card(BX ) = card(BX ) card(BX ) gdzie card(X ) oznacza liczno±¢ zbioru X .

Šatwo zauwa»y¢, »e:

0 ≤ αB(X ) ≤ 1

je»eli X jest zbiorem dokªadnym to: αB(X ) = 1

je»eli X jest zbiorem przybli»onym to: 0 ≤ αB(X ) < 1

(42)

Liczbowa charakterystyka aproksymacji zbioru

Ka»dy zbiór (przybli»ony lub dokªadny) mo»na scharakteryzowa¢ ilo±ciowo za pomoc¡ wspóªczynnika dokªadno±ci aproksymacji (przybli»enia).

Denition

Wspóªczynnik dokªadno±ci aproksymacji zbioru X w systemie informacyjnym SI wzgl¦dem zbioru atrybutów B wyra»a si¦ wzorem:

αB(X ) = card(POSB(X ))

card(BX ) = card(BX ) card(BX ) gdzie card(X ) oznacza liczno±¢ zbioru X .

Šatwo zauwa»y¢, »e:

0 ≤ αB(X ) ≤ 1

je»eli X jest zbiorem dokªadnym to: αB(X ) = 1

je»eli X jest zbiorem przybli»onym to: 0 ≤ αB(X ) < 1

(43)

Przykªad

Je±li:

X1= {1, 2, 3, 5}

X2= {3, 4, 5, 6}

oraz

U/INDSI(A1) = {{1}, {2, 5}, {3}, {4}, {6}}

U/INDSI(A2) = {{1, 2, 5}, {3, 4}, {6}}

Liczymy teraz dokªadno±¢ aproksymacji dla zbiorów X1oraz X2 wzgl¦dem zbioru atrybutów A1:

αA1(X1) = card(A1X1)

card(A1X1)= 44 =1 αA1(X2) = card(A1X2)

card(A1X2)= 35 =0.6

gdzie card(X ) oznacza liczno±¢ zbioru X .

(44)

Niespójno±¢ w danych

Niespójno±¢ danych zachodzi wówczas, gdy dla takich samych danych wej±ciowych system podj¡ªby odmienne decyzje.

Praca z systemem o niespójnej wiedzy jest niemo»liwa.

Niespójno±¢ nale»y usun¡¢.

(45)

Niespójno±¢ w danych

Niespójno±¢ danych zachodzi wówczas, gdy dla takich samych danych wej±ciowych system podj¡ªby odmienne decyzje.

Praca z systemem o niespójnej wiedzy jest niemo»liwa.

Niespójno±¢ nale»y usun¡¢.

(46)

Niespójno±¢ w danych

Niespójno±¢ danych zachodzi wówczas, gdy dla takich samych danych wej±ciowych system podj¡ªby odmienne decyzje.

Praca z systemem o niespójnej wiedzy jest niemo»liwa.

Niespójno±¢ nale»y usun¡¢.

(47)

Pacjent Ból gªowy (g) Ból mi¦sni (m) Temperatura (t) Grypa (c)

1 nie tak wysoka tak

2 tak nie wysoka tak

3 tak tak bardzo wysoka tak

4 nie tak bardzo wysoka tak

5 tak nie wysoka nie

6 nie tak normalna nie

Dla obiektów 2 i 5 zachodzi niespójno±¢, gdy», dla tych samych atrybutów warunkowych zachodz¡ ró»ne decyzje:

ból gªowy=tak and ból mi¦±ni=nie and temp=wysoka dla obiektu 2 podano decyzj¦: Grypa=tak

dla obiektu 5 podano decyzj¦: Grypa=nie

(48)

Usuwanie niespójno±ci z tablicy decyzyjnej

Wyró»ni¢ mo»na 5 metod usuwania niespójno±ci w tablicach decyzyjnych:

1. Zwróci¢ si¦ do EKSPERTA aby dla obiektów 2 i 5 podj¡ª jedn¡ decyzj¦.

2. Utworzenie dwóch (lub wi¦cej w przypadku ogólnym) spójnych tablic decyzyjnych, poprzez rozdzielenie sprzecznych obiektów.

3. Usuni¦cie obiektów b¦d¡cych przyczyn¡ niespójno±ci(metoda ilo±ciowa).

4. Mo»na posªu»y¢ si¦ tutaj równie» metod¡ jako±ciow¡.

5. Metoda tworzenia nowego atrybutu decyzyjnego (metoda uogólnionego atrybutu decyzyjnego)

(49)

Usuwanie niespójno±ci z tablicy decyzyjnej

Zwrócenie si¦ do EKSPERTA

Zwrócenie si¦ do EKSPERTA

Jest to sposób najprostszy przerzucaj¡cy ci¦»ar usuni¦cia niespójno±ci z tablicy na eksperta. Niestety bardzo cz¦sto zdarza si¦, »e ekspert nie potra podj¡¢

jednoznacznej decyzji. Twierdzi np. »e dla takich atrybutów (parametrów) raz podejmuje decyzje 1 innym razem decyzje 2. W takim przypadku metoda ta nie daje rezultatu.

(50)

Usuwanie niespójno±ci z tablicy decyzyjnej

Utworzenie dwóch (lub wi¦cej w przypadku ogólnym) spójnych tablic decyzyjnych, poprzez rozdzielenie sprzecznych obiektów.

Jest to jednak tylko pozorne rozwi¡zanie problemu. Powstan¡ dwa zbiory reguª dla pierwszej i drugiej tablicy. Reguªy powstaªe na podstawie obiektu 2 w tablicy pierwszej i reguªa dla obiektu 5 w tablicy drugiej, b¦d¡ sprzeczne.

Pacjent Ból gªowy (g) Ból mi¦sni (m) Temperatura (t) Grypa (c)

1 nie tak wysoka tak

2 tak nie wysoka tak

3 tak tak bardzo wysoka tak

4 nie tak bardzo wysoka tak

6 nie tak normalna nie

Pacjent Ból gªowy (g) Ból mi¦sni (m) Temperatura (t) Grypa (c)

1 nie tak wysoka tak

3 tak tak bardzo wysoka tak

4 nie tak bardzo wysoka tak

5 tak nie wysoka nie

6 nie tak normalna nie

(51)

Metoda jako±ciowa

Metoda jako±ciowa

Usuniemy ten obiekt, którego warto±¢ decyzja jest "mniej wa»¡ca". "Mniej wa»¡ca"to znaczy maj¡ca mniejsz¡ dokªadno±¢ dolnego lub górnego przybli»enia.

Dla ka»dego X ⊆ U i B ⊆ A dokªadno±¢ dolnego przybli»enia γB(X ) obliczymy ze wzoru:

γB(X ) = |BX |

|U|

Dokªadno±¢ górnego przybli»enia γB(X ) obliczymy ze wzoru:

γB(X ) = |BX |

|U|

Wówczas usuwamy ten obiekt, dla którego dokªadno±ci (górnego b¡d¹ dolnego) przybli»enia byªa mniejsza.

(52)

Przykªad usuwania niespójno±ci metod¡ jako±ciow¡

Najpierw dzielimy zbiór obiektów X ze wzgl¦du na decyzj¦ na dwa rozª¡czne podzbiory X1 oraz X2.

X1= {1, 2, 3, 4}

X2= {5, 6}

Generujemy teraz klasy rozró»nialno±ci dla caªego zbioru atrybutów warunkowych:

U/IND(C) = {{1}, {2, 5}, {3}, {4}, {6}}.

B  dolnym przybli»eniem zbioru X w systemie informacyjnym SI nazywamy zbiór:

BX = {x ∈ U : ISI ,B(x) ⊆ X }

B  górnym przybli»eniem zbioru X w systemie informacyjnym SI nazywamy zbiór:

BX = {x ∈ U : ISI ,B(x) ∩ X 6= ∅}

(53)

Przykªad - cd

Teraz mo»na juz wyznaczy¢ dla ka»dego ze zbiorów klasy decyzyjnych: X1oraz X2przybli»enie dolne oraz górne.

X1= {1, 2, 3, 4}

X2= {5, 6}

U/IND(C) = {{1}, {2, 5}, {3}, {4}, {6}}.

BX1= {1, 3, 4}

BX1= {1, 2, 3, 4, 5}

BX2= {6}

BX2= {2, 5, 6}

Teraz mo»na juz przyst¡pi¢ do wyliczenia dokªadno±ci górnego oraz dolnego przybli»enia:

γB(X1) = |BX|U|1| =36 =12

γB(X2) = |BX|U|2| =16

γB(X1) = |BX|U|1| =56

γB(X2) = |BX|U|2| =36 =12

Metoda mówi, aby usun¡¢ ten obiekt, dla którego uzyskano mniejsz¡

dokªadno±¢ dolnego, b¡d¹ górnego przybli»enia w zale»no±ci od wybranego wariantu. W naszym przypadku usuniemy obiekt, który powodowaª niespójno±¢

i wyst¦powaª w zbiorze X2.

(54)

Spójna tablica decyzyjna

Spójna juz teraz tablica decyzyjna wygl¡da nast¦puj¡co:

Pacjent Ból gªowy (g) Ból mi¦sni (m) Temperatura (t) Grypa (c)

1 nie tak wysoka tak

2 tak nie wysoka tak

3 tak tak bardzo wysoka tak

4 nie tak bardzo wysoka tak

6 nie tak normalna nie

Tablica: System informacyjny / tablica decyzyjna po usuni¦ciu niespójno±ci

(55)

Usuni¦cie obiektów b¦d¡cych przyczyn¡ niespójno±ci

Powstaje problem, który obiekt usun¡¢. Mo»na posªu»y¢ si¦ tutaj metod¡

ilo±ciow¡.

Metoda ilo±coiwa

Wówczas usuniemy ten obiekt(-y), którego decyzja mniej razy byªa potwierdzana.

(56)

Tworzenie nowego podziaªu (Systemu informacyjnego)

Tworzenie nowego podziaªu (Systemu informacyjnego)

Decyzja d wyznacza klasykacj¦: ClassA(d) = {X1, ...,Xr(d)}, (gdzie (d) - to ilo±¢ ró»nych warto±ci atrybutu decyzyjnego.) Tworzymy nowy podziaª:

App − ClassA(d) = {A|X 1, ...,A|Xr(d)}[

{BdA(θ) : |θ| >1}

Ten nowy podziaª tworzy tablice decyzyjn¡ spójn¡.

Tabela nr 1, (niespójna) po dodaniu do systemu informacyjnego, nowego, uogólnionego atrybutu decyzyjnego wygl¡da nast¦puj¡co:

(57)

Macierz, tablica, funkcja oraz wektor rozró»nialno±ci dla systemu informacyjnego

Macierz rozró»nialno±ci

Denition

Je±li SI = {U, A, V , f } jest systemem informacyjnym takim, »e U = {u1,u2, ..,un}i A = {a1,a2, ..,am}, to macierz rozró»nialno±ci

(odró»nialno±ci) systemu informacyjnego SI M(SI ) (ang. discernibility matrix) deniujemy nast¦puj¡co:

M(SI ) = (Hi,j)i,j=1,..,n= {a ∈ A : f (ui,a) 6= f (uj,a)}

dlai, j = 1, .., n, gdzien = |U|.

Macierz rozró»nialno±ci jest dwuwymiarow¡ macierz¡ kwadratow¡ o wymiarach: |U| × |U|.

Komórka M(SI )[i, j] zawiera zbiór tych atrybutów, dla których obiekty uniwersum ui i uj maj¡ ró»ne warto±ci (s¡ rozró»nialne przy pomocy tych atrybutów).

(58)

Spójna juz teraz tablica decyzyjna wygl¡da nast¦puj¡co:

Pacjent Ból gªowy (g) Ból mi¦sni (m) Temperatura (t) Grypa (c)

1 nie tak wysoka tak

2 tak nie wysoka tak

3 tak tak bardzo wysoka tak

4 nie tak bardzo wysoka tak

6 nie tak normalna nie

Tablica: System informacyjny / tablica decyzyjna po usuni¦ciu niespójno±ci

1 2 3 4 6

1 ∅

2 g,m ∅

3 g,t m,t ∅

4 t g,m,t g ∅

6 t g,m,t g,t t ∅

Tablica:Macierz rozró»nialno±ci dla system informacyjnego

(59)

Wªasno±ci macierzy rozró»nialno±ci

macierz M(SI ) ma zawsze na przek¡tnej zbiory puste (∅),

macierz M(SI ) jest symetryczna wzgl¦dem przek¡tnej,

ka»dy element macierzy M(SI ) jest zbiorem,

rozmiar macierzy ro±nie w sposób kwadratowy wraz ze wzrostem liczby obiektów w systemie informacyjnym.

(60)

Wªasno±ci macierzy rozró»nialno±ci

macierz M(SI ) ma zawsze na przek¡tnej zbiory puste (∅),

macierz M(SI ) jest symetryczna wzgl¦dem przek¡tnej,

ka»dy element macierzy M(SI ) jest zbiorem,

rozmiar macierzy ro±nie w sposób kwadratowy wraz ze wzrostem liczby obiektów w systemie informacyjnym.

(61)

Wªasno±ci macierzy rozró»nialno±ci

macierz M(SI ) ma zawsze na przek¡tnej zbiory puste (∅),

macierz M(SI ) jest symetryczna wzgl¦dem przek¡tnej,

ka»dy element macierzy M(SI ) jest zbiorem,

rozmiar macierzy ro±nie w sposób kwadratowy wraz ze wzrostem liczby obiektów w systemie informacyjnym.

(62)

Wªasno±ci macierzy rozró»nialno±ci

macierz M(SI ) ma zawsze na przek¡tnej zbiory puste (∅),

macierz M(SI ) jest symetryczna wzgl¦dem przek¡tnej,

ka»dy element macierzy M(SI ) jest zbiorem,

rozmiar macierzy ro±nie w sposób kwadratowy wraz ze wzrostem liczby obiektów w systemie informacyjnym.

(63)

Generowanie macierzy rozró»nialno±ci

Wej±cie: A = (U, A) system informacyjny taki, »e U = {u1, ..,un}i A = {a1, ..,am}.

Wyj±cie: M(A) = (Cij)i,j=1,..,n macierz odró»nialno±ci systemu A,przyczym M(A) ma obliczone tylko te pola Cij dla których 1 ≤ j < i ≤ n.

Metoda:

For i=1 to n do For j=1 to i-1 do

Wstaw do Cij atrybuty, na których ró»ni¡ si¦ obiekty ui i uj

(64)

Zªo»ono±¢:

Aby obliczy¢ tablic¦ M(A), nale»y wyznaczy¢ zawarto±¢ n22n pól macierzy.

Zªo»ono±¢ obliczeniowa czasowa wyznaczania ka»dego pola jest zale»na od liczby atrybutów m.

Dlatego zªo»ono±¢ obliczeniowa czasowa algorytmu jest rz¦du O(n2∗m), natomiast zªo»ono±¢ obliczeniowa pami¦ciowa algorytmu jest rz¦du O(C), gdzie C jest pewn¡ staª¡.

Powy»sze cechy sprawiaj¡, »e taka reprezentacja macierzy, jest bardzo niewygodna z programistycznego punktu widzenia. Macierz zawiera

redundantne informacje, zawarto±ci komórek nie s¡ typami prostymi a ponadto nie maj¡ staªej wielko±ci (liczby elementów w zbiorze). W efekcie struktura ta ma bardzo du»¡ zªo»ono±¢ pami¦ciow¡, która dla systemu informacyjnego SI = {U, A, V , f } wynosi: |U|2∗ |A|.

(65)

Funkcja rozró»nialno±ci

Funkcj¡ odró»nialno±ci systemu informacyjnego SI (ang. discernibility function) nazywamy funkcj¦ boolowsk¡ fSI zmiennych a1, ..,am odpowiadaj¡cych odpowiednio atrybutom (systemu informacyjnego) a1, ..,am zdeniowan¡

nast¦puj¡co:

fSI(a1, ..,am) =\ {[

(Xi,j:1 ≤ j ≤ n ∧ Hi, j 6= ∅)}

gdzie:n = |U|, m = |A|, S Xi,j jest alternatyw¡ wszystkich zmiennych

a∈ {a1, ..,am}takich, »e a ∈ Hi, j.

1 2 3 4 6

1 ∅

2 g,m ∅

3 g,t m,t ∅

4 t g,m,t g ∅

6 t g,m,t g,t t ∅

Obliczmy funkcj¦ rozró»nialno±ci dla macierzy odró»nialno±ci:

fSI(g, m, t, c) = (g +m)∗(g +t)∗(t)∗(g +m+c)∗(t +c)∗(m+t)∗(g +m+t)∗

(c)∗(g +m+t+c)∗(g)∗(m+t+c)∗(g +t+c)∗(g +m+t+c)∗(t+c)∗(g +m+t) Wyra»enie to mo»na upro±ci¢ stosuj¡c m.in. prawo pochªaniania

(a + (a ∗ b)) = ado postaci:

fSI(g, m, t, c) = (t ∗ g ∗ c)

(66)

Redukcja atrybutów  poj¦cie j¡dra i reduktów

Nadmiar informacji jest szkodliwy

W celu precyzyjnego i konkretnego opisana relacji pomi¦dzy obiektami wyst¦puj¡cymi w bazie wiedzy, stosuje si¦ redukcj¦ liczby atrybutów opisuj¡cych owe relacje.

Poszukuje si¦ takich podzbiorów atrybutów, które zachowuj¡ podziaª obiektów na klasy decyzyjne taki sam, jak wszystkie atrybuty.

Te zbiory atrybutów nie mog¡ by¢ wyznaczone w dowolny sposób. W teorii zbiorów przybli»onych wykorzystuje si¦ koncepcj¦ reduktu b¦d¡cego

niezale»nym podzbiorem atrybutów zachowuj¡cym taki sam podziaª na klasy decyzyjne jak wszystkie atrybuty.

W¦»szym poj¦ciem jest poj¦cie j¡dra, okre±laj¡cego zbiór atrybutów niezb¦dnych dla zachowania rozró»nialno±ci obiektów w systemie.

(67)

Redukt i Rdze« zbioru atrybutów

Niech SI = {U, A, V , f } b¦dzie systemem informacyjnym oraz B ⊆ A.

Denicja. Atrybut zb¦dny (niezb¦dny)

Atrybut a ⊆ B jest zb¦dny, je»eli IND(B) = IND(B − {a}).

W przeciwnym wypadku (tzn. je»eli IND(B) 6= IND(B − {a}) jest niezb¦dny.

Denicja. Zbiór atrybutów niezale»nych (zale»nych)

A - zbiór atrybutów jest niezale»ny wtedy i tylko wtedy, gdy dla ka»dego a ⊆ A, a jest niezb¦dny. W przeciwnym wypadku zbiór jest zale»ny.

(68)

Denicja - Redukt i rdze« (j¡dro)

B ⊆ A nazywamy reduktem A wtedy i tylko wtedy, gdy B jest niezale»ny oraz IND(B) = IND(A). Zbiór wszystkich reduktów oznaczamy przez RED(A).

Zbiór wszystkich niezb¦dnych atrybutów w B b¦dziemy nazywali rdzeniem (j¡drem) B i oznaczali przez CORE(B).

Powi¡zanie mi¦dzy reduktami i j¡drem Zachodzi nast¦puj¡cy zwi¡zek:

CORE(A) = T RED(A),

gdzie RED(A) to zbiór wszystkich reduktów B, tzn. j¡dro atrybutów to przekrój po wszystkich reduktach.

(69)

Spójna juz teraz tablica decyzyjna wygl¡da nast¦puj¡co:

Pacjent Ból gªowy (g) Ból mi¦sni (m) Temperatura (t) Grypa (c)

1 nie tak wysoka tak

2 tak nie wysoka tak

3 tak tak bardzo wysoka tak

4 nie tak bardzo wysoka tak

6 nie tak normalna nie

Tablica: System informacyjny / tablica decyzyjna po usuni¦ciu niespójno±ci

(70)

Przykªad

Zbiór wszystkich reduktów zbioru atrybutów {g, m, t, c} systemu informacyjnego z tabeli 1 wynosi: REDSI({g, m, t, c}) = {g, t, c}.

Aby udowodni¢, »e zbiór {g, t, c} jest reduktem nale»y pokaza¢, »e zachodz¡

warunki z denicji:

INDSI({g, m, t, c}) = INDSI({g, t, c}),

Mo»emy to pokaza¢, usuwaj¡c z tego zbioru kolejne atrybuty i sprawdzaj¡c czy relacja nierozró»nialno±ci wzgl¦dem takiego okrojonego zbioru jest ró»na od relacji nierozró»nialno±ci wzgl¦dem caªego zbioru atrybutów. Je»eli tak b¦dzie, to zbiór {g, t, c} b¦dzie reduktem.

(71)

Metody generowania reduktów i rdzenia z TD

Redukty i rdze« z tablicy decyzyjnej generuje si¦ jedn¡ z dwóch dróg:

z denicji,

z macierzy rozró»nialno±ci.

(72)

Wyznaczanie j¡dra (rdzenia) z denicji

Wyznacz klasy abstrakcji relacji nierozró»nialno±ci U/IND(B), gdzie B jest to zbiór wszystkich rozwa»anych atrybutów.

Wyznacz klasy abstrakcji z pomini¦ciem i-tego atrybutu U/IND(B − ai).

Je»eli U/IND(B) = U/IND(B − ai)to atrybut ai jest zb¦dny, w przeciwnym wypadku ai jest niezb¦dny i wchodzi do j¡dra CORE(B).

Powtarzaj pkt. 2, a» wykorzystane zostan¡ wszystkie atrybuty z B.

(73)

Wyznaczanie j¡dra (rdzenia) z denicji

Wyznacz klasy abstrakcji relacji nierozró»nialno±ci U/IND(B), gdzie B jest to zbiór wszystkich rozwa»anych atrybutów.

Wyznacz klasy abstrakcji z pomini¦ciem i-tego atrybutu U/IND(B − ai).

Je»eli U/IND(B) = U/IND(B − ai)to atrybut ai jest zb¦dny, w przeciwnym wypadku ai jest niezb¦dny i wchodzi do j¡dra CORE(B).

Powtarzaj pkt. 2, a» wykorzystane zostan¡ wszystkie atrybuty z B.

(74)

Wyznaczanie j¡dra (rdzenia) z denicji

Wyznacz klasy abstrakcji relacji nierozró»nialno±ci U/IND(B), gdzie B jest to zbiór wszystkich rozwa»anych atrybutów.

Wyznacz klasy abstrakcji z pomini¦ciem i-tego atrybutu U/IND(B − ai).

Je»eli U/IND(B) = U/IND(B − ai)to atrybut ai jest zb¦dny, w przeciwnym wypadku ai jest niezb¦dny i wchodzi do j¡dra CORE(B).

Powtarzaj pkt. 2, a» wykorzystane zostan¡ wszystkie atrybuty z B.

(75)

Wyznaczanie j¡dra (rdzenia) z denicji

Wyznacz klasy abstrakcji relacji nierozró»nialno±ci U/IND(B), gdzie B jest to zbiór wszystkich rozwa»anych atrybutów.

Wyznacz klasy abstrakcji z pomini¦ciem i-tego atrybutu U/IND(B − ai).

Je»eli U/IND(B) = U/IND(B − ai)to atrybut ai jest zb¦dny, w przeciwnym wypadku ai jest niezb¦dny i wchodzi do j¡dra CORE(B).

Powtarzaj pkt. 2, a» wykorzystane zostan¡ wszystkie atrybuty z B.

(76)

Algorytm wyznaczania j¡dra z denicji

Dane:B = a1,a2,a3, ...ai, ...an

Tablica KRS

CORE(B) := {}

Wyznacz U/INB(B)

Dla ka»dego a ∈ B wykonaj

Je»eli U/INB(B) 6= U/IND(B − ai)To CORE(B) := CORE(B) ∪ ai

gdzie:

CORE(B) - j¡dro (zbiór atrybutów),

B - rozwa»any zbiór atrybutów,

ai - i-ty atrybut ze zbioru B,

U/INB(B) - klasa abstrakcji relacji nierozró»nialno±ci dla peªnego zbioru atrybutów,

U/IND(B − ai)- klasy abstrakcji relacji nierozró»nialno±ci dla zbioru atrybutów z pomini¦ciem atrybutu ai.

(77)

Wyznaczenie rdzenia z denicji

Wyznacz klasy abstrakcji U/IND(B), gdzie B jest to zbiór wszystkich rozwa»anych atrybutów.

Sprawd¹, czy j¡dro CORE(B) nie jest reduktem.

Poniewa» j¡dro to zbiór atrybutów niezb¦dnych, to sprawd¹, czy U/IND(B) = U/IND(CORE(B)), je»eli tak to j¡dro to jedyny redukt i przejd¹ do Punktu 6.

Sprawd¹ kolejne podzbiory atrybutów Bi ∈B.

Sprawd¹, czy podzbiór Bi jest niezale»ny. Je»eli tak, to sprawd¹ czy U/IND(B) = U/IND(Bi), je»eli zachodzi równo±¢ to podzbiór Bi jest reduktem.

Wypisanie reduktów.

(78)

Podzbiór atrybutów B ⊆ A nazywamy reduktem zbioru atrybutów A, gdy zbiór atrybutów B jest niezale»ny oraz IND(B) = IND(A). Zbiór wszystkich reduktów oznaczamy przez RED(A). Redukt to najmniejszy zbiór atrybutów, przy którym zostaje zachowana dotychczasowa klasykacja (rozró»nialno±¢) obiektów.

Wa»ne!

Redukt musi speªnia¢ dwa kryteria:

1. musi by¢ niezale»nym zbiorem atrybutów (tylko atrybuty niezb¦dne), 2. musi zachowywa¢ tak¡ sam¡ rozró»nialno±¢ obiektów jak zbiór redukowany.

Uwaga!!!

Redukty mo»na wyznacza¢ dla dowolnego podzbioru A. Do tej pory rozwa»ali±my zawsze jaki± podzbiór atrybutów B ⊆ A. Dla takiego podzbiory B te» mo»emy liczy¢ redukty. Wtedy reduktem b¦dzie jaki±

podzbiór atrybutów C ⊆ B, a zbiór wszystkich reduktów B oznacza¢

b¦dziemy RED(B).

(79)

Zwi¡zek pomi¦dzy j¡drem a reduktem

J¡dro systemu informacyjnego rozpatrywanego dla podzbioru atrybutów B ⊆ A jest cz¦±ci¡ wspóln¡ wszystkich reduktów tego systemu.

CORE(B) =\ RED(A).

Uwaga! To wªa±ciwo±¢ wi¡»¡ca j¡dro i redukty a nie denicja j¡dra!

(80)

Algorytm generowania reduktu z denicji

Dane:B = {a1,a2,a3, ...ai, ...,an} Tablica KRS

Wyznacz U/IND(B)

Wyznacz CORE(B)

RED(B) := CORE(B)

Je»eli U/IND(B) = U/IND(CORE(B)) To RED(B) := CORE(B), w przeciwnym wypadku Dla ka»dego podzbioru atrybutów Bi ∈B wykonaj: Je»eli U/IND(B) = U/IND(Bi)ToRED(B) := RED(B) ∪ Bi

(81)

Generowanie reduktu i rdzenia z denicji

Najpierw wyznaczamy klasy równowa»no±ci dla peªnego zbioru atrybutów:

IND(C) = {{1}, {2}, {3}, {4}, {6}}

Teraz b¦dziemy sprawdza¢ czy zmieni si¦ dotychczasowa klasykacja obiektów, jak¡ mamy dla peªnego zbioru atrybutów, je±li usuniemy jaki± atrybut ze zbioru.

IND((C) − {g}) = {{1}, {2}, {3, 4}, {6}}

czyli:

IND((C) − {g}) 6= IND(C)

wi¦c atrybut {g} jest niezb¦dny w systemie, poniewa» je±li go usuniemy to stracimy informacje o rozró»nialno±ci dwóch obiektów 3i4.

(82)

Generowanie reduktu i rdzenia z denicji - cd IND((C) − {m}) = {{1}, {2}, {3}, {4}, {6}}

czyli:

IND((C) − {m}) = IND(C)

wi¦c atrybut {m} jest zb¦dny w systemie, poniewa» je±li go usuniemy to nie stracimy informacji o rozró»nialno±ci obiektów.

IND((C) − {t}) = {{1, 4, 6}, {2}, {3}}

czyli:

IND((C) − {t}) 6= IND(C)

wi¦c atrybut {t} jest niezb¦dny w systemie, poniewa» je±li go usuniemy to stracimy informacje o rozró»nialno±ci obiektów.

(83)

Generowanie reduktu i rdzenia z denicji - cd

Zatem CORE(C) to zbiór atrybutów niezb¦dnych w systemie wi¦c w naszym przypadku stanowi¡ go dwa atrybuty:

CORE(C) = {gt}

Redukt zgodnie z denicj¡ jest to taki zbiór atrybutów niezb¦dnych, dla którego zapewniona jest dotychczasowa klasykacja obiektów, a wiec na pewno redukt musi zawiera¢ w sobie j¡dro.

Sprawdzamy wi¦c dla jakiej kombinacji atrybutów uzyskamy taki sam podziaª obiektów jaki daªa IND(C).

IND(gt) = {{1}, {2}, {3}, {4}, {6}}

Skoro IND(gt) = IND(C), to ten zbiór atrybutów {gt} jest reduktem zbioru atrybutów.

RED(C) = {gt}.

(84)

Algorytm generacji j¡dra z macierzy rozró»nialno±ci

Dane: Macierz M[I , J]

CORE(B) := {}

Dla I := 1 do N wykonaj Dla J := 1 do I − 1 wykonaj

Je»eli card(M[I , J]) = 1 to CORE(B) := CORE(B) + M[I , J]

(85)

Wyznaczanie reduktów z macierzy

Utworzenie wszystkich mo»liwych podzbiorów atrybutów.

Wybranie tych, które zawieraj¡ rdze« CORE(B).

Sprawdzenie, czy otrzymane podzbiory maj¡ niepuste przeci¦cie z ka»dym niepustym elementem macierzy rozró»nialno±ci M(S).

Spo±ród otrzymanych podzbiorów atrybutów nale»y wybra¢ i usun¡¢ te, które stanowi¡ nadzbiory wyznaczonych reduktów.

Pozostaªe podzbiory stanowi¡ redukty RED(B).

(86)

Generowanie reduktu i rdzenia z macierzy rozró»nialno±ci

W tym celu generujemy macierz rozró»nialno±ci dla tablicy deecyzyjnej:

M(SI ) = (Hi,j)i,j=1,..,n= {a ∈ A : f (u1,a) 6= f (uj,a)}

dlai, j = 1, .., n,gdzien = |U|.

Denition

Macierz odró»nialno±ci jest dwuwymiarow¡ macierz¡ kwadratow¡ o wymiarach:

|U| × |U|. Komórka M(SI )[i, j] zawiera zbiór tych atrybutów, dla których obiekty uniwersum ui i uj maj¡ ró»ne warto±ci (s¡ rozró»nialne przy pomocy tych atrybutów).

(87)

1 2 3 4 6

1 ∅

2 g,m ∅

3 g,t m,t ∅

4 t g,m,t g ∅

6 t g,m,t g,t t ∅

Tablica:Macierz rozró»nialno±ci dla system informacyjnego

(88)

Macierz rozró»nialno±ci a redukt i rdze« zbioru atrybutów

Istniej¡ nast¦puj¡ce zwi¡zki pomi¦dzy macierz¡ rozró»nialno±ci a j¡drem i reduktami:

CORE(A) = {a ⊆ A : cij = {a}}

dla pewnego 0 < i, j < n + 1, tzn. do j¡dra wchodz¡ te atry-buty, które wyst¦puj¡ w macierzy rozró»nialno±ci pojedynczo.

Denition

B ⊆ A jest reduktem A wtedy i tylko wtedy, gdy B jest minimalny (w sensie zawierania zbiorów) oraz z ka»dym niepustym elementem macierzy

nierozró»nialno±ci M(S) ma niepuste przeci¦cie.

Innymi sªowy redukt jest to najmniejszy zbiór atrybutów, przy którym zostaje zachowana dotychczasowa klasykacja (rozró»nialno±¢) obiektów:

RED(C) = {gt}orazCORE(C) = {gt}.

(89)

Podsumowanie cz¦±ci I

1. System informacyjny a system decyzyjny.

2. Tablicowa forma systemu decyzyjnego.

3. Relacja nierozró»nialno±ci, klasa abstrakcji rozró»nialno±ci.

4. Aproksymacja zbiorów obiektów.

Dolne przybli»enie, górne przybli»enie, brzeg zbioru,

dokªadno±¢ górnego i dolnego przybli»enia.

5. Usuwanie niespójno±ci z tablicy decyzyjnej.

6. Redukcja atrybutów, generowanie RED(C) oraz CORE(C):

z denicji,

z macierzy rózró»nialno±ci.

(90)
(91)

Generowanie reguª minimalnych z tablic decyzyjnych

Cz¦±¢ II

Denition

Generowanie reguª minimalnych z tablic decyzyjnych.

Cz¦±¢ II.

(92)

Tablica decyzyjna

Szczególnym rodzajem systemów informacyjnych s¡ tablice decyzyjne (TD).

Tablic¡ decyzyjn¡ nazywamy uporz¡dkowan¡ pi¡tk¦:

TD = (U, C, D, V , f ) gdzie:

C, D ⊂ A; C 6= ∅; C ∪ D = A; C ∩ D = ∅,

elementy zbioru C nazywamy atrybutami warunkowymi,

elementy zbioru D nazywamy atrybutami decyzyjnymi,

f nazywamy funkcj¡ decyzyjn¡.

interpretacja U oraz V jest taka sama jak w przypadku systemu informacyjnego, ponadto poszczególne warto±ci v dziedzin atrybutów D(v ∈ VD)b¦dziemy nazywa¢ klasami decyzyjnymi.

(93)

Podstawowa ró»nica mi¦dzy tablic¡ decyzyjn¡ a systemem informacyjnym polega wi¦c na tym, »e cz¦±¢ atrybutów traktujemy jako atrybuty warunkowe (C) a cz¦±¢ jako decyzyjne (D).

(94)

Przykªad

Tabel¦ 1 b¦dziemy traktowa¢ jako tablic¦ decyzyjn¡.

Zbiór atrybutów systemu informacyjnego dzielimy na dwa podzbiory: podzbiór atrybutów warunkowych (C) oraz podzbiór atrybutów decyzyjnych (D) w nast¦puj¡cy sposób:

C = {Bol_glowy, Bol_miesni, Temperatura} = {g, m, t}

D = {Grypa} = {c}

(95)

Tablice decyzyjne deterministyczne i niedeterministyczne

Ka»dy obiekt u ⊂ U tablicy decyzyjnej TD = (U, C, D, V , f ) mo»e zosta¢

zapisany w postaci zdania warunkowego (postaci: je»eli warunki to decyzja) i by¢ traktowany jako reguªa decyzyjna.

Reguª¡ decyzyjn¡ w tablicy decyzyjnej TD nazywamy funkcje:g : C ∪ D → V je»eli istnieje x ∈ U, taki, »e g = fx.

Obci¦cie g do C (g|C) oraz g do D (g|D) nazywamy odpowiednio warunkami oraz decyzjami reguªy decyzyjnej g.

(96)

Reguªy decyzyjne Przykªad

Z przykªadowej tablicy decyzyjnej z tabeli 1 mo»emy wyprowadzi¢ nast¦puj¡ce reguªy (odpowiadaj¡ce konkretnym obiektom):

1. je»eli (g=nie) i (m=tak) i (t=wysoka) to (c=tak) 2. je»eli (g=tak) i (m=nie) i (t=wysoka) to (c=tak) 3. je»eli (g=tak) i (m=tak) i (t=bardzo wysoka) to (c=tak) 4. je»eli (g=nie) i (m=tak) i (t=bardzo wysoka) to (c=tak) 5. je»eli (g=tak) i (m=nie) i (t=wysoka) to (c=nie) 6. je»eli (g=nie) i (m=tak) i (t=normalna) to (c=nie)

(97)

Reguªy decyzyjne - rodzaje reguª

Reguªy decyzyjne mo»na dzieli¢ na wiele ró»nych grup bior¡c pod uwag¦ ró»ne kryteria. Jeden z podziaªów wyró»nia dwie grupy reguª:

reguªy deterministyczne

reguªy niedeterministyczne

(98)

Reguªy deterministyczne

Denition

Reguªa w tablicy decyzyjnej TD jest deterministyczna, gdy równo±¢ atrybutów warunkowych implikuje równo±¢ atrybutów decyzyjnych.

Mówi¡c ja±niej: reguªa jest deterministyczna gdy zawsze dla tych samych warto±ci atrybutów warunkowych podaje na wyj±cie tak¡ sam¡ decyzj¦ systemu - czyli tak¡ sam¡ warto±¢ atrybutu decyzyjnego. Fakt ten mo»emy wyrazi¢ przy pomocy nast¦puj¡cej zale»no±ci dla obiektów tablicy decyzyjnej:

x,y∈U

x6=y (∀ c ∈ C (f (x,c) = f (y,c)) ⇒ ∀d ∈ D (f (x,d) = f (y,d)))

(99)

Reguªy niedeterministyczne

Reguªa w tablicy decyzyjnej TD jestniedeterministyczna, gdyrówno±¢

atrybutów warunkowych nie implikuje równo±ci atrybutów decyzyjnych, co mo»na wyrazi¢ nast¦puj¡c¡ zale»no±ci¡ dla obiektów tablicy decyzyjnej:

x,y∈U

x6=y (∀ c ∈ C (f (x,c) = f (y,c)) ∧ ∃d ∈ D (f (x,d) 6= f (y,d)))

(100)

Reguªy decyzyjne: deterministyczne i niedeterministyczne Tablica decyzyjna jest deterministyczna (dobrze okre±lona, spójna), gdy wszystkie reguªy w niej zawarte s¡ deterministyczne, w przeciwnym przypadku jest niedeterministyczna (¹le okre±lona,niespójna).

Tablica decyzyjna z tabeli jestniedeterministyczna,gdy» reguªy pochodz¡ce z obiektów: 2i5s¡ niedeterministyczne.

2,5∈U

26=5 (∀ c ∈ C (f (2,c) = f (5,c)) ∧ ∃d ∈ D (f (2,d) 6= f (5,d))) a dokªadniej:

f (2, c) = f (5, c) : (g = tak) ∧ (m = nie) ∧ (t = wysoka)

f (2, d) 6= f (5, d) : bo(c = tak)|2 6= (c = nie)|5

(101)

Relacja nierozró»nialno±ci wzgl¦dem decyzji

Z uwagi na rzeczywiste zastosowania tablice decyzyjne najcz¦±ciej posiadaj¡

tylko jeden atrybut decyzyjny, dlatego w dalszej cz¦±ci rozwa»a« przyjmiemy, »e D = {d}. Wszystkie denicje mog¡ jednak w prosty sposób zosta¢ uogólnione na przypadek, kiedy zbiór atrybutów decyzyjnych posiada wi¦cej ni» jeden element.

(102)

Center for Machine Learning and Intelligent Systems at the University of California

(103)

Center for Machine Learning and Intelligent Systems at the University of California

(104)

Center for Machine Learning and Intelligent Systems at the University of California

Denition

171 zbiorów danych rzeczywistych

1. Zastosowanie: klasykacja (113),regresja (12),grupowanie (5),inne (43) 2. Typ atrybutów: porz¡dkowe (35), numeryczne (59), mieszane (54) 3. Typ danych: Multivariate (131), Univariate (3), ci¡gªe (8), Time-Series

(13), Text (8), Domain-Theory (13), inne (21)

4. Obszar: Life Sciences (47), Physical Sciences (27),CS Engineering (26),Social Sciences (14) Business (5),Game (8),Other (43) 5. Liczba atrybutów: < 10 (39), (10, 100 > (81), > 100 (16) 6. Liczba obiektów: < 100 (10), (100, 1000 > (75), > 1000(63) 7. Format: Matrix (122), Non-Matrix (49)

(105)

Relacja nierozró»nialno±ci wzgl¦dem decyzji - rodzaje decyzji

(106)

Relacja nierozró»nialno±ci wzgl¦dem decyzji - rodzaje decyzji

(107)

Relacja nierozró»nialno±ci wzgl¦dem decyzji - rodzaje decyzji

(108)

Relacja nierozró»nialno±ci wzgl¦dem decyzji - rodzaje decyzji

(109)

Relacja nierozró»nialno±ci wzgl¦dem decyzji - rodzaje decyzji

(110)

Relacja nierozró»nialno±ci wzgl¦dem decyzji - rodzaje decyzji

(111)

Relacja nierozró»nialno±ci wzgl¦dem decyzji - rodzaje decyzji

(112)

Relacja nierozró»nialno±ci wzgl¦dem decyzji - rodzaje decyzji

(113)

Relacja nierozró»nialno±ci wzgl¦dem decyzji - rodzaje decyzji

NiechTD = (U, C, {d}, V , f )b¦dzie tablic¡ decyzyjn¡ i niechB ⊆ C.

Denition

Relacj¦ nierozró»nialno±ci wzgl¦dem decyzji d na zbiorze obiektów U generowan¡ przez zbiór atrybutów B deniujemy jako:

IND(B, d) = {(x, y) ∈ U × U : (x, y) ∈ INDSI(B) ∨ f (x, d) = f (y, d)}

Cytaty

Powiązane dokumenty

Podstawowe poj

Jakie jest prawdopodobie«stwo, »e w tym momencie drugie pudeªko b¦dzie zawieraªo k zapaªek, je±li na pocz¡tku ka»de pudeªko zawieraªo n

Informowanie przeksztaÙcanie ci-gu oryginaÙów w ci-g obrazów, inaczej: powi-- zanie informacji na wyjïciu ukÙadu steruj-cego z informacj- na wejïciu ukÙadu

Je´sli ´zródło d´zwi ˛eku jest nieruchome wzgl ˛edem obserwatora, obserwator słyszy d´zwi ˛ek o niezmienionej cz ˛esto´sci. Je´sli ´zródło d´zwi ˛eku porusza si ˛e

Stwierdzenia i twierdzenia: Twierdzenie o Lokalnej Odwracalno±ci (idea dowodu), twierdzenie o punk- cie staªym odwzorowania zbli»aj¡cego, o ci¡gªo±ci odwzorowania liniowego

Definicja Zbiór A, którego ka dy punkt jest punktem wewn trznym nazywamy zbiorem otwartym... Zbiór otwarty i spójny nazywamy

Um´ owimy si e, ˙ze punktowi N odpo- , wiada punkt w niesko´

Podaj denicj¦ relacji równowa»no±ci, wyja±niaj¡c u»yte w denicji poj¦cia..