Wprowadzenie do zbiorów przybli»onych

(1)

Wprowadzenie do zbiorów przybli»onych

dr Agnieszka Nowak-Brzezi«ska

Instytut Informatyki, Uniwersytet l¡ski, ul. B¦dzinska 39, Sosnowiec, Polska Tel (32) 2 918 381, Fax (32) 2 918 283

Wykªad II i III

(2)

Wst¦p

• Teoria zbiorów przybli»onych zostaªa sformuªowana przez Zdzisªawa Pawlaka w 1982 roku.

• Jest to matematyczne narz¦dzie pozwalaj¡ce wnioskowa¢ w warunkach niepewno±ci o nieostrych poj¦ciach. W najwi¦kszym skrócie jest to nowe podej±cie do problemów nieostrych poj¦¢.

• Jest ona wykorzystywana jako narz¦dzie do syntezy zaawansowanych i efektywnych metod analizy oraz do redukcji zbiorów danych. Znalazªa ona zastosowanie m.in. w eksploracji danych i odkrywaniu wiedzy, zªo»onych zadaniach klasykacji oraz w komputerowych systemach wspomagania decyzji.

• Metodologia zbiorów przybli»onych zyskaªa sobie du»¡ popularno±¢. Jest ona przedmiotem bada« wielu osób na caªym ±wiecie. Po±wi¦cono jej przeszªo 2000 publikacji, w tym kilkana±cie ksi¡»ek. Cyklicznie odbywaj¡

si¦ na jej temat mi¦dzynarodowe konferencje i seminaria (m.in. w USA, Kanadzie i Japonii).

(3)

Zbiory przybli»one znane na caªym ±wiecie

(4)

Zbiory przybli»one znane na caªym ±wiecie

(5)

Wprowadzenie do teorii zbiorów przybli»onych

Cz¦±¢ I

Denition

Wprowadzenie do teorii zbiorów przybli»onych.

Cz¦±¢ I.

(6)

System informacyjny

Istnieje szereg struktur, które mog¡ by¢ wykorzystane do przechowywania danych. Sposób reprezentacji danych powinien jednak posiada¢ dwie podstawowe cechy:

• uniwersalno±¢ - (powinien pozwala¢ na gromadzenie i przechowywanie zbiorów ró»norodnych danych, opisuj¡cych badane zjawiska i procesy),

• efektywno±¢ - (powinien umo»liwia¢ w ªatwy sposób komputerow¡ analiz¦

tak zapisanych danych).

Obie te cechy posiada znany i cz¦sto wykorzystywany w praktyce tablicowy sposób reprezentacji danych.

(7)

System informacyjny

Denicja

System informacyjny SI zdeniowany jest jako dwójka: SI = (U, A) gdzie:

• U jest niepustym, sko«czonym zbiorem obiektów,

• A jest niepustym, sko«czonym zbiorem atrybutów.

• Zbiór Va jest dziedzin¡ atrybutu a ∈ A, V = S_a∈AVa.

Deniuje si¦ rownie» funkcj¦ informacyjn¡. f : U × A → V , tak¡, »e ∀a∈A,x∈U, f (a, x) ∈ Va.

(8)

System informacyjny

Jak nale»y rozumie¢ denicj¦ SI ?

Rysunek:Jak nale»y rozumie¢ denicj¦ SI?

f (C2, 1) = Niski, f (C2, 2) = Wysoki, f (C1, 4) = 2, f (C1, 2) = 1, f (S, 3) = O, f (S, 7) = On.

f : U × A → V : ∀a∈A,x∈Uf (a, x) ∈ Vagdzie Va jest dziedzin¡ atrybutu a ∈ A.

(9)

System informacyjny

System informacyjny a tabela bazy danych?

Rysunek:Jak nale»y rozumie¢ denicj¦ SI?

Poj¦cie systemu informacyjnego odpowiada poj¦ciowo poj¦ciu tabeli (relacji) w bazach danych.

(10)

System informacyjny a system decyzyjny

System decyzyjny to rodzaj systemu informacyjnego, który przydziela obiekty do pewnych klas okre±lonych za pomoc¡ jednego z atrybutów, zwanego atrybutem decyzyjnym.

Atrybuty zawarte w zbiorze A s¡ nazywane warunkowymi albo po prostu warunkami, za± d jest nazywane konkluzj¡ b¡d¹ po prostu decyzj¡ systemu.

Zbiory te s¡ zbiorami sko«czonymi.

i-taklasa decyzyjnato zbiór obiektówCi = {x ∈ U : d(x) = di}, gdziedi jest i -t¡ warto±ci¡ decyzji odpowiadaj¡c¡ zbiorowi warto±ci decyzji

Vd = {d1, . . . ,d|V_d|}.

Reguªa decyzyjnajest formuª¡: (ai1=v1) ∧ . . . ∧ (ai_k=v_k) ⇒ (d = v_d),gdzie 1 ≤ i1< . . . <ik ≤m, vj∈Vaij .

(11)

Indukcja reguª decyzyjnych

W procesie indukcji pomocna jestfunkcja rozró»nialno±ci f^A, która pozwala budowa¢ reguªy minimalne (optymalne) dla danej tablicy decyzyjnej.

Funkcja rozró»nialno±cifAdla danego systemu informacyjnegoAjest funkcj¡

boolowsk¡mzmiennych boolowskicha^∗1, . . . ,a^∗m (odpowiadaj¡cych atrybutom a1, . . . ,am)zdeniowanym przez:

fA=^ n _ cij^∗|1 ≤ j ≤ i ≤ n, cij 6= ∅o gdziec_ij^∗= {a^∗|a ∈ cij}.

(12)

Tablica decyzyjna

Tablic¡ decyzyjn¡ DT nazywa¢ b¦dziemy system informacyjny w postaci:

DT = (U, A ∪ {d}), gdzie d /∈ A jest atrybutem decyzyjnym niezaliczanym do zbioru atrybutow A systemu.

Atrybuty a ∈ A nazywamy atrybutami warunkowymi.

(13)

System informacyjny - tablica decyzyjna

Pacjent Ból gªowy (g) Ból mi¦sni (m) Temperatura (t) Grypa (c)

1 nie tak wysoka tak

2 tak nie wysoka tak

3 tak tak bardzo wysoka tak

4 nie tak bardzo wysoka tak

5 tak nie wysoka nie

6 nie tak normalna nie

Tabela przedstawia przykªadowy system informacyjny zawieraj¡cy wyniki bada«

przeprowadzonych dla grupy pacjentów. System ten skªada si¦ z sze±ciu obiektów (1, 2, ..,6) oraz czterech atrybutów: Ból gªowy, Ból mi¦±ni, Temperatura, Grypa.

(14)

Denicja przykªadowego SI

Rozpatrywany system informacyjny mo»e zosta¢ zapisany w nast¦puj¡cej postaci: SI = (U, A, V , f ) gdzie:

• U={1, 2, 3, 4, 5, 6}

• A={Ból gªowy, Ból mi¦±ni, Temperatura, Grypa}

• V = VBolglowy∪VBolmiesni∪VTemperatura∪VGrypa

VBolglowy= {nie, tak}

VBolmiesni = {nie, tak}

VTemperatura= {normalna, wysoka, bardzowysoka}

VGrypa= {nie, tak}

• f : U × A → V (np. f(1, Ból gªowy)=nie; f(3, Grypa) = tak)

(15)

Powtórka iloczyn kartezja«ski

Iloczyn kartezja«ski zbiorów A i B to zbiór wszystkich par uporz¡dkowanych (a, b), takich, »e a nale»y do zbioru A, za± b nale»y do zbioru B. Oznacza si¦

go symbolem A × B. Formalnie:

A × B = {(a, b) : a ∈ A, b ∈ B}

Iloczyn kartezja«ski mo»e by¢ zbudowany na tym samym zbiorze, np. A × A, co bywa oznaczane A². Formalnie:

A × A = {(a, b) : a ∈ A, b ∈ A}

Iloczyn kartezja«ski dla zbioru obiektów U tablicy decyzyjnej DT : Iloczyn kartezja«ski U × U to zbiór par obiektów.

U × U = {(x, y) : x ∈ U, y ∈ U}

U×U = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (3, 3), (3, 4), (3, 5), (3, 6), (4, 4), (4, 5), (4, 6), (5, 5), (5, 6), (6, 6)}

(16)

Powtórka relacja

Denition

Relacja pomi¦dzy elementami zbioru A a elementami zbioru B to wybrany podzbiór iloczynu kartezja«skiego A × B.

Relacj¦ tworz¡ pary elementów wybrane z iloczynu kartezja«skiego wedªug pewnego kryterium.

W praktyce najpopularniejsze i najszerzej stosowane s¡ relacje dwuargumentowe (dwuczªonowe, binarne), zwykle nazywane po prostu relacjami.

Denition

Je±li zaªo»ymy, »e relacja nazywa si¦ np. R, to zapis xRy oznacza, »e x jest w relacji R z y.

(17)

Relacja nierozró»nialno±ci

O relacji nierozró»nialno±ci mówimy wówczas, gdy w rozpatrywanym systemie mamy do czynienia z obiektami o identycznych opisach, b¡d¹ obiektami o tej samej warto±ci danego atrybutu (-ów [kilku, nie wszystkich]).

Analizuj¡c poszczególne obiekty z tabeli mo»na zaobserwowa¢, »e obiekty o numerach 1, 4 i 6 maj¡ te same warto±ci atrybutów: ból gªowy oraz ból mi¦±ni za± obiekty o numerach 1 i 5 maj¡ t¦ sam¡ warto±¢ atrybutu temperatura. O obiektach numer 1, 4 i 6 powiemy, »e s¡ nierozró»nialne ze wzgl¦du na atrybuty: ból gªowyorazból mi¦±ni, za± obiekty o numerach 1 i 5 s¡

nierozró»nialne ze wzgl¦du na atrybut: temperatura.

T¦ obserwacj¦ mo»na uogólni¢ i wyrazi¢ w sposób formalny stosuj¡c odpowiednio zdeniowan¡ relacj¦.

(18)

Relacja nierozró»nialno±ci

Niech SI = (U, A, V , f ) b¦dzie systemem informacyjnym i niech B ⊆ A.

Denition

Relacj¦ nie rozró»nialno±ci (ang. indiscernibility relation) na zbiorze obiektów U generowan¡ przez zbiór atrybutów B okre±lamy jako:

IND(B) = {(x, y) ∈ U × U : ∀

a ∈ Ba(x) = a(y)}

gdzie znak = mi¦dzy a(x) i a(y) nale»y rozumie¢ w ten sposób, »e dla obiektów x i y, nale»¡cych do U, atrybut a przyjmuje tak¡ sam¡ warto±¢.

Denition

Zapis w postaci: xIND(B)y oznacza, »e x jest w relacji IND(B) z y. Mówi¡c konkretnie: obiekt x systemu informacyjnego SI jest nierozró»nialny od obiektu y tego» samego systemu, ze wzgl¦du na wybrany podzbiór atrybutów B.

(19)

Wªasno±ci relacji nierozró»nialno±ci

Poszczególne pary obiektów nale»¡ do relacji wtedy, gdy posiadaj¡ te same warto±ci dla wszystkich atrybutów ze zbioru B.

Relacja nierozró»nialno±ci IND(B) jest relacj¡ równowa»no±ci, gdy» jest relacj¡:

• zwrotn¡, gdy»: _u∈U^∀ (u, u) ∈ IND(B)

• symetryczn¡, gdy»: _u,v∈U^∀ ((u, v) ∈ IND(B) ⇒ (v, u) ∈ IND(B))

• przechodni¡, gdy»:

∀

u,v,w∈U((u, v) ∈ IND(B) V(v, w) ∈ IND(B) ⇒ (u, w) ∈ IND(B))

(20)

Relacja nierozró»nialno±ci - cd

Dla systemu informacyjnego przedstawionego w tabeli mo»na wyznaczy¢ relacje nierozró»nialno±ci generowane przez ró»ne zbiory atrybutów:

Tablica:System informacyjny / tablica decyzyjna Niech: A1= {g, m, t}, A2= {t}, A3= {g, m}, A4= {g, t, c}, A5= {g, m, t, c}

INDSI(A1) = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6), (2, 5), (5, 2)}

INDSI(A2) = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6), (1, 2), (2, 1), (1, 5), (5, 1), (2, 5), (5, 2), (3, 4), (4, 3)}

INDSI(A3) = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6), (1, 4), (4, 1), (1, 6), (6, 1), (4, 6), (6, 4), (2, 5), (5, 2)}

INDSI(A4) = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}

(21)

Dowód, »e IND(B) jest relacj¡ zwrotn¡

1. Niech SI = (U, A) b¦dzie systemem informacyjnym i niech B ⊆ A.

2. Relacja IND(B) jest zwrotn¡, bo:

3. We¹my dowolny obiekt x ∈ U, mamy wi¦c:

∀_a∈B,a(x) = a(x)

4. a wi¦c z denicji:

(x, x) ∈ IND(B).

(22)

Dowód, »e IND(B) jest relacj¡ symetryczn¡

2. Relacja IND(B) jest symetryczn¡, bo:

3. We¹my dowolne obiekty x, y ∈ U, 4. zaªó»my, »e:

(x, y) ∈ IND(B) 5. mamy wtedy:

∀_a∈B,a(x) = a(y) 6. st¡d:

∀_a∈B,a(y) = a(x) 7. a wi¦c:

(y, x) ∈ IND(B)

(23)

Dowód, »e IND(B) jest relacj¡ przechodni¡

2. Relacja IND(B) jest przechodni¡, bo:

3. We¹my dowolne obiekty x, y, z ∈ U,

4. zaªó»my, »e (x, y) ∈ IND(B) oraz (y, z) ∈ IND(B), 5. mamy wtedy:

∀_a∈B, (a(x) = a(y) ∧ a(y) = a(z)) 6. st¡d:

∀a ∈ B, a(x) = a(z) 7. a wi¦c:

(x, z) ∈ IND(B).

(24)

Klasy abstrakcji

• Relacja nierozró»nialno±ci IND(B) b¦d¡c relacj¡ równowa»no±ciow¡, dzieli zbiór obiektów U na rozª¡czne, niepuste klasy abstrakcji.

• Klasy abstrakcji relacji nierozró»nialno±ci IND(B) oznacza si¦ U/IND(B).

• Ka»da klasa abstrakcji relacji nierozró»nialno±ci IND(B) to zbiór obiektów nierozró»nialnych ze wzgl¦du na atrybuty ze zbioru B.

• Klasy abstrakcji U/IND(B) relacji nierozró»nialno±ci IND(B) to zatem zbiór zbiorów takich obiektów, które s¡ nierozró»nialne ze wzgl¦du na atrybuty ze zbioru B.

• Klasa abstrakcji dla obiektu x ∈ U relacji IND(B) zdeniowana jest nast¦puj¡co: [x]_IND(B)= {y ∈ U, ∀a∈B,a(x) = a(y)}

(25)

Klasy abstrakcji - cd

Powy»sze relacje dziel¡ zbiór obiektów systemu informacyjnego na nast¦puj¡ce klasy abstrakcji (zbiory elementarne):

• U/IND(A1) = {{1}, {2, 5}, {3}, {4}, {6}}

• U/IND(A2) = {{1, 2, 5}, {3, 4}, {6}}

• U/IND(A3) = {{1, 4, 6}, {2, 5}, {3}}

• U/IND(A4) = {{1}, {2}, {3}, {4}, {5}, {6}}

• U/IND(A) = {U/IND(A4)}

Na tej podstawie mo»na wyznaczy¢ przykªadowe klasy abstrakcji zawieraj¡ce poszczególne obiekty systemu informacyjnego:

• ISI ,A3(1) = {1, 4, 6}

• ISI ,A3(2) = {2, 5}

• ISI ,A3(3) = {3}

(26)

Aproksymacja zbiorów przybli»enie dolne, górne, brzeg zbior Problem z jednoznaczn¡ klasykacj¡ obiektów do pewnego podzbioru

• Jednym z celów wnioskowania w systemach decyzyjnych jest próba stwierdzenia czy obiekt (lub ich grupa) nale»y do pewnej klasy, lub nie.

Inaczej mówi¡c czy nale»¡ do pewnego poj¦cia czy nie.

• Proces taki opiera si¦ na opisie obiektu wyra»onym przy pomocy atrybutów.

• Wybrany podzbiór atrybutów systemu informacyjnego determinuje podziaª obiektów na rozª¡czne klasy abstrakcji.

• Wa»nym problemem jest zdolno±¢ radzenia sobie z niedoskonaªymi danymi. Jednym ze ¹ródeª trudno±ci w zadaniach opisu czy klasykacji jest istnienie niespójno±ci w dost¦pnych danych.

• Obiekty posiadaj¡ce identyczne (lub podobne) opisy, lecz zaliczone do ró»nych poj¦¢, uniemo»liwiaj¡ stworzenie jednoznacznej denicji tych»e poj¦¢.

• Niespójno±ci nie powinny by¢ traktowane wyª¡cznie jako wynik bª¦du czy szumu informacyjnego. Mog¡ one tak»e wynika¢ z niedost¦pno±ci cz¦±ci informacji, naturalnej granularno±ci i niejednoznaczno±ci j¦zyka

reprezentacji.

(27)

Zbiory przybli»one a problem z jednoznaczn¡ klasykacj¡ obiektów

Teoria zbiorów przybli»onych (ang. rough sets) zaproponowana przez Zdzisªawa Pawlaka jest dogodnym narz¦dziem analizy tego typu niespójno±ci informacji.

Teoria oparta jest na zaªo»eniu, »e posiadaj¡c informacj¦ reprezentowan¡ za pomoc¡ atrybutów i ich warto±ci na obiektach, mo»liwe jest okre±lenie relacji zachodz¡cej pomi¦dzy tymi obiektami. Obiekty posiadaj¡ce ten sam opis, wyra»ony za pomoc¡ atrybutów, s¡ nierozró»nialne ze wzgl¦du na dost¦pn¡

informacj¦.

W przypadku niemo»liwo±ci precyzyjnego zdeniowania zbioru obiektów (poj¦cia, klasy decyzyjnej) tworzy ona dolne i górne przybli»enie tego zbioru na podstawie klas relacji nierozró»nialno±ci pomi¦dzy obiektami.

(28)

Poj¦cia nieostre a zbiór dokªadny oraz zbiór przybli»ony

• Operowanie poj¦ciami nieostrymi (nie±cisªymi, nieprecyzyjnymi) jest bez w¡tpienia jednym z gªównych problemów rozumowa« potocznych. Poj¦cia nieostre ró»ni¡ si¦ tym od poj¦¢ ostrych, »e w przeciwie«stwie do tych ostatnich nie zawsze mo»liwe jest jednoznaczne zaklasykowanie obiektu do poj¦cia, tzn. dla pewnej grupy obiektów z otaczaj¡cej nas

rzeczywisto±ci nie mo»na stwierdzi¢ jednoznacznie czy dany obiekt nale»y do rozpatrywanego poj¦cia, czy te» nie nale»y. Na przykªad mog¡

to by¢ poj¦cia takie jak: maªe dziecko, pi¦kna kobieta, wysoki czªowiek, dobra ksi¡»ka, ªatwe zadanie itd.

• Teoria zbiorów przybli»onych proponuje zast¡pienie nieostrego (nieprecyzyjnego) poj¦cia,par¡ poj¦¢ precyzyjnych, zwanych dolnym i górnym przybli»eniem tego poj¦cia.

• Ró»nica mi¦dzy górnym i dolnym przybli»eniem jest wªa±nie tym obszarem granicznym, do którego nale»¡ wszystkie przypadki, które nie mog¡ by¢

prawidªowo zaklasykowane na podstawie aktualnej wiedzy. Im wi¦kszy obszar graniczny poj¦cia tym bardziej jest ono nieostre (nieprecyzyjne).

(29)

Zbiór dokªadny oraz zbiór przybli»ony

(30)

Aproksymacja - denicje

Denition

Niech SI = {U, A, V , f } b¦dzie systemem informacyjnym i niech B ⊆ A.

Denition

Mówimy, »e zbiór P ⊆ U jest zbiorem B dokªadnym (B deniowalnym) wtedy, gdy jest on sko«czon¡ sum¡ zbiorów B elementarnych.

Denition

Ka»dy zbiór, który nie jest sko«czon¡ sum¡ zbiorów B elementarnych jest zbiorem B przybli»onym.

(31)

Przykªad

Niech:

• X1= {1, 2, 3, 5}

• X2= {3, 4, 5, 6}

• A1= {g, m, t}, A2= {t}

oraz

• U/INDSI(A1) = {{1}, {2, 5}, {3}, {4}, {6}}

• U/INDSI(A2) = {{1, 2, 5}, {3, 4}, {6}}

Wówczas:

Zbiór X1jest zbiorem A1 dokªadnym, gdy» jest sko«czon¡ sum¡ zbiorów A1 elementarnych: X1= {{1} ∪ {2, 5} ∪ {3}}

Ale:

Zbiór X2jest zbiorem A1 przybli»onym, gdy» nie jest sko«czon¡ sum¡ zbiorów A1

elementarnych (obiekty 2 i 5 nale»¡ do jednego zbioru B elementarnego, za±

zbiórX2zawiera tylko obiekt numer 5, a nie zawiera obiektu numer 2)

(32)

Przykªad - cd

Niech:

• X1= {1, 2, 3, 5}

• X2= {3, 4, 5, 6}

• A1= {g, m, t}, A2= {t}

• U/INDSI(A1) = {{1}, {2, 5}, {3}, {4}, {6}}

• U/INDSI(A2) = {{1, 2, 5}, {3, 4}, {6}}

Mo»emy dalej stwierdzi¢, »e:

• _{Zbiór X}₁jest zbiorem A2 przybli»onym, gdy» nie jest sko«czon¡ sum¡ zbiorów A2 elementarnych (obiekty 3 i 4 nale»¡ do jednego zbioru C elementarnego, za± zbiór X1

zawiera tylko obiekt numer 3, a nie zawiera obiektu numer 4)

• _{Zbiór X}₂jest zbiorem A2 przybli»onym, gdy» nie jest sko«czon¡ sum¡ zbiorów A2 elementarnych (obiekty 1, 2 i 5 nale»¡ do jednego zbioru C elementarnego, za± zbiór X2zawiera tylko obiekt numer 5, a nie zawiera obiektów numer 1 i 2)

(33)

Aproksymacja zbioru - denicja

Je±li SI = {U, A, V , f } jest systemem informacyjnym takim, »e B ⊆ A oraz X ⊆ U to:

• B dolnym przybli»eniem (aproksymacj¡) zbioru X w systemie informacyjnym SI nazywamy zbiór:

BX = {x ∈ U : ISI ,B(x) ⊆ X }

• B górnym przybli»eniem (aproksymacj¡) zbioru X w systemie informacyjnym SI nazywamy zbiór:

BX = {x ∈ U : ISI ,B(x) ∩ X 6= ∅}

(34)

Aproksymacje zbiorów interpretacja

• Za pomoc¡ dolnej i górnej aproksymacji jeste±my w stanie okre±li¢ nieostre poj¦cie w ±cisªy sposób.

• Dolna aproksymacja poj¦cia, to wszystkie te obiekty, które nale»¡ bez w¡tpienia do poj¦cia X . Nale»¡ one bowiem do takich klas abstrakcji, które w caªo±ci zawieraj¡ si¦ w poj¦ciu X .

• Górna aproksymacja poj¦cia, to zbiór takich obiektów, co do których nie mo»emy wykluczy¢, »e nale»¡ do poj¦cia X . Jest to spowodowane tym, »e nale»¡ do klas abstrakcji maj¡cych niepuste przeci¦cie z poj¦ciem X . S¡

zatem nierozró»nialne z pewnymi obiektami nale»¡cymi do tego poj¦cia.

• Brzeg zbioru X zawiera obiekty, których nie mo»na jednoznacznie przydzieli¢ do X z uwagi na sprzeczny opis.

(35)

Wspóªczynniki dokªadno±ci dla aproksymacji zbioru X

Zbiór przybli»ony X mo»e by¢ scharakteryzowany ilo±ciowo za pomoc¡:

• Wspóªczynnika dokªadno±ci przybli»enia: αBX = ^|_|^{BX |}_{BX |}, gdzie |X | to liczno±¢ niepustego zbioru X ,

• Wspóªczynnika dokªadno±ci przybli»enia dolnego: αBX =^|^{BX |}|U|

• Wspóªczynnika dokªadno±ci przybli»enia górnego:α^BX = ^|^{BX |}_|_U|

(36)

Obszary pozytywne i negatywne zbiorów

• B pozytywnym obszarem (ang. positive area)zbioru X w systemie informacyjnym SI nazywamy zbiór:

POSB(X ) = BX

• B brzegiem (granic¡) (ang. boundary)zbioru X w systemie informacyjnym SI nazywamy zbiór:

BNB(X ) = BX − BX

• B negatywnym obszarem (ang. negative area)zbioru X w systemie informacyjnym SI nazywamy zbiór:

NEGBX = U − BX

(37)

Interpretacja dolnego i górnego przybli»enia zbioru

Denition

Dolne przybli»enie poj¦cia jest to wi¦c poj¦cie, do którego nale»¡ wszystkie obiekty, co do których nie ma w¡tpliwo±ci, »e s¡ one reprezentantami tego poj¦cia w ±wietle posiadanej wiedzy.

Denition

Do górnego przybli»enia nale»¡ obiekty, których nie mo»na wykluczy¢, »e s¡

reprezentantami tego poj¦cia.

Denition

Brzegiem za± poj¦cia s¡ wszystkie te obiekty, co do których nie wiadomo czy s¡

czy nie reprezentantami danego zbioru.

Z denicji powy»szych mo»emy wysnu¢ nast¦puj¡ce wnioski:

• BX ⊆ X ⊆ BX

• zbiór X jest B-dokªadny, gdy: BX = BX ⇐⇒ BNBX = ∅

• zbiór X jest B-przybli»ony, gdy: BX 6= BX ⇐⇒ BNBX 6= ∅

(38)

Denition

• BX ⊆ X ⊆ BX

(39)

Denition

• BX ⊆ X ⊆ BX

(40)

Liczbowa charakterystyka aproksymacji zbioru

Ka»dy zbiór (przybli»ony lub dokªadny) mo»na scharakteryzowa¢ ilo±ciowo za pomoc¡ wspóªczynnika dokªadno±ci aproksymacji (przybli»enia).

Denition

Wspóªczynnik dokªadno±ci aproksymacji zbioru X w systemie informacyjnym SI wzgl¦dem zbioru atrybutów B wyra»a si¦ wzorem:

α_B(X ) = card(POSB(X ))

card(BX ) = card(BX ) card(BX ) gdzie card(X ) oznacza liczno±¢ zbioru X .

atwo zauwa»y¢, »e:

• 0 ≤ αB(X ) ≤ 1

• je»eli X jest zbiorem dokªadnym to: α_B(X ) = 1

• je»eli X jest zbiorem przybli»onym to: 0 ≤ αB(X ) < 1

(41)

Denition

• 0 ≤ αB(X ) ≤ 1

(42)

Denition

• 0 ≤ αB(X ) ≤ 1

(43)

Przykªad

Je±li:

• X1= {1, 2, 3, 5}

• X2= {3, 4, 5, 6}

oraz

• U/INDSI(A1) = {{1}, {2, 5}, {3}, {4}, {6}}

• U/INDSI(A2) = {{1, 2, 5}, {3, 4}, {6}}

Liczymy teraz dokªadno±¢ aproksymacji dla zbiorów X1oraz X2 wzgl¦dem zbioru atrybutów A1:

α_A₁(X1) = ^card(A¹^X¹⁾

card(A1X1)= ⁴₄ =1 α_A₁(X2) = ^card(A¹^X²⁾

card(A1X2)= ³₅ =0.6

gdzie card(X ) oznacza liczno±¢ zbioru X .

(44)

Niespójno±¢ w danych

• Niespójno±¢ danych zachodzi wówczas, gdy dla takich samych danych wej±ciowych system podj¡ªby odmienne decyzje.

• Praca z systemem o niespójnej wiedzy jest niemo»liwa.

• Niespójno±¢ nale»y usun¡¢.

(45)

(46)

(47)

Dla obiektów 2 i 5 zachodzi niespójno±¢, gdy», dla tych samych atrybutów warunkowych zachodz¡ ró»ne decyzje:

ból gªowy=tak and ból mi¦±ni=nie and temp=wysoka dla obiektu 2 podano decyzj¦: Grypa=tak

dla obiektu 5 podano decyzj¦: Grypa=nie

(48)

Usuwanie niespójno±ci z tablicy decyzyjnej

Wyró»ni¢ mo»na 5 metod usuwania niespójno±ci w tablicach decyzyjnych:

1. Zwróci¢ si¦ do EKSPERTA aby dla obiektów 2 i 5 podj¡ª jedn¡ decyzj¦.

2. Utworzenie dwóch (lub wi¦cej w przypadku ogólnym) spójnych tablic decyzyjnych, poprzez rozdzielenie sprzecznych obiektów.

3. Usuni¦cie obiektów b¦d¡cych przyczyn¡ niespójno±ci(metoda ilo±ciowa).

4. Mo»na posªu»y¢ si¦ tutaj równie» metod¡ jako±ciow¡.

5. Metoda tworzenia nowego atrybutu decyzyjnego (metoda uogólnionego atrybutu decyzyjnego)

(49)

Zwrócenie si¦ do EKSPERTA

Jest to sposób najprostszy przerzucaj¡cy ci¦»ar usuni¦cia niespójno±ci z tablicy na eksperta. Niestety bardzo cz¦sto zdarza si¦, »e ekspert nie potra podj¡¢

jednoznacznej decyzji. Twierdzi np. »e dla takich atrybutów (parametrów) raz podejmuje decyzje 1 innym razem decyzje 2. W takim przypadku metoda ta nie daje rezultatu.

(50)

Utworzenie dwóch (lub wi¦cej w przypadku ogólnym) spójnych tablic decyzyjnych, poprzez rozdzielenie sprzecznych obiektów.

Jest to jednak tylko pozorne rozwi¡zanie problemu. Powstan¡ dwa zbiory reguª dla pierwszej i drugiej tablicy. Reguªy powstaªe na podstawie obiektu 2 w tablicy pierwszej i reguªa dla obiektu 5 w tablicy drugiej, b¦d¡ sprzeczne.

(51)

Metoda jako±ciowa

Usuniemy ten obiekt, którego warto±¢ decyzja jest "mniej wa»¡ca". "Mniej wa»¡ca"to znaczy maj¡ca mniejsz¡ dokªadno±¢ dolnego lub górnego przybli»enia.

Dla ka»dego X ⊆ U i B ⊆ A dokªadno±¢ dolnego przybli»enia γB(X ) obliczymy ze wzoru:

γ_B(X ) = |BX |

|U|

Dokªadno±¢ górnego przybli»enia γ^B(X ) obliczymy ze wzoru:

γ_B(X ) = |BX |

|U|

Wówczas usuwamy ten obiekt, dla którego dokªadno±ci (górnego b¡d¹ dolnego) przybli»enia byªa mniejsza.

(52)

Przykªad usuwania niespójno±ci metod¡ jako±ciow¡

Najpierw dzielimy zbiór obiektów X ze wzgl¦du na decyzj¦ na dwa rozª¡czne podzbiory X1 oraz X2.

X1= {1, 2, 3, 4}

X2= {5, 6}

Generujemy teraz klasy rozró»nialno±ci dla caªego zbioru atrybutów warunkowych:

U/IND(C) = {{1}, {2, 5}, {3}, {4}, {6}}.

B dolnym przybli»eniem zbioru X w systemie informacyjnym SI nazywamy zbiór:

BX = {x ∈ U : ISI ,B(x) ⊆ X }

B górnym przybli»eniem zbioru X w systemie informacyjnym SI nazywamy zbiór:

BX = {x ∈ U : ISI ,B(x) ∩ X 6= ∅}

(53)

Przykªad - cd

Teraz mo»na juz wyznaczy¢ dla ka»dego ze zbiorów klasy decyzyjnych: X1oraz X2przybli»enie dolne oraz górne.

X1= {1, 2, 3, 4}

X2= {5, 6}

U/IND(C) = {{1}, {2, 5}, {3}, {4}, {6}}.

• BX1= {1, 3, 4}

• BX1= {1, 2, 3, 4, 5}

• BX2= {6}

• BX2= {2, 5, 6}

Teraz mo»na juz przyst¡pi¢ do wyliczenia dokªadno±ci górnego oraz dolnego przybli»enia:

• γ_B(X1) = ^|^BX_|_U|¹^| =³₆ =¹₂

• γ_B(X2) = ^|^BX_|_U|²^| =¹₆

• γ_B(X1) = ^|^BX_|_U|¹^| =⁵₆

• γ_B(X2) = ^|^BX_|_U|²^| =³₆ =¹₂

Metoda mówi, aby usun¡¢ ten obiekt, dla którego uzyskano mniejsz¡

dokªadno±¢ dolnego, b¡d¹ górnego przybli»enia w zale»no±ci od wybranego wariantu. W naszym przypadku usuniemy obiekt, który powodowaª niespójno±¢

i wyst¦powaª w zbiorze X2.

(54)

Spójna tablica decyzyjna

Spójna juz teraz tablica decyzyjna wygl¡da nast¦puj¡co:

Tablica: System informacyjny / tablica decyzyjna po usuni¦ciu niespójno±ci

(55)

Usuni¦cie obiektów b¦d¡cych przyczyn¡ niespójno±ci

Powstaje problem, który obiekt usun¡¢. Mo»na posªu»y¢ si¦ tutaj metod¡

ilo±ciow¡.

Metoda ilo±coiwa

Wówczas usuniemy ten obiekt(-y), którego decyzja mniej razy byªa potwierdzana.

(56)

Tworzenie nowego podziaªu (Systemu informacyjnego)

Decyzja d wyznacza klasykacj¦: ClassA(d) = {X1, ...,Xr(d)}, (gdzie (d) - to ilo±¢ ró»nych warto±ci atrybutu decyzyjnego.) Tworzymy nowy podziaª:

App − ClassA(d) = {A|X 1, ...,A|Xr(d)}[

{BdA(θ) : |θ| >1}

Ten nowy podziaª tworzy tablice decyzyjn¡ spójn¡.

Tabela nr 1, (niespójna) po dodaniu do systemu informacyjnego, nowego, uogólnionego atrybutu decyzyjnego wygl¡da nast¦puj¡co:

(57)

Macierz, tablica, funkcja oraz wektor rozró»nialno±ci dla systemu informacyjnego

Macierz rozró»nialno±ci

Denition

Je±li SI = {U, A, V , f } jest systemem informacyjnym takim, »e U = {u1,u2, ..,un}i A = {a1,a2, ..,am}, to macierz rozró»nialno±ci

(odró»nialno±ci) systemu informacyjnego SI M(SI ) (ang. discernibility matrix) deniujemy nast¦puj¡co:

M(SI ) = (Hi,j)_i,j=1,..,n= {a ∈ A : f (ui,a) 6= f (uj,a)}

dlai, j = 1, .., n, gdzien = |U|.

• Macierz rozró»nialno±ci jest dwuwymiarow¡ macierz¡ kwadratow¡ o wymiarach: |U| × |U|.

• Komórka M(SI )[i, j] zawiera zbiór tych atrybutów, dla których obiekty uniwersum ui i uj maj¡ ró»ne warto±ci (s¡ rozró»nialne przy pomocy tych atrybutów).

(58)

1 2 3 4 6

1 ∅

2 g,m ∅

3 g,t m,t ∅

4 t g,m,t g ∅

6 t g,m,t g,t t ∅

Tablica:Macierz rozró»nialno±ci dla system informacyjnego

(59)

Wªasno±ci macierzy rozró»nialno±ci

• macierz M(SI ) ma zawsze na przek¡tnej zbiory puste (∅),

• macierz M(SI ) jest symetryczna wzgl¦dem przek¡tnej,

• ka»dy element macierzy M(SI ) jest zbiorem,

• rozmiar macierzy ro±nie w sposób kwadratowy wraz ze wzrostem liczby obiektów w systemie informacyjnym.

(60)

(61)

(62)

(63)

Generowanie macierzy rozró»nialno±ci

Wej±cie: A = (U, A) system informacyjny taki, »e U = {u1, ..,un}i A = {a1, ..,am}.

Wyj±cie: M(A) = (Cij)_i,j=1,..,n macierz odró»nialno±ci systemu A,przyczym M(A) ma obliczone tylko te pola Cij dla których 1 ≤ j < i ≤ n.

Metoda:

For i=1 to n do For j=1 to i-1 do

Wstaw do Cij atrybuty, na których ró»ni¡ si¦ obiekty ui i uj

(64)

Zªo»ono±¢:

• Aby obliczy¢ tablic¦ M(A), nale»y wyznaczy¢ zawarto±¢ ⁿ²₂⁻ⁿ pól macierzy.

• Zªo»ono±¢ obliczeniowa czasowa wyznaczania ka»dego pola jest zale»na od liczby atrybutów m.

• Dlatego zªo»ono±¢ obliczeniowa czasowa algorytmu jest rz¦du O(n²∗m), natomiast zªo»ono±¢ obliczeniowa pami¦ciowa algorytmu jest rz¦du O(C), gdzie C jest pewn¡ staª¡.

Powy»sze cechy sprawiaj¡, »e taka reprezentacja macierzy, jest bardzo niewygodna z programistycznego punktu widzenia. Macierz zawiera

redundantne informacje, zawarto±ci komórek nie s¡ typami prostymi a ponadto nie maj¡ staªej wielko±ci (liczby elementów w zbiorze). W efekcie struktura ta ma bardzo du»¡ zªo»ono±¢ pami¦ciow¡, która dla systemu informacyjnego SI = {U, A, V , f } wynosi: |U|²∗ |A|.

(65)

Funkcja rozró»nialno±ci

Funkcj¡ odró»nialno±ci systemu informacyjnego SI (ang. discernibility function) nazywamy funkcj¦ boolowsk¡ fSI zmiennych a^∗₁, ..,a^∗_m odpowiadaj¡cych odpowiednio atrybutom (systemu informacyjnego) a1, ..,am zdeniowan¡

nast¦puj¡co:

fSI(a^∗₁, ..,a_m^∗) =\ {[

(Xi,j:1 ≤ j ≤ n ∧ Hi, j 6= ∅)}

gdzie:n = |U|, m = |A|, S Xi,j jest alternatyw¡ wszystkich zmiennych

a^∗∈ {a^∗1, ..,am^∗}takich, »e a ∈ Hi, j.

1 2 3 4 6

1 ∅

2 g,m ∅

3 g,t m,t ∅

4 t g,m,t g ∅

6 t g,m,t g,t t ∅

Obliczmy funkcj¦ rozró»nialno±ci dla macierzy odró»nialno±ci:

fSI(g, m, t, c) = (g +m)∗(g +t)∗(t)∗(g +m+c)∗(t +c)∗(m+t)∗(g +m+t)∗

(c)∗(g +m+t+c)∗(g)∗(m+t+c)∗(g +t+c)∗(g +m+t+c)∗(t+c)∗(g +m+t) Wyra»enie to mo»na upro±ci¢ stosuj¡c m.in. prawo pochªaniania

(a + (a ∗ b)) = ado postaci:

fSI(g, m, t, c) = (t ∗ g ∗ c)

(66)

Redukcja atrybutów poj¦cie j¡dra i reduktów

Nadmiar informacji jest szkodliwy

W celu precyzyjnego i konkretnego opisana relacji pomi¦dzy obiektami wyst¦puj¡cymi w bazie wiedzy, stosuje si¦ redukcj¦ liczby atrybutów opisuj¡cych owe relacje.

Poszukuje si¦ takich podzbiorów atrybutów, które zachowuj¡ podziaª obiektów na klasy decyzyjne taki sam, jak wszystkie atrybuty.

Te zbiory atrybutów nie mog¡ by¢ wyznaczone w dowolny sposób. W teorii zbiorów przybli»onych wykorzystuje si¦ koncepcj¦ reduktu b¦d¡cego

niezale»nym podzbiorem atrybutów zachowuj¡cym taki sam podziaª na klasy decyzyjne jak wszystkie atrybuty.

W¦»szym poj¦ciem jest poj¦cie j¡dra, okre±laj¡cego zbiór atrybutów niezb¦dnych dla zachowania rozró»nialno±ci obiektów w systemie.

(67)

Redukt i Rdze« zbioru atrybutów

Niech SI = {U, A, V , f } b¦dzie systemem informacyjnym oraz B ⊆ A.

Denicja. Atrybut zb¦dny (niezb¦dny)

Atrybut a ⊆ B jest zb¦dny, je»eli IND(B) = IND(B − {a}).

W przeciwnym wypadku (tzn. je»eli IND(B) 6= IND(B − {a}) jest niezb¦dny.

Denicja. Zbiór atrybutów niezale»nych (zale»nych)

A - zbiór atrybutów jest niezale»ny wtedy i tylko wtedy, gdy dla ka»dego a ⊆ A, a jest niezb¦dny. W przeciwnym wypadku zbiór jest zale»ny.

(68)

Denicja - Redukt i rdze« (j¡dro)

B ⊆ A nazywamy reduktem A wtedy i tylko wtedy, gdy B jest niezale»ny oraz IND(B) = IND(A). Zbiór wszystkich reduktów oznaczamy przez RED(A).

Zbiór wszystkich niezb¦dnych atrybutów w B b¦dziemy nazywali rdzeniem (j¡drem) B i oznaczali przez CORE(B).

Powi¡zanie mi¦dzy reduktami i j¡drem Zachodzi nast¦puj¡cy zwi¡zek:

CORE(A) = T RED(A),

gdzie RED(A) to zbiór wszystkich reduktów B, tzn. j¡dro atrybutów to przekrój po wszystkich reduktach.

(69)

(70)

Przykªad

Zbiór wszystkich reduktów zbioru atrybutów {g, m, t, c} systemu informacyjnego z tabeli 1 wynosi: REDSI({g, m, t, c}) = {g, t, c}.

Aby udowodni¢, »e zbiór {g, t, c} jest reduktem nale»y pokaza¢, »e zachodz¡

warunki z denicji:

• INDSI({g, m, t, c}) = INDSI({g, t, c}),

Mo»emy to pokaza¢, usuwaj¡c z tego zbioru kolejne atrybuty i sprawdzaj¡c czy relacja nierozró»nialno±ci wzgl¦dem takiego okrojonego zbioru jest ró»na od relacji nierozró»nialno±ci wzgl¦dem caªego zbioru atrybutów. Je»eli tak b¦dzie, to zbiór {g, t, c} b¦dzie reduktem.

(71)

Metody generowania reduktów i rdzenia z TD

Redukty i rdze« z tablicy decyzyjnej generuje si¦ jedn¡ z dwóch dróg:

• z denicji,

• z macierzy rozró»nialno±ci.

(72)

Wyznaczanie j¡dra (rdzenia) z denicji

• Wyznacz klasy abstrakcji relacji nierozró»nialno±ci U/IND(B), gdzie B jest to zbiór wszystkich rozwa»anych atrybutów.

• Wyznacz klasy abstrakcji z pomini¦ciem i-tego atrybutu U/IND(B − ai).

• Je»eli U/IND(B) = U/IND(B − ai)to atrybut ai jest zb¦dny, w przeciwnym wypadku ai jest niezb¦dny i wchodzi do j¡dra CORE(B).

• Powtarzaj pkt. 2, a» wykorzystane zostan¡ wszystkie atrybuty z B.

(73)

(74)

(75)

(76)

Algorytm wyznaczania j¡dra z denicji

Dane:B = a1,a2,a3, ...ai, ...an

Tablica KRS

• CORE(B) := {}

• Wyznacz U/INB(B)

• Dla ka»dego a ∈ B wykonaj

• Je»eli U/INB(B) 6= U/IND(B − ai)To CORE(B) := CORE(B) ∪ ai

gdzie:

• CORE(B) - j¡dro (zbiór atrybutów),

• B - rozwa»any zbiór atrybutów,

• ai - i-ty atrybut ze zbioru B,

• U/INB(B) - klasa abstrakcji relacji nierozró»nialno±ci dla peªnego zbioru atrybutów,

• U/IND(B − ai)- klasy abstrakcji relacji nierozró»nialno±ci dla zbioru atrybutów z pomini¦ciem atrybutu ai.

(77)

Wyznaczenie rdzenia z denicji

• Wyznacz klasy abstrakcji U/IND(B), gdzie B jest to zbiór wszystkich rozwa»anych atrybutów.

• Sprawd¹, czy j¡dro CORE(B) nie jest reduktem.

• Poniewa» j¡dro to zbiór atrybutów niezb¦dnych, to sprawd¹, czy U/IND(B) = U/IND(CORE(B)), je»eli tak to j¡dro to jedyny redukt i przejd¹ do Punktu 6.

• Sprawd¹ kolejne podzbiory atrybutów Bi ∈B.

• Sprawd¹, czy podzbiór Bi jest niezale»ny. Je»eli tak, to sprawd¹ czy U/IND(B) = U/IND(Bi), je»eli zachodzi równo±¢ to podzbiór Bi jest reduktem.

• Wypisanie reduktów.

(78)

Podzbiór atrybutów B ⊆ A nazywamy reduktem zbioru atrybutów A, gdy zbiór atrybutów B jest niezale»ny oraz IND(B) = IND(A). Zbiór wszystkich reduktów oznaczamy przez RED(A). Redukt to najmniejszy zbiór atrybutów, przy którym zostaje zachowana dotychczasowa klasykacja (rozró»nialno±¢) obiektów.

Wa»ne!

Redukt musi speªnia¢ dwa kryteria:

1. musi by¢ niezale»nym zbiorem atrybutów (tylko atrybuty niezb¦dne), 2. musi zachowywa¢ tak¡ sam¡ rozró»nialno±¢ obiektów jak zbiór redukowany.

Uwaga!!!

Redukty mo»na wyznacza¢ dla dowolnego podzbioru A. Do tej pory rozwa»ali±my zawsze jaki± podzbiór atrybutów B ⊆ A. Dla takiego podzbiory B te» mo»emy liczy¢ redukty. Wtedy reduktem b¦dzie jaki±

podzbiór atrybutów C ⊆ B, a zbiór wszystkich reduktów B oznacza¢

b¦dziemy RED(B).

(79)

Zwi¡zek pomi¦dzy j¡drem a reduktem

J¡dro systemu informacyjnego rozpatrywanego dla podzbioru atrybutów B ⊆ A jest cz¦±ci¡ wspóln¡ wszystkich reduktów tego systemu.

CORE(B) =\ RED(A).

Uwaga! To wªa±ciwo±¢ wi¡»¡ca j¡dro i redukty a nie denicja j¡dra!

(80)

Algorytm generowania reduktu z denicji

Dane:B = {a1,a2,a3, ...ai, ...,an} Tablica KRS

• Wyznacz U/IND(B)

• Wyznacz CORE(B)

• RED(B) := CORE(B)

• Je»eli U/IND(B) = U/IND(CORE(B)) To RED(B) := CORE(B), w przeciwnym wypadku Dla ka»dego podzbioru atrybutów Bi ∈B wykonaj: Je»eli U/IND(B) = U/IND(Bi)ToRED(B) := RED(B) ∪ Bi

(81)

Generowanie reduktu i rdzenia z denicji

Najpierw wyznaczamy klasy równowa»no±ci dla peªnego zbioru atrybutów:

IND(C) = {{1}, {2}, {3}, {4}, {6}}

Teraz b¦dziemy sprawdza¢ czy zmieni si¦ dotychczasowa klasykacja obiektów, jak¡ mamy dla peªnego zbioru atrybutów, je±li usuniemy jaki± atrybut ze zbioru.

IND((C) − {g}) = {{1}, {2}, {3, 4}, {6}}

czyli:

IND((C) − {g}) 6= IND(C)

wi¦c atrybut {g} jest niezb¦dny w systemie, poniewa» je±li go usuniemy to stracimy informacje o rozró»nialno±ci dwóch obiektów 3i4.

(82)

Generowanie reduktu i rdzenia z denicji - cd IND((C) − {m}) = {{1}, {2}, {3}, {4}, {6}}

czyli:

IND((C) − {m}) = IND(C)

wi¦c atrybut {m} jest zb¦dny w systemie, poniewa» je±li go usuniemy to nie stracimy informacji o rozró»nialno±ci obiektów.

IND((C) − {t}) = {{1, 4, 6}, {2}, {3}}

czyli:

IND((C) − {t}) 6= IND(C)

wi¦c atrybut {t} jest niezb¦dny w systemie, poniewa» je±li go usuniemy to stracimy informacje o rozró»nialno±ci obiektów.

(83)

Generowanie reduktu i rdzenia z denicji - cd

Zatem CORE(C) to zbiór atrybutów niezb¦dnych w systemie wi¦c w naszym przypadku stanowi¡ go dwa atrybuty:

CORE(C) = {gt}

Redukt zgodnie z denicj¡ jest to taki zbiór atrybutów niezb¦dnych, dla którego zapewniona jest dotychczasowa klasykacja obiektów, a wiec na pewno redukt musi zawiera¢ w sobie j¡dro.

Sprawdzamy wi¦c dla jakiej kombinacji atrybutów uzyskamy taki sam podziaª obiektów jaki daªa IND(C).

IND(gt) = {{1}, {2}, {3}, {4}, {6}}

Skoro IND(gt) = IND(C), to ten zbiór atrybutów {gt} jest reduktem zbioru atrybutów.

RED(C) = {gt}.

(84)

Algorytm generacji j¡dra z macierzy rozró»nialno±ci

Dane: Macierz M[I , J]

• CORE(B) := {}

• Dla I := 1 do N wykonaj Dla J := 1 do I − 1 wykonaj

• Je»eli card(M[I , J]) = 1 to CORE(B) := CORE(B) + M[I , J]

(85)

Wyznaczanie reduktów z macierzy

• Utworzenie wszystkich mo»liwych podzbiorów atrybutów.

• Wybranie tych, które zawieraj¡ rdze« CORE(B).

• Sprawdzenie, czy otrzymane podzbiory maj¡ niepuste przeci¦cie z ka»dym niepustym elementem macierzy rozró»nialno±ci M(S).

• Spo±ród otrzymanych podzbiorów atrybutów nale»y wybra¢ i usun¡¢ te, które stanowi¡ nadzbiory wyznaczonych reduktów.

• Pozostaªe podzbiory stanowi¡ redukty RED(B).

(86)

Generowanie reduktu i rdzenia z macierzy rozró»nialno±ci

W tym celu generujemy macierz rozró»nialno±ci dla tablicy deecyzyjnej:

M(SI ) = (Hi,j)_i,j=1,..,n= {a ∈ A : f (u1,a) 6= f (uj,a)}

dlai, j = 1, .., n,gdzien = |U|.

Denition

Macierz odró»nialno±ci jest dwuwymiarow¡ macierz¡ kwadratow¡ o wymiarach:

|U| × |U|. Komórka M(SI )[i, j] zawiera zbiór tych atrybutów, dla których obiekty uniwersum ui i uj maj¡ ró»ne warto±ci (s¡ rozró»nialne przy pomocy tych atrybutów).

(87)

1 2 3 4 6

1 ∅

2 g,m ∅

3 g,t m,t ∅

4 t g,m,t g ∅

6 t g,m,t g,t t ∅

Tablica:Macierz rozró»nialno±ci dla system informacyjnego

(88)

Macierz rozró»nialno±ci a redukt i rdze« zbioru atrybutów

Istniej¡ nast¦puj¡ce zwi¡zki pomi¦dzy macierz¡ rozró»nialno±ci a j¡drem i reduktami:

CORE(A) = {a ⊆ A : cij = {a}}

dla pewnego 0 < i, j < n + 1, tzn. do j¡dra wchodz¡ te atry-buty, które wyst¦puj¡ w macierzy rozró»nialno±ci pojedynczo.

Denition

B ⊆ A jest reduktem A wtedy i tylko wtedy, gdy B jest minimalny (w sensie zawierania zbiorów) oraz z ka»dym niepustym elementem macierzy

nierozró»nialno±ci M(S) ma niepuste przeci¦cie.

Innymi sªowy redukt jest to najmniejszy zbiór atrybutów, przy którym zostaje zachowana dotychczasowa klasykacja (rozró»nialno±¢) obiektów:

RED(C) = {gt}orazCORE(C) = {gt}.

(89)

Podsumowanie cz¦±ci I

1. System informacyjny a system decyzyjny.

2. Tablicowa forma systemu decyzyjnego.

3. Relacja nierozró»nialno±ci, klasa abstrakcji rozró»nialno±ci.

4. Aproksymacja zbiorów obiektów.

• Dolne przybli»enie, górne przybli»enie, brzeg zbioru,

• dokªadno±¢ górnego i dolnego przybli»enia.

5. Usuwanie niespójno±ci z tablicy decyzyjnej.

6. Redukcja atrybutów, generowanie RED(C) oraz CORE(C):

• z denicji,

• z macierzy rózró»nialno±ci.

(90)

(91)

Generowanie reguª minimalnych z tablic decyzyjnych

Cz¦±¢ II

Denition

Generowanie reguª minimalnych z tablic decyzyjnych.

Cz¦±¢ II.

(92)

Tablica decyzyjna

Szczególnym rodzajem systemów informacyjnych s¡ tablice decyzyjne (TD).

Tablic¡ decyzyjn¡ nazywamy uporz¡dkowan¡ pi¡tk¦:

TD = (U, C, D, V , f ) gdzie:

• C, D ⊂ A; C 6= ∅; C ∪ D = A; C ∩ D = ∅,

• elementy zbioru C nazywamy atrybutami warunkowymi,

• elementy zbioru D nazywamy atrybutami decyzyjnymi,

• f nazywamy funkcj¡ decyzyjn¡.

• interpretacja U oraz V jest taka sama jak w przypadku systemu informacyjnego, ponadto poszczególne warto±ci v dziedzin atrybutów D(v ∈ VD)b¦dziemy nazywa¢ klasami decyzyjnymi.

(93)

Podstawowa ró»nica mi¦dzy tablic¡ decyzyjn¡ a systemem informacyjnym polega wi¦c na tym, »e cz¦±¢ atrybutów traktujemy jako atrybuty warunkowe (C) a cz¦±¢ jako decyzyjne (D).

(94)

Przykªad

Tabel¦ 1 b¦dziemy traktowa¢ jako tablic¦ decyzyjn¡.

Zbiór atrybutów systemu informacyjnego dzielimy na dwa podzbiory: podzbiór atrybutów warunkowych (C) oraz podzbiór atrybutów decyzyjnych (D) w nast¦puj¡cy sposób:

• C = {Bol_glowy, Bol_miesni, Temperatura} = {g, m, t}

• D = {Grypa} = {c}

(95)

Tablice decyzyjne deterministyczne i niedeterministyczne

Ka»dy obiekt u ⊂ U tablicy decyzyjnej TD = (U, C, D, V , f ) mo»e zosta¢

zapisany w postaci zdania warunkowego (postaci: je»eli warunki to decyzja) i by¢ traktowany jako reguªa decyzyjna.

Reguª¡ decyzyjn¡ w tablicy decyzyjnej TD nazywamy funkcje:g : C ∪ D → V je»eli istnieje x ∈ U, taki, »e g = fx.

Obci¦cie g do C (g|C) oraz g do D (g|D) nazywamy odpowiednio warunkami oraz decyzjami reguªy decyzyjnej g.

(96)

Reguªy decyzyjne Przykªad

Z przykªadowej tablicy decyzyjnej z tabeli 1 mo»emy wyprowadzi¢ nast¦puj¡ce reguªy (odpowiadaj¡ce konkretnym obiektom):

1. je»eli (g=nie) i (m=tak) i (t=wysoka) to (c=tak) 2. je»eli (g=tak) i (m=nie) i (t=wysoka) to (c=tak) 3. je»eli (g=tak) i (m=tak) i (t=bardzo wysoka) to (c=tak) 4. je»eli (g=nie) i (m=tak) i (t=bardzo wysoka) to (c=tak) 5. je»eli (g=tak) i (m=nie) i (t=wysoka) to (c=nie) 6. je»eli (g=nie) i (m=tak) i (t=normalna) to (c=nie)

(97)

Reguªy decyzyjne - rodzaje reguª

Reguªy decyzyjne mo»na dzieli¢ na wiele ró»nych grup bior¡c pod uwag¦ ró»ne kryteria. Jeden z podziaªów wyró»nia dwie grupy reguª:

• reguªy deterministyczne

• reguªy niedeterministyczne

(98)

Reguªy deterministyczne

Denition

Reguªa w tablicy decyzyjnej TD jest deterministyczna, gdy równo±¢ atrybutów warunkowych implikuje równo±¢ atrybutów decyzyjnych.

Mówi¡c ja±niej: reguªa jest deterministyczna gdy zawsze dla tych samych warto±ci atrybutów warunkowych podaje na wyj±cie tak¡ sam¡ decyzj¦ systemu - czyli tak¡ sam¡ warto±¢ atrybutu decyzyjnego. Fakt ten mo»emy wyrazi¢ przy pomocy nast¦puj¡cej zale»no±ci dla obiektów tablicy decyzyjnej:

∀_x,y∈U

x6=y (∀ c ∈ C (f (x,c) = f (y,c)) ⇒ ∀d ∈ D (f (x,d) = f (y,d)))

(99)

Reguªy niedeterministyczne

Reguªa w tablicy decyzyjnej TD jestniedeterministyczna, gdyrówno±¢

atrybutów warunkowych nie implikuje równo±ci atrybutów decyzyjnych, co mo»na wyrazi¢ nast¦puj¡c¡ zale»no±ci¡ dla obiektów tablicy decyzyjnej:

∀_x,y∈U

x6=y (∀ c ∈ C (f (x,c) = f (y,c)) ∧ ∃d ∈ D (f (x,d) 6= f (y,d)))

(100)

Reguªy decyzyjne: deterministyczne i niedeterministyczne Tablica decyzyjna jest deterministyczna (dobrze okre±lona, spójna), gdy wszystkie reguªy w niej zawarte s¡ deterministyczne, w przeciwnym przypadku jest niedeterministyczna (¹le okre±lona,niespójna).

Tablica decyzyjna z tabeli jestniedeterministyczna,gdy» reguªy pochodz¡ce z obiektów: 2i5s¡ niedeterministyczne.

∀_2,5∈U

26=5 (∀ c ∈ C (f (2,c) = f (5,c)) ∧ ∃d ∈ D (f (2,d) 6= f (5,d))) a dokªadniej:

f (2, c) = f (5, c) : (g = tak) ∧ (m = nie) ∧ (t = wysoka)

f (2, d) 6= f (5, d) : bo(c = tak)|2 6= (c = nie)|5

(101)

Relacja nierozró»nialno±ci wzgl¦dem decyzji

Z uwagi na rzeczywiste zastosowania tablice decyzyjne najcz¦±ciej posiadaj¡

tylko jeden atrybut decyzyjny, dlatego w dalszej cz¦±ci rozwa»a« przyjmiemy, »e D = {d}. Wszystkie denicje mog¡ jednak w prosty sposób zosta¢ uogólnione na przypadek, kiedy zbiór atrybutów decyzyjnych posiada wi¦cej ni» jeden element.

(102)

Center for Machine Learning and Intelligent Systems at the University of California

(103)

(104)

Denition

171 zbiorów danych rzeczywistych

1. Zastosowanie: klasykacja (113),regresja (12),grupowanie (5),inne (43) 2. Typ atrybutów: porz¡dkowe (35), numeryczne (59), mieszane (54) 3. Typ danych: Multivariate (131), Univariate (3), ci¡gªe (8), Time-Series

(13), Text (8), Domain-Theory (13), inne (21)

4. Obszar: Life Sciences (47), Physical Sciences (27),CS Engineering (26),Social Sciences (14) Business (5),Game (8),Other (43) 5. Liczba atrybutów: < 10 (39), (10, 100 > (81), > 100 (16) 6. Liczba obiektów: < 100 (10), (100, 1000 > (75), > 1000(63) 7. Format: Matrix (122), Non-Matrix (49)

(105)

Relacja nierozró»nialno±ci wzgl¦dem decyzji - rodzaje decyzji

(106)

(107)

(108)

(109)

(110)

(111)

(112)

(113)

NiechTD = (U, C, {d}, V , f )b¦dzie tablic¡ decyzyjn¡ i niechB ⊆ C.

Denition

Relacj¦ nierozró»nialno±ci wzgl¦dem decyzji d na zbiorze obiektów U generowan¡ przez zbiór atrybutów B deniujemy jako:

IND(B, d) = {(x, y) ∈ U × U : (x, y) ∈ INDSI(B) ∨ f (x, d) = f (y, d)}