Teoretyczne podstawy zbiorów przybliżonych Agnieszka Nowak 17 kwietnia 2009

(1)

Teoretyczne podstawy zbiorów przybliżonych

Agnieszka Nowak 17 kwietnia 2009

1 Podstawy teorii zbiorów przybliżonych

1.1 Wstęp

Teoria zbiorów przybliżonych została sformułowana przez Zdzisława Pawlaka w 1982 roku. Jest ona wykorzystywana jako narzędzie do syntezy zaawansowa- nych i efektywnych metod analizy oraz do redukcji zbiorów danych. Znalazła ona zastosowanie m.in. w eksploracji danych i odkrywaniu wiedzy, złożonych zadaniach klasyfikacji oraz w komputerowych systemach wspomagania decyzji.

Metodologia zbiorów przybliżonych zyskała sobie dużą popularność. Jest ona przedmiotem badań wielu osób na całym świecie. Poświęcono jej przeszło 2000 publikacji, w tym kilkanaście książek. Cyklicznie odbywają się na jej temat mię- dzynarodowe konferencje i seminaria (m.in. w USA, Kanadzie i Japonii).

1.2 System informacyjny

Istnieje szereg struktur, które mogą być wykorzystane do przechowywania danych. Sposób reprezentacji danych powinien jednak posiadać dwie podstawowe cechy: uniwersalność (powinien pozwalać na gromadzenie i przechowywanie zbio- rów różnorodnych danych, opisujących badane zjawiska i procesy) oraz efektyw- ność (powinien umożliwiać w łatwy sposób komputerową analizę tak zapisanych danych). Obie te cechy posiada znany i często wykorzystywany w praktyce ta- blicowy sposób reprezentacji danych. W tym podejściu zbiór danych przedsta- wiany jest w postaci tablicy, której kolumny są etykietowane przez atrybuty (parametry, własności, cechy), wiersze odpowiadają zaś obiektom (elementom, sytuacjom, stanom), a na przecięciu wierszy i kolumn znajdują się wartości od- powiednich atrybutów dla poszczególnych obiektów. Tak zdefiniowaną strukturę nazywamy systemem informacyjnym (SI) (ang. information system) rzadziej zaś tablicą informacyjną lub tablicą typu atrybut-wartość. Formalnie systemem informacyjnym nazywamy uporządkowaną czwórkę:

SI = (U, A, V, f ) gdzie:

• U jest niepustym, skończonym zbiorem zwanym uniwersum, przy czym elementy zbioru, U nazywamy obiektami U = {x1, x2, .., xn}

• A jest niepustym, skończonym zbiorem atrybutów:

U = {a1, a2, .., am}

(2)

• V jest zbiorem wartości atrybutów ze zbioru A:

V = ∪a∈AVa

przy czym Va nazywamy dziedzina atrybutu a ∈ A .

• f : U × A → V jest funkcją informacji taką, że

∀_x∈U

a∈A

f (x, a) ∈ Va

Pacjent Ból głowy (g) Ból mięsni (m) Temperatura (t) Grypa (c)

1 nie tak wysoka tak

2 tak nie wysoka tak

3 tak tak bardzo wysoka tak

4 nie tak bardzo wysoka tak

5 tak nie wysoka nie

6 nie tak normalna nie

Tablica 1: System informacyjny / tablica decyzyjna

Tabela przedstawia przykładowy system informacyjny zawierający wyniki ba- dań przeprowadzonych dla grupy pacjentów. System ten składa się z sześciu obiektów (1, 2, .., 6) oraz czterech atrybutów (Ból głowy, Ból mięśni, Tempera- tura, Grypa).

Rozpatrywany system informacyjny może zostać zapisany w następującej po- staci: SI = (U, A, V, f ) gdzie:

• U={1, 2, 3, 4, 5, 6}

• A={Ból głowy, Ból mięśni, Temperatura, Grypa}

• V = VBlgowy∪ VBlmini∪ VT emperatura∪ VGrypa

V_Blgowy = {nie, tak}

VBlmini= {nie, tak}

VT emperatura= {normalna, wysoka, bardzowysoka}

VGrypa= {nie, tak}

• f : U × A → V (np. f(1, Ból głowy)=nie; f(3, Grypa) = tak)

1.3 Relacja nierozróżnialności

Analizując poszczególne obiekty z tabeli można zaobserwować, że obiekty o nu- merach 1, 4 i 6 mają te same wartości atrybutów: ból głowy oraz ból mięśni zaś obiekty o numerach 1 i 5 mają tę samą wartość atrybutu temperatura. O obiek- tach numer 1, 4 i 6 powiemy, że są nierozróżnialne ze względu na atrybuty:

ból głowy oraz ból mięśni, zaś obiekty o numerach 1 i 5 są nierozróżnialne ze względu na atrybut: temperatura.

Tę obserwację można uogólnić i wyrazić w sposób formalny stosując odpowiednio zdefiniowaną relację.

Niech SI = (U, A, V, f ) będzie systemem informacyjnym i niech A ⊆ B.

(3)

Relację nie rozróżnialności (ang. indiscernibility relation) na zbiorze obiektów U generowaną przez zbiór atrybutów B określamy jako:

IN DSI(B) = {(x, y) ∈ U × U : ∀a ∈ Bf (x, a) = f (y, a)}

Poszczególne pary obiektów należą do relacji wtedy, gdy posiadają te same war- tości dla wszystkich atrybutów ze zbioru B.

Relacja nierozróżnialności IN DSI(B) jest relacją równoważności, gdyż jest re- lacją:

• zwrotną, gdyż: _u∈U^∀ (u, u) ∈ IN DSI(B)

• symetryczną, gdyż: _u,v∈U^∀ ((u, v) ∈ IN DSI(B) ⇒ (v, u) ∈ IN DSI(B))

• przechodnią, gdyż: _u,v,w∈U^∀ ((u, v) ∈ IN DSI(B)V

(v, w) ∈ IN DSI(B) ⇒ (u, w) ∈ IN DSI(B))

Każda relacja równoważności dzieli zbiór, w którym jest określona, na rodzinę rozłącznych podzbiorów zwanych klasami abstrakcji (równoważności) lub zbio- rami elementarnymi tej relacji. Klasa abstrakcji elementu y ∈ X względem relacji równoważności R w zbiorze X to zbiór elementów x ∈ X, które są w relacji R z y.

Dla danej relacji nie rozróżnialności IN DSI(B) rodzinę wszystkich klas abstrak- cji tej relacji oznacza się przez: U/IN DSI(B). Poszczególne klasy nazywamy zbiorami B – elementarnymi, zaś przez ISI,B(x) oznaczamy klasę tej relacji za- wierającą obiekt x. Formalnie I_SI,B(x) (oznaczane również: [x]_{IN D}_SI_(B)) można zdefiniować jako:

IN DSI,B(x) = {y ∈ U |(x, y) ∈ IN DSI(B)}

Wszystkie elementy każdego zbioru B – elementarnego mają te same wartości wszystkich atrybutów należących do zbioru B (są nierozróżnialne względem tych atrybutów). Zbiór ISI,B(x) zawiera zaś te wszystkie obiekty systemu informa- cyjnego SI, które są nierozróżnialne z obiektem x względem zbioru atrybutów B (mają te same wartości dla wszystkich atrybutów ze zbioru B).

Dla systemu informacyjnego przedstawionego w tabeli można wyznaczyć relacje nie rozróżnialności generowane przez różne zbiory atrybutów.

Niech:

A1= g, m, t, A2= t, A3= g, m, A4= g, t, c, A5= g, m, t, c

IN DSI(A1) = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6), (2, 5), (5, 2)}

IN DSI(A2) = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6), (1, 2), (2, 1), (1, 5), (5, 1), (2, 5), (5, 2), (3, 4), (4, 3)}

IN DSI(A3) = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6), (1, 4), (4, 1), (1, 6), (6, 1), (4, 6), (6, 4), (2, 5), (5, 2)}

IN DSI(A4) = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}

Powyższe relacje dzielę zbiór obiektów systemu informacyjnego na następujące klasy abstrakcji (zbiory elementarne):

U/IN DSI(A1) = {{1}, {2, 5}, {3}, {4}, {6}}

(4)

U/IN DSI(A2) = {{1, 2, 5}, {3, 4}, {6}}

U/IN DSI(A3) = {{1, 4, 6}, {2, 5}, {3}}

U/IN DSI(A4) = {{1}, {2}, {3}, {4}, {5}, {6}}

U/IN DSI(A) = {U/IN DSI(A4)}

Na tej podstawie można wyznaczyć przykładowe klasy abstrakcji zawiera- jące poszczególne obiekty systemu informacyjnego:

ISI,A3(1) = {1, 4, 6}

ISI,A3(2) = {2, 5}

ISI,A3(3) = {3}

1.4 Zbiór dokładny oraz zbiór przybliżony

Operowanie pojęciami nieostrymi (nieścisłymi, nieprecyzyjnymi) jest bez wąt- pienia jednym z głównych problemów rozumowań potocznych. Pojęcia nieostre różnią się tym od pojęć ostrych, że w przeciwieństwie do tych ostatnich nie zawsze możliwe jest jednoznaczne zaklasyfikowanie obiektu do pojęcia, tzn. dla pewnej grupy obiektów z otaczającej nas rzeczywistości nie można — stwierdzić jednoznacznie czy dany obiekt należy do rozpatrywanego pojęcia, czy też nie należy.

Na przykład mogą to być pojęcia takie jak: małe dziecko, piękna kobieta, wysoki człowiek, dobra książka, łatwe zadanie itd. Najbardziej znany model matema- tyczny pojęć nieostrych, zwany teorią zbiorów rozmytych został zaproponowany przez Zadeha. Model ten zdobył dużą popularność i znalazł wiele zastosowań (również przy konstrukcji inteligentnych systemów decyzyjnych).

Zaletą tego modelu jest duża jego prostota oraz intuicyjność. Innym modelem matematycznym jaki można zastosować do badania pojęć nieostrych jest tzw.

teoria ewidencji, zwana również teorią DemsteraShafera, gdyż obecną jej postać zawdzięczamy głównie pracom Demstera i Shafera. W 1976 roku Shafer opubli- kował monografię, w której zaproponowaó aksjomatyczne ujęcie wcześniejszego modelu pochodzącego od Demstera. Wspomniany model dotyczy konstruowania prawdopodobnych sądów (wnioskowań) o słabo ustrukturowanych problemach, a więc, takich problemach, o których posiadana wiedza ma postać luźnych prze- słanek i ewentualnie wstępnych hipotez. Teoria zbiorów przybliżonych także może być uważana za jeden ze sposobów formalizacji nieostrości pojęć.

Interesującym wydaje się fakt, że istnieją związki pomiędzy teorią zbiorów rozmytych a teorią zbiorów przybliżonych. Teoria zbiorów przybliżonych proponuje zastąpienie nieostrego (nieprecyzyjnego) pojęcia, parą pojęć precyzyjnych, zwa- nych dolnym i górnym przybliżeniem tego pojęcia. Różnica między górnym i dolnym przybliżeniem jest właśnie tym obszarem granicznym, do którego na- lezą wszystkie przypadki, które nie mogą być prawidłowo zaklasyfikowane na podstawie aktualnej wiedzy. Im większy obszar graniczny pojęcia tym bardziej jest ono nieostre (nieprecyzyjne). Niech SI = {U, A, V, f } będzie systemem in- formacyjnym i niech B ⊆ A. Mówimy, że zbiór P ⊆ U jest zbiorem B – do- kładnym (B – definiowalnym) wtedy, gdy jest on skończoną sumą zbiorów B – elementarnych.

Każdy zbiór, który nie jest skończoną sumą zbiorów B – elementarnych jest zbiorem B – przybliżonym.

(5)

Przykład Kontynuując przykład z poprzedniego podrozdziału niech:

X1= {1, 2, 3, 5}

X2= {3, 4, 5, 6}

Możemy stwierdzić, że:

• Zbiór X1jest zbiorem A1– dokładnym, gdyż jest skończoną sumą zbiorów A1– elementarnych: X1= {{1} ∪ {2, 5} ∪ {3}}

• Zbiór X2 jest zbiorem A1 – przybliżonym, gdyż nie jest skończoną sumą zbiorów A1 – elementarnych (obiekty 2 i 5 należą do jednego zbioru B – elementarnego, zaś zbiór X2 zawiera tylko obiekt numer 5, a nie zawiera obiektu numer 2)

• Zbiór X1 jest zbiorem A2 – przybliżonym, gdyż nie jest skończoną sumą zbiorów A2 – elementarnych (obiekty 3 i 4 należą do jednego zbioru C – elementarnego, zaś zbiór X1 zawiera tylko obiekt numer 3, a nie zawiera obiektu numer 4)

• Zbiór X2 jest zbiorem A2 – przybliżonym, gdyż nie jest skończoną sumą zbiorów A2 – elementarnych (obiekty 1, 2 i 5 należą do jednego zbioru C – elementarnego, zaś zbiór X₂zawiera tylko obiekt numer 5, a nie zawiera obiektów numer 1 i 2)

1.5 Aproksymacja zbioru

Jeśli SI = {U, A, V, f } jest systemem informacyjnym takim, że B ⊆ A oraz X ⊆ U to:

• B – dolnym przybliżeniem (aproksymacją) zbioru X w systemie informa- cyjnym SI nazywamy zbiór:

BX = {x ∈ U : ISI,B(x) ⊆ X}

• B – górnym przybliżeniem (aproksymacją) zbioru X w systemie informa- cyjnym SI nazywamy zbiór:

BX = {x ∈ U : ISI,B(x) ∩ X 6= ∅}

• B – pozytywnym obszarem (ang. positive area) zbioru X w systemie in- formacyjnym SI nazywamy zbiór:

P OSB(X) = BX

• B – brzegiem (granicą) (ang. boundary) zbioru X w systemie informacyj- nym SI nazywamy zbiór:

BNB(X) = BX − BX

• B – negatywnym obszarem (ang. negative area) zbioru X w systemie in- formacyjnym SI nazywamy zbiór:

N EGBX = U − BX

(6)

Z definicji powyższych możemy wysnuć następujące wnioski:

• BX ⊆ X ⊆ BX

• zbiór X jest B-dokładny, gdy: BX = BX ⇐⇒ BNBX = ∅

• zbiór X jest B-przybliżony, gdy: BX = BX ⇐⇒ BNBX 6= ∅

Dolne przybliżenie pojęcia jest to więc pojęcie do którego należą wszyst- kie obiekty, co do których nie ma wątpliwości, że są one reprezentantami tego pojęcia w świetle posiadanej wiedzy. Do górnego przybliżenia niależą obiekty, których nie można wykluczyć, że są reprezentantami tego pojęcia. Brzegiem zaś pojęcia są wszystkie te oniekty, co do ktorych nie wiadomo czy są czy nie reprezentantami danego zbioru.

1.5.1 Aproksymacje zbiorów – interpretacja

• Za pomocą dolnej i górnej aproksymacji jesteśmy w stanie określić nieostre pojęcie w ścisły sposób.

• Dolna aproksymacja pojęcia, to wszystkie te obiekty, które należą bez wątpienia do pojęcia X. Należą one bowiem do takich klas abstrakcji, które w całości zawierają się w pojęciu X.

• Górna aproksymacja pojęcia, to zbiór takich obiektów, co do których nie możemy wykluczyć, że należą do pojęcia X. Jest to spowodowane tym, że należą do klas abstrakcji mających niepuste przecięcie z pojęciem X. Są zatem nierozróżnialne z pewnymi obiektami należącymi do tego pojęcia.

• Brzeg zbioru X zawiera obiekty, których nie można jednoznacznie przy- dzielić do X z uwagi na sprzeczny opis.

1.5.2 Nadmiar informacji jest szkodliwy

• W celu precyzyjnego i konkretnego opisana relacji pomiędzy obiektami występującymi w bazie wiedzy, stosuje się redukcję liczby atrybutów opi- sujących owe relacje.

• Poszukuje się takich podzbiorów atrybutów, które zachowują podział obiek- tów na klasy decyzyjne taki sam, jak wszystkie atrybuty.

• Te zbiory atrybutów nie mogą być wyznaczone w dowolny sposób. W teorii zbiorów przybliżonych wykorzystuje się koncepcję reduktu będącego niezależnym podzbiorem atrybutów zachowującym taki sam podział na klasy decyzyjne jak wszystkie atrybuty.

• Węższym pojęciem jest pojęcie jądra, określającego zbiór atrybutów nie- zbędnych dla zachowania rozróżnialności obiektów w systemie.

(7)

1.6 Liczbowa charakterystyka aproksymacji zbioru

Każdy zbiór (przybliżony lub dokładny) można scharakteryzować ilościowo za pomocą współczynnika dokładności aproksymacji (przybliżenia).

Współczynnik dokładności aproksymacji zbioru X w systemie informacyjnym SI względem zbioru atrybutów B wyraża się wzorem:

α_B(X) = ^{card(P OS}^B^(X))

card(BX) =^card(BX)

card(BX)

gdzie card(X) oznacza liczność zbioru X.

łatwo zauważyć, że:

• 0 ¬ αB(X) ¬ 1

• jeżeli X jest zbiorem dokładnym to: αB(X) = 1

• jeżeli X jest zbiorem przybliżonym to: 0 ¬ αB(X) < 1

Przykład Liczymy teraz dokładność aproksymacji dla zbiorów X1oraz X2

względem zbioru atrybutów A1: αA1(X1) = ^card(A_card(A¹^X¹⁾

1X1)= ⁴₄ = 1 αA1(X2) = ^card(A_card(A¹^X²⁾

1X2)= ³₅ = 0.6

gdzie card(X) oznacza liczność zbioru X.

2 Usuwanie niespójności z tablicy decyzyjnej

Wyróżnić można 5 metod usuwanie niespójności w tablicach decyzyjnych:

• Zwrócić się do EKSPERTA aby dla obiektów 2 i 5 podjął jedną decyzję.

Jest to sposób najprostszy przerzucający ciężar usunięcia niespójności z tablicy na eksperta. Niestety bardzo często zdarza się, że ekspert nie po- trafi podjąć jednoznacznej decyzji. Twierdzi np. że dla takich atrybutów (parametrów) raz podejmuje decyzje 1 innym razem decyzje 2. W takim przypadku metoda ta nie daje rezultatu.

• Utworzenie dwóch (lub więcej w przypadku ogólnym) spójnych tablic de- cyzyjnych, poprzez rozdzielenie sprzecznych obiektów. Jest to jednak tylko pozorne rozwiązanie problemu. Powstaną dwa zbiory reguł dla pierwszej i drugiej tablicy. Reguły powstałe na podstawie obiektu 2 w tablicy pierwszej i reguła dla obiektu 5 w tablicy drugiej, będą sprzeczne.

• Usunięcie obiektów będących przyczyną niespójności. Powstaje problem, który obiekt usunąć. Można posłużyć się tutaj metodą ilościową. Wówczas usuniemy ten obiekt(-y), którego decyzja mniej razy była potwierdzana.

(8)

• Można posłużyć się tutaj również metodą jakościową. Usuniemy ten obiekt, którego wartość decyzja jest ”mniej ważąca”. ”Mniej ważąca”to znaczy mająca mniejszą dokładność dolnego lub górnego przybliżenia. Dla każ- dego X ⊆ U i B ⊆ A dokładność dolnego przybliżenia γB(X) obliczymy ze wzoru:

γB(X) = |BX|

|U |

Dokładność górnego przybliżenia γ^B(X)obliczymyzewzoru : γB(X) = |BX|

|U |

Wówczas usuwamy ten obiekt, dla którego dokładności (górnego bąd”x dolnego) przyblizenia była mniejsza.

Przykład Dla tabeli numer 1, która przecież jest niespójna postaramy sie usunąć niespójność metodą jakościową. Najpierw dzielimy zbiór obiektów X ze względu na decyzję na dwa rozłączne podzbiory X1 oraz X2. X1= {1, 2, 3, 4}

X2= {5, 6}

Generujemy teraz klasy rozróżnialności dla całego zbioru atrybutów warunkowych:

IN D(C) = {{1}, {2, 5}, {3}, {4}, {5}, {6}}.

Teraz można juz wyznaczyć dla każdego ze zbiorów klasy decyzyjnych: X1

oraz X2 przybliżenie dolne oraz górne.

BX1= {1, 3, 4}

BX1= {1, 2, 3, 4, 5}

BX2= {6}

BX2= {2, 5, 6}

Teraz można juz przystąpić do wyliczenia dokładności górnego oraz dolnego przybliżenia:

γB(X1) = ^|BX_{|U |}¹^|= ³₆ =¹₂ γB(X2) = ^|BX_{|U |}²^|= ¹₆ γB(X1) = ^|BX_{|U |}¹^|= ⁵₆ γ_B(X₂) = ^|BX_{|U |}²^|= ³₆ =¹₂

Metoda mówi, aby usunąć ten obiekt, dla którego uzyskano mniejszą do- kładność dolnego, bąd”x górnego przybliżenia w zależności od wybranego wariantu. W naszym przypadku usuniemy obiekt, który powodował nie- spójność i występował w zbiorze X2. Spójna juz teraz tablica decyzyjna wygląda następująco:

• Tworzenie nowego podziału (Systemu informacyjnego) Decyzja d wyzna- cza klasyfikację: ClassA(d) = {X1, ..., X_r(d)}, (gdzie (d) - to ilość róż- nych wartości atrybutu decyzyjnego.) Tworzymy nowy podział: App − ClassA(d) = {A_|X1, ..., A_Xr(d)}S

{BdA() : || > 1} gdzie Ten nowy po- dział tworzy tablice decyzyjną spójną.

Tabela nr 1, (niespójna) po dodaniu do systemu informacyjnego, nowego, uogólnionego atrybutu decyzyjnego wygląda następująco:

(9)

Pacjent Ból głowy (g) Ból mięśni (m) Temperatura (t) Grypa (c)

2 tak nie wysoka tak

Tablica 2: System informacyjny / tablica decyzyjna po usunięciu niespójności Pacjent Ból głowy (g) Ból mięśni (m) Temperatura (t) Grypa (c)

2 tak nie wysoka tak,nie

5 tak nie wysoka tak,nie

Tablica 3: System informacyjny / tablica decyzyjna

3 Macierz, tablica, funkcja oraz wektor odróż- nialności dla systemu informacyjnego

3.1 Macierz rozróżnialności

Jeśli SI = {U, A, V, f } jest systemem informacyjnym takim, że U = {u1, u2, .., un} i A = {a1, a2, .., am} , to macierz odróżnialności (rozróżnialności) systemu informacyjnego SI M (SI) (ang. discernibility matrix) definiujemy następująco:

M (SI) = (Hi,j)i,j=1,..,n= {a ∈ A : f (ui, a) 6= f (uj, a)}

dla i, j = 1, .., n, gdzie n = |U |.

Macierz odróżnialności jest dwuwymiarową macierzą kwadratową o wymia- rach: |U | × |U |.

Komórka M (SI)[i, j] zawiera zbiór tych atrybutów, dla których obiekty uni- wersum ui i uj mają różne wartości (są rozróżnialne przy pomocy tych atrybu- tów).

1 2 3 4 6

1 ∅

2 g,m ∅

3 g,t m,t ∅

4 t g,m,t g ∅

6 t g,m,t g,t t ∅

Tablica 4: Macierz rozróżnialności dla system informacyjnego

(10)

Własności macierzy odróżnialności:

• macierz M (SI) ma zawsze na przekątnej zbiory puste (∅)

• macierz M (SI) jest symetryczna względem przekątnej

• każdy element macierzy M (SI) jest zbiorem

• rozmiar macierzy rośnie w sposób kwadratowy wraz ze wzrostem liczby obiektów w systemie informacyjnym

Generowanie macierzy odróżnialności

Wejście: A = (U, A) system informacyjny taki, że U = {u₁, .., u_n} i A = {a1, .., am}.

Wyjście: M (A) = (Cij)i,j=1,..,n macierz odróżnialności systemu A,przy czym M (A) ma obliczone tylko te pola Cij dla których 1 ¬ j < i ¬ n.

Metoda:

For i=1 to n do For j=1 to i-1 do

Wstaw do Cij atrybuty, na których różnią się obiekty ui i uj

Złożoność: Aby obliczyć tablicę M (A), należy wyznaczyć zawartość ⁿ²₂⁻ⁿpól macierzy. Złożoność obliczeniowa czasowa wyznaczania każdego pola jest zależna od liczby atrybutów m. Dlatego złożoność obliczeniowa czasowa algorytmu jest rzędu O(n²∗ m), natomiast złożoność obliczeniowa pamię- ciowa algorytmu jest rzędu O(C), gdzie C jest pewną stałą.

Powyższe cechy sprawiają, że taka reprezentacja macierzy, jest bardzo niewy- godna z programistycznego punktu widzenia. Macierz zawiera redundantne informacje, zawartości komórek nie są typami prostymi a ponadto nie mają stałej wielkości (liczby elementów w zbiorze). W efekcie struktura ta ma bardzo dużą złożoność pamięciową, która dla systemu informacyjnego SI = {U, A, V, f } wy- nosi: |U |²∗ |A|.

3.2 Funkcja rozróżnialności

Wiedzę zawartą w macierzy odróżnialności (tablicy odróżnialności) można także przedstawić w postaci funkcji odróżnialności. Funkcją odróżnialności systemu in- formacyjnego SI (ang. discernibility function) nazywamy funkcję boolowską fSI

zmiennych a^∗₁, .., a^∗_m odpowiadających odpowiednio atrybutom (systemu infor- macyjnego) a1, .., amzdefiniowaną następująco:

fSI(a^∗₁, .., a^∗_m) =T {S

(Xi,j: 1 ¬ j ¬ n ∧ Hi, j 6= ∅)}

gdzie: n = |U |, m = |A|,S

Xi,j jest alternatywą wszystkich zmiennych a^∗ ∈ {a^∗₁, .., a^∗_mtakich, że a ∈ Hi, j.

Przykład

(11)

Obliczmy funkcję odróżnialności dla macierzy odróżnialności z tabeli 2:

fSI(g^∗, m^∗, t^∗, c^∗) = (g^∗∨ m^∗) ∧ (g^∗∨ t^∗) ∧ (t^∗) ∧ (g^∗∨ m^∗∨ c^∗) ∧ (t^∗∨ c^∗) ∧ (m^∗∨ t^∗) ∧ (g^∗∨ m^∗∨ t^∗) ∧ (c^∗) ∧ (g^∗∨ m^∗∨ t^∗∨ c^∗) ∧ (g^∗) ∧ (m^∗∨ t^∗∨ c^∗) ∧ (g^∗∨ t^∗∨ c^∗) ∧ (g^∗∨ m^∗∨ t^∗∨ c^∗) ∧ (t^∗∨ c^∗) ∧ (g^∗∨ m^∗∨ t^∗)

Wyrażenie to można uprościć stosując m.in. prawo pochłaniania (a ∨ (a ∪ b)) = a do postaci:

fSI(g^∗, m^∗, t^∗, c^∗) = (t^∗∧ g^∗∧ c^∗)

4 Redukt i Rdzeń zbioru atrybutów

Niech SI = {U, A, V, f } będzie systemem informacyjnym oraz B ⊆ A.

Definicja. Atrybut zbędny (niezbędny)

Atrybut a ⊆ B jest zbędny, jeżeli IN D(B) = IN D(B − {a}).

W przeciwnym wypadku (tzn. jeżeli IN D(B) 6= IN D(B − {a}) jest niezbędny.

Definicja. Zbiór atrybutów niezależnych (zależnych)

A - zbiór atrybutów jest niezależny wtedy i tylko wtedy, gdy dla każdego a ⊆ A, a jest niezbędny. W przeciwnym wypadku zbiór jest zależny.

Definicja. Redukt i rdzeń (jądro) B ⊆ A nazywamy reduktem A wtedy i tylko wtedy, gdy B jest niezależny oraz IN D(B) = IN D(A). Zbiór wszystkich reduktów oznaczamy przez RED(A).

Zbiór wszystkich niezbędnych atrybutów w B będziemy nazywali rdzeniem (jądrem) B i oznaczali przez CORE(B).

Powiązanie między reduktami i jądrem Zachodzi następujący związek:

CORE(A) =T

RED(A),

gdzie RED(A) to zbiór wszystkich reduktów B, tzn. jądro atrybutów to prze- krój po wszystkich reduktach.

Przykład

Zbiór wszystkich reduktów zbioru atrybutów {g, m, t, c} systemu informacyj- nego z tabeli 1 wynosi: REDSI({g, m, t, c}) = {g, t, c}.

Aby udowodnić, że zbiór {g, t, c} jest reduktem należy pokazać, że zachodzą warunki z definicji:

• IN DSI({g, m, t, c}) = IN DSI({g, t, c}),

Możemy to pokazać, usuwając z tego zbioru kolejne atrybuty i sprawdzając czy relacja nierozróżnialności względem takiego okrojonego zbioru jest różna od relacji nierozróżnialności względem całego zbioru atrybutów. Jeżeli tak będzie, to zbiór {g, t, c} będzie reduktem.

4.1 Generowanie reduktu i rdzenia z definicji

Najpierw wyznaczamy klasy równoważności dla pełnego zbioru atrybutów:

IN D(C) = {{1}, {2}, {3}, {4}, {6}}

(12)

Teraz będziemy sprawdzać czy zmieni się dotychczasowa klasyfikacja obiek- tów, jaką mamy dla pełnoego zbioru atrybutów, jeśli usuniemy jakiś atrybut ze zbioru.

IN D((C) − {g}) = {{1}, {2}, {3, 4}, {6}}

czyli:

IN D((C) − {g}) 6= IN D(C)

więc atrybut {g} jest niezbędny w systemie, ponieważ jeśli go usuniemy to stra- cimy informacje o rozróznialności dwóch obiektów 3i4.

IN D((C) − {m}) = {{1}, {2}, {3}, {4}, {6}}

czyli:

IN D((C) − {m}) = IN D(C)

więc atrybut {m} jest zbędny w systemie, ponieważ jeśli go usuniemy to nie stracimy informacji o rozróznialności obiektów.

IN D((C) − {t}) = {{1, 4, 6}, {2}, {3}}

czyli:

IN D((C) − {t}) 6= IN D(C)

więc atrybut {t} jest niezbędny w systemie, ponieważ jeśli go usuniemy to stra- cimy informacje o rozróznialności obiektów.

Zatem CORE(C) to zbiór atrybutów niezbędnych w systemie więc w naszym przypadku stanowią go dwa atrybuty:

CORE(C) = {gt}

Redukt zgodnie z definicją jest to taki zbiór atrybutów niezbędnych, dla którego zapewniona jest dotychczasowa klasyfikacja obiektów, a wiec na pewno redukt musi zawierać w sobie jądro.

Sprawdzamy więc dla jakiej kombinacji atrybutów uzyskamy taki sam podział obiektów jaki dała IN D(C).

IN D(gt) = {{1}, {2}, {3}, {4}, {6}}

Skoro IN D(gt) = IN D(C), to ten zbiór atrybutów {gt} jest reduktem zbioru atrybutów.

RED(C) = {gt}.

4.2 Generowanie reduktu i rdzenia z macierzy rozróżnial- ności

W tym celu generujemy macierz rozróżnialności dla tablicy decyzyjnej.

M (SI) = (Hi,j)i,j=1,..,n= {a ∈ A : f (u1, a) 6= f (uj, a)}

dla i, j = 1, .., n, gdzie n = |U |.

Macierz odróżnialności jest dwuwymiarową macierzą kwadratową o wymia- rach: |U | × |U |.

Komórka M (SI)[i, j] zawiera zbiór tych atrybutów, dla których obiekty uni- wersum ui i uj mają różne wartości (są rozróżnialne przy pomocy tych atrybu- tów).

Istnieją następujące związki pomiędzy macierzą nierozróżnialności a jądrem i reduktami:

CORE(A) = {a ⊆ A : cij = {a}}, dla pewnego 0 < i, j < n + 1, tzn. do jądra

(13)

1 2 3 4 6

1 ∅

2 g,m ∅

3 g,t m,t ∅

4 t g,m,t g ∅

6 t g,m,t g,t t ∅

Tablica 5: Macierz rozróżnialności dla system informacyjnego

wchodzą te atry-buty, które występują w macierzy rozróżnialności pojedynczo.

B ⊆ A jest reduktem A wtedy i tylko wtedy, gdy B jest minimalny (w sensie zawierania zbiorów) oraz z każdym niepustym elementem macierzy nierozróż- nialności M (S) ma niepuste przecięcie.

Innymi słowy redukt jest to najmniejszy zbiór atrybutów, przy którym zostaje zachowana dotychczasowa klasyfikacja (rozróżnialność) obiektów. RED(C) = {gt} oraz CORE(C) = {gt}.

5 Tablica decyzyjna

Szczególnym rodzajem systemów informacyjnych są tablice decyzyjne (T D). Ta- blicą decyzyjną nazywamy uporządkowaną piątkę:

T D = (U, C, D, V, f ) gdzie:

• C, D ⊂ A; C 6= ∅; C ∪ D = A; C ∩ D = ∅,

• elementy zbioru C nazywamy atrybutami warunkowymi,

• elementy zbioru D nazywamy atrybutami decyzyjnymi,

• f nazywamy funkcją decyzyjną.

• interpretacja U oraz V jest taka sama jak w przypadku systemu informa- cyjnego, ponadto poszczególne wartości v dziedzin atrybutów D(v ∈ VD) będziemy nazywać klasami decyzyjnymi.

Podstawowa różnica między tablicą decyzyjną a systemem informacyjnym polega więc na tym, że część atrybutów traktujemy jako atrybuty warunkowe (C) a część jako decyzyjne (D).

Przykład

Tabelę 1 będziemy traktować jako tablicę decyzyjną.

Zbiór atrybutów systemu informacyjnego dzielimy na dwa podzbiory: podzbiór atrybutów warunkowych (C) oraz podzbiór atrybutów decyzyjnych (D) w na- stępujący sposób:

• C = {Blgowy, Blmini, T emperatura} = {g, m, t}

• D = {Grypa} = {c}

(14)

5.1 Tablice decyzyjne deterministyczne i niedeterministyczne

Każdy obiekt u ⊂ U tablicy decyzyjnej T D = (U, C, D, V, f ) może zostać za- pisany w postaci zdania warunkowego (postaci: jeżeli warunki to decyzja) i być traktowany jako reguła decyzyjna.

Regułą decyzyjną w tablicy decyzyjnej T D nazywamy funkcje:g : C ∪D → V jeżeli istnieje x ∈ U , taki, że g = f_x.

Obcięcie g do C (g|C) oraz g do D (g|D) nazywamy odpowiednio warunkami oraz decyzjami reguły decyzyjnej g.

Przykład

Z przykładowej tablicy decyzyjnej z tabeli 1 możemy wyprowadzić następu- jące reguły (odpowiadające konkretnym obiektom):

1. jeżeli (g=“nie“) i (m=“tak“) i (t=”wysoka”) to (c=”tak”) 2. jeżeli (g=“tak“) i (m=“nie“) i (t=”wysoka”) to (c=”tak”)

3. jeżeli (g=“tak“) i (m=“tak“) i (t=”bardzo wysoka”) to (c=”tak”) 4. jeżeli (g=“nie“) i (m=“tak“) i (t=”bardzo wysoka”) to (c=”tak”) 5. jeżeli (g=“tak“) i (m=“nie“) i (t=”wysoka”) to (c=”nie”)

6. jeżeli (g=“nie“) i (m=“tak“) i (t=”normalna”) to (c=”nie”)

Reguły decyzyjne można dzielić na wiele różnych grup biorąc pod uwagę różne kryteria. Jeden z podziałów wyróżnia dwie grupy reguł:

• reguły deterministyczne

Reguła w tablicy decyzyjnej T D jest deterministyczna, gdy równość atry- butów warunkowych implikuje równość atrybutów decyzyjnych. Fakt ten możemy wyrazić przy pomocy następującej zależności dla obiektów tablicy decyzyjnej:

∀_x,y∈U

x6=y

(∀c ∈ C(f (x, c) = f (y, c)) ⇒ ∀

d ∈ D(f (x, d) = f (y, d)))

• reguły niedeterministyczne

Reguła w tablicy decyzyjnej T D jest niedeterministyczna, gdy równość atrybutów warunkowych nie implikuje równości atrybutów decyzyjnych, co można wyrazić następującą zależnością dla obiektów tablicy decyzyjnej:

∀_x,y∈U

x6=y

(∀c ∈ C(f (x, c) = f (y, c)) ∧ ∃

d ∈ D(f (x, d) 6= f (y, d))) Tablica decyzyjna jest deterministyczna (dobrze określona, spójna), gdy wszystkie reguły w niej zawarte są deterministyczne, w przeciwnym przypadku jest niedeterministyczna (”źle określona, niespójna).

(15)

Przykład

Tablica decyzyjna z tabeli 1 jest niedeterministyczna, gdyż reguły pocho- dzące z obiektów: 2 i 5 są niedeterministyczne.

5.2 Relacja nierozróżnialności względem decyzji

Z uwagi na rzeczywiste zastosowania tablice decyzyjne najczęściej posiadają tylko jeden atrybut decyzyjny, dlatego w dalszej części rozważań przyjmiemy, że D = {d}. Wszystkie definicje mogą jednak w prosty sposób zostać uogólnione na przypadek, kiedy zbiór atrybutów decyzyjnych posiada więcej niż jeden element.

Niech T D = (U, C, {d}, V, f ) będzie tablicą decyzyjną i niech B ⊆ C.

Relację nierozróżnialności względem decyzji d na zbiorze obiektów U generowaną przez zbiór atrybutów B definiujemy jako:

IN DT D(B, d) = {(x, y) ∈ U × U : (x, y) ∈ IN DSI(B) ∨ f (x, d) = f (y, d)}

Relacja nierozróżnialności względem decyzji różni się od relacji nierozróż- nialności tym, że nie rozróżnia obiektów mających takie same wartości decyzji nawet wtedy, gdy obiekty te różnią się na rozważanym podzbiorze atrybutów warunkowych B. Relacja nierozróżnialności względem decyzji nie jest relacją równoważności. Jest co prawda zwrotna i symetryczna, ale nie jest przechodnia.

Przykład

Wyznaczymy teraz relację nierozróżnialności dla tablicy decyzyjnej z ta- beli 1 względem decyzji d generowaną przez zbiory atrybutów: C1, C2, C3: C1= {g, m, t},

C2= {g, m}, C3= {g, t}, d = {c}

IN DT D(C1, d) = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6), (2, 5), (5, 2), (1, 2), (2, 1), (1, 3), (3, 1), (1, 4), (4, 1), (2, 3), (3, 2), (2, 4), (4, 2), (3, 4), (4, 3), (5, 6), (6, 5)}

IN D_{T D}(C₂, d) = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6), (1, 4), (4, 1), (1, 6), (6, 1), (4, 6), (6, 4), (2, 5), (5, 2), (1, 2), (2, 1), (1, 3), (3, 1), (2, 3), (3, 2), (2, 4), (4, 2), (3, 4), (4, 3), (5, 6), (6, 5)}

IN DT D(C2, d) = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6), (2, 5), (5, 2), (1, 2), (2, 1), (1, 3), (3, 1), (1, 4), (4, 1), (2, 3), (3, 2), (2, 4), (4, 2), (3, 4), (4, 3), (5, 6), (6, 5)}

5.3 Macierz, tablica, funkcja oraz wektor odróżnialności dla tablicy decyzyjnej

Jeśli T D = (U, C, {d}, V, f ) jest tablicą decyzyjną taką, że U = {u₁, .., u_n} i C = {c1, .., cm}, to macierz odróżnialności tablicy decyzyjnej T DM (T D, d)

(16)

definiujemy następująco:

M (T D, d) = (Hi,j)i,j=1,..,n= {c ∈ C : f (ui, c) 6= f (uj, c) ∧ f (ui, d) 6= f (uj, d) dla i, j = 1, .., n gdzie n = |U |.

Przykład Obliczmy macierz odróżnialności dla tablicy decyzyjnej z tabeli 1.

U/U 1 2 3 4 5 6

1 ∅ ∅ ∅ ∅ g,m t

2 ∅ ∅ ∅ ∅ ∅ g,m,t

3 ∅ ∅ ∅ ∅ m,t g,t

4 ∅ ∅ ∅ ∅ g,m,t t

5 g,m ∅ m,t g,m,t ∅ ∅

6 t g,m,t g,t t ∅ ∅

Tablica 6: Macierz odróżnialności dla tablicy decyzyjnej

6 Reguły minimalne

Tworzymy reguły minimalne dla δGrypa = {tak} czyli reguły postaci: α ⇒ δGrypa = {tak}

Aby stworzyć te reguły musimy utworzyć uogólnione macierze rozróżnialno- ści dla obiektów zbioru X (mających wartość decyzji {tak}):

M G(A, {tak}, X1), M G(A, {tak}, X2), M G(A, {tak}, X3),

M G(A, {tak}, X4). Funkcja rozróżnialności odpowiadająca tej macierzy ma po- stać:

fM G(A, {tak}, X1)(g, m, t) = t

fM G(A, {tak}, X2)(g, m, t) = g ∨ m ∨ t fM G(A, {tak}, X3)(g, m, t) = g ∨ t fM G(A, {tak}, X4)(g, m, t) = t

Tworzymy reguły minimalne dla δGrypa = {nie} czyli reguły postaci:

α ⇒ δGrypa = {nie}

Aby stworzyć te reguły musimy utworzyć uogólnione macierze rozróżnialności dla obiektów zbioru X (mających wartość decyzji {tak}):

M G(A, {nie}, X₆).

Funkcja rozróżnialności odpowiadająca tej macierzy ma postać:

fM G(A, {nie}, X6)(g, m, t) = (t) ∧ (g ∨ m ∨ t) ∧ (g ∨ t) ∧ (t) Korzystając z praw algebry Boole’a:

X * X = X oraz X + X = X a także, że (1 + X) = 1, każde z funkcji przekształ- camy następująco:

(17)

Uwaga l: we wzorze symbol ∧ został zastąpiony przez *, a symbol ∨ przez +. wówczas:

fM G(A, {nie}, X6)(g, m, t) = (t)∗(g+m+t)∗(g+t)∗(t) = tt∗(g+m+t)∗(g+t) = (ttg +ttm+ttt)(g +t) = (ttgg +tttg +ttmg +tttm+tttg +tttt) = (tg +tg +tmg + tm + tg + t) = (tg + tmg + tm + t) = tg(1 + m) + t(1 + m) = tg + t = t(g + 1) = t Czyli:

• funkcja dla reguły nr 1: [t]

• funkcja dla reguły nr 2: [g + m + t]

• funkcja dla reguły nr 3: [g + t]

Funkcja fM G(A, {tak}, X1) = t oznacza, że możemy zbudować dla decyzji {tak}

1 regułę minimalną:

if t = wysoka then grypa = tak Odpowiednio teraz:

Funkcja fM G(A, {tak}, X2) = g + m + t oznacza, że możemy zbudować dla de- cyzji {tak} 3 reguły minimalne:

if g = tak then grypa = tak if m = nie then grypa = tak if t = wysoka then grypa = tak

Funkcja fM G(A, {tak}, X3) = g + t oznacza, że możemy zbudować dla decy- zji {tak} 2 reguły minimalne:

if g = tak then grypa = tak if t = bardzowysoka then grypa = tak

Funkcja fM G(A, {tak}, X4) = t oznacza, że możemy zbudować dla decyzji {tak} 1 regułę minimalną:

if t = bardzowysoka then grypa = tak

Ostatecznie otrzymamy optymalną regułę decyzyjną dla decyzji c = tak:

if t = wysoka ∨ g = tak ∨ m = nie ∨ t = bardzowysoka then grypa = tak Funkcja fM G(A, {nie}, X6) = t oznacza, że możemy zbudować dla decyzji {nie} 1 regułę minimalną:

if t = normalna then grypa = nie