• Nie Znaleziono Wyników

Zbiory przybliżone

N/A
N/A
Protected

Academic year: 2021

Share "Zbiory przybliżone"

Copied!
1
0
0

Pełen tekst

(1)

Zbiory przybliżone

Liczne badania z zakresu analizy i reprezentacji w technikach informatycznych, zapoczątkowane przez polskich matematyków i informatyków w latach siedemdziesiątych doprowadziły do stworzenia teorii zbiorów przybliżonych.

Podstawy teorii zostały po raz pierwszy zaproponowane przez Zdzisława Pawlaka w 1982 roku [ ], a następnie rozwijane przez wielu polskich badaczy, między innymi Andrzeja Skowrona [ ]. Teoria Pawlaka znalazła zastosowanie w wielu różnych dziedzinach, m.in. w medycynie, farmakologii, bankowości, ekonomii.

Teoria zbiorów przybliżonych opiera sie na założeniu, że każdy obiekt można opisać za pomocą pewnych informacji. Obiekty opisane takimi samymi

„informacjami” – czyli takimi samymi wartościami atrybutów – są uznawane za nierozróżnialne. W ten sposób zdefiniowana relacja nierozróżnialności jest matematyczną podstawą teorii zbiorów przybliżonych.

Podzielenie analizowanych obiektów na klasy nierozróżnialności, czyli na zbiory obiektów uznanych za nierozróżnialne ze względu na posiadane informacje, umożliwia pozyskiwanie wiedzy zawartej w danych, która inaczej mogłaby pozostać niezauważona. Przy bardzo dużej ilości informacji, umysł ludzki nie jest w stanie ich wszystkich zanalizować i na tej podstawie wyciągnąć logicznych wniosków.

Sklasyfikowanie danych przy użyciu teorii zbiorów przybliżonych umożliwia przedstawienie ich w bardziej przystępniej postaci. Teoria zbiorów przybliżonych pozwala więc na sformalizowanie i zautomatyzowanie przekształcania danych w wiedzę.

Jest wysoce nieprawdopodobne, a właściwie niemożliwe, że dane w dowolnej bazie danych będą „idealne”. Najprawdopodobniej będą zawierać szum, wartości nieznane lub błędy spowodowane niedoskonałością aparatury pomiarowej. Teoria zbiorów przybliżonych jest bardzo przydatna do radzenia sobie z takimi właśnie danymi, ponieważ jest narzędziem do operowania niepewnością, nieodłącznie związaną z koniecznością podejmowania decyzji. Ogromną zaletą tej metodologii jest to, że nie konieczne są żadne założenia związane z niezależnością atrybutów, ani też żadna inna specjalistyczna wiedza na ich temat.

(2)

Teoria z.p. może być uznana za rozszerzenie klaszycznej teorii zbiorów przez wprowadzenie przybliżonej reprezentacji zbioru. Dzięki temu możemy zbudować system informacyjny w oparciu jedynie o tę wiedzę, która jest dostępna. Ma to ogromne znaczenie, gdy posiadane przez nas dane nie są ścisłe, lub nie mamy możliwości dokładniego zmierzenia pewnych wartości (np. z braku odpowiedniej aparatury), ale potrafimy mniej więcej określić ich wartość wyrażeniami, takimi jak

„wartość wysoka”, „wartość niska”, czy „wartość średnia”. W takich przypadkach zbiory przybliżone stają się bardzo przydatnym narzędziem, umożliwiającym opisanie obiektów, o których mamy tylko przybliżone informacje.

Zbiory przybliżone są też przydatne w sytuacji, gdy posiadamy nadmiar wiedzy w stosunku do potrzeb rozpatrywanego zadania. Pozwalają na uogólnienie tej wiedzy i przetwarzanie tylko jej istotnej dla realizacji określonego celu części. Może to bardzo ułatwić użytkownikowi zrozumienie problemu czy podjęcie decyzji.

Ludziom bowiem często łatwiej jest operować pojęciami typu „wartość wysoka” lub

„wartość niska” niż dokładnymi wartościami.

Warto też podkreślić, że metoda zbiorów przybliżonych umożliwia uzyskanie z systemu informacyjnego wiedzy często nie osiągalnej za pomocą metod statystycznych.

Teoria zbiorów przybliżonych

Formalne definicje:

W teorii zbiorów przybliżonych wiedza o obiektach reprezentowana jest w formie systemu informacyjnego (inaczej tablicy informacyjnej), którego wiersze odpowiadają obiektom, a kolumny atrybutom. Wartość atrybutu, jaką przyjmuje dany obiekt zapisywana jest na przecięciu odpowiedniego wiersza z odpowiednią kolumną.

(3)

atrybut1 ... atrybuti ... atrybutn

obiekt1 1

wartosc1 ... wartosc1i ... wartosc1n

... ... ... ... ... ...

obiektj wartosc1j ... wartoscij ... wartoscnj

... ... ... ... ... ...

obiektM wartosc1M ... wartosciM ... wartoscnM

Rys. 1. Reprezentacja wiedzy za pomocą tablicy informatycjnej

i

wartoscj - wartość i-tego atrybutu j-tego obiektu

System informacyjny

System informacyjny formalnie definiuje sie jako czwórkę:

SI = <U,Q,V,f>

gdzie U jest niepustym i skończonym zbiorem obiektów, Q jest niepustym i skończonym zbiorem atrybutów,

Vq jest dziedziną atrybutu V qQVq tu q, qQ

V Q U :

f jest funkcją informacji taką, że fx,qVq dla każdego

U x , Q

q . Zamiast funkcji informacji f można rozpatrywać jednoparametrową rodzinę funkcji fx : Q  V , taką że fx(q) = f(x,q) dla każdego q  Q i ustalonego x  U.

Niech SI = <U,Q,V,f> będzie systemem informacyjnym oraz P będzie podzbiorem zbioru atrybutów (P  Q).

Elementy x, y U nazywa się P-nierozróżnialnymi w SI wtedy i tylko wtedy, gdy fx(p) = fy(p) dla każdego pP.

Dla dowolnego niepustego zbioru atrybutów P  Q relacją P-nierozróżnialności w SI nazywa się relację określoną następująco:

dla każdego x, y  U xP~y wtedy i tylko wtedy, gdy fx(p) = fy(p)

(4)

dla każdego p  P.

Relacja P~ UUjest relacją równoważności. Każda relacja równoważności dzieli zbiór na którym jest określona na rodzinę rozłącznych podzbiorów zwanych klasami abstrakcji. Dla dowolnego elementu xU i relacji równoważności P~ UU

odpowiednią klasę abstrakcji oznacza się przez [x]P~, a ich rodzinę przez P*.

Aproksymacja zbiorów

Przestrzeń aproksymacji S definiuje się jako parę S = <U, Q~>

gdzie U jest niepustym i skończonym zbiorem obiektów,

Q~

jest relacją Q-nierozróżnialności.

Niech S = <U, Q~> będzie przestrzenią aproksymacji oraz X dowolnym podzbiorem U (X  U).

Q~

- dolną aproksymacją X w S nazywa się zbiór:

x U x X

X

Q~ :[ ]IND(Q)

Q~

- górna aproksymacją X w S nazywa się zbiór:

:[ ] 0

~

)

(

x U x X

X

Q INDQ

Q~- pozytywnym obszarem zbioru X nazywa się zbiór:

PosQ~(X) = Q~X

Jest to zbiór tych wszystkich elementów zbioru U, które na pewno mogą być zidentyfikowane jako elementy zbioru X przy wykorzystaniu wartości atrybutów ze zbioru P.

Q~

- brzegiem zbioru X nazywa się zbiór:

BnQ~(X) = Q~X - Q~X

(5)

Jest to zbior tych wszystkich elementów zbioru U, które być może mogą być zidentyfikowane jako elementy zbioru X przy wykorzystaniu wartości atrybutów P.

Q~- negatywnym obszarem zbioru X nazywa się zbiór:

NegQ~(X) = U - Q~X

Jest to zbior tych wszystkich elementów zbioru U, które na pewno mogą być zidentyfikowane jako nie należące do zbioru X przy wykorzystaniu wartości atrybutów P.

- obszar pozytywny zbioru X - brzeg zbioru X

- obszar negatywny zbioru X - zbior X

Rys. 2 Ilustracja aproksymacji zbioru X  U w przestrzeni aproksymacji S

Zależność i redukcja atrybutów

Zbiór atrybutów B Q zależy w stopniu k od zbioru atrybutów P Q jeżeli:

k = ( )

*)) ( (Pos card P~

U card

B

Zdanie „zbiór B zależy od zbioru P w stopniu k” zapisuje się następująco:

B Pk

(6)

Zbiór B całkowicie zależy od zbioru P jeżeli k = 1.

Zbiór B częściowo zależy od zbioru P jeżeli 0 < k < 1.

Zbiór B nie zależy od zbioru P jeżeli k = 0.

Zbiór P Q jest niezależny w SI, jeżeli dla każdego jego podzbioru właściwego B

 P zachodzi P~  B~.

Zbiór P Q jest zależny w SI, jeżeli nie jest w nim niezależny, czyli istnieje co najmniej jeden jego podzbiór właściwy B taki, że P~ B~.

Zbiór P  B  Q jest reduktem B w SI, jeżeli P jest minimalnym ( w sensie zawierania się zbiorów ) niezależnym podzbiorem B.

Atrybut pP jest nieusuwalny z P jeżeli (P{p})P~.

Atrybut pP jest zbędny w P jeżeli nie jest z niego nieusuwalny, czyli })

{

(P p =P~.

Rdzeniem P nazywa się zbiór wszystkich nieusuwalnych atrybutów z P:

RDZEŃ (P) = { pP : P{ p}P~ }

Tablica decyzyjna

Tablica informacyjna może być interpretowana jako tablica decyzyjna jeśli

QCD i C  D , gdzie C i D są zbiorami atrybutów, przy czym zbiór C zawiera tak zwane atrybuty warunkowe, a D atrybuty decyzyjne.

Tablicą decyzyjną definiuje się jako uporządkowaną piątkę:

DT = <U,C,D,v,f>

gdzie U jest niepustym i skończonym zbiorem obiektów,

(7)

C, D są niepustymi i skończonymi zbioremi atrybutów, przy czym zbiór C nazywa sie zboirem atrybutów warunkowych, natomiast D – zbiorem atrybutów decysyjnych,

v jest odwzorowaniem przyporządkowującym każdemu elementowi aC  D skończony zbiór Va , (Va jest dziedziną atrybutu a),

f jest funkcją przekształcającą U (C  D) w sumę V zbiorów Va ( V

D C U

f : ( ) ) taką, że f(x,a)V dla wszystkich xU oraz a C  D.

Z tablicy decyzyjnej można wygenerować zbiór reguł decyzyjnych stanowiących uogólniony opis zbioru obiektów.

Reguła decyzyjna jest wyrażeniem logicznym postaci:

„JEŻELI koniunkcja warunków elementarnych TO koniunkcja decyzji elementarnych”

Atrybuty warunkowe Atrybuty decyzyjne

c1 ... cj ... ck d1 ... dj ... dn

Reguła 1 v1c1 ... 1

cj

v ... 1

ck

v v1d1 ... 1

d1

v ... 1

d1

v

... ... ... ... ... ... ... ... ... ...

Reguła N vcN

1 ... cN

v j ... cN

v k vdN

1 ... vdN

1 ... vdN

1

Rys.3 Tablica decyzyjna

Istotność atrybutów warunkowych

Współczynnik istotności atrybutu warunkowego a, oznacza się symbolem  i określa jako:

k a k

D C

1 ' )

)(

,

(

gdzie: k jest stopniem zależności atrybutów decyzyjnych D od wszystkich atrybutów warunkowych ( C ),

(8)

k’ jest stopniem zależności atrybutów decyzyjnych D od atrybutów warunkowych bez atrybutu a ( C – {a} ).

Cytaty

Powiązane dokumenty

Ile, najmniej, ważeń musisz wykonać, aby jednoznacznie określić, czy fałszywa moneta jest lżejsza, czy cieższa (odpowiedź uzasadnij).. Pewien magik zaprezentował

Pobrania komórek, tkanek lub narządów można dokonać, jeżeli osoba zmarła nie wyraziła za życia sprzeciwu (art. Jeżeli zachodzi podejrzenie, że zgon nastąpił w

Rozwiązania zadań otwartych (zadania 16.–21.) zapisz czytelnie i sta- rannie w karcie rozwiązań zadań otwartych.. Ewentualne poprawki w odpowiedziach nanoś zgodnie

Wartości własne, wartości szczególne, norma

Kąt nachylenia przekątnej ściany bocznej graniastosłupa prawidłowego trójkątnego do sąsiedniej ściany bocznej przedstawiono na

Jaka jest szansa, że przy losowym podziale 10 pączków między 4 osoby każda dostała?. (a)

(c) otrzymano co najmniej jednego orła, (d) liczba orłów była większa od liczby reszek..

[r]