Zastosowanie teorii zbiorów przybliżonych w regułowym języku zapytań MELSQL

Pełen tekst

(1)ZASTOSOWANIE TEORII ZBIORÓW PRZYBLIONYCH W REGUŁOWYM JZYKU ZAPYTA MELSQL MAGDALENA KRAKOWIAK Zachodniopomorski Uniwersytet Technologiczny w Szczecinie. Streszczenie W artykule zaprezentowano rozwiązanie dotyczące zastosowania teorii zbiorów przybliĪonych w systemach wspomagania decyzji. W ramach przeprowadzonych badaĔ na podstawie własnych definicji zapytania i definicji reguły logicznej, opracowano algorytm tworzenia reguł z wykorzystaniem zbiorów przybliĪonych. Przedstawiona procedura stanowi integralną czĊĞü zaprojektowanego modelu regułowego jĊzyka zapytaĔ MELSQL. Słowa kluczowe: systemy wspomagania decyzji, regułowy jzyk zapyta, odkrywanie wiedzy, dyskretyzacja zmiennych, zbiory przyblione. 1. Wprowadzenie We współczesnym wiecie nikogo ju nie trzeba przekonywa co do wartoci informacji jako potencjalnego ródła wiedzy. To ona gwarantuje przetrwanie na konkurencyjnym rynku, a szybko podjta i trafna decyzja daje niewtpliwie przewag i gwarancj rozwoju. Konsekwencj tego jest rosncy popyt, ale te i wymagania stawiane systemom wspomagania decyzji. Rodzi to nieustann potrzeb doskonalenia tej klasy systemów poprzez stosowanie nowoczesnych metod dajcych wsparcie na najwyszym poziomie. Poza wyszukiwaniem i agregacj informacji coraz wikszego znaczenia nabiera znajdowanie zalenoci pomidzy zgromadzonymi danymi czyli tworzenie reguł decyzyjnych. Jest to jeden z elementów silnie rozwijajcego si procesu odkrywania wiedzy (ang. knowledge discovery). Jednym z wikszych problemów wydobywanie wiedzy, odkrywania reguł jest niekompletno zbiorów danych ródłowych. Poszukiwanie rozwizania stało si przyczynkiem rozwinicia teorii zbiorów przyblionych (ang. rough sets) przez Zdzisława Pawlaka na pocztku lat osiemdziesitych. Tak jak logika w przypadku zbiorów rozmytych, logika oparta na zbiorach przyblionych przełamujc tradycyjne aksjomaty daje nowe cenne właciwoci rozwizywania tej klasy problemów. Wspomaga podjcie trafnych decyzji w przypadku niepełnych zbiorów przesłanek, a nawet czciowo sprzecznych. Tytułowy model jzyka jest integraln czci interaktywnego rozmytego jzyka zapyta MELSQL dedykowanego systemom wspomagania decyzji. Jego główna funkcjonalno wsparcia uytkownika na poziomie wnioskowania realizowana jest przez procedur tworzenia reguł z wykorzystaniem zbiorów przyblionych. Celem niniejszego artykułu jest zaprezentowanie modelu jzyka regułowego opartego na teorii zbiorów przyblionych, a w szczególnoci rozwizania dotyczcego wykrywania reguł decyzyjnych..

(2) 168. POLSKIE STOWARZYSZENIE ZARZĄDZANIA WIEDZĄ Seria: Studia i Materiały, nr 31, 2010. 2. Model j zyka MELSQL Zaprojektowany model jzyka MELSQL to rozwizanie autorskie majce na celu połczenie funkcjonalnoci rozmytych jzyków zapyta z jzykami regułowymi. Moliwo pracy w jednym z dwóch trybów, a mianowicie wyszukiwania informacji lub wyszukiwania zalenoci pomidzy zgromadzonymi danymi oraz integracja dwóch interaktywnych modeli jzyków – modelu jzyka rozmytego i modelu jzyka regułowego zapewnia kompleksow obsług zapyta w systemach wspomagania decyzji (dwa poziomy wsparcia w dwóch rodzajach zapyta). Naturaln funkcjonalnoci modelu MELSQL jest przeprowadzenie uytkownika przez proces tworzenia zapytania. Zadanie to realizuje interaktywny kreator zapytania, który w zalenoci od wybranego trybu wspomaga budow jednego z dwóch lub trzech typów zapyta. W przypadku wyszukiwania informacji uytkownik moe generowa danie prostego lub złoonego zestawienia skupiajc si na parametrach projekcji (z załoenia bez uycia funkcji agregujcych) i selekcji (budujc proste lub złoone predykaty). Drugi dostpny typ to rozbudowane raporty statystyczne korzystajce z szeregu funkcji agregujcych i porzdkujcych. Gdy uytkownik potrzebuje wsparcia na poziomie wyszym, czyli wnioskowania, interaktywny kreator MELSQL umoliwia mu wprowadzenie trzech typów zapyta: kontrola istotnoci zadanej cechy, poszukiwanie wszystkich cech istotnych dla zadanej decyzji oraz sprawdzanie ich wpływu na decyzj (wyszukiwanie reguł). Kade z tych zada wykonywane jest w ramach jednej procedury stanowicej kluczowy algorytm regułowego jzyka zapyta opisany w rozdziale 3. Zintegrowany model jzyka rozmytego zapewnia obsług i przetwarzanie informacji nieprecyzyjnej korzystajc z modelowania tablic podobiestw oraz funkcji przynalenoci. Natomiast modelowanie w ramach regułowego jzyka oparte jest na teorii zbiorów przyblionych. Ze wzgldu na tytuł tre artykułu ogranicza si do scharakteryzowania tylko modelu regułowego, a w szczególnoci zastosowanej procedury tworzenia reguł z wykorzystaniem teorii zbiorów przyblionych. 3. Wnioskowanie na podstawie zbiorów przyblionych Głównym blokiem algorytmu regułowego jzyka MELSQL jest procedura tworzenia reguł z wykorzystaniem zbiorów przyblionych (rysunek 1) majca za zadanie wsparcie uytkownika na poziomie wnioskowania. Parametrem wejciowym do jej realizacji jest rozwaana przez uytkownika cecha czyli wprowadzony bd wybierany z listy atrybut decyzyjny AD. Pierwszym etapem jest weryfikacja poprawnoci zadanego parametru. W przypadku atrybutów identyfikacyjnych (klucze główne i/lub cechy ewidencyjne) system uniemoliwia kontynuacj nakazujc ich zmian lub wyjcie z procedury. W zalenoci od tego na jakie pytanie uytkownik chce uzyska odpowied naley zrealizowa nastpujce zadania: Zadanie 1: „Czy dana cecha ma wpływ na atrybut decyzyjny?” – próba usunicia wskazanego atrybutu warunkowego z listy (okrelenie jego wzgldnej istotnoci). Zadanie 2: „Co wpływa na wartoĞü atrybutu decyzyjnego?” – ustalenie reduktu czyli zbioru istotnych atrybutów warunkowych. Zadanie 3: „Jak dana cecha/cechy istotne wpływają na atrybut decyzyjny?” – podanie uproszczonych reguł (niesprzecznych!) o zadanej sile lub wsparciu..

(3) Magdalena Krakowiak Zastosowanie teorii zbiorów przybliĪonych w regułowym jĊzyku zapytaĔ MELSQL. 169. WZRU]HQLHWDEOLF\LQIRUPDF\MQHM $:. $'.

(4) ! "

(5) 73.

(6) !

(7)

(8) .

(9)

(10)

(11) . #

(12) ! "

(13) 7:. . # '. ! '3 '

(14) 3RV' *3 '

(15) *5 '

(16) Ȗ. !

(17) $ #

(18) (% #

(19) 3RV' &. ! !'

(20) ı. EDGDQLHMDNRĞFLSU]\EOLĪHQLD. 7:. # !

(21) (. SRV]XNLZDQLHUHGXNWyZ. !

(22)

(23)

(24)

(25) $:. Z\NU\ZDQLHUHJXá

(26)

(27) . .

(28) ! .

(29) ' .

(30) .

(31)

(32)

(33)

(34) .

(35) !

(36)

(37) . Rys. 1. Procedura tworzenia reguł z wykorzystaniem zbiorów przybliĪonych ródło: Opracowanie własne. Pierwszym krokiem procedury jest budowa pierwotnej tablicy informacyjnej Tp w postaci wirtualnej perspektywy powstałej z tabeli zawierajcej zadany atrybut decyzyjny oraz tabel z ni powizanych (iloczyn kratezjaski). Powstanie w ten sposób zbiorcza tablica zgromadzonych w bazie czy hurtowni danych w postaci wartoci lingwistycznych jak i numerycznych. Kolumnami otrzymanej tabeli s potencjalne atrybuty warunkowe AW i atrybut decyzyjny AD. W przypadku.

(38) 170. POLSKIE STOWARZYSZENIE ZARZĄDZANIA WIEDZĄ Seria: Studia i Materiały, nr 31, 2010. realizacji zadania 1 i braku wybranej cechy wród atrybutów warunkowych naley dołczy jeszcze tabel (lub tabele porednie) z wartociami wskazanej cechy. Kompletna tablica pierwotna moe zosta poddana weryfikacji uytkownika, który ma moliwo manualnego wyeliminowania cech, które go nie interesuj, poniewa na przykład nie widzi potrzeby badania ich wpływu na atrybut decyzyjny. Tabela 1. Przykładowa pierwotna tablica informacyjna Lp. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25. Godzina startu wykładu 16.15 12.15 14.15 10.15 10.15 8.15 12.15 8.15 18.15 16.15 14.15 8.15 10.15 12.15 8.15 10.15 14.15 18.15 10.15 12.15 14.15 8.15 8.15 16.15 12.15. Nauczyciel akademicki. Przedmiot. Punkty ICTS. Jan Derek Piotr Zawada Alina Kotas Jan Derek Ewa Łysek Piotr Zawada Alina Kotas Piotr Zawada Jan Derek Alina Kotas Ewa Łysek Ewa Łysek Alina Kotas Jan Derek Ewa Łysek Piotr Zawada Piotr Zawada Alina Kotas Alina Kotas Piotr Zawada Ewa Łysek Ewa Łysek Piotr Zawada Jan Derek Alina Kotas. Wprowadzenie do baz danych Inynieria oprogramowania Programowanie w C# Rozproszone bazy danych Zaawansowane systemy baz danych Programowanie w C# Programowanie w C# Zaawansowane systemy baz danych Wprowadzenie do baz danych Rozproszone bazy danych Zaawansowane systemy baz danych Wprowadzenie do baz danych Inynieria oprogramowania Rozproszone bazy danych Podstawy jzyka C++ Programowanie w C# Inynieria oprogramowania Rozproszone bazy danych Programowanie w C# Podstawy jzyka C++ Wprowadzenie do baz danych Podstawy jzyka C++ Zaawansowane systemy baz danych Rozproszone bazy danych Inynieria oprogramowania. 4 4 5 3 6 5 5 6 4 3 6 4 4 3 5 5 4 3 5 5 4 5 6 3 4. rednia frekwencja w sem. [%] 43 42 56 31 78 29 63 85 46 23 76 67 83 68 19 75 49 19 53 89 49 45 21 48 77. ródło: Opracowanie własne. Tablica 1 przedstawia przykładow tablic informacyjn Tp zgromadzonych na uczelni danych na temat redniej frekwencji AD na wykładach z wybranych przedmiotów w okrelonym semestrze dla okrelonej specjalnoci. Tablica zawiera fikcyjne dane i została stworzona na potrzeby artykułu. Do potencjalnych atrybutów warunkowych nale godzina rozpoczcia wykładu wg planu zaj (długo wszystkich wykładów jest taka sama – 2 godziny lekcyjne) AW1, prowadzcy AW2, przedmiot AW3 oraz punkty ICTS za zaliczenie kursu AW4. Wszystkie dane pochodz z czterech tabel: • plan zaj na dany semestr (godzina rozpoczcia wykładu), • prowadzcy (nauczyciel akademicki), • kurs (przedmiot, punkty ICTS),.

(39) Magdalena Krakowiak Zastosowanie teorii zbiorów przybliĪonych w regułowym jĊzyku zapytaĔ MELSQL. 171. • frekwencja (rednia frekwencja). Cz danych takich np. jak sala wykładowa, grupa studentów czy dzie tygodnia została celowo pominita jako nie majca zwizku z frekwencj. Takie załoenia przyjto na potrzeby tego przykładu, ale naley pamita, e w okrelonych sytuacjach kady z tych atrybutów mógłby by istotnym. Ciasna sala wykładowa o bardzo niewygodnych siedzeniach, wyjtkowo dobrana grupa studentów czy poniedziałek lub pitek dla studentów przyjezdnych niewtpliwe mog mie wpływ na obecno na wykładzie. Kolejny etap procedury to dyskretyzacja zmiennych. Wybrana metoda i powstałe w jej wyniku klasy zmiennych s charakterystyczne dla kadego uytkownika i stanowi jeden z elementów (obok funkcji przynalenoci, tablic podobiestw i reguł własnych) jego preferencji przechowywanych w systemie. Dla kadej zmiennej najpierw sprawdzana jest tablica dyskretyzacji danego uytkownika. W przypadku jej braku w zalenoci od typu zmiennej uytkownik ma do wyboru m.in.: • manualne definiowanie przedziałów dla zmiennej cigłej (AW1, AW4), • manualne grupowanie dla zmiennej dyskretnej (AW2, AW3), • automatyczne tworzenie równych przedziałów dla zmiennej cigłej według zadanych parametrów dotyczcych ich iloci (AD), • automatyczne tworzenie przedziałów dla zmiennej cigłej według zadanych parametrów dotyczcych liczebnoci danych w poszczególnych przedziałach, • automatyczne tworzenie przedziałów dla zmiennej dyskretnej na podstawie minimalnej licznoci. Tabela 2. Dyskretyzacja i kodowanie atrybutów warunkowych i atrybutu decyzyjnego Atrybut AW1 godzina startu wykładu AW2 nauczyciel akademicki. AW3 przedmiot. AW4 punkty ECTS AD rednia frekwencja. Dane wejciowe <8.00; 8.15> (8.15; 14.15> (14.15; 18.15> Jan Derek Alina Kotas Ewa Łysek Piotr Zawada Wprowadzenie do baz danych, Rozproszone bazy danych, Zaawansowane systemy baz danych Inynieria oprogramowania, Podstawy C++, Programowanie w C# (0;4> (4;6> <0;33> (33;66> (66;100>. Nazwa klasy rano około południa popołudnie Jan Derek Alina Kotas Ewa Łysek Piotr Zawada bazy danych. Kod 1 2 3 1 2 3 4 1. programowanie. 2. mało znaczce znaczce mała rednia dua. 1 2 1 2 3. ródło: Opracowanie własne. Gdy w systemie jest ju zarejestrowana dla danego uytkownika dyskretyzacja rozpatrywanego atrybutu warunkowego AW lub decyzyjnego AD nastpuje jej weryfikacja. Jest ona niezbdna z powodu bardzo prawdopodobnej zmiany licznoci i/lub zmiany preferencji.

(40) 172. POLSKIE STOWARZYSZENIE ZARZĄDZANIA WIEDZĄ Seria: Studia i Materiały, nr 31, 2010. uytkownika. Naniesione zmiany opatrzone dat s zapisywane w systemie w celu ewentualnego ponownego uycia tablicy dyskretyzacji i ledzenia preferencji uytkownika. Nastpnie, otrzymane w wyniku dyskretyzacji, klasy zmiennych (zakres lub zawarto przedziałów i nadane im nazwy) s kodowane poprzez przypisanie im kolejnego numeru. Zamiana danych wejciowych poszczególnych atrybutów na odpowiedni kod przekształca pierwotn tablic informacyjn TP na wtórn tablic informacyjn TW. Tabela 3. Wtórna tablica informacyjna Lp. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25. AW1 3 2 2 2 2 1 2 1 3 3 2 1 2 2 1 2 2 3 2 2 2 1 1 3 2. AW2 1 4 2 1 3 4 2 4 1 2 3 3 2 1 3 4 4 2 2 4 3 3 4 1 2. AW3 1 2 2 1 1 2 2 1 1 1 1 1 2 1 2 2 2 1 2 2 1 2 1 1 2. AW4 1 1 2 1 2 2 2 2 1 1 2 1 1 1 2 2 1 1 2 2 1 2 2 1 1. AD 2 2 2 1 3 1 2 3 2 1 3 3 3 3 1 3 2 1 2 3 2 2 1 2 3. ródło: Opracowanie własne. Nowopowstała tablica TW słuy tworzeniu elementarnych zbiorów warunkowych E (zawierajcych przypadki z identycznymi wartociami atrybutów warunkowych) oraz konceptów decyzyjnych D czyli zbiorów zawierajcych przypadki (rekordy wtórnej tablicy informacyjnej), w których atrybuty decyzyjne maj ten sam kod. Liczba zbiorów elementarnych nie jest wczeniej znana, ale zakłada si, e jest mniejsza od liczby rozpatrywanych przypadków, tak jak w omawianym przykładzie jest 13 zbiorów na 25 przypadków. W sytuacji skrajnej kombinacje wartoci atrybutów warunkowych s niepowtarzalne i wówczas liczba zbiorów elementarnych odpowiada liczbie rekordów wtórnej tablicy informacyjnej. Natomiast mona przypuszcza, e liczba konceptów decyzyjnych bdzie odpowiadała liczbie klas powstałych w wyniku dyskretyzacji atrybutu decyzyjnego. Warunkiem tego jest nie uwzgldnianie przy kodowaniu zbiorów pustych, co zazwyczaj ma miejsce..

(41) Magdalena Krakowiak Zastosowanie teorii zbiorów przybliĪonych w regułowym jĊzyku zapytaĔ MELSQL. 173. Dla kadego z konceptów decyzyjnych okrelane jest dolne przyblienie DP(D), co pozwoli na zdefiniowanie pozytywnego obszaru rodziny konceptów decyzyjnych PosD* (suma zbiorów elementarnych we wszystkich dolnych przyblieniach) i okrelenie jakoci przyblienia (odsetek przykładów zawartych w obszarze do liczby rekordów w tabeli) czyli procentowego udziału rekordów tabeli umoliwiajcych generowanie reguł pewnych. Tabela 4. Tablica zbiorów elementarnych Zbiór elementarny Przynalene rekordy. E1. E2. E3. 1, 9, 24. 2, 17. 3, 7, 19. E4. E5. 4, 14 5, 11. E6. E7. E8. E9. E10. E11. E12. E13. 6. 8, 23. 10, 18. 12. 13, 25. 15, 22. 13, 25. 15, 22. ródło: Opracowanie własne. Dolne przyblienie DP(D) konceptu stanowi podzbiór rekordów do niego przynalenych, który mona rozłoy na elementarne zbiory warunkowe, zatem blok algorytmu realizuje to w nastpujcy sposób. Kolejno dla kadego rekordu sprawdzane s wszystkie przykłady zbioru elementarnego, do którego naley. Jeeli wszystkie przykłady nale do konceptu wówczas rekord zostaje. W przeciwnym przypadku zostaje odrzucony, poniewa nie pozwoliłoby to na zapis zawartoci konceptu w postaci sumy pełnych zbiorów elementarnych. Otrzymane w ten sposób sumy (3.1) (3.2) (3.3) stanowi składniki pozytywnego obszaru rodziny konceptów decyzyjnych PosD*, który w rozwaanym przykładzie zawiera 19 przykładów (3.4), co wskazuje na 76% przykładów (3.5) bdcych podstaw do wygenerowania reguł pewnych. DP(D1) = E6 + E8 = [6, 10, 18] (3.1) (3.2) DP(D2) = E1 + E2 + E3 + E13 = [1, 2, 3, 7, 9, 17, 19, 21, 24] DP(D3) = E5 + E9 + E10 + E12 = [5, 11, 12, 13, 16, 20, 25] (3.3) + E1 + E2 + E3 + E13 + E5 + E9 + E10 + E12 = PosD* = E6 + E8 = [6, 10, 18, 1, 2, 3, 7, 9, 17, 19, 21, 24, 5, 11, 12, 13, 16, 20, 25] (3.4) = 19/25=0,76 (3.5) Na górne przyblienie konceptu decyzyjnego GP(D) składa si jego dolne przyblienie DP(D) oraz całe zbiory elementarne, których rekordy zostały odrzucone przy jego tworzeniu. Tak jak dolne przyblienie DP(D) stanowi podzbiór konceptu D, tak jego górne przyblienie GP(D) jest jego rozszerzeniem (zawiera wicej rekordów ni sam koncept). GP(D1) = DP(D1) + E4 + E7 + E11 = [6, 10, 18, 4, 14, 8, 23, 15, 22] (3.6) GP(D2) = DP(D2) + E11 = [1, 2, 3, 7, 9, 17, 19, 21, 24, 15, 22] (3.7) (3.8) GP(D3) = DP(D3) + E4 + E7 = [5, 11, 12, 13, 16, 20, 25, 4, 14, 8, 23] W celu znalezienia rekordów okrelajcych te zakresy przestrzeni atrybutów, w których wnioskowanie jest niepewne, tworzy si dla kadego konceptu D obszar graniczny GR(D). Stanowi go przykłady zbiorów elementarnych powstałych w wyniku eliminacji w górnym przyblieniu konceptu GP(D) zbiorów stanowicych jego dolne przyblienie DP(D) (3.9) (3.10) (3.11). GR(D1) = GP(D1) – DP(D1) = E4 + E7 + E11 = [4, 8, 14, 15, 22, 23] (3.9) GR(D2) = GP(D2) – DP(D2) = E11 = [15, 22] (3.10) GR(D3) = GP(D3) – DP(D3) = E4 + E7 = [4, 8, 14, 23] (3.11).

(42) 174. POLSKIE STOWARZYSZENIE ZARZĄDZANIA WIEDZĄ Seria: Studia i Materiały, nr 31, 2010. Tabela 5 przedstawia zestawienie rekordów wchodzcych w skład konceptów decyzyjnych, ich dolnych i górnych przyblie oraz obszaru granicznego dla analizowanego przykładu. Tabela 5. Tabela konceptów decyzyjnych, ich dolne i górne przybliĪenie oraz obszar graniczny Koncept Przynalene decyzyjny rekordy D1 4, 6, 10, 15, 18, 23 D2 D3. 1, 2, 3, 7, 9, 17, 19, 21, 22, 24 5, 8, 11, 12, 13, 14, 16, 20, 25. DP(D) 6, 10, 18 1, 2, 3, 7, 9, 17, 19, 21, 24 5, 11, 12, 13, 16, 20, 25. GP(D) 4, 6, 8, 10, 14, 15, 18, 22, 23 1, 2, 3, 7, 9, 15, 17, 19, 21, 22, 24 4, 5, 8, 11, 12, 13, 14, 16, 20, 23, 25. GR(D) 4, 8, 14, 15, 22, 23 15, 22 4, 8, 14, 23. ródło: Opracowanie własne. Kolejnym krokiem jest poszukiwanie reduktów zbioru atrybutów warunkowych. Kolejno dla kadego atrybutu okrela si jego wzgldn istotno poprzez prób jego eliminacji czyli badajc zbiór atrybutów bez niego. W ten sposób otrzymamy list atrybutów nieusuwalnych czyli wykonamy zadanie 2. W przypadku zadania 1 ograniczamy si do okrelenia wzgldnej istotnoci tylko dla zadanego atrybutu. Dla rozpatrywanego przykładu tworzone s cztery róne trójelementowe zbiory warunkowe W1, W2, W3, W4, w których kolejno brak jednego z atrybutów warunkowych AW1, AW2, AW3 i AW4. Dla kadego zbioru sprawdza si, czy jest reduktem bezwzgldnym (porównanie E) i/lub wzgldnym (porównanie PosD*) pełnego zbioru atrybutów. Procedura sprawdzania wykonuje si w trzech krokach: tworzenie zbiorów elementarnych E, okrelenie dolnych przyblie konceptów DP(D) i pozytywnego obszaru rodziny konceptów PosD*. Znajomo liczby przykładów wchodzcych do pozytywnego obszaru rodziny konceptów PosD* poszczególnych zbiorów pozwala na obliczenie wzgldnej istotnoci wyeliminowanego atrybutu. Stanowi ona warto dopełnienia do jednoci stosunku tej liczby do liczby przykładów wchodzcych do pozytywnego obszaru rodziny konceptów PosD* zbioru pełnego, co przedstawia tabela 6. Kady z analizowanych w przykładzie atrybutów jest nieusuwalny, poniewa nie znaleziono adnego reduktu zbioru pełnego. Jednak na podstawie zebranych w tabeli danych z cał pewnoci moemy wnioskowa, e najmniejszy wpływ na badan decyzj AD ma atrybut A3, ale nie naley go usuwa, poniewa zbiór W3 nie spełnia warunków reduktu – przykład 6 jako jedyny rónicuje zbiory elementarne E i pozytywne obszary rodzin konceptów PosD*..

(43) Magdalena Krakowiak Zastosowanie teorii zbiorów przybliĪonych w regułowym jĊzyku zapytaĔ MELSQL. 175. Tabela 6. Poszukiwanie reduktów zbiorów warunkowych Zbiór elementarny E1 E2 E3 E4 E5 E6 E7 E8 E9 E10 E11 E12 E13 Liczba zbiorów DP(D1) DP(D2) DP(D3) PosD*. Redukt bezwzgldny Redukt wzgldny Wzgldna istotno atrybutu. pełnego 1, 9, 24 2, 17 3, 7, 19 4, 14 5, 11 6 8, 23 10, 18 12 13, 25 15, 22 16, 20 21 13 6, 10, 18 1, 2, 3, 7, 9, 17, 19, 21, 24 5, 11, 12, 13, 16, 20, 25 6, 10, 18, 1, 2, 3, 7, 9, 17, 19, 21, 24, 5, 11, 12, 13, 16, 20, 25 tak tak nie dotyczy. Przynalene rekordy ze zbioru W1 W2 W3 1, 4, 9,14, 24 1, 9, 10, 18, 24 1, 9, 24 2, 17 2, 13, 17, 25 2, 17 3, 7, 19 3, 7, 16, 19, 20 3, 7, 19 5, 11 4, 14, 21 4, 14 6, 16, 20 5, 11 5, 11 8, 23 6, 15, 22 6, 8, 23 10, 18 8, 23 10, 18 12, 21 12 12 13, 25 13, 25 15, 22 15, 22 16, 20 21 10 10, 18 2, 3, 7, 17, 19. 8 Zbiór pusty Zbiór pusty. 5, 11, 13, 25. 5, 11, 12. 10, 18, 2, 3, 7, 17, 19, 5, 11, 13, 25. 5, 11, 12. 12 10, 18 1, 2, 3, 7, 9, 17, 19, 21, 24 5, 11, 12, 13, 16, 20, 25 10, 18, 1, 2, 3, 7, 9, 17, 19, 21, 24, 5, 11, 12, 13, 16, 20, 25. W4 1, 9, 24 2, 16, 17, 20 3, 7, 13, 19, 25 4, 14 5, 11, 21 6 8, 23 10, 18 12 15, 22. 10 6, 10, 18 1, 9, 24 12 6, 10, 18, 1, 9, 24, 12. nie. nie. nie. nie. nie 1 – 11/19 = 0,42. nie 1 – 3/19 = 0,84. nie 1– 18/19 = 0,05. nie 1 – 7/19 = 0,63. ródło: Opracowanie własne. Znaleziony redukt, czyli zbiór zawierajcy tylko atrybuty istotne (w skrajnym przypadku zbiór wszystkich atrybutów warunkowych tak jak w analizowanym przykładzie) jest podstaw do poszukiwania reguł czyli realizacji zadania 3. W wyniku operacji rzutowania, której parametrem jest redukt i atrybut decyzyjny AD, przeprowadzonej na wtórnej tablicy informacyjnej TW powstanie tablica reguł TR, której kady rekord traktowany jest jako pojedyncza reguła. Otrzymane reguły naley uporzdkowa wg atrybutu decyzyjnego AD, a nastpnie wyeliminowa reguły sprzeczne, czyli te, które maj inn warto AD przy tych samych wartociach atrybutów warunkowych AW. We wtórnej tablicy informacyjnej TW, która w omawianym przykładzie stanowi tablic reguł TR, trzy pary rekordów stanowi reguły sprzeczne, a mianowicie s to składowe zbiorów E4 = [4, 14], E7 = [8, 23] i E11 = [15, 22]. Naley zwróci uwag na to, e odrzucone przykłady stanowi elementy obszarów granicznych konceptów decyzyjnych (3.9) (3.10) (3.11), a zatem tych, w których wnioskowanie jest niepewne..

(44) 176. POLSKIE STOWARZYSZENIE ZARZĄDZANIA WIEDZĄ Seria: Studia i Materiały, nr 31, 2010. Tabela 7. Zbiór reguł dla konceptów decyzyjnych D1, D2 i D3 Nr rekordu 6 10 18 1 2 3 7 9 17 19 21 24 5 11 12 13 16 20 25. AW1 1 3 3 3 2 2 2 3 2 2 2 3 2 2 1 2 2 2 2. AW2 4 2 2 1 4 2 2 1 4 2 3 1 3 3 3 2 4 4 2. AW3 2 1 1 1 2 2 2 1 2 2 1 1 1 1 1 2 2 2 2. AW4 2 1 1 1 1 2 2 1 1 2 1 1 2 2 1 1 2 2 1. AD 1. 2. 3. ródło: Opracowanie własne. Przedstawione powyej w tabeli 7 rekordy stanowi zbiór dziesiciu reguł, których cechy zestawia tabela 8. W powstałym w ten sposób zbiorze reguł dobrze zdefiniowanych procedura odrzuca reguły o bardzo małym wsparciu (iloci rekordów potwierdzajcych reguł) lub małej sile (stosunek wsparcia do wszystkich rekordów). Wartoci progowe tych parametrów maj domyln warto w systemie, ale istnieje moliwo ich ustawienia przez uytkownika. Wród pozostałych reguł posiadajcych t sam warto decyzji poszukiwane s reguły podobne i agregowane w jedn. Analizowany przypadek charakteryzuj cztery atrybuty warunkowe i ich zrónicowanie dla poszczególnych konceptów uniemoliwia agregacj. Jeeli przykładowo przyjmiemy, e minimalna dopuszczalna warto siły reguły wynosi 0,05, wówczas naley odrzuci jeszcze reguły R1, R6 i R8. Ostatnim etapem przedstawianej procedury jest dekodowanie reguł na podstawie zapisanej tablicy dyskretyzacji i w jego wyniku powstanie ostateczny zbiór reguł w formie lingwistycznej: R2: JeĪeli wykład rozpoczyna siĊ (po południu) i prowadzi go (Alina Kotas) i jest z przedmiotu (bazy danych) za (mało znaczące) punkty ICTS to Ğrednia frekwencja w semestrze jest (mała). R3: JeĪeli wykład rozpoczyna siĊ (po południu) i prowadzi go (Jan Derek) i jest z przedmiotu (bazy danych) za (mało znaczące) punkty ICTS to Ğrednia frekwencja w semestrze jest (Ğrednia). R4: JeĪeli wykład rozpoczyna siĊ (około południa) i prowadzi go (Piotr Zawada) i jest z przedmiotu (programowanie) za (mało znaczące) punkty ICTS to Ğrednia frekwencja w semestrze jest (Ğrednia)..

(45) Magdalena Krakowiak Zastosowanie teorii zbiorów przybliĪonych w regułowym jĊzyku zapytaĔ MELSQL. 177. R5: JeĪeli wykład rozpoczyna siĊ (około południa) i prowadzi go (Alina Kotas) i jest z przedmiotu (programowanie) za (znaczące) punkty ICTS to Ğrednia frekwencja w semestrze jest (Ğrednia). R7: JeĪeli wykład rozpoczyna siĊ (około południa) i prowadzi go (Ewa Łysek) i jest z przedmiotu (bazy danych) za (znaczące) punkty ICTS to Ğrednia frekwencja w semestrze jest (duĪa). R9: JeĪeli wykład rozpoczyna siĊ (około południa) i prowadzi go (Alina Kotas) i jest z przedmiotu (programowanie) za (mało znaczące) punkty ICTS to Ğrednia frekwencja w semestrze jest (duĪa). R10: JeĪeli wykład rozpoczyna siĊ (około południa) i prowadzi go (Piotr Zawada) i jest z przedmiotu (programowanie) za (znaczące) punkty ICTS to Ğrednia frekwencja w semestrze jest (duĪa). Tabela 8. Charakterystyka reguł dobrze zdefiniowanych Nr reguły R1 R2 R3 R4 R5 R6 R7 R8 R9 R10. Rekordy potwierdzajce 6 10,18 1, 9, 24 2,17 3, 7, 19 21 5, 11 12 13, 25 16, 20. Wsparcie. Siła. 1 2 3 2 3 1 2 1 2 2. 0,04 0,08 0,12 0,08 0,12 0,04 0,08 0,04 0,08 0,08. ródło: Opracowanie własne. 4. Podsumowanie Opracowany model jzyka MELSQL z załoenia ma wypełni luk informacyjn intergrujc moliwoci i funkcje jzyka regułowego z obsług zapyta rozmytym. Ponadto ma by odpowiedzi na stale rosnce wymagania stawiane systemom wspomagania decyzji. Wykorzystanie m.in. teorii zbiorów przyblionych do realizacji tego zadania jest, zdaniem autora, warunkiem koniecznym. Przedstawione w artykule rozwizanie, czyli wykorzystanie zbiorów przyblionych w regułowym jzyku zapyta znacznie podnosi jego funkcjonalno. Potwierdzeniem tego s wiksze moliwoci kreacji zapyta o zwizki pomidzy zgromadzonymi danymi (trzy typy), a take wiksza efektywno działania m.in. poprzez obsług i przetwarzanie niekompletnych zbiorów. Podsumowujc, rozwizanie licznych problemów odkrywania wiedzy upatruje si w niekonwencjonalnej logice opartej na teorii zbiorów przyblionych, co w pewnym zakresie zaprezentowano w niniejszym artykule..

(46) 178. POLSKIE STOWARZYSZENIE ZARZĄDZANIA WIEDZĄ Seria: Studia i Materiały, nr 31, 2010. %LEOLRJUDILD [1] Budziski R., Krakowiak M.: Modelowanie zapyta i bazy reguł w regułowym jzyku zapyta z wykorzystaniem logiki rozmytej. Studia i Materiały Polskiego Stowarzyszenia Zarządzania Wiedzą, nr 13, Bydgoszcz 2008, str. 5–15. [2] Krakowiak M.: Analizator wnioskowania w rozmytym jzyku zapyta. Studia i Materiały Polskiego Stowarzyszenia Zarządzania Wiedzą, nr 19, Bydgoszcz 2009, str. 96–105. [3] Krakowiak M.: Zastosowanie tablic podobiestw w rozmytym jzyku zapyta. Studia i Materiały Polskiego Stowarzyszenia Zarządzania Wiedzą, nr 23, Bydgoszcz 2009, str. 111–120. [4] Niederliski A.: Regułowo-modelowe systemy ekspertowe rmse, Wydawnictwo Skalmierski, Gliwice 2006. [5] Rutkowski L.: Metody i techniki sztucznej inteligencji, Wydawnictwo PWN, Warszawa 2009. APPLYING ROUGH SETS IN RULES QUERY LANGUAGE MELSQL Summary The paper presents a solution concerning application of rough sets in Decision Support System (DSS). In the framework of the study, based upon an own query and logic rule definitions, an algorithm is presented of rule creator using rough sets. It is an integral part of the designed model of rules query language MELSQL. Keywords: computer decisions making systems, rules query language, knowledge discovery, rough sets.. Magdalena Krakowiak Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie e-mail: makrakowiak@wi.zut.edu.pl.

(47)