Odkrywanie wiedzy z danych przy użyciu zbiorów przybliżonych
Wykład 2
W internecie…
• Teoria zbiorów przybliżonych – zaproponowany w 1982 r. przez prof. Zdzisława Pawlaka formalizm matematyczny, stanowiący rozwinięcie klasycznej teorii zbiorów.
• Zbiór przybliżony (ang. rough set) to obiekt matematyczny zbudowany w oparciu o logikę trójwartościową.
• W swym pierwotnym ujęciu zbiór przybliżony to para klasycznych zbiorów: przybliżenie dolne i przybliżenie górne.
• Istnieje również odmiana zbioru przybliżonego, definiowana przez parę przybliżeo będących zbiorami rozmytymi (ang. fuzzy set). Dany element może należed do obydwu przybliżeo, do żadnego lub tylko do przybliżenia górnego. Ten ostatni przypadek jest o tyle ciekawy, że pozwala na modelowanie niepewności.
Wstęp
• Teoria zbiorów przybliżonych opracowana przez Zdzisława Pawlaka, dostarcza narzędzi matematycznych do formalnego opisu wiedzy, w tym wiedzy niepełnej i niedokładnej.
• Wykorzystywana jest skutecznie m.in.
w eksploracji danych i odkrywaniu wiedzy, złożonych zadaniach klasyfikacji oraz w komputerowych systemach wspomagania decyzji.
• Dziedziny, w których teoria ta została zastosowana to nie tylko medycyna czy biznes (bankowośd, badania rynku) ale również rozpoznawanie mowy, sieci neuronowe czy ogólnie mówiąc sztuczna inteligencja.
O metodzie słów kilka…
• Metodologia zbiorów przybliżonych zyskała sobie dużą popularnośd.
Świadectwem tego może byd chociażby fakt, że jest ona przedmiotem badao wielu naukowców na całym świecie, co udokumentowane zostało ok dwoma tysiącami publikacji.
• Tematyka ta cieszy się ogromnym zainteresowaniem badaczy, którzy czynnie uczestniczą w prowadzonych w tej dziedzinie cyklicznie międzynarodowych konferencjach i seminariach.
• Wśród krajów szczególnie zaangażowanych wyróżnid można prócz Polski, m.in. USA, Kanadę, Japonię, Francję czy Norwegię.
• W Polsce tematyka ta znalazła się w centrum badao naukowych prowadzonych w wielu ośrodkach, również na Uniwersytecie Śląskim w Zakładzie Systemów Informatycznych, szczególnie w zakresie zastosowao medycznych.
System informacyjny
System informacyjny a system
decyzyjny
Cel: wygenerowanie reguł
Tablica decyzyjna
Relacja nierozróżnialności
• IND(C) = {{1},{2,5},{3},{4},{6}}
Ale
• IND({gm})={{1,4,6},{2,5},{3}}
Klasy abstrakcji
Klasy abstrakcji - przykład
Aproksymacja zbiorów
Zbiory przybliżone a problem z
jednoznacznością klasyfikacj¡ obiektów
Pojęcia nieostre a zbiór dokładny oraz zbiór przybliżony
Dolne przybliżenie
• BX = {Y IND(B): Y X}
• Czyli będą to takie obiekty należące do IND(B), które w całości zawierają się zbiorze X.
• O obiektach należących do dolnego
przybliżenia mówimy, że NA PEWNO należą do danego pojęcia (danej klasy decyzyjnej).
IND(B) = {{1},{2,5},{3},{4},{6}}
X = Xtak + Xnie
Które z Y-ków należących do IND(B) w całości zawierają się
w X ? BX = {Y IND(B): Y X}
Xtak= {1,2,3,4}
Xnie = {5,6}
BXTak = {1,3,4}
BXNie = {6} Obiekty {1,4} na pewno mają grypę ! Obiekt {6} na pewno nie ma grypy !
Górne przybliżenie
• BX = {Y IND(B): Y ∩ X }
• Czyli będą to takie obiekty należące do IND(B), które wystarczy, że mają częśd wspólną ze
zbiorem X.
• O obiektach należących do górnego
przybliżenia mówimy, że BYD MOŻE należą do danego pojęcia (danej klasy decyzyjnej).
IND(B) = {{1},{2,5},{3},{4},{6}}
X = Xtak + Xnie
Które z Y-ków należących do IND(B) mają częśd wspólną z
X ? BX = {Y IND(B): Y ∩ X }
Xtak= {1,2,3,4}
Xnie = {5,6}
BXTak = {1,2,3,4,5}
BXNie = {2,5,6} Obiekty {1,2,4,5} byd może mają grypę ! Obiekty {2,5,6} byd może nie ma grypy !
Zbiór dokładny a zbiór przybliżony
Interpretacja
Tablice decyzyjne deterministyczne i niedeterministyczne
• Każdy obiekt tablicy decyzyjnej TD może zostać zapisany w postaci zdania warunkowego
(postaci: jeżeli warunki to decyzja) i byd traktowany jako reguła decyzyjna.
1. jeżeli (g=nie) i (m=tak) i (t=wysoka) to (c=tak) 2. jeżeli (g=tak) i (m=nie) i (t=wysoka) to (c=tak) 3. jeżeli (g=tak) i (m=tak) i (t=bardzo wysoka) to (c=tak) 4. jeżeli (g=nie) i (m=tak) i (t=bardzo wysoka) to (c=tak)
5. jeżeli (g=tak) i (m=nie) i (t=wysoka) to (c=nie) 6. jeżeli (g=nie) i (m=tak) i (t=normalna) to (c=nie)
reguły deterministyczne
Reguła w tablicy decyzyjnej TD jest deterministyczna, gdy równość atrybutów warunkowych implikuje równośd atrybutów decyzyjnych.
Fakt ten możemy wyrazid przy pomocy następującej zależności dla obiektów tablicy decyzyjnej:
reguły niedeterministyczne
• Reguła w tablicy decyzyjnej TD jest niedeterministyczna, gdy równość atrybutów warunkowych nie implikuje równości atrybutów decyzyjnych, co można wyrazid następującą zależnością dla obiektów tablicy decyzyjnej:
Niespójnośd
Metody usuwania niespójności
1 metoda
Metoda jakościowa
• IND(B) = {{1}{2,5}{3}{4}{6}}
• Xtak = {1,2,3,4}
• Xnie = {5,6}
• BXTak = {1,3,4}
• BXNie = {6}
• Tak =3/6
• Nie =1/6
Metoda mówi, aby usunąd ten obiekt, dla którego uzyskano mniejszą dokładnośd dolnego, bądź górnego
przybliżenia.
Usuniemy niespójnośd ze zbioru „NIE”
• IND(B) = {{1}{2,5}{3}{4}{6}}
• Xtak = {1,2,3,4}
• Xnie = {5,6}
• BXTak = {1,3,4}
• BXNie = {6}
• Tak =3/6
• Nie =1/6
Metoda mówi, aby usunąd ten obiekt, dla którego uzyskano mniejszą dokładnośd dolnego, bądź górnego
przybliżenia.
Usuniemy niespójnośd ze zbioru „NIE”
Po usunięciu …
Metoda ilościowa
Metoda uogólnionego atrybutu
decyzyjnego
Redukcja atrybutów – pojęcie jądra i reduktów
Inny przykład…
Metoda „z definicji”
Reguły minimalne
Od tablicy do reguł
Reguły minimalne „grypa”
Zbiory przybliżone w praktyce
Zbiory przybliżone w praktyce
Diagnozowanie encefalomiopatii mitochondrialnych
Rozprawa doktorska, grant badawczy KBN (autor: dr Piotr Paszek), ŚAM
Diagnozowanie to jest:
• procesem długotrwałym, skomplikowanym, kosztownym i co najważniejsze nieobojętnym dla pacjenta.
• Proponowane procedury diagnostyczne, w kolejnych etapach postępowania, zmierzają do zróżnicowania między wieloma wrodzonymi schorzeniami metabolicznymi a MEM
• Postawienie ostatecznej diagnozy – określenie konkretnej jednostki chorobowej (klasyfikacja) – wymaga wykonania wielu badao, określenia wartości wielu parametrów (objawów klinicznych, poziomów kwasów, zmian biochemicznych w mózgu, poziomu enzymów w tkankach) i związków między nimi.
Badania inwazyjne i nieinwazyjne
• Badania prowadzące do wykrycia konkretnej jednostki chorobowej można podzielid – ze względu na sposób przeprowadzenia badania – na badania nieinwazyjne i inwazyjne.
• Jednym z badao nieinwazyjnych jest tomografia rezonansu magnetycznego, która dostarcza informacji o zmianach w mózgu pacjenta. Nie jest to jednak badanie rozstrzygające.
• Spektroskopia rezonansu magnetycznego to kolejne badanie nieinwazyjne, które znalazło zastosowanie w diagnozowaniu MEM. Dzięki MRS można zaobserwowad zmiany biochemiczne w mózgu. W wyniku zastosowania MRS nie można jednak stwierdzid jaka jednostka chorobowa wywołała MEM.
Badania inwazyjne
• pobranie próbek krwi i płynu mózgowo–rdzeniowego w celu określenia poziomów stężeo kwasów mlekowego i pirogronowego w tych środowiskach. Wyniki tych pomiarów są podstawą do dalszej diagnozy. Nie dają one jednak koocowego rozpoznania jednostki chorobowej
• pobieranie próbek mięśni i nerwów. Na tych próbkach dokonywany są różnego typu badania np. pomiar poziomu enzymów oksydazy C, wykrywanie mutacji mtDNA, określenie zmian w strukturze mitochondriów. Wyniki tych badao dają ostateczną diagnozę – stwierdzenie lub wykluczenie choroby z grupy MEM
W tradycyjnej metodzie diagnostycznej
lekarze dokonywali wstępnej selekcji pacjentów na podstawie objawów klinicznych
podział pacjentów na dwie grupy
grupa dzieci podejrzanych o MEM grupa pacjentów u których nie występują encefalomiopatie
mitochondrialne
Kierowani do dalszych badao
dzieci zdrowe lub z innymi wrodzonymi schorzeniami metabolicznymi), które nie
będą poddane dalszym badaniom inwazyjnym
Możliwy schemat postępowania
Podział pacjentów na 2 grupy
wygenerowad reguły, które klasyfikują nowe przypadki do odpowiedniej grupy. Jest to pierwszy etap diagnozy.
I etap
II etap
grupa dzieci podejrzanych o MEM grupa pacjentów u których nie występują encefalomiopatie mitochondrialne
Kierowani do dalszych badao
dzieci zdrowe lub z innymi wrodzonymi schorzeniami metabolicznymi), które nie będą poddane dalszym
badaniom inwazyjnym
Ważne
Aby można było stworzyd reguły klasyfikacji dokonanych w pierwszym i drugim etapie, należy określid atrybuty, które będą brane pod uwagę w systemie i ich wartości!!!
W trzecim etapie w poprzednio wyselekcjonowanej grupie chorych zostaną pobrane wycinki mięśni lub nerwów do oceny aktywności enzymatycznej – badania poziomu enzymów – w tych tkankach. Najczęściej pobierany jest wycinek mięśnia szkieletowego, który charakteryzuje się dużą liczbą mitochondriów, jak i wysoką aktywnością metabolizmu energetycznego
Jak to było w praktyce…
Na podstawie danych otrzymanych z II Kliniki i Katedry Śląskiej Akademii Medycznej, oraz po konsultacjach z zespołem neurologów dziecięcych ustalono zestaw objawów klinicznych –atrybutów – branych pod uwagę przy diagnozie encefalomiopatii mitochondrialnych.
Objawy kliniczne
Numer Opis Numer Opis
1 – opóźnienie i/lub regres, 2 – hipotonia mięśniowa,
3 – padaczka, 4 – zaburzenia rozwoju somatycznego, 5 – zanik nerwu wzrokowego, 6 – oftalmoplegia,
7 – oczopląs i/lub opsoklonie, 8 – zaburzenia spastyczne i inne, 9 – neuropatia obwodowa, 10 – wymioty,
11 – ubytki słuchu, 12 – zlewne poty,
13 – zaburzenia układu krążenia, bloki, 14 – zaburzenia rytmu serca, 15 – dysfunkcja wątroby, 16 – wielkogłowie,
17 – małogłowie, 18 – miopatia,
19 – mioklonie, 20 – kardiomiopatia,
21 – ślepota, 22 – retinitis pigmentosa,
23 – zespół spastyczny połowiczy, 24 – zaburzenia połykania, 25 – zaburzenia oddychania, 26 – ataksja,
27 – ostry niedowład połowiczy.
Ponieważ objawy kliniczne – atrybuty, mogły występowad z różnym nasileniem przyjęto
następujący zbiór wartości dla tych objawów:
• (-1)–przy braku danego objawu,
• ( 0)–przy braku informacji o występowaniu danego objawu (brak danych),
• ( 1)–gdy dany objaw występował,
• ( 2)–w szczególnych przypadkach, gdy nasilenie objawu było patologiczne.
• Na podstawie tych atrybutów – objawów klinicznych – dokonywana jest pierwsza
selekcja pacjentów. Zostaje podjęta decyzja do której grupy pacjent zostaje zakwalifikowany.
• Powstaje tablica decyzyjna, na podstawie której zostają utworzone reguły, które
klasyfikują nowe przypadki.
Numer atrybutu
Lp. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 Dec.
10 1 -1 1 1 1 -1 -1 1 -1 1 -1 1 -1 -1 1 -1 1 -1 -1 -1 1 -1 -1 1 1 -1 -1 1
20 -1 1 -1 -1 -1 -1 1 -1 1 -1 -1 1 -1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 -1 1
30 1 1 1 1 -1 -1 -1 -1 -1 1 -1 1 -1 -1 -1 -1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1
40 1 1 1 1 -1 -1 -1 -1 1 -1 -1 -1 -1 -1 1 -1 1 -1 1 -1 -1 -1 -1 -1 -1 -1 -1 1
50 1 -1 1 1 1 -1 1 1 -1 1 -1 1 -1 -1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1
60 -1 -1 -1 -1 -1 -1 -1 1 -1 -1 -1 -1 -1 -1 -1 -1 0 0 0 0 0 0 0 0 0 0 0 -1
Parametry biochemiczne brane pod uwagę przy diagnozowaniu MEM (II etap)
Numer Opis
1 –poziom kwasu mlekowego w surowicy krwi;
2 –poziom kwasu mlekowego w płynie mózgowo–rdzeniowym (pmr);
3 –poziom kwasu pirogronowego w surowicy krwi;
4 –poziom kwasu pirogronowego w pmr;
5 –stosunek kwasu mlekowego do pirogronowego w surowicy krwi;
6 –stosunek kwasu mlekowego do pirogronowego w pmr.
Na podstawie tych atrybutów – poziomów kwasów – dokonywana jest kolejna klasyfikacja pacjentów. Powstaje tablica decyzyjna, na podstawie której zostaną utworzone reguły, które klasyfikują nowe przypadki.
Fragment tablicy decyzyjnej dla 6 atrybutów warunkowych – 2 etap diagnozy
Numer atrybutu
Lp. 1 2 3 4 5 6 decyzja
1150 2.17 1.00 2.17 5.37 0.232 3.35 3
1160 0.55 0.07 7.86 1.24 0.09 13.78 2 1170 0.60 0.04 15.00 1.20 0.09 13.33 2 1190 0.87 0.48 1.81 0.91 0.24 3.79 1
III etap
• w poprzednio wyselekcjonowanej grupie chorych zostają pobrane wycinki mięśni lub nerwów do oceny aktywności enzymatycznej.
Najczęściej pobierany jest wycinek mięśnia szkieletowego, rzadziej wycinki nerwów
• Na tych próbkach dokonywany są różnego typu badania:
biochemiczne, morfologiczne, genetyczne. W wyniku tych badao określony zostanie poziom enzymów oksydazy C.
• Zaburzenia tych poziomów świadczą o nieprawidłowym funkcjonowaniu łaocucha oddechowego komórki. Ponadto badaniu podlega a mitochondrialne DNA w celu wykrycia mutacji w mtDNA.
Bada się również zmiany w strukturze mitochondriów.
• Wyniki tych badao – w szczególności pomiar poziomu enzymów – dają ostateczną diagnozę.
Fragment danych dotyczących
poziomu enzymów w próbkach mięśni
• Lp. – numer pacjenta
• A – kompleks oksydazy cytochromowej,
• B – oksydaza cytochromowa,
• C – dehydrogenaza bursztynianowa,
• D – dehydrogenaza maleinianowa,
• E – syntetaza cytrynianowa.
Lp. A B C D E
250 66 320 108 4940 1790 300 47 428 115 3330 1870 430 57 482 110 4840 1240
440 52 433 136 4250 0
560 32 440 108 5820 1370 720 60 407 124 3270 1950
Cele systemu
• skrócenie czasu potrzebnego do postawienia ostatecznej diagnozy;
• maksymalne ograniczenie wskazao do inwazyjnych metod diagnostycznych (punkcje, wycinki z mięśnia lub nerwu);
• stworzenie systemu wspomagającego decyzje w diagnozowaniu MEM u dzieci.
Ogólny schemat uczenia maszynowego
Klasyfikacja nowych przypadków
Diagnoza
Podsumowanie
• Teoria zbiorów przybliżonych świetnie nadaje się do reprezentacji pojęd niespójnych.
• Pozwala redukowad wiedzę do niezbędnego minimum.
• Pozwala generowad reguły minimalne – które skracają drogę wnioskowania.