Jakość klasyfikacji - Wybór modelu rehabilitacji u pacjentów po koronaroplastyce przy użyciu te

Obiekty należące do dolnego przybliżenia zbioru Clt lub Clt na pewno należą do tego

zbioru, zatem wiedza o wartościach ich atrybutów warunkujących wystarcza do poprawnej klasyfikacji tych obiektów. Niestety nie można tego powiedzieć o obiektach należących do granic. Wiedza o wartościach ich atrybutów warunkujących nie wystarcza do poprawnej klasyfikacji tych obiektów. Z tego względu klasyfikacji obiektów dokonywano za pomocą reguł decyzyjnych wyprowadzonych wyłącznie w oparciu o dolne przybliżenia

odpowiednich sum klas decyzyjnych. [ Patrz Aneks III ]

4.4. Redukcja atrybutów

Bardzo często zdarza się, że w tablicy decyzyjnej uwzględniono zbyt wiele atrybutów warunkujących. Przed analizą zagadnienia często nie wiadomo, które atrybuty mają istotny wpływ na klasyfikację lub które są ze sobą skorelowane. Aby uprościć wnioskowanie zawsze dąży się do zminimalizowania liczby atrybutów.

Każdy minimalny podzbiór atrybutów warunkujących zapewniający taką samą jakość

klasyfikacji, czyli taką samą wartość wskaźnika P(Cl) jak zbiór wszystkich atrybutów,

nazywamy reduktem.

Jeżeli dla danej tablicy decyzyjnej można wyznaczyć wiele reduktów, to ich część wspólną nazywamy jądrem. [Patrz Aneks III ]

4.5. Reguły decyzyjne

Stosowany w niniejszej pracy algorytm tworzenia reguł decyzyjnych opisany jest w pracy Greco i wsp.(2001) (32).

Oparta na relacji dominacji przybliżona aproksymacja dolnych i górnych sum klas decyzyjnych może prowadzić do uogólnionego opisu obiektów w postaci tzw. reguł

decyzyjnych, czyli zdań typu „jeżeli …, to…” (jeżeli atrybuty warunkujące spełniają pewne warunki, to obiekt należy do konkretnej sumy klas decyzyjnych). [ Patrz Aneks IV ] Dokładne reguły decyzyjne generowane są przy założeniu, że obiekt należy do dolnego przybliżenia odpowiedniej sumy klas decyzyjnych, a więc „z pewnością” należy do tej sumy. W dalszych rozważaniach posługiwano się tylko regułami dokładnymi.

Zbiór reguł decyzyjnych nazywamy minimalnym, jeśli nie zawiera reguł redundantnych, tzn. jeśli usunięcie jakiejkolwiek reguły czyni go niekompletnym (czyli na tej podstawie nie można by wnioskować).

Prawidłowo wygenerowany zbiór reguł decyzyjnych powinien spełniać następujące warunki:

1. Każda reguła decyzyjna powinna być minimalna.

2. Zbiór reguł decyzyjnych musi być kompletny i minimalny.

4.6. Klasyfikacja

Celem wszystkich dotychczasowych działań, jest stworzenie reguł decyzyjnych, które pozwolą poprawnie sklasyfikować nowy obiekt. Zakłada się, że zbiór reguł decyzyjnych jest

kompletny i minimalny i żeprzy jego pomocy możnasklasyfikować nowy obiekt wyłącznie

na podstawie wartości atrybutów warunkujących. Niech z będzie nowym obiektem.

Przez Covz oznacza się zbiór reguł decyzyjnych obejmujących obiekt z, to znaczy takich,

Mogą zajść trzy następujące sytuacje:

1. żadna z reguł nie obejmuje obiektu z, tzn Covz = ;

2. dokładnie jedna reguła obejmuje obiekt z, tzn card(Covz) = 1;

3. kilka reguł obejmuje obiekt z, tzn card(Covz) > 1.

Przypadek pierwszy jest najprostszy. Nie podejmuje się żadnej decyzji i przyporządkowuje z do wszystkich klas decyzyjnych.

Przypadek drugi jest nieco bardziej skomplikowany, gdyż reguła decyzyjna nie przyporządkowuje obiektu do konkretnej klasy, tylko do dolnej lub górnej sumy klas

decyzyjnych. Zatem spośród klas wskazanych przez tę regułe należy wybrać klasę, do której przyporządkowanie jest najbardziej prawdopodobne. W tym celu, dla każdej klasy

decyzyjnej Clt wylicza się wskaźnik obrazujący „siłę argumentów” przemawiających za

klasyfikacją obiektu z do tej klasy (33). Patrz Aneks IV

5. Wyniki

5.1. Dyskretyzacja

Niektóre z wymienionych w tabeli 1 atrybutów (Wiek, Czas od, RR-sk-max, HGB, EKG-HR) są ciągłymi zmiennymi losowymi, zatem mogą przyjmować bardzo dużą liczbę wartości. Bezpośrednie wnioskowanie mogłoby doprowadzić do sytuacji, w której nie można by zakwalifikować „nowego” pacjenta do konkretnego modelu rehabilitacji, ponieważ powtórzenie występującej w tabeli 1 wartości ciągłej zmiennej losowej jest

praktycznie niemożliwe. Jako przykład może posłużyć np. Pacjent 286, zakwalifikowany do modelu rehabilitacji B ma wartość HGB = 9,5. Następną wartość HGB = 9,9 ma Pacjent 333 kwalifikowany do modelu rehabilitacji C. Co zatem zrobić z pacjentem, którego HGB będzie równe 9,6 albo 9,7? Aby uniknąć podobnych sytuacji dokonuje się tzw.

dyskretyzacji, to znaczy podziału całego zakresu zmienności ciągłej zmiennej losowej na podprzedziały, zwane dalej klasami. Poszczególnym klasom przyporządkowuje się kolejne numery. Dyskretyzację należy przeprowadzić tak, aby nie utracić zbyt wiele informacji o rozkładzie zmiennej losowej i nie doprowadzić do niespójności w tabeli decyzyjnej. Dyskretyzację wszystkich ciągłych atrybutów decyzyjnych przeprowadzono za pomocą napisanego w Instytucie Matematyki Uniwersytetu Warszawskiego programu RSES.

Wykorzystuje on metodę opisaną w pracy Bazana i innych (2000) (34). Metoda ta polega na określeniu, dla każdego atrybutu warunkującego, minimalnej liczby wartości granicznych, dzielących przedział wartości tego atrybutu na podprzedziały (klasy) tak, aby uzyskać jak największą spójność tablicy decyzyjnej. W rezultacie dla poszczególnych ciągłych atrybutów warunkujących otrzymano następujące klasy.

Tabela 2 podział pacjentów na klasy w zalezności od wieku chorych (wiek) Wiek w latach Klasa wieku od do - 43,5 1 43,5 51,5 2 51,5 53,5 3 53,5 55,5 4 55,5 59,5 5 59,5 61,5 6 61,5 66,5 7 66,5 68,5 8 68,5 70,5 9 70,5 - 10

Tabela 3. Podział pacjentów na klasy w zależności od czasu jaki upłynął od koronaroplastyki do rozpoczęcia rehabilitacji (Czas od PCI) Czas od w dniach Klasa czas od od do - 17,5 1 17,5 23,5 2 23,5 30,5 3 30,5 34,5 4 34,5 39,5 5 39,5 - 6

Tabela 4. Podzial pacjentów na klasy w zależności od maksymalnego rejestrowanego ciśnienia skurczowego (RR sk max) RR_sk_max Klasa RR_sk_maks od do - 122,5 1 122,5 137,5 2 137,5 147,5 3 147,5 152,5 4 152,5 - 5

Tabela 5. Podział pacjentów na klasy w zależności od poziomu hemoglobiny (HGB) HGB Klasa HGB od do - 12,55 1 12,55 13,55 2 13,55 13,95 3 13,95 14,25 4 14,25 14,95 5 14,95 15,15 6 15,15 15,75 7 15,75 - 8

Tabela 6. Klasy częstotliwości rytmu serca rejestrowane w EKG (EKG HR) EKG_HR Klasa EKG_HR od Do - 59,0 1 59,0 62,5 2 62,5 65,5 3 65,5 - 4

W dokumencie Wybór modelu rehabilitacji u pacjentów po koronaroplastyce przy użyciu teorii zbiorów przybliżonych (Stron 28-35)