• Nie Znaleziono Wyników

3.6 Uogólniona przedziałowa moc względna

3.6.4 Rozwiązanie dla t-norm bez u-własności

Niestety nie wszystkie t-normy mają u-własność. Tematem tej sekcji będzie problem efektyw-nego obliczania uogólnionej przedziałowej mocy względnej dla IVFS w przypadku dowolnych t-norm. Posiadanie u-własności przez parę (T, f ) nakłada silne ograniczenia na dopuszczalne wartości ui oraz ui z Twierdzeń 3.22 i 3.21, umożliwiając traktowanie poszczególnych wartości ui i ui niezależnie. Jednak, gdy t-norma nie posiada u-własności, problem obliczania ui oraz ui znacząco się komplikuje.

Twierdzenia 3.22 oraz 3.21 gwarantują istnienie ui i ui. Spróbujmy zbadać ich własności. Dla dowolnego i ≤ k, i-ty element może zostać wyciągnięty przed sumę zarówno w liczniku, jak i mianowniku w następujący sposób:

Ponieważ y minimalizuje wartość całego wyrażenia, więc możemy zaobserwować, że

ui = arg min

Stąd każde ui zależy od wszystkich pozostałych uj.

Jednym z rozwiązań tego problemu może być konstrukcja równania rekurencyjnego, opisują-cego wartość ui wraz z iteratywnym algorytmem przybliżającym jego rozwiązanie. Równanie można łatwo wyprowadzić z (3.143)

u(l+1)i = arg min

Należy zauważyć, że w tym równaniu u(l+1)i nie zależy bezpośrednio od u(l)i . Jednakże, występuje tu pośrednia zależność od u(l−1)i poprzez pozostałe u(l)j . Wykorzystanie tego równania nie gwarantuje otrzymania optymalnej wartości ui. Jednak, jak zostało to wykazane w eksperymentach, sytuacja taka nie ma miejsca. Algorytm szybko zbiega do optymalnej wartości ui. Oczywiście analogiczne rozumowanie może zostać również zastosować do ui.

Głównym celem podczas projektowania algorytmów dla obliczania uogólnionej przedziałowej mocy względnej dla IVFS w przypadku t-norm bez u-własności było zintegrowanie zapropono-wanego równania rekurencyjnego z algorytmem zaproponowanym w poprzedniej sekcji. Ogólna zasada działania polega na iteracyjnym wykonywaniu Algorytmu 2, dopóki zmiana w wyniku będzie wystarczająco mała (mniejsza niż pewien ustalony ε). Pseudokod algorytmu dla obliczania dolnego ograniczenia przedstawiony jest za pomocą Algorytmu 3. Podobnie jak w poprzedniej sekcji, algorytm dla obliczania y jest bardzo podobny.

Algorytm 3 Przybliżony algorytm do obliczania y w przypadku t-norm bez u-własności.

1: Przenumeruj ai, bi oraz bi w taki sposób, aby p

i były uporządkowane rosnąco

2: k0 ← bn/2.4c

3: m ←

k0

P

i=1

f (T (ai, ui)) +

n

P

i=k0+1

f (T (ai, bi))

4: M ←

k0

P

i=1

f (ui) + Pn i=k0+1

f (bi)

5: y0Mm

6: repeat

7: y ← Mm

8: repeat

9: k ← k0

10: k0 ← Znajdź k0 takie, że p

k0 < y ≤ pk0+1 11: s ← sign(k0− k)

12: m ← m + s

max(k,k0)

P

i=min(k,k0)+1

(f (T (ai, ui)) − f (T (ai, bi)))

13: M ← M + s

max(k,k0)

P

i=min(k,k0)+1

(f (ui) − f (bi))

14: y← Mm

15: until k0 6= k

16: e ← |y0− y|

17: y0 ← y

18: until e < ε

19: return y

Zastosowania w klasyfikacji

Problem klasyfikacji polega na określeniu klasy (kategorii), do której należy przypisać nowy, wcześniej nieznany obiekt. Budowa klasyfikatora odbywa się z wykorzystaniem zbioru uczącego, zawierającego dane o obiektach, co do których znana jest ich przynależność do klasy. Obiekty te są opisane przy pomocy różnych atrybutów. Do oceny skuteczności klasyfikatora wykorzystuje się zbiór testowy zawierający instancje nie znane podczas jego tworzenia. Różne metody klasyfikacji znalazły zastosowanie m.in. w tak ważnych dziedzinach, jak przetwarzanie tekstu czy diagnostyka medyczna.

Problem klasyfikacji znacząco się komplikuje, gdy dopuścimy niekompletność lub, ogólniej, niepewność danych. Najprostszy wariant zakłada brak wartości wybranych atrybutów w zbiorze testowym. Rozwiązaniem w takim przypadku może być konstrukcja osobnych modeli dla uwzględ-nienia braku wartości każdego atrybutu. Rozwiązanie to nie jest jednak efektywne, gdy dopuścimy brak wartości wielu różnych atrybutów. Kolejny wariant to brak danych zarówno w zbiorze testowym, jak i uczącym. Ponadto w obu wariantach można uwzględnić nie tylko niepewność wynikającą z braku danych, ale również bardziej ogólnie, niepewność typu epistemicznego. W takich warunkach konstrukcja efektywnego klasyfikatora z wykorzystaniem klasycznych metod może okazać się bardzo trudna albo nawet niemożliwa.

Podstawowe problemy napotykane podczas klasyfikacji danych niepewnych to:

• niemożliwość użycia wszystkich dostępnych danych do konstrukcji modelu (usuwanie obiektów lub atrybutów, w których występują brakujące wartości),

• niemożliwość klasyfikacji obiektów z brakującymi wartościami,

• konieczność konstrukcji różnych metod klasyfikacji dla różnych danych (np. osobny model dla obiektów z brakującymi wartościami i bez nich),

• znaczący wzrost złożoności obliczeniowej zarówno procesu uczenia klasyfikatora, jak i samej klasyfikacji,

• wzrost złożoności metod klasyfikacji, który znacząco utrudnia zrozumienie konstruowanych modeli.

Zaproponowane w niniejszym rozdziale metody klasyfikacji próbują rozwiązać te problemy za pomocą miar podobieństwa uwzględniających niepewność.

4.1 Zaproponowane metody klasyfikacji

W niniejszej rozprawie zaproponowane zostaną dwie metody klasyfikacji, oparte na miarach podobieństwa uwzględniających niepewność, wprowadzonych w poprzednim rozdziale. Obie metody działają na zasadzie wyboru najbliższego sąsiada, jednak różnią się strukturą zbioru uczącego oraz sposobem jego wykorzystania. W metodzie k najpodobniejszych sąsiadów cały zbiór uczący stanowi bazę do dalszej klasyfikacji, podczas gdy w rozmytym klasyfikatorze przedziałowym służy on tylko do określenia prototypów klas. Podejście oparte na prototypach pozwala na płynne połączenie zarówno wiedzy zawartej w danych, jak i wiedzy, którą można uzyskać od eksperta.

Cechą, która wyróżnia obie zaproponowane metody klasyfikacji jest pełne wsparcie dla niepewności danych. Dzięki wykorzystaniu miar podobieństwa uwzględniających niepewność, zaproponowane metody klasyfikacji bez problemu radzą sobie z niepewnością typu epistemicznego zarówno w zbiorze uczącym, jak i podczas klasyfikacji. Ponadto, wynikiem działania rozmytego klasyfikatora przedziałowego, oprócz wskazania klasy, do jakiej należy przypisać nowy, niepewny obiekt, jest też przedziałowy zbiór rozmyty opisujący przynależność do wszystkich znanych klas, dzięki czemu możliwa jest wizualizacja wyników. Ta cecha sprawia, że rozwiązanie może zostać wykorzystane w systemach wspomagania decyzji.

W systemach eksperckich oraz, ogólniej, w problemie wspomagania decyzji bardzo często, oprócz samej skuteczności, ważna jest również interpretowalność wykorzystywanych modeli ma-tematycznych. Zbyt skomplikowane i trudne do zrozumienia dla eksperta metody, zniechęcają do ich wykorzystania. Problem taki ma miejsce przykładowo w dziedzinie wspomagania diagnostyki medycznej, gdzie lekarze bardzo sceptycznie spoglądają na metody, których mieliby używać na zasadzie czarnej skrzynki.

Opracowywane klasyfikatory tworzone były z myślą o wykorzystaniu w medycznych systemach wspomagania diagnostyki. Z tego powodu jednym z podstawowych założeń było utrzymanie prostoty oraz niewielkiej złożoności koncepcyjnej. Wybrane rozwiązania bazują na metodzie najbliższego sąsiada, która bardzo przypomina stosowaną w medycynie metodę opartą na studium przypadku.