Nienadzorowane sortowanie wielokryterialnez ograniczeniami

(1)

Nienadzorowane sortowanie

wielokryterialne

z ograniczeniami

dr inż. Bartłomiej Prędki

Seminarium Zakładu Inteligentnych Systemów Wspomagania Decyzji

(2)

Problematyka wielokryterialna

wielokryterialny wybór - Pα

wielokryterialne sortowanie - Pβ

wielokryterialne porządkowanie - Pγ wielokryterialny opis - Pδ

(3)

Problem

Zbiór A wariantów decyzyjnych o liczności n

Warianty opisane przez zbiór kryteriów G o liczności m Kryterium - funkcja rzeczywista zdefiniowana na A

określająca wartość wariantu z pewnego punktu widzenia, gdzie do porównania dwóch wariantów

a,b∈A wystarczy porównać wartości gi(a) i gi(b)

(4)

Relacja dominacji D i słabej

dominacji D

p

Dla pary wariantów a,b∈A a dominuje b (aDb) jeżeli dla każdego kryterium gi(a)≥gi(b), i=1,...,m oraz na

przynajmniej jednym kryterium gj(a)>gj(b), j={1,...,m}

(5)

Relacja dominacji

Dla każdego wariantu x∈A możemy określić zbiory pozytywnej i negatywnej dominacji

(6)

Klasy decyzyjne

Warianty chcemy przyporządkować do jednej z k uporządkowanych klas decyzyjnych Clk∈Cl

Cl1⧽Cl2⧽...⧽Clk

(7)

Relacja dominacji

relacja dominacji jest słaba - wiele wariantów jest nieporównywalnych

pozyskując dodatkową informację preferencyjną można ją wzbogacić

eksploatacja tej informacji umożliwia rozwiązanie problemów

(8)

Nienadzorowane sortowanie

Propozycja

posortować zbiór wariantów A do k zadanych i

uporządkowanych klas decyzyjnych Cl w oparciu tylko o relację dominacji

dodatkowo umożliwić nałożenie ograniczeń np. na liczność wariantów w klasach

(9)

(10)

Podejście naiwne

Zacznij od klasy Cl1 - najlepszej

Do kolejnej klasy przypisz wszystkie niezdominowane warianty

Usuń te warianty

Powtórz dopóki wszystkie warianty nie zostaną usunięte

(11)

(12)

Podejście naiwne

Wady:

bardzo podobne obiekty trafią do różnych klas jeżeli zachodzi między nimi relacja dominacji

liczba klas jest determinowana relacją dominacji trudno narzucić dodatkowe ograniczenia

Zalety:

prostota

(13)

Wykorzystanie rankingu

Stwórz ranking zupełny wariantów

Podziel ranking wg zadanych parametrów i przydziel warianty do klas

(14)

Wykorzystanie rankingu

Zalety:

dobrze uzasadnione metodycznie Wady:

pozyskanie modelu preferencji decydenta

agregacja do porządku zupełnego wprowadza mocne założenia

(15)

Propozycja

Zastosowanie algorytmu k-means do wyszukania skupień - klas decyzyjnych

Uszeregowanie skupień zgodnie z kierunkiem preferencji

Zastosowanie teorii zbiorów przybliżonych do analizy konfliktów i realizacji dodatkowych ograniczeń

(16)

Algorytm k-means

Dany jest zbiór obserwacji {x1,x2, ..., xn}, gdzie każda

obserwacja jest m-wymiarowym wektorem

algorytm przydziela n obserwacji do k zbiorów (k<<n)

S={S1,S2,...,Sk} minimalizując wewnątrz zbioru

sumę kwadratów

gdzie μi jest centroidem (średnią) zbioru Si

problem jest NP-trudny już przy k=2 heurystyki

(17)

Heurystyka k-means

określ dziedziny kryteriów

utwórz losowo k centroidów z wartościami z dziedziny kryteriów

dopóki zmieniają się centroidy bądź nie przekroczono liczby iteracji

przypisz każdy wariant do najbliższego centroidu zgodnie z pewną miarą odległości

(18)

Miary odległości

odległość euklidesowa

Order Weighted Averaging

(19)

Uszeregowanie skupień

W skupieniach znajdą się podobne do siebie warianty Celem jest przypisanie skupień do uporządkowanych klas decyzyjnych Cl

Dla każdego skupienia k obliczamy wartość miary:

(20)

Paradygmat dominacji

algorytm k-means nie bierze pod uwagę relacji dominacji

wariant obiektywnie gorszy nie powinien być przypisany do klasy lepszej, a może

do wykrycia naruszeń wykorzystamy teorię zbiorów przybliżonych opartą na relacji dominacji (DRSA)

(21)

DRSA

Rozszerzenie klasycznej teorii zbiorów przybliżonych uwzględniające kryteria decyzyjne i paradygmat

dominacji

Operujemy na agregacjach klas:

w górę - klasa co najmniej t w dół - klasa co najwyżej t

(22)

Definicje przybliżeń

Przybliżenie dolne dla agregacji w górę

Przybliżenie górne dla agregacji w górę

Przybliżenie dolne dla agregacji w dół

(23)

Obszar brzegowy

dla agregacji w górę

(24)

Jakość klasyfikacji

(25)

Weryfikacja konfliktów

Prawdopodobne naruszenie zasady dominacji: niepuste obszary brzegowe

jakość klasyfikacji mniejsza od 1

Staramy się poprawić jakość klasyfikacji iteracyjnie wyszukując konflikty, awansując bądź degradując konfliktowe warianty

Jakość klasyfikacji = 1 może być nieosiągalna

(26)

Poprawianie jakości

klasyfikacji

znajdź niepustą granicę przybliżeń Bn dla wariantu x należącego do Bn

przenieś x do klasy wyższej bądź niższej przelicz przybliżenia i granice

powtarzaj, aż jakość wyniesie 1 bądź nie można uzyskać poprawy

(27)

Dodatkowe ograniczenia

Mogą dotyczyć liczności klas, np.

zrównoważona liczba wariantów w klasach zadany stosunek liczby wariantów w klasach określona liczba wariantów w danej klasie

...

Mogą dotyczyć przynależności wariantów do klas, np. wariant A3 ma należeć do klasy Cl1

(28)

ClusSort

Implementacja proponowanej metody Zaimplementowane:

wyszukiwanie skupień (miara euklidesowa i OWA) przypisania klas decyzyjnych

(29)

Przykład 1

Klasyfikacja uczelni prowadzących kierunek informatyka

23 warianty decyzyjne 4 kryteria

(30)

(31)

Przykład 1

Posortuj do 3 klas decyzyjnych - miara euklidesowa

Warianty należące do skupienia

S1 S2 S3 A7, A9, A14, A18, A20, A21 A1, A10, A15, A16, A17, A19, A23 A2, A3, A4, A5, A6, A8, A11, A12, A13, A22

(32)

Przykład 1

Oceny skupień S1 S2 S3 Ocena M(s) S1 S2 S3 0 0 0 28 0 28 -56 -9.33 28 0 0 0 31 0 59 8.42 28 0 0 31 0 0 -3 -0.3

(33)

Przykład 1

Uporządkowane klasy

Jakość klasyfikacji = 1

Warianty przypisane do klas

Cl1 Cl2 Cl3 A1, A10, A15, A16, A17, A19, A23 A2, A3, A4, A5, A6, A8, A11, A12, A13, A22 A7, A9, A14, A18, A20, A21

(34)

Przykład 1

k=7, odległość euklidesowa Warianty w skupieniach S1 S2 S3 S4 S5 S6 S7 A7, A9, A18 A14, A20, A21 A2, A4, A5, A6, A8, A13 A12,A22 A15 A3, A10, A11, A16, A17, A19, A23 A1 Jakość klasyfikacji = 0.83 A7 D A14

(35)

Przykład 1

Jakość klasyfikacji = 1 Warianty w klasach Cl1 Cl2 Cl3 Cl4 Cl5 Cl6 Cl7 A1 A3, A10, A11, A16, A17, A19, A23 A15 A12, A22 A2, A4, A5, A6, A8, A13 A20, A21 A7, A9, A14, A18

(36)

Przykład 2

Zbiór Buses 76 wariantów 8 kryteriów

(37)

Przykład 2

k=3, odległość euklidesowa

Klasy decyzyjne (odwrotnie 3 - najlepsza)

Odwzorowanie oryginalnego atrybutu decyzyjnego na poziomie 0.8 (w zależności od uruchomienia)

(38)

Przykład 2

k=3, odległość OWA w={8,7,6,5,4,3,2,1} Klasy decyzyjne (odwrotnie 3 - najlepsza)

(39)

Przykład 3

Zaopatrzenie w wodę w Kanadzie 1217 wariantów 7 kryteriów k=3 Cl1 - 904 warianty Cl2 - 287 wariantów Cl3 - 26 wariantów Jakość klasyfikacji =1

(40)

Wnioski

Dla niewielkiej liczby klas łatwo zachować spójność Dla dobrze zdefiniowanych zbiorów można dosyć dobrze odtworzyć atrybut decyzyjny

Heurystyka poszukiwania skupień działa bardzo szybko Proces usuwania konfliktów jest bardziej złożony

(41)

Dalszy rozwój

Implementacja wymuszania ograniczeń Inne miary odległości

Generowanie reguł wyjaśniających podjęte decyzje ???

(42)

Nienadzorowane sortowanie wielokryterialnez ograniczeniami

Nienadzorowane sortowanie

wielokryterialne

z ograniczeniami

dr inż. Bartłomiej Prędki

Problematyka wielokryterialna

Problem

Relacja dominacji D i słabej

dominacji D

p

Relacja dominacji

Klasy decyzyjne

Relacja dominacji

Nienadzorowane sortowanie

Podejście naiwne

Podejście naiwne

Wykorzystanie rankingu

Wykorzystanie rankingu

Propozycja

Algorytm k-means

Heurystyka k-means

Miary odległości

Uszeregowanie skupień

Paradygmat dominacji

DRSA

Definicje przybliżeń

Obszar brzegowy

Jakość klasyfikacji

Weryfikacja konfliktów

Poprawianie jakości

klasyfikacji

Dodatkowe ograniczenia

ClusSort

Przykład 1

Przykład 1

Przykład 1

Przykład 1

Przykład 1

Przykład 1

Przykład 2

Przykład 2

Przykład 2

Przykład 3

Wnioski

Dalszy rozwój

Dziękuję za uwagę