Nienadzorowane sortowanie
wielokryterialne
z ograniczeniami
dr inż. Bartłomiej Prędki
Seminarium Zakładu Inteligentnych Systemów Wspomagania Decyzji
Problematyka wielokryterialna
wielokryterialny wybór - Pα
wielokryterialne sortowanie - Pβ
wielokryterialne porządkowanie - Pγ wielokryterialny opis - Pδ
Problem
Zbiór A wariantów decyzyjnych o liczności n
Warianty opisane przez zbiór kryteriów G o liczności m Kryterium - funkcja rzeczywista zdefiniowana na A
określająca wartość wariantu z pewnego punktu widzenia, gdzie do porównania dwóch wariantów
a,b∈A wystarczy porównać wartości gi(a) i gi(b)
Relacja dominacji D i słabej
dominacji D
p
Dla pary wariantów a,b∈A a dominuje b (aDb) jeżeli dla każdego kryterium gi(a)≥gi(b), i=1,...,m oraz na
przynajmniej jednym kryterium gj(a)>gj(b), j={1,...,m}
Relacja dominacji
Dla każdego wariantu x∈A możemy określić zbiory pozytywnej i negatywnej dominacji
Klasy decyzyjne
Warianty chcemy przyporządkować do jednej z k uporządkowanych klas decyzyjnych Clk∈Cl
Cl1⧽Cl2⧽...⧽Clk
Relacja dominacji
relacja dominacji jest słaba - wiele wariantów jest nieporównywalnych
pozyskując dodatkową informację preferencyjną można ją wzbogacić
eksploatacja tej informacji umożliwia rozwiązanie problemów
Nienadzorowane sortowanie
Propozycja
posortować zbiór wariantów A do k zadanych i
uporządkowanych klas decyzyjnych Cl w oparciu tylko o relację dominacji
dodatkowo umożliwić nałożenie ograniczeń np. na liczność wariantów w klasach
Podejście naiwne
Zacznij od klasy Cl1 - najlepszej
Do kolejnej klasy przypisz wszystkie niezdominowane warianty
Usuń te warianty
Powtórz dopóki wszystkie warianty nie zostaną usunięte
Podejście naiwne
Wady:
bardzo podobne obiekty trafią do różnych klas jeżeli zachodzi między nimi relacja dominacji
liczba klas jest determinowana relacją dominacji trudno narzucić dodatkowe ograniczenia
Zalety:
prostota
Wykorzystanie rankingu
Stwórz ranking zupełny wariantów
Podziel ranking wg zadanych parametrów i przydziel warianty do klas
Wykorzystanie rankingu
Zalety:
dobrze uzasadnione metodycznie Wady:
pozyskanie modelu preferencji decydenta
agregacja do porządku zupełnego wprowadza mocne założenia
Propozycja
Zastosowanie algorytmu k-means do wyszukania skupień - klas decyzyjnych
Uszeregowanie skupień zgodnie z kierunkiem preferencji
Zastosowanie teorii zbiorów przybliżonych do analizy konfliktów i realizacji dodatkowych ograniczeń
Algorytm k-means
Dany jest zbiór obserwacji {x1,x2, ..., xn}, gdzie każda
obserwacja jest m-wymiarowym wektorem
algorytm przydziela n obserwacji do k zbiorów (k<<n)
S={S1,S2,...,Sk} minimalizując wewnątrz zbioru
sumę kwadratów
gdzie μi jest centroidem (średnią) zbioru Si
problem jest NP-trudny już przy k=2 heurystyki
Heurystyka k-means
określ dziedziny kryteriów
utwórz losowo k centroidów z wartościami z dziedziny kryteriów
dopóki zmieniają się centroidy bądź nie przekroczono liczby iteracji
przypisz każdy wariant do najbliższego centroidu zgodnie z pewną miarą odległości
Miary odległości
odległość euklidesowa
Order Weighted Averaging
Uszeregowanie skupień
W skupieniach znajdą się podobne do siebie warianty Celem jest przypisanie skupień do uporządkowanych klas decyzyjnych Cl
Dla każdego skupienia k obliczamy wartość miary:
Paradygmat dominacji
algorytm k-means nie bierze pod uwagę relacji dominacji
wariant obiektywnie gorszy nie powinien być przypisany do klasy lepszej, a może
do wykrycia naruszeń wykorzystamy teorię zbiorów przybliżonych opartą na relacji dominacji (DRSA)
DRSA
Rozszerzenie klasycznej teorii zbiorów przybliżonych uwzględniające kryteria decyzyjne i paradygmat
dominacji
Operujemy na agregacjach klas:
w górę - klasa co najmniej t w dół - klasa co najwyżej t
Definicje przybliżeń
Przybliżenie dolne dla agregacji w górę
Przybliżenie górne dla agregacji w górę
Przybliżenie dolne dla agregacji w dół
Obszar brzegowy
dla agregacji w górę
Jakość klasyfikacji
Weryfikacja konfliktów
Prawdopodobne naruszenie zasady dominacji: niepuste obszary brzegowe
jakość klasyfikacji mniejsza od 1
Staramy się poprawić jakość klasyfikacji iteracyjnie wyszukując konflikty, awansując bądź degradując konfliktowe warianty
Jakość klasyfikacji = 1 może być nieosiągalna
Poprawianie jakości
klasyfikacji
znajdź niepustą granicę przybliżeń Bn dla wariantu x należącego do Bn
przenieś x do klasy wyższej bądź niższej przelicz przybliżenia i granice
powtarzaj, aż jakość wyniesie 1 bądź nie można uzyskać poprawy
Dodatkowe ograniczenia
Mogą dotyczyć liczności klas, np.
zrównoważona liczba wariantów w klasach zadany stosunek liczby wariantów w klasach określona liczba wariantów w danej klasie
...
Mogą dotyczyć przynależności wariantów do klas, np. wariant A3 ma należeć do klasy Cl1
ClusSort
Implementacja proponowanej metody Zaimplementowane:
wyszukiwanie skupień (miara euklidesowa i OWA) przypisania klas decyzyjnych
Przykład 1
Klasyfikacja uczelni prowadzących kierunek informatyka
23 warianty decyzyjne 4 kryteria
Przykład 1
Posortuj do 3 klas decyzyjnych - miara euklidesowa
Warianty należące do skupienia
S1 S2 S3 A7, A9, A14, A18, A20, A21 A1, A10, A15, A16, A17, A19, A23 A2, A3, A4, A5, A6, A8, A11, A12, A13, A22
Przykład 1
Oceny skupień S1 S2 S3 Ocena M(s) S1 S2 S3 0 0 0 28 0 28 -56 -9.33 28 0 0 0 31 0 59 8.42 28 0 0 31 0 0 -3 -0.3Przykład 1
Uporządkowane klasy
Jakość klasyfikacji = 1
Warianty przypisane do klas
Cl1 Cl2 Cl3 A1, A10, A15, A16, A17, A19, A23 A2, A3, A4, A5, A6, A8, A11, A12, A13, A22 A7, A9, A14, A18, A20, A21
Przykład 1
k=7, odległość euklidesowa Warianty w skupieniach S1 S2 S3 S4 S5 S6 S7 A7, A9, A18 A14, A20, A21 A2, A4, A5, A6, A8, A13 A12,A22 A15 A3, A10, A11, A16, A17, A19, A23 A1 Jakość klasyfikacji = 0.83 A7 D A14Przykład 1
Jakość klasyfikacji = 1 Warianty w klasach Cl1 Cl2 Cl3 Cl4 Cl5 Cl6 Cl7 A1 A3, A10, A11, A16, A17, A19, A23 A15 A12, A22 A2, A4, A5, A6, A8, A13 A20, A21 A7, A9, A14, A18Przykład 2
Zbiór Buses 76 wariantów 8 kryteriów
Przykład 2
k=3, odległość euklidesowa
Klasy decyzyjne (odwrotnie 3 - najlepsza)
Odwzorowanie oryginalnego atrybutu decyzyjnego na poziomie 0.8 (w zależności od uruchomienia)
Przykład 2
k=3, odległość OWA w={8,7,6,5,4,3,2,1} Klasy decyzyjne (odwrotnie 3 - najlepsza)
Przykład 3
Zaopatrzenie w wodę w Kanadzie 1217 wariantów 7 kryteriów k=3 Cl1 - 904 warianty Cl2 - 287 wariantów Cl3 - 26 wariantów Jakość klasyfikacji =1
Wnioski
Dla niewielkiej liczby klas łatwo zachować spójność Dla dobrze zdefiniowanych zbiorów można dosyć dobrze odtworzyć atrybut decyzyjny
Heurystyka poszukiwania skupień działa bardzo szybko Proces usuwania konfliktów jest bardziej złożony
Dalszy rozwój
Implementacja wymuszania ograniczeń Inne miary odległości
Generowanie reguł wyjaśniających podjęte decyzje ???