• Nie Znaleziono Wyników

Rekomendacje jako wynik ewaluacji decyzji bazującej na wzorcowych przykładach.

N/A
N/A
Protected

Academic year: 2021

Share "Rekomendacje jako wynik ewaluacji decyzji bazującej na wzorcowych przykładach."

Copied!
23
0
0

Pełen tekst

(1)

NR 1-2, 2019

Rekomendacje jako wynik ewaluacji decyzji

bazującej na wzorcowych przykładach

Włodzimierz KWIATKOWSKI

Instytut Teleinformatyki i Automatyki, Wydział Cybernetyki,

Wojskowa Akademia Techniczna, ul. Gen. S. Kaliskiego 2, 00-908 Warszawa

wlodzimierz.kwiatkowski@wat.edu.pl

STRESZCZENIE: Rozpatrywany jest problem ewaluacji decyzji polegający na wytypowaniu spośród możliwych decyzji tych, które spełniają preferencje decydenta. Użyteczność rozwiązania problemu polega na zredukowaniu liczby możliwych do wyboru decyzji. Ewaluacja decyzji bazuje na ich kompletnych charakterystykach, a nie na wcześniej zdefiniowanym wskaźniku jakości. Podstawą oceny jakości są wzorcowe przykłady decyzji. Są to decyzje, które decydent uznał za doskonałe lub akceptowalne. Wskazane przez decydenta przykłady są wykorzystywane jako określające jego preferencje. Proponowane w artykule metody dotyczą porządkowania i gru-powania decyzji na podstawie ich charakterystyk. Wytypowany zbiór decyzji jest interpretowany jako rekomendowany dla decydenta. Przedstawione rozwiązania mogą znaleźć różnorakie zastosowania, np. w planowaniu inwestycji, trasowaniu, diagnostyce czy przeszukiwaniu multi-medialnych baz danych.

SŁOWA KLUCZOWE: ewaluacja, rekomendacja, ranking, preferencje, eksploracja danych, grupowanie, optymalizacja wektorowa

1. Wprowadzenie

Problematyka wyboru najlepszej decyzji jest ciągle aktualna. Najbardziej znane metody opierają się na zdefiniowanym wskaźniku jakości. Przyjęcie skalarnego wskaźnika jakości umożliwia uzyskanie uszeregowania (kolejności, rankingu) decyzji – zgodnie z wartościami tego wskaźnika. Optymalizacja polega na wyborze tej decyzji, która charakteryzuje się ekstremalną wartością. Wyznaczona w ten sposób optymalna decyzja często jest jednak kwestionowana przez doświadczonego decydenta. Przyczyny niezadowolenia można upatrywać

(2)

oddaje w pełni preferencji decydenta. Ten problem może być złagodzony przez przyjęcie wektorowego wskaźnika jakości. Ceną za szersze ujęcie preferencji decydenta jest uzyskiwanie w wyniku postępowania optymalizacyjnego jedynie częściowego uporządkowania zbioru decyzji i otrzymywanie rozwiązania w po-staci podzbioru (np. rozwiązania optymalnego w sensie Pareto, ang. Pareto set, Pareto front). Uzyskanie liniowego porządku jest możliwe po skalaryzacji wskaźnika, zwykle w drodze kompromisu określającego istotność (wagi) po-szczególnych współrzędnych wektora jakości [9]. Zastosowanie takiej metody optymalizacji wymaga dokładniejszej znajomości preferencji decydenta. Można zauważyć, że procedura optymalizacji wyłaniająca jedną optymalną decyzję nie daje zwykle informacji o tym, czy uzyskana wartość wskaźnika jakości jest istotnie różna od wartości charakteryzujących decyzje kolejne. Przedstawienie decydentowi pełnej informacji o rankingu jest jedną z metod rozwiązania tego problemu.

Jednym z zasadniczych problemów ewaluacji decyzji jest uzyskanie adekwatnego odwzorowania preferencji decydenta w przestrzeni ocen, w tym właściwego doboru samej przestrzeni ocen. Z zasady wskaźnik jakości (zarówno skalarny, jak i wektorowy) jest definiowany niezależnie od konkretnego aktu wyboru. Praktycznie oznacza to, że decydent ma preferencje narzucone z góry, bez możliwości wskazania dodatkowych aspektów czy zastrzeżeń. Może skutko-wać to tym, że uzyskanego wyniku optymalizacji decydent nie uzna za właś-ciwy.

Dążenie do pełnego ujawnienia i wykorzystania preferencji decydenta przejawia się w rozwiązaniach bazujących na porównywaniu przez decydenta decyzji i wskazywaniu decyzji lepszej. Na tej podstawie można wyznaczać relację częściowego porządku (por. np. [2]). Podobnie jak w optymalizacji wek-torowej także, uzyskiwane rozwiązania nie wskazują jedno-znacznie najlepszej decyzji, ale ogólnie można oczekiwać większej ich zgodności z preferencjami decydenta.

Podejście optymalizacyjne nie dające w wyniku pojedynczej decyzji moż-na interpretować jako wyzmoż-naczenie zaleceń dla decydenta (rekomendacji de-cyzji). Idąc za tym kierunkiem myślenia, zauważamy, że wiele metod optymali-zacji wielokryterialnej daje w wyniku tylko zalecenia (rekomendacje) w sposób naturalny – jako standardowe rozwiązanie problemu. Także w przypadku opty-malizacji skalarnej wyznaczenie zaleceń jest możliwe – na podstawie uszerego-wania decyzji.

Ewaluacja decyzji bazująca na bezpośrednim określaniu preferencji decy-denta napotyka na poważną trudność już na etapie współpracy z decydentem (najczęściej w formie ankietowania lub formułowania zamówień). Współczesne systemy decyzyjne dysponują dużymi zbiorami danych i oczekiwanie, że decydent ma wiedzę i możliwości dokonywania odpowiednio dużej liczby porównań, jest nieuzasadnione. Można jednak przyjąć, że decydent jest w stanie

(3)

podać przykłady decyzji doskonałych (albo przez niego akceptowalnych), zwykle wybranych ze zbioru przedstawionych mu do wyboru. Uzyskanie takich przykładów powinno umożliwić odpowiedź na pytanie, jakie czynniki w ocenie decyzji są dla decydenta istotne oraz określenie zasad porządkowania decyzji. Informacje te powinny być podstawą sformułowania odpowiednich rekomen-dacji. Można się przy tym spodziewać, że ich jakość będzie zależeć od liczby wskazanych przykładów.

2. Problem ewaluacji na podstawie wskazanych przykładów

wzorców

Przedstawiany w artykule problem ewaluacji polega na redukcji skoń-czonego zbioru możliwych decyzji poprzez wyznaczenie podzbioru (lub pod-zbiorów) decyzji rekomendowanych jako zgodne z preferencjami decydenta. Liczba wyznaczonych, rekomendowanych decyzji powinna być na tyle mała, aby decydent miał możliwość samodzielnie zweryfikować rekomendowane de-cyzje i dokonać ostatecznego wyboru.

Każda decyzja jest opisana jej charakterystyką. Podstawą jakościowej oceny (rekomendowania) decyzji jest przedstawiony przez decydenta zbiór decyzji uznanych przez użytkownika jako wzorcowe (doskonałe albo akcepto-walne). Ewaluacja decyzji bazuje na kompletnych charakterystykach decyzji, a nie na wcześniej zdefiniowanych wskaźnikach jakości (skalarnych bądź wek-torowych). Ocena jakości jest realizowana poprzez porównanie pełnej charakterystyki ocenianej decyzji z charakterystykami wzorcowymi. Przyjmuje się, że wzorcowymi są charakterystyki decyzji wskazanych przez decydenta albo charakterystyki specjalnie przez decydenta wygenerowane. W obu przypadkach wyróżnione charakterystyki nazywać będziemy wzorcowymi przykładami albo krótko wzorcami.

Przedstawiane w artykule metody dotyczą charakterystyk decyzji przed-stawianych w postaci wektora liczb rzeczywistych. Trudność rozwiązania zada-nia pojawia się dla dużego wymiaru wektorów, ponieważ wtedy liczba wska-zywanych przykładów jest względnie mała. Sytuacja taka w rozpatrywanym problemie zwykle ma miejsce, ponieważ do oceny decyzji wykorzystuje się z zasady wszystkie dostępne dane, choćby tylko potencjalnie użyteczne. Prowa-dzi to do konieczności analizy wektorów o dużym wymiarze i o dużej roz-maitości.

Zakres zastosowań sformułowanego problemu jest duży: obejmuje za-równo optymalizację inwestycji, trasowanie, diagnostykę, jak i np. przeszu-kiwanie multimedialnych baz danych.

(4)

3. Prace związane

Tematyka ewaluacji decyzji zgodnie z preferencjami decydenta jest wy-raźnie widoczna w zadaniach projektowania systemów wyszukiwania informacji w dużych zbiorach danych według zgłoszonego zapotrzebowania użytkownika. W tych zadaniach jako podstawowe idee ewaluacji wymienia się [8]:

1) filtrowanie oparte na treści (ang. content based filtering), 2) filtrowanie oparte na współpracy (ang. collaborative filtering).

Filtrowanie oparte na treści można określić jako rodzaj tradycyjnej walidacji. Drugi rodzaj filtrowania bazuje na zidentyfikowaniu preferencji użytkownika (indywidualnego bądź zbiorowego); istotne są przy tym algorytmy współpracy z użytkownikiem. Chociaż w systemach wyszukiwania informacji technika uzyskiwania rozwiązań bazuje na aktualizacji i wykorzystywaniu odpo-wiednich baz danych, to sformułowane tam idee można odnajdywać także w in-nych zastosowaniach [10].

Wśród metod bazujących na współpracy na szczególną uwagę zasługują metody wykorzystujące algorytmy grupowania [7]. Przesłanki do stosowania ta-kich metod występują we wspomnianych zadaniach wyszukiwania informacji w systemach internetowych przy braku możliwości indeksowania użytkownika. Zastosowanie w tym przypadku algorytmów grupowania (jako znanej metody uczenia nienadzorowanego) jest więc z natury rzeczy uzasadnione.

Do prac związanych z ewaluacją na podstawie zadanych przykładów trzeba także zaliczyć prace rozwijające ideę określaną jako wnioskowanie oparte na przypadkach (ang. case-based reasoning) [1]. Istotę tego podejścia do rozwiązywania problemów określa się przez podanie sekwencji czterech zaleceń: 1) odnajdź przypadek (ang. retrieve), 2) powtórnie użyj (ang. reuse), 3) skoryguj (ang. revise), 4) zachowaj (ang. retain). Realizacja pierwszego zalecenia polega na odnalezieniu przypadków zgodnych ze wskazanymi przykładami.

Zadania optymalizacji wymagające uzyskania od decydenta podania wzorców zostały sformułowane w pracach [3] i [4]. Istotą przedstawionych tam propozycji jest przyjęcie, że ewaluacja decyzji opiera się na wykorzystywaniu kompletnych charakterystyk decyzji, a nie na specjalnie skonstruowanym wskaźniku jakości. Podstawę przedstawionego w tych pracach postępowania optymalizacyjnego stanowiły zadane wzorce szeroko rozumianych charakterystyk. Charakterystyki te jednak z zasady nie miały znaczenia wektorowej oceny decyzji. W odróżnieniu od omawianego w niniejszym artykule problemu, oprócz podania wzorcowych charakterystyk, wymagane było określenie zasad oceny zgodności charakterystyki ocenianej ze wzorcową.

Przypadek, gdy liczba wskazanych przykładów wzorców jest mała wzglę-dem liczby współrzędnych wektora charakterystyki, był rozpatrywany

(5)

w pracy [6]. Zaproponowano tam dwie metody optymalizacji bazujące na wyznaczaniu rzutów wektorów charakterystyki na podprzestrzenie wzorców. Wyróżnikiem pierwszej metody jest wykorzystywanie odległości wektora charakterystyki od podprzestrzeni wzorców. Druga metoda polega na przeniesieniu zadania rozpoznawania wzorców do podprzestrzeni wzorców.

4. Przestrzeń cech

Przyjmiemy, że zbiór rozpatrywanych decyzji jest ponumerowany od 1 do N . Dla każdej decyzji znana jest jej charakterystyka przedstawiona w postaci wektora liczb rzeczywistych. Wektor ten będziemy nazywać krócej wektorem cech. Określenie to ma charakter umowny (poszczególne współrzędne tego wek-tora często uzyskiwane są po prostu jako wynik pomiaru). Dla decyzji o nu-merze k stosować będziemy oznaczenie:

T k L k k ka1, , a2, ,  a , a , akRL (1)

Każda współrzędna al,k jest liczbą rzeczywistą, a parametr L określa liczbę współrzędnych wektora cech. Wektory te tworzą zbiór:

a , a ,  aN

A 1 2 , akRL (2)

Dla wygody wektory cech zestawiamy w postaci następującej macierzy:

a a aN

A1, 2,  , akRL (3)

Macierz kowariancji (rozrzutu) wektorów cech oznaczamy następująco:



T k N k k N a a a a R

    1 1 1 (4) gdzie:

  N k k N 1 1 a a (5)

Przyjmiemy dalej, że

0 ) (

det R  (6)

Odległość pomiędzy wektorami x , y przestrzeni cech R będziemy wyzna-L czać w sposób uwzględniający wielkość rozrzutu (rozproszenia) współrzędnych oraz ich wzajemną korelację. Wymaganie to spełnia odległość Mahalanobisa; jest ona określona wzorem:

(6)

) ( ) ( ) , ( d x yxy TR1 xy

,

x,yRL (7)

5. Ewaluacja środowiskowa

Omówione w tym punkcie metody ewaluacji: szeregowania i grupowania będziemy określać jako środowiskowe. Określenie to oddaje fakt, że przyjęta metryka (7) jest określana na podstawie wszystkich danych poddawanych ana-lizie. Oznacza to również, że przy definiowaniu metryki nie zostają wyko-rzystywane preferencje decydenta.

5.1. Wykorzystanie wzorców decydenta do szeregowania decyzji

Wskazania przykładów zakwalifikowanych jako wzorcowe będziemy do-konywać przez podanie skończonego zbioru W wektorów z przestrzeni cech

L

R . W przypadku wskazania zbioru indeksów I decyzji zbiór ten uzyskuje się w następująco:

kk Iw

 A:

W a (8)

Liczbę elementów tak rozumianego wzorca W oznaczymy jako Nw W . Podstawowym problemem jest przyjęcie zasad wnioskowania o podobień-stwie wektora cech x do wzorca W (zgodności wektora cech x ze wzor-cem W ). Proponujemy tu wykorzystywać pojęcie odległości między klastrami. Do najbardziej znanych metod obliczania tej odległości należy: metoda najbliższego sąsiedztwa, metoda najdalszego sąsiedztwa, metoda średniej odległości, metoda centroidalna, metoda Warda [5]. Przykładowo, wybierając metodę centroidalną, otrzymujemy następującą formułę do obliczenia wskaźnika podobieństwa wektora cech x do wzorca W :

 

d

,

( ) ( ) Dw xx awxaw TR1 xaw (9) gdzie:

  W 1 j w j N w a a a (10)

Wykorzystywanie odległości (9) prowadzi do ewaluacji zależnej od prefe-rencji decydenta jedynie przez wartość średnią a cech wzorcowych. Większej w zależności wyników ewaluacji od preferencji decydenta można oczekiwać, biorąc za podstawę wartość średnią odległości badanego wektora cech x od wszystkich wzorców:

(7)

 

       W 1 1 W 1 d , ( ) ( ) D j w j w j T j N j N w a a a x R a x a x x (11)

Dla ustalonej metryki na podstawie wyznaczonych odległości wektora cech x do wzorca W można uzyskać ranking decyzji. W obu przypadkach, tzn. dla odległości (9) lub odległości (11), w uzyskiwanym uszeregowaniu decyzje wskazane jako wzorcowe nie zawsze będą zajmować czołowe miejsca. Wynika to z faktu, że wskazania decydenta nie są rozumiane jako idealny wybór, a jedynie przykłady akceptowalnego wyboru. Można powiedzieć, że ujawnione przez decydenta preferencje zostają wykorzystane jedynie w celu wskazania rdzenia rekomendowanych cech. Sam zaś wybór rekomendowanych decyzji odbywa się na podstawie odległości poszczególnych cech od tego rdzenia.

5.2. Ewaluacja na podstawie wyników grupowania

Inne możliwości wyznaczania decyzji zgodnych z preferencjami decyden-ta dają metody uczenia nienadzorowanego oparte na algorytmach grupowania (w poprzednio omawianej metodzie wykorzystywane było pojęcie odległości między klastrami, jednak sama operacja grupowania nie była wykonywana). Można oczekiwać, że w wyniku grupowania uzyska się klastry o mało zróżni-cowanych, podobnych elementach. Można powiedzieć, że zastosowanie algo-rytmów grupowania powinno wydobyć te właściwości zbioru cech, które nie są oczywiste dla decydenta.

Pierwszy etap ewaluacji polega na bezpośrednim zastosowaniu dowol-nego algorytmu grupowania – wykorzystując definicję (7) odległości oraz do-wolnie wybrany sposób określania odległości między klastrami. Na tym etapie całkowicie ignorowane są preferencje decydenta (ponieważ wyznaczone klastry są niezależne od wskazanych wzorców). Drugi etap polega na konfrontacji uzyskanych klastrów z podanym zbiorem wzorców. Dopiero ten etap pozwala ocenić, czy wykonane grupowanie będzie użyteczne dla decydenta. Jeśli istnieje klaster zawierający wzorcowe przykłady, to cały klaster można przedstawić jako zbiór rekomendowanych cech decyzji. Klaster ten będzie nietrywialnym rozwią-zaniem, jeśli obok wzorcowych zawierać będzie dodatkowe wektory.

Interesującym przypadkiem jest grupowanie dychotomiczne, tzn. grupo-wanie na dwa klastry w ten sposób, że w skład jednego z klastrów wchodzą wszystkie wzorcowe przykłady. W tym przypadku można uznać zrealizowane działanie za walidację decyzji, przy czym kryteria walidacji są określone w spo-sób uwikłany przez wskazanie przykładów.

(8)

6. Ewaluacja na podstawie metryki dopasowanej do wzorca

Można oczekiwać, że wskazanie wzorcowych przykładów przez decy-denta pośrednio daje informację o tym, które współrzędne wektora cech są dla decydenta istotne. Proponujemy spożytkowanie tych informacji poprzez wyznaczanie odległości w przestrzeni cech nie na podstawie macierzy kowariancji (rozrzutu) cech środowiskowych (wszystkich analizowanych wektorów cech), a jedynie cech wzorcowych.

Macierz kowariancji (rozrzutu) wyznaczoną na podstawie wzorca W oznaczymy następująco:



     W 1 1 j w T w j w j N w a a a a a R (12)

gdzie wartość a jest obliczana według wzoru (10). Odległość pomiędzy wekto-w rami x , y przestrzeni cech R zdefiniowaną wzorem: L

) ( ) ( ) , ( dw x yxy TRw1 xy , x,yRL (13) nazywać będziemy dopasowaną do wzorca W [5]. Warunkiem możliwości stosowania tego wzoru jest nieosobliwość macierzy kowariancji R . Do speł-w nienia tego warunku konieczne jest, aby liczba wskazywanych przykładów była większa od wymiaru wektora cech.

Określona w ten sposób metryka może stanowić podstawę definiowania odległości między klastrami. Przykładowo wybierając metodę centroidalną, uzyskujemy zależność do obliczania wartości funkcjonału określającego podo-bieństwo wektora cech xRL do wzorca W :

 

d

,

( ) ( )

Dw xw x awxaw TRw1 xaw (14) Podobnie jak w przypadku ewaluacji środowiskowej, większej zależności ran-kingu od preferencji decydenta można oczekiwać, biorąc za podstawę wartość średnią odległości badanej cechy x od wszystkich wzorcowych wektorów cech:

 

       W 1 1 W 1 d , ( ) ( ) D j w j w w j T j N j w N w a a a x R a x a x x (15)

(9)

7. Ewaluacja na podstawie rzutów cech na podprzestrzeń wzorców

7.1. Podprzestrzeń wzorców

Jeśli macierz R jest osobliwa, obliczenie odległości dopasowanej (13) w jest niemożliwe. W takim przypadku proponujemy zredukować liczbę współ-rzędnych cech. Proponujemy za [6], aby redukcję wymiaru wektora cech prze-prowadzić w przestrzeni wartości transformaty Karhunena–Loève’a. Podstawą przekształcenia Karhunena–Loève’a są ortonormalne wektory własne tk(Rw) macierzy kowariancji R zadanej przez wzór (12). Wektory te spełniają w następującą zależność: ) ( ) ( ) ( w k w k w k wt R R t R R  , k 1,2,,L (16) gdzie:                L , k , k , k w k t t t  2 1 ) (R

t , k(Rw) – wartości własne macierzy kowariancji R . w

Wartości własne k(Rw) są liczbami rzeczywistymi; przyjmujemy, że wartości te są uporządkowane malejąco (tzn. maleją wraz ze wzrostem indeksu k ). Ma-cierz przekształcenia Karhunena–Loève’a można przedstawić następująco:

               ) ( ) ( ) ( 2 1 w T L w T w T R t R t R t T  (17)

Macierz tę będziemy wykorzystywać do przekształcania wektora xRL w wek-tor zRL w następujący sposób:

) ( w w T x a a T Tx z    , xRL (18)

gdzie: Tx – transformata Karhunena–Loève’a wektora xRL, a – wektor w określony wzorem (10). Niech M oznacza liczbę dodatnich wartości własnych macierzy kowariancji R . Wtedy dla wektorów wzorcowych w akW wynik przekształcenia T(akaw) jest wektorem, którego tylko M pierwszych współ-rzędnych jest niezerowych. Zauważamy przy tym, że Mmin

Nw,L

.

(10)

Zdefiniujemy operator P działający w przestrzeni R w następujący L sposób:                                                                0 0 0 0 0 0 0 0 0 1 0 0 0 1 , 1 , , 1 , , 1 ,                       M k k L k M k M k k z z z z z z Pz (19)

Złożenie PT definiuje w przestrzeni R (wartości transformaty Karhunena–L Loève’a) podprzestrzeń wzorca P następująco: W

L L

W R R

Py :yPTx,x (20)

Przeniesienie ocen akRL do podprzestrzeni wzorca P dokonywane jest na W podstawie transformaty różnicy vkakaw. Odpowiadający ocenie akRL wektor zkRL podprzestrzeni P wyznaczany jest następująco: W

)

( k w

k PT a a

z   , a ,k zkRL (21) Wzór (20) definiuje podprzestrzeń wzorca jako złożoną z wektorów L-wymiarowych: P W RL. Ponieważ dla wektorów wzorcowych akW wynik przekształcenia T(akaw) jest wektorem, którego tylko M pierwszych współrzędnych jest niezerowych, wygodniej jest przeprowadzać obliczenia bezpośrednio w przestrzeni R . M

Dla zadanego wektora xRL odpowiadający mu wektor przestrzeni

M

R

x , uzyskany przez pozostawienie pierwszych M współrzędnych, zapisy-wać będziemy następująco: xr(x).

7.2. Ewaluacja w podprzestrzeni wzorca

Podstawą ewaluacji są wektory cech

M kR

a uzyskane przez prze-kształcenie wektorów ak ARL zgodnie ze wzorem: akr(PT(akaw)). Zbiór uzyskanych w ten sposób wektorów cech w przestrzeni R oznaczymy M jako:

(11)

1, 2,

 :  ( (  )), A

N RM r k w k

A a aa y y PT a a a (22)

Odpowiednio zbiór cech wzorcowych w przestrzeni R jest następujący: M

1, 2,

 :  ( (  )), W

N RM r k w k W w y y PT a a a a a a  (23)

Otrzymuje się w ten sposób wtórne zadanie ewaluacji decyzji na podstawie ocen w podprzestrzeni wzorca. Można je rozwiązać, stosując wcześniej omówione metody.

1) W przypadku ewaluacji środowiskowej podstawę wyboru decyzji sta-nowi następujące określenie odległości w przestrzeni R : M

) ( ) ( ,y x y R 1 x y x   T   d( )

,

x, y RM (24) gdzie:



T k N k k N a a a a R

    1 1 1 , (25)

  N k k N 1 1 a a (26)

Odległość (24) może być wykorzystywana zarówno w algorytmach grupowania, jak i przy szeregowaniu decyzji.

2) W przypadku ewaluacji na podstawie metryki dopasowanej do wzorca pod-stawę wyboru decyzji stanowi następująca zależność:

) ( ) ( ) , (x yxy TR-1w xy w d , x, y RM (27) gdzie:



     W T w j w j N w j w a a a a a R 1 1 (28)

  W j N w j w a a a 1 (29)

Macierz R jest diagonalna, a przy tym w aw0. Odległość (27) może być wy-korzystywana w algorytmach grupowania i przy szeregowaniu decyzji.

(12)

7.3. Wykorzystanie odległości wektorów cech od podprzestrzeni

wzorców

Odległość między wektorem cech x a podprzestrzenią wzorca jest wyzna-czana w przestrzeni R jako odległość między wektorem x a jego rzutem L x w na podprzestrzeń wzorca:

( ) ( ) dx,xwxxw TR1 xxw , x,xwRL (30) gdzie: w a z T xw  1  , zPT(xaw), x,awRL (31) Odległość (30) może być bezpośrednio wykorzystywana do szeregowania de-cyzji. Może ona służyć jako dodatkowa ocena podobieństwa we wcześniej pro-ponowanych metodach szeregowania. Taki zabieg może łagodzić skutki sze-regowania decyzji wyłącznie na podstawie rzutów cech na podprzestrzeń wzorca.

8. Eksperyment

8.1. Przedmiot i cel badań

Aby zilustrować proponowane metody, dokonano analizy przykładowego zbioru charakterystyk (cech). Celem eksperymentu nie był wybór najlepszej metody. Chociaż jest to możliwe i wskazane w odniesieniu do dowolnego, kon-kretnego problemu, w niniejszym artykule nie jest dokonywana analiza wyni-ków eksperymentu z punktu widzenia ich trafności i użyteczności.

W analizowanym zbiorze danych pojedynczą charakterystykę (wektor cech) stanowi wektorowy wynik pomiaru, którego każda współrzędna została wyznaczona jako rezultat pojedynczego testu porównawczego (benchmarku). Każdy pomiar wykonywany był na innym zestawie komputerowym, współ-rzędne o jednakowym indeksie opisują wynik tego samego benchmarku1. Zesta-wy miały różną konfigurację sprzętową i programową, tzn. różniły się albo pro-cesorami, albo płytami głównymi, albo systemami operacyjnymi, albo aktyw-nym oprogramowaniem czy też otoczeniem sieciowym. Wykorzystywany zbiór danych zawiera wyniki 256 benchmarków wyznaczone dla 145 zestawów (co daje łącznie 37120 liczb).

1 Do obliczeń zostały wykorzystane wyniki pomiarów udostępnione przez ich autora, Artura

(13)

W rozpatrywanym eksperymencie bezpośrednie ustalenie wskaźników jakości przez decydenta jest mało realne z powodu nieokreśloności znaczenia poszczególnych cech (wynikającej z powodu np. braku doświadczeń decydenta w tym zakresie). Dla celów przeprowadzanego eksperymentu przyjęto założenie, że decydent potrafi wskazać przykłady zestawów spełniających jego wymagania. Dokonany przez decydenta wybór umożliwia określenie zbioru charakterystyk (wektorów cech) wzorcowych.

Jako podstawę obliczania odległości między klastrami przyjęto metodę średniej odległości (ang. average linkage). Zgodnie z tą metodą w algorytmach grupowania wykorzystywano następującą zależność [5]:



   r s s r N k N l sl rk N N s r G d G dist 1 1 1 , , x x (32)

gdzie: dist

Gr,Gs

– odległość między klastrami G oraz r G , przy czym: s

r r rNr

r Gx 1,x 2,,x ,

s sN s s s Gx1,x 2,,x , x ,rk xslRL. W algorytmach szeregowania zależność ta przyjmuje odpowiednio postać (15) lub (11).

Dążenie do obliczania odległości z uwzględnieniem wielkości rozrzutu współrzędnych wektora pomiaru oraz ich wzajemnej korelacji skłania do zasto-sowania odległości Mahalanobisa, tj. wzoru (7) lub, w przypadku wykorzys-tywania metryki dopasowanej do wzorca, wzoru (13). Wiąże się to z koniecz-nością zapewnienia nieosobliwości odpowiednich macierzy kowariancji, okreś-lonych wzorem (4) i odpowiednio (12). Wymaga to redukcji liczby współrzęd-nych wektora pomiarów. W eksperymencie dokonywano takiej redukcji w prze-strzeni składowych głównych. Pomijane były tylko te składowe, których zbyt mała wariancja (rozrzut) mogłaby powodować złe uwarunkowanie obliczeń numerycznych.

8.2. Wyniki ewaluacji środowiskowych

Źródłem danych była macierz złożona z wektorów wyników testowania 145 zestawów. Każda współrzędna tych wektorów określała wynik pomiaru uzyskiwany w wyniku tego samego testu. Źródłowa liczba współrzędnych została zredukowana tak, aby macierz kowariancji cech wszystkich zestawów była nieosobliwa. Redukcję wymiaru wektora cech wykonano poprzez wyzna-czenie transformat Karhunena–Loève’a dla wektorów źródłowych, a następnie odrzucenie tych współrzędnych transformaty, które miały wariancję zerową lub zbyt małą (tj. powodującą złe uwarunkowanie obliczeń przy wyznaczaniu od-wrotnej macierzy kowariancji). W wyniku uzyskano macierz cech (3) złożoną ze 145 wektorów 10-wymiarowych (o nieosobliwej macierzy kowariancji cech).

(14)

Rys. 1. Wizualizacja ewaluacji środowiskowej. Zbiory rekomendowanych decyzji wyznaczone są na podstawie listy rankingowej. Charakterystyki wzorcowe oznaczono kółkami koloru

czerwonego. Charakterystyki zestawów rekomendowanych – kółkami koloru zielonego

Rys. 2. Wizualizacja ewaluacji środowiskowej. Zbiory rekomendowanych decyzji wyznaczono na podstawie wyników grupowania. Charakterystyki wzorcowe oznaczono kółkami koloru

(15)

Rys. 3. Wizualizacja ewaluacji środowiskowej dla metryki dopasowanej do wzorca. Zbiory rekomendowanych decyzji wyznaczone są na podstawie listy rankingowej. Charakterystyki wzorcowe oznaczono kółkami koloru czerwonego. Charakterystyki zestawów

rekomendowanych – kółkami koloru zielonego

Rys. 4. Wizualizacja ewaluacji środowiskowej dla metryki dopasowanej do wzorca. Zbiory rekomendowanych decyzji wyznaczono na podstawie wyników grupowania. Charakterystyki wzorcowe oznaczono kółkami koloru czerwonego. Charakterystyki zestawów

(16)

Otrzymane wektory akRL stanowią charakterystyki analizowanych zestawów. Przy tym: k

1,2,,N

, N 145, L10. Współrzędne obliczo-nego wektora cech są interpretowane jako składowe główne wyników pomiaru.

Pierwszy wariant obliczeń polegał na wykorzystaniu macierzy kowa-riancji (rozrzutu) wyznaczonej na podstawie cech środowiskowych, tj. obliczo-nej dla wszystkich zestawów zgodnie ze wzorem (4). Wyniki ewaluacji metodą rankingu przedstawiono na rys. 1. Listy rekomendowanych zestawów (decyzji) wyznaczono, biorąc za podstawę taki początkowy wycinek listy rankingowej, który zawiera wszystkie elementy wzorcowe. Rozszerzenia podstawowego ran-kingu wyznaczono, dodając do niej N kolejnych elementów. Podstawą ewalu-d acji metodą grupowania jest wyznaczenie najmniej licznego klastra, dla którego zbiór wzorcowy jest podzbiorem. Rezultat ten był uzyskiwany poprzez gru-powanie na możliwie największą liczbę klastrów (w eksperymencie liczba ta była równa 16), wśród których jest klaster zawierający wszystkie wskazane, wzorcowe wektory. Rozszerzenia zbioru rekomendowanych decyzji otrzymano, przyjmując odpowiednio mniejszą liczbę klastrów. Wartości liczby klastrów, przy których zaobserwowano wizualizowane rekomendacje, zostały podane w opisie rys. 2.

Drugi wariant obliczeń polegał na wykorzystaniu macierzy kowariancji (rozrzutu) wyznaczonej na podstawie cech wzorcowych, tj. obliczonej dla zesta-wów wzorcowych zgodnie ze wzorem (12). Uzyskana w wyniku redukcji wymia-ru wektora cech macierz cech (3) złożona była ze 145 wektorów 2-wymiaro-wych. Każdy wektor tej macierzy przedstawiał charakterystykę

L kR

a odpo-wiedniego zestawu (decyzji). Przy tym: k

1,2,,N

, N145, 2

L . Wy-niki ewaluacji metodą rankingu przedstawiono na rys. 3. Wyniki ewaluacji na podstawie grupowania przedstawiono na rys. 4. Listy rekomendowanych zesta-wów (decyzji) wyznaczono analogicznie do wariantu pierwszego obliczeń.

8.3. Wyniki ewaluacji w podprzestrzeni wzorca

Podobnie jak w przypadku wykonywania obliczeń w pełnym środowisku, obliczenia w podprzestrzeni wzorca wykonano dla transformat Karhunena– Loève’a. Podstawę przekształcenia stanowiła macierz kowariancji (12). Pod-przestrzeń wzorca wyznaczono, pozostawiając składowe główne o niezerowej wariancji. W wyniku redukcji uzyskano nieosobliwą macierz cech wektorów 2-wymiarowych. Współrzędne obliczonego wektora cech akRM są interpreto-wane jako składowe główne wyników pomiaru. Przy tym: k

1,2,,N

,

145 

(17)

Rys. 5. Wizualizacja ewaluacji środowiskowej w podprzestrzeni wzorca. Zbiory rekomendowanych decyzji wyznaczone są na podstawie listy rankingowej. Charakterystyki wzorcowe oznaczono kółkami koloru czerwonego. Charakterystyki zestawów

rekomendowanych – kółkami koloru zielonego

Rys. 6. Wizualizacja ewaluacji środowiskowej w podprzestrzeni wzorca. Zbiory rekomendowanych decyzji wyznaczone są na podstawie wyników grupowania. Charakterystyki wzorcowe oznaczono kółkami koloru czerwonego. Charakterystyki zestawów

(18)

Rys. 7. Wizualizacja ewaluacji w podprzestrzeni wzorca dla metryki dopasowanej do wzorca. Zbiory rekomendowanych decyzji wyznaczone są na podstawie listy rankingowej. Charakterystyki wzorcowe oznaczono kółkami koloru czerwonego. Charakterystyki zestawów

rekomendowanych – kółkami koloru zielonego

Rys. 8. Wizualizacja ewaluacji w podprzestrzeni wzorca dla metryki dopasowanej do wzorca. Zbiory rekomendowanych decyzji wyznaczone są na podstawie wyników grupowania. Charakterystyki wzorcowe oznaczono kółkami koloru czerwonego. Charakterystyki zestawów

(19)

Pierwszy wariant obliczeń polegał na wykorzystaniu macierzy kowa-riancji (rozrzutu) wyznaczonej na podstawie cech środowiskowych, tj. obliczo-nej dla wszystkich zestawów. Wyniki ewaluacji metodą rankingu przedstawiono na rys. 5. Wyniki ewaluacji uzyskane na podstawie grupowania w podprzestrze-ni wzorca są zamieszczone na rys. 6. Listy rekomendowanych zestawów (de-cyzji) wyznaczono w sposób opisany w punkcie 8.2.

Drugi wariant obliczeń polegał na wykorzystaniu macierzy kowariancji (rozrzutu) wyznaczonej na podstawie cech wzorcowych, tj. obliczonej dla zesta-wów wzorcowych zgodnie ze wzorem (12). Wyniki ewaluacji metodą rankingu przedstawiono na rys. 7. Wyniki ewaluacji uzyskane na podstawie grupowania w podprzestrzeni wzorca są zamieszczone na rys. 8.

8.4. Wnioski z eksperymentu

Uzyskane wyniki obliczeń pozwalają sformułować następujące wnioski: 1) W przypadku stosowania metody rankingu uzyskuje się możliwość

wyzna-czania zbioru rekomendowanych decyzji o praktycznie dowolnej liczebności. Jest to immamentną cechą samej metody. Wyznaczanie rekomendacji na podstawie wyników grupowania takiej gwarancji nie daje. Osiągalne jest jednak uzyskanie użytecznego zróżnicowania liczebności wyznaczanych rekomendacji.

2) Nietrafność rekomendacji z punktu widzenia decydenta niekoniecznie dys-kwalifikuje zastosowane metody. Niezgodność wyznaczonej rekomendacji z oczekiwaniami decydenta może być wynikiem niespójności wskazanego zbioru wzorców. Weryfikacja tego zbioru powinna umożliwiać dojście do satysfakcjonujących rekomendacji.

9. Wnioski końcowe

1) Proponowane metody ewaluacji są uniwersalne i mogą być wykorzystywane wszędzie tam, gdzie charakterystyki decyzji można przedstawić w postaci wektorów liczb rzeczywistych. Ponieważ decyzje rekomendowane są tu ro-zumiane jako te, których charakterystyki są bliskie wzorcowym, naturalna jest możliwość zastosowania omawianych metod w zadaniach rozpoznawa-nia tylko jednego wzorca.

2) W przypadku dysponowania niewielką liczbą przykładów wzorca (w sto-sunku do wymiaru wektora cech) istotne jest wykorzystywanie składowych głównych. W przypadku dysponowania wystarczająco dużą liczbą przykła-dów wzorca, podprzestrzeń wzorca staje się przestrzenią cech.

(20)

3) Przedstawione metody obliczeniowe pozwalają na ewaluację w sytuacji, gdy charakterystyki decyzji nie są selekcjonowane pod kątem ich użyteczności w konkretnym akcie wyboru. Dotyczy to zwłaszcza zadań wyboru na pod-stawie danych generowanych automatycznie, często przeznaczonych do in-nych celów.

4) Wszystkie zaproponowane metody pozwalają na elastyczne zawężanie lub poszerzanie zbioru rekomendowanych decyzji. W przypadku metod bazu-jących na rankingu można to osiągnąć drogą bezpośredniego skracania lub wydłużania wykorzystywanej listy rankingowej. W przypadku metod wyko-rzystujących algorytmy grupowania, cel ten można osiągnąć, zwiększając lub zmniejszając zadawaną liczbę klastrów.

5) Jakość wyników ewaluacji zależy od spójności wskazań wzorcowych. Trywialne, wieloczłonowe albo zbyt obszerne zbiory rekomendowanych decyzji świadczą o niespójności dokonanych przez decydenta wskazań wzorców. Uzyskiwanie takich rozwiązań jest przesłanką do weryfikacji zbioru wzorców.

Literatura

[1] AAMODT A.,PLAZA E.,Case-Based Reasoning: Foundational Issues, Metho-dological Variations, and System Approaches. Artificial Intelligence

Commu-nications 7, No. 1, 1994, pp. 39-52.

[2] FISHBURN P.C., Utility Theory. Management Science, Vol. 14, No. 5, Jan.,

1968, pp. 335-378.

[3] KWIATKOWSKI W., Optymalizacja względem ocen idealnych. Biuletyn WAT, Vol. 31, 3, 1982, s. 61-66.

[4] KWIATKOWSKI W., Optymalizacja względem wzorców. Biuletyn WAT, Vol. 32, 3, 1983, s. 93-104.

[5] KWIATKOWSKI W., Metody automatycznego rozpoznawania wzorców. BEL Studio, Warszawa, 2010.

[6] KWIATKOWSKI W., Wykrywanie anomalii bazujące na wskazanych

przykła-dach. Przegląd Teleinformatyczny, nr 1-2, 2018, s. 3-21.

[7] MOBASHER B.,COOLEY R.,SRIVASTAVA J., Automatic Personalization Based

on Web Usage Mining. Communications of the ACM, Vol. 43, No. 8, 2000,

pp. 142-151.

[8] MOBASHER B.,DAI H.,LUO T.,NAKAGAWA M., Improving the Effectiveness of

Collaborative Filtering on Anonymous Web Usage Data. In: Proceedings of the

IJCAI 2001, Workshop on Intelligent Techniques for Web Personalization (ITWP01), 2001.

(21)

[9] PHAN QUOC KHAN, Optymalizacja wielokryterialna. Roczniki Polskiego Towarzystwa Matematycznego Seria III, Matematyka Stosowana XXXII (1989), pp. 31-47.

[10] SAID A.,BELLOGÍN A.,Comparative Recommender System Evaluation: Bench-marking Recommendation Frameworks. RecSys '14: Proceedings of the 8th

ACM Conference on Recommender systems, 2014, pp. 129-136.

Recommendations as a result of the decision evaluation

based on given pattern examples

ABSTRACT: The problem of evaluation of decisions is considered, which evaluation consists in selecting from the set of possible decisions those that meet the decision-maker's preferences. The added value of solving this problem lies in the reduction of the number of decisions one can choose. Evaluation of decisions is based on their complete characteristics, rather than on a pre-defined quality indicator. The basis for the quality assessment are given pattern examples of decisions made. These are decisions that the decision-maker has found to be exemplary or acceptable. They are used as defining his preferences. The methods proposed in this article concern the ordering and clustering of decisions based on their characteristics. The set of decisions selected by an algorithm is interpreted as recommended for the decision-maker. Presented solu-tions can find a variety of applicasolu-tions, for example in investment planning, routing, diagnostics or searching through multimedia databases.

KEYWORDS: evaluation, recommendation, ranking, preferences, data mining, clustering, vector optimization.

(22)
(23)

Cytaty

Powiązane dokumenty

Si³y specyfczne s¹ bardzo znaczne ze wzglêdu na to, ¿e cz¹stki od- dzia³ywuj¹ce ze sob¹ w tych przypadkach s¹ doskonale dopasowane w miejscach wi¹zania, dziêki czemu

Taka jest rola ewaluacji we współczesnym społeczeństwie wiedzy jako typie organizacji społecznej, w której tworzenie i wykorzystanie wiedzy staje się strategicznym czynnikiem

Jednym z wierzchołków trójkąta równobocznego jest

Opisz w kilku zdaniach wybrany przez siebie rodzaj aktywności i krótko uzasadnij dlaczego taką formę aktywności preferujesz – obowiązkowo.. Możesz

Kolejnym rozpatrywanym zagadnieniem jest przedstawienie aspektów systemów agentowych, które moga˛ by´c weryfikowane przy pomocy dost˛epnych narz˛edzi.. W sekcji zawierajacej ˛

Dobrze jest, gdy także nauczyciele – osoby prowadzące różne typy zajęć od czasu do czasu (a przynajmniej pod koniec semestru) dokonują ewaluacji i udzielają studentom

Dalej przedstawia się przykład uniwersalnego systemu podejmowania decyzji oraz istniejące narzędzia matematyczne i komputerowe do stworzenia własnych metod. Na końcu określane są

Proszę udowodnić zasadę szufladkową Dirichleta: jeśli n elementów rozmieszczamy w m pudełkach to pewne pudełko zawiera co najwyżej bn/mc przedmiotów (i pewne pudełko zawiera