• Nie Znaleziono Wyników

Streszczenie rozprawy doktorskiej Linguistic summaries of time series using fuzzy sets and their application for performance analysis of investment funds

N/A
N/A
Protected

Academic year: 2021

Share "Streszczenie rozprawy doktorskiej Linguistic summaries of time series using fuzzy sets and their application for performance analysis of investment funds"

Copied!
26
0
0

Pełen tekst

(1)

Streszczenie rozprawy doktorskiej

Linguistic summaries of time series using fuzzy sets and their application for performance analysis of investment funds

(Podsumowania lingwistyczne szeregów czasowych z użyciem zbiorów rozmytych i ich zastosowanie do analizy notowań wartości funduszu inwestycyjnego)

mgr inż. Anna Wilbik

1 Wprowadzenie

W pracy rozważamy niektóre aspekty wspomagania podejmowania decyzji w kontekście in- westycji finansowych, w szczególności funduszy inwestycyjnych. Rozważamy następującą sytuację. Decydent musi podjąć decyzję, ile pieniędzy oraz w jaki fundusz (lub ogólniej, w jaki instrument finansowy) ma zainwestować. Jego decyzja jest oparta na różnych as- pektach oraz dostępnej informacji, a także na jego doświadczeniu, nastawieniu (głównie w sensie skłonności do ryzyka), intuicji, itp. Te ostatnie kwestie, które dotyczą bardziej kogni- tywnych lub psychologicznych aspektów podejmowania decyzji, nie będą tutaj rozważane.

Decyzje inwestycyjne dotyczą oczywiście przyszłości (w sensie wyników), ale są oparte na wiedzy i percepcji teraźniejszości oraz przeszłości, które – w przeciwieństwie do przyszłości – są znane.

Decydent dysponuje obiektywną informacją o notowaniach funduszy inwestycyjnych, czyli o cenach jednostki funduszu, dla pewnego okresu w przeszłości. Dodatkowo, może dysponować wynikami analiz statystycznych szeregu czasowego utworzonego z tych no- towań, danymi makroekonomicznymi, kursami wymiany walut, itp. Może także posiadać dodatkową wiedzę, wynikającą z doświadczenia, analiz nieformalnych, innych źródeł infor- macji, intuicji, itp., która jest przykładem tzw. wiedzy niejawnej (ang. tacit knowledge) trudnej do wyartykułowania i przekazania innym, w przeciwieństwie do wiedzy jawnej (ang. explicit knowledge), która jest „obiektywna”, możliwa do wyrażenia przy pomocy słów, liczb, znaków, czy też symboli oraz obrazów.

Te przeszkody mogą sprawić, że użycie tradycyjnych, formalnych narzędzi do podej-

(2)

mowania decyzji będzie trudne, a nawet niemożliwe. Skutecznym rozwiązaniem może być zastosowanie paradygmatu wspomagania podejmowania decyzji (ang. decision sup- port paradigm), por. np. książka Holsappla i Whinstona [5] lub strona Dana Powera http://DSSResources.com. Zasadniczo zakłada on, że decydent jest autonomiczny, w tym sensie, że ostateczna decyzja należy do niego, a analityk (w naszym przypadku, pro- ponowana metoda) wspiera tylko decydenta, a nie zastępuje go. Możemy więc dostarczyć dodatkową informację, zapewnić gląd w dane, wizualizację i werbalizację danych, itp., które mogą okazać się pomocne podczas podejmowania decyzji.

W naszym kontekście zakładamy, że dla decydenta ważne są – po pierwsze – przeszłe wyniki funduszu inwestycyjnego, oraz – po drugie – porównanie tych wyników z jego bench- markiem. Istotną kwestią jest to, czy zachowanie się notowań funduszu podążało za no- towaniami założonego benchmarku w pewnym okresie, oczywiście dobrze by było, gdyby był lepszy. To znaczy chcemy ocenić ich podobieństwo.

W niniejszej pracy poświęcono głównie uwagę analizie przeszłych wartości notowań fun- duszu inwestycyjnego. Można tutaj zacytować wiele znanych opinii wiodących ekspertów i guru z dziedziny finansów i inwestowania. McGowan stwierdza [18]: „W zasadzie, wyniki funduszu inwestycyjnego są porównywane z benchmarkiem. Względne stopy zwrotu mierzą, czy fundusz dobrze działał w porównaniu z benchmarkiem. Względne stopy zwrotu są ważne, ponieważ informują inwestorów, czy otrzymują to, za co płacą – zysk większy niż oferuje benchmark. . . Fundusze są zarządzanie tak, aby uzyskać zakładany zysk. Celem absolutnej stopy zwrotu jest bycie zawsze powyżej zera, niezależnie od rynku. I niezależnie od benchmarków”.

Można przytoczyć wiele innych, podobnych w duchu cytatów. W pracy rozpatrujemy zarówno bezwzględne jak względne stopy zwrotu.

W pracy zaproponowano zastosowanie podsumowań lingwistycznych dla szeregów cza-

sowych, używając idei zaproponowanej przez Yagera [19, 20, 21], Kacprzyka [7], Kacprzyka

i Yagera [11], oraz Kacprzyka, Yagera i Zadrożnego [12, 13], Kacprzyka i Zadrożnego [15,

14], rozszerzając ją na kontekst dynamiczny, czyli szeregów czasowych. Podsumowania

szeregów czasowych, które proponujemy, są w rzeczywistości podsumowaniami trendów

(segmentów) zidentyfikowanych jako odcinki przez metodę kawałkami liniowej aproksy-

macji szeregów czasowych. Proponowane podsumowania lingwistyczne są zasadniczo in-

terpretowane jako proporcje liczby elementów posiadających pewne własności. Takie pod-

(3)

sumowania, jak na przykład „among all segments, most are short” (czyli: wśród wszystkich segmentów, większość jest krótkich) lub w bardziej zaawansowanej formie „among all long segments, most are slowly increasing” (wśród wszystkich długich segmentów, większość jest wolno rosnących) mogą zostać łatwo zinterpretowane przy użyciu rachunku zdań z kwanty- fikatorami lingwistycznymi Zadeha [23]. Najważniejszym elementem tej interpretacji jest kwantyfikator lingwistyczny, tutaj „most” (większość), który jest interpretowany jako pro- porcja elementów posiadających pewną własność (np. długość segmentu) do wszystkich rozważanych elementów (np. wszystkich segmentów).

W pracy przedstawiamy również nową metodę porównywania szeregów czasowych za pomocą podsumowań lingwistycznych. Ta metoda opiera się na założeniu, że jeżeli równo- cześnie występujące segmenty mogą zostać opisane przez takie same cechy, to szeregi cza- sowe zbudowane z tych segmentów są podobne. Rozszerzając tę ideę, zaproponowano metodę oceny podobieństwa dwóch szeregów czasowych jako podobieństwo podsumowań lingwistycznych opisujących te szeregi.

Celem pracy jest propozycja i dogłębna analiza numeryczna metody otrzymywania obszernej, „globalnej” charakterystyki szeregów czasowych za pomocą podsumowań ling- wistycznych z elementami logiki rozmytej, która jest narzędziem służącym do zapewnienia prostej i skutecznej reprezentacji, radzącej sobie z nieprecyzyjnością znaczeń, tak charak- terystyczną dla języka naturalnego. Co więcej, zaproponowane metody zostały zaimple- mentowane w postaci systemu komputerowego, który jest używany do obszernej analizy notowań funduszu inwestycyjnego, porównania z benchmarkiem i innymi indeksami gieł- dowymi. Ta analiza obejmuje analizę wielokryterialną podsumowań lingwistycznych i w tym celu używamy zarówno podstawowej metody średniej ważonej (wagi mogą zostać określone przez ekspertów) jak i bardziej wyszukanego, nowoczesnego narzędzia do wielokry- terialnego podejmowania decyzji, a mianowicie metody GRIP zaproponowanej przez Figu- eirę, Greco i Słowińskiego [4]. Nasze podejście jest skierowane głównie na użycie idei leżących u podłoża paradygmatu Zadeha [24] „obliczeń na słowach” (ang. computing with words), zwłaszcza w perspektywie generowania języka naturalnego (NLG - ang. natural language generation), jak pokazano u Kacprzyka and Zadrożnego [16, 17].

Podstawowa teza pracy jest wyrażona w następujący sposób:

Podsumowania lingwistyczne szeregów czasowych mogą zostać skutecznie wy-

generowane używając aparatu logiki rozmytej. Takie podsumowania mogą być

(4)

użyteczne do odkrywania charakterystycznych wzorców przeszłych wartości notowań funduszy inwestycyjnych, zarówno w sensie absolutnym jak i przez porównanie z benchmarkami funduszu. Co więcej, ponieważ podsumowania lingwistyczne są oceniane za pomocą wielu kryteriów, pokażemy, że zarówno metoda prosta, czyli użycie średniej ważonej, jak i wielokryterialna ocena za pomocą bardziej wyszukanego, nowoczesnego narzędzia do wielokryterialnego podejmowania decyzji, a mianowicie metody GRIP 1 może zostać skutecznie zastosowana do oceny i wyboru najlepszych podsumowań.

Ta bardzo ogólna teza może zostać uzupełniona przez dokładny opis tego, co zostało zrobione:

• zaproponowano metodę podsumowań lingwistycznych szeregów czasowych, rozsz- erzając ideę Yagera, rozwiniętą oraz zaimplementowaną przez Kacprzyka, Yagera i Zadrożnego, dla generacji podsumowań lingwistycznych dla danych statycznych,

• zaproponowano nowe rodzaje podsumowań lingwistycznych oraz nowych protoform w sensie Zadeha,

• pokazano, że można użyć różnych metod agregacji z kwantyfikatorem lingwistycznym (a mianowicie, rachunku zdań Zadeha z kwantyfikatorami liongwistycznymi, opera- torów uporządkowanej średniej ważonej (OWA), całek Choqueta i Sugeno) podczas tworzenia podsumowań lingwistycznych szeregów czasowych,

• użyto wielu kryteriów oceny podsumowań lingwistycznych szeregów czasowych, adap- tując metody istniejące dla potrzeb analizy danych dynamicznych i proponując nowe,

• zaproponowano nowe pojęcie podsumowania temporalnego oraz przedstawiono spo- soby i kryteria jego oceny,

• zaproponowano nową metodę porównywania szeregów czasowych przez porównywa- nia ich podsumowań lingwistycznych,

• zaproponowano zastosowanie zarówno bezpośredniej metody średniej ważonej jak i wielokryterialnej oceny z użyciem metody GRIP, wprowadzonej przez Figueirę, Greco i Słowińskiego [4].

1

Metoda GRIP została zaproponowana przez Figueirę, Greco i Słowińskiego [4].

(5)

2 Segmentacja szeregu czasowego

Jako trend cząstkowy (segment) rozumiemy zachowanie się ciągu czasowego w sensie wzrostu lub spadku, z pewną intensywnością, lub przyjmowanie stałych wartości na pewnym od- cinku czasu.

Wśród metod do analizy trendów cząstkowych można wyróżnić dwie główne grupy. W pierwszym przypadku, rodzaja trendów (np. rosnący, stały, malejący) są z góry określone.

Najbardziej popularne metody są oparte na wykrywaniu zmian znaku pierwszej i drugiej pochodnej funkcji aproksymującej punkty należące do ciągu czasowego [3]. W drugim przypadku, nie ma wcześniej ustalonych wzorców. Dlatego też wzorce są wykrywane au- tomatycznie, za pomocą np. analizy skupień [6].

Do wyznaczania trendów cząstkowych w pracy stosuje się 5 algorytmów opartych na tzw. strategii „on-line, „bottom-up” i „top-down”.

Trendy częstkowe (segmenty), rozumiane jako zachowanie się ciągu odcinków przybliża- jących szeregi czasowe, charakteryzujemy za pomocą trzech cech:

• dynamiki zmian,

• czasu trwania,

• zmienności, które poniżej omówimy.

2.1 Dynamika zmian

Pod pojęciem dynamika zmian rozumiemy szybkości zmian wartości ciągu czasowego.

Możemy opisać ją jako nachylenie linii (odcinka), reprezentującej trend, czyli kąt nachyle- nia.

Powyższa procedura może prowadzić do zbyt dużej liczby możliwych nachyleń odcinków odpowiadającym segmentom. Dlatego proponuje się zastosowanie granulacji wartości na- chyleń, spełniającej oczekiwania użytkowania i wymagania zadania. W tym przypadku użytkownik może sam zbudować skalę lingwistyczną opisujacą różne nachylenia linii reprezen- tującej trend. Na przykład, użytkownik może stworzyć następującą skalę:

• szybko malejący,

• malejący,

• wolno malejący,

(6)

• stały,

• wolno rosnący,

• rosnący,

• szybko rosnący.

Oczywiście, można wybrać większą lub mniejszą liczbę określeń lingwistycznych, ale zgodnie z tzw. magiczneą liczbą Milera, 7 ± 2, jest dobrym wyborem, ponieważ ma uza- sadnienie psychologiczne.

Rysunek 1 przedstawia nachylenia i odpowiadające im przykładowe określenia ling- wistyczne (por. [1, 2]).

Rysunek 1: Graficzna reprezentacja przykładowych określeń lingwistycznych dynamiki zmian

Odwzorowujemy więc pojedynczą wartość η, opisującą dynamikę zmian trendu zidenty-

fikowanego za pomocą wybranej metody, w określenie lingwistyczne (a więc w odpowiada-

jący mu zbiór rozmyty), które najlepiej pasuje do danego kąta. Wtedy powiemy, że dany

trend jest na przykład „malejący w stopniu 0,8”, jeżeli µ malejacy (η) = 0.8, gdzie µ malejacy

jest funkcją przynależności zbioru rozmytego reprezentującego „malejący”, która najlepiej

pasuje dla kąta η opisującego rozważany trend.

(7)

2.2 Czas trwania

Czas trwania opisuje długość pojedyńczego trendu. I to też będziemy traktować jak zmienną lingwistyczną. Na przykład, wartość lingwistyczna „długi” zdefiniowana jako zbiór rozmyty, dla którego można przyjąć, że funkcja przynależności jest pokazana na Rysunku 2, gdzie oś OX jest osią czasu mierzonego w jednostkach, które są używane w rozpatrywanym ciągu czasowym.

Rysunek 2: Przykład funkcji przynależności zbioru rozmytego reprezentującego „długi” dla czasu trwania

Właściwa definicja pojęć lingwistycznych opisujących czas trwania zależy od perspek- tywy przyjętej prze użytkownika. Użytkownik analizując dane może przyjąć ten lub inny horyzont czasowy w zależności od swoich potrzeb.

2.3 Zmienność

Zmienność wskazuje na to, jak bardzo grupa danych (w sensie przyjmowanych wartości)

„ jest rozrzucona”. Tradycyjnie stosuje się pięć statystycznych miar zmienności:

• Zakres (ang. range), czyli „wartość maksymalna – wartość minimalna”. Chociaż zakres jest obliczeniowo najłatwiejszą miarą zmienności, nie jest często używany, ponieważ miara ta jest oparta tylko na wartości dwóch skrajnych punktów. Przez to miara ta jest bardzo wrażliwa na obecność punktów oddalonych i dlatego może niepoprawnie opisywać prawdziwą zmienność;

• Rozstęp międzykwartylowy (ang. the interquartile range (IQR)) obliczany jako trzeci kwartyl minus pierwszy kwartyl, i może być interpretowany jako środkowe 50% danych. Ta miara zmienności jest odporna na obecność punktów oddalonych, a obliczeniowo jest tak samo łatwa jak zakres.

• Wariancja jest obliczana jako 1/n P

i (x i − ¯ x) 2 , gdzie ¯ x jest wartością średnią;

(8)

• Odchylenie standardowe, czyli pierwiastek kwadratowy z wariancji; zarówno war- iancja jak i odchylenie standardowe są wrażliwe na obecność skrajnych wartości;

• Średnie odchylenie absolutne (ang. the mean absolute deviation (MAD)), ob- liczane jako 1/n P

i |x i − ¯ x|. Miara ta ma bardzo prostą interpretację intuicyjną jako

„średnie odchylenie od średniej”.

W pracy przyjmujemy, podobnie jak dla dynamiki zmian, że stopień zmienności jest również określony jako jedna z przyjętych 7±2 wartości lingwistycznych. A zatem, do określenia stosujemy zmienności jedną z metod statystycznych, a otrzymany wynik utoż- samiamy z najbliższym mu określeniem lingwistycznym.

3 Podsumowania lingwistyczne

3.1 Podsumowania lingwistyczne danych numerycznych

Podsumowanie lingwistyczne jest rozumiane jako zdanie przypominające zdanie w języku naturalnym, które określa istotę (z pewnego punktu widzenia) zbioru danych.

Przyjmuje się, że zbiór danych jest numeryczny i zwykle duży, przez co niezrozumiały dla człowieka.

Jednym z najprostszych i najbardziej intuicyjnie zrozumiałych podejść do lingwisty- cznych podsumowań danych numerycznych jest podejście Yagera (por. Yager [19], Kacprzyk i Yager [11] oraz Kacprzyk, Yager i Zadrożny [12]). Przyjmuje się w nim następujące oz- naczenia:

• Y = {y 1 , . . . , y n } jest zbiorem obiektów (rekordów) w bazie danych, np. zbiór pra- cowników;

• A = {A 1 , . . . , A m } jest zbiorem atrybutów opisujących obiekty z zbioru Y , np. pen- sja, wiek, i tym podobne w bazie danych pracowników, a A j (y i ) oznacza wartość atrybutu A j dla obiektu y i .

Podsumowanie lingwistyczne zbioru danych D składa się z:

• sumaryzatora (ang. summarizer ) P , czyli atrybutu razem z wartością lingwi-

styczną określoną dla dziedziny atrybutu A j (np. „mała” dla atrybutu „pensja”);

(9)

• kwantyfikatora (ang. quantity in agreement ) Q, lingwistycznego (np. „większość”);

• stopnia prawdy T podsumowania, to jest liczby z przedziału [0, 1] określającej stopień prawdziwości podsumowania (np. 0.7); zwykle, będą nas interesować tylko podsumowania z dużą wartością T ;

• Ponadto, może być również kwalifikator (ang. qualifier ) R, czyli kolejny atrybut razem z wartością lingwistyczną określoną dla dziedziny atrybutu A k określający pewien podzbiór rozmyty w Y , do którego odnosi się sumaryzator (np. „młody” dla atrybutu „wiek”).

Podsumowanie lingwistyczne można więc zilustrować na następującym przykładzie:

T (większość pracowników zarabia mało) = 0.7 (1) a bardziej złożona forma może zawierać kwalifikator („młodych”), np.:

T (większość młodych pracowników zarabia mało) = 0.82 (2) Zatem, istotą podsumowań lingwistycznych jest zdanie z kwantyfikatorami lingwistycz- nymi w sensie Zadeha [23], które dla zdania (1) można zapisać jako:

Qy są P (3)

a dla zdania (2) jako:

QRy są P (4)

Stopień prawdy T odpowiada stopniowi prawdy zadania (3) lub (4).

Zwykle przyjmuje się, że kwantyfikator lingwistyczny Q – proporcjonalny i niemalejący, bo takie są istotne w naszym kontekście – jest zbiorem rozmytym w [0, 1], jak na przykład:

µ Q (x) =

 

 

 

 

1 for x > 0.8 2x − 0.6 for 0.3 < x < 0.8 0 for x < 0.3

(5)

Wtedy, stopnie prawdy (z [0, 1]) zdań (3) i (4) są obliczane, odpowiednio, jako:

T (Qy’s are P ) = µ Q 1 n

n

X

i=1

µ P (y i )

!

(6)

T (QRy’s are P ) = µ Q

 P n

i=1 (µ P (y i ) ∧ µ S (y i )) P n

i=1 µ R (y i )



(7)

(10)

3.2 Podsumowania lingwistyczne szeregów czasowych

Pojęcie protoformy, zaproponowane przez Zadeha [25], jest bardzo wygodnym narzędziem podczas pracy nad podsumowaniami lingwistycznymi, tak jak sugerowali to Kacprzyk i Zadrożny [15]. Dlatego też zostało użyte w niniejszej pracy. Protoforma jest pewnym prototypem (szablonem) zdania z kwantyfikatorem lingwistycznym.

Protoformy są niezwykle użyteczne z wielu powodów, ponieważ umożliwiają opraco- wanie ogólnych narzędzi i technik dla różnych stwierdzeń dotyczących wielu dziedzin i problemów, a ich forma jest zrozumiała dla ekspertów dziedzinowych.

Podsumowania mogą więc zostać przedstawione za pomocą poniższych protoform (po- dajemy tu oryginalne sformułowania angielskojęzyczne użyte w pracy):

• protoforma prosta:

Among all segments, Q are P (8)

np.: „Among all segments, most are slowly increasing”, czyli wśród wszystkich seg- mentów, większość jest wolno rosnąca.

• protoforma rozszerzona:

Among all R segments, Q are P (9)

np.: „Among all short segments, most are slowly increasing”, czyli wśród wszystkich krótkich segmentów, większość jest wolno rosnąca.

Możemy rozszerzyć protoformy (8) i (9) dodając do nich wyrażenie określające czas, E T , jak: „ostatnio”, „początkowo” lub „w maju 2010”, itp. (cf. Kacprzyk, Wilbik [10]).

Takie protoformy temporalne mają następującą postać:

• protoforma prosta:

E T among all segments, Q are P (10) np.: „Recently, among all segments, most are slowly increasing”, czyli ostatnio wśród wszystkich segmentów, większość jest wolno rosnąca.

• protoforma rozszerzona:

E T among all R segments, Q are P (11)

np.: „Initially, among all short segments, most are slowly increasing” czyli początkowo

wśród wszystkich krótkich segmentów, większość jest wolno rosnąca.

(11)

Aby ocenić jakość podsumowań lingwistycznych możemy użyć kryteriów oceny jakości zaadaptowanych z przypadku statystycznego. Oprócz podstawowego kryterium – stop- nia prawdy – w pracy zastosowano kilka miar zaproponowanych w pracach Kacprzyka i Strykowskiego [9, 8], Kacprzyka i Yagera [11] oraz Yagera, Forda i Canasa [22]. Zapro- ponowano również kilka nowych kryteriów, wśród których stopień zogniskowania odgrywa istotną rolę podczas generacji podsumowań.

Podsumowania lingwistyczne oceniamy według następujących kryteriów:

• stopień prawdy (truth value),

• stopień niedokładności (degree of imprecision),

• stopień specyficzności (degree of specificity),

• stopień rozmytości (degree of fuzziness),

• stopień liczności [degree of covering (support)],

• stopień zogniskowania (degree of focus),

• stopień trafności (degree of appropriateness),

• miara informatywności (measure of informativeness),

• długość podsumowania (length of the summary).

Do efektywniejszego tworzenia podsumowań opracowaliśmy algorytm oparty na ogólnej zasadzie typu „dziel i zwyciężaj”.

W rezultacie otrzymujemy zbiór prawdziwych podsumowań lingwistycznych. Z tego zbioru możemy wybrać podzbiór najlepszych podsumowań na podstawie kryteriów oceny jakości podsumowań. W tym celu możemy znaleźć podsumowania, których wartości oceny są Pareto-optymalne, lub zastosować tradycyjną metodę ważonych średnich.

Inna możliwość to użycie algorytmu GRIP, zaproponowanego przez Figueirę, Greco i Słowińskiego [4]. Metoda ta znajduje relacje preferencji dla pary rozważanych opcji (w naszym przypadku podsumowań), jak również informacje o intensywności tych preferencji.

Metoda GRIP buduje zbiór funkcji oceny zgodnych z informacją o preferencjach w

postaci częściowego porządku. Użytkownik udostępnia informacje dotyczącą swoich prefe-

rencji, czyli:

(12)

• częściowy porządek %, gdzie x % y oznacza „x jest przynajmniej tak dobre jak y”,

• częściowy porządek % , gdzie (x, y) % (w, z) oznacza „x jest lepsze niż y przynaj- mniej w takim stopniu jak w jest lepsze niż z”,

• częściowy porządek % i , gdzie (x, y) % i (w, z) oznacza „x jest lepsze niż y przynaj- mniej w takim stopniu jak w jest lepsze niż z dla kryterium c i ”.

gdzie x, y, w, z są opcjami. Zatem informacja o preferencjach nie musi byc kompletna.

Co więcej dostępny jest częściowy porządek % i , gdzie x % i y oznacza „x jest przynaj- mniej tak dobre jak y dla kryterium c i ”, dostępne bezpośrednio z oceny opcji x i y dla tego kryterium [4].

Ta informacja jest reprezentowana przez zbiór liniowych ograniczeń. Następnie algo- rytm próbuje znaleźć funkcję oceny (funkcję użyteczności marginalnej dla każdego kry- terium) zgodną z tymi preferencjami. Kiedy preferencje są spójne, tzn. istnieje przy- najmniej jedna taka funkcja, algorytm tworzy między innymi graf rankingowy. Szczegóły algorytmu dostępne są w pracy Figueiry, Greco i Słowińskiego [4].

4 Porównanie szeregów czasowych

W pracy zaproponowano również dwie nowe metody porównywania szeregów czasowych opartych na idei „miękkiego” konsensusu w grupie agentów.

W pierwszej z tych metod stopień podobieństwa dwóch szeregów czasowych jest rozu- miany jako stopień, do którego np. „większość” długich, jednocześnie występujących seg- mentów jest podobna (tzn. np. „przynajmniej połowa” ich cech jest podobna).

Druga metoda zakłada, że jeżeli szeregi są opisane przez podobne podsumowania ling- wistyczne, wtedy można uznać, że są one podobne. Zatem stopień podobieństwa dwóch szeregów czasowych jest obliczany jako stopień, do którego np. „większość” ważnych pod- sumowań lingwistycznych jednego z szeregów ma wartości stopnia prawdy podobne do

„przynajmniej połowy” podobnych podsumowań opisujących drugi z szeregów.

5 Wyniki numeryczne

Przeprowadzono wyczeropujace badania numeryczne zaproponowanych metod i algoryt-

mów na rzeczywistych szeregach czasowych notowań funduszu inwestycyjnego. Wybrano

(13)

fundusz akcji, który inwestuje przynajmniej 66% udziałów w akcje notowane na Warszaw- skiej Giełdzie Papierów Wartościowych.

Fundusz został założony w kwietniu 1998, początkowo jego benchmarkiem był indeks WIG 20, a od stycznia 2002 benchmarkiem dla tego funduszu jest indeks WIG. Ponieważ w 2002 roku zmieniła się strategia funduszu, w naszych testach analizowaliśmy notowania funduszu od początku stycznia 2002 do grudnia 2009.

Wykres notowań funduszu został pokazany na Rysunku 3.

0

15 30 45

02-01-2002 02-01-2004 02-01-2006 02-01-2008 04-01-2010

Mutual fund quotations

Rysunek 3: Wykres notowań funduszu

Wartość jednej jednostki 2 stycznia 2002 wynosiła 12,06 zł, a 31 grudnia 2009 – 35,82 zł. Minimalna cena jednostki w tym okresie to 9,35 zł, zaś maksymalna to 57,85 zł.

Warszawski Indeks Giełdowy WIG to pierwszy indeks giełdowy i jest obliczany od 16 kwietnia 1991 roku. WIG obejmuje wszystkie spółki notowane na Giełdzie Papierów Wartościowych w Warszawie (GPW), które spełniają pewne kryteria. W indeksie WIG obowiązuje zasada dywersyfikacji, mająca na celu ograniczenie udziału pojedynczej spółki i sektora giełdowego. Jest on indeksem dochodowym i przy jego obliczaniu uwzględnia się zarówno ceny zawartych w nim akcji, jak i dochody z dywidend i praw poboru.

Wykres historycznych notowań indeksu WIG jest pokazany na Rysunku 4.

Warszawski Indeks Giełdowy Dużych Spółek WIG 20 jest obliczany od 16 kwietnia

1994 roku na podstawie wartości portfela akcji 20 największych i najbardziej płynnych

spółek z podstawowego rynku akcji. WIG 20 jest indeksem typu cenowego, co oznacza,

że przy jego obliczaniu bierze się pod uwagę jedynie ceny zawartych w nim transakcji, a

nie uwzględnia się dochodów z akcji (dywidend, praw poboru). W indeksie WIG 20 nie

mogą uczestniczyć spółki z indeksów mWIG40 i sWIG80 oraz więcej niż 5 spółek z jednego

(14)

0

15000 30000 45000 60000

02-01-2002 02-01-2004 02-01-2006 02-01-2008 04-01-2010

WIG index quotations

Rysunek 4: Wykres historycznych notowań indeksu WIG (wartości zamknięcia)

sektora giełdowego.

Wykres historycznych notowań indeksu WIG 20 jest pokazany na rysunku 5.

0

1500 3000

02-01-2002 02-01-2004 02-01-2006 02-01-2008 04-01-2010

WIG20 quotations

Rysunek 5: Wykres historycznych notowań indeksu WIG 20 (wartości zamknięcia)

Więcej informacji na temat indeksów WIG oraz WIG 20 można znaleźć na stronach GPW (www.gpw.pl).

W eksperymentach używano różnych metod segmentacji oraz różnej granulacji, a mia- nowicie z 3, 5 oraz 7 etykietami lingwistycznymi dla każdego atrybutu (długości, dynamiki zmian i zmienności).

W pierwszej kolejności przedstawimy wyniki dotyczące efektywności algorytmu generu- jącego podsumowania lingwistyczne. Zakładamy, że minimalna akceptowana wartość stop- nia prawdy to 0,75, a stopnia zogniskowania to 0,1. Użyto kwantyfikatora lingwistycznego

„większość”.

W Tabeli 1 zestawiono liczby wszystkich możliwych podsumowań lingwistycznych oraz

(15)

Tablica 1: Liczba wszystkich możliwych podsumowań lingwistycznych oraz utworzonych i sprawdzonych przez algorytm

liczba liczba wszystkich liczba utworzonych atrybutów możliwych podsumowań i sprawdzonych przez algorytm

prosta rozszeżona prosta rozszeżona protoforma protoforma protoforma protoforma

3 63 216 9 81

23.8% 31.0%

5 215 900 15 145

7.0% 16.1%

7 511 2352 21 210

4.1% 8.9%

utworzonych i sprawdzonych przez algorytm.

W innych testach numerycznych otrzymano podobne wartości.

Przykładowe podsumowania lingwistyczne pokazane są w Tabeli 2 dla podsumowań klasycznych oraz w Tabeli 3 dla podsumowań temporalnych.

Przyjrzyjmy się teraz pierwszemu podsumowaniu z Tabeli 2: „Among all segments, at least about a half are constant”, czyli „wśród wszystkich segmentów, przynajmniej połowa jest stała”. Podsumowanie to, typu prostego, ma bardzo wysoką wartość stop- nia prawdy (T ), równą 1.0. Nie jest zbyt precyzyjne, o czym świadczą wyższa wartość stopnia niedokładności (d i ) i niższa stopnia specyficzności (d s ) niż innych podsumowań.

Podsumowanie to ma bardzo dużą wartość stopnia liczności (d c ), świadczącą o tym, że około 60% wszystkich segmentów jest mniej lub bardziej stałych. Wartość stopnia trafności (d a ) jest równa 0.0 ponieważ to podsumowania ma długość (d l ) równą 1, tzn. ma tylko jedną wartość lingwistyczną. Podsumowanie to niesie dużo informacji, ponieważ miara informatywności (I) jest stosunkowo wysoka.

Dla przykładu z Tabeli 3 przeanalizujmy podsumowanie oznaczone identyfikatorem

„a10”: „from the crisis beginning among all medium segments, almost all are constant”, czyli

„od początku kryzysu wśród wszystkich segmentów o średniej długości, prawie wszystkie

segmenty są stałe”. Początek krysysu określono jako mniej więcej wrzesień 2007. To

podsumowanie ma również bardzo wysoki stopień prawdy. Jest podsumowaniem typu

(16)

Tablica 2: Wyniki dla protoformy klasycznej i 5 etykiet – segmentacja za pomocą metody opartej na stożkach dla ε = 1

id linguistic summary T d f oc d i d s d f d c d a d l I

1 Among all segments, at least about a half are constant 1.0000 1.0000 0.4090 0.6425 0.0655 0.6045 0.0000 1 0.3655 2 Among all short segments, at least about a half are constant 1.0000 0.4411 0.2977 0.7425 0.0553 0.2563 0.0413 2 0.1520 3 Among all moderate segments, at least about a half are short 1.0000 0.2625 0.3750 0.6892 0.1033 0.1420 0.1049 2 0.0736 4 Among all moderate segments, at least about a half are con-

stant

1.0000 0.2625 0.4060 0.6617 0.1103 0.1527 0.0238 2 0.0671

5 Among all high segments, at least about a half are short 1.0000 0.2451 0.3417 0.7225 0.1033 0.1526 0.1778 2 0.0785 6 Among all high segments, at least about a half are constant 1.0000 0.2451 0.3727 0.6950 0.1103 0.1465 0.0067 2 0.0717 7 Among all medium segments, almost all are constant 1.0000 0.2433 0.2310 0.8325 0.0937 0.2243 0.3089 2 0.1402 8 Among all medium segments, at least about a half are very

high

1.0000 0.2433 0.3583 0.7042 0.1000 0.1396 0.1715 2 0.0736

9 Among all medium and constant segments, at least about a half are very high

1.0000 0.2243 0.3481 0.7042 0.0770 0.1211 0.1629 3 0.1376

10 Among all short and moderate segments, at least about a half are constant

1.0000 0.1420 0.3304 0.6617 0.0553 0.0872 0.0446 3 0.0852

11 Among all slowly decreasing segments, at least about a half are short

1.0000 0.1115 0.2883 0.7518 0.0553 0.0715 0.0895 2 0.0396

12 Among all medium segments, at least about a half are con- stant and very high

0.9857 0.2433 0.3528 0.7042 0.0853 0.1211 0.1629 3 0.1460

13 Among all constant segments, at least about a half are very high

0.9365 0.6045 0.3393 0.7117 0.0770 0.2965 0.2252 2 0.1759

14 Among all decreasing segments, most are very short 0.9307 0.1184 0.3563 0.7333 0.0960 0.0906 0.2545 2 0.0400 15 Among all short and high segments, at least about a half are

constant

0.8970 0.1526 0.3227 0.6950 0.0553 0.0739 0.0222 3 0.0872

16 Among all very high segments, most are constant 0.8924 0.3974 0.3560 0.7533 0.1353 0.2965 0.2252 2 0.1426 17 Among all medium and very high segments, almost all are

constant

0.8405 0.1396 0.2267 0.8325 0.0853 0.1211 0.1629 3 0.1362

18 Among all slowly increasing segments, most are short 0.8124 0.1324 0.3050 0.7935 0.1137 0.0935 0.1404 2 0.0495

16

(17)

Tablica 3: Wyniki dla protoformy temporalnej z wyrażeniem temporalnym „od poczatku kryzysu (from the crisis beginning)” dla 5 etykiet – segmentacja za pomocą metody opartej na stożkach dla ε = 1

id linguistic summary T d f oc d i d s d f d c d a d l I

a1 from the crisis beginning among all segments, at least about a half are constant

1.0000 1.0000 0.3893 0.5450 0.1603 0.2821 0.0000 2 0.2083 a2 from the crisis beginning among all constant segments, at least

about a half are short

1.0000 0.5006 0.3107 0.6444 0.1290 0.1429 0.0929 3 0.0983 a3 from the crisis beginning among all short segments, at least about

a half are constant

1.0000 0.4600 0.3107 0.6444 0.1290 0.1429 0.0929 3 0.0903 a4 from the crisis beginning among all very high segments, at least

about a half are constant

1.0000 0.3458 0.3420 0.6213 0.1452 0.1099 0.0877 3 0.0612 a5 from the crisis beginning among all very high segments, at least

about a half are short

1.0000 0.3458 0.3188 0.6419 0.1400 0.0995 0.0697 3 0.0671 a6 from the crisis beginning among all moderate segments, at least

about a half are constant

1.0000 0.3075 0.3920 0.5838 0.1703 0.0983 0.0818 3 0.0448 a7 from the crisis beginning among all high segments, at least about

a half are constant

1.0000 0.2496 0.3670 0.6088 0.1702 0.0802 0.0697 3 0.0416 a9 from the crisis beginning among all high segments, at least about

a half are short

1.0000 0.2496 0.3438 0.6294 0.1650 0.0765 0.0838 3 0.0456 a10 from the crisis beginning among all medium segments, almost all

are constant

1.0000 0.2273 0.2608 0.7119 0.1578 0.1186 0.3865 3 0.0746 a11 from the crisis beginning among all short and very high segments,

at least about a half are constant

1.0000 0.1765 0.3226 0.6213 0.1290 0.0635 0.1872 4 0.0659 a12 from the crisis beginning among all slowly decreasing segments, at

least about a half are short

1.0000 0.1617 0.3037 0.6514 0.1290 0.0570 0.1070 3 0.0328 a13 from the crisis beginning among all short and moderate segments,

at least about a half are constant

1.0000 0.1485 0.3353 0.5838 0.1290 0.0524 0.1529 4 0.0508 a14 from the crisis beginning among all slowly increasing segments, at

least about a half are short

1.0000 0.1453 0.3037 0.6514 0.1290 0.0525 0.1052 3 0.0295 a15 from the crisis beginning among all short and slowly decreasing

segments, at least about a half are high

1.0000 0.1011 0.3506 0.6158 0.1650 0.0286 0.1017 4 0.0359 a16 from the crisis beginning among all decreasing segments, most are

very short

0.9887 0.1438 0.3548 0.6375 0.1595 0.0644 0.2704 3 0.0294 a17 from the crisis beginning among all moderate segments, at least 0.8850 0.3075 0.3688 0.6044 0.1650 0.0837 0.0280 3 0.0435

17

(18)

rozszerzonego, i jego stopień zogniskowania (d f oc ) jest równy prawie 0,23, zatem warunek kwalifikatora spełnia prawie 23% segmentów. To podsumowanie jest bardziej konkretne niż inne podsumowania, o czym świadczą niższa wartość stopnia niedokładności (d i ) i wyższa stopnia specyficzności (d s ) niż innych podsumowań. Podsumowanie to może być zaskakujące dla użytkownika, ponieważ stopień trafności (d a ) jest równy prawie 0,39.

Ponieważ każde podsumowanie jest oceniane przez kilka miar oceny jakości podsumowań, możemy wykorzystać te wartości aby wybrać podzbiór najlepszych podsumowań. W tym celu możemy znaleźć podsumowania Pareto optymalne, posłużyć się średnią ważoną lub użyć algorytmu GRIP (zaproponowanego przez Figueira, Greco and Słowińskiego [4]).

Przedstawimy teraz jedynie zastosowanie algorytmu GRIP na przykładzie podsumowań lingwistycznych pokazanych w Tabeli 2. W pierwszej kolumnie Tabeli 2 pokazany jest iden- tyfikator zdania. Podsumowania podzielono na dwie grupy: podsumowania bardziej intere- sujące dla użytkownika (czyli o numerach 1, 2, 9, 12, 13, 14 i 16) oraz mniej ciekawe. Pod- sumowania oznaczone gwiazdką (przy identyfikatorze) należą do pierwszej grupy bardziej interesujących podsumowań. Zatem są one bardziej preferowane przez użytkownika, niż te z grupy drugiej.

Dodatkowo, określono następujące preferencje pomiedzy podsumowaniami z pierwszej grupy:

• podsumowanie 1 jest preferowane bardziej niż podsumowanie 2,

• podsumowanie 1 jest preferowane bardziej niż podsumowanie 7,

• podsumowanie 1 jest preferowane bardziej niż podsumowanie 16.

W tym przykładzie naszymi kryteriami były tylko stopień prawdy, stopień zogniskowania, liczności, trafności oraz miara informatywności.

Podane preferencje nie są sprzeczne i otrzymano następujące wyniki.

Rysunek 6 przedstawia używany w metodzie GRIP graf rankingowy. Węzły reprezen- tują podsumowania, oznaczone liczbami od 1 do 19. Niebieskie strzałki to preferencje określone przez użytkownika, czarne zaś oznaczają relacje wyindukowane przez system GRIP.

W tym przykładzie są to:

• 13 jest preferowane bardziej niż 16,

• 7 jest preferowane bardziej niż 9,

• 7 jest preferowane bardziej niż 14,

(19)

Rysunek 6: Graf rankingowy

• 3 jest preferowane bardziej niż 11

• 5 jest preferowane bardziej niż 6,

• 5 jest preferowane bardziej niż 8,

• 8 jest preferowane bardziej niż 11,

• 8 jest preferowane bardziej niż 18,

• 17 jest preferowane bardziej niż 18.

Pierwsze 3 preferencje dotyczą podsumowań z pierwszej grupy, która zawiera pod- sumowania oznaczone jako bardziej interesujące.

Na Rysunku 7 pokazano ranking, oparty na funkcji użyteczności, otrzymany z użyciem algorytmu GRIP.

Można zauważyć, że wszystkie podsumowania z pierwszej grupy są wyżej w rankingu, niż podsumowania z drugiej grupy. Funkcje użyteczności marginalnej dla poszczególnych kryteriów są pokazane na Rysunku 8.

Możemy zauważyć, że najważniejszym kryterium jest miara informatywności, drugim najważniejszym kryterium jest stopień trafności, a trzecim – stopien zogniskowania. Po- zostałe dwa kryteria wydają się mieć mniejsze znaczenie.

Powyższe podsumowania, wraz z informację o preferencjach, można traktować jako

„zbiór uczący”. Wystarczy dodać nowy zbiór podsumowań, np. pokazany w Tabeli 3, aby otrzymać ich częściowe uporządkowanie, zgodne z podanymi wcześniej preferencjami. W pierwszej kolumnie znajduje się identyfikator podsumowania (litera „a” i kolejny numer).

Te podsumowania również podzielono na 2 grupy: pierwszą, zawierającą bardziej in-

(20)

Rysunek 7: Ranking podsumowań lingwistycznych

Rysunek 8: Funkcje użyteczności marginalnej dla poszczególnych kryteriów

(21)

teresujące podsumowania, oznaczone gwiazdką (a1, a2, a3, a4, a9, a15), oraz drugą, zawie- rającą mniej interesujące.

Rysunek 9 przedstawia graf rankingowy. Węzły niebieskie, oznaczone numerami od 1 do 19, reprezentują podsumowania ze „zbioru uczącego”, natomiast czerwone, oznaczone jako

„a1” – „a16”, reprezentują nowe podsumowania ze „zbioru testującego”. Niebieskie strzałki reprezentują preferencje podane wyżej. Czarne strzałki to preferencje wyindukowane przez system GRIP.

Rysunek 9: Graf rankingowy

Można zauważyć, że żadne z podsumowań z drugiej grupy nie jest preferowane bardziej niż jakiekolwiek z grupy pierwszej, bardziej interesującej.

Można również zauważyć kilka interesujących preferencji dla podsumowań ze „zbioru testującego”, np.:

• a2 jest preferowane bardziej niż a3,

• a3 jest preferowane bardziej niż a4,

• a9 jest preferowane bardziej niż a15, itp.

Można również zauważyć, że zachodzą relacje preferencji pomiędzy podsumowaniami ze zbiorów „uczącego” i „testującego”, na przykład:

• 1 jest preferowane bardziej niż a1,

(22)

• 7 jest preferowane bardziej niż a15,

• a3 jest preferowane bardziej niż 11, etc.

Te wyniki są zachęcające, ponieważ otrzymaliśmy graf z wieloma czarnymi krawędziami reprezentującymi wyindukowane preferencje, co jest rzadkie, ale bardzo pożądane.

Rysunek 10: Ranking podsumowań lingwistycznych

Na Rysunku 10 pokazano ranking na podstawie funkcji użyteczności. W tym rankingu prawie wszystkie podsumowania, które są uważane za interesujące, są wyżej w rankingu niż te mniej interesujące. Jedynym wyjątkiem jest podsumowanie „a5” należące do drugiej grupy, które znajduje się w rankingu wyżej niż 2 podsumowania z pierwszej grupy, miano- wicie „a4” i „a15”.

Przedstawimy teraz kilka wyników dotyczących oceny podobieństwa funduszu i jego benchmarku.

Porównujemy zbiór kilkunastu najbardziej prawdziwych, tzn. z minimalną wartością

stopnia prawdy równą 0,75 oraz stopnia zogniskowania 0,1, podsumowań klasycznej proto-

formy opisujących fundusz z podobnymi zbiorami najbardziej prawdziwych podsumowań

opisujących indeksy odpowiednio WIG i WIG 20. Agregując stopnie podobieństw pod-

sumowań otrzymujemy stopień podobieństwa funduszu i indeksu.

(23)

Zatem stopień podobieństwa pomiędzy funduszem a indeksem WIG jest równy 0,9807, podczas gdy dla funduszu i indeksu WIG 20 jest on równy 0,9760.

Możemy również porównać temporalne podsumowania lingwistyczne. Wtedy stopień podobieństwa pomiędzy wartościami dziennych notowań wartości funduszu a indeksu WIG jest równy 0,9674, podczas gdy dla funduszu i indeksu WIG 20 jest równy 0,9596, zatem różnica jest nieco bardziej widoczna, niż w przypadku porównania na podstawie klasycz- nych podsumowań. Dodatkowo można obliczyć stopnie podobieństwa dla poszczególnych okresów. W naszym przypadku są one pokazane w Tabeli 4.

Tablica 4: Stopnie podobieństwa między notowaniami funduszu a indeksami giełdowymi dla wyrażeń temporalnych

stopień podobieństwa stopień podobieństwa wyrażenie temporalne funduszu i WIGu funduszu i WIGu 20

initially 0.9554 0.9609

in the middle 0.9369 0.9280

from the crisis begin 1 0.9702

6 Podsumowanie

W pracy:

• zaproponowano metodę podsumowań lingwistycznych szeregów czasowych, rozsz- erzając ideę Yagera, rozwiniętą oraz zaimplementowaną przez Kacprzyka, Yagera i Zadrożnego, dla generacji podsumowań lingwistycznych dla danych statycznych,

• zaproponowano nowe rodzaje podsumowań lingwistycznych oraz nowych protoform w sensie Zadeha,

• pokazano, że można użyć różnych metod agregacji z kwantyfikatorem lingwistycznym (a mianowicie, rachunek zdań Zadeha z kwantyfikatorami lingwistycznymi, opera- tory uporządkowanej średniej ważonej (OWA), całki Choqueta i Sugeno) podczas tworzenia podsumowań lingwistycznych szeregów czasowych,

• użyto wielu kryteriów oceny podsumowań lingwistycznych szeregów czasowych, adap-

tując metody istniejące dla potrzeb analizy danych dynamicznych i proponując nowe,

(24)

• zaproponowano nowe pojęcie podsumowania temporalnego oraz przedstawiono spo- soby i kryteria jego oceny,

• zaproponowano nową metodę porównywania szeregów czasowych przez porównywa- nia ich podsumowań lingwistycznych,

• zaproponowano zastosowanie do wielokryterialnej oceny podsumowań lingwistycznych szeregów czasowych zarówno bezpośredniej metody średniej ważonej jak i wielokry- terialnej oceny z użyciem metody GRIP, wprowadzonej przez Figueirę, Greco i Sło- wińskiego [4].

Pokazano więc, że teza pracy:

Podsumowania lingwistyczne szeregów czasowych mogą zostać skutecznie wy- generowane używając aparatu logiki rozmytej. Takie podsumowania mogą być użyteczne do odkrywania charakterystycznych wzorców przeszłych wartości notowań funduszy inwestycyjnych, zarówno w sensie absolutnym jak i przez porównanie z benchmarkami funduszu. Co więcej, ponieważ podsumowania lingwistyczne są oceniane za pomocą wielu kryteriów, pokażemy, że zarówno metoda prosta, czyli użycie średniej ważonej, jak i wielokryterialna ocena za pomocą bardziej wyszukanego, nowoczesnego narzędzia do wielokryterialnego podejmowania decyzji, a mianowicie metody GRIP 2 może zostać skutecznie zastosowana do oceny i wyboru najlepszych podsumowań,

jest prawdziwa.

Literatura

[1] I. Batyrshin and L. Sheremetov. Perception based functions in qualitative forecasting. In I. Batyrshin, J. Kacprzyk, L. Sheremetov, and L. A. Zadeh, editors, Perception-based Data Mining and Decision Making in Economics and Finance. Springer-Verlag, Berlin and Heidel- berg, 2006.

[2] I. Batyrshin, L. Sheremetov, and R. Herrera-Avelar. Perception based patterns in time se- ries data mining. In I. Batyrshin, J. Kacprzyk, L. Sheremetov, and L. A. Zadeh, editors, Perception-based Data Mining and Decision Making in Economics and Finance. Springer- Verlag, Berlin and Heidelberg, 2006.

2

Metoda GRIP została zaproponowana przez Figueirę, Greco i Słowińskiego [4].

(25)

[3] J. Colomer, J. Melendez, J. L. de la Rosa, and J. Augilar-Martin. A qualitative/quantitative representation of signals for supervision of continuous systems. In Proceedings of the European Control Conference -ECC97, Brussels, 1997.

[4] J. R. Figueira, S. Greco, and R. Słowinski. Building a set of additive value functions repre- senting a reference preorder and intensities of preference: Grip method. European Journal of Operational Research, 195(2):460–486, 2009.

[5] C. Holsapple and A. Whinston. Decision Support Systems: A Knowldege-based Approach.

Minneapolis: West Publishing, 1996.

[6] F. Höppner. Knowledge Discovery from Sequential Data. PhD thesis, TU Braunschweig, 2003.

[7] J. Kacprzyk. Intelligent data analysis via linguistic data summaries: a fuzzy logic approach.

In R. Decker and W. Gaul, editors, Classification and Information Processing at the Turn of Millennium, pages 153–161. Springer-Verlag, Berlin, Heidelberg, New York, 2000.

[8] J. Kacprzyk and P. Strykowski. Linguistic data summaries for intelligent decision support.

In R. Felix, editor, Proceedings of EFDAN’99-4th European Workshop on Fuzzy Decision Analysis and Recognition technology for Management, pages 3–12, 1999.

[9] J. Kacprzyk and P. Strykowski. Linguistic summaries of sales data at a computer retailer: a case study. In Proceedings of IFSA’99, volume 1, pages 29–33, 1999.

[10] J. Kacprzyk and A. Wilbik. Temporal linguistic summaries of time series using fuzzy logic.

In Proceedings of IPMU2010 (in press), 2010.

[11] J. Kacprzyk and R. R. Yager. Linguistic summaries of data using fuzzy logic. International Journal of General Systems, 30:33–154, 2001.

[12] J. Kacprzyk, R. R. Yager, and S. Zadrożny. A fuzzy logic based approach to linguistic sum- maries of databases. International Journal of Applied Mathematics and Computer Science, 10:813–834, 2000.

[13] J. Kacprzyk, R. R. Yager, and S. Zadrożny. Fuzzy linguistic summaries of databases for an efficient business data analysis and decision support. In J. Z. W. Abramowicz, editor, Knowledge Discovery for Business Information Systems, pages 129–152. Kluwer, Boston, 2001.

[14] J. Kacprzyk and S. Zadrożny. Fuzzy linguistic data summaries as a human consistent, user adaptable solution to data mining. In B. Gabrys, K. Leiviska, and J. Strackeljan, editors, Do Smart Adaptive Systems Exist?, pages 321–339. Springer, Berlin, Heidelberg, New York, 2005.

[15] J. Kacprzyk and S. Zadrożny. Linguistic database summaries and their protoforms: toward natural language based knowledge discovery tools. Information Sciences, 173:281–304, 2005.

[16] J. Kacprzyk and S. Zadrożny. Data mining via protoform based linguistic summaries: Some possible relations to natural language generation. In 2009 IEEE Symposium Series on Com- putational Intelligence Proceedings, pages 217–224, Nashville, TN, 2009.

[17] J. Kacprzyk and S. Zadrożny. Computing with words is an implementable paradigm: fuzzy queries, linguistic data summaries and natural language generation. IEEE Transactions on Fuzzy Systems, 2010. (forthcoming).

[18] L. McGowan. The answer to ‘what are absolute return mutual funds?’ de- pends on who you ask. http://mutualfunds.about.com/od/typesoffunds/a/

Absolute_return_fund_basics.htm.

(26)

[19] R. R. Yager. A new approach to the summarization of data. Information Sciences, 28:69–86, 1982.

[20] R. R. Yager. On linguistic summaries in data. In G. Piatetsky-Shapiro and W. J. Frawley, editors, Knowledge Discovery in Databases, pages 347–363. MIT Press, Cambridge, USA, 1991.

[21] R. R. Yager. Database discovery using fuzzy sets. International Journal of Intelligent Systems, 11(9):691–712, 1996.

[22] R. R. Yager, K. M. Ford, and A. J. Cañas. An approach to the linguistic summarization of data. In B. Bouchon-Meunier, R. R. Yager, and L. A. Zadeh, editors, Uncertainty in Knowledge Bases, 3rd International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems, IPMU ’90, Paris, France, July 2-6, 1990, Pro- ceedings, pages 456–468. Springer, 1990.

[23] L. A. Zadeh. Toward a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic. Fuzzy Sets and Systems, 9(2):111–127, 1983.

[24] L. A. Zadeh. Fuzzy logic = computing with words. IEEE Transactions on Fuzzy Systems, 4:103–111, 1996.

[25] L. A. Zadeh. A prototype-centered approach to adding deduction capabilities to search engines

– the concept of a protoform. In Proceedings of the Annual Meeting of the North American

Fuzzy Information Processing Society (NAFIPS 2002), pages 523–525, 2002.

Cytaty

Powiązane dokumenty

Odwzorowanie liniowe przestrzeni z normą jest ograniczone wtedy i tylko wtedy, gdy obraz każdego zbioru ograniczonego jest ograniczony..

Istota metody fizycznej odp dzania amoniaku z roztworów wodnych polega zatem na przej ciu NH3, obecnego w wodzie, do powietrza. Efekt ten uzyskuje si poprzez kontakt tych

W takim przypadku po załamaniu promień jest odchylany od swojego pierwotnego kierunku (od kierunku promienia padającego) w stronę do normalnej, tak jak pokazano na rysunku 34.18b..

Udowodnić, że średnia arytmetyczna tych liczb jest równa n+1 r

[r]

Suma trzech pierwszych wyrazów ciągu

Dla kontrolowania rzędów zer i biegunów funkcji wymiernych wygodnie jest haszować je jako współczynniki grupy abelowej wolnej generowanych przez punkty krzywej E

Powiązania pomiędzy tymi rynkami badano na podstawie krótkookresowych stóp procentowych yield to maturity dla instrumentów 1-dniowych, stopy referen- cyjnej oraz wartości