Instytut Badań Systemowych Polskiej Akademii Nauk Streszczenie rozprawy doktorskiej „Miękkie” metody obliczeń komputerowych w bayesowskiej analizie szeregów czasowych Mgr Katarzyna Kaczmarek Promotor: Prof. dr hab. inż. Olgierd Hryniewicz

(1)

Instytut Badań Systemowych Polskiej Akademii Nauk

Streszczenie rozprawy doktorskiej

„Miękkie” metody obliczeń komputerowych w bayesowskiej analizie szeregów czasowych

Mgr Katarzyna Kaczmarek

Promotor: Prof. dr hab. inż. Olgierd Hryniewicz

WARSZAWA 2015

(2)

1 Wstęp

Motywacją dla rozważanych w rozprawie zagadnień jest problem, z którym spotkałam się w praktyce i dotyczy prognozowania szeregów czasowych o małej liczbie obserwacji, na przy- kład szeregów czasowych, opisujących sprzedaż nowopowstałego produktu.

W dużych przedsiębiorstwach zazwyczaj istnieją zespoły ekspertów odpowiedzialnych za prognozowanie sprzedaży w oparciu o dostępne historyczne dane, wiedzę na temat zachowań rynku, konkurencji, obserwowane trendy sprzedaży czy planowane akcje promocyjne. Eks- perci uczestniczą w planowaniu strategicznym, które zapewnia konsekwentne ukierunkowanie działalności przedsiębiorstwa. Jednocześnie osoby te często nie posiadają szerokiej wiedzy matematycznej, by móc starannie przełożyć swoje doświadczenie na założenia konieczne do budowy wybranych modeli prognozowania. Szczególnie problematyczne jest wyznaczanie pro- gnoz, gdy liczba historycznych danych w szeregu czasowym jest niewielka.

W literaturze dostępne są liczne publikacje opisujące komputerowe metody prognozowania.

Dla problemów dotyczących małych zbiorów danych, dobre rezultaty w praktyce osiągają me- tody bayesowskie [Geweke, 2005, Geweke and Whiteman, 2006, Clemen and Winkler, 1999], także [Beer et al., 2013, Stein et al., 2013], umożliwiające włączenie dodatkowej wiedzy a priori wyrażonej w postaci rozkładów prawdopodobieństwa. Kluczowe jednak jest odpowiednie zde- finiowanie tych rozkładów.

W ostatnich latach nastąpił rozwój komputerowych metod przetwarzania informacji, szcze- gólnie metod data-miningowych. „Miękkie” metody obliczeń komputerowych (ang. soft com- puting ) dostarczają intuicyjnej wiedzy, podsumowującej zbiory danych, w tym danych niedo- kładnych, niejasnych, a nawet zaburzonych. Możliwości wynikające z wykorzystania wiedzy powstałej w wyniku uczenia maszynowego do budowania modeli prognozowania wydają się bardzo obiecujące.

„Miękkie” metody obliczeń komputerowych formalizują umiejętność, jaką posiada czło- wiek, wnioskowania oraz podejmowania decyzji w sytuacjach niepewnych i cechujących się bra- kiem precyzji. Paradygmat „Computing with words” [Zadeh, 1997, Zadeh, 2000, Zadeh, 2006]

jest zorientowany na przetwarzanie nieprecyzyjnych określeń, jak np.: mało, dużo, podobnie, możliwe. W rozprawie informacja wyrażona za pomocą nieprecyzyjnych etykiet i podsumowań lingwistycznych, jest nazywana informacją nieprecyzyjną.

Istotnym problemem w praktyce jest jednak brak narzędzi umożliwiających inteligentne połączenie informacji nieprecyzyjnej i tradycyjnych metod prognozowania. Wybór modeli, ich parametrów oraz zdefiniowanie rozkładów prawdopodobieństwa, spoczywający na ekspertach danej dziedziny, jest zadaniem trudnym, a nieuważny ich dobór często rzutuje na niską ja- kość otrzymanych wyników. Potrzebne są intuicyjne narzędzia, wspomagające proces wyboru modeli prognozowania i ustalania ich założeń. Celem pracy jest opracowanie metod umożli- wiających automatyczne określanie założeń dla wybranych modeli prognozowania.

1.1 Postawiony problem badawczy

W obliczu wielu dostępnych modeli, naturalnym wydaje się pytanie, które z nich należy wy-

brać, by prognozy były dokładne oraz zrozumiałe dla użytkowników. Istotny w celu osiągnięcia

satysfakcjonujących wyników prognozowania jest zarówno odpowiedni dobór modeli, jaki i ich

założeń.

(3)

Formalnie, niech y = {y

_t

}

ⁿ_t=1

∈ Y będzie prognozowanym szeregiem czasowym, Y jest przestrzenią dyskretnych szeregów czasowych, n ∈ {n

_min

, ..., n

max

} ⊆ N . Dalej, niech M będzie przestrzenią probabilistycznych modeli prognostycznych, M = {M

₁

, M

₂

, ..., M

_J

} ⊆ M jest skończonym zbiorem zawierającym wybrane modele.

Prognoza ω powstaje w wyniku uśredniania bayesowskiego:

p(ω|y, M ) =

J

X

j=1

p(M

j

|y, M )p(ω|y, M

_j

) (1)

Na mocy twierdzenia Bayesa gęstości a posteriori dla modeli {M

₁

, M

₂

, ..., M

_J

} zdefiniowane są następująco:

p(M

_j

|y, M ) = p(M

_j

)p(y|M

_j

)

p(y|M ) = p(M

_j

)p(y|M

_j

)

PJ

j=1

p(M

_j

)p(y|M

_j

) (2) gdzie p(M

_j

); M

_j

∈ M to rozkłady prawdopodobieństwa a priori.

Tradycyjne podejście do analizy bayesowskiej zakłada, że rozkłady a priori zostają ustalone na podstawie subiektywnej wiedzy eksperckiej [Kass and Raftery, 1995]. Teoretyczne i empi- ryczne rozważania wskazują, że rozkłady a priori mają istotne znaczenie na wynik uśred- niania bayesowskiego, w szczególności, gdy w szeregu czasowym występuje mało obserwacji [Ley and Steel, 2009].

Problem postawiony w pracy, stanowi automatyczna konstrukcja rozkładów prawdopo- dobieństwa a priori, celem budowy wybranych modeli prognozowania dla krótkich szeregów czasowych. Rozkłady zbudowane zostają na podstawie informacji nieprecyzyjnej, uzyskanej z pomocą „miękkich” metod obliczeń komputerowych.

1.2 Teza rozprawy

Zastosowanie „miękkich” metod obliczeń komputerowych do konstrukcji rozkładów prawdo- podobieństwa a priori na modelach probabilistycznych jest dobrym narzędziem do eksploracji i prognozowania szeregów czasowych.

1.3 Cele badawcze

Głównym celem rozprawy doktorskiej jest:

- konstrukcja rozkładów prawdopodobieństwa a priori dla modeli probabilistycz- nych, opisujących krótkie szeregi czasowe na podstawie analizy nieprecyzyjnych informacji, uzyskanych z wykorzystaniem nowoczesnych metod eksploracji da- nych.

Drugim celem rozprawy jest:

- opracowanie modelu analizy danych zgodnego z ludzką percepcją i umożliwia-

jącego przełożenie informacji nieprecyzyjnej, sformułowanej przez ekspertów

danej dziedziny, na rozkłady prawdopodobieństwa a priori, stosowane w bay-

esowskich modelach predykcyjnych.

(4)

Pobocznym celem rozprawy jest:

- dokonanie przeglądu osiągnięć, trendów i wyzwań w interdyscyplinarnych ba- daniach dotyczących zastosowania „miękkich” metod obliczeń komputerowych w analizie szeregów czasowych.

Postawione powyżej cele osiągnięto, proponując nowatorskie podejście oparte o algorytmy klasyfikacji, uczenia maszynowego oraz zaawansowane algorytmy segmentacji i sumaryzacji danych w postaci szeregów czasowych. Zaproponowane nowatorskie algorytmy automatycz- nej konstrukcji rozkładów a priori (implementacja w języku Python) korzystają z danych wynikowych TREND ANALYSIS SYSTEM, narzędzia utworzonego w Instytucie Badań Sys- temowych PAN przez zespół Prof. Janusza Kacprzyka [Kacprzyk et al., 2011].

2 Przegląd literatury

2.1 Eksploracja szeregów czasowych

Dokonano przeglądu podstawowych czynności eksploracji szeregów czasowych, czyli metod segmentacji, identyfikacji trendów, klasteryzacji, klasyfikacji pod nadzorem oraz bez nadzoru, algorytmów sumaryzacji lingwistycznej oraz prognozowania.

W rozdziale uwaga poświęcona jest podsumowaniom lingwistycznym Yagera [Yager, 1982]

w postaci rozmytych zdań [Kacprzyk and Zadrożny, 2002, Kacprzyk, 2008, Wilbik, 2010] za- wierających uogólnione kwantyfikatory w sensie Zadeha. Przykład podsumowania lingwistycz- nego stanowi zdanie: „Większość rosnących trendów jest krótkich”. Omówione zostały wybrane ważne wskaźniki oceny jakości podsumowań lingwistycznych, czyli stopień prawdy (ang. degree of truth), pokrycia (ang. support ), nieprecyzyjności (ang. degree of imprecision).

Rozdział zawiera także opis wybranych metod odkrywania zależności czasowych i re- guł asocjacyjnych oraz wybrane najważniejsze aspekty uczenia maszynowego, w szczegól- ności klasyfikacji szeregów czasowych [Berthold and Hand, 2007, Koronacki and Ćwik, 2005, Vapnik, 1998]. Przedstawiony jest klasyfikator oparty o maszyny wektorów podpierających oraz metoda k-najbliższych sąsiadów.

2.2 Prognozowanie szeregów czasowych

W rozdziale przedstawione zostały wybrane najważniejsze narzędzia analizy i prognozowa- nia szeregów czasowych. Na mocy twierdzenia „No Free Lunch” można wyciągnąć wniosek, że spośród licznych modeli matematycznych, nie ma metody najlepszej dla dowolnego pro- blemu predykcji [Wolpert, 1996]. W rozprawie postawiono problem dotyczący prognozowania krótkich szeregów czasowych.

Omówione zostały wybrane modele prognostyczne, w szczególności modele autoregresyjne

według metodologii Box’a i Jenkins’a [Box et al., 2008, D’Urso et al., 2013]. Omówiona zo-

stała ogólna koncepcja prognozowania szeregów czasowych oraz przedstawiono wybrane wła-

sności procesów stochastycznych takich, jak funkcja autokorelacji i autokowariancji. Analiza

szeregów jest procesem iteracyjnym i składa się z następujących etapów: identyfikacja procesu

stochastycznego na podstawie szeregu czasowego; estymacja parametrów modelu probabili-

stycznego; diagnostyczne sprawdzenie, że wybrany model jest odpowiedni. Omówiono także

praktyczne metody ewaluacji jakości prognoz [Makridakis and Hibon, 2000].

(5)

Następnie omówiono wybrane metody estymacji, w szczególności podejście bayesowskie.

Metody bayesowskie dla szeregów czasowych [Geweke, 2005, Geweke and Whiteman, 2006]

umożliwiają estymację rozkładu prawdopodobieństwa dla dowolnego parametru oraz modelo- wanie niepewności związanej z wyborem modelu probabilistycznego. Kluczowe dla satysfak- cjonujących wyników jest poprawne określenie rozkładów a priori.

Następnie dokonano przeglądu osiągnięć, trendów i wyzwań w interdyscyplinarnych ba- daniach, dotyczących zastosowania „miękkich” metod obliczeń komputerowych w analizie i prognozowaniu szeregów czasowych. Podane zostały liczne referencje do wybranych istot- nych prac w zakresie tych badań, na przykład: [Yarushkina et al., 2011, Burda et al., 2014, Chen and Chang, 2010, Song and Chissom, 1993], także [Hryniewicz and Kaczmarek, 2015, Hryniewicz and Kaczmarek, 2014, Kaczmarek and Hryniewicz, 2013, Kaczmarek et al., 2015].

3 Nowatorskie metody konstrukcji rozkładów a priori

Przypomnijmy, że głównym celem rozprawy doktorskiej jest konstrukcja rozkładów prawdopo- dobieństwa a priori dla modeli probabilistycznych, opisujących szeregi czasowe na podstawie analizy informacji nieprecyzyjnej. Rozważane w rozprawie szeregi są to dyskretne ciągi warto- ści rzeczywistych, natomiast nieprecyzyjne etykiety oraz podsumowania lingwistyczne opisane są za pomocą trapezoidalnych liczb nieostrych.

Cel rozprawy został osiągnięty poprzez opracowanie nowatorskiego podejścia z zastosowaniem nieprecyzyjnych etykiet i podsumowań lingwistycznych, obejmu- jącego 2 nowatorskie metody prognozowania w ujęciu Bayes’a oraz innowacyjny algorytm klasyfikacji.

3.1 Klasyfikacja szeregów czasowych z zastosowaniem podsumowań lingwi- stycznych

Opracowano nowatorski algorytm klasyfikacji z zastosowaniem podsumowań lingwistycznych (ang. Classification with Linguistic Summaries (C-LS)). Algorytm wykorzystuje wybrane metody klasyfikacji, segmentacji szeregów czasowych (wybrane algorytmy bottom-up, top- down, broken-line [Sklansky and Gonzalez, 1980]) oraz sumaryzacji [Kacprzyk et al., 2006, Kacprzyk and Wilbik, 2009, Wilbik, 2010, Wilbik and Keller, 2012]. Zaproponowane podej- ście opiera działanie o maszyny wektorów podpierających (SVM) [Cortes and Vapnik, 1995]

oraz metodę k-najbliższych sąsiadów (k-NN) [Cover and Hart, 1967].

3.2 Prognozowanie autoregresyjnych szeregów czasowych z zastosowaniem podsumowań lingwistycznych

Opracowano bayesowską metodę predykcji dla krótkich szeregów czasowych (ang. Bayesian Autoregression with Linguistic Summaries (F-LS)) z zastosowaniem nieprecyzyjnej wiedzy eksperckiej o przewidywanych trendach dla prognozowanych zjawisk.

Podstawowe założenie dla wprowadzonego podejścia stanowi fakt, że w celu wyznaczenia

prognozy nie ograniczamy się do jednego modelu probabilistycznego. Zastosowany jest mecha-

nizm bayesowskie do modelowania niepewności związanej z wyborem modelu prognostycznego

i umożliwiający analizę wielu modeli.

(6)

Na Rysunku 1. przedstawiony został schemat ilustrujący ogólną strukturę zaproponowa- nego podejścia.

Rysunek 1: Schemat zaproponowanej nowatorskiej metody “Autoregresja z zastosowaniem podsumowań lingwistycznych” (F-LS).

Pierwszym etapem działania metody jest zbudowanie bazy wiedzy. W tym celu wy- brać należy modele probabilistyczne do dalszych rozważań. Modele powinny różnić się przede wszystkim w sposób jakościowy. W przykładach rozważany jest m.in. następujący podzbiór 3 modeli: model autoregresji pierwszego rzędu z silną dodatnią autokorelacją, model autore- gresji pierwszego rzędu z silną ujemną autokorelacją i model autoregresji pierwszego rzędu o nieznacznej autokorelacji.

Następnie, na podstawie wybranych modeli, wygenerowana zostaje baza wzorcowych szere- gów czasowych i dla nich uruchomione zostają algorytmy data-miningowe. Utworzona zostaje informacja nieprecyzyjna w postaci podsumowań lingwistycznych i uruchomione zostają dla niej algorytmy uczenia pod nadzorem.

Tabela przedstawia przykłady nieprecyzyjnych etykiet rozważanych do budowy podsumo- wań. Nieprecyzyjne etykiety opisane są za pomocą trapezoidalnych liczb nieostrych.

Tablica 1 Przykłady atrybutów i ich nieprecyzyjnych etykiet.

Obiekt Atrybut Etykiety nieprecyzyjne Trend długość short, medium, long

dynamika zmian rosnący, stały, umiarkowany zmienność niskie, umiarkowane, wysokie Zbiór podsu-

mowań lingwi- stycznych

liczba elementów zbioru

większość

Rozważane są podsumowanie lingwistyczne w postaci: Q t jest S oraz Q t, które są

W, jest S , gdzie S, W to zbiory rozmyte, Q to kwantyfikator rozmyty. W wyniku działania

metod data-miningowych, wygenerowany zostaje zbiór reguł klasyfikacyjnych.

(7)

Podsumowując, najważniejsze kroki etapu budowy bazy wiedzy w niniejszym algorytmie są następujące:

1. S := zdefiniuj liczby rozmyte

2. [Y

_m^s

, C

^s

] := wygeneruj s = kxJ realizacji szeregów z modeli autoregresyjnych M

_i

dla i ∈ J zdefiniowanych następująco:

y ˜

t

=

p

X

i=1

φ

i

y

t−i

˜ + a

_t

(3)

gdzie a

_t

∼ N (0, σ

²

), ˜ y

_t

= y

_t

− µ, φ

₁

∈ (−1, 1), σ

²

= 0.1.

3. LI

^s

:= utwórz podsumowania lingwistyczne dla Y

_m^s

4. V

^s

:= oblicz wskaźniki jakości podsumowań dla LI

^s

5. CL := zbuduj klasyfikator (względem modeli probabilsitycznych) na próbie uczącej [LI

^s

, C

^s

].

Drugim etapem działania metody jest wydobycie informacji a priori o krótkich sze- regach. Następuje ewaluacja podsumowań lingwistycznych dla krótkich szeregów czasowych, by możliwa była ich klasyfikacja względem modeli probabilistycznych:

1. [LI

^E

, V

^E

] := utwórz wstępne podsumowania dla prognozowanego szeregu y

2. T

^E

:= ewaluacja podsumowań lingwistycznych przez człowieka na podstawie LI

^E

, V

^E

. Ostatnim etapem działania metody jest automatyczne wyznaczenie rozkładów praw- dopodobieństwa i symulacja Łańcuchów Markowa Monte Carlo - MCMC. W oparciu o wyniki data-miningowe i komunikację z użytkownikem (walidację wyników) przeprowadzone zostaje zadanie klasyfikacji i otrzymane w jej wyniku wagi przełożone zostają na estymowane rozkłady prawdopodobieństwa a priori dla poszczególnych modeli p(M

_j

|M ). Rozkłady te są wykorzystane w symulacji a posteriori MCMC, której celem jest wyznaczenie prognozy i jej rozkładu predyktywnego. Poniżej znajduje się podsumowanie najważniejszych kroków:

1. Sc

^Mⁱ

:= zaklasyfikuj T

^E

na podstawie v

^E

, CL do M

_i

2. P := utwórz p(M

_j

|M ) na podstawie wag klasyfikacji dla modeli Sc

^Mⁱ

3. y

_n+1

:= wyznacz prognozę i następujące rozkłady predyktywne dla y w oparciu o sy- mulacje a posteriori MCMC:

p(M

_j

|y, M ) = p(M

_j

)p(y|M

_j

)

p(y|M ) = p(M

_j

)p(y|M

_j

)

PJ

j=1

p(M

_j

)p(y|M

_j

) (4) p(ω|y, M ) =

J

X

j=1

p(M

j

|y, M )p(ω|y, M

_j

) (5)

(8)

Przypomnijmy, że drugim celem rozprawy doktorskiej jest opracowanie modelu analizy danych zgodnego z ludzką percepcją, umożliwiającego przełożenie informacji nieprecyzyjnej, sformułowanej przez ekspertów danej dziedziny na rozkłady prawdopodobieństwa a priori.

Powyższy cel osiągnięto poprzez zaprojektowanie niniejszej metody. Ekspert udziela odpowie- dzi dotyczących stopnia prawdziwości prezentowanych wyrażeń lingwistycznych. Przykładami weryfikowanych wyrażeń lingwistycznych w języku naturalnym są: Zazwyczaj wartości dla sze- regu X są niskie, Prawie nigdy długie trendy są rosnące.

3.3 Prognozowanie szeregów czasowych w oparciu o regresję liniową z za- stosowaniem informacji nieprecyzyjnej

Opracowano metodę predykcji ciągów informacji lingwistycznej (ang. Bayesian Regression with Linguistic Labels (F-LL)). Zaproponowana metoda obejmuje m.in. analizę szeregów z próby uczącej, segmentację szeregów czasowych, przetwarzanie wyrażeń nieprecyzyjnych, wnioskowanie bayesowskie.

Na Rysunku 2. przedstawiony został schemat ilustrujący działanie metody.

Rysunek 2: Schemat zaproponowanej nowatorskiej metody “Regresja z zastosowaniem pod- sumowan lingwistycznych” (F-LL).

Nieprecyzyjne etykiety służą do konstrukcji rozkładów w zadaniu regresji liniowej. Kroki algorytmu są następujące:

1. S := zdefiniuj liczby rozmyte

2. Y

^k

:= zdefiniuj zbiór uczących szeregów 3. S

^k

:= segmentacja Y

^k

4. X

^k,y,S

:= utwórz ciągi informacji nieprecyzyjnej dla Y

^k

.

Następnie zadanie estymacji parametrów modelu regresji rozwiązane zostaje z zastosowa- niem algorytmu Gibbs Sampling [Gelfand and Smith, 1990]:

1. zastosuj ciągi informacji nieprecyzyjnej X

^k,y,S

jako macierz objaśniającą w modelu wek- torowej regresji liniowej:

y = Xβ + , ∼ N (0, σ

²

I

_n

) (6)

2. θ = (β, σ) := estymacja w oparciu o próbkowanie Gibbsa

3. y

_n+1

:= wyznacz prognozę dla y.

(9)

4 Wyniki badań eksperymentalnych

Przedstawione w poprzednim rozdziale nowatorskie metody, zostały poddane weryfikacji na danych dotyczących rzeczywistych problemów. W rozdziale 4 rozprawy zestawione są wyniki eksperymentalne.

Analizie porównawczej poddana została efektywność proponowanych metod oraz ich ade- kwatność dla przykładowych zbiorów danych benchmarkowych. Przeprowadzono również ana- lizy dla zbioru danych rzeczywistych, pochodzących z rynku farmaceutycznego. Analizowane zbiory danych są następujące:

1. Dane symulacyjne uzyskane z modeli autoregresyjnych.

2. Dane sprzedaży dla 6 produktów z rynku farmaceutycznego.

3. Dane benchmarkowe, tj.: wybrane szeregi czasowe ze zbioru dostępnego on-line M3- Competition [Makridakis and Hibon, 2000] oraz wybrane szeregi ze zbioru Uniwersytetu Kalifornijskiego [Keogh et al., 2011].

Opisane eksperymenty i symulacje ilustrują działanie proponowanych metod oraz umożli- wiają analizę ich dokładności, a także interpretowalności generowanych przez nie wyników.

4.1 Badania symulacyjne

Na Rysunku 3. przedstawione zostały przykładowe szeregi z rozważanego zbioru danych bę- dące realizacją 2 różnych modeli.

Rysunek 3:

Szeregi będące realizacją (a) M1: φ1= 0.0 (b) M10: φ1= 0.9.

Rozważmy dla przykładu podsumowanie lingwistyczne o treści: ”większość trendów w sze- regu ma wartości bliskie zeru”. Na podstawie oceny wizualnej, intuicyjne wydaje się stwier- dzenie, że dla szeregów będących realizacją modelu M

₁

: φ

₁

= 0.0, powyższe podsumowanie jest prawdziwe. Natomiast, dla szeregów będących realizacją modelu M

₁₀

: φ

₁

= 0.9, podsu- mowanie to nie wydaje się prawdziwe. Tego typu instuicyjne spostrzeżenia zostały poddane weryfikacji na różnych zbiorach danych.

Na podstawie licznych analiz, zauważono, że rzeczywiście zbiory danych lingwistycznych

podsumowujących szeregi czasowe różnią się dla szeregów autoregresyjnych, będących reali-

zacją różnych modeli probabilistycznych. Liczne eksperymenty potwierdziły także, że wektory

zawierające stopnie prawdziwości dla podsumowań lingwistycznych, są istotnymi zmiennymi

(atrybutami) w analizie dyskryminacyjnej szeregów czasowych.

(10)

Tablica 2 Średnie wartości stopnia prawdy dla podsumowań szeregów będących realizacją 10 różnych modeli.

Linguistic summary description M1 M2 M3 M4 M5 M6 M7 M8 M9 M10

Among all y most are short 1.00 1.00 0.95 0.97 0.83 0.71 0.62 0.69 0.57 0.49 Among all y most are low 0.47 0.61 0.45 0.43 0.26 0.22 0.21 0.18 0.21 0.14 Among all y most are moderate 0.47 0.35 0.53 0.51 0.74 0.81 0.77 0.77 0.88 0.86 Among all y most are medium 0.51 0.51 0.64 0.65 0.76 0.88 0.90 0.90 0.95 0.98 Among all decr y most are mod 0.34 0.05 0.25 0.39 0.37 0.44 0.45 0.64 0.71 0.71 Among all decr y most are med 0.17 0.14 0.24 0.28 0.21 0.46 0.41 0.54 0.58 0.69 Among all med y most are cons 0.83 0.82 0.85 0.85 0.93 0.96 0.97 0.93 0.95 0.97 Among all long y most are cons 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

Rysunek 4: Analiza dokładności klasyfikatora względem liczby atrybutów, czyli liczby podsu- mowań lingwistycznych.

Rysunek 5: Analiza dokładności klasyfikatora względem liczby klas.

(11)

Tablica 2 przedstawia średnie wartości stopnia prawdy dla podsumowań szeregów będą- cych realizacją 10 różnych modeli.

Rysunki 4 i 5 przedstawiają wyniki analizy klasyfikatora.Najdokładniejszą klasyfikację uzyskano dla zredukowanej przestrzeni atrybutów (do 9 wybranych najprostszych podsumo- wań lingwistycznych).

Ponadto, wyniki dowiodły, że opracowana metoda dot. przewidywanych trendów, pozwala na dokładną estymację parametrów modelu oraz w konsekwencji dokładniejsze prognozy w porównaniu do tradycyjnych metod, nieuwzględniających dodatkowej informacji nieprecyzyj- nej. Analizą porównawczą objęte zostały tradycyjna metoda Bayes’a z rozkładami a priori nazywanymi „noninformativeóraz 2 wybrane popularne powszechnie metody estymacji para- metrów modeli autoregresji powstałe na mocy równań Yule-Walker’a [Yule, 1927] oraz algo- rytmu Burg’a [Burg, 1968]. Tablica 3 i Rysunek 6 prezentują wyniki.

Tablica 3 Suma średniokwadratowych błędów (próba n=100) dla estymowanego współczyn- nika autoregresji według bayesowskich i tradycyjnych metod estymacji.

Liczba obserwacji w szeregu czasowym

Metoda 10 11 12 13 14 15 16 17 18 19 20 50 100

B: F-LS 1.95 1.84 1.92 1.78 1.81 1.74 1.65 1.69 1.76 1.61 1.63 0.96 0.58 B: uninf 9.85 9.63 7.89 7.82 7.51 7.12 5.69 5.93 5.95 5.31 4.92 1.58 0.81 T: Burg 8.42 8.41 7.10 6.60 5.96 5.55 4.95 5.03 4.68 4.25 4.12 1.41 0.74 T: Y-W 8.54 8.37 7.31 6.69 6.21 5.66 5.10 5.23 4.84 4.46 4.32 1.44 0.75

Rysunek 6: Suma średniokwadratowych błędów (próba n=100) dla estymowanego współczyn- nika autoregresji według bayesowskich i tradycyjnych metod estymacji.

Wybrane najważniejsze wnioski z przeprowadzonych symulacji są następujące:

- Autorska metoda jest szczególnie odpowiednia dla krótkich szeregów.

- Dla szeregów o 10 obserwacjach: zmniejszenie błędu średniokwadratowego dla estymowanego współczynnika autoregresji o 76% oraz zwiększenie dokładności prognozy o 1 krok naprzód o 7%, w porównaniu do tradycyjnych metod estymacji (Yule-Walke’a, algorytm Burg’a).

- Dla szeregów o 20 obserwacjach: zmniejszenie błędu średniokwadratowego dla estymowanego

współczynnika autoregresji o 60% oraz zwiększenie dokładności prognozy o 1 krok naprzód

o 3%, w porównaniu do tradycyjnych metod estymacji (Yule-Walke’a, algorytm Burg’a).

(12)

Zauważono także, że dla szeregów o długości 50, 100, nie ma istotnych różnic pomiędzy podejściem bayesowskim a tradycyjnymi metodami estymacji.

4.2 Szeregi czasowe sprzedaży

Dokonano oceny dokładności i użyteczności metody na podstawie analizy wyników progno- zowania rzeczywistej sprzedaży wybranych produktów z rynku farmaceutycznego w okresie 4-5 lat. Bardzo dobre wyniki uzyskane zostały z zastosowaniem metody regresyjnej. Tablica 4 przedstawia wyniki klasyfikacji, natomiast Tablica 5 zestawia średnie błędy prognoz.

Tablica 4 Wynik klasyfikacji dla problemu 3-klas szeregów szeregów farmaceutycznych.

Scores C1 C2 C3

Prod 1 0.02 0.39 0.59 Prod 2 0.86 0.10 0.04 Prod 3 0.92 0.06 0.02 Prod 4 0.58 0.23 0.19 Prod 5 0.94 0.04 0.02 Prod 6 0.08 0.46 0.45

Tablica 5 Porównanie średniego błędu prognoz.

h=1 h=1

APE APE

F-LL VAR P1 0.036 0.129 P2 0.202 0.317 P3 0.900 0.745 P4 0.026 0.326 P5 0.188 0.364 P6 0.703 0.559 ALL 0.342 0.407

Najważniejsze wnioski z przeprowadzonych analiz dla badanego zbioru danych rzeczywi- stych są następujące:

- Współczynnik korelacji dla szeregów rzeczywistych i ciągów nieprecyzyjnych o informacji lingwistycznej wyższy średnio o 20%, niż dla szeregów rzeczywistych między sobą.

- Średnia dokładność prognozy porównywalna z dokładnością tradycyjnego modelu wektoro- wej autoregresji.

- Parametry modelu są łatwe do zinterpretowania przez ekspertów ze względu na powiązanie

z pojęciami w języku naturalnym - kluczowa zaleta metody.

(13)

4.3 Zbiory danych benchmarkowych

Analizą porównawczą objęte zostały 26 benchmarkowe metody prognozowania oraz rzeczywi- ste dane (dostępne online) ze zbioru M3-Competition [Makridakis and Hibon, 2000]. Tablica 6 przedstawia rozważane metody benchmarkowe.

Tablica 6 Wybrane najlepsze benchmarkowe metody prognozowania z M3-Competition [Ma- kridakis and Hibon, 2000].

Nazwa metody Autor Opis

Naive2 M. Hibon Podejście naiwne z redukcją trendów sezonowych Robust-Trend N. Meade Nieparametryczny model Holt’a

Flores /Pearce2 B.Flores, S. Pearce System ekspertowy SmartFcs* C. Smart System ekspertowy

Theta V. Assimakopoulos Metoda oparta na dekompozycji szeregów Comb S-H-D M. Hibon Model oparty o analizę trendu

ARARMA N. Meade Modele ARIMA

Single M. Hibon Metoda wygładzania wykładniczego ForecastX* J. Galt System ekspertowy

RBF M. Adya, S. Armstrong,

F. Collopy, M. Kennedy

System regułowy

ForecastPro* R. Goodrich, E. Stellwa- gen

System ekspertowy (dokonuje połączenia m.in. modeli Box-Jenkins, wygładzania wykładniczego, modeli Poissona, metody Croston’a, modeli średniej ru- chomej)

Auto-ANN K. Ord, S. Balkin Metoda oparta o sztuczne sieci neuronowe

B-J Auto M. Hibon Modele ARIMA

Tablice 7 i 8 prezentują osiągnięte wyniki dla podzbioru krótkich szeregów czasowych.

W klasyfikacji medalowej zaproponowana metoda bayesowska z zastosowaniem informacji nieprecyzyjnej okazała się najlepsza. Dla analizowanych szeregów benchmarkowych błąd pro- gnozowania wynosi 6.7% (według sMAPE), dostarczając 2. najlepszy wynik w porównaniu do benchmarkowych metod prognozowania. Ponadto, dla 40% szeregów z rozważanej próby, zaproponowana metoda uzyskała lepszy wynik, niż metoda o najlepszym średnim błędzie - ForecastPRO.

Następnie, analizie poddano podzbiór szeregów o 47 obserwacjach przy dodatkowym zało- żeniu, że nie dopuszcza się ewaluacji podsumowań przez ekspertów (przyjęte są tylko automa- tyczne podsumowania uzyskane z danych). Metoda z tym założeniem oznaczona jest F-LS*.

Uzyskane wyniki zestawione zostały w Tablicy 9.

Dla analizowanych szeregów benchmarkowych o długości 47 obserwacji błąd prognozowa- nia wyniósł 4.16%, dostarczając najlepszy wynik w porównaniu do najlepszych benchmarko- wych metod prognozowania.

Podsumowując, opracowana metoda przetwarza informacje łatwe do interpretacji dla czło-

wieka oraz dostarcza bardzo dobrych wyników prognozowania dla licznych rozważanych zbio-

rów danych.

(14)

Tablica 7 Klasyfikacja medalowa. TOP-3 oraz najmniej dokładne metody dla N1-N10 z M3-Competition. F-LS to autorska metoda, a pozostałe to wybrane najlepsze metody bench- markowe z konkursu.

TOP-3

Metoda I II III ... XV

ARARMA 0 1 1 1

Auto-ANN 2 0 0 1

B-J Auto 0 0 0 1

F-LS 2 0 1 0

Comb S-H-D 0 0 0 0

Flores /Pearce2 0 1 0 2

ForecastPro 0 0 1 1

ForecastX 1 0 1 0

Naive2 1 1 1 0

RBF 0 1 1 0

Robust-Trend 2 2 0 1

SimpleBayes 1 1 0 1

Single 0 1 1 0

SmartFcs 1 1 0 2

Theta 0 1 3 0

Tablica 8 Średni błąd prognoz według sMAPE (ang. symmetric mean absolute percentage error ) oraz MSE (ang. mean square error ) dla zbioru N1-N10 z M3-Competition. F-LS to autorska metoda, a pozostałe to wybrane najlepsze metody benchmarkowe z konkursu.

Method sMAPE sMAPE/Avg sMAPE Method MSE MSE/Avg MSE

ForecastX 6.1 17% ForecastX 163 932 39%

F-LS 6.7 9% F-LS 215 497 20%

Comb S-H-D 6.7 9% Comb S-H-D 213 472 21%

Robust-Trend 6.8 8% Robust-Trend 163 502 39%

Theta 6.8 7% Theta 290 809 -8%

RBF 6.9 6% RBF 202 272 25%

Auto-ANN 7.2 2% Auto-ANN 242 197 10%

ForecastPro 7.4 -1% ForecastPro 380 393 -41%

B-J Auto 7.4 -1% B-J Auto 289 332 -7%

Naive2 7.7 -5% Naive2 266 264 1%

Single 7.7 -5% Single 266 264 1%

SmartFcs 8.5 -15% SmartFcs 408 525 -51%

ARARMA 8.7 -19% ARARMA 392 000 -45%

Flores /Pearce2 9.3 -26% Flores /Pearce2 312 760 -16%

Avg sMAPE 7.3 Avg MSE 269 743

(15)

Tablica 9 Średni błąd prognoz według sMAPE (ang. symmetric mean absolute percentage er- ror ) dla podzbioru szeregów o 47 obserwacjach z M3-Competition. F-LS to autorska metoda,* a pozostałe to wybrane najlepsze metody benchmarkowe z konkursu.

F-LS* ForecastX ForecastPRO N 156 2.33 11.92 17.58

N 157 2.60 11.72 17.97

N 158 3.41 2.02 3.04

N 159 5.12 48.05 19.58 N 160 5.60 4.68 10.08

N 164 2.23 1.93 5.90

N 165 2.23 2.20 5.51

N 166 7.11 26.45 7.11

N 167 6.50 6.15 6.15

N 168 4.49 10.23 18.30 Średnia 4.16 12.53 11.12

5 Podsumowanie

Głównym celem rozprawy doktorskiej była konstrukcja rozkładów prawdopodobieństwa a priori dla modeli probabilistycznych, opisujących krótkie szeregi czasowe na podstawie analizy nie- precyzyjnych informacji, uzyskanych z wykorzystaniem nowoczesnych metod eksploracji da- nych. Drugim celem rozprawy było opracowanie modelu analizy danych zgodnego z ludzką percepcją i umożliwiającego przełożenie informacji nieprecyzyjnej, sformułowanej przez eks- pertów danej dziedziny, na rozkłady prawdopodobieństwa a priori stosowane w bayesowskich modelach predykcyjnych.

W rozprawie zaproponowane zostały dwie nowatorskie metody konstrukcji rozkładów prawdopodobieństwa a priori, stosowanych w bayesowskiej analizie szeregów czasowych. Za- proponowane metody wykorzystują algorytmy klasyfikacji i uczenia maszynowego oraz za- awansowane algorytmy segmentacji i automatycznych podsumowań dla danych o postaci sze- regów czasowych. Opracowane nowatorskie metody konstrukcji rozkładów różnią się między sobą zastosowanymi metodami data-miningowymi i sposobem reprezentacji informacji nie- precyzyjnej. Wszystkie metody korzystają z algorytmów segmentacji szeregów czasowych i wspierają analizę krótkich szeregów czasowych.

Skuteczność działania wprowadzonych metod potwierdzona została wynikami ekspery- mentalnymi dla benchmarkowych zbiorów danych. Przeprowadzono również analizy dla da- nych rzeczywistych, pochodzących z rynku farmaceutycznego. Przeprowadzone eksperymenty i symulacje potwierdziły efektywność zaproponowanego podejścia. Ponadto, reprezentacja sze- regów czasowych jako wektorów podsumowań lingwistycznych, pozwala na bardzo dokładną klasyfikację szeregów do modeli probabilistycznych.

Rozprawa zbudowana jest z 5 rozdziałów. Pierwszy rozdział służy wprowadzeniu w rozwa-

żaną problematykę oraz sformułowaniu problemu badawczego. Rozdział 2. ma za cel przegląd

literatury tematu i przedstawienie podstawowych zagadnień, definicji i algorytmów. Nowa-

torskie metody konstrukcji rozkładów prawdopodobieństwa opisane są w Rozdziale 3. Efek-

tywność zaproponowanych metod potwierdzona została licznymi badaniami, których wyniki

(16)

przedstawione są w Rozdziale 4. Rozdział 5 stanowi podsumowanie rozprawy. Spis literatury znajduje się w ostatnim rozdziale. Załączniki do rozprawy to pseudokod wybranych algoryt- mów oraz tabele przedstawiające zbiory danych treningowych i testowych.

Za moje najważniejsze oryginalne osiągnięcia w niniejszej pracy uważam:

1. Opracowanie nowatorskiego podejścia zastosowania podsumowań lingwistycznych do konstrukcji rozkładów prawdopodobieństwa a priori dla modeli prognostycznych.

2. Opracowanie modelu predykcyjnego zgodnego z ludzką percepcją.

3. Opracowanie samouczącej się bazy wiedzy w oparciu o metody data-miningowe.

4. Wyniki eksperymentalne potwierdzają efektywność podejścia dla rozważanych zbiorów danych.

5. Opracowanie metody klasyfikacji szeregów czasowych, reprezentowanych jako wektory podsumowań lingwistycznych.

6. Dokonanie przeglądu osiągnięć w interdyscyplinarnych badaniach, dotyczących zastoso- wania „miękkich” metod obliczeń komputerowych w analizie szeregów czasowych.

Dalsze kierunki badań obejmują:

- Analizę kolejnych (innych) sposobów reprezentacji informacji zgodnej z ludzką percepcją (np.: inne formy podsumowań lingwistycznych, reguły asocjacyjne, zależności czasowe).

- Konstrukcję rozkładów prawdopodobieństwa (także a posteriori) dla kolejnych (innych) mo- deli prognostycznych.

- Połączenie alternatywnych interpretacji zmiennych lingwistycznych (stworzenie profili eks- pertów, wartości etykiet zmienne w czasie).

- Analizę porównawcza informacji lingwistycznej uzyskanej w sposób automatyczny z subiek- tywnymi ocenami ekspertów.

- Rozmycie rozkładów prawdopodobieństwa.

Wyniki przeprowadzonych eksperymentów dowodzą tezy rozprawy, że zapro-

ponowane metody przetwarzania informacji nieprecyzyjnej do konstrukcji rozkła-

dów prawdopodobieństwa a priori na opisujących szereg czasowy modelach pro-

babilistycznych, są dobrym narzędziem do eksploracji i prognozowania krótkich

szeregów czasowych.

(17)

Podziękowania. Badania wsparte były przez stypendium naukowe w ramach programu Międzynarodowe Projekty Doktoranckie pt.: „International PhD Studies in Intelligent Com- puting”. Program realizowany ze środków Unii Europejskiej w ramach Europejskiego Fundu- szu Społecznego, Program Operacyjny Kapitał Ludzki.

Kontakt:

Katarzyna Kaczmarek

Zakład Metod Stochastycznych Instytut Badań Systemowych PAN ul. Newelska 6, 01-447 Warszawa e-mail: k.kaczmarek@ibspan.waw.pl

Literatura

[Beer et al., 2013] Beer, M., Ferson, S., and Kreinovich, V. (2013). Imprecise probabilities in engineering analyses. Mechanical Systems and Signal Processing, pages 4–29.

[Berthold and Hand, 2007] Berthold, M. and Hand, D. (2007). Intelligent data analysis. An Introduction. Springer.

[Box et al., 2008] Box, G., Jenkins, G., and Reinsel, G. (2008). Time Series Analysis, 4th Edition. Wiley.

[Burda et al., 2014] Burda, M., Stepnicka, M., and Stepnickowa, L. (2014). Fuzzy rule-based ensamble for time series prediction: Progresses with associations mining. In Strengthening Links Between Data Analysis and Soft Computing, volume 315, pages 261–271.

[Burg, 1968] Burg, J. (1968). A new analysis technique for time series data. Advanced Study Institute on Signal Processing, NATO. Enschede.

[Chen and Chang, 2010] Chen, S. and Chang, Y. (2010). Multi-variable fuzzy forecasting based on fuzzy clustering and fuzzy rule interpolation techniques. Inf. Sci., 180(24):4772–

4783.

[Clemen and Winkler, 1999] Clemen, R. and Winkler, R. (1999). Combining probability di- stributions from experts in risk analysis. Risk Analysis, 19(2):187–203.

[Cortes and Vapnik, 1995] Cortes, C. and Vapnik, V. (1995). Support-vector networks. Ma- chine Learning, 20:273–297.

[Cover and Hart, 1967] Cover, T. and Hart, P. (1967). Nearest neighbor pattern classification.

IEEE Transactions on Information Theory, pages 21–27.

[D’Urso et al., 2013] D’Urso, P., Lallo, D., and Maharaj, E. (2013). Autoregressive model-

based fuzzy clustering and its application for detecting information redundancy in air pol-

lution monitoring networks. Soft Computing, pages 83–131.

(18)

[Geweke, 2005] Geweke, J. (2005). Contemporary bayesian econometrics and statistics. Wiley series in probability and statistics.

[Geweke and Whiteman, 2006] Geweke, J. and Whiteman, C. (2006). Handbook of Economic Forecasting, volume 1. Elsevier.

[Hryniewicz and Kaczmarek, 2014] Hryniewicz, O. and Kaczmarek, K. (2014). Forecasting short time series with the bayesian autoregression and the soft computing prior information.

In Strengthening Links Between Data Analysis and Soft Computing, volume 315, pages 79–

86. Springer.

[Hryniewicz and Kaczmarek, 2015] Hryniewicz, O. and Kaczmarek, K. (2015). Bayesian ana- lysis of time series using granular computing approach. Applied Soft Computing.

[Kacprzyk, 2008] Kacprzyk, J. (2008). Linguistic summarization of time series using a fuzzy quantifier driven aggregation. Fuzzy Sets Syst, 159 (12):1485–1499.

[Kacprzyk and Wilbik, 2009] Kacprzyk, J. and Wilbik, A. (2009). Using fuzzy linguistic sum- maries for the comparison of time series: an application to the analysis of investment fund quotations. In IFSA/EUSFLAT Conf. 2009, pages 1321 – 1326.

[Kacprzyk et al., 2011] Kacprzyk, J., Wilbik, A., Partyka, A., and Ziółkowski, A. (2011).

Trend Analysis System. Systems Research Institute, Polish Academy of Sciences, Warsaw.

[Kacprzyk et al., 2006] Kacprzyk, J., Wilbik, A., and Zadrożny, S. (2006). Linguistic sum- marization of trends: a fuzzy logic based approach. In Proc. of the 11th International Conference Information Processing and Management of Uncertainty in Knowledge-based Systems, page 2166–2172.

[Kacprzyk and Zadrożny, 2002] Kacprzyk, J. and Zadrożny, S. (2002). Protoforms of lingu- istic data summaries: towards more general natural-language-based data mining tools. Soft Computing Systems, IOS Press, Amsterdam, pages 417–425.

[Kaczmarek and Hryniewicz, 2013] Kaczmarek, K. and Hryniewicz, O. (2013). Linguistic knowledge about temporal data in bayesian linear regression model to support forecasting of time series. In Proc. of Federated Conference on Computer Science and Information Systems, pages 655 – 658.

[Kaczmarek et al., 2015] Kaczmarek, K., Hryniewicz, O., and Kruse, R. (2015). Human input about linguistic summaries in time series forecasting. In Proc. of The Eighth International Conference on Advances in Computer-Human Interactions ACHI 2015.

[Kass and Raftery, 1995] Kass, R. and Raftery, A. (1995). Bayes factors. Journal of the American Statistical Association, 90:773–795.

[Keogh et al., 2011] Keogh, E., Zhu, Q., Hu, B., Hao, Y., Xi, X., Wei, L., and Ratanamahatana, C. (2011). The ucr time series classification/clustering page:

www.cs.ucr.edu/˜eamonn/timeseriesdata/.

[Koronacki and Ćwik, 2005] Koronacki, J. and Ćwik, J. (2005). Statystyczne systemy uczące

się. Wydawnictwo Naukowo Techniczne, Warszawa.

(19)

[Ley and Steel, 2009] Ley, E. and Steel, M. (2009). On the effect of prior assumptions in bayesian model averaging with applications to growth regression. Journal of Applied Eco- nometrics, 24:651–674.

[Makridakis and Hibon, 2000] Makridakis, S. and Hibon, M. (2000). The m3-competition:

results, conclusions and implications. International Journal of Forecasting, pages 451–476.

[Sklansky and Gonzalez, 1980] Sklansky, J. and Gonzalez, V. (1980). Fast polygonal appro- ximation of digitized curves. Pattern Recognition, 12(5):327–331.

[Song and Chissom, 1993] Song, Q. and Chissom, B. (1993). Fuzzy time series and its models.

Fuzzy Sets Syst., 54(3):269–277.

[Stein et al., 2013] Stein, M., Beer, M., and Kreinovich, V. (2013). Bayesian approach for inconsistent information. Information Sciences, pages 96–111.

[Vapnik, 1998] Vapnik, V. (1998). Statistical Learning Theory. Wiley, New York.

[Wilbik, 2010] Wilbik, A. (2010). Linguistic summaries of time series using fuzzy sets and their application for performance analysis of mutual funds. PhD thesis, Systems Research Institute, Polish Academy of Sciences, Warsaw, Poland.

[Wilbik and Keller, 2012] Wilbik, A. and Keller, J. (2012). A distance metric for a space of linguistic summaries. Fuzzy Sets and Systems, 208:79–94.

[Wolpert, 1996] Wolpert, D. (1996). The lack of a priori distinctions between learning algo- rithms. Neural Computation, pages 1341–1390.

[Yager, 1982] Yager, R. (1982). A new approach to the summarization of data. Information Science, 28 (1):69–86.

[Yarushkina et al., 2011] Yarushkina, N., Perfilieva, I., Afanasieva, T., Igonin, A., Romanov, A., and Shishkina, V. (2011). Time series processing and forecasting using soft computing tools. In RSFDGrC’11 Proceedings of the 13th international conference on Rough sets, fuzzy sets, data mining and granular computing, pages 155–162. Springer-Verlag Berlin, Heidelberg.

[Yule, 1927] Yule, G. (1927). On a method of investigating periodicities in disturbed series with special reference to wolfer’s sunspot numbers. Philosophical Transactions of the Royal Society of London, 226:267–298.

[Zadeh, 1997] Zadeh, L. A. (1997). Towards a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic. Fuzzy Sets and Systems, 90:111–127.

[Zadeh, 2000] Zadeh, L. A. (2000). From computing with numbers to computing with words - from manipulation of measurements to manipulation of perceptions. Intelligent Systems and Soft Computing in Lecture Notes in Computer Science, 1804:3–40.