• Nie Znaleziono Wyników

Proponowane miary odległości szeregów

W dokumencie Index of /rozprawy2/10161 (Stron 99-104)

ROZDZIAŁ 4 ADAPTACYJNA DETEKCJA ZDARZEŃ Z WYKORZYSTANIEM

4.6 Proponowane nowe metody badania podobieństwa szeregów

4.6.4 Proponowane miary odległości szeregów

W IG 2 0 1/01/08 0 1 2 3 4 5 O p o z n ie n ie 1/01/08 1150 1200 1250 W a rt . S P 5 0 0 1/01/08 0 1 2 3 4 5 O p o z n ie n ie 1/01/08 180 200 220 240 W a rt . U S D 1/01/08 0 1 2 3 4 5 O p o z n ie n ie 1/01/08 50 100 150 200 250 W a rt . U S C o a l 1/01/08 0 1 2 3 4 5 O p o z n ie n ie

Rys. 4.6 Przebiegi odległości (rysunek górny – linia niebieska) badanej pomiędzy szeregiem PEKAO

(przebieg w kolorze magenta, linia cienka), a WIG20, SP500, USD oraz USCoal (przebiegi w kolorze czarnym), liczonej zgodnie ze wzorem 4.12 (dla wykładnika m = 3) z zastosowaniem tolerancji 5 próbek (wzór 4.25). Dolna cześć rysunku obrazuje dobrane opóźnienie, dla którego uzyskano najniższą wartość

Dyx. Pionowymi liniami naniesiono początek roku (linia ciągła) oraz pierwszy kwartał (linia przerywana).

Przebiegi szeregów znormalizowano do najmniejszych oraz największych wartości Dyx.

4.6.4 Proponowane miary odległości szeregów

Z uwagi na charakterystykę finansowych szeregów czasowych, podobieństwo szeregów o stosunkowo niewielkiej liczbie próbek (kilkanaście, kilkadziesiąt) może być interpretowane jako podobieństwo ich krótkich charakterystyk (kształt, obecność krótkoterminowych skoków itp.), czyli zdarzeń. Zgodnie z tezami pracy (rozdział 2.4.3) zakłada się, że chwilowe podobieństwo szeregów może być wykorzystane jako detektor zmian w szeregach (inspiracja działaniem limfocytów). W tym celu przy projektowaniu nowych metod duży nacisk położono na:

− skuteczność detekcji specyficznych wzorców (zdarzeń o określonych charakterystykach);

− komplementarność rozumianą jako (a) możliwość wykrycia danego wzorca zdarzenia przez co najmniej jedną metodę oraz (b) selektywność metod

w odniesieniu do wykrywania zmian określonego typu (współbieżnych, przesuniętych, pojedynczych, seryjnych itp.).

Z uwagi na powyższe, skonstruowano i zaprezentowano pięć dedykowanych miar odległości szeregów, których działanie jest ukierunkowane na badanie:

a) występowania wzorców w szeregach (określone konfiguracje odchyłek); b) podobieństwa kształtu szeregów;

c) współwystępowania w szeregach podobnych sekwencji o różnych długościach.

4.6.4.1 Odległość Fouriera (miara S

F

)

Jako miarę chwilowej odległości szeregów komórki w pracy proponuje się zastosowanie odległości widm amplitudowych, zwanej dalej odległością Fouriera dF. Odległość dF nie zależy od wzajemnych opóźnień porównywanych szeregów, a zatem pozwala wyeliminować wpływ zmienności opóźnień reakcji badanego szeregu na zdarzenia w szeregach należących do jego otoczenia.

Niech Axi, Ayi dla i = 1,...,kF oznaczają amplitudy kF niższych harmonicznych szeregów o długości N danych (długość N jest rzędu miesiąca, tzn. N =Ldyx ≈22). Parametr kF nazywa się rzędem metody (kF < int(N / 2)). Odległości dF definiuje wzór:

= − = kF i yi xi F A A d 1 2 2 (4.26)

Powyższa metoda pomiaru odległości w dalszej części określana będzie symbolem SF.

4.6.4.2 Podobieństwo spektralne determinizowane (Sd)

Istotą metody, określanej w dalszej części pracy symbolem Sd (miara spektralna determinizowana), jest niwelowanie informacji o wzajemnym opóźnieniu zdarzeń w dwóch badanych szeregach, przez:

a) obliczenie transformat Fouriera obu badanych szeregów w oknie analizy o długości N (metodą FFT36),

b) obliczenie determinizowanych sygnałów diagnostycznych o długości kd próbek (kd określa się jako rząd metody, kd N) przez zastosowanie transformaty

36

odwrotnej dla widma amplitudowego (z wyzerowaniem przesunięcia fazowego wszystkich harmonicznych),

c) obliczenie odległości Minkowskiego (w badaniach stosowano odległość Euklidesa) dla uzyskanych w (b) sygnałów diagnostycznych.

Sygnał diagnostyczny (b) agreguje informację o kształcie i mocy dominujących serii odchyłek, a przez to pozwala wychwycić ich podobieństwo w porównywanych szeregach, ze znaczną redukcją wpływu tła losowego i wzajemnych przesunięć serii.

4.6.4.3 Elastyczna miara podobieństwa wzorców (miara typu W)

Metoda pomiaru odległości typu W jest dedykowana do wykrywania w szeregach wzorców (sekwencji próbek) o określonej długości Lw (Lw jest podstawowym parametrem metody). Badane są dwa szeregi: szereg otoczenia x o długości N + Ltol (Ltol jest założoną tolerancją opóźnienia, Ltol > Lw) z indeksacją próbek od 1 do N + Ltol oraz szereg bazowy

y o długości N, zawierający próbki o indeksach n = Ltol +1,…,N + Ltol. Najwyższy indeks oznacza dla obu szeregów najnowszą daną. W szeregu y jest to ostatnia zarejestrowana próbka, a w szeregu x – również ostatnia lub opóźniona.

Miarę odległości W oblicza się w następujący sposób:

a) Przyjmuje się jako wzorzec Wyk ciąg kolejnych próbek szeregu y o zadanej długości

Lw, {yN+Ltol-k-Lw+1, …., yN+Ltol-k} dla k = 0, …,N – Lw lub k = N – 1,…,Lw (kierunek analizy ustala się parametrem BW metody).

b) Dla danego k poszukuje się w szeregu x sekwencji próbek Wxkmin najbliższych do wzorca Wyk (w sensie przyjętej metryki, np. euklidesowej) w segmencie o długości

Lw + Ltol, biorąc jako próbkę najnowszą (koniec sekwencji) xN+Ltol-k-i, dla i = 0,…,Ltol. Odległość ta może być obliczana dla oryginalnych wzorców Wxk, Wyk lub ich wartości bezwzględnych (co eliminuje wpływ znaków dużych odchyłek). Określa to parametr binarny AW metody (AW = 0 – wzorce oryginalne; AW = 1 – moduły wzorców).

c) Sekwencji Wxkmin przypisuje się takie indeksy jakie ma wzorzec Wyk w szeregu y. d) Po przebadaniu wzorców Wyk dla wszystkich k oblicza się ciąg diagnostyczny xw

zawierający próbki o indeksach od Ltol + 1 do N + Ltol (takich jak y) uśredniając wszystkie próbki szeregu x przypisane do danego indeksu wskutek przesunięć wzorców Wxkmin dokonanych w punkcie (c).

e) Jako miarę odległości W przyjmuje się odległość szeregów y i xw według

przyjętej metryki, takiej samej jak stosowana w punkcie (b) (np. euklidesowej). Miara W jest bardzo tolerancyjna na lokalne przesunięcia podobnych sekwencji występujących w obydwu szeregach, co jest jej ważną zaletą, ze względu na zmienne opóźnienia hipotetycznych reakcji przyczynowo-skutkowych w badanych szeregach. Jednak nie jest tolerancyjna na różnice kształtu profili występujących w szeregu x. W związku z tym opracowano również bardziej rygorystyczną wersję detektora W, w której w punkcie (b) analizuje się tylko te sekwencje Wx szeregu x, których próbki nie były wcześniej przesuwane (przypisane w punkcie (c) do innych indeksów niż oryginalne). Wynik analizy zależy wówczas od kierunku przeszukiwania wzorców w punkcie (a). Taki wariant, z blokowaniem próbek Wxkmin dopasowanych do wcześniejszych wzorców Wyk, wybiera się przyjmując niezerową wartość trójwartościowego parametru BW, określającego również kierunek przeszukiwania wzorców: BW = 0 oznacza wariant bez blokady wzorców Wxkmin, BW = –1 – blokada wzorców z przeszukiwaniem od najstarszej danej y w punkcie (a) (k = N 1, N – 2,…);

BW = 1 – blokada z przeszukiwaniem od najnowszej danej (k = 0, 1, ...) w punkcie (a). Parametrami metody W są zatem: N – długość porównywanych szeregów (tak jak dla każdej metody), Ltol – tolerancja opóźnienia (wykorzystywana również w innych

metodach), Lw – długość wzorców od 2 do N, AW – binarna opcja sposobu dopasowywania wzorców (AW = 0 – wzorce oryginalne; AW = 1 – moduły wzorców),

BW – trójwartościowa opcja blokady wzorców i kierunku przeszukiwania. Różne wartości tych pięciu parametrów implikują wychwytywanie podobieństwa wzorców o różnym charakterze. Można zatem wykorzystywać wiele alternatywnych wariantów tej metody. Najistotniejsze znaczenie ma długość wzorca, w związku z tym w dalszych analizach wartość parametru Lw będzie uzupełniała symbol metody (przykładowo W6 oznacza szukanie wzorców o długości 6 próbek).

4.6.4.4 Miara podobieństwa zunifikowanych wzorców (U)

Proponowana metoda badania podobieństwa szeregów (określana jako metoda typu U) ukierunkowana jest na analizę występowania serii skoków w szeregach komórki, identyfikowanych jako zmiany przekraczające arbitralnie ustaloną progową wartość

ρ

U

(główny parametr metody), o różnej długości serii (1,2,...,N) w porównywanych szeregach o długości N. Specyfiką tej metody jest detekcja zmian unikalnych, a więc

takiej charakterystyki szeregu, która – z punktu widzenia analizy istotnych zmian – nie ma odniesienia w drugim analizowanym szeregu.

Detekcja przebiega w następujących etapach:

a) Analiza występowania serii istotnych odchyłek (o wysokości przekraczającej ustaloną progową wartość

ρ

U) w dwóch badanych szeregach: x oraz y. Zliczane jest występowanie serii o różnych długościach i znakach (zmiana znaku oznacza przerwanie aktualnej serii), a następnie dla każdego szeregu zapamiętywana jest informacja o długości kolejnej serii oraz jej liczności (w dalszym etapie znaki poszczególnych serii są ignorowane).

b) Zliczenie krotności występowania serii istotnych odchyłek o różnych długościach w szeregu x (liczbę serii o długości k oznacza się jako Lkx) oraz y (odpowiednio – Lky), przy czym k = 1,2,…,Kk, gdzie Kk oznacza największą długość serii wykrytej w obydwu szeregach.

c) Obliczenie procentu zgodności wpzg wykrytych serii skoków w szeregach, uwzględniającego krotność występowania poszczególnych serii w szeregach oraz ich długość (Lkx, Lky):

= ⋅ = Kk k ky kx p pzg w k L L w 1 ) , min( (4.27)

gdzie współczynnik obliczany jest jako =

(

K=k

)

k kx ky

p k L L

w 1/ 1 max( , ) ;

wp przyjmuje wartości z przedziału <0;1>. d) Końcowe obliczenie miary odległości dU jako:

pzg

U w

d =1− (4.28)

Proponowana metoda pomiaru odległości winna umożliwiać wykrycie zdarzeń o podobnym kształcie, ale niekoniecznie wykazujących koincydencje w szeregach komórki. W przypadku występowania podobnych (co do długości) serii w obu szeregach, dU będzie miała wartość zbliżoną do 0 (wpzg zbliżony do 1). Jako wartość

progową odchyłki można przyjąć odchylenie standardowe sygnału w oknie komórki lub jego wielokrotność. Niemniej zakłada się, że metoda może być adaptowana poprzez stosowanie progów wybranych spośród arbitralnie dobranego zestawu.

4.6.4.5 Podobieństwo zdarzeniowe (Z)

Kolejną proponowaną w pracy metodą analizy chwilowego podobieństwa szeregów komórki jest selekcja zdarzeń (miara Z).

Dla obydwu szeregów x i y oblicza się oddzielnie wartości średnie wartości bezwzględnych odchyłek dodatnich i ujemnych o module większym od założonej wartości progowej

ρ

zd, przyjmując zero dla odchyłek o module mniejszym niż

ρ

zd. W wyniku uzyskuje się dwie pary dodatnich wartości (xdsr, ydsr) oraz (xusr, yusr). Wskaźnik chwilowego podobieństwa oblicza się według wzoru:

( ) (

2

)

2 usr usr dsr dsr Z x y x y d = − + − (4.29)

4.6.5 Badanie skuteczności proponowanych miar odległości

W dokumencie Index of /rozprawy2/10161 (Stron 99-104)

Powiązane dokumenty