• Nie Znaleziono Wyników

Oryginalna idea algorytmu detekcji

W dokumencie Index of /rozprawy2/10161 (Stron 74-78)

ROZDZIAŁ 4 ADAPTACYJNA DETEKCJA ZDARZEŃ Z WYKORZYSTANIEM

4.2 Wykorzystanie paradygmatu immunologicznego w zadaniu detekcji zdarzeń

4.2.1 Oryginalna idea algorytmu detekcji

Podstawą detekcji zdarzeń w szeregach jest ich monitorowanie w odpowiednio krótkim oknie ruchomym, co winno umożliwić szybką identyfikację informatywnych zmian właściwości pojedynczych sygnałów oraz badanie koincydencji pojawiających się zdarzeń, z uwzględnieniem losowo zmiennych opóźnień oraz zróżnicowanej specyfiki tych zmian. Nadrzędnym celem detekcji jest wykrycie zdarzenia zwiastującego zmiany parametrów trendu pojedynczego szeregu prognozowanego, zwanego dalej szeregiem bazowym. Detekcja prowadzona będzie przez algorytmiczne, współbieżne przetwarzanie dostępnego zestawu szeregów przekształconych na różnorodne sygnały diagnostyczne. Ze względu na niemożliwą do pełnej identyfikacji i zmienną specyfikę zdarzeń, istnieje potrzeba selektywnej eksploracji (przetwarzania) bardzo dużych zestawów szeregów (kilkaset lub kilka tysięcy szeregów), co w praktyce – z wykorzystaniem powszechnie dostępnych mocy obliczeniowych – uniemożliwia stosowanie zagregowanego przetwarzania wszystkich dostępnych danych (takiego, jak np. analiz PCA [21]). Zatem konieczne jest stworzenie mechanizmów ukierunkowanych na przetwarzanie niewielkiego zestawu rozległych danych, charakteryzujących badany obiekt (szereg bazowy).

Przyjmuje się, że wszystkie dostępne szeregi tworzą środowisko, z którego wybiera się (losowo lub przy pomocy zdefiniowanych/samouczących się procedur) stosunkowo mało liczny podzbiór zwany otoczeniem (oczywiście, do otoczenia zawsze należy szereg bazowy). Podstawą detekcji będzie równoczesna analiza par segmentów sygnałów o zadanej długości, które – w odniesieniu do naturalnych systemów odpornościowych – mogą być interpretowane jako komórki systemu. Koncepcja doboru danych reprezentujących otoczenie jest w pewnej części analogią do sztucznych systemów immunologicznych dedykowanych do analizy ruchu sieciowego [80], gdzie badane są poszczególne fragmenty pakietów sieciowych.

Pojedyncza komórka składa się zatem z dwóch szeregów o takiej samej długości, z których jeden jest szeregiem bazowym, a drugi – wybranym, współbieżnym lub opóźnionym szeregiem środowiska, włączonym do otoczenia.

Niech B oznacza szereg bazowy komórki, K – drugi szereg tej samej komórki BK, natomiast S – szereg ze środowiska, wchodzący w skład komórek doraźnych BS. Komórki BK oraz BS są dobierane dla kolejnych etapów przetwarzania środowiska z wykorzystaniem kryterium największego chwilowego podobieństwa. Okresowo przeprowadza się modyfikację zawartości otoczenia wymieniając zawarte w nim szeregi (adaptacja strukturalna systemu prowadzona w tle przetwarzania zasadniczego).

Dobór szeregów do otoczenia, a więc do konstrukcji komórek, powinien być realizowany z wykorzystaniem prostych (szybkich) metod z uwagi na potencjalną konieczność analizy dużego zbioru sygnałów środowiska. Proponuje się, aby do tego celu zastosować analizę podobieństwa prowadzoną z wykorzystaniem metod odległościowych.

Podobnie jak w klasycznym podejściu, zadanie detekcji jest widziane jako klasyfikacja binarna według określonych kryteriów podobieństwa segmentów szeregu komórki, zawartych w oknie o ustalonej szerokości. Umieszczenie przy symbolu szeregu cyfry 0 oznacza brak zdarzenia w sensie krótkoterminowym, natomiast 1 – obecność zdarzenia. Zatem oznaczenie B1 utożsamiane będzie z wystąpieniem zdarzenia w szeregu B. Analogicznie, symbol K1 oznaczać będzie detekcję zmian w K. Stosowane mechanizmy detekcji zmian w przetwarzanych parach szeregów nazywane będą limfocytami.

Typowo, w czasie rzeczywistym analizowana jest względnie niewielka liczba komórek BK. Pierwszym etapem analizy jest detekcja zdarzeń w szeregach B i K, którego efektem jest stwierdzenie jednej z czterech sytuacji:

1. B0K0 (brak zdarzeń w obydwóch szeregach);

2. B1K1 (wykrycie zdarzeń w obydwóch szeregach);

3. B0K1 (zdarzenie tylko w szeregu K);

4. B1K0 (zdarzenie w szeregu bazowym).

Zadaniem algorytmu jest stwierdzenie na podstawie powyższych sytuacji jednego z dwóch stanów:

a) PB0; parametry statystyczne są znane (przewidywalne), możliwe jest prowadzenie średnioterminowej predykcji na podstawie wyników segmentacji LR. Z uwagi na brak występowania istotnych zmian w szeregach, stan PB0 dla sytuacji B0K0 można nazwać stanem zdrowia.

b) PB1, gdy zachodzi potrzeba modyfikacji parametrów testu LR (skrócenie okna analizy) w celu szybkiego wykrycia potencjalnego zdarzenia w szeregu bazowym, co wiąże się ze zmniejszeniem prawdopodobieństwa wykrycia zdarzenia oraz zwiększenia prawdopodobieństwa fałszywego alarmu. Taki stan, z uwagi na obecność zdarzeń w szeregu bazowym oraz środowisku, dla sytuacji B1K1 można nazwać stanem choroby.

Schemat dalszego działania procedury przedstawiono na rysunku 4.1.

Rys. 4.1 Ogólny schemat detekcji zdarzeń w środowisku poprzez analizę komórek BK.

Wykrycie zdarzenia w szeregu bazowym (PB1) oznacza identyfikację zmiany w sensie uśrednionym lub zdarzeniowym, współbieżnie bądź z opóźnieniem.

Efektem działania procedury jest identyfikacja stanu zdrowia PB0 lub choroby PB1 z wykorzystaniem dedykowanych metod badania podobieństwa (analogia do działania limfocytów). W sytuacji nieokreślonej (B0K1 lub B1K0), z uwagi na brak potwierdzenia zdarzeń w obydwu szeregach komórki, proponuje się dodatkową analizę pewnej liczby komórek ze zbioru BS (doraźne poszerzenie zbioru BK), w celu uzyskania ostatecznej diagnozy. Wykorzystuje się wówczas dodatkowe, bardziej złożone mechanizmy detekcji w celu potwierdzenia obecności zdarzenia (S1) lub jego braku (S0). Jest to jeden z przyjętych mechanizmów adaptacji strukturalnej. Warto zaznaczyć, że proponowane dalej analizy podobieństwa pozwalają na stwierdzenie krótkoterminowych zmian w sygnałach. Niemniej, definicja stanu S0 w komórce i tym samym sposób prowadzenia analizy środowiska mogą być poszerzone poprzez wykorzystanie informacji o znaku trendu, zgodności trendów w wąskim oknie (metoda trzech średnich [171]), fazę cyklu koniunktury światowej (długoterminowej, lokalnej itp.), informacji dodatkowych rejestrowanych oddzielnie23. Wyniki badania otoczenia mogą być wykorzystane m.in. do zmiany szerokości okna analizy LR (podrozdział 3.5), od czego zależne są prawdopodobieństwa niewykrycia zmian trendu oraz prawdopodobieństwa fałszywego alarmu.

Oprócz przetwarzania komórek środowiska w czasie rzeczywistym, prowadzone są analizy w tle dla komórek zawierających szeregi losowe w celu obliczenia referencyjnych wartości miar odległości, wykorzystywanych w kryteriach klasyfikacji binarnej 0/1, prowadzonej w czasie rzeczywistym dla szeregów BK. W ten sposób uzyskiwane są wartości progowe (progi detekcji, progi dopasowania).

Uzupełnieniem analiz komórek powinna być rejestracja informacji o momentach załamania trendu (informacja uzyskana poprzez prowadzenie segmentacji odcinkowo-liniowej – patrz podrozdział 3.5), o opóźnieniu detekcji, zmianach korelacji pomiędzy sygnałami oraz zmianach chwilowego podobieństwa. Wymaga to stworzenia odpowiedniej struktury danych (pamięci układu) przechowującej informacje o parametrach stanu zdrowia24. W trakcie badań wstępnych stwierdzono [190], że zapamiętywanie nawet prostych charakterystyk stanu zdrowia jest skuteczną drogą usprawnienia detekcji. Zastosowanie takiej pamięci może zwiększyć szybkość oraz

23 Dla szeregów finansowych mogą to być np. obroty, informacja jakościowa o ważnych zdarzeniach globalnych – wojny, wybory itp.

skuteczność wykrywania stanów PB0/PB1. Elementem wspomagającym etap rozszerzonej analizy środowiska winno być także sprawdzanie efektywności działania poszczególnych detektorów pod kątem zastosowania do kreślonego sygnału diagnostycznego. Limfocyty błędnie klasyfikujące winny być usuwane z systemu permanentnie lub na określony okres z zastosowanie funkcji kary (adaptacja strukturalna w tle).

Ze względu na potrzebę przeprowadzenia obszernej i czasochłonnej analizy działania proponowanych, oryginalnych metod analizy podobieństwa, badania prezentowane w niniejszej pracy ukierunkowano na konstrukcję skutecznego algorytmu bezpośredniej detekcji stanu choroby (B1K1 → PB1). Pozostałe moduły algorytmu przedstawionego na schemacie 4.1 będą tematem dalszych prac autora.

Badanie skuteczności proponowanych metod wykrywania istotnych zmian w szeregach opiera się na wielowariantowych, komplementarnych metodach monitorowania podobieństwa szeregów. Analizy skoncentrowano na badanie obecności zdarzenia w analizowanych współbieżnie szeregach (sytuacje typu B1K1) i odniesienie uzyskanych wyników do momentów załamania trendu wykrytych retrospektywnie z wykorzystaniem rygorystycznego testu największej wiarygodności (czynnika Bayesa) o niskim prawdopodobieństwie fałszywego alarmu [118], [18]. Skoncentrowanie analiz na sytuacjach typu B1K1 ma uzasadnienie zarówno w odniesieniu do sprawdzenia skuteczności proponowanych metod badania podobieństwa krótkoterminowego na danych rzeczywistych, jak i sprawdzeniu działania wybranych mechanizmów proponowanego algorytmu immunopodobnego.

W dokumencie Index of /rozprawy2/10161 (Stron 74-78)

Powiązane dokumenty