Synteza i eksploracja danych sekwencyjnych

(1)

Synteza i eksploracja

danych sekwencyjnych

(2)

Plan prezentacji

● Motywacja i cel realizowanych badań

● Wprowadzenie do problemu

● Definicja problemu

● Własności

(3)

Motywacja

● Integracja informacji z różnych mediów (monitoring)

Nagranie video 1 Nagranie audio Nagranie video 2 Opis tekstowy Połączony zapis zdarzeń Sekwencja zdarzeń Wątki uzupełnione informacją z wielu źródeł

(4)

Motywacja

● Analiza danych biomedycznych (diagnostycznych)

KTG Temperatura EEG Ciśnienie Zapis zachowania się organizmu Stymulacja Opis zdarzeń uzupełniony informacją z różnych rejestratorów

(5)

Motywacja

● Zbieranie danych przez agentów (zwiad,

uzgodnienie relacji) Proces Agent 2 Agent 1 Agent 3 Połączona informacja o zdarzeniach Opis zdarzeń w procesie obserwowanych z różnych perspektyw

(6)

Własności zbioru danych

● Kilka źródeł informacji generujących strumienie

danych opisujące aktywny proces z kilku perspektyw

● Strumienie danych mogą zawierać różne atrybuty

np. wynikać może to z faktu, że obserwacja jest dokonywana przez różne urządzenia

● Dane opisują zjawiska są zależne od czasu, lecz

może istnieć niepewność, co do oceny momentu zajścia zdarzenia lub do wartości atrybutów

opisujących zdarzenie

● Dane mogą mieć nieprawidłową kolejność, mogą

(7)

Cel prowadzonych badań

● Opracowanie metody, która pozwoli dokładnie

wyrazić i scalić informację pochodzącą z kilku strumieni danych

● Metoda powinna pozwolić na powiązanie

podobnych lub współwystępujących prawidłowości w kilku strumieniach na podstawie ich podobieństwa lub współwystępowania

● Metoda powinna być odporna na braki w danych,

szum, dane niepewne i nieprawidłowe, w tym nieprawidłową kolejność dostarczania danych o zdarzeniach

● Metoda powinna przetworzyć dane dostarczane w

(8)

Reprezentacja danych

● Podstawowa informacja rejestrowana w strumieniu

opisuje zdarzenia (atrybuty nominalne lub liczbowe)

● Sekwencja zbiorów przedmiotów nie pozwala

wyrazić precyzyjnie interakcji prowadzących do wystąpienia zdarzenia (jednowymiarowość)

● Bardziej precyzyjnym sposobem zapisu jest graf

określający związki między czynnościami i aktorami (acykliczny, skierowany (czas!))

z1 z2 z3 z4

t

(9)

Reprezentacja danych

● Wyrażanie procesu przez graf acykliczny

skierowany jest popularną metodą np.:

– w informatyce - diagram sekwencji UML 1.x

– w fizyce – assembler przyrody: diagramy Feynmana

(np. tworzenie cząstki Higgsa)

● Istnieje literatura opisująca znajdowanie wzorców w

grafach ewoluujących (strumień zbudowany grafów)

g

t

t t

(10)

“ I have no data yet. It is a capital mistake to

theorise before one has data.

Insensibly one begins to twist facts to suit

theories, instead of theories to suit facts. ”

Arthur Conan Doyle, The Adventures of Sherlock Holmes, 1891

(11)

Eksperyment naukowy

● Eksperyment ma na celu uwiarygodnienie przyjętej

hipotezy dotyczącej badanego zjawiska fizycznego

● Eksperyment może być kontrolowany lub

niekontrolowany (studium z obserwacji)

● Badane zjawisko ma charakter

przyczynowo-skutkowy, nie jest spontanicznym rezultatem

istnienia przypadkowego „szumu”

● Eksperyment można powtórzyć - spełnieniu tych

samych warunków początkowych i procedury otrzymując taki sam (lub zbliżony) wynik

(12)

Prawidłowość

● Prawidłowość to wzorzec (powtarzalny podgraf)

znaleziony w danych

● W przypadku zaproponowanej reprezentacji

prawidłowość opisuje podgraf powiązanych ze sobą zdarzeń

● Szum też jest częścią strumienia i można z

elementów szumu utworzyć podgraf!

Jak odróżnić szum od wzorca opisującego fakt?

t

(13)

Prawidłowość - jak zidentyfikować?

● Prawidłowość jest to połączona krawędziami

(zwarta) grupa węzłów opisująca przebieg zdarzeń, którą można wyodrębnić, ponieważ powtarza się w strumieniu

● Aby wyróżnić podobne zdarzenia należy zdefiniować

funkcje podobieństwa (wiedza zewnętrzna o procesie!)

● Powtórzenia wymaga pojawienia się wybranego podgrafu

wielokrotnie w strumieniu (znajdowanie powtórzeń nie wymaga wiedzy zewnętrznej!)

● Ile razy podgraf powinien się pojawić w strumieniu aby mógł

(14)

Prawidłowość czy przypadek?

● Graf opisuje macierz kwadratowa k x k , gdzie każdy

wierzchołek z k może posiadać jedną z s wartości

● Wierzchołki są posortowane względem czasu

wystąpienia zdarzenia

● Liczba możliwych grafów do utworzenia to:

● Załóżmy, że mamy n węzłów w strumieniu, które

dzielimy na n/k ramek

● Jakie jest prawdopodobieństwo przypadkowego

pojawienia się w strumieniu wzorca m razy w kolejnych n/k ramkach? sk⋅2k⋅k



n/ k

m



⋅

p

m

⋅

1− p

n/ k −m p= 1 sk⋅2k⋅k

(15)

Prawidłowość czy przypadek?

● Prawdopodobieństwo, że powtórzenie podgrafu jest

szumem maleje znacząco wraz z: – liczbą powtórzeń

– rozmiarem podgrafu (większy wpływ!)

● Nie potrzeba wielu powtórzeń podgrafu o wielu

wierzchołkach, aby uznać go z dużą dozą

prawdopodobieństwa za prawidłowość

s 2

p 1,56E-002 9,54E-007 2,12E-022 1,32E-082

N k

64 2 4 8 16

m

1 0,30686534 0,00001526 1,69E-021 5,27E-082 2 0,07549862 1,09E-010 1,26E-042 1,04E-163 4 0,00137910 1,51E-021 1,41E-085

8 0,00000003 8,81E-045 16 5,90E-021

(16)

Monotoniczność wyst. prawidłowości

● Przypadkowe występowanie prawidłowości, na którą

składają się dwie lub więcej prawidłowości o mniejszej złożoności lub mniejszej częstości występowania jest mniej prawdopodobna od występowania każdej z nich osobno (własność iloczynu ułamków).

P  A∩B=P  A⋅P  B

P  A∩B= P  A/ B⋅P  B

(17)

Definicja problemu

● Problem syntezy i eksploracji zbioru

grafów/sekwencji w danym przedziale czasu polega na znalezieniu prawidłowości R w postaci zbioru

zwartych podgrafów i zastąpieniu nimi wierzchołków K w sekwencjach tak, aby prawdopodobieństwo

spontanicznego (losowego) wystąpienia złożonej prawidłowości było minimalne.

∀

t

₁

,t

₂

∈

T ; t

₂



t

₁

:

min {P  R

_t

(18)

Rodzaje prawidłowości

● Oparte na podobieństwie

(19)

Rodzaje prawidłowości

● Posiadające nietypowy rozkład danych (zaburzenie

rozkładu)

(20)

Ograniczenia

● Acykliczność wiązań – powiązane prawidłowości nie

mogą tworzyć paradoksów czasowych

● Horyzont powiązań – nie należy tworzyć

(21)

Eksploracja

● Eksploracja polega na określeniu kontekstu dla

prawidłowości łączących grafy/sekwencje

(22)

Powiązane pomysły

● Zwiastuny wystąpienia prawidłowości w

połączonych strumieniach

● Prognoza zachowania się połączonego strumienia

po wystąpieniu prawidłowości

(23)

Podobne problemy optymalizacyjne

● W literaturze znane są algorytmy pozwalające na

powiązanie łańcuchów danych należących do kilku sekwencji (Multiple Sequence Alignment)

● Algorytmy dopasowują fragmenty sekwencji do

siebie o tak, aby zmaksymalizować liczbę pasujących fragmentów

● Problem (dla N sekwencji) należy do klasy

problemów optymalizacyjnych NP-zupełnych

● Koszt obliczeniowy wzrasta geometrycznie do liczby

dopasowywanych sekwencji

(24)

Ogólny algorytm i eksploracji

Predyskretyzacja danych Grafy/sekwencje zawierające informację symboliczną Selekcja częstych przedmiotów Identyfikacja podobnych prawidłowości Identyfikacja odpowiadających sobie wzajemnie symboli w strumieniach Grafy/sekwencje zawierające informację symboliczną Agregacja danych z grafów/strumieni Identyfikacja współwystępujących prawidłowości Zastąpienie odkrytych wzorców zgodnie z f. Kosztów (synteza) Identyfikacja zdarzeń sporadycznych Identyfikacja nietypowych rozkładów Odkryte prawidłowości

(25)

Algorytm syntezy i eksploracji

Odkryte prawidłowości Zastąpienie odkrytych wzorców zgodnie z f. Kosztów (synteza) Odkrycie okoliczności wystąpienia prawidłowości Analiza kolejności Występowania prawidłowości

(26)

(27)

(28)

Przykładowy wynik

● Pattern (support=5): (<0050:spd:::0:::3>[43.93]-><0011:pos:::1::10>[49.31])| (<0011:pos:::1::10>[49.31]-><0010:pos:::0:::7>[61.09])| (<0010:pos:::0:::7>[61.09]-><0011:pos:::1::10>[65.82])| (<0011:pos:::1::10>[65.82]-><0050:spd:::0:::3>[65.82])| (<0050:spd:::0:::3>[65.82]-><0011:pos:::1::10>[65.82])| (<0011:pos:::1::10>[65.82]-><0010:pos:::0:::7>[74.44])| ● Pattern (support=16): (<0050:spd:::0:::3>[43.93]-><0011:pos:::1:::5>[48.46])| (<0011:pos:::1:::5>[48.46]-><0052:spd:::2:::3>[52.66])| (<0052:spd:::2:::3>[52.66]-><0012:pos:::2:::0>[67.36])|

(29)

Podsumowanie

● Metoda ma szerokie zastosowania praktyczne

● Zakłada ona syntezę informacji z eksploracją

danych

● Problem jest trudny obliczeniowo (możliwość

wykazania się pomysłowością przy budowaniu algorytmów)

● Przy pewnych założeniach co do przetwarzanych

struktur danych problem można rozwiązać przy pomocy heurystyk

● Istnieje szereg dodatkowych tematów badawczych