Synteza i eksploracja
danych sekwencyjnych
Plan prezentacji
● Motywacja i cel realizowanych badań
● Wprowadzenie do problemu
● Definicja problemu
● Własności
Motywacja
● Integracja informacji z różnych mediów (monitoring)
Nagranie video 1 Nagranie audio Nagranie video 2 Opis tekstowy Połączony zapis zdarzeń Sekwencja zdarzeń Wątki uzupełnione informacją z wielu źródeł
Motywacja
● Analiza danych biomedycznych (diagnostycznych)
KTG Temperatura EEG Ciśnienie Zapis zachowania się organizmu Stymulacja Opis zdarzeń uzupełniony informacją z różnych rejestratorów
Motywacja
● Zbieranie danych przez agentów (zwiad,
uzgodnienie relacji) Proces Agent 2 Agent 1 Agent 3 Połączona informacja o zdarzeniach Opis zdarzeń w procesie obserwowanych z różnych perspektyw
Własności zbioru danych
● Kilka źródeł informacji generujących strumienie
danych opisujące aktywny proces z kilku perspektyw
● Strumienie danych mogą zawierać różne atrybuty
np. wynikać może to z faktu, że obserwacja jest dokonywana przez różne urządzenia
● Dane opisują zjawiska są zależne od czasu, lecz
może istnieć niepewność, co do oceny momentu zajścia zdarzenia lub do wartości atrybutów
opisujących zdarzenie
● Dane mogą mieć nieprawidłową kolejność, mogą
Cel prowadzonych badań
● Opracowanie metody, która pozwoli dokładnie
wyrazić i scalić informację pochodzącą z kilku strumieni danych
● Metoda powinna pozwolić na powiązanie
podobnych lub współwystępujących prawidłowości w kilku strumieniach na podstawie ich podobieństwa lub współwystępowania
● Metoda powinna być odporna na braki w danych,
szum, dane niepewne i nieprawidłowe, w tym nieprawidłową kolejność dostarczania danych o zdarzeniach
● Metoda powinna przetworzyć dane dostarczane w
Reprezentacja danych
● Podstawowa informacja rejestrowana w strumieniu
opisuje zdarzenia (atrybuty nominalne lub liczbowe)
● Sekwencja zbiorów przedmiotów nie pozwala
wyrazić precyzyjnie interakcji prowadzących do wystąpienia zdarzenia (jednowymiarowość)
● Bardziej precyzyjnym sposobem zapisu jest graf
określający związki między czynnościami i aktorami (acykliczny, skierowany (czas!))
z1 z2 z3 z4
t
Reprezentacja danych
● Wyrażanie procesu przez graf acykliczny
skierowany jest popularną metodą np.:
– w informatyce - diagram sekwencji UML 1.x
– w fizyce – assembler przyrody: diagramy Feynmana
(np. tworzenie cząstki Higgsa)
● Istnieje literatura opisująca znajdowanie wzorców w
grafach ewoluujących (strumień zbudowany grafów)
g
g
t
t t
“ I have no data yet. It is a capital mistake to
theorise before one has data.
Insensibly one begins to twist facts to suit
theories, instead of theories to suit facts. ”
Arthur Conan Doyle, The Adventures of Sherlock Holmes, 1891
Eksperyment naukowy
● Eksperyment ma na celu uwiarygodnienie przyjętej
hipotezy dotyczącej badanego zjawiska fizycznego
● Eksperyment może być kontrolowany lub
niekontrolowany (studium z obserwacji)
● Badane zjawisko ma charakter
przyczynowo-skutkowy, nie jest spontanicznym rezultatem
istnienia przypadkowego „szumu”
● Eksperyment można powtórzyć - spełnieniu tych
samych warunków początkowych i procedury otrzymując taki sam (lub zbliżony) wynik
Prawidłowość
● Prawidłowość to wzorzec (powtarzalny podgraf)
znaleziony w danych
● W przypadku zaproponowanej reprezentacji
prawidłowość opisuje podgraf powiązanych ze sobą zdarzeń
● Szum też jest częścią strumienia i można z
elementów szumu utworzyć podgraf!
Jak odróżnić szum od wzorca opisującego fakt?
t
Prawidłowość - jak zidentyfikować?
● Prawidłowość jest to połączona krawędziami
(zwarta) grupa węzłów opisująca przebieg zdarzeń, którą można wyodrębnić, ponieważ powtarza się w strumieniu
● Aby wyróżnić podobne zdarzenia należy zdefiniować
funkcje podobieństwa (wiedza zewnętrzna o procesie!)
● Powtórzenia wymaga pojawienia się wybranego podgrafu
wielokrotnie w strumieniu (znajdowanie powtórzeń nie wymaga wiedzy zewnętrznej!)
● Ile razy podgraf powinien się pojawić w strumieniu aby mógł
Prawidłowość czy przypadek?
● Graf opisuje macierz kwadratowa k x k , gdzie każdy
wierzchołek z k może posiadać jedną z s wartości
● Wierzchołki są posortowane względem czasu
wystąpienia zdarzenia
● Liczba możliwych grafów do utworzenia to:
● Załóżmy, że mamy n węzłów w strumieniu, które
dzielimy na n/k ramek
● Jakie jest prawdopodobieństwo przypadkowego
pojawienia się w strumieniu wzorca m razy w kolejnych n/k ramkach? sk⋅2k⋅k
n/ k
m
⋅
p
m⋅
1− p
n/ k −m p= 1 sk⋅2k⋅kPrawidłowość czy przypadek?
● Prawdopodobieństwo, że powtórzenie podgrafu jest
szumem maleje znacząco wraz z: – liczbą powtórzeń
– rozmiarem podgrafu (większy wpływ!)
● Nie potrzeba wielu powtórzeń podgrafu o wielu
wierzchołkach, aby uznać go z dużą dozą
prawdopodobieństwa za prawidłowość
s 2
p 1,56E-002 9,54E-007 2,12E-022 1,32E-082
N k
64 2 4 8 16
m
1 0,30686534 0,00001526 1,69E-021 5,27E-082 2 0,07549862 1,09E-010 1,26E-042 1,04E-163 4 0,00137910 1,51E-021 1,41E-085
8 0,00000003 8,81E-045 16 5,90E-021
Monotoniczność wyst. prawidłowości
● Przypadkowe występowanie prawidłowości, na którą
składają się dwie lub więcej prawidłowości o mniejszej złożoności lub mniejszej częstości występowania jest mniej prawdopodobna od występowania każdej z nich osobno (własność iloczynu ułamków).
P A∩B=P A⋅P B
P A∩B= P A/ B⋅P B
Definicja problemu
● Problem syntezy i eksploracji zbioru
grafów/sekwencji w danym przedziale czasu polega na znalezieniu prawidłowości R w postaci zbioru
zwartych podgrafów i zastąpieniu nimi wierzchołków K w sekwencjach tak, aby prawdopodobieństwo
spontanicznego (losowego) wystąpienia złożonej prawidłowości było minimalne.
∀
t
1,t
2∈
T ; t
2
t
1:
min {P R
tRodzaje prawidłowości
● Oparte na podobieństwie
Rodzaje prawidłowości
● Posiadające nietypowy rozkład danych (zaburzenie
rozkładu)
Ograniczenia
● Acykliczność wiązań – powiązane prawidłowości nie
mogą tworzyć paradoksów czasowych
● Horyzont powiązań – nie należy tworzyć
Eksploracja
● Eksploracja polega na określeniu kontekstu dla
prawidłowości łączących grafy/sekwencje
Powiązane pomysły
● Zwiastuny wystąpienia prawidłowości w
połączonych strumieniach
● Prognoza zachowania się połączonego strumienia
po wystąpieniu prawidłowości
Podobne problemy optymalizacyjne
● W literaturze znane są algorytmy pozwalające na
powiązanie łańcuchów danych należących do kilku sekwencji (Multiple Sequence Alignment)
● Algorytmy dopasowują fragmenty sekwencji do
siebie o tak, aby zmaksymalizować liczbę pasujących fragmentów
● Problem (dla N sekwencji) należy do klasy
problemów optymalizacyjnych NP-zupełnych
● Koszt obliczeniowy wzrasta geometrycznie do liczby
dopasowywanych sekwencji
Ogólny algorytm i eksploracji
Predyskretyzacja danych Grafy/sekwencje zawierające informację symboliczną Selekcja częstych przedmiotów Identyfikacja podobnych prawidłowości Identyfikacja odpowiadających sobie wzajemnie symboli w strumieniach Grafy/sekwencje zawierające informację symboliczną Agregacja danych z grafów/strumieni Identyfikacja współwystępujących prawidłowości Zastąpienie odkrytych wzorców zgodnie z f. Kosztów (synteza) Identyfikacja zdarzeń sporadycznych Identyfikacja nietypowych rozkładów Odkryte prawidłowościAlgorytm syntezy i eksploracji
Odkryte prawidłowości Zastąpienie odkrytych wzorców zgodnie z f. Kosztów (synteza) Odkrycie okoliczności wystąpienia prawidłowości Analiza kolejności Występowania prawidłowościPrzykładowy wynik
● Pattern (support=5): (<0050:spd:::0:::3>[43.93]-><0011:pos:::1::10>[49.31])| (<0011:pos:::1::10>[49.31]-><0010:pos:::0:::7>[61.09])| (<0010:pos:::0:::7>[61.09]-><0011:pos:::1::10>[65.82])| (<0011:pos:::1::10>[65.82]-><0050:spd:::0:::3>[65.82])| (<0050:spd:::0:::3>[65.82]-><0011:pos:::1::10>[65.82])| (<0011:pos:::1::10>[65.82]-><0010:pos:::0:::7>[74.44])| ● Pattern (support=16): (<0050:spd:::0:::3>[43.93]-><0011:pos:::1:::5>[48.46])| (<0011:pos:::1:::5>[48.46]-><0052:spd:::2:::3>[52.66])| (<0052:spd:::2:::3>[52.66]-><0012:pos:::2:::0>[67.36])|Podsumowanie
● Metoda ma szerokie zastosowania praktyczne
● Zakłada ona syntezę informacji z eksploracją
danych
● Problem jest trudny obliczeniowo (możliwość
wykazania się pomysłowością przy budowaniu algorytmów)
● Przy pewnych założeniach co do przetwarzanych
struktur danych problem można rozwiązać przy pomocy heurystyk
● Istnieje szereg dodatkowych tematów badawczych