• Nie Znaleziono Wyników

Zastosowania topologicznej analizy danych

N/A
N/A
Protected

Academic year: 2021

Share "Zastosowania topologicznej analizy danych"

Copied!
12
0
0

Pełen tekst

(1)

Topologiczna analiza danych to nowy sposób analizy duych wielkowymiarowych zbiorów danych. Jej załoeniem jest poznanie kształtu danych i wycignicie z niego wniosków. Artykuł omawia podstawowe pojcia zwizane z topologicznym kształtem danych. Przedstawia załoenia i metody obliczania homologii persystentnej. Jej celem jest analiza chmury punktów danych pozwalajca pogrupowa je i znale  zalenoci midzy nimi. Metoda działa w dowolnych przestrzeniach n-wymiarowych i nie wy-maga wczeniejszych załoe co do szukanych zalenoci. Do prezentacji wyników słu wykresy słupkowe barcode i diagramy persystencji. Artykuł wskazuje zalety i ograniczenia metody. Pokazuje przykłady zastosowania homologii persystentnej w dziedzinie sportu i medycyny.

Słowa kluczowe: topologiczna analiza danych, kształt danych, homologia persystentna, barcode, diagram persystencji, big data

Wprowadzenie

Rozwój technologii informatycznych zwizanych z gromadzeniem i składowaniem danych spo-wodował, e instytucje, organizacje i przedsibiorstwa dysponuj coraz wikszymi zbiorami danych. Co wicej tempo przyrostu zbieranych danych i ich zrónicowanie jest coraz wiksze. Wpływaj na to takie czynniki jak rozwój mediów społecznociowych, multimediów, handel inter-netowy, a w najbliszej perspektywie rozwój internetu rzeczy. W wielu przypadkach ilo lub charakter danych utrudnia ich bezporednie wykorzystanie. Analiza wielkich zbiorów danych, tak zwanych big data, staje si czsto czynnikiem przewagi konkurencyjnej dla przedsibiorstw oraz ródłem innowacji.

Aby pozyska wiedz w oparciu o zebrane dane konieczne jest ich odpowiednie usystematyzo-wanie i przetworzenie. Praktycznymi problemami s dua ilo danych, ich dua zmienno i róno-rodno, a take szum informacyjny, dane niepełne, niedokładne, niezweryfikowane. Zebrane dane mog mie posta liczbow, tekstow, graficzn lub dowoln inn. Wród stosowanych w praktyce metod agregacji, manipulacji, analizy i wizualizacji danych raport McKinsey z 2011 roku [11, 27– 36] wymieniał midzy innymi testy A/B, uczenie maszynowe, metody statystyczne, sieci neuro-nowe, algorytmy genetyczne, przetwarzanie jzyka naturalnego, przetwarzanie danych w chmurze.

Nowym podejciem do analizy danych jest zauwaenie, e dane maj kształt, a kształt ma zna-czenie. T problematyk zajmuje si topologiczna analiza danych. Topologia to dział matematyki zajmujcy si badaniem własnoci obiektów które nie ulegaj zmianie nawet po ich zdeformowaniu. Przez deformacje rozumie si dowolne odkształcanie niewymagajce rozrywania i łczenia rónych czci na przykład rozciganie czy zginanie. Z punktu widzenia analizy danych kluczowe znaczenie ma to, e obiekty nie s ograniczone do przestrzeni dwu lub trójwymiarowej. Mog mie dowolny

(2)

Kra-wymiar co przekłada si na moliwo analizy dowolnie złoonych danych przy zastosowaniu po-dobnej metodologii. Przykładowo dane genetyczne maj ponad pół miliona cech wzajemnie ze sob powizanych.

Historycznie pierwszym rozwaanym naukowo zagadnieniem topologicznym był problem mo-stów z Królewca rozwizany przez Eulera w XVIII wieku. Jednak dopiero od kilkunastu lat zaczto zauwaa zwizki topologii ze zbiorami danych. Dane moemy traktowa jako skoczon chmur punktów w przestrzeni wielowymiarowej. Taka chmura moe by traktowana jako próbka wzita z obiektu geometrycznego, prawdopodobnie zawierajca szum. Topologiczna analiza danych pró-buje ustali własnoci takiego obiektu [4, 255–259].

Obecnie topologiczna analiza danych jest ju wykorzystywana komercyjnie, stała si elemen-tem rynku big data. W 2008 roku powstała Ayasdi [2], firma typu spin-off Uniwersytetu Stanforda, specjalizujca si w analizie danych medycznych i finansowych. Warto inwestycji typu Venture Capital w Ayasdi w latach 2012–15 przekroczyła 100 mln dolarów co wiadczy o tym, e rynek zauwaa potencjał nowego spojrzenia na dane.

Celem artykułu jest wprowadzenie do tematyki topologicznej analizy danych, wskazanie jej cech odróniajcych od innych, dotychczas stosowanych metod oraz przykładowych zastosowa. Przedstawione zostan podstawowe pojcia oraz stosowane metody. Nastpnie omówione zostan wyniki dwóch rónych przypadków analizy danych w oparciu o homologie persystentne.

1. Topologiczny kształt danych

Topologia to matematyczny formalizm pozwalajcy na klasyfikacj kształtów. Jest właciwym podejciem, gdy rozwizania algebraiczne s zbyt sztywne. „Sztywno” zwykle jest zakodowana we współrzdnych i odległociach. Topologicznie dwa obiekty uznajemy za takie same, jeeli mona jeden do drugiego przekształci przez zginanie, rozciganie, skrcanie itp., ale bez rozdzie-rania i sklejania. Sztandarowym przykładem jest przekształcenie obwarzanka w filiank z uchem (rys. 1).

Rysunek 1. Przekształcenie topologiczne

ródło: [9].

Topologi interesuj te własnoci obiektu, które s niezmienne po takich przekształceniach. S to przede wszystkim liczba składowych spójnoci, czyli oddzielnych elementów (w powyszym przykładzie mamy jeden spójny element) i liczba dziur (w przykładzie take jedna, zakładamy, e obiekt jest pełny). Dziury s pojciem intuicyjnie prostym, ale matematycznie do złoonym. Oznaczamy je liczbami Bettiego – dla n-wymiarowej przestrzeni liczba dziur wymiarowych to k-ta liczba Bettiego k (k = 0, dla k  n) [14, 74–75]. Liczba 0 zawsze oznacza liczb niezalenych

obiektów, 1 to zamknite cykle na płaszczy nie lub tunele w przestrzeni trójwymiarowej, 2 to

zamknite przestrzenie np. wntrze sfery. Dalsze liczby Bettiego nie daj si ju prosto zinterpreto-wa geometrycznie ze wzgldu na trójwymiarowe postrzeganie wiata. Dla przykładu liczby

(3)

Bettiego dla płaskiej litery „i” to (2, 0) – dwie składowe, zero dziur, dla litery „B” to (1, 2), dla okrgu to (1, 1), dla sfery to (1, 0, 1), a dla torusa (1, 2, 1) – jedna składowa, dwa cykle i jedna zamknita przestrze.

Analizowane dane s zwykle wielowymiarowe. Std trudno w wyobraeniu ich sobie czy wizualizacji na płaszczy nie lub przestrzennie. To uniemoliwia czasem zauwaenie prostych za-lenoci, przykładowo dane z przestrzeni trój- lub wicej wymiarowej mog tworzy skupiska punktów zawierajcych si w płaskim okrgu. Dla wikszej liczby wymiarów trudno nawet wyob-razi sobie przykłady.

Carlsson [4, 281–282] wymienia trzy podstawowe idee topologiczne, które umoliwiaj eks-trakcj wiedzy z danych i odróniaj j od innych metod:

Niezaleno od współrzdnych – niezalenie, z której strony patrzymy okrg pozostanie okr-giem, nawet jeeli przeskalujemy któr z osi to dalej rozpoznamy pojedynczy obiekt tworzcy zamknit ptl.

Odporno na deformacje – litery na rysunku 2 s topologicznie takie same – s odporne na rozciganie czy zgniatanie – to oznacza du odporno na szum.

• Skompresowana reprezentacja – du, a nawet nieskoczon liczb punktów moemy przybli-y przy pomocy niewielkiej liczby wierzchołków i krawdzi. Okrg jest topologicznie tosamy z szecioktem jak równie z czworoktem i trójktem.

Rysunek 2. Idee topologiczne: niezaleno od współrzdnych, odporno na deformacj, skompresowana reprezentacja

ródło: [9].

Podatno na kompresj jest wykorzystywana do analizy i klasyfikacji wielowymiarowych zbiorów danych i szukania w nich zalenoci. Oczywicie stopie kompresji danych mona regulo-wa. Moe to wyglda na odpowiednik znanych technik klastrowania danych, ale moe da lepsze rezultaty, zwłaszcza wraz ze wzrostem wymiaru analizowanej przestrzeni danych. Kompresja nie zaburza relacji midzy podobnymi danymi, które podczas klastrowania wzgldem wybranych cech mog trafi do rónych grup. Szerzej omawia to Carlsson [5] na przykładzie dokonanych przez firm Ayasdi analizy profilów genetycznych pacjentek chorujcych na raka piersi. W tym wypadku dane miały po 1500 cech. Analiza topologiczna w odrónieniu od tradycyjnego podziału pozwoliła wy-odrbni grup pacjentek o wysokich szansach wyleczenia.

W praktyce poddawane analizie dane zwykle s tylko ograniczon próbk pobran z badanej dziedziny. Analizie podlega nie zbiór cigły, ale chmura punktów nalecych do badanego zbioru. Standardowym algorytmem słucym do przedstawienia kluczowych topologicznych informacji

(4)

o zbiorze punktów jest Mapper [13]. Jego działanie polega na zredukowaniu przy pomocy dobra-nych funkcji filtrujcych zbioru pobliskich punktów do pojedynczego punktu zbiorczego oraz połczenia krawdziami punktów zbiorczych znajdujcych si blisko siebie. Rezultatem jego dzia-łania jest graf bdcy topologicznym podsumowaniem pierwotnego zbioru punktów [10]. W zalenoci od wybranych funkcji filtrujcych i załoonej dokładnoci mona sprowadzi okrg do rónych wieloktów. Równoczenie, jeeli podobnemu mapowaniu poddamy losowy zbiór punk-tów okrgu to wynikiem bdzie podobny graf. Podstawowe własnoci topologiczne zbioru punkpunk-tów mona odczyta mapujc jego ograniczony podzbiór. Na poniszym rysunku przedstawiono grafy reprezentujce trójwymiarowy model królika uzyskane na podstawie mapowania odpowiednio pi-ciu tysicy i pipi-ciuset losowo wybranych punktów modelu.

Rysunek 3. Zbiory, odpowiednio 5000 i 500 losowo wybranych punktów z trójwymiarowego mo-delu królika i ich grafy topologiczne uzyskane przy pomocy algorytmu Mapper

ródło: na podstawie [9].

Podsumowujc, topologiczny kształt danych pozwala na ich uproszczenie i wyrónienie punk-tów o podobnych charakterystykach. Pozwala to uproci struktur, zorientowa si w zalenociach midzy danymi i dokonywa predykcji. Najwaniejsz zalet topologicznego spojrzenia na dane jest brak koniecznoci robienia wstpnych załoe i znajomoci dziedziny, których dane dotycz oraz brak ogranicze co do wymiaru danych.

W odrónieniu od innych metod nie szukamy odpowiedzi na to czy istnieje jaka zaleno, ale szukamy dowolnych istniejcych zalenoci midzy danymi. Pozwala to na zauwaenie niebranych wczeniej pod uwag czynników. Z drugiej strony poznanie kształtu danych zwykle nie daje odpo-wiedzi dlaczego dane zalenoci wystpuj. W wypadku danych, których własnoci topologiczne nie s wystarczajcym wyrónikiem mona stosowa maskowanie, które nada analizowanemu zbio-rowi podane własnoci [12]. Topologiczna analiza danych moe by pierwszym, ale niekoniecznie jedynym sposobem eksploracji danych.

2. Homologia persystentna

Homologia persystentna jest metod algebraiczn mierzenia topologicznych własnoci kształ-tów i funkcji [7, 1–2]. W wypadku chmury punkkształ-tów n-wymiarowych główn ide jest stopniowe „pogrubianie” punktów i sprawdzanie, w których momentach nastpuj zmiany własnoci topolo-gicznych analizowanego zbioru. Jako zmian własnoci traktujemy pojawianie si i zanikanie k-wymiarowych dziur (k < n). Jeeli zbiór analizowanych punktów oznaczymy przez X0 to

(5)

X0 X1 X2 …  Xm (1)

Najczciej taka sekwencja przestrzeni powstaje ze zbioru przeciwobrazów funkcji f : X  R takiej, e Xi = f -1((-, ai]) dla a0 a1 …  am. Dla cigu zbiorów Xi moemy wyznaczy cig klas

homologii dla dowolnego wymiaru p.

Hp(X0)  Hp(X1)  ….  Hp(Xm) (2)

Wraz z powikszaniem zbiorów Xi pojawiaj si i znikaj (zostaj włczone do innych) klasy

homologii. Jako czas ycia klasy okrelamy zakres iteracji [i, j] od momentu pojawienia si danej klasy do włczenia jej do innej. Matematyczne podstawy szerzej omawiaj midzy innymi Edels-brunner i Harer [6]. W praktyce dla kadego zbioru Xi obliczamy liczby Bettiego i obserwujemy ich

zmienno odpowiadajc długoci ycia poszczególnych dziur k-wymiarowych.

Najprostszym sposobem stworzenia cigu zbiorów Xi dla chmury punktów jest dokładanie

w kadym kroku do kadego punktu jego otoczenia o promieniu εi, gdzie ε1 ε2 … εm.

Rysunek 4. Przykładowa chmura punktów na płaszczy nie

ródło: opracowanie własne.

Rysunek 4 przedstawia przykładow chmur siedemnastu punktów na płaszczy nie. Poddajemy j analizie poprzez pogrubianie punktów – stworzenie kolejnych cigu przestrzeni homologicznych. Graficznie reprezentuj to okrgi o coraz wikszych promieniach ε. Rezultaty dla kilku wybranych ε prezentuje rysunek 5.

(6)

Rysunek 5. Pogrubienia chmury punktów z rysunku 4 dla kilku wybranych promieni

ródło: opracowanie własne.

Pierwotna chmura punktów składa si z 17 niezalenych składowych, czyli liczba Bettiego 0

wynosi dla niej 17, a kolejne liczby Bettiego 0. Dla ε = 30 nastpiło ju pierwsze połczenie, czyli 0 dla X30 wynosi 16. Kolejne iteracje powoduj zanikanie kolejnych klas topologicznych. Zbiór

X48 ma ju tylko 5 składowych niezalenych natomiast pojawiły si ju w nim dwa cykle, czyli dwie

dziury jednowymiarowe – 0 = 5, 1 = 2. Warto zauway, e w kolejnych iteracjach 0 moe tylko

male – nie ma moliwoci pojawienia si nowych niezalenych składowych. Natomiast dziury mog pojawia si i znika w kolejnych krokach.

(7)

Czas ycia czyli persystencja dziur widocznych dla ε48 nie jest długa. Jednej z nich nie ma ju

na rysunku w 60-tej iteracji, kolejnej w 75-tej. Zbiór X75 ma ju tylko jedn składow oraz pojawiła

si w nim nowa dziura – 0 = 1, 1 = 1. Taka homologia utrzymuje si relatywnie długo. W 150-tej

iteracji pozostaje ju tylko jedna składowa spójna bez dziur, kolejne iteracje ju tego nie zmieni. Dla kadego skoczonego zbioru punktów mona znale  ε, którego zwikszanie nie zmieni ju klas homologii, a wic wystarczy skoczona liczba iteracji.

Załoeniem topologicznej analizy danych jest znalezienie istotnych zalenoci midzy danymi na podstawie ich kształtu. O istotnoci danej homologii wiadczy jej persystencja, czyli czas ycia. W przedstawionym przykładzie najdłuszy czas ycia miał układ z jedn składow spójn i jedn dziur. Odpowiada to kształtowi punktów na płaszczy nie układajcych si w zamknity owalny kształt. Dwie dziury o krótkiej persystencji mog wiadczy o istnieniu mniej istotnych cech lokal-nych lub by szumem informacyjnym.

W wypadku przestrzeni wielowymiarowej taka wizualizacja nie jest ju moliwa. Do znajdo-wania zalenoci słu wykresy słupkowe barcode tworzone dla kadego wymiaru. Na osi poziomej oznacza si iteracje, a na osi pionowej klasy homologii. Poziome słupki wykresu oznaczaj czas ycia poszczególnych klas.

Rysunek 6. Wykres barcode persystencji klas homologii dla chmury punktów z rysunku 4

(8)

Rysunek 6 przedstawia wykres barcode dla chmury punktów z rysunku 4. Dla homologii wy-miaru 0 czyli niezalenych składowych mamy 17 słupków zaczynajcych si od zerowej iteracji. Mona zauway wczesne połczenie dwu pierwszych punktów, nastpnie niemal równoczesne ł-czenie kilkunastu pozostałych klas. Pi klas yjcych troch dłuej mona interpretowa jako skupiska o bardziej zblionych własnociach lub, ze wzgldu na niedu rónic w czasie ycia jako efekt niereprezentatywnoci analizowanych danych. Wyra nie róni si długoci słupki dla klas wymiaru 1 czyli dziur. Dwie pojawiajce si wczeniej maj krótki czas ycia – obrazuj cechy mało istotne lub szum informacyjny. Trzeci słupek wskazuje przez sw długo cech istotn.

Obecnie istniej publicznie dostpne implementacje algorytmów, które dla zadanej chmury punktów tworz wykresy barcode. Jedn z nich jest dostpna z kodami ródłowymi biblioteka Ja-vaPlex rozwijana głównie na Uniwersytecie Stanforda [1].

Innym sposobem prezentacji czasu ycia klas jest diagram persystencji, uywany zwykle dla pokazania homologii o niezerowym wymiarze. Jest to wykres odmierzajcy na osi poziomej czas narodzin, a na osi pionowej czas mierci danej klasy. Klasy s oznaczone punktami lecymi powy-ej diagonali x = y (czas mierci nie moe by mniejszy ni narodzin). Punkty znajdujce si blisko diagonali to potencjalny szum, obiekty strukturalne znajduj si daleko od niej. Rysunek 7 przed-stawia diagram persystencji dziur jednowymiarowych dla omawianego przykładu.

Rysunek 7. Diagram persystencji homologii wymiaru 1 dla chmury punktów z rysunku 4

ródło: opracowanie własne.

Wan cech homologii persystentnej jest mała wraliwo na zakłócenia, szum informacyjny, niedokładno danych. Niewielkie przesunicia punktów danych nie s w stanie znaczco zmieni diagramu persystencji i płyncych z niego wniosków. Przesunicie kilku punktów w analizowanym

(9)

zbiorze moe zmieni czasy powstawania i znikania dziur, ale nie zmieni relacji w czasie ycia poszczególnych struktur.

3. Przykłady zastosowa homologii persystentnej

Homologia persystentna bazuje tylko na chmurze punktów danych. Sama metoda nie czyni za-łoe co do charakteru danych. Jej uniwersalno przedstawiaj dwa wybrane przykłady z dziedziny sportu i medycyny.

3.1 Analiza składów zespołów hokejowych

D. Goldfarb w pracy [8] przeprowadził analiz składów druyn hokejowych z zawodowej ligi NHL w oparciu o oficjalne dane z sezonu 2013/14. Kad z druyn ligi NHL potraktował jako zbiór od 14-tu do 20-tu punktów dwunastowymiarowych. Punkty to zawodnicy, a wymiary to wybrane statystyki zawodników. Mimo małej liczebnoci zbioru liczba wymiarów powoduje trudno w wy-cigniciu wniosków na podstawie tak przedstawionych danych. Kada z druyn była analizowana niezalenie, a celem było porównanie homologii persystentnych poszczególnych zbiorów.

Sił ofensywn druyny hokejowej mierzy si przy pomocy liczby Corsiego bdcej sum zdo-bytych bramek, obronionych, zablokowanych i niecelnych strzałów na bramk. W praktyce, w hokeju daje ona dobre przyblienie czasu posiadania krka. Liczb Corsiego mona wyliczy dla druyny lub zawodnika. Oczywicie wysza liczba Corsiego nie gwarantuje lepszego miejsca w tabeli – obrazuje teoretyczn sił ataku druyny.

Celem badania było sprawdzenie korelacji midzy składem druyny a jej sił ofensywn. Dla kadego z zawodników wzito dane statystyczne dotyczce jego gry (liczb bramek, asyst, przej, kar itp.). Przy pomocy oprogramowania stworzonego na bazie JavaPlex wygenerowano wykresy barcode dla kadej z druyn oraz przeanalizowano homologie zero i jednowymiarowe, nie powstały adne o wyszym wymiarze.

W wypadku najmocniejszych druyn słupki dla składowych niezalenych były długie. Oznacza to w praktyce wiksze zrónicowanie zespołu, brak zawodników o bardzo zblionych statystykach. Na barcode najlepszych druyn nie wystpowały homologie jednowymiarowe lub miały krótki czas ycia. Dziury jednowymiarowe tworzce „tunele” odpowiadaj za nierównomierne rozłoenie cech zawodników. Najlepsze druyny miały długie słupki dla wymiaru zero i brak słupków dla wymiaru jeden. Druyny najsłabsze miały podobne długoci słupków zerowego wymiaru jak te o rednich wartociach liczby Corsiego, ale miały po jednej lub dwu długich homologiach jednowymiarowych. Wystpiła silna korelacja midzy redni persystencj homologii wymiaru zero oraz jako dodatko-wym czynnikiem iloci i czasem ycia dziur jednododatko-wymiarowych a liczb Corsiego dla druyny.

Praktycznym zastosowaniem moe by porównanie rónych składów druyn i zauwaenie ich deficytów. Wykrycie dziury nie pozwala na bezporednie wskazanie jej przyczyny – nie podaje wprost jakiego zawodnika brakuje w zespole. Moe jednak słuy do analizy sensownoci dokona-nia transferów. Podmiedokona-niajc w chmurze punktów dane zawodnika w druynie danymi jego potencjalnego zastpcy mona od razu uzyska odpowied czy wpłynie to pozytywnie na jako ofensywy. W analizowanych danych podmiana jednego zawodnika w składzie jednej ze słabszych druyn pozwoliła nieznacznie poprawi zrónicowanie zespołu oraz całkowicie wyeliminowa jedn z dwu dziur jednowymiarowych.

(10)

3.2 Analiza drzew ttnic mózgowych

Jednym z przykładów na zastosowanie topologicznej analizy danych medycznych jest opisane w pracy [3] zastosowanie homologii persystentnej do analizy trójwymiarowych obrazów rezonansu magnetycznego mózgu w celu oceny znajdujcego si w nim drzewa ttnic. Długofalowym celem bada jest wczesna diagnostyka zmian chorobowych. W pierwszym etapie analizie poddano dane 98 zdrowych osób o rónym wieku i płci. W tym wypadku jedynymi istotnymi kryteriami rónicu-jcymi powinny by wiek i płe badanych. Zalenoci te s ju znane i przeprowadzona analiza miała na celu zweryfikowanie metody badawczej.

Oryginalne dane zawierały około 105 wierzchołków tworzcych drzewo o około 200–300

gał-ziach. Zakładajc stabilno homologii persystentnej przy duej kompresji danych do analizy brano próbki po 3000 punktów na drzewo. Wygenerowano diagramy persystencji zero- i jednowymiaro-wej. Udało si wskaza korelacj midzy zebranymi danymi, a płci i wiekiem badanej osoby. Wiek mona było okreli na podstawie liczby składowych niezalenych, a płe na podstawie liczby cyklów.

Punkty z obu diagramów posortowano według długoci ich ycia. Pierwotnie wybrano po sto punktów o najwikszej persystencji. Nastpnie przeanalizowano, czy wystarczy wzi pod uwag te o najdłuszej persystencji, czy odrzucenie krótszych wpłynie na korelacj diagramów z wiekiem i płci badanego. Okazało si, e o ile wystarczy ograniczony podzbiór to elementy o najdłuszej persystencji nie s dobrym wyrónikiem. Przykładowo klasy majce dwa najdłusze słupki nieza-lenych składowych dawały niski współczynnik korelacji z wiekiem, a najwysz indywidualn korelacj wykazywała klasa o 28-mym czasie ycia. Podobne zalenoci zachodziły dla korelacji z wiekiem. Wytłumaczeniem moe by to, e cechy najbardziej charakterystyczne s wspólne dla wszystkich mózgów ludzkich, a dopiero cechy drugorzdne s zrónicowane.

Przeprowadzone badania wykazały istnienie korelacji midzy diagramami persystencji punk-tów z obrazu ttnic mózgowych a wiekiem i płci badanych. Jest ona zgodna z badaniami prowadzonymi wczeniej innymi metodami.

4. Podsumowanie

Celem topologicznej analizy danych jest uycie idei topologii i geometrii w celu znalezienia interesujcych własnoci zbioru danych wielowymiarowych. Jej głównym narzdziem obliczenio-wym jest homologia persystentna. Mimo jej intuicyjnej prostoty jest to metoda złoona obliczeniowo, zwłaszcza dla duych zbiorów danych. Pierwsze zastosowania pokazuj, e moe by uyteczna – pozwala odkry zalenoci midzy danymi bez wczeniejszych załoe. Jej główne zalety to uniwersalno, odporno na szum informacyjny, podatno na kompresj danych. Wad moe by brak moliwoci wskazania przyczyn znalezionych zalenoci. Dalszych bada wymaga weryfikacja jej przydatnoci i opłacalnoci dla analizy danych z rónych dziedzin.

(11)

Bibliografia

[1] Adams H., Tausz A., JavaPlex Tutorial,

https://github.com/appliedtopology/javaplex/files/172424/javaplex_tutorial.pdf, dostp: [2017.03.25].

[2] Ayasdi, https://www.ayasdi.com/company/, dostp: [2017.03.25]

[3] Bendich P. i in., Persistent homology analysis of brain artery trees [w:] The annals of applied

statistics 10, 2016.

[4] Carlsson G., Topology and data, [w:] Bulletin of the American Mathematical Society 46.2, 2009.

[5] Carlsson G., Why TDA and Clustering Are Not The Same Thing, Ayasdi 2016,

https://www.ayasdi.com/blog/machine-intelligence/why-tda-and-clustering-are-different/, dostp: [2017.03.25].

[6] Edelsbrunner, H., Harer, J. Computational Topology: An Introduction, American Mathematical Society, 2010.

[7] Edelsbrunner, H., Harer, J., Persistent homology – a survey [w:] Contemporary mathematics

453, 2008

[8] Goldfarb D., An Application of Topological Data Analysis to Hockey Analytics, arXiv preprint arXiv:1409.7635, 2014.

[9] Kraft R., Illustrations of Data Analysis Using the Mapper Algorithm and Persistent

Homology, KTH Royal Institute of Technology, Stockholm 2016.

[10] Lum P. Y. i in., Extracting insights from the shape of complex data using topology [w:]

Scientific Reports vol. 3, 2013.

[11] Manyika J. i in., Big data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute 2011,

http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_in novation, dostp: [2017.03.25].

[12] Mrozek M. i in., Homological methods for extraction and analysis of linear features in

multidimensional images [w:] Pattern Recognition 45.1, 2012.

[13] Singh G., Memoli F., Carlsson G., Mapper: a topological mapping tool for point cloud data [w:] Eurographics symposium on point-based graphics, 1991.

(12)

APPLICATIONS OF TOPOLOGICAL DATA ANALYSE Summary

Topological data analysis is a new way to analyse large data sets. Its purpose is to know the shape of the data and to draw conclusions from it. This article discusses the basic concepts related to the topological shape of the data. Describes the assumptions and methods of calculating persistence homology. Its purpose is to analyse the data points cloud to group them and to find relationships between them. The method works in any n-dimensional space and does not require prior assumptions as to the relationships to be found. Barcodes and persistence diagrams are used for presenting results. The article points out the advantages and limitations of the method. It shows examples of persistence homology in the field of sport and medicine.

Keywords: Topological data analysis, data shape, persistence homology, barcode, persistence diagram, big data

Artur uwała Katedra Informatyki Wydział Zarzdzania

Uniwersytet Ekonomiczny w Krakowie e-mail: artur.zuwala@uek.krakow.pl

Cytaty

Powiązane dokumenty

Czyli jeżeli wiemy (lub zakładamy), że próbka jest realizacją pewnej zmiennej losowej, to średnia z próbki dobrze przybliża wartość oczekiwaną... Dziennik podzielony jest na

Przez poziom ufności możemy rozumieć prawdopodobieństwo, że nieznana wartość statystyki rzeczywiście należy do..

- wersja dla decyzji ciągłej: odpowiedzią jest zawsze średnia decyzja na zbiorze treningowym;.. - niewielka skuteczność, ale możemy

- selekcja obiektów – wybór pewnego podzbioru dającego zbliżone wyniki klasyfikacji. - podział zbioru obiektów na podzbiory i przeszukiwanie tylko niektórych

- wybieramy test i dokonujemy podziału - sprawdzamy kryterium stopu.. Kryterium stopu: Najprostsze – gdy nie ma już

5 Rain Cold Normal Weak Yes 6 Rain Cold Normal Strong No 7 Overcast Cold Normal Strong Yes 8 Sunny Mild High Weak No 9 Sunny Cold Normal Weak Yes 10 Rain Mild Normal Weak Yes 11

Celem metod grupowania (clustering) jest łączenie obiektów w większe grupy na podstawie ich wzajemnego podobieństwa.. Cechy obiektów

Globalny Program Akademicki SAS uwzględnia specyfikę wymagań rynku polskiego oraz oczekiwania UE, reprezentowane przez