Recenzja rozprawy doktorskiej mgra inż. Michała Simona pt. Fault tolerant data acquisition through dynamic load scheduling

(1)

Prof. dr hab. inż. T adeusz Czachórski

Instytut Inform atyki. W ydz. AEil Politechniki Śląskiej

Gliwice, 20.02.2014 r.

R ecenzja pracy doktorskiej m gr inż. M ich ała Sim o n a

„ F a u lt T o le r a n t Data A cqu isition through D ynam ie Load S c h e d u lin g ”

(„ O d p o rn a na błędy ak w iz yc ja danych p o p rzez d y n a m icz n e sz er e gow a n ie obciążenia”).

K ontekst pacy.

Praca dotyczy bardzo istotnego i obecnie intensywnie rozw ijanego działu informatyki - przetw arzania bardzo dużej liczby danych, tzw. Big Data, co m a m iejsce w różnych zasto sowaniach, m.in. w m eteorologii, biologii m olekularnej (analiza genom u), tworzeniu map połączeń neuronalnych, ekologii, krym inologii, badaniach środowiska, astronom ii (analiza zbieranych przez teleskopy danych), a także, jak w przypadku om awianej pracy, w analizie danych rejestrow anych w trakcie złożonych doświadczeń fizycznych, w szczególności w dziedzinie fizyki cząsteczkow ej.

Praca proponuje ulepszenia bardzo rozbudow anego i w yspecjalizow anego systemu akwizycji danych w ykorzystyw anego przez detektor Com pact M uon Solenoid (CM S) przy W ielkim Zderzaczu H adronów (ang. Large Hadron Collider - LHC) w ośrodku badawczym CERN w Genewie. LHC je st obecnie największym akceleratorem kołow ym na świecie (ma długość 27 km) skonstruow anym , aby przyśpieszać, a następnie zderzać dwie przeciwległe wiązki hadronów (protony lub ciężkie jony) z energią 14 TeV.

Celem CM S je st badanie kolizji, które zachodzą w akceleratorze LHC. Detektor skła da się z wielu w arstw detektorów odpow iedzialnych za rów noczesne pomiary różnego rodza ju zjawisk oraz z olbrzym iego solenoidu, który dostarcza pola m agnetycznego różnicującego tory powstałych w kolizji cząstek. Ponieważ praw dopodobieństw o, że w czasie kolizji nastą pią interesujące z punktu w idzenia dośw iadczenia zjaw iska (np. św iadczące o istnieniu bozo nu H iggsa) je st bardzo małe, trzeba wykonać ogrom ną liczbę kolizji i obserwować skutki każdej z nich. W ykonuje się to z częstotliw ością kilkudziesięciu m ilionów kolizji na sekundę. Ponieważ brak w ystarczającej pamięci do zapisu w szystkich zarejestrow anych w ekspery m encie danych, konieczna je st ich filtracja, do czego służą dedykow ane układy FPGA, tak że rejestruje się dane z częstotliw ością ok. 1000 razy mniejszą. Dane przesyłane są siecią do farm kom puterów filtrujących i rozdzielane pom iędzy nie za pom ocą algorytm u round-robin; każda farma je st zorganizow ana wokół pojedynczego switcha, a zrów noleglenie w farmie osiągnięte je st za pom ocą techniki Single Process, M ultiple Data. O dbiór danych jest wyko nywany przez w yspecjalizow ane w ęzły odbiorcze, z których każdy jest odpowiedzialny za odbiór danych opisujących kilka fragm entów kolizji oraz za w stępne złożenie tych fragmen tów w w iększe elem enty (super-fragm enty), które węzeł nadzorujący farmę przydziela proce

(2)

som rekonstruującym kolizję. N astępnie dane trafiają do jednego z procesów filtrujących, który odpow iada za selekcję interesujących kolizji na podstaw ie pełnej informacji. Procesy rekonstrukcyjny i filtrujący znajdują się na tym sam ym węźle obliczeniow ym

Układ pracy

Praca obejm uje siedem rozdziałów oraz w ykaz cytowanej literatury.

W pierwszym rozdziale autor krótko scharakteryzował problem , którego dotyczy praca - pod je inform acje o W ielkim Zderzaczu Hadronów' i eksperym encie CM S, na potrzeby którego pow stał projekt opisany w rozpraw ie doktorskiej. W kontekście tego eksperym entu zdefinio wano istotne dla projektu pojęcia szeregow ania i rów now ażenia obciążenia, a następnie sfor mułowano cele badaw cze oraz tezy pracy. Tezy pracy m ożna przetłum aczyć następująco:

• D ynam iczne szeregow anie obciążenia w pływa pozytyw nie na niezawodność rozpro szonego system u akw izycji danych

• Asynchroniczne, rozproszone szeregowanie obciążenia m oże zostać przeprow adzone na horyzontalnie podziełnym , rozproszonym strum ieniu danych p o d warunkiem, że każdy z podstrum ieni dostarcza dane w tej sam ej kolejności.

W rozdziale drugim przedstaw iono przegląd algorytm ów szeregow ania i rów noważenia ob ciążenia; w szczególności dokonano przeglądu algorytm ów szeregow ania obciążenia zasto sowanych w system ach akw izycji danych innych eksperymentów' fizyki wysokich energii. Om ów iono algorytm y, które zw iększają odporność system u na aw arie poprzez szeregowanie obciążenia i sam o-stabilizację.

Trzeci rozdział pracy zaw iera szczegółow y opis systemu akwizycji danych eksperymentu CMS. O m ów iony został dw ustopniow y sposób filtracji rejestrow anych danych dotyczących kolizji, oraz sposób, w jaki system dokonuje rekonstrukcji całości danych opisujących po szczególne kolizje. Dane opisujące pojedyncze kolizje hadronów są odczytyw ane z milionów kanałów detektora CM S przez system akwizycji danych. Poniew aż ilość napływających da nych (ok. 38 TB na sekundę) przekracza możliwości ich dłuższej rejestracji a większość koli zji nie przynosi ciekaw ych w yników , mało interesujące dane są odfiltrow ywane. Następnie kanały detektora są łączone i tw orzą ok. 500 źródeł danych (nazyw anych w pracy źródłami obciążenia dla rozw ażanego system u filtracji danych), z których każde dostarcza część da nych każdej z zarejestrow anych kolizji. W szystkie fragmenty danych z zarejestrow anych ko lizji są następnie przesyłane przy pom ocy nieblokującej sieci M yrinet do farm kom puterów filtrujących i scalających dane opisujące kolizje. Dotychczas stosow ana statyczna metoda szeregow ania obciążenia oparta je st na założeniu, że przepustow ość farm kom puterów filtru jących jest z góry znana przed rozpoczęciem procesu akwizycji danych i nie ulega zmianie w trakcie tego procesu. W przypadku w ystąpienia awarii któregoś z kom puterów tworzących farm y (ok. 1600 kom puterów klasy PC, z czego ok. 600 je st krytycznych dla całego systemu, a ich awaria pow oduje znaczny spadek przepustow ości) następuje zduszenie częstotliwości akwizycji danych i w efekcie część danych nie jest rejestrow ana i przepada. Tymczasem su

(3)

m aryczne m ożliw ości czynnych w dalszym ciągu kom puterów w zupełności w ystarczyłyby do filtracji i rejestracji w szystkich napływających danych.

W rozdziale czw artym została przeprow adzona analiza wym agań staw ianych przed projekto wanym algorytm em szeregow ania obciążenia. Przedstaw iono rów nież analizę przyczyn utraty danych w system ie akw izycji danych eksperym entu CMS wr roku 2011, a także wyznaczono ilość danych, ja k ą m ożna byłoby uratować przed utratą, gdyby zastosow ana została zapropo now ana w pracy m etoda rów now ażenia obciążenia.

Rozdział piąty zaw iera szczegółow ą analizę proponow anego algorytm u rów now ażenia obcią żenia. Jako podstawy funkcjonow ania tego algorytm u przyjęto prow adzenie bieżącego pom ia ru przepustow ości poszczególnych farm kom puterów filtrujących i scalających dane opisujące kolizje. W tym celu w szystkie węzły dokonujące konkatenacji skorelow anych fragmentów danych w ysyłają inform acje na temat ich lokalnej w ydajności do w ęzła nadzorującego daną farmę. N astępnie w ęzły nadzorujące w ym ieniają się danym i, aby uzyskać redundancję danych pom iarowych oraz ustalają m om ent, w którym należy przekazać dane o w ydajności farm (liczba zrekonstruow anych kolizji w jednostce czasu) do źródeł obciążenia. Każde ze źródeł obciążenia podejm uje decyzję o przydzieleniu fragmentu kolizji farmie obliczeniowej nieza leżnie od innych źródeł. D ecyzja jest podejm ow ana na podstaw ie danych otrzym anych ze w szystkich farm z danego cyklu pomiarowego.

Szeregow anie obciążenia rozpoczyna się, gdy jed n a z farm znajdzie się w stanie niedociąże nia. Węzeł nadzorujący niedociążonej farmy kom puterów filtrujących w ysyła powiadom ienie do pozostałych w ęzłów nadzorujących w celu uruchom ienia procesu we w szystkich farmach jednocześnie. D odatkow o każdy węzeł nadzorujący posiada m askę bitową określającą stan poprawnej pracy lub aw arii każdej z farm kom puterów filtrujących. O m aw iane bilmaski są rozsyłane razem z danym i o obciążeniu, a następnie używane do w ykluczenia niedziałających farm z procesu akw izycji danych. W m om encie, gdy węzeł otrzym uje pow iadom ienie, wysyła on dane o obciążeniu swojej farmy, dane o obciążeniu farmy poprzednika w pierścieniu, oraz bitm askę farm do źródeł obciążenia.

Przesłane dane są podstaw ą podejm ow ania decyzji przez źródła obciążenia o przydziale fragm entów danych opisujących kolizje (czyli obciążeniu) do poszczególnych farm. Każde ze źródeł obciążenia podejm uje decyzję przydziału obciążenia asynchronicznie i niezależnie od pozostałych źródeł na podstaw ie pom iarów obciążenia ze w szystkich farm z danego cyklu pomiarowego. Poniew aż w szystkie źródła obciążenia dostarczają dane dotyczące kolizji w tej samej kolejności oraz dysponują zestawem tych samych pom iarów, decyzja przydziału frag m entarycznych danych tej samej kolizji w każdym ze źródeł będzie taka sama (co zapewnia możliwość skom pletow ania w szystkich fragm entów danych opisujących kolizję w tym sa mym kom puterze jednej z farm). Dane dotyczące poszczególnych kolizji przydzielane są przy użyciu algorytm u karuzelow ego z pom inięciem tych farm, do których w szystkie należne im dane zostały ju ż w ysłane (w pracy rozważano 3 różne im plem entacje algorytm u o różnych złożonościach obliczeniow ych).

(4)

Należy podkreślić, ze opracow any algorytm szeregow ania obciążenia działa w sposób asyn chroniczny i rozproszony, co znaczy, że każde ze źródeł podejm uje decyzję o przydziale fragmentu danych opisujących kolizje do farmy obliczeniowej bez potrzeby kom unikowania się z innymi źródłam i, gdyż tego typu synchronizacja w prow adzałaby zbyt wielkie opóźnienia do systemu.

W szóstym rozdziale pracy przedstaw iono wyniki badań eksperym entalnych, w których spraw dzano w łasności opracow anego algorytm u szeregow ania obciążenia. W pierwszej ko lejności spraw dzono, że w prow adzenie nowego algorytm u (i zw iązanych z nim procesów przesyłania danych) nie w płynęło negatywnie na dostępną przepustow ości sieci nieblokującej Myrinct. O kazało się rów nież, że wydajność procesu filtrowania i scalania fragm entów da nych opisujących kolizje została naw et nieznacznie podw yższona. W ykonane eksperym enty potw ierdziły rów nież, że om aw iany algorytm spełnia w ym agania eksperym entu CMS. Po pierw sze w szystkie fragm enty danych dotyczące jednej kolizji zaw sze trafiają do tej samej farm y obliczeniow ej. Po drugie, przepustow ość w pojedynczym w ęźle odbiorczym farmy obliczeniowej jest w iększa niż 200 M B/s (co jest warunkiem koniecznym do utrzym ania czę stotliwości akwizycji danych na poziom ie 100 kHz).

N astępnie przedstaw iono serię przeprow adzonych eksperym entów , które potwierdziły, że system używ ający dynam icznego algorytm u szeregow ania obciążenia je st znacznie bardziej odporny na aw arie od dotychczas w ykorzystyw anego systemu. W kolejnych eksperymentach sym ulow ano aw arie w ęzłów obliczeniow ych (w tym w ęzłów krytycznych dla działania po szczególnych farm obliczeniow ych) ja k i połączeń sieciowych, a następnie badano odpowiedź systemu na te awarie. W każdym z przeprow adzonych eksperym entów system używający zaproponow anego algorytm u działał znacznie lepiej od standardow ego systemu. Dzięki za proponow anem u algorytm ow i przydział danych odbyw ał się proporcjonalnie do przepusto wości każdej z farm i w ten sposób udało się uniknąć negatyw nego w pływ u uszkodzonych farm na farm y w pełni działające. W ykonane eksperym enty potw ierdziły, że udało się oddzie lić od siebie poszczególne farm y filtrujące, co oznacza, że krytyczna aw aria (włączając w to awarie, które skutkują całkow itą utratą przepustow ości) w jednej z farm filtrujących nie ma żadnego negatyw nego w pływ u na pozostałe farmy.

N ależy podkreślić, ze badania eksperym entalne prow adzono zarów no w systemie testowym jaki i produkcyjnym CM S.

Rozdział siódm y zaw iera podsum ow anie w yników pracy i przedstaw ia najw ażniejsze w nio ski.

O ry g in a ln e w ynik i p ra c y - można do nich zaliczyć :

• przeprow adzenia analizy funkcjonow ania systemu akwizycji danych m ierzonych w detektorze CM S i określenie słabych punktów tego system u,

• opracow anie m etody pom iaru bieżącego obciążenia i przepustow ości farm filtrują cych.

(5)

• opracow anie algorytm u dynam icznego szeregow anie obciążenia, w ykorzystującego zaproponow aną m etrykę obciążenia farm obliczeniowych,

• im plem entacja prototypu algorytm u szeregow ania obciążenia, przetestow anie algo rytm u w system ie testowym jak i produkcyjnym CMS.

• Przeprow adzenie badań potw ierdzających, że algorytm spełnia w ym agania ekspery mentu CM S (przepustow ość nie spada poniżej dopuszczalnej minimalnej wartości; w szystkie dane dotyczące tej samej kolizji trafiają zawsze do tej samej farmy)

• Przeprow adzenie eksperym entów oceniających niezaw odność now ego system u akw i zycji danych w przypadku awarii w ęzłów obliczeniow ych jak i połączeń sieciowych.

A utor pokazał, że zaproponow any algorytm szeregow ania obciążenia zw iększa nieza wodność system u w przypadku awarii w ęzłów obliczeniow ych lub połączeń sieciowych. Zm niejszenie przepustow ości system u jest na tyle niewielkie, że spełnia on dalej wymagania czasowe. Z aobserw ow ano w zrost wydajności (ok. 3,5%) system u m ierzony lizbą zrekonstru owanych opisów kolizji w jednostce czasu, spow odow any bardziej wydajnym zarządzaniem zasobami. W przypadku w ystąpienia awarii (niezależnie czy dotyczy ona połączenia siecio wego czy w ęzła obliczeniow ego) system używ ający zaproponow anego algorytm u wykazuje się znacząco w iększą przepustow ością. W ykorzystano asynchroniczną, rozproszoną metodę szeregow ania obciążenia, a więc każde ze źródeł obciążenia podejm uje decyzję o przydziale opisów kolizji do farm y obliczeniowej bez potrzeby kom unikow ania się z innymi źródłami. Tezy pracy zostały w ten sposób potwierdzone.

Jak zauw aża Autor, słabym punktem zaproponow anej m etody okazał się sposób ko m unikowania się w ęzłów EVM między sobą. Jak w ynika z przeprow adzonych eksperym en tów. mimo że farm y kom puterów filtrujących są identycznie skonstruow ane, nigdy nie osią gają stanu niedociążenia dokładnie w tym samym momencie. Z tego powodu rozważana w pracy m etoda kom unikacji okazała się zawsze sekw encyjna i m ogłaby zostać przyśpieszona poprzez zrów noleglenie (m ożna tu np. zaim plem entować m echanizm m u ltic a s t), a także zop tym alizować procedurę decyzyjną.

Praca je st napisana przejrzyście, jej struktura je st dobrze dostosow ana do założonych celów, języ k nie budzi zastrzeżeń. Wyniki prac zostały opublikow ane - bibliografia zawiera 3 prace D oktoranta: w m ateriałach (i) 25th IEEE International Parał lei & D istributed Process ing Sym posium , Anchorage, (ii) Journal o fP h ysics: Conference Series, (iii) Communications in C om puter a nd Inform ation Science.

Inne uwagi.

A utor świetnie zna system , którym się zajmuje, a proponow ane ulepszenia sprawdza dośw iadczalnie w sposób m etodyczny, obserw ując działanie systemu. Z praktycznego punktu w idzenia je st to najlepsze rozw iązanie. Jednakże praca zyskałaby na ogólności, a jej rezultaty m ogłyby być szerzej w ykorzystane, gdyby problem dynam icznego szeregow ania i rozdziału obciążenia przeanalizow ać w sposób bardziej ogólny i form alny, za pom ocą modeli m atem a tycznych lub sym ulacyjnych (sym ulacja zdarzeń dyskretnych). Literatura dotycząca szerego wania zadań obliczeniowych czy równoważenia obciążenia jest wyjątkowo bogata. Istnieją też

(6)

odpow iednie narzędzia analityczne i program ow e, w czym A utor dobrze się orientuje. Chęt nie poznałbym poglądy D oktoranta na ten temat w czasie obrony pracy.

P o dsum o w an ie:

U w ażam , że rozpraw a doktorska m gr inż. M ichała Simona w pełni spełnia warunki stawiane rozprawom doktorskim przez ustaw ę o stopniu i tytułach naukow ych. A utor wykazał się bar dzo dobra znajom ością problem ów szybkiego przetw arzania danych w bardzo w yspecjalizo wanym system ie, stanow iącym jedno z najbardziej zaaw ansow anych w świecie rozwiązań tego typu, potrafił zaproponow ać oryginalne i konstruktyw ne rozw iązania. W nioskuję o przyjęcie lej pracy jak o rozpraw y doktorskiej i dopuszczenie jej do publicznej obrony.