• Nie Znaleziono Wyników

Wyjaśnienie. Technologie informacyjne dotyczące Big Data służą dostarczaniu szczegółowych analiz, które mogą prowadzić do podejmowania decyzji zapewniających wysoką

2. Częściowo strukturyzowane dane – dane XML

1.7.1.10. Wyjaśnienie. Technologie informacyjne dotyczące Big Data służą dostarczaniu szczegółowych analiz, które mogą prowadzić do podejmowania decyzji zapewniających wysoką

skuteczność, redukcję kosztów oraz redukcję ryzyka w działalności gospodarczej. Korzystanie z Big Data, wymaga opracowanie technologii informatycznych opartych o infrastrukturę umożliwiającą operowanie bardzo wielkimi zbiorowiskami danych w czasie rzeczywistym, z jednoczesnym zapewnieniem prywatności oraz bezpieczeństwa tych danych. Różni dostawcy oprogramowania – dostarczyli, co najmniej kilku platform umożliwiających wykonywanie wzmiankowanych zadań. Platformy te umożliwiają realizację następujących funkcjonalności na Big Data:

a. Przechwytywanie danych,

b. Oczyszczanie i standaryzację danych, c. Przechowywanie danych,

d. Selekcja i wyszukiwanie zależności pomiędzy danymi, e. Dzielenie danych np. według kategorii,

f. Przesyłanie danych,

g. Analiza danych według wskazanych kryteriów, h. Prezentacja danych.

W dalszym ciągu, omówimy jedną z takich platform opartych o algorytm MapReduce - opracowany przez programistów firmy Google, a następnie zrealizowaną, jako Open Source Project przez Apache Software Foundation, pod nazwą HADOOP.

1.7.1.11. Wyjaśnienie. Algorytm nazwany MapReduction realizuje dwa podstawowe zadania:

1. The Map Task: jest pierwszym krokiem algorytmu, który pobiera dane i konwertuje je w zbiór danych (data set), w ramach, którego poszczególne porcje danych są dzielone do postaci mapy n-tek uporządkowanych (klucz, przypisane wartości).

2. The Reduce Task: to kolejny krok algorytmu, w którym mapy n-tek uporządkowanych pobierane są, jako dane wejściowe, a następnie łączone są - w mniejszą liczbę n-tek uporządkowanych. Wykonanie wielokrotne tego kroku, jest poprzedzone jednokrotnym wykonaniem pierwszego kroku algorytmu.

Rysunek 1.7.1.12. Struktura klastra

Realizacja algorytmu wymaga zdefiniowania jednego tzw. JobTracker’a – mastera klastra platformy oraz po jednym tzw. TaskTracker - na każdy podrzędny węzeł (slave) klastra platformy (rys. 1.7.1.12). Master klastra jest odpowiedzialny za zarządzanie zasobami, kolejkowanie zasobów, wykorzystywanie (konsumpcja) zasobów i harmonogramowanie

składowych zadań przez poszczególne węzły typu slave, monitorowanie przebiegu realizacji składowych zadań oraz ponowne uruchamiania wykonywania zadania składowego – w przypadku pojawienia się błędu.

Dla potrzeb realizacji powyższego algorytmu opracowano w oparciu o GFS (Google File System), specjalny rozproszony system plików, który nazwano HDFS (Hadoop Distributed File System), porównaj rys. 1.7.1.13. Każdy plik HDFS jest podzielony na szereg bloków, z których każdy przechowywany w jednym węźle klastra platformy.

Rysunek 1.7.1.13. Schemat platformy Hadoop

Rysunek 1.7.1.14. Struktura sprzętu dla programu Hadoop wg. firmy Intel

Jak już zostało powiedziane, Apache Hadoop – to otwarta implementacja paradygmatu MapReduce Google, która umożliwia tworzenie działających w rozproszeniu aplikacji, przeprowadzające obliczenia na wielkich liczbach danych (przykładowa konfiguracja sprzętowa dla potrzeb platformy Apache Hadoop – rys. 1.7.1.14). Jeszcze zanim Apache Hadoop osiągnął wydanie stabilne, był już wykorzystywany w poważnych zastosowaniach (Amazon, AOL, Facebook, Yahoo). Autorem i kierownikiem projektu Apache Hadoop jest Doug Cutting. Wydanie stabilne 2.7.0, dostępne jest od 21.04.2015.

Piśmiennictwo: Mayer-Schonberger V. M.2.1,Turkinton G. T.8.1.

1.7.2.ZMIANY PODEJŚCIA KONSEKWENCJA PRZETWARZANIA BIG DATA W wyniku pojawienia się Big Data pojawiły się trzy nowe podejścia:

1. Pierwsze dotyczy zdolności do analizowania ogromnej liczby danych z określonej dziedziny i brak konieczności ograniczania się do mniejszych zbiorów – zbudowanych z uśrednionych danych, czyli reprezentantów tworzących próbki danych określonej dziedziny.

2. Drugie polega na gotowości do zajmowania się nieuporządkowanymi danymi płynącymi z rzeczywistego świata i nieprzywiązywaniu wielkiej wagi do ich dokładności.

3. Trzecie dotyczy rosnącego znaczenia korelacji i zrezygnowania z pogoni za odkrywaniem nieuchwytnej przyczynowości.

1.7.2.11. Wyjaśnienie. Co zamiast klasyfikacji? Big Data – spowodowały konieczność odejścia od typowego wcześniej dla nauk eksperymentalnych, operowania małymi zbiorami reprezentantów (próbek), dających się stosunkowo łatwo klasyfikować, np. wprowadzenie:

1. Zamiast próby przyporządkowania każdej danej do ustalonej kategorii, wprowadzenie

„otwartego zbioru tag-ów”, czyli dodawania nowego tag-u, tam gdzie istniejące nie pozwalają zaklasyfikować dodawanych danych do ustalonej kategorii.

2. Tym samym również - akceptujemy możliwość uwzględniania błędów w niektórych z

wprowadzanych tag-ach, co jest nieodłączną cechą – odpowiadającą naturalnemu bezładowi panującego w realnym świecie.

3. Takie podejście, to antidotum na sztuczne systemy, które próbowano narzucić rozgardiaszowi, udając, że wszystko można przedstawić za pomocą jednoznacznych klasyfikacji.

1.7.2.12. Wyjaśnienie. Nowe oblicze Data Mining. W literaturze polskiej termin data mining utożsamia się z takimi pojęciami, jak eksploracja danych, drążenie danych, zgłębianie danych lub odkrywanie wiedzy w zbiorowiskach danych. Ostatnie z wymienionych pojęć nabrało nowego znaczenia w wyniku pojawienia się Big Data. Przez odkrywanie wiedzy rozumiemy cały proces wykorzystania data mining’u w celu "zidentyfikowania i wydobycia niezliczonej ilości modeli analitycznych wiedzy, stosowanie do sprecyzowanych ograniczeń i celów, z wykorzystania wszelkich możliwych metod, techniki narzędzi do przetwarzania wstępnego, modelowania i przekształcania bazy faktów i do oceny wyników wyszukiwania danych". Podsumowania i zależności będące wynikiem eksploracji zwane są modelami lub wzorcami, a ich przykładami mogą być:

 Równania liniowe lub nieliniowe,

 Reguły,

 Grafy,

 Struktury drzewiaste,

 Wzorce rekurencyjne w szeregach czasowych.

W powyższej definicji dane określono, jako dane obserwacyjne, co sugeruje, że gromadzi się je z innych przyczyn niż cele analiz prowadzących do wydobywania wiedzy. Oznacza to, ze cele eksploracji danych nie odgrywają żadnej roli w strategii gromadzenia danych. Jest to cecha, która odróżnia eksplorację danych od statystyki. Inną taką cechą jest wspomniana w definicji wielkość zbiorowisk danych. W przeciwieństwie do statystyki, eksplorację danych stosuje się do Big Data, a nie do jego próbki. Zastosowanie metod data mining obejmuje przede wszystkim automatyczne odkrywanie nieznanych wcześniej wzorców oraz przewidywanie trendów i zachowań. Uogólniając, można wskazać pięć głównych typów zadań (zastosowań) eksploracji danych, które odpowiadają różnym celom osób analizujących dane:

1. Eksploracyjna analiza danych (exploratory data analysis);

2. Modelowanie opisowe (descriptive modeling),

3. Modelowanie przewidujące - predykcyjne (predictive modeling), 4. Odkrywanie wzorców i reguł (pattern and rules search),

5. Wyszukiwanie według zawartości wzorca (pattern similarity search).

1.7.2.13. Wyjaśnienie. Tradycyjne podejście do opisu rzeczywistości, a Big Data. Większość instytucji zajmujących się badaniami rzeczywistości (np. urzędy statystyczne, instytucje badania

popytu, instytucje badania opinii publicznej, itp.), pracują w oparciu o stosunkowo małe próbki danych, z założenia próbki reprezentatywne (tzw. próbki losowe) dla prowadzonego badania.

Od 1934 roku, kiedy Jerzy Neyman21 opublikował pracę poświęconą między innymi, zasadom budowy reprezentatywnych próbek losowych, metoda badań oparta na próbkach (rzekomo reprezentatywnych), była dominującą. Jak pokazała praktyka, nie zawsze udaje się, zbudowanie losowej próbki reprezentatywnej ze względu na przyjęty cel badania. W pewnych sytuacjach, Big Data stwarza możliwość oparcia badania na niemal 100% reprezentacji, co czasami prowadzi do zaskakujących wniosków.

Piśmiennictwo: Mayer-Schonberger Victor M.3.1, Neyman Jerzy N.1.1.

1.7.3.PORÓWNANIE ROI OBLICZANEGO KLASYCZNĄ METODĄ, Z METODĄ BIG DATA

SAS Institute - w publikacji internetowej22, zwócił uwagę na bardzo ciekawy wniosek. Wniosek wynikający z zastosowania podejścia opartego o bezpośrednią analizę Big Data przy wyznaczaniu ROI dla pewnej zrealizowanej inwestycji w porównaniu do klasycznej metody użycia danych z próbki „losowej” za pośrednictwem analitycznej bazy danych z OLAP. Okazało się, co widać na wykresie, że wynik obliczeń oparty o podejście Big Data jest znacznie korzystniejszy od opartych o dane z próbki, wyników OLAP (rys. 1.7.3.10). Oczywiście, jest to prawdopodobnie dość szczególny przypadek. Ale źle dobrane próbki zdarzają się częściej niż myślimy.

Rysunek 1.7.3.10. Porównanie obliczeń próbki i Big Data, zwrotu nakładów ROI (według SAS Institute) Piśmiennictwo: Mayer-Schonberger V. M.3.1., Neyman J. N.1.1.

1.7.4.ANALIZY BIG DATA POKAZUJĄ ISTNIENIE BARDZO WIELU KORELACJI

Korelacja oznacza związek pomiędzy zmiennymi. Analiza korelacji służy do „wychwycenia”

zachodzących związków pomiędzy dwiema różnymi zmiennymi (właściwościami, cechami).

Dotychczas przeprowadzone analizy Big Data wskazują na istnienie bardzo wielu, nieraz wręcz zaskakujących korelacji. W dotychczasowej praktyce, przywykliśmy do szukania związków przyczynowo – skutkowych, bo często wydaje się, że każde zdarzenie musi mieć swoją przyczynę. Tymczasem Big Data uczy nas, że związki korelacyjne są bardzo częste, natomiast związki przyczynowo – skutkowe, występują w rzeczywistości, rzadziej niż nam się to wydaje.

21Jerzy Neuman, On the Two Different Aspects of the Representative Method of Stratified Sampling and the Method of Purposive Selection, “Journal of the Royal Statistical Society” 97, No 4, p. 558-625.

22 Thomas H. Davenport, Jill Dyche – Big Data in Big Companies, International Institute for Analytics, May 2013.

Na marginesie, warto zauważyć, że starożytni Grecy – twórcy rachunku zdań - uznali, że logiczna funkcja implikacji jest odpowiednikiem związku korelacyjnego, a nie związku przyczynowo – skutkowego. Świadczy to o ich głębokiej przenikliwości.

Piśmiennictwo: Mayer-Schonberger V. M.3.1.

Outline

Powiązane dokumenty