Czym jest big data?

W dokumencie 1. Ewolucja rozwoju studiów nad przyszłością (Stron 58-62)

Big data – wielkie perspektywy i wielkie problemy

1. Czym jest big data?

Potencjał big data został po raz pierwszy użyty w celach naukowych w dziedzinie genetyki i astronomii, gdzie zetknięto się z bardzo dużą ilością danych, których ana-lizy mogły przyczynić się do realizacji wcześniej niemożliwych do osiągnięcia celów5.

Terminowi big data trudno jest przypisać jednoznaczną definicję. W dosłownym tłu-maczeniu oznacza on „duże dane” lub „wielkie dane”. Tłumaczenie to jednak nie oddaje w pełni znaczenie tego terminu, ponieważ wskazuje jedynie na tworzenie rozbudowa-nych katalogów informacji. Rozumienie to jest charakterystyczne dla początkowych defi-nicji big data, które powstały u schyłku XX wieku. W 1997 roku M. Cox i D. Ellsworth okre-ślili big data jako duże zbiory danych, które należy powiększać w celu wykonania analizy, mającej na celu wydobycie istotnych wartości informacyjnych6. Big data to jednak więcej niż wielkie zbiory informacji. W dalszym etapie rozwoju nurtów badawczych związa-nych z wykorzystaniem dużych baz dazwiąza-nych nacisk położony został przede wszystkim na poszukiwanie nowego podejścia do analizy informacji, a nie tylko powiększanie zbiorów.

Na tym gruncie rozwinęła się nowa dziedzina wiedzy – data mining, której celem jest „odkrywanie nowych modeli danych”7. Wspomniane „odkrywanie nowych mo-deli danych” ukierunkowane jest na analizę i przetwarzanie danych zgodnie z opra-cowanym algorytmem, którego zastosowanie pozwala wydobyć nieznane dotąd

zna-5 V. Mayer-Schönberger, K. Cukier, Big data. Rewolucja, która zmieni nasze myślenie pracę i życie, MT Biznes, Warszawa 2014, s. 19.

6 M. Cox, D. Ellsworth, Managing big data for scientific visualization, „ACM Siggraph”, 1997, vol. 97.

7 J. Leskovec, A. Rajaraman, J.D. Ullman, Mining of Massive Datasets, The course CS345A, „Web Mining”, Stanford University, march 2014, s. 1, http://infolab.stanford.edu/~ullman/mmds/book.pdf [dostęp:

05.05.2015].

określane są mianem nowoczesnych analiz data mining, wymagających przetwarzania dużej ilości danych8. W szerszym ujęciu termin big data definiowany jest jako ogół zjawisk przyczyniających się do uzyskania zdolności społeczeństwa do korzystania z informacji w nowatorski sposób, który umożliwia lepsze zrozumienie otaczającej rzeczywistości lub wytworzenie dóbr i usług o znaczącej wartości9.

W sferze gospodarczej przetwarzanie dużej ilości danych stało się domeną dzie-dziny business intelligence, w obrębie której rozwijane są narzędzia – technologie, któ-re teoktó-retycznie mają dysponować podobną do ludzkiej inteligencją. W praktycznym ujęciu systemy BI stanowią przede wszystkim aplikacje umożliwiające zbieranie, analizę i przetwarzanie danych w celu wspomagania procesu podejmowania decyzji w przedsiębiorstwie10. Jeżeli więc aplikacja BI wykorzystywana jest do obróbki dużej ilości danych, można określić, że wpisuje się w obszar big data.

Przedstawione wyżej definicje big data mają charakter uznaniowy, ponieważ nie jest precyzyjnie określone, co rozumiane jest pod pojęciem „dużej ilości danych”.

Podjęte zostały więc próby zaostrzenia kryteriów definicji big data pod kątem spre-cyzowania różnych parametrów. D. Laney z Meta Group11 wskazuje najważniejsze parametry big data z punktu widzenia e-commerce. Są to tzw. „3 V”12:

 Objętość (ang. volume), która odnosi się do wielkości przechowywanych zbio-rów. Objętość danych rośnie, ponieważ koszt przechowywania danych spada, co jest wprost proporcjonalne do skłonności do ich gromadzenia.

 Różnorodność (ang. variety), która odzwierciedla tworzenie danych w rożnych formatach. Powstają następujące kategorie danych:

 strukturyzowane dane liczbowe, które przechowane są w tradycyjnych bazach danych,

 dane produkowane w trybie online poprzez aplikacje biznesowe,

 niestrukturalne dane zawarte w dokumentach tekstowych, wiadomościach e-mail, wideo, audio itp.

 Szybkość przetwarzania (ang. velocity), która określa, z jaką prędkością dane są przekształcane. Szybkość przetwarzania rośnie, co związane jest ze wzro-stem prędkości transmisji pozwalającej na wykonywanie operacji w czasie rzeczywistym. Identyfikatory RFID, czujniki czy inteligentne liczniki to tylko przykłady wybranych systemów, w których zbierane dane muszą być prze-twarzane niezwykle szybko.

8 Tamże, s. 21.

9 V. Mayer-Schönberger, K. Cukier, dz. cyt., s. 15.

10 Szerzej zob. J. Ranjan, Bussiness Intelligence: Concepts, Components, Techniques and Benefites, „Journal of Theoretical and Applied Information Technology”, 2009, vol 9. no 1., s. 60.

11 W 2005 roku przejęta przez Gartner.

12 D. Laney, Data Management: Controlling Data Volume, Velocity, and Variety, Application Delivery Strategies, META Group, 6 February, 2001, http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf [dostęp: 05.05.2015].

 Zmienność (ang. variability), która związana jest z brakiem porządku i syste-matyczności w tworzeniu danych. Informacje powstają w sposób nieprzewi-dziany, np. w mediach społecznościowych, stanowiąc reakcję na dany bodziec.

Ich nagłe nieoczekiwane narastanie może spowodować trudności w obsłuże-niu wzmożonego ruchu, określanego jako „pik danych”.

 Złożoność (ang. complexity), która wynika z powstawania danych w rożnych źródłach. Wytworzone w big data dane stanowią zlepek rożnych informacji, a więc pewną kombinację matryc danych. Dane te wymagają wzajemnej syn-chronizacji, zbudowania hierarchii, zorganizowania i ich powiązania. Tworzo-ne są w ten sposób skomplikowaTworzo-ne struktury danych.

Amerykański IBM, uzupełniając przedstawioną listę parametrów, dodał do niej również14:

 Prawdziwość (ang. veracity), która wskazuje, w jakim stopniu dane oddają stan rzeczywisty zjawiska. Wobec dużej ilości informacji pojawia się niepewność i brak zaufania do ich źródeł, a przecież to właśnie wiarygodność analizowa-nych daanalizowa-nych jest kluczowym elementem w podejmowaniu decyzji biznesowych.

Jedną z ciekawych prób zdefiniowania terminu big data były badania podjęte w Berke-ley School of Information, które polegały na zapytaniu czterdziestu liderów firm techno-logicznych o to, czym jest big data. Z kluczowych słów wyrażających przedstawione przez badanych definicje stworzono mapę, która miała oddawać sens tego terminu (zob. ryc. 1).

13 http://www.sas.com/en_us/insights/big-data/what-is-big-data.html [dostęp: 05.05.2015].

14 http://www.ibmbigdatahub.com/infographic/four-vs-big-data [dostęp: 05.05.2015]

Ryc. 1. Najczęściej powtarzające się określenia w definicjach big data podawanych przez lide-rów firm technologicznych

Źródło: http://datascience.berkeley.edu/what-is-big-data/ [dostęp: 05.05.2015].

big data może być rozumiany na bardzo wiele sposobów. Różnorodność ta wynika z eksponowania wymiaru użyteczności w procesie tworzenia definicji. Definicje big data mają przede wszystkim utylitarny charakter i są skoncentrowane bardziej na uwi-docznieniu możliwości wykorzystania big data niż na naukowym opisaniu zjawiska.

W literaturze i praktyce gospodarczej można doszukać się ponadto wielu opinii kry-tycznych na temat dotychczasowych prób definiowania big data. V. Mayer-SchÖnber-ger i K. Cukier, wskazują, że „na temat pochodzenia terminu big data prowadzona jest głośna i bezproduktywna debata”, jednocześnie dodając, że definicja D. Laney’a była

„w tamtym okresie określeniem przydatnym lecz niedoskonałym”15. Podobne zdanie prezentuje B. Frank, chief analytics officer w Teradata, która jest światowym liderem rozwiązań big data. B. Frank jest autorem artykułu Defining Big Data In Two Words:

Who Cares?, w którym stwierdza, że wszystkie określone w przywołanych wcześniej definicjach wymiary „V” są wtórne wobec wartości danych (ang. value). Parametr ten określony został przez B. Franka jako „Uber-V”, ponieważ wskazuje na wartość bizne-sową, jaką dane stanowią dla przedsiębiorstwa, wobec której pozostałe cechy big data mają jedynie charakter pomocniczy. B. Frank twierdzi, że bez różnicy jest, jak dane są skomplikowane, jaką mają objętość oraz jaki format – istotne jest, jak przetworzyć je w sposób istotny dla przedsiębiorstwa16.

Problemem definiowania znaczenia terminu big data jest niespójność w sposobie doboru określeń takich jak zjawisko, trend, rozwiązanie, analiza. Terminy te pojawia-ją się zamiennie. Brakuje w tym zakresie spójnego podejścia. Dlatego autorka propo-nuje określić big data jako ogół działań związanych z analizą i przetwarzaniem dużej ilości danych, ukierunkowanych na pozyskanie nowej wiedzy lub stworzenie warto-ści o znaczeniu biznesowym albo społecznym, które mogą tworzyć nowe jakowarto-ściowo zjawiska zmieniające rynki, organizacje i relacje między rządami a obywatelami. Wy-mienione rezultaty działań możliwe są do zrealizowania jedynie w dużej skali i nie mogły być uzyskane w małej17.

Dlatego dalej posługiwano się będzie następującymi pojęciami w kontekście big data:

 Analizy big data, które oznaczają ogół aktywności analitycznych realizowa-nych na dużych zbiorach informacji i które podejmowane są z wykorzysta-niem specjalistycznych narzędzi, np. algorytmów, aplikacji, modeli.

 Rozwiązania big data, które opracowywane są w celu uzyskania określonych wymiernych rezultatów. Charakteryzują się określoną architekturą, która obej-muje infrastrukturę, algorytmy oraz narzędzia analityczne wykorzystywane do wykonywania analiz big data, według ustalonego modelu analitycznego.

15 http://www.ibmbigdatahub.com/infographic/four-vs-big-data [dostęp: 05.05.2015]

16 Szerzej zob. http://www.forbes.com/sites/teradata/2014/11/19/defining-big-data-in-two-words--who-cares [dostęp: 05.05.2015].

17 Por. V. Mayer-Schönberger, K. Cukier, dz. cyt.

kierunek w analizie danych, skoncentrowany na przetwarzaniu wielkiej ilości informacji.

W dokumencie 1. Ewolucja rozwoju studiów nad przyszłością (Stron 58-62)