Big data – wielkie perspektywy i wielkie problemy
2. Big data – przełom w analizie danych
Idea big data to więcej niż nowy pomysł na to, co zrobić dużą ilością informacji.
Analizy big data mogą dostarczać istotnych wartości ekonomicznych oraz wspierać tworzenie innowacji. W ramach big data wprowadzono więc zasadnicze zmiany do sposobu analizy informacji. Zmiany te dotyczą trzech głównych obszarów18:
Zdolności do analizowania ogromnych ilości danych, przy jednoczesnym bra-ku konieczności ograniczania się do mniejszych zbiorów.
Gotowości do zajmowania się nieuporządkowanymi danymi, chrakteryzujący-mi się niską dokładnością.
Rosnącego znaczenia korelacji, które skłania do poszukiwania związków mię-dzy zjawiskami a nie ich przyczyn.
Pierwsza z wymienionych zmian umożliwia rezygnację ze stosowania prób loso-wych w badaniach na rzecz analizy wszystkich dostępnych danych. W ten sposób wy-eliminowany zostaje pewien sztuczny fragment obserwacji na rzecz obserwacji całego rzeczywistego obrazu zjawiska. Analiza big data daje więc możliwość odnotowania detali, np. subkategorii i segmentów rynku, o których nic nie mówiła próba losowa.
Druga zmiana jest w zasadzie konsekwencją pierwszej, ponieważ obserwacja ogromnej ilości danych zwalnia z potrzeby zachowania ich dużej dokładności. Ze względu na mniejszą liczbę błędów wynikających z próby losowej można zaakcep-tować większą liczbę błędów pomiaru. W przypadku małej ilości danych, aby zacho-wać wiarygodność pomiaru, należy dążyć do jak najbardziej precyzyjnych wyników.
Trzeba również zauważyć, że dokładność jest konsekwencją dobrego przygotowania danych. Natomiast w sytuacji przetwarzania dużej ilości danych, zlokalizowanych na rożnych serwerach i przechowywanych w różnych formatach, nie zawsze jest to moż-liwe. Dlatego analizy big data pozwalają na wysuwanie wniosków w skali „makro”, które być może nie są szczególnie dokładne, ale pokazują kierunek zmian danego trendu lub zjawiska. Analiza ta w skali „mikro” byłaby niemożliwa.
Trzecia zmiana stanowi największy przełom w dotychczas ugruntowanym spo-sobie rozumowania, ponieważ wiąże się z rezygnacją z odkrywania przyczynowości zdarzeń, która wpisana jest naturę ludzkiej ciekawości. „Jako ludzie zdeterminowani jesteśmy do szukania przyczynowości, nawet jeśli jej znajdowanie może wyprowadzić nas na manowce”19. W analizach big data natomiast zamiast przyczyn najważniejsze są korelacje i schematy, które odkrywane są podczas badania. Ujawnione związki mogą pokazywać, że coś się dzieje, ale nie dawać odpowiedzi dlaczego. W przypadku ana-lizy danych medycznych ważne jest, że istnieje zależność między zachorowalnością
18 Tamże, s. 28–35.
19 Tamże, s. 30.
tak się dzieje20.
Porównanie klasycznych analiz danych oraz tych opartych na big data przedstawia tabela 1.
Tab. 1. Klasyczna analiza danych a analiza big data
Źródło: Opracowanie własne.
Zmiana podejścia do analizowania informacji składnia do wniosku, że każdy zbiór danych ma w sobie ukrytą wartość, której ujawnienie może przyczynić się uzyskania korzyści natury biznesowej lub społecznej. Na gruncie tego wniosku wyrosła koncep-cja zwana denatyzacją. Denatyzakoncep-cja koncentruje się na zbieraniu wszystkich dostęp-nych informacji, również tych które pochodzą ze źródeł nigdy wcześniej nie klasyfi-kowanych jako źródła danych, np. miejsce przebywania konkretnej osoby, wibracje silnika, naprężenia występujące w budynku. Dane te mogą zostać zebrane, przetwo-rzone i skwantyfikowane, a następnie wykorzystane w celach prognostycznych, np.
na podstawie danych o wibracjach silnika możemy przewidzieć, czy w niedalekiej przyszłości dojdzie do jego awarii.
Obecnie umiejętnie wykorzystywanie analiz big data może zatem przyczynić się do przybliżenia tego, co z wysokim prawdopodobieństwem wydarzy się w przyszłości.
Wiedza ta pozwala przedsiębiorstwom na sprawne konkurowanie i budowę przewa-gi w oparciu o skuteczniejsze niż konkurencja dostosowanie się do prognozowanych zmian otoczenia. Wykorzystanie big data pozwala budować istotną wartość dla przed-siębiorstwa.
Parametr Klasyczna analiza danych Analiza big data
Badanie korelacji nieistotne istotne
Badania przyczyn istotne nieistotne
dokładność danych wysoka niska
wielkość danych duża Mała
Błędy próby wpływają na wynik Brak
Błędy pomiaru wpływają na wynik nieznaczny wpływ na wynik
Szczegółowość badania wysoka niska
20 Tamże.
21 Tamże, s. 31
W XX wieku stopniowo na znaczeniu tracić zaczęły tradycyjne materialne zasoby, takie jak ziemia, fabryki, maszyny i inne przedmioty natury fizycznej. Coraz większą rolę zaczęła odgrywać własność intelektualna, wiedza oraz niematerialne zasoby, np.
marka. Nadawanie nadmiernej rangi zasobom niematerialnym przyczyniło się nawet do powstania kryzysu bańki internetowej w 2001 roku. W okresie tym fundusze ven-ture capital inwestowały w przedsiębiorstwa ICT, które poza perspektywami rozwoju nie posiadały nic więcej, włączając w to zasoby materialne, finansowe i techniczne.
Obecny sposób postrzegania wartości danych znacząco różni się od tamtejszej per-cepcji. Dane zgromadzone przez przedsiębiorstwa stają się dzisiaj istotną częścią ma-jątku firm, stanowiąc przy tym ważny zasób gospodarczy i fundament nowego mo-delu biznesowego. V. Mayer-Schönberger i K. Cukier przewidują, że odnotowywanie zbiorów danych w bilansach firm jest wyłącznie kwestią czasu22.
Proces budowania wartości danych z wykorzystaniem analiz big data został sche-matycznie przedstawiony na rysunku 2. Proces ten składa się z następujących etapów:
Tworzenie danych.
Ryc. 2. Proces tworzenia wartości danych z wykorzystaniem analiz big data.
Źródło: Opracowanie własne.
Tworzenie
danych Zbieranie
danych Tworzenie
pomysłów Przetwarzanie
danych Wnioskowanie Implementacja Utylizacja Źródła danych Zbiory danych
publiczneDane
danych przez rozmaite źródła. Powstające na tym etapie informacje mogą być jedynie towarzyszącym efektem jakiegoś zjawiska (np. historia zakupów skupia dane, które powstają wtórnie w stosunku do akcji podstawowej – zakupu) lub mogą być produko-wane w sposób świadomy (np. dane medyczne). Obecne ogromne przyrosty danych związane są z mnogością ich źródeł. Wybrane źródła danych, których znaczenie jest szczególnie istotne w obszarze big data przedstawia rysunek 3.
Ryc. 3. Wybrane źródła powstawania danych Źródło: Opracowanie własne.
Charakterystyka źródła danych wpływa na sposób zbierania wytwarzanych przez nie informacji. Etap zbierania danych w procesie tworzenia wartości może więc mieć różnorodny przebieg. Niektóre dane mogą być zbierane w sposób samoistny w okre-ślonych systemach, np. otwieranie i zamykanie drzwi za pomocą karty elektronicznej jest rejestrowane przez dany system bezpieczeństwa. Innego rodzaju dane są syste-matycznie archiwizowane w specjalistycznych bazach danych – np. dane o edukacji, historie choroby. Gromadzenie w bazach danych może być wykonywane pierwotnie, zgodnie z przyjętym zamierzeniem, np. przez GUS, lub wtórnie, przy okazji realizacji jakiegoś celu, np. przez zapisanie przesłanego komunikatu. Dane mogą być zbierane w sposób przymusowy, np. przez Urząd Podatkowy, lub dobrowolny, np. poprzez utworzenie konta na portalu społecznościowym.
Kolejnym, jednocześnie najistotniejszym etapem procesu uzyskiwania wartości jest tworzenie pomysłu, na podstawie którego zostanie sformułowany algorytm ana-lizy danych z wybranego źródła. Dane są powszechne, a dostęp do nich stosunkowo
Cloud Computing
Smart-grid
Samochody elektryczne
Portale społecznościowe
Smart home Smart city
Systemy telekomunikacyjne i teleinformatyczne
Geolokalizacja
Systemy
korporacyjne Internet of things
Analitycy firmy doradczej McKinsey przewidują, że do 2018 roku w samych Stanach Zjednoczonych potrzebnych będzie od 140 do 190 tysięcy osób z wiedzą analityczną oraz 1,5 miliona managerów posiadających know-how w zakresie big data.
Rezultatem etapu tworzenia pomysłów jest zdefiniowanie algorytmów, stanowią-cych wstępny model analityczny. W kolejnym etapie opracowany pomysł staje się podstawą przetwarzania danych, którego celem jest sformułowanie modelu danego zjawiska, stanowiącego podstawę wnioskowania.
Wnioskowanie ma na celu wydobycie wiedzy oraz istotnych informacji z przetwa-rzanego zbioru danych. Przeniesienie wnioskowania z gruntu teoretycznych rozważań w warunki rzeczywiste możliwe jest na drodze implementacji. Polega ona na stwo-rzeniu systemu ICT, którego podstawą działania jest opracowany model analityczny oraz model zjawiska. Wspomniany system zostaje wdrożony w danej instytucji lub przedsiębiorstwie. Bieżące funkcjonowanie tego systemu na etapie utylizacji prowadzi do wytworzenia istotnej wartości, której charakterystyka zależy od dziedziny, w jakiej system został wdrożony. Na rysunku 2 przedstawiono, oprócz ogólnego schematu pro-cesu, przykład tworzenia wartości w sektorze medycznym i telekomunikacyjnym.
Należy podkreślić, że etap utylizacji dostarcza również informacji zwrotnej, na podstawie której dokonywane są modyfikacje modelu zjawiska oraz samego modelu analitycznego. Możliwe jest również uruchomienie wdrożenia pilotażowego przed uruchomieniem produkcyjnym.
Przykładem na to, jak w nowatorski sposób wytworzyć wartość za pomocą analizy big data, jest pilotażowy projekt przeprowadzony przez Accenture w St.Louis w USA.
Projekt ten dotyczył zamontowania w autobusach czujników, które miały gromadzić dużą ilość parametrów dotyczących eksploatacji autobusów po to, aby przewidy-wać ich możliwe awarie. Skonstruowano algorytm, na podstawie którego wyliczano optymalny czas do wykonania przeglądu. Obliczenie optymalnego czasu przeglądu nie było jednak natychmiastowe. Poprzedzały je istotne (oznaczone na ryc. 2) etapy tworzenia wartości, takie jak: przetworzenie danych zebranych z czujników danych i opracowanie modelu awarii, na podstawie którego przeprowadzono wnioskowanie, wskazujące na prawdopodobieństwo błędów. Dopiero na podstawie implementacji opracowanego modelu w postaci systemu, który przetwarzał zbierane z autobusów dane, osiągnięto podczas utylizacji istotną wartość biznesową – obniżkę kosztów eks-ploatacji o 10%. Wynikała ona z faktu, że pojazdy zamiast po przejechaniu 200–250 tysięcy mil odbywały przeglądy dopiero po 280 tysiącach24.
Przedstawiony przykład pokazuje, że nie tylko sam pomysł na to co zrobić z da-nymi jest istotny. Ważny jest również model analityczny wykorzystywany do for-mułowania wniosków, a następnie jego implementacja w postaci systemu informa-tycznego, którego stosowanie prowadzi do powstania produktu finalnego – pewnej materialnej lub niematerialnej wartości. Powstaje więc naturalne pytanie o to, w jaki
23 J. Manyika J., M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, A. Hung Byers, Big data: The Next Frontier for Innovation, Competition, and Productivity, McKinsey Global Institute, 2011.
24 V. Mayer-Schönberger, K. Cukier, dz. cyt., s. 168–169.
się do uzyskania konkretnych zysków.