• Nie Znaleziono Wyników

Analiza i strategia big data w organizacjach

N/A
N/A
Protected

Academic year: 2021

Share "Analiza i strategia big data w organizacjach"

Copied!
13
0
0

Pełen tekst

(1)

41

MARIA MACH-KRÓL Streszczenie

W obliczu rosnącej wykáadniczo iloĞci danych, a takĪe coraz wiĊkszych wyzwaĔ stawianych przez otoczenie biznesowe – jak globalizacja, konkurencja czy zmiennoĞü – organizacje coraz czĊĞciej muszą, oprócz analizowania danych ustrukturyzowanych, braü pod uwagĊ równieĪ wnioski páynące z analiz tzw. big data. Jednak są to dane na tyle specyficzne i róĪniące siĊ od danych „klasycznych”, jakie znaleĨü moĪna w bazach i hurtowniach danych, Īe konieczne jest nowe podejĞcie zarówno do implementacji big data, jak i ich analizowania. Gáównym celem artykuáu jest uporządkowanie pojĊü związanych z big data, próba zarysowania wyzwaĔ, jakie stawia organizacjom ten typ danych, a takĪe wskazanie, jaką strategiĊ powinny obraü podmioty, chcące efektywnie analizowaü big data.

Sáowa kluczowe: big data, drąĪenie i analiza danych, strategia korzystania z big data Wprowadzenie

Dane okreĞlane przymiotnikiem „big” pochodzą ze Ĩródeá nieustrukturyzowanych, takich jak strumieĔ klikniĊü w www, sieci spoáecznoĞciowe (Twitter, blogi, Facebook), nagrania wideo ze sklepów, nagrania rozmów w call center itp., informacje w czasie rzeczywistym z czujników, RFID i innych urządzeĔ identyfikujących. PojĊcie big data jest na tyle nowe, Īe – w przeciwieĔstwie do pojĊcia Business Intelligence – nie istnieją jeszcze jego powszechnie przyjmowane definicje. Przede wszystkim naleĪy podkreĞliü, Īe termin big data odnosi siĊ raczej do pewnego zjawiska, niĪ do konkretnych, namacalnych rozwiązaĔ technologicznych. Dlatego zamiast definiowaü to zjawisko, próbuje siĊ je opisywaü, podawaü jego charakterystyki. Najpowszechniej przyjmuje siĊ, Īe big data cechuje tzw. 3V: Volume (wolumen danych), Velocity (prĊdkoĞü, z jaką dane napáywają do organi-zacji) i Variety (zróĪnicowanie tych danych). Dokáadne objaĞnienia tych charakterystyk są nastĊpujące [1, s. 312]:

-

Volume (wolumen) – odnosi siĊ do iloĞci danych, które mogą posáuĪyü do wypracowania nowych idei, bądĨ nowego spojrzenia na kwestie związane z organizacją, jednak wymagają odpowiedniej infrastruktury informatycznej, aby nimi skutecznie zarządzaü;

-

Velocity (prĊdkoĞü) – wskazuje na to, Īe dane napáywają do organizacji w czasie rzeczy-wistym lub do niego zbliĪonym, co wymaga odpowiednio szybkiego czasu reakcji;

-

Variety (zróĪnicowanie) – podkreĞla heterogeniczną naturĊ danych, ich brak strukturyzacji,

które sprawiają, Īe trudne (o ile nie niemoĪliwe) jest umieszczenie tych danych w trady-cyjnych bazach czy hurtowniach.

(2)

42

Rysunek 1. 3V w big data ħródáo: opracowanie wáasne na podstawie [2] i [3].

NaleĪy dodaü, Īe w ostatnim czasie pojawiáa siĊ koncepcja big data, charakteryzująca to zjawi-sko przez 4V – czwartym „V” jest Veracity, czyli wiarygodnoĞü danych – ta cecha paradoksalnie odnosi siĊ do niepewnoĞci danych: w badaniach IBM okazaáo siĊ, Īe 1 na 3 managerów nie ufa informacjom, na podstawie których podejmuje decyzje, zaĞ 27% respondentów nie byáo pewnych, na ile ich dane i informacje są dokáadne [4].

Pojawienie siĊ zjawiska big data spowodowaáo zmianĊ podejĞcia do takich pojĊü, jak SaaS (So-ftware as a Service), PaaS (Platform as a Service) i IaaS (Infrastructure as a Service), czyli przewartoĞciowanie przetwarzania w chmurze. Obecne podejĞcie do cloud computing w kontekĞcie big data podsumowuje tabela 1.

Tabela 2. Big data a przetwarzanie w chmurze

Volume Variety Velocity

SaaS semantyka wizualizacja czas rzeczywisty

PaaS przetwarzanie rozproszone brak schematu Integracja „w locie” IaaS skáadowanie skalowalne skáadnica federacyjna zasoby na Īądanie

ħródáo: [5].

Jak powiedziano, brakuje powszechnie uznawanych definicji big data. Jak pisze Horrigan, big data to dane niepodlegające próbkowaniu, związane z tworzeniem baz na podstawie Ĩródeá elektro-nicznych, których gáównym celem nie jest wnioskowanie statystyczne [6]. Z kolei Rodriguez zauwaĪa, Īe big data róĪni siĊ od duĪych zbiorów danych tym, Īe dane są generowane na skalĊ

(3)

Nr 74, 2015

43

masową poprzez niezliczone interakcje online miĊdzy ludĨmi, transakcje miĊdzy ludĨmi a syste-mami, oraz urządzenia wyposaĪone w róĪnego rodzaju sensory [7]. Najlepiej problemy definicyjne związane z big data podsumowuje Arbesman, który stwierdza, Īe podstawowym mitem odnoszącym siĊ do tego pojĊcia jest, jakoby big data miaáo jasną, klarowną definicjĊ [8]. Jedyne, co jest wiadome na pewno to fakt, Īe big data to dane wysoce nieustrukturyzowane, sytuujące siĊ na lewym koĔcu continuum strukturyzacji danych, przedstawionego na rysunku 2.

Rysunek 2. Continuum strukturyzacji danych ħródáo: [9, s. 12].

Zjawisko okreĞlane mianem „big data” róĪni siĊ – jako Ĩródáo danych – od dotychczas stoso-wanych Ĩródeá, takich jak bazy czy hurtownie danych. NajwaĪniejsze cechy związane z nowym rodzajem danych moĪna podsumowaü nastĊpująco [10]:

a) organizacje muszą zacząü postrzegaü dane jako strumienie (flows), a nie zbiory (stocks), co pociąga za sobą koniecznoĞü wdroĪenia tzw. analityki strumieniowej (streaming analytics); b) gáówną rolĊ zaczynają odgrywaü tzw. data scientists, w miejsce analityków danych, czyli osoby, które rozumieją procesy analityczne, ale równieĪ są doskonale obeznane z rozwią-zaniami IT, a czĊsto mają takĪe umiejĊtnoĞci w zakresie fizyki czy biologii obliczeniowej lub socjologii zorientowanej na media spoáecznoĞciowe;

c) analityka musi przenieĞü siĊ z poziomu dziaáu IT na poziom biznesu i jego funkcji opera-cyjnych, poniewaĪ big data wymaga odmiennego podejĞcia do technologii i procesów. Wymienione cechy powodują koniecznoĞü zastosowania nowych narzĊdzi informatycznych, które umoĪliwią jak najpeániejsze wykorzystanie nowych danych. Autorzy pracy [11] wprowadzają nawet pojĊcie „nauki o danych” (Data Science) na okreĞlenie sposobu analizowania big data. Defi-niują to pojĊcie jako „zbiór podstawowych zasad, które wspomagają i regulują pozyskiwanie informacji i wiedzy z danych” i wiąĪą je z zasadami drąĪenia danych. Big data jest dla wspóácze-snych organizacji zarówno naturalnym zasobem, cyfrową rezerwą (digital inventory), jak i bardziej szczegóáowym spojrzeniem na przeszáoĞü [12].

(4)

44

Charakterystyki zarówno big data jak i procesu analizy takich danych powodują, Īe przed or-ganizacjami stają nowe wyzwania technologiczne i organizacyjne, którym poĞwiĊcono kolejny punkt.

1. Wyzwania związane z big data

ZauwaĪając specyficzną naturĊ big data (okreĞlaną przez 3V, a niekiedy 4 V, o czym wspo-mniano w punkcie poprzednim), zauwaĪa siĊ równieĪ wyzwania stojące przed organizacjami, które chcą w peáni wykorzystywaü moĪliwoĞci nowego zjawiska. MoĪna te wyzwania scharakteryzowaü nastĊpująco [13] [14]:

a) szybkoĞü – organizacje nie tylko muszą znaleĨü potrzebne dane, ale muszą robiü to szybko, ze wzglĊdu na ich tempo pojawiania siĊ;

b) zrozumienie danych – konieczne jest odpowiednie doĞwiadczenie analityczne i wiedza z analizowanej dziedziny, pozwalające umieĞciü dane w kontekĞcie;

c) jakoĞü danych – dane muszą byü aktualne, dostarczone na czas i dokáadne;

d) wizualizacja wyników – niezbĊdna, aby umoĪliwiü zrozumienie olbrzymiej iloĞci danych i ich analiz;

e) obsáuga odchyleĔ – odchylenia stanowią zazwyczaj 1–5% danych, co w przypadku big data przekáada siĊ na ich olbrzymią iloĞü;

f) trudnoĞci w integracji danych i zarządzaniu nimi – spowodowane przede wszystkim hete-rogenicznoĞcią danych;

g) specyficzne umiejĊtnoĞci informatyczne niezbĊdne do uruchomienia systemu i obsáugi big data;

h) nowe wyzwania związane z bezpieczeĔstwem i dostĊpnoĞcią danych – olbrzymie iloĞci danych zbieranych przez przedsiĊbiorstwa wymagają zapewnienia ich bezpieczeĔstwa, ochrony przed niepowoáanym dostĊpem, a takĪe specyficznych systemów, które poradzą sobie z takimi iloĞciami danych, nie ulegając awariom;

i) nowe umiejĊtnoĞci analityczne i biznesowe, które pozwolą dokonaü analiz big data i po-wiązaü je ze strategiami biznesowymi – umiejĊtnoĞci specyficzne dla data scientists; j) zapewnienie odpowiedniej wydajnoĞci przetwarzania, która bĊdzie wspóágraü z szybkoĞcią

napáywu danych i sprosta oczekiwaniom związanym czasem obsáugi zapytaĔ – zbliĪonym do czasu rzeczywistego.

Jak widaü, wiĊkszoĞü wyzwaĔ związanych z big data jest takich samych, jak typowe wyzwania związane z drąĪeniem danych, co trafnie zauwaĪyli autorzy pracy [11]. Organizacje mogą radziü sobie z wszystkimi wyzwaniami na róĪne sposoby, stosując róĪnorodne narzĊdzia programowe.

(5)

Nr 74, 2015

45 2. Cykl analizy big data

Dane pochodzące z analiz big data mogą mieü olbrzymią wartoĞü materialną, zwáaszcza w po-áączeniu z innymi danymi, np. pochodzącymi z wewnątrz organizacji [16, s. 79–84]. Do klasycznych narzĊdzi analizy big data zalicza siĊ przede wszystkim grid computing, przetwarzanie w bazie da-nych (in-database processing) i analitykĊ w pamiĊci (in-memory analytics) [17]. Aby jednak analizy odnoszące siĊ do big data byáy prowadzone prawidáowo i aby organizacja mogáa z nich odnieĞü jak najwiĊksze korzyĞci, konieczna jest wspóápraca nie tylko analityków danych, lecz wielu uczestni-ków organizacji, takich jak: uĪytkownik biznesowy, administrator hurtowni danych, data scientist, analityk BI. Proces ich wspóápracy tworzy tzw. cykl analizy (big data), przedstawiony na rysunku 3. KaĪdy z wymienionych uĪytkowników odgrywa nieco inną rolĊ i ma nieco inne potrzeby anali-tyczne. Są one nastĊpujące (za [18, s. 40–42]):

1) uĪytkownik biznesowy – w tym analityk biznesowy – odpowiada za prawidáowe zdefinio-wanie kluczowych procesów biznesowych, ustalenie metryk, za okreĞlenie i analizĊ kluczowych wskaĨników wydajnoĞci (KPI), które pozwolą na kontrolĊ tych procesów. Ten uĪytkownik zatem formuáuje wymagania analityczne odnoĞnie do danych;

2) administrator hurtowni danych definiuje, rozwija i zarządza platformą danych, czyli hur-townią danych, skáadnicami danych i magazynami danych operacyjnych, a takĪe – w kontekĞcie big data – takimi narzĊdziami, jak np. Hadoop, przetwarzanie w pamiĊci, czy federacja danych;

Rysunek 3. Cykl analizy big data i jego powiązanie z kluczowymi procesami biznesowymi ħródáo: [18, s. 40].

3) data scientist drąĪy dane organizacji, które w przypadku big data mogą byü zarówno ustruk-turyzowane jak i (w wiĊkszoĞci) pozbawione struktury, oraz pochodziü ze Ĩródeá zarówno wewnĊtrznych jak i zewnĊtrznych. Gáównym zadaniem data scientist jest zatem budowanie odpowiednich modeli analitycznych;

(6)

46

4) analityk BI odpowiada za identyfikacjĊ, zarządzanie i publikacjĊ kluczowych mierników i kluczowych wskaĨników wydajnoĞci. Opracowuje raporty i tablice rozdzielcze (dashbo-ards), starając siĊ, aby wyniki analiz big data byáy publikowane w czasie zbliĪonym do rzeczywistego;

5) ponownie uĪytkownik biznesowy – który wykorzystuje w pracy przygotowane przez po-zostaáych uczestników cyklu raporty, analizy czy tablice rozdzielcze.

Podobnie opisują cykl analiz big data autorzy [19, s. 56].

Natomiast nieco inaczej na big data patrzy Marko Grobelnik [3], który wiąĪe ich analizy z áaĔ-cuchem wartoĞci w przedsiĊbiorstwie. Jest on przedstawiony na rysunku 4.

Szczególną rolĊ w omawianym cyklu analitycznym odgrywa data scientist, poniewaĪ to ten pracownik zbiera i przede wszystkim analizuje big data. Jego dziaáania podsumowuje rysunek 5.

Rysunek 4. àaĔcuch wartoĞci big data ħródáo: [3].

(7)

Nr 74, 2015

47

Rysunek 5. Cykl dziaáaĔ „data scientist” ħródáo: [18, s. 42].

Dziaáania data scientist odnoĞnie do big data przypominają proces drąĪenia danych (data mi-ning), skáadają siĊ bowiem z podobnych etapów. Są to (za [18, s. 42–46]):

a) odkrywanie – data scientist rozpoczyna od dogáĊbnego zrozumienia procesów bizne-sowych, uchwycenia najwaĪniejszych potrzeb informacyjnych i dotarcia do odpowiednich Ĩródeá danych;

b) przygotowanie danych, czyli opracowanie Ğrodowiska analitycznego, zebranie i oczyszczenie danych, odpowiednie opracowanie odchyleĔ oraz dokonanie odpowied-nich przeksztaáceĔ danych;

c) zaplanowanie modelu analitycznego – ustalenie zmiennych objaĞniających i objaĞnia-nych oraz dobór odpowiedniej techniki budowy modelu;

d) budowa modelu analitycznego – przygotowanie zbiorów treningowych i testowych, opracowanie, testowanie i poprawa modelu bądĨ modeli;

e) prezentacja wyników – opracowanie wizualne uzyskanych z modelu analitycznego wyników. Szczególnie jest to waĪne w przypadku big data, które ze wzglĊdu na swoją objĊtoĞü wymagają specyficznych technik i narzĊdzi wizualizacji (por. punkt 6 opra-cowania);

f) operacjonalizacja – na tym etapie data scientist przedstawia wnioski z analiz, reko-mendacje, raporty, a takĪe implementuje modele analityczne w Ğrodowisku biznesowym. Opracowane mierniki analityczne wbudowuje w istniejące w przedsiĊ-biorstwie systemy raportujące, tablice rozdzielcze i kokpity menedĪerskie.

Szczegóáowe informacje na temat opisanego procesu moĪna znaleĨü np. w ksiąĪce [20]. Pod-sumowanie zadaĔ związanych z zaawansowanymi analizami big data oraz redefinicjĊ roli systemów klasy BI w nowym Ğrodowisku zawiera praca [21].

(8)

48 3. Strategia big data

Strategia wdraĪania big data jest związana z modelem dojrzaáoĞci organizacji do big data. Takie modele zaproponowali np. Schmarzo [18], TDWI [22] czy Radcliffe Advisory Services Ltd. [23]. Celem opracowania takiej strategii jest zapewnienie gotowoĞci organizacji do skorzystania z big data. Dokument strategii obejmuje etapy powtarzalnego procesu i ramy dla wdraĪania big data w organizacji [18, s. 65]. Taki dokument musi byü (ibidem):

-

zwiĊzáy,

-

przejrzysty i zrozumiaáy,

-

wáaĞciwy (relewantny) dla uczestników biznesu.

Dokument strategii big data skáada siĊ w ogólnoĞci z kilku sekcji, przedstawionych na rysunku 6.

Rysunek 6. Ogólna struktura dokumentu strategii big data ħródáo: [18, s. 66].

W sekcji „Business strategy” naleĪy przedstawiü (jako tytuá dokumentu) strategiĊ biznesową, jasno okreĞlającą zakres dziaáaĔ, na które bĊdzie ukierunkowane wdraĪanie big data. W sekcji „Bu-siness initiatives” umieszcza siĊ inicjatywy biznesowe, skáadające siĊ na strategiĊ biznesową. Jak pisze Schmarzo, inicjatywa biznesowa to „projekt obejmujący przekrojowe funkcjonalnoĞci, trwa-jący od 9 do 12 miesiĊcy, matrwa-jący jasno okreĞlone cele finansowe lub biznesowe” (ibidem, s. 66). StopieĔ realizacji tych celów posáuĪy jako miara oceny inicjatywy biznesowej. Sekcja „Outcomes and Critical Success Factors” okreĞla wyniki (outcomes), czyli idealny bądĨ poĪądany stan koĔ-cowy, oraz krytyczne czynniki sukcesu (CSF), czyli co musi zostaü zrobione, aby osiągnąü poĪądane

(9)

Nr 74, 2015

49

wyniki. W sekcji „Tasks” dokumentuje siĊ zadania, które naleĪy wykonaü w ramach inicjatyw biz-nesowych. PrzeciĊtnie okreĞla siĊ od 8 do 12 zadaĔ. Ostatnia sekcja – „Data sources” zawiera kluczowe Ĩródáa danych potrzebnych do wsparcia strategii i inicjatyw biznesowych (ibidem, s. 66– 67). Przykáadowy dokument strategii big data, odnoszący siĊ do poprawienia relacji (zacieĞnienia wiĊzów) miĊdzy organizacją a jej klientami, przedstawia rysunek 7.

Rysunek 7. Przykáadowy dokument strategii big data ħródáo: [18, s. 67].

Zadania skáadające siĊ na strategiĊ big data uzaleĪnione są od zapisów w sekcji „Outcomes & CSF”. Są one związane z identyfikacją (ibidem, s. 69–70):

-

kluczowych wskaĨników wydajnoĞci (KPI), które posáuĪą do zmierzenia efektów wdroĪe-nia strategii,

-

pytaĔ biznesowych, jakie naleĪy zadaü, wraz z towarzyszącymi im metrykami, wymiarami, hierarchiami,

-

biznesowych, procesu decyzyjnego, wymagaĔ uĪytkownika,

-

algorytmów analitycznych i wymagaĔ odnoĞnie do modelowania (predykcja, przewidywa-nie, optymalizacja, rekomendacja),

(10)

50

-

danych wspierających (Ĩródáa, granulacja1, czĊstotliwoĞü aktualizacji, metody dostĊpu itp.).

Z kolei John Haddad jako strategiĊ big data proponuje nastĊpujące kroki [24]: 1) Identyfikacja celów biznesowych,

2) Przeksztaácenie big data w dane operacyjne (za pomocą powtarzalnych metod i procesów), 3) Budowa „rurociągu” z danymi (big data pipeline), na który skáadają siĊ

a. Pozyskiwanie i skáadowanie danych, b. Oczyszczanie i wzbogacanie danych, c. Eksploracja danych,

d. Rozpowszechnianie danych i zarządzanie nimi.

Kroki proponowane przez J. Haddada stanowią zatem poáączenie strategii w ujĊciu Schmarzo z klasycznymi etapami drąĪenia danych. Są one na tyle ogólnikowe, Īe trudno mówiü o dopracowa-nej strategii wdraĪania rozwiązaĔ big data.

Przekrojowe podejĞcie do strategii big data zaprezentowali [25]. Przedstawia je rysunek 8.

Rysunek 8. Ramy big data ħródáo: [25].

Autorzy cytowanej pracy analizują strategiĊ big data w dwóch wymiarach: celów biznesowych (business objective) i typu danych (data type).

Pierwszy wymiar charakteryzuje siĊ tym, Īe organizacje rozwijające strategiĊ wdraĪania big data posáugują siĊ pomiarami i/lub eksperymentami. Wiedzą, czego szukają i jakie powinny byü (a jakie są) wartoĞci miar. W trakcie eksperymentów organizacje weryfikują hipotezy badawcze.

(11)

Nr 74, 2015

51

Drugi wymiar obejmuje typ danych. Organizacje na co dzieĔ gromadzą dane transakcyjne, na-tomiast wdraĪając strategiĊ big data zaczynają korzystaü równieĪ z danych pochodzących z mediów spoáecznoĞciowych. Pierwszy typ danych jest ustrukturyzowany, drugi zaĞ nie.

Poáączenie obu wymiarów daje cztery kwadraty, reprezentujące cztery róĪne strategie: zarzą-dzanie wydajnoĞcią, eksploracja danych, analityka spoáecznoĞciowa i nauka o decyzjach.

Strategia nastawiona na zarządzanie wydajnoĞcią polega na zrozumieniu big data znajdujących siĊ w bazach danych organizacji, przy uĪyciu analiz wielowymiarowych. Strategia eksploracji da-nych wykorzystuje na dada-nych transakcyjda-nych tradycyjne techniki data mining, czyli np. analizĊ skupieĔ, klasyfikacjĊ, modele predykcyjne, analizĊ reguá asocjacyjnych itp.

Strategia analityki spoáecznoĞciowej nastawiona jest na dane nieustrukturyzowane, pochodzące z takich Ĩródeá, jak Facebook, Twitter, blogi czy fora dyskusyjne. Pozwala ona mierzyü trzy gáówne kategorie: ĞwiadomoĞü (marki – awareness), zaangaĪowanie (engagement) i skutecznoĞü marke-tingu szeptanego (word-of-mouth marketing), czyli zasiĊg caákowity (reach). ĝwiadomoĞü moĪna mierzyü np. liczbą wyĞwietleĔ pliku wideo, liczbą Ğledzących zawartoĞü strony lub czáonków spo-áecznoĞci internetowej. ZaangaĪowanie mierzone bywa np. czĊstotliwoĞcią umieszczania na stronie organizacji treĞci generowanych przez uĪytkowników. ZasiĊg caákowity definiowany jest jako od-setek grupy celowej, który w czasie trwania kampanii reklamowej zetknąá siĊ z komunikatem reklamowym przynajmniej jednokrotnie. MoĪna go zmierzyü np. liczbą udostĊpnieĔ tekstu zamie-szonego przez organizacjĊ na Twitterze (tzw. retweet) lub liczbą tzw. lajków na Facebooku. Wreszcie strategia nauki o decyzjach (decision science) obejmuje analizĊ takich danych nieustruk-turyzowanych, jak wygenerowane przez konsumentów pomysáy na nowe produkty czy recenzje produktów, aby ulepszyü proces podejmowania decyzji w organizacji. Tu wáaĞnie najwiĊkszą rolĊ odgrywa big data.

NaleĪy zauwaĪyü, Īe jedynie dwie ostatnie z opisanych strategii moĪna okreĞliü mianem stra-tegii big data. Strategia pierwsza zasadniczo nie ma nic wspólnego z big data, odnosząc siĊ do danych ustrukturyzowanych np. w tradycyjnych bazach danych transakcyjnych. Strategia druga na-tomiast odnosi siĊ do klasycznego drąĪenia danych, wykonywanego w duĪych repozytoriach takich jak np. hurtownie danych. Jednak klasyczne algorytmy data mining nie sprawdzają siĊ w przypadku big data, ze wzglĊdu na olbrzymie ich rozmiary – o czym byáa mowa w punkcie 2 – Wyzwania big data.

4. Podsumowanie

Niniejszy artykuá miaá na celu syntetyczne przedstawienie zarówno moĪliwoĞci jak i wyzwaĔ, z jakimi stykają siĊ organizacje biznesowe, chcące wykorzystywaü w bieĪącej dziaáalnoĞci dane okreĞlane jako „big data”. Wskazano na charakterystykĊ takich danych, problemy związane z ich analizą i zrozumieniem, a takĪe podkreĞlono, Īe drogą do efektywnego wykorzystania big data po-winna byü odpowiednia strategia ich wdraĪania. Pokazano przekrojowe podejĞcia do takiej strategii, zasygnalizowano równieĪ koniecznoĞü zatrudniania osób o nowych kompetencjach – takich pra-cowników, jak np. data scientist.

Kolejną kwestią związaną z big data, jaką bĊdzie naleĪaáo przeanalizowaü, jest kwestia doboru narzĊdzi informatycznych, które pozwolą jak najpeániej wykorzystaü moĪliwoĞci páynące z analiz big data. BĊdzie to tematem kolejnych badaĔ.

(12)

52 Bibliografia

[1] N. Williams, N. P. Ferdinand and R. Croft, "Project management maturity in the age of Big Data," International Journal of Managing Projects in Business, vol. 7, no. 2, pp. 311–317, 2014.

[2] P. Russom, "Big Data Analytics," TDWI Best Practices Report, 2011.

[3] M. Grobelnik, "Big Data Tutorial," 8 May 2012. [Online]. Available: http://www.slideshare.net/markogrobelnik/big-data-tutorial-marko-grobelnik-25-may-2012. [Accessed 29 06 2014].

[4] IBM, "Big Data at the Speed of Business," 2014. [Online]. Available: http://www-01.ibm.com/software/data/bigdata/. [Accessed 02 07 2014].

[5] T. Shan, "Big Data Cloudified," 6 June 2013. [Online]. Available: http://cloudonomic.blogspot.com/. [Accessed 29 6 2014].

[6] M. Horrigan, "Big Data: A Perspective from the BLS," Amstat News, pp. 25–27, January 2013. [7] R. Rodriguez, "Big Data and Better Data," Amstat News, pp. 3–4, June 2012.

[8] S. Arbesman, "Five Myths about Big Data," Washington Post, 16 08 2013.

[9] A. Gaffar, E. Darwish and A. Tridane, "Structuring Heterogeneous Big Data for Scalability and Accuracy," International Journal of Digital Information and Wireless Communications, vol. 4, no. 1, pp. 10–23, 2014.

[10] T. Davenport, P. Barth and R. Bean, "How 'Big Data' is Different," MIT Sloan Management Review, vol. 54, no. 1, pp. 21–24, 2012.

[11] F. Provost and T. Fawcett, "Data science and its relationship to big data and data-driven decision making," Big Data, vol. 1, no. 1, pp. 51–59, 2013.

[12] D. Conway and D. Klabjan, "Innovation Patterns of Big Data," in Big Data and Business Analytics, J. Liebowitz, Ed., Boca Raton, CRC Press, Taylor & Francis Group, LLC, 2013, pp. 131–146.

[13] SAS, "Five big data challenges and how to overcome them with visual analytics," SAS Institute, Cary, NC, 2013.

[14] M. Hoskins, "Big Data 2.0: Cataclysm or Catalyst?," Big Data, vol. 2, no. 1, pp. 5–6, 2014. [15] J. Betser and D. Belanger, "Architecting the Enterprise via Big Data Analytics," in Big Data

and Business Analytics, J. Liebowitz, Ed., Boca Raton, CRC Press, Taylor & Francis Group, LLC, 2013, pp. 1–20.

[16] O. Trajman, "The Intrinsic Value of Data," in Big Data and Business Analytics, J. Liebowitz, Ed., Boca Raton, CRC Press, Taylor & Francis Group, LLC, 2013, pp. 69–86.

[17] P. Kent, R. Kulkarni and U. Sglavo, "Finding Big Value in Big Data: Unlocking the Power of High Performance Analytics," in Big Data and Business Analytics, J. Liebowitz, Ed., Boca Raton, CRC Press, Taylor & Francis Group, LLC, 2013, pp. 87–102.

[18] B. Schmarzo, Big Data: Understanding How Data Powers Big Business, Indianapolis: John Wiley & Sons, 2013.

[19] C. Bizer, P. Boncz, M. Brodie and O. Erling, "The Meaningful Use of Big Data: Four Perspectives – Four Challenges," SIGMOD Record, vol. 40, no. 4, pp. 56–60, 2011.

[20] M. Kantardzic, Data Mining: Concepts, Models, Methods, and Algorithms, 2nd Edition, Hoboken, New Jersey: Wiley-IEEE Press, 2011.

(13)

Nr 74, 2015

53

[21] D. Zhao, "Frontiers of Big Data Analytics: Patterns and Cases in Online Marketing," in Big Data and Business Analytics, J. Liebowitz, Ed., Boca Raton, CRC Press, Taylor & Francis Group, LLC, 2013, pp. 43–68.

[22] F. Halper and K. Krishnan, "TDWI Big Data Maturity Model Guide," 2013–2014. [Online]. Available: http://tdwi.org/whitepapers/2013/10/tdwi-big-data-maturity-model-guide/asset. aspx? tc =assetpg. [Accessed 02 07 2014].

[23] J. Radcliffe, "Leverage a Big Data Maturity Model to Build Your Big Data Roadmap," Radcliffe Advisory Services Ltd, Guildford, 2014.

[24] J. Haddad, "How to construct a big data strategy," Techradar.pro, 14 May 2014.

[25] S. Parise, B. Iyer and D. Vesset, "Four Strategies to Capture and Create Value from Big Data," Ivey Business Journal, July/August 2012.

BIG DATA IN ORGANIZATIONS – POSSIBILITIES AND CHALLENGES Summary

The amount of data is growing exponentially, and organizations face also chal-lenges from the environment – namely globalization, competition and changeability. Thus organizations have to consider not only structured data, but also to analyze the unstructured, so-called big data. The latter is so specific and differs so much from "classical" data in databases and data warehouses, that it is necessary to develop a new approach to big data implementation and analysis. The main aim of the paper is ordering of notions connected with big data, discussing of challenges of big data, as well as pointing out an effective strategy for organizations aiming at analyzing big data.

Keywords: big data, data mining and analysis, big data strategy

Maria Mach-Król

Katedra Informatyki Ekonomicznej Wydziaá Ekonomii

Uniwersytet Ekonomiczny w Katowicach ul. Bogucicka 3, 40-226 Katowice e-mail: maria.mach-krol@ue.katowice.pl

Cytaty

Powiązane dokumenty

Szacunkowy udział mikroorganizmów (%) oraz procen- towa wartość kąta zwilżania (%) w całym okresie badawczym (12

Ustalonym przez Autorkę w tej perspektywie ogólnym celem badań jest charakterystyka prawna zasad realizacji tego zadania państwa w aspekcie ustrojowym, ustalenie więzi

The measured distances se- lected for verification of the shape (geometry) modifications are connected to the cutting blade, because it is the main load carrying element of the

Porównano zmienność i wzajemną zależność 9 cech: plonu ziarna z poletka, wysokości roślin, wczesności wiechowania, odporności na rdzę koronową, wylegania, masy 1000 ziaren,

Zarysowany w wierszu obraz wpisuje się bowiem – lub domaga się wpisania – w kontekst wierszy dwóch po- etów, których twórczość jest szeroko i trwale, choć oczywiście

Joanna Włodarczyk analizuje w swoim artykule zagro- żenia, jakie mogą się wiązać z nadmiernym rozbudzeniem społecznych obaw i nieprofesjonalnym diagnozowaniem

Badacze w swych opracowaniach oraz w edycjach źródłowych po- mników średniowiecznego ustawodawstwa polskiego posługiwali się skrótami nazw rękopisów. W ostatnim