• Nie Znaleziono Wyników

Матеріали V Міжнародної науково-технічної конференції молодих учених та студентів. Актуальні задачі сучасних технологій – Тернопіль 17-18 листопада 2016.

N/A
N/A
Protected

Academic year: 2021

Share "Матеріали V Міжнародної науково-технічної конференції молодих учених та студентів. Актуальні задачі сучасних технологій – Тернопіль 17-18 листопада 2016."

Copied!
1
0
0

Pełen tekst

(1)

Матеріали V Міжнародної науково-технічної конференції молодих учених та студентів. Актуальні задачі сучасних технологій – Тернопіль 17-18 листопада 2016.

7 УДК 681.518

Emmanuel Akokhia, B.B. Mlynko Ph.D., Assoc.Prof. Ternopil Ivan Pul’uj National Technical University, Ukraine

MAPREDUCE AND ITS APPLICATION IN DATA CLUSTERING USING NETFLIX MOVIE DATA

Еммануел Акокхіа, Б.Б.Млинко канд. техн. наук, доц.

ЗАСТОСУВАННЯ MAPREDUCE ДЛЯ КЛАСТЕРИЗАЦІЇ БАЗИ ДАНИХ ФІЛЬМІВ NETFLIX

Data clustering is the partitioning of object into groups (called clusters) such that the similarity between members of the same group is maximized and similarity between members of different groups is minimized. Often some form of distance measure issued to determine similarity of objects. MAPREDUCE is a programming model and an associated implementation for processing and generating large data sets with a parallel, distributed algorithm on a cluster.

Over the past years, the authors and many others at Google have implemented hundreds of special-purpose computations that process large amounts of raw data, such as crawled documents, web request logs, etc., to compute various kinds of derived data, such as inverted indices, various representations of the graph structure of web documents, summaries of the number of pages crawled per host, the set of most frequent queries in a given day, etc. Most such computations are conceptually straightforward. However, the input data is usually large and the computations have to be distributed across hundreds or thousands of machines in order tarnish in a reasonable amount of time.

The issues of how to parallelize the computation, distribute the data, and handle failures conspire to obscure the original simple computation with large amounts of complex code to deal with these issues. As a reaction to this complexity, we designed a new abstraction that allows us to express the simple computations we were trying to perform but hides the messy details of parallelization, fault-tolerance, data distribution and load balancing in a library. My abstractions are inspired by the map and reduce primitives present in Lisp and many other functional languages. I realized that most of our computations involved applying a map operation to each Logical record in our input in order to compute a set of intermediate key/value pairs, and then applying a reduce operation to all the values that shared the same key, in order to combine the derived data appropriately. My use of a functional model with user–specified map and reduce operations allows us to parallelize large computations easily and to use re-execution as the primary mechanism for fault tolerance. The major contributions of this work are a simple and powerful interface that enables automatic parallelization and distribution of large-scale computations, combined with an implementation of this interface that achieves high performance on large clusters of commodity PCs.

Cytaty

Powiązane dokumenty

- team building is an organizational development technique in which facilitator first observes interactions of group members and then helps them become aware of

Незважаючи на те, що оцінка архітектури сфокусована на вибір та дії щодо оцінки, вона (оцінка) також охоплює часто отримання рішення ітеративним шляхом.. Результати

Сотові системи зв’язку першого покоління, такі як NMT, TACS і AMPS, мали не великі можливості в плані безпеки, і це призвело до суттєвого

Таким чином ключовими критеріями вибору системи аутентифікації є:  параметри помилок 1-го та 2-го роду;  інтегральний показник зручності, як сума відносних оцінок;

Встановлено, що безпечними для передачі енергії через тканини тіла є частоти (0.1-1) МГц, бо частоти <100 кГц можуть спричинити фібриляцію, а частоти (1- 40)

Авторами здійснюється розроблення методів опрацювання біометричних даних, які б давали змогу формувати криптографічний ключ

До недоліків можна віднести бідну колірну гамму стандартного набору іконок та на мою думку це не є мінусом, адже Bootstrap має підтримку користувацьких тем та

Ог- раничение промышленного выпуска таких СЭ, несмотря на высокую технологичность методов получения пленок сульфида и теллурида кадмия,