• Nie Znaleziono Wyników

Hurtownie danych

N/A
N/A
Protected

Academic year: 2021

Share "Hurtownie danych"

Copied!
9
0
0

Pełen tekst

(1)

Hurtownie danych

Jakub Wróblewski jakubw@pjwstk.edu.pl

http://zajecia.jakubw.pl/hur

Wstęp.

Architektura hurtowni danych.

CO TO JEST HURTOWNIA DANYCH

B. Inmon, 1996:

Hurtownia danych to zbiór zintegrowanych, nieulotnych, ukierunkowanych baz danych, wykorzystywanych w systemach wspomagania decyzji.

Podstawowe cele:

– przetwarzanie analityczne danych (OLAP) – wspomaganie decyzji (DSS)

(2)

LITERATURA

Pozycje podstawowe:

• Ch. Todman. Projektowanie hurtowni danych. WNT, Warszawa 2003.

• M. Jarke, M. Lenzerini, Y. Vassiliou, P. Vassiliadis. Hurtownie danych. Podstawa organizacji i funkcjonowania, WSiP, Warszawa 2003.

Pozycje dodatkowe:

• V. Poe, P. Klauer, S. Brobst. Tworzenie hurtowni danych.

WNT, Warszawa 2000.

• inne...

OLTP a OLAP

OLTP

on-line transaction processing przetwarzanie transakcyjne

• bieżąca działalność przedsiębiorstwa

• duża liczba prostych zapytań (fakty)

• dodawanie, usuwanie i modyfikacja danych

• natychmiastowy dostęp do aktualnych informacji

OLAP

on-line analytical processing przetwarzanie analityczne

• analizy, raporty

• niewielka liczba

skomplikowanych zapytań (podsumowania)

• odczytywanie informacji i ich cykliczne uzupełnianie

• dane mogą być dostępne z opóźnieniem

(3)

SYSTEMY WSPOMAGANIA DECYZJI

• DSS (decision support systems)

• Tworzenie raportów

– jaka była wielkość sprzedaży w rozbiciu na miesiące?

– jaka grupa klientów generuje 80% obrotu?

– jaka jest struktura (histogram) wielkości zakupów?

• Odkrywanie wiedzy (KDD, data mining)

IF a = fast AND b < 14.7 THEN c = high ( in 85% )

a b

High Med.

Low

CRM

Customer Relationship Management - zarządzanie kontaktami z klientami

• Cele biznesowe: pozyskiwanie nowych klientów, zatrzymanie najlepszych klientów, zwiększenie sprzedaży

• CRM - rozwiązania programowe i organizacyjne mające na celu zmniejszenie ryzyka utraty

klientów

– gromadzenie informacji o klientach – usprawnienie kontaktów z klientami

– wsparcie techniczne akcji marketingowych.

(4)

ARCHITEKTURA (1)

Źródła danych

Centralna hurtownia danych

Hurtownie tematyczne (oddziałowe,

data marts)

Wyniki (np. raporty) integracja

czyszczenie odświeżanie

agregacje, propagacja aktualizacji

ARCHITEKTURA (2)

Centralna hurtownia danych

Hurtownie tematyczne Magazyny danych

operacyjnych (ODS)

ODS stanowią warstwę pośrednią,w której dane są już zintegrowane. Zwykle ODS są częściej aktualizowane, niż właściwa hurtownia danych.

(5)

KWESTIE TECHNICZNE

Typowe operacje (zastosowania) w hurtowniach tematycznych:

- OLAP: obracanie kostki danych, zwijanie, rozwijanie... (zestawienia statystyczne) - Eksploracja danych (opis danych lub

przewidywanie)

- GIS (informacje geograficzne/przestrzenne) - Business Intelligence (analiza wariantów: co by

było, gdyby...)

MODEL WIELOWYMIAROWY

230$

Baza zawiera fakty opisane przez wymiary i określające wartość miar.

Przykład:

Fakt - pojedyncza sprzedaż.

Opisana przez czas, klienta, produkt, sklep itp.

Miarą może być np. wartość sprzedaży, liczba sztuk itp.

Poziom agregacji to poziom szczegółowości opisu wymiarów, np. czas można dzielić na dni lub na kwartały.

Zawartość komórki:

zagregowana miara (np. suma sprzedaży danego produktu w danym sklepie, danego dnia)

sklep

czas produkt

Kostka wielowymiarowa danych

(6)

SYSTEMY ZARZĄDZAJĄCE

Centralna hurtownia danych ODS

SQL Zapytania bieżące

ROLAP

MDDB

ROLAP -Relational OLAP, nakładka przesłaniająca relacyjną strukturę danych na rzecz dostępu wielowymiarowego.

MDDB -systemy zarządzające przechowujące dane bezpośrednio w postaci kostek wielowymiarowych.

Systemy superrelacyjne -dodatkowe funkcje relacyjnych baz danych

ułatwiające obsługę hurtowni (wsparcie schematu gwiazdy, indeksy, formaty danych).

RDBMS - systemy relacyjne (typu VLDB - very large database drivers) lub superrelacyjne

RODZAJE IMPLEMENTACJI

• Architektura scentralizowana: fizyczna hurtownia centralna (i ew. ODS).

• Architektura federacyjna: hurtownia centralna jest wirtualna (perspektywy nie zawsze

zmaterializowane), pobiera dane z ODS.

• Architektura warstwowa: fizyczna hurtownia

centralna, kolejne warstwy fizycznych hurtowni

tematycznych.

(7)

ARCHITEKTURA SCENTRALIZOWANA

Centralna hurtownia danych

Hurtownie tematyczne ODS

Centralna hurtownia jest

materialna ODS może istnieć materialnie lub nie

Hurtownie tematyczne zwykle są zmaterializowane (ze względów

wydajnościowych)

ARCHITEKTURA FEDERACYJNA

Centralna hurtownia danych

Hurtownie tematyczne ODS

Centralna hurtownia jest wirtualna

(stanowi tylko wspólny model logiczny i pojęciowy danych)

ODSy są zmaterializowane i stanowią faktyczne miejsce przechowywania danych

Hurtownie tematyczne są zmaterializowane

(8)

ARCHITEKTURA WARSTWOWA

Centralna hurtownia danych

Hurtownie tematyczne

Coraz wyższe stopnie agregacji danych.

Dane z kolejnych warstw są obliczane na podstawie

poprzednich. Ze względu na wydajność, wszystkie warstwy są zmaterializowane.

PERSPEKTYWA PRAKTYCZNA (1)

• Typowa ilość danych: >1 TB

– Wiele firm dysponuje znacznie większymi danymi archiwalnymi. Nawet bazy produkcyjne osiągają obecnie wielkości >1 TB (ocenia się, że na świecie jest kilka tysięcy takich przedsiębiorstw).

• Typowe obciążenie zapytaniami: rzędu 10 tys. zapytań OLAP na dobę, do 100

użytkowników (analitycznych).

• Typowy czas projektów: od 1 do 3 lat.

• Typowy budżet: 1 mln. USD, z czego 60%

na sprzęt, 16% na oprogramowanie

bazodanowe.

(9)

PERSPEKTYWA PRAKTYCZNA (2)

• Odświeżanie danych zwykle w cyklu dobowym.

• Modny kierunek: Real-Time Data Warehousing, czyli połączenie typowej hurtowni danych z

możliwością bieżącego odświeżania danych (np.

w cyklach godzinnych czy minutowych).

• Hurtownia danych to przedsięwzięcie nie tylko

informatyczne, ale też organizacyjne (ustalenie

procedur i instrukcji postępowania, schematów

replikacji danych itp.).

Cytaty

Powiązane dokumenty

W głównym rekordzie ładującym umieszczony jest program, którego zadaniem jest przeglądnięcie tablicy partycji w celu odnalezienia tak zwanej partycji aktywnej i w dalszej

Jeśli obiekt jest przezroczysty to z tego punktu mogą zostać wypuszczone dodatkowe promienie (rekursywny ray tracing) - może to być zarówno promień odbity, jak i

Źródło: https://pclab.pl/art23133-2.. Scalable Link Interface) rozwiązanie firmy NVIDIA, w którym obraz generowany jest przez co najmniej dwie karty graficzne połączone

Palenisko, miejsce wydawać by się mogło zwyczajne, uznawane jednak w wielu kulturach za święte, definiowane było przez niego jako pierwszy składnik architektury.. Ogień

A positive impact of the natural environment (e.g. a view from a window, or even a photograph of a landscape) on patient recovery was observed during hospitalisation,

The antagonistic development of contemporary historical greenery in Lithuania can be defined by the authorities’ lack of capacity for policy formula- tion and

Krajobraz konsumpcyjny na opakowaniach zdecydowanie częściej odpowiadał charakterystyce krajobrazu wyobrażeniowego niż rzeczywistego (wyróżniono 493 widoki krajobrazu

Darrell’s Dream Boundless Playground was designed and built as a recreational and educational space that is fully accessible to all users, intended to facilitate