• Nie Znaleziono Wyników

Wykład 3

N/A
N/A
Protected

Academic year: 2021

Share "Wykład 3"

Copied!
68
0
0

Pełen tekst

(1)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Wprowadzenie do “data science”

Wykład 3 - hurtownie danych

(2)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Rys historyczny

Rys historyczny

Hurtownie danych (DWH — data warehouses) nie s ˛a bynajmniej nowo´sci ˛a w ´swiecie informatycznym:

prace teoretyczne prowadzono ju˙z pod koniec lat 70-tych XX w., pionierzy: zespół z MIT, który pracował nad wyodr ˛ebnieniem osobnego przetwarzania analitycznego, operuj ˛acego na danych o zupełnie innych strukturach ni˙z zwykle u˙zywanych do zastosowa ´n operacyjnych, formalnie za moment powstania hurtowni danych uznaje si ˛e rok 1988 — publikacja Barry’ego Deliva oraz Paula Murphy’ego wprowadzaj ˛aca poj ˛ecie “hurtowni danych biznesowych”,

z kolei wcze´sniej — w roku 1985 dla firmy Procter & Gamble uruchomiono pierwszy system analityki biznesowej.

(3)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Rys historyczny

Rys historyczny

Hurtownie danych (DWH — data warehouses) nie s ˛a bynajmniej nowo´sci ˛a w ´swiecie informatycznym:

prace teoretyczne prowadzono ju˙z pod koniec lat 70-tych XX w.,

pionierzy: zespół z MIT, który pracował nad wyodr ˛ebnieniem osobnego przetwarzania analitycznego, operuj ˛acego na danych o zupełnie innych strukturach ni˙z zwykle u˙zywanych do zastosowa ´n operacyjnych, formalnie za moment powstania hurtowni danych uznaje si ˛e rok 1988 — publikacja Barry’ego Deliva oraz Paula Murphy’ego wprowadzaj ˛aca poj ˛ecie “hurtowni danych biznesowych”,

z kolei wcze´sniej — w roku 1985 dla firmy Procter & Gamble uruchomiono pierwszy system analityki biznesowej.

(4)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Rys historyczny

Rys historyczny

Hurtownie danych (DWH — data warehouses) nie s ˛a bynajmniej nowo´sci ˛a w ´swiecie informatycznym:

prace teoretyczne prowadzono ju˙z pod koniec lat 70-tych XX w., pionierzy: zespół z MIT, który pracował nad wyodr ˛ebnieniem osobnego przetwarzania analitycznego, operuj ˛acego na danych o zupełnie innych strukturach ni˙z zwykle u˙zywanych do zastosowa ´n operacyjnych,

formalnie za moment powstania hurtowni danych uznaje si ˛e rok 1988 — publikacja Barry’ego Deliva oraz Paula Murphy’ego wprowadzaj ˛aca poj ˛ecie “hurtowni danych biznesowych”,

z kolei wcze´sniej — w roku 1985 dla firmy Procter & Gamble uruchomiono pierwszy system analityki biznesowej.

(5)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Rys historyczny

Rys historyczny

Hurtownie danych (DWH — data warehouses) nie s ˛a bynajmniej nowo´sci ˛a w ´swiecie informatycznym:

prace teoretyczne prowadzono ju˙z pod koniec lat 70-tych XX w., pionierzy: zespół z MIT, który pracował nad wyodr ˛ebnieniem osobnego przetwarzania analitycznego, operuj ˛acego na danych o zupełnie innych strukturach ni˙z zwykle u˙zywanych do zastosowa ´n operacyjnych, formalnie za moment powstania hurtowni danych uznaje si ˛e rok 1988 — publikacja Barry’ego Deliva oraz Paula Murphy’ego wprowadzaj ˛aca poj ˛ecie “hurtowni danych biznesowych”,

z kolei wcze´sniej — w roku 1985 dla firmy Procter & Gamble uruchomiono pierwszy system analityki biznesowej.

(6)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Rys historyczny

Rys historyczny

Hurtownie danych (DWH — data warehouses) nie s ˛a bynajmniej nowo´sci ˛a w ´swiecie informatycznym:

prace teoretyczne prowadzono ju˙z pod koniec lat 70-tych XX w., pionierzy: zespół z MIT, który pracował nad wyodr ˛ebnieniem osobnego przetwarzania analitycznego, operuj ˛acego na danych o zupełnie innych strukturach ni˙z zwykle u˙zywanych do zastosowa ´n operacyjnych, formalnie za moment powstania hurtowni danych uznaje si ˛e rok 1988 — publikacja Barry’ego Deliva oraz Paula Murphy’ego wprowadzaj ˛aca poj ˛ecie “hurtowni danych biznesowych”,

z kolei wcze´sniej — w roku 1985 dla firmy Procter & Gamble uruchomiono pierwszy system analityki biznesowej.

(7)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Definicje

Ralph Kimball (szeroka definicja)

Hurtownia danych jest to system, który pozyskuje dane z systemów ´zródło-wych, przekształca je i ładuje do wielowymiarowych struktur, a nast ˛epnie do-starcza zapytania i analizy wspieraj ˛ace podejmowanie decyzji

Bill Inmon (w ˛aska definicja)

Hurtownia to baza danych, maj ˛aca słu˙zy´c wspomaganiu procesu podejmowa-nia decyzji, która jest:

zorientowana tematycznie (subject oriented) nieulotna (nonvolatile),

zintegrowana (integrated),

(8)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Definicje

Ralph Kimball (szeroka definicja)

Hurtownia danych jest to system, który pozyskuje dane z systemów ´zródło-wych, przekształca je i ładuje do wielowymiarowych struktur, a nast ˛epnie do-starcza zapytania i analizy wspieraj ˛ace podejmowanie decyzji

Bill Inmon (w ˛aska definicja)

Hurtownia to baza danych, maj ˛aca słu˙zy´c wspomaganiu procesu podejmowa-nia decyzji, która jest:

zorientowana tematycznie (subject oriented) nieulotna (nonvolatile),

zintegrowana (integrated),

(9)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Definicje

Ralph Kimball (szeroka definicja)

Hurtownia danych jest to system, który pozyskuje dane z systemów ´zródło-wych, przekształca je i ładuje do wielowymiarowych struktur, a nast ˛epnie do-starcza zapytania i analizy wspieraj ˛ace podejmowanie decyzji

Bill Inmon (w ˛aska definicja)

Hurtownia to baza danych, maj ˛aca słu˙zy´c wspomaganiu procesu podejmowa-nia decyzji, która jest:

zorientowana tematycznie (subject oriented)

nieulotna (nonvolatile), zintegrowana (integrated),

(10)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Definicje

Ralph Kimball (szeroka definicja)

Hurtownia danych jest to system, który pozyskuje dane z systemów ´zródło-wych, przekształca je i ładuje do wielowymiarowych struktur, a nast ˛epnie do-starcza zapytania i analizy wspieraj ˛ace podejmowanie decyzji

Bill Inmon (w ˛aska definicja)

Hurtownia to baza danych, maj ˛aca słu˙zy´c wspomaganiu procesu podejmowa-nia decyzji, która jest:

zorientowana tematycznie (subject oriented) nieulotna (nonvolatile),

zintegrowana (integrated),

(11)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Definicje

Ralph Kimball (szeroka definicja)

Hurtownia danych jest to system, który pozyskuje dane z systemów ´zródło-wych, przekształca je i ładuje do wielowymiarowych struktur, a nast ˛epnie do-starcza zapytania i analizy wspieraj ˛ace podejmowanie decyzji

Bill Inmon (w ˛aska definicja)

Hurtownia to baza danych, maj ˛aca słu˙zy´c wspomaganiu procesu podejmowa-nia decyzji, która jest:

zorientowana tematycznie (subject oriented) nieulotna (nonvolatile),

zintegrowana (integrated),

(12)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Definicje

Ralph Kimball (szeroka definicja)

Hurtownia danych jest to system, który pozyskuje dane z systemów ´zródło-wych, przekształca je i ładuje do wielowymiarowych struktur, a nast ˛epnie do-starcza zapytania i analizy wspieraj ˛ace podejmowanie decyzji

Bill Inmon (w ˛aska definicja)

Hurtownia to baza danych, maj ˛aca słu˙zy´c wspomaganiu procesu podejmowa-nia decyzji, która jest:

zorientowana tematycznie (subject oriented) nieulotna (nonvolatile),

zintegrowana (integrated),

(13)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Definicja Inmona

Definicja Inmona

Odnie´smy si ˛e do poszczególnych poj ˛e´c: zorientowana tematycznie:

dane, kóre s ˛a zbierane dotycz ˛a okre´slonegotematu, a nie działa ´n; np. DWH mo˙ze koncentrowa´c si ˛e na analizie rentowno´sci pewnej spólki, w odró˙znieniu odbazy operacyjnej, która zapewnia obsług ˛e procesu: nieulotna

raz umieszczone dane w DWH pozostaj ˛a niezmienione; zapytanie o takich samych parametrachzawsze zwróci ten sam wynik, bez ró˙znicy jak cz ˛esto i kiedy zostało wykonane,

zintegrowana

dane s ˛a spójne — nie w sensie logicznym, ale co do formatu, sposobu przechowywania oraz dopuszczalnych warto´sci,

zró˙znicowana czasowo

zbierane s ˛adane historyczne; dane zbierane w DWH maj ˛acharakter przyrostowy, podczas gdy bazy operacyjne nie przechowuj ˛a danych historycznych; w DWH wszelkie zmiany powoduj ˛adodanie danych do bazy, a nie ich modyfikacj ˛e

(14)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Definicja Inmona

Definicja Inmona

Odnie´smy si ˛e do poszczególnych poj ˛e´c: zorientowana tematycznie:

dane, kóre s ˛a zbierane dotycz ˛a okre´slonegotematu, a nie działa ´n; np. DWH mo˙ze koncentrowa´c si ˛e na analizie rentowno´sci pewnej spólki, w odró˙znieniu odbazy operacyjnej, która zapewnia obsług ˛e procesu:

nieulotna

raz umieszczone dane w DWH pozostaj ˛a niezmienione; zapytanie o takich samych parametrachzawsze zwróci ten sam wynik, bez ró˙znicy jak cz ˛esto i kiedy zostało wykonane,

zintegrowana

dane s ˛a spójne — nie w sensie logicznym, ale co do formatu, sposobu przechowywania oraz dopuszczalnych warto´sci,

zró˙znicowana czasowo

zbierane s ˛adane historyczne; dane zbierane w DWH maj ˛acharakter przyrostowy, podczas gdy bazy operacyjne nie przechowuj ˛a danych historycznych; w DWH wszelkie zmiany powoduj ˛adodanie danych do bazy, a nie ich modyfikacj ˛e

(15)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Definicja Inmona

Definicja Inmona

Odnie´smy si ˛e do poszczególnych poj ˛e´c: zorientowana tematycznie:

dane, kóre s ˛a zbierane dotycz ˛a okre´slonegotematu, a nie działa ´n; np. DWH mo˙ze koncentrowa´c si ˛e na analizie rentowno´sci pewnej spólki, w odró˙znieniu odbazy operacyjnej, która zapewnia obsług ˛e procesu: nieulotna

raz umieszczone dane w DWH pozostaj ˛a niezmienione; zapytanie o takich samych parametrachzawsze zwróci ten sam wynik, bez ró˙znicy jak cz ˛esto i kiedy zostało wykonane,

zintegrowana

dane s ˛a spójne — nie w sensie logicznym, ale co do formatu, sposobu przechowywania oraz dopuszczalnych warto´sci,

zró˙znicowana czasowo

zbierane s ˛adane historyczne; dane zbierane w DWH maj ˛acharakter przyrostowy, podczas gdy bazy operacyjne nie przechowuj ˛a danych historycznych; w DWH wszelkie zmiany powoduj ˛adodanie danych do bazy, a nie ich modyfikacj ˛e

(16)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Definicja Inmona

Definicja Inmona

Odnie´smy si ˛e do poszczególnych poj ˛e´c: zorientowana tematycznie:

dane, kóre s ˛a zbierane dotycz ˛a okre´slonegotematu, a nie działa ´n; np. DWH mo˙ze koncentrowa´c si ˛e na analizie rentowno´sci pewnej spólki, w odró˙znieniu odbazy operacyjnej, która zapewnia obsług ˛e procesu: nieulotna

raz umieszczone dane w DWH pozostaj ˛a niezmienione; zapytanie o takich samych parametrachzawsze zwróci ten sam wynik, bez ró˙znicy jak cz ˛esto i kiedy zostało wykonane,

zintegrowana

dane s ˛a spójne — nie w sensie logicznym, ale co do formatu, sposobu przechowywania oraz dopuszczalnych warto´sci,

zró˙znicowana czasowo

zbierane s ˛adane historyczne; dane zbierane w DWH maj ˛acharakter przyrostowy, podczas gdy bazy operacyjne nie przechowuj ˛a danych historycznych; w DWH wszelkie zmiany powoduj ˛adodanie danych do bazy, a nie ich modyfikacj ˛e

(17)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Definicja Inmona

Definicja Inmona

Odnie´smy si ˛e do poszczególnych poj ˛e´c: zorientowana tematycznie:

dane, kóre s ˛a zbierane dotycz ˛a okre´slonegotematu, a nie działa ´n; np. DWH mo˙ze koncentrowa´c si ˛e na analizie rentowno´sci pewnej spólki, w odró˙znieniu odbazy operacyjnej, która zapewnia obsług ˛e procesu: nieulotna

raz umieszczone dane w DWH pozostaj ˛a niezmienione; zapytanie o takich samych parametrachzawsze zwróci ten sam wynik, bez ró˙znicy jak cz ˛esto i kiedy zostało wykonane,

zintegrowana

dane s ˛a spójne — nie w sensie logicznym, ale co do formatu, sposobu przechowywania oraz dopuszczalnych warto´sci,

zró˙znicowana czasowo

zbierane s ˛adane historyczne; dane zbierane w DWH maj ˛acharakter przyrostowy, podczas gdy bazy operacyjne nie przechowuj ˛a danych historycznych; w DWH wszelkie zmiany powoduj ˛adodanie danych do bazy, a nie ich modyfikacj ˛e

(18)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Definicja Inmona

Definicja Inmona

Odnie´smy si ˛e do poszczególnych poj ˛e´c: zorientowana tematycznie:

dane, kóre s ˛a zbierane dotycz ˛a okre´slonegotematu, a nie działa ´n; np. DWH mo˙ze koncentrowa´c si ˛e na analizie rentowno´sci pewnej spólki, w odró˙znieniu odbazy operacyjnej, która zapewnia obsług ˛e procesu: nieulotna

raz umieszczone dane w DWH pozostaj ˛a niezmienione; zapytanie o takich samych parametrachzawsze zwróci ten sam wynik, bez ró˙znicy jak cz ˛esto i kiedy zostało wykonane,

zintegrowana

dane s ˛a spójne — nie w sensie logicznym, ale co do formatu, sposobu przechowywania oraz dopuszczalnych warto´sci,

zró˙znicowana czasowo

zbierane s ˛adane historyczne; dane zbierane w DWH maj ˛acharakter przyrostowy, podczas gdy bazy operacyjne nie przechowuj ˛a danych historycznych; w DWH wszelkie zmiany powoduj ˛adodanie danych do bazy, a nie ich modyfikacj ˛e

(19)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Definicja Inmona

Definicja Inmona

Odnie´smy si ˛e do poszczególnych poj ˛e´c: zorientowana tematycznie:

dane, kóre s ˛a zbierane dotycz ˛a okre´slonegotematu, a nie działa ´n; np. DWH mo˙ze koncentrowa´c si ˛e na analizie rentowno´sci pewnej spólki, w odró˙znieniu odbazy operacyjnej, która zapewnia obsług ˛e procesu: nieulotna

raz umieszczone dane w DWH pozostaj ˛a niezmienione; zapytanie o takich samych parametrachzawsze zwróci ten sam wynik, bez ró˙znicy jak cz ˛esto i kiedy zostało wykonane,

zintegrowana

dane s ˛a spójne — nie w sensie logicznym, ale co do formatu, sposobu przechowywania oraz dopuszczalnych warto´sci,

zró˙znicowana czasowo

zbierane s ˛adane historyczne; dane zbierane w DWH maj ˛acharakter przyrostowy, podczas gdy bazy operacyjne nie przechowuj ˛a danych historycznych; w DWH wszelkie zmiany powoduj ˛adodanie danych do bazy, a nie ich modyfikacj ˛e

(20)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Definicja Inmona

Definicja Inmona

Odnie´smy si ˛e do poszczególnych poj ˛e´c: zorientowana tematycznie:

dane, kóre s ˛a zbierane dotycz ˛a okre´slonegotematu, a nie działa ´n; np. DWH mo˙ze koncentrowa´c si ˛e na analizie rentowno´sci pewnej spólki, w odró˙znieniu odbazy operacyjnej, która zapewnia obsług ˛e procesu: nieulotna

raz umieszczone dane w DWH pozostaj ˛a niezmienione; zapytanie o takich samych parametrachzawsze zwróci ten sam wynik, bez ró˙znicy jak cz ˛esto i kiedy zostało wykonane,

zintegrowana

dane s ˛a spójne — nie w sensie logicznym, ale co do formatu, sposobu przechowywania oraz dopuszczalnych warto´sci,

zró˙znicowana czasowo

zbierane s ˛adane historyczne; dane zbierane w DWH maj ˛acharakter przyrostowy, podczas gdy bazy operacyjne nie przechowuj ˛a danych historycznych; w DWH wszelkie zmiany powoduj ˛adodanie danych do bazy, a nie ich modyfikacj ˛e

(21)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Definicja Kimballa

Definicja Kimballa

zgodnie z t ˛a definicj ˛a, hurtowni ˛e nale˙zy traktowa´c jako kompleksowe ´srodowisko, zło˙zone z wielu elementów,

ka˙zdy element ma odr ˛ebny projekt, narz ˛edzia i metodologi ˛e,

dopiero po poł ˛aczeniu tych wszystkich elementów otrzymujemy system hurtowni danych,

DWH jest tuprocesem, a nie produktem,

definicja nie jest sprzeczna z def. Inmona — t ˛e drug ˛a mo˙zna traktowa´c jako podzbiór def. Kimballa

(22)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Definicja Kimballa

Definicja Kimballa

zgodnie z t ˛a definicj ˛a, hurtowni ˛e nale˙zy traktowa´c jako kompleksowe ´srodowisko, zło˙zone z wielu elementów,

ka˙zdy element ma odr ˛ebny projekt, narz ˛edzia i metodologi ˛e,

dopiero po poł ˛aczeniu tych wszystkich elementów otrzymujemy system hurtowni danych,

DWH jest tuprocesem, a nie produktem,

definicja nie jest sprzeczna z def. Inmona — t ˛e drug ˛a mo˙zna traktowa´c jako podzbiór def. Kimballa

(23)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Definicja Kimballa

Definicja Kimballa

zgodnie z t ˛a definicj ˛a, hurtowni ˛e nale˙zy traktowa´c jako kompleksowe ´srodowisko, zło˙zone z wielu elementów,

ka˙zdy element ma odr ˛ebny projekt, narz ˛edzia i metodologi ˛e,

dopiero po poł ˛aczeniu tych wszystkich elementów otrzymujemy system hurtowni danych,

DWH jest tuprocesem, a nie produktem,

definicja nie jest sprzeczna z def. Inmona — t ˛e drug ˛a mo˙zna traktowa´c jako podzbiór def. Kimballa

(24)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Definicja Kimballa

Definicja Kimballa

zgodnie z t ˛a definicj ˛a, hurtowni ˛e nale˙zy traktowa´c jako kompleksowe ´srodowisko, zło˙zone z wielu elementów,

ka˙zdy element ma odr ˛ebny projekt, narz ˛edzia i metodologi ˛e,

dopiero po poł ˛aczeniu tych wszystkich elementów otrzymujemy system hurtowni danych,

DWH jest tuprocesem, a nie produktem,

definicja nie jest sprzeczna z def. Inmona — t ˛e drug ˛a mo˙zna traktowa´c jako podzbiór def. Kimballa

(25)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Definicja Kimballa

Definicja Kimballa

zgodnie z t ˛a definicj ˛a, hurtowni ˛e nale˙zy traktowa´c jako kompleksowe ´srodowisko, zło˙zone z wielu elementów,

ka˙zdy element ma odr ˛ebny projekt, narz ˛edzia i metodologi ˛e,

dopiero po poł ˛aczeniu tych wszystkich elementów otrzymujemy system hurtowni danych,

DWH jest tuprocesem, a nie produktem,

definicja nie jest sprzeczna z def. Inmona — t ˛e drug ˛a mo˙zna traktowa´c jako podzbiór def. Kimballa

(26)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

OLTP

OLTP

wi ˛ekszo´s´c codziennych operacji na operacyjnej bazie danych to On-Line Transaction Processing (OLTP)

s ˛a to krótkie, proste i cz ˛este zapytania lub modyfikacje, ka˙zde dotycz ˛ace niewielkiej liczby krotek,

przykłady: odpowiedzi na zapytania z interfejsu WWW (np. o rozkład jazdy poci ˛agów, bankomaty, sprzeda˙z biletów lotniczych)

(27)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

OLTP

OLTP

wi ˛ekszo´s´c codziennych operacji na operacyjnej bazie danych to On-Line Transaction Processing (OLTP)

s ˛a to krótkie, proste i cz ˛este zapytania lub modyfikacje, ka˙zde dotycz ˛ace niewielkiej liczby krotek,

przykłady: odpowiedzi na zapytania z interfejsu WWW (np. o rozkład jazdy poci ˛agów, bankomaty, sprzeda˙z biletów lotniczych)

(28)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

OLTP

OLTP

wi ˛ekszo´s´c codziennych operacji na operacyjnej bazie danych to On-Line Transaction Processing (OLTP)

s ˛a to krótkie, proste i cz ˛este zapytania lub modyfikacje, ka˙zde dotycz ˛ace niewielkiej liczby krotek,

przykłady: odpowiedzi na zapytania z interfejsu WWW (np. o rozkład jazdy poci ˛agów, bankomaty, sprzeda˙z biletów lotniczych)

(29)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

OLAP

OLAP

programy typu On-Line Analytical Processing (OLAP) zawieraj ˛a niewiele zapyta ´n, ale du˙zo bardziej zło˙zonych — ich przetwarzanie mo˙ze trwa´c godzinami,

zapytania takie przy tym nie wymagaj ˛a bezwzgl ˛ednie aktualnej bazy danych, bowiem zwykle słu˙z ˛a poszukiwaniu ogólnych prawidłowo´sci, integralno´s´c danych zapewniana podczas konstrukcji (lub

doładowania), pó´zniej sprawdzanie integralno´sci zb ˛edne, bo tylko zapytania (bez modyfikacji),

przykłady: Amazon analizuje zamówienia swoich klientów, aby wy´swietli´c im ekran powitalny z produktami z zakresu ich zainteresowa ´n.

(30)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

OLAP

OLAP

programy typu On-Line Analytical Processing (OLAP) zawieraj ˛a niewiele zapyta ´n, ale du˙zo bardziej zło˙zonych — ich przetwarzanie mo˙ze trwa´c godzinami,

zapytania takie przy tym nie wymagaj ˛a bezwzgl ˛ednie aktualnej bazy danych, bowiem zwykle słu˙z ˛a poszukiwaniu ogólnych prawidłowo´sci,

integralno´s´c danych zapewniana podczas konstrukcji (lub doładowania), pó´zniej sprawdzanie integralno´sci zb ˛edne, bo tylko zapytania (bez modyfikacji),

przykłady: Amazon analizuje zamówienia swoich klientów, aby wy´swietli´c im ekran powitalny z produktami z zakresu ich zainteresowa ´n.

(31)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

OLAP

OLAP

programy typu On-Line Analytical Processing (OLAP) zawieraj ˛a niewiele zapyta ´n, ale du˙zo bardziej zło˙zonych — ich przetwarzanie mo˙ze trwa´c godzinami,

zapytania takie przy tym nie wymagaj ˛a bezwzgl ˛ednie aktualnej bazy danych, bowiem zwykle słu˙z ˛a poszukiwaniu ogólnych prawidłowo´sci, integralno´s´c danych zapewniana podczas konstrukcji (lub

doładowania), pó´zniej sprawdzanie integralno´sci zb ˛edne, bo tylko zapytania (bez modyfikacji),

przykłady: Amazon analizuje zamówienia swoich klientów, aby wy´swietli´c im ekran powitalny z produktami z zakresu ich zainteresowa ´n.

(32)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

OLAP

OLAP

programy typu On-Line Analytical Processing (OLAP) zawieraj ˛a niewiele zapyta ´n, ale du˙zo bardziej zło˙zonych — ich przetwarzanie mo˙ze trwa´c godzinami,

zapytania takie przy tym nie wymagaj ˛a bezwzgl ˛ednie aktualnej bazy danych, bowiem zwykle słu˙z ˛a poszukiwaniu ogólnych prawidłowo´sci, integralno´s´c danych zapewniana podczas konstrukcji (lub

doładowania), pó´zniej sprawdzanie integralno´sci zb ˛edne, bo tylko zapytania (bez modyfikacji),

przykłady: Amazon analizuje zamówienia swoich klientów, aby wy´swietli´c im ekran powitalny z produktami z zakresu ich zainteresowa ´n.

(33)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Porównanie OLTP i DWH

Porównanie

Cecha OLTP Hurtownia danych

czas odpowiedzi aplika-cji

ułamki sekundy - se-kundy

sekundy - godziny

czasowy zakres danych 30-60 dni 2-10 lat organizacja danych według aplikacji tematyczna

rozmiar małe - du˙ze du˙ze - wielkie

intensywno´s´c operacji dyskowych

(34)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Miary

Miary, inaczej: fakty

warto´sci ci ˛agłe, numeryczne

typowe miary: warto´s´c sprzeda˙zy, koszt, zysk, sprzedana ilo´s´c rodzaje miar

addytywne (we wszystkich wymiarach) - np. liczba sprzedanych sztuk

cz ˛e´sciowo addytywne (addytywne w niektórych wymiarach) - np. stan w magazynie

(35)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Wymiary

Wymiary

warto´sci dyskretne, niezmienne lub rzadko zmienne, nadaj ˛a znaczenie danym (miarom, faktom)

typowe wymiary: klient, czas, produkt, sklep

hierarchie – umo˙zliwiaj ˛a organizacj ˛e danych na ró˙znych poziomach agregacji

poziom – reprezentuje pozycj ˛e w hierarchii

atrybuty – dostarczaj ˛a dodatkowych informacji o danych, np. kolor, smak, dzie ´n tygodnia

(36)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Model wielowymiarowy

Dane na potrzeby przetwarzania OLAP s ˛a w naturalny sposób przedsta-wiane w postaci wielowymiarowej (3 lub wi ˛ecej wymiarów) — logiczny model wielowymiarowy

Logiczne kostki stanowi ˛a sposób organizacji miar maj ˛acych te same wy-miary

[ ´Zródło:

http://icis.pcz.pl/~olga/projekty/hurt.pdf]

[ ´Zródło:

(37)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Schemat gwiazdy

Schemat gwiazdy

centralna tabela faktów (ok. 90% cało´sci tabel w DWH) wymiary zdenormalizowane

tabela faktów poł ˛aczona z tabelami wymiarów przez klucze główne i obce

(38)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura

Schemat płatka ´sniegu

Schemat płatka ´sniegu centralna tabela faktów wymiary znormalizowane

(39)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Ogólny obraz

Architektura hurtowni danych

(40)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ´

Zródła danych

´

Zródła danych

Wszystkie systemy informatyczne i interfejsy zidentyfikowane jako ´zródła danych dla hurtowni

Systemy funkcjonuj ˛ace wewn ˛atrz or-ganizacji

Zewn ˛etrzne ´zródła danych: Notowania

Publikacje statystyczne Inne

(41)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ´

Zródła danych

´

Zródła danych

Wszystkie systemy informatyczne i interfejsy zidentyfikowane jako ´zródła danych dla hurtowni

Systemy funkcjonuj ˛ace wewn ˛atrz or-ganizacji

Zewn ˛etrzne ´zródła danych: Notowania

Publikacje statystyczne Inne

(42)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ´

Zródła danych

´

Zródła danych

Wszystkie systemy informatyczne i interfejsy zidentyfikowane jako ´zródła danych dla hurtowni

Systemy funkcjonuj ˛ace wewn ˛atrz or-ganizacji

Zewn ˛etrzne ´zródła danych: Notowania

Publikacje statystyczne Inne

(43)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ´

Zródła danych

´

Zródła danych

Wszystkie systemy informatyczne i interfejsy zidentyfikowane jako ´zródła danych dla hurtowni

Systemy funkcjonuj ˛ace wewn ˛atrz or-ganizacji

Zewn ˛etrzne ´zródła danych: Notowania

Publikacje statystyczne Inne

(44)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ´

Zródła danych

´

Zródła danych

Wszystkie systemy informatyczne i interfejsy zidentyfikowane jako ´zródła danych dla hurtowni

Systemy funkcjonuj ˛ace wewn ˛atrz or-ganizacji

Zewn ˛etrzne ´zródła danych: Notowania

Publikacje statystyczne

(45)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ´

Zródła danych

´

Zródła danych

Wszystkie systemy informatyczne i interfejsy zidentyfikowane jako ´zródła danych dla hurtowni

Systemy funkcjonuj ˛ace wewn ˛atrz or-ganizacji

Zewn ˛etrzne ´zródła danych: Notowania

Publikacje statystyczne Inne

(46)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT

ELT – Extract Load Transform Cyklicznie uruchamiany proces:

pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),

przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):

Uspójnienie Czyszczenie danych Agregacja danych

Ładuj ˛acy dane do hurtowni (ładowa-nie)

Infrastruktura informatyczna:

Narz ˛edzie definiowania procesów przetwarzania danych

Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów

(47)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT

ELT – Extract Load Transform Cyklicznie uruchamiany proces:

pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),

przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):

Uspójnienie Czyszczenie danych Agregacja danych

Ładuj ˛acy dane do hurtowni (ładowa-nie)

Infrastruktura informatyczna:

Narz ˛edzie definiowania procesów przetwarzania danych

Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów

(48)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT

ELT – Extract Load Transform Cyklicznie uruchamiany proces:

pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),

przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):

Uspójnienie Czyszczenie danych Agregacja danych

Ładuj ˛acy dane do hurtowni (ładowa-nie)

Infrastruktura informatyczna:

Narz ˛edzie definiowania procesów przetwarzania danych

Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów

(49)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT

ELT – Extract Load Transform Cyklicznie uruchamiany proces:

pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),

przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):

Uspójnienie Czyszczenie danych Agregacja danych

Ładuj ˛acy dane do hurtowni (ładowa-nie)

Infrastruktura informatyczna:

Narz ˛edzie definiowania procesów przetwarzania danych

Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów

(50)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT

ELT – Extract Load Transform Cyklicznie uruchamiany proces:

pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),

przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):

Uspójnienie

Czyszczenie danych Agregacja danych

Ładuj ˛acy dane do hurtowni (ładowa-nie)

Infrastruktura informatyczna:

Narz ˛edzie definiowania procesów przetwarzania danych

Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów

(51)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT

ELT – Extract Load Transform Cyklicznie uruchamiany proces:

pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),

przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):

Uspójnienie Czyszczenie danych

Agregacja danych

Ładuj ˛acy dane do hurtowni (ładowa-nie)

Infrastruktura informatyczna:

Narz ˛edzie definiowania procesów przetwarzania danych

Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów

(52)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT

ELT – Extract Load Transform Cyklicznie uruchamiany proces:

pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),

przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):

Uspójnienie Czyszczenie danych Agregacja danych

Ładuj ˛acy dane do hurtowni (ładowa-nie)

Infrastruktura informatyczna:

Narz ˛edzie definiowania procesów przetwarzania danych

Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów

(53)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT

ELT – Extract Load Transform Cyklicznie uruchamiany proces:

pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),

przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):

Uspójnienie Czyszczenie danych Agregacja danych

Ładuj ˛acy dane do hurtowni (ładowa-nie)

Infrastruktura informatyczna:

Narz ˛edzie definiowania procesów przetwarzania danych

Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów

(54)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT

ELT – Extract Load Transform Cyklicznie uruchamiany proces:

pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),

przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):

Uspójnienie Czyszczenie danych Agregacja danych

Ładuj ˛acy dane do hurtowni (ładowa-nie)

Infrastruktura informatyczna:

Narz ˛edzie definiowania procesów przetwarzania danych

Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów

(55)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT

ELT – Extract Load Transform Cyklicznie uruchamiany proces:

pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),

przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):

Uspójnienie Czyszczenie danych Agregacja danych

Ładuj ˛acy dane do hurtowni (ładowa-nie)

Infrastruktura informatyczna:

Narz ˛edzie definiowania procesów przetwarzania danych

Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów

(56)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT

ELT – Extract Load Transform Cyklicznie uruchamiany proces:

pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),

przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):

Uspójnienie Czyszczenie danych Agregacja danych

Ładuj ˛acy dane do hurtowni (ładowa-nie)

Infrastruktura informatyczna:

Narz ˛edzie definiowania procesów przetwarzania danych

Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów

(57)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Repozytorium główne Repozytorium główne Inne okre´slenia: Repozytorium główne Repozytorium detaliczne Hurtownia globalna Hurtownia podstawowa Hurtownia centralna

Jest to repozytorium, przechowuj ˛ace wszystkie dane pobrane z systemów ´zródłowych na zakładanym poziomie granulacji.

(58)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Repozytorium główne Repozytorium główne Inne okre´slenia: Repozytorium główne Repozytorium detaliczne Hurtownia globalna Hurtownia podstawowa Hurtownia centralna

Jest to repozytorium, przechowuj ˛ace wszystkie dane pobrane z systemów ´zródłowych na zakładanym poziomie granulacji.

(59)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Repozytorium główne Repozytorium główne Inne okre´slenia: Repozytorium główne Repozytorium detaliczne Hurtownia globalna Hurtownia podstawowa Hurtownia centralna

Jest to repozytorium, przechowuj ˛ace wszystkie dane pobrane z systemów ´zródłowych na zakładanym poziomie granulacji.

(60)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Repozytorium główne Repozytorium główne Inne okre´slenia: Repozytorium główne Repozytorium detaliczne Hurtownia globalna Hurtownia podstawowa Hurtownia centralna

Jest to repozytorium, przechowuj ˛ace wszystkie dane pobrane z systemów ´zródłowych na zakładanym poziomie granulacji.

(61)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Data mart

Datamart

Niewielka hurtownia, zawieraj ˛aca wy-cinek pełnej informacji zgromadzonej w hurtowni globalnej, przygotowany na potrzeby grupy u˙zytkowników – np. jednego działu w firmie.

Inne okre´slenia: hurtownia tema-tyczna lub oddziałowa.

Mniejsza granulacja danych. Wybrane obiekty wraz z kontekstem analiz.

Dwie, wykluczaj ˛ace si ˛e definicje:

(1) Data mart to podzbiór hurtowni przeznaczony dla konkretnej grupy u˙zytkowników — czyli jest wycinek wi ˛ekszej hurtwoni.

(2) Data mart to samodzielna baza danych, o specyficznej strukturze, przystosowanej do konkretnych potrzeb (czyli mo˙ze by´c niezale˙zny od DWH).

(62)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Data mart

Datamart

Niewielka hurtownia, zawieraj ˛aca wy-cinek pełnej informacji zgromadzonej w hurtowni globalnej, przygotowany na potrzeby grupy u˙zytkowników – np. jednego działu w firmie.

Inne okre´slenia: hurtownia tema-tyczna lub oddziałowa.

Mniejsza granulacja danych. Wybrane obiekty wraz z kontekstem analiz.

Dwie, wykluczaj ˛ace si ˛e definicje:

(1) Data mart to podzbiór hurtowni przeznaczony dla konkretnej grupy u˙zytkowników — czyli jest wycinek wi ˛ekszej hurtwoni.

(2) Data mart to samodzielna baza danych, o specyficznej strukturze, przystosowanej do konkretnych potrzeb (czyli mo˙ze by´c niezale˙zny od DWH).

(63)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Data mart

Datamart

Niewielka hurtownia, zawieraj ˛aca wy-cinek pełnej informacji zgromadzonej w hurtowni globalnej, przygotowany na potrzeby grupy u˙zytkowników – np. jednego działu w firmie.

Inne okre´slenia: hurtownia tema-tyczna lub oddziałowa.

Mniejsza granulacja danych. Wybrane obiekty wraz z kontekstem analiz.

Dwie, wykluczaj ˛ace si ˛e definicje:

(1) Data mart to podzbiór hurtowni przeznaczony dla konkretnej grupy u˙zytkowników — czyli jest wycinek wi ˛ekszej hurtwoni.

(2) Data mart to samodzielna baza danych, o specyficznej strukturze, przystosowanej do konkretnych potrzeb (czyli mo˙ze by´c niezale˙zny od DWH).

(64)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Data mart

Datamart

Niewielka hurtownia, zawieraj ˛aca wy-cinek pełnej informacji zgromadzonej w hurtowni globalnej, przygotowany na potrzeby grupy u˙zytkowników – np. jednego działu w firmie.

Inne okre´slenia: hurtownia tema-tyczna lub oddziałowa.

Mniejsza granulacja danych.

Wybrane obiekty wraz z kontekstem analiz.

Dwie, wykluczaj ˛ace si ˛e definicje:

(1) Data mart to podzbiór hurtowni przeznaczony dla konkretnej grupy u˙zytkowników — czyli jest wycinek wi ˛ekszej hurtwoni.

(2) Data mart to samodzielna baza danych, o specyficznej strukturze, przystosowanej do konkretnych potrzeb (czyli mo˙ze by´c niezale˙zny od DWH).

(65)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Data mart

Datamart

Niewielka hurtownia, zawieraj ˛aca wy-cinek pełnej informacji zgromadzonej w hurtowni globalnej, przygotowany na potrzeby grupy u˙zytkowników – np. jednego działu w firmie.

Inne okre´slenia: hurtownia tema-tyczna lub oddziałowa.

Mniejsza granulacja danych. Wybrane obiekty wraz z kontekstem analiz.

Dwie, wykluczaj ˛ace si ˛e definicje:

(1) Data mart to podzbiór hurtowni przeznaczony dla konkretnej grupy u˙zytkowników — czyli jest wycinek wi ˛ekszej hurtwoni.

(2) Data mart to samodzielna baza danych, o specyficznej strukturze, przystosowanej do konkretnych potrzeb (czyli mo˙ze by´c niezale˙zny od DWH).

(66)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Data mart

(67)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Aplikacje raportowo-analityczne

Aplikacje raportowo-analityczne OLAP – Online Analytical Proces-sing Oprogramowanie, umo˙zliwiaj ˛ace u˙zytkownikom analiz ˛e danych bez ko-nieczno´sci formułowania zapyta ´n w j ˛ezyku SQL

Raportowanie ad-hoc Krótki czas odpowiedzi < 5s Interaktywno´s´c raportu

(68)

Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Aplikacje raportowo-analityczne

Aplikacje raportowo-analityczne OLAP – Online Analytical Proces-sing Oprogramowanie, umo˙zliwiaj ˛ace u˙zytkownikom analiz ˛e danych bez ko-nieczno´sci formułowania zapyta ´n w j ˛ezyku SQL

Raportowanie ad-hoc Krótki czas odpowiedzi < 5s Interaktywno´s´c raportu

Cytaty

Powiązane dokumenty