Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Wprowadzenie do “data science”
Wykład 3 - hurtownie danych
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Rys historyczny
Rys historyczny
Hurtownie danych (DWH — data warehouses) nie s ˛a bynajmniej nowo´sci ˛a w ´swiecie informatycznym:
prace teoretyczne prowadzono ju˙z pod koniec lat 70-tych XX w., pionierzy: zespół z MIT, który pracował nad wyodr ˛ebnieniem osobnego przetwarzania analitycznego, operuj ˛acego na danych o zupełnie innych strukturach ni˙z zwykle u˙zywanych do zastosowa ´n operacyjnych, formalnie za moment powstania hurtowni danych uznaje si ˛e rok 1988 — publikacja Barry’ego Deliva oraz Paula Murphy’ego wprowadzaj ˛aca poj ˛ecie “hurtowni danych biznesowych”,
z kolei wcze´sniej — w roku 1985 dla firmy Procter & Gamble uruchomiono pierwszy system analityki biznesowej.
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Rys historyczny
Rys historyczny
Hurtownie danych (DWH — data warehouses) nie s ˛a bynajmniej nowo´sci ˛a w ´swiecie informatycznym:
prace teoretyczne prowadzono ju˙z pod koniec lat 70-tych XX w.,
pionierzy: zespół z MIT, który pracował nad wyodr ˛ebnieniem osobnego przetwarzania analitycznego, operuj ˛acego na danych o zupełnie innych strukturach ni˙z zwykle u˙zywanych do zastosowa ´n operacyjnych, formalnie za moment powstania hurtowni danych uznaje si ˛e rok 1988 — publikacja Barry’ego Deliva oraz Paula Murphy’ego wprowadzaj ˛aca poj ˛ecie “hurtowni danych biznesowych”,
z kolei wcze´sniej — w roku 1985 dla firmy Procter & Gamble uruchomiono pierwszy system analityki biznesowej.
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Rys historyczny
Rys historyczny
Hurtownie danych (DWH — data warehouses) nie s ˛a bynajmniej nowo´sci ˛a w ´swiecie informatycznym:
prace teoretyczne prowadzono ju˙z pod koniec lat 70-tych XX w., pionierzy: zespół z MIT, który pracował nad wyodr ˛ebnieniem osobnego przetwarzania analitycznego, operuj ˛acego na danych o zupełnie innych strukturach ni˙z zwykle u˙zywanych do zastosowa ´n operacyjnych,
formalnie za moment powstania hurtowni danych uznaje si ˛e rok 1988 — publikacja Barry’ego Deliva oraz Paula Murphy’ego wprowadzaj ˛aca poj ˛ecie “hurtowni danych biznesowych”,
z kolei wcze´sniej — w roku 1985 dla firmy Procter & Gamble uruchomiono pierwszy system analityki biznesowej.
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Rys historyczny
Rys historyczny
Hurtownie danych (DWH — data warehouses) nie s ˛a bynajmniej nowo´sci ˛a w ´swiecie informatycznym:
prace teoretyczne prowadzono ju˙z pod koniec lat 70-tych XX w., pionierzy: zespół z MIT, który pracował nad wyodr ˛ebnieniem osobnego przetwarzania analitycznego, operuj ˛acego na danych o zupełnie innych strukturach ni˙z zwykle u˙zywanych do zastosowa ´n operacyjnych, formalnie za moment powstania hurtowni danych uznaje si ˛e rok 1988 — publikacja Barry’ego Deliva oraz Paula Murphy’ego wprowadzaj ˛aca poj ˛ecie “hurtowni danych biznesowych”,
z kolei wcze´sniej — w roku 1985 dla firmy Procter & Gamble uruchomiono pierwszy system analityki biznesowej.
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Rys historyczny
Rys historyczny
Hurtownie danych (DWH — data warehouses) nie s ˛a bynajmniej nowo´sci ˛a w ´swiecie informatycznym:
prace teoretyczne prowadzono ju˙z pod koniec lat 70-tych XX w., pionierzy: zespół z MIT, który pracował nad wyodr ˛ebnieniem osobnego przetwarzania analitycznego, operuj ˛acego na danych o zupełnie innych strukturach ni˙z zwykle u˙zywanych do zastosowa ´n operacyjnych, formalnie za moment powstania hurtowni danych uznaje si ˛e rok 1988 — publikacja Barry’ego Deliva oraz Paula Murphy’ego wprowadzaj ˛aca poj ˛ecie “hurtowni danych biznesowych”,
z kolei wcze´sniej — w roku 1985 dla firmy Procter & Gamble uruchomiono pierwszy system analityki biznesowej.
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Definicje
Ralph Kimball (szeroka definicja)
Hurtownia danych jest to system, który pozyskuje dane z systemów ´zródło-wych, przekształca je i ładuje do wielowymiarowych struktur, a nast ˛epnie do-starcza zapytania i analizy wspieraj ˛ace podejmowanie decyzji
Bill Inmon (w ˛aska definicja)
Hurtownia to baza danych, maj ˛aca słu˙zy´c wspomaganiu procesu podejmowa-nia decyzji, która jest:
zorientowana tematycznie (subject oriented) nieulotna (nonvolatile),
zintegrowana (integrated),
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Definicje
Ralph Kimball (szeroka definicja)
Hurtownia danych jest to system, który pozyskuje dane z systemów ´zródło-wych, przekształca je i ładuje do wielowymiarowych struktur, a nast ˛epnie do-starcza zapytania i analizy wspieraj ˛ace podejmowanie decyzji
Bill Inmon (w ˛aska definicja)
Hurtownia to baza danych, maj ˛aca słu˙zy´c wspomaganiu procesu podejmowa-nia decyzji, która jest:
zorientowana tematycznie (subject oriented) nieulotna (nonvolatile),
zintegrowana (integrated),
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Definicje
Ralph Kimball (szeroka definicja)
Hurtownia danych jest to system, który pozyskuje dane z systemów ´zródło-wych, przekształca je i ładuje do wielowymiarowych struktur, a nast ˛epnie do-starcza zapytania i analizy wspieraj ˛ace podejmowanie decyzji
Bill Inmon (w ˛aska definicja)
Hurtownia to baza danych, maj ˛aca słu˙zy´c wspomaganiu procesu podejmowa-nia decyzji, która jest:
zorientowana tematycznie (subject oriented)
nieulotna (nonvolatile), zintegrowana (integrated),
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Definicje
Ralph Kimball (szeroka definicja)
Hurtownia danych jest to system, który pozyskuje dane z systemów ´zródło-wych, przekształca je i ładuje do wielowymiarowych struktur, a nast ˛epnie do-starcza zapytania i analizy wspieraj ˛ace podejmowanie decyzji
Bill Inmon (w ˛aska definicja)
Hurtownia to baza danych, maj ˛aca słu˙zy´c wspomaganiu procesu podejmowa-nia decyzji, która jest:
zorientowana tematycznie (subject oriented) nieulotna (nonvolatile),
zintegrowana (integrated),
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Definicje
Ralph Kimball (szeroka definicja)
Hurtownia danych jest to system, który pozyskuje dane z systemów ´zródło-wych, przekształca je i ładuje do wielowymiarowych struktur, a nast ˛epnie do-starcza zapytania i analizy wspieraj ˛ace podejmowanie decyzji
Bill Inmon (w ˛aska definicja)
Hurtownia to baza danych, maj ˛aca słu˙zy´c wspomaganiu procesu podejmowa-nia decyzji, która jest:
zorientowana tematycznie (subject oriented) nieulotna (nonvolatile),
zintegrowana (integrated),
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Definicje
Ralph Kimball (szeroka definicja)
Hurtownia danych jest to system, który pozyskuje dane z systemów ´zródło-wych, przekształca je i ładuje do wielowymiarowych struktur, a nast ˛epnie do-starcza zapytania i analizy wspieraj ˛ace podejmowanie decyzji
Bill Inmon (w ˛aska definicja)
Hurtownia to baza danych, maj ˛aca słu˙zy´c wspomaganiu procesu podejmowa-nia decyzji, która jest:
zorientowana tematycznie (subject oriented) nieulotna (nonvolatile),
zintegrowana (integrated),
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Definicja Inmona
Definicja Inmona
Odnie´smy si ˛e do poszczególnych poj ˛e´c: zorientowana tematycznie:
dane, kóre s ˛a zbierane dotycz ˛a okre´slonegotematu, a nie działa ´n; np. DWH mo˙ze koncentrowa´c si ˛e na analizie rentowno´sci pewnej spólki, w odró˙znieniu odbazy operacyjnej, która zapewnia obsług ˛e procesu: nieulotna
raz umieszczone dane w DWH pozostaj ˛a niezmienione; zapytanie o takich samych parametrachzawsze zwróci ten sam wynik, bez ró˙znicy jak cz ˛esto i kiedy zostało wykonane,
zintegrowana
dane s ˛a spójne — nie w sensie logicznym, ale co do formatu, sposobu przechowywania oraz dopuszczalnych warto´sci,
zró˙znicowana czasowo
zbierane s ˛adane historyczne; dane zbierane w DWH maj ˛acharakter przyrostowy, podczas gdy bazy operacyjne nie przechowuj ˛a danych historycznych; w DWH wszelkie zmiany powoduj ˛adodanie danych do bazy, a nie ich modyfikacj ˛e
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Definicja Inmona
Definicja Inmona
Odnie´smy si ˛e do poszczególnych poj ˛e´c: zorientowana tematycznie:
dane, kóre s ˛a zbierane dotycz ˛a okre´slonegotematu, a nie działa ´n; np. DWH mo˙ze koncentrowa´c si ˛e na analizie rentowno´sci pewnej spólki, w odró˙znieniu odbazy operacyjnej, która zapewnia obsług ˛e procesu:
nieulotna
raz umieszczone dane w DWH pozostaj ˛a niezmienione; zapytanie o takich samych parametrachzawsze zwróci ten sam wynik, bez ró˙znicy jak cz ˛esto i kiedy zostało wykonane,
zintegrowana
dane s ˛a spójne — nie w sensie logicznym, ale co do formatu, sposobu przechowywania oraz dopuszczalnych warto´sci,
zró˙znicowana czasowo
zbierane s ˛adane historyczne; dane zbierane w DWH maj ˛acharakter przyrostowy, podczas gdy bazy operacyjne nie przechowuj ˛a danych historycznych; w DWH wszelkie zmiany powoduj ˛adodanie danych do bazy, a nie ich modyfikacj ˛e
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Definicja Inmona
Definicja Inmona
Odnie´smy si ˛e do poszczególnych poj ˛e´c: zorientowana tematycznie:
dane, kóre s ˛a zbierane dotycz ˛a okre´slonegotematu, a nie działa ´n; np. DWH mo˙ze koncentrowa´c si ˛e na analizie rentowno´sci pewnej spólki, w odró˙znieniu odbazy operacyjnej, która zapewnia obsług ˛e procesu: nieulotna
raz umieszczone dane w DWH pozostaj ˛a niezmienione; zapytanie o takich samych parametrachzawsze zwróci ten sam wynik, bez ró˙znicy jak cz ˛esto i kiedy zostało wykonane,
zintegrowana
dane s ˛a spójne — nie w sensie logicznym, ale co do formatu, sposobu przechowywania oraz dopuszczalnych warto´sci,
zró˙znicowana czasowo
zbierane s ˛adane historyczne; dane zbierane w DWH maj ˛acharakter przyrostowy, podczas gdy bazy operacyjne nie przechowuj ˛a danych historycznych; w DWH wszelkie zmiany powoduj ˛adodanie danych do bazy, a nie ich modyfikacj ˛e
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Definicja Inmona
Definicja Inmona
Odnie´smy si ˛e do poszczególnych poj ˛e´c: zorientowana tematycznie:
dane, kóre s ˛a zbierane dotycz ˛a okre´slonegotematu, a nie działa ´n; np. DWH mo˙ze koncentrowa´c si ˛e na analizie rentowno´sci pewnej spólki, w odró˙znieniu odbazy operacyjnej, która zapewnia obsług ˛e procesu: nieulotna
raz umieszczone dane w DWH pozostaj ˛a niezmienione; zapytanie o takich samych parametrachzawsze zwróci ten sam wynik, bez ró˙znicy jak cz ˛esto i kiedy zostało wykonane,
zintegrowana
dane s ˛a spójne — nie w sensie logicznym, ale co do formatu, sposobu przechowywania oraz dopuszczalnych warto´sci,
zró˙znicowana czasowo
zbierane s ˛adane historyczne; dane zbierane w DWH maj ˛acharakter przyrostowy, podczas gdy bazy operacyjne nie przechowuj ˛a danych historycznych; w DWH wszelkie zmiany powoduj ˛adodanie danych do bazy, a nie ich modyfikacj ˛e
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Definicja Inmona
Definicja Inmona
Odnie´smy si ˛e do poszczególnych poj ˛e´c: zorientowana tematycznie:
dane, kóre s ˛a zbierane dotycz ˛a okre´slonegotematu, a nie działa ´n; np. DWH mo˙ze koncentrowa´c si ˛e na analizie rentowno´sci pewnej spólki, w odró˙znieniu odbazy operacyjnej, która zapewnia obsług ˛e procesu: nieulotna
raz umieszczone dane w DWH pozostaj ˛a niezmienione; zapytanie o takich samych parametrachzawsze zwróci ten sam wynik, bez ró˙znicy jak cz ˛esto i kiedy zostało wykonane,
zintegrowana
dane s ˛a spójne — nie w sensie logicznym, ale co do formatu, sposobu przechowywania oraz dopuszczalnych warto´sci,
zró˙znicowana czasowo
zbierane s ˛adane historyczne; dane zbierane w DWH maj ˛acharakter przyrostowy, podczas gdy bazy operacyjne nie przechowuj ˛a danych historycznych; w DWH wszelkie zmiany powoduj ˛adodanie danych do bazy, a nie ich modyfikacj ˛e
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Definicja Inmona
Definicja Inmona
Odnie´smy si ˛e do poszczególnych poj ˛e´c: zorientowana tematycznie:
dane, kóre s ˛a zbierane dotycz ˛a okre´slonegotematu, a nie działa ´n; np. DWH mo˙ze koncentrowa´c si ˛e na analizie rentowno´sci pewnej spólki, w odró˙znieniu odbazy operacyjnej, która zapewnia obsług ˛e procesu: nieulotna
raz umieszczone dane w DWH pozostaj ˛a niezmienione; zapytanie o takich samych parametrachzawsze zwróci ten sam wynik, bez ró˙znicy jak cz ˛esto i kiedy zostało wykonane,
zintegrowana
dane s ˛a spójne — nie w sensie logicznym, ale co do formatu, sposobu przechowywania oraz dopuszczalnych warto´sci,
zró˙znicowana czasowo
zbierane s ˛adane historyczne; dane zbierane w DWH maj ˛acharakter przyrostowy, podczas gdy bazy operacyjne nie przechowuj ˛a danych historycznych; w DWH wszelkie zmiany powoduj ˛adodanie danych do bazy, a nie ich modyfikacj ˛e
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Definicja Inmona
Definicja Inmona
Odnie´smy si ˛e do poszczególnych poj ˛e´c: zorientowana tematycznie:
dane, kóre s ˛a zbierane dotycz ˛a okre´slonegotematu, a nie działa ´n; np. DWH mo˙ze koncentrowa´c si ˛e na analizie rentowno´sci pewnej spólki, w odró˙znieniu odbazy operacyjnej, która zapewnia obsług ˛e procesu: nieulotna
raz umieszczone dane w DWH pozostaj ˛a niezmienione; zapytanie o takich samych parametrachzawsze zwróci ten sam wynik, bez ró˙znicy jak cz ˛esto i kiedy zostało wykonane,
zintegrowana
dane s ˛a spójne — nie w sensie logicznym, ale co do formatu, sposobu przechowywania oraz dopuszczalnych warto´sci,
zró˙znicowana czasowo
zbierane s ˛adane historyczne; dane zbierane w DWH maj ˛acharakter przyrostowy, podczas gdy bazy operacyjne nie przechowuj ˛a danych historycznych; w DWH wszelkie zmiany powoduj ˛adodanie danych do bazy, a nie ich modyfikacj ˛e
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Definicja Inmona
Definicja Inmona
Odnie´smy si ˛e do poszczególnych poj ˛e´c: zorientowana tematycznie:
dane, kóre s ˛a zbierane dotycz ˛a okre´slonegotematu, a nie działa ´n; np. DWH mo˙ze koncentrowa´c si ˛e na analizie rentowno´sci pewnej spólki, w odró˙znieniu odbazy operacyjnej, która zapewnia obsług ˛e procesu: nieulotna
raz umieszczone dane w DWH pozostaj ˛a niezmienione; zapytanie o takich samych parametrachzawsze zwróci ten sam wynik, bez ró˙znicy jak cz ˛esto i kiedy zostało wykonane,
zintegrowana
dane s ˛a spójne — nie w sensie logicznym, ale co do formatu, sposobu przechowywania oraz dopuszczalnych warto´sci,
zró˙znicowana czasowo
zbierane s ˛adane historyczne; dane zbierane w DWH maj ˛acharakter przyrostowy, podczas gdy bazy operacyjne nie przechowuj ˛a danych historycznych; w DWH wszelkie zmiany powoduj ˛adodanie danych do bazy, a nie ich modyfikacj ˛e
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Definicja Kimballa
Definicja Kimballa
zgodnie z t ˛a definicj ˛a, hurtowni ˛e nale˙zy traktowa´c jako kompleksowe ´srodowisko, zło˙zone z wielu elementów,
ka˙zdy element ma odr ˛ebny projekt, narz ˛edzia i metodologi ˛e,
dopiero po poł ˛aczeniu tych wszystkich elementów otrzymujemy system hurtowni danych,
DWH jest tuprocesem, a nie produktem,
definicja nie jest sprzeczna z def. Inmona — t ˛e drug ˛a mo˙zna traktowa´c jako podzbiór def. Kimballa
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Definicja Kimballa
Definicja Kimballa
zgodnie z t ˛a definicj ˛a, hurtowni ˛e nale˙zy traktowa´c jako kompleksowe ´srodowisko, zło˙zone z wielu elementów,
ka˙zdy element ma odr ˛ebny projekt, narz ˛edzia i metodologi ˛e,
dopiero po poł ˛aczeniu tych wszystkich elementów otrzymujemy system hurtowni danych,
DWH jest tuprocesem, a nie produktem,
definicja nie jest sprzeczna z def. Inmona — t ˛e drug ˛a mo˙zna traktowa´c jako podzbiór def. Kimballa
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Definicja Kimballa
Definicja Kimballa
zgodnie z t ˛a definicj ˛a, hurtowni ˛e nale˙zy traktowa´c jako kompleksowe ´srodowisko, zło˙zone z wielu elementów,
ka˙zdy element ma odr ˛ebny projekt, narz ˛edzia i metodologi ˛e,
dopiero po poł ˛aczeniu tych wszystkich elementów otrzymujemy system hurtowni danych,
DWH jest tuprocesem, a nie produktem,
definicja nie jest sprzeczna z def. Inmona — t ˛e drug ˛a mo˙zna traktowa´c jako podzbiór def. Kimballa
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Definicja Kimballa
Definicja Kimballa
zgodnie z t ˛a definicj ˛a, hurtowni ˛e nale˙zy traktowa´c jako kompleksowe ´srodowisko, zło˙zone z wielu elementów,
ka˙zdy element ma odr ˛ebny projekt, narz ˛edzia i metodologi ˛e,
dopiero po poł ˛aczeniu tych wszystkich elementów otrzymujemy system hurtowni danych,
DWH jest tuprocesem, a nie produktem,
definicja nie jest sprzeczna z def. Inmona — t ˛e drug ˛a mo˙zna traktowa´c jako podzbiór def. Kimballa
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Definicja Kimballa
Definicja Kimballa
zgodnie z t ˛a definicj ˛a, hurtowni ˛e nale˙zy traktowa´c jako kompleksowe ´srodowisko, zło˙zone z wielu elementów,
ka˙zdy element ma odr ˛ebny projekt, narz ˛edzia i metodologi ˛e,
dopiero po poł ˛aczeniu tych wszystkich elementów otrzymujemy system hurtowni danych,
DWH jest tuprocesem, a nie produktem,
definicja nie jest sprzeczna z def. Inmona — t ˛e drug ˛a mo˙zna traktowa´c jako podzbiór def. Kimballa
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
OLTP
OLTP
wi ˛ekszo´s´c codziennych operacji na operacyjnej bazie danych to On-Line Transaction Processing (OLTP)
s ˛a to krótkie, proste i cz ˛este zapytania lub modyfikacje, ka˙zde dotycz ˛ace niewielkiej liczby krotek,
przykłady: odpowiedzi na zapytania z interfejsu WWW (np. o rozkład jazdy poci ˛agów, bankomaty, sprzeda˙z biletów lotniczych)
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
OLTP
OLTP
wi ˛ekszo´s´c codziennych operacji na operacyjnej bazie danych to On-Line Transaction Processing (OLTP)
s ˛a to krótkie, proste i cz ˛este zapytania lub modyfikacje, ka˙zde dotycz ˛ace niewielkiej liczby krotek,
przykłady: odpowiedzi na zapytania z interfejsu WWW (np. o rozkład jazdy poci ˛agów, bankomaty, sprzeda˙z biletów lotniczych)
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
OLTP
OLTP
wi ˛ekszo´s´c codziennych operacji na operacyjnej bazie danych to On-Line Transaction Processing (OLTP)
s ˛a to krótkie, proste i cz ˛este zapytania lub modyfikacje, ka˙zde dotycz ˛ace niewielkiej liczby krotek,
przykłady: odpowiedzi na zapytania z interfejsu WWW (np. o rozkład jazdy poci ˛agów, bankomaty, sprzeda˙z biletów lotniczych)
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
OLAP
OLAP
programy typu On-Line Analytical Processing (OLAP) zawieraj ˛a niewiele zapyta ´n, ale du˙zo bardziej zło˙zonych — ich przetwarzanie mo˙ze trwa´c godzinami,
zapytania takie przy tym nie wymagaj ˛a bezwzgl ˛ednie aktualnej bazy danych, bowiem zwykle słu˙z ˛a poszukiwaniu ogólnych prawidłowo´sci, integralno´s´c danych zapewniana podczas konstrukcji (lub
doładowania), pó´zniej sprawdzanie integralno´sci zb ˛edne, bo tylko zapytania (bez modyfikacji),
przykłady: Amazon analizuje zamówienia swoich klientów, aby wy´swietli´c im ekran powitalny z produktami z zakresu ich zainteresowa ´n.
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
OLAP
OLAP
programy typu On-Line Analytical Processing (OLAP) zawieraj ˛a niewiele zapyta ´n, ale du˙zo bardziej zło˙zonych — ich przetwarzanie mo˙ze trwa´c godzinami,
zapytania takie przy tym nie wymagaj ˛a bezwzgl ˛ednie aktualnej bazy danych, bowiem zwykle słu˙z ˛a poszukiwaniu ogólnych prawidłowo´sci,
integralno´s´c danych zapewniana podczas konstrukcji (lub doładowania), pó´zniej sprawdzanie integralno´sci zb ˛edne, bo tylko zapytania (bez modyfikacji),
przykłady: Amazon analizuje zamówienia swoich klientów, aby wy´swietli´c im ekran powitalny z produktami z zakresu ich zainteresowa ´n.
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
OLAP
OLAP
programy typu On-Line Analytical Processing (OLAP) zawieraj ˛a niewiele zapyta ´n, ale du˙zo bardziej zło˙zonych — ich przetwarzanie mo˙ze trwa´c godzinami,
zapytania takie przy tym nie wymagaj ˛a bezwzgl ˛ednie aktualnej bazy danych, bowiem zwykle słu˙z ˛a poszukiwaniu ogólnych prawidłowo´sci, integralno´s´c danych zapewniana podczas konstrukcji (lub
doładowania), pó´zniej sprawdzanie integralno´sci zb ˛edne, bo tylko zapytania (bez modyfikacji),
przykłady: Amazon analizuje zamówienia swoich klientów, aby wy´swietli´c im ekran powitalny z produktami z zakresu ich zainteresowa ´n.
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
OLAP
OLAP
programy typu On-Line Analytical Processing (OLAP) zawieraj ˛a niewiele zapyta ´n, ale du˙zo bardziej zło˙zonych — ich przetwarzanie mo˙ze trwa´c godzinami,
zapytania takie przy tym nie wymagaj ˛a bezwzgl ˛ednie aktualnej bazy danych, bowiem zwykle słu˙z ˛a poszukiwaniu ogólnych prawidłowo´sci, integralno´s´c danych zapewniana podczas konstrukcji (lub
doładowania), pó´zniej sprawdzanie integralno´sci zb ˛edne, bo tylko zapytania (bez modyfikacji),
przykłady: Amazon analizuje zamówienia swoich klientów, aby wy´swietli´c im ekran powitalny z produktami z zakresu ich zainteresowa ´n.
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Porównanie OLTP i DWH
Porównanie
Cecha OLTP Hurtownia danych
czas odpowiedzi aplika-cji
ułamki sekundy - se-kundy
sekundy - godziny
czasowy zakres danych 30-60 dni 2-10 lat organizacja danych według aplikacji tematyczna
rozmiar małe - du˙ze du˙ze - wielkie
intensywno´s´c operacji dyskowych
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Miary
Miary, inaczej: fakty
warto´sci ci ˛agłe, numeryczne
typowe miary: warto´s´c sprzeda˙zy, koszt, zysk, sprzedana ilo´s´c rodzaje miar
addytywne (we wszystkich wymiarach) - np. liczba sprzedanych sztuk
cz ˛e´sciowo addytywne (addytywne w niektórych wymiarach) - np. stan w magazynie
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Wymiary
Wymiary
warto´sci dyskretne, niezmienne lub rzadko zmienne, nadaj ˛a znaczenie danym (miarom, faktom)
typowe wymiary: klient, czas, produkt, sklep
hierarchie – umo˙zliwiaj ˛a organizacj ˛e danych na ró˙znych poziomach agregacji
poziom – reprezentuje pozycj ˛e w hierarchii
atrybuty – dostarczaj ˛a dodatkowych informacji o danych, np. kolor, smak, dzie ´n tygodnia
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Model wielowymiarowy
Dane na potrzeby przetwarzania OLAP s ˛a w naturalny sposób przedsta-wiane w postaci wielowymiarowej (3 lub wi ˛ecej wymiarów) — logiczny model wielowymiarowy
Logiczne kostki stanowi ˛a sposób organizacji miar maj ˛acych te same wy-miary
[ ´Zródło:
http://icis.pcz.pl/~olga/projekty/hurt.pdf]
[ ´Zródło:
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Schemat gwiazdy
Schemat gwiazdy
centralna tabela faktów (ok. 90% cało´sci tabel w DWH) wymiary zdenormalizowane
tabela faktów poł ˛aczona z tabelami wymiarów przez klucze główne i obce
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura
Schemat płatka ´sniegu
Schemat płatka ´sniegu centralna tabela faktów wymiary znormalizowane
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Ogólny obraz
Architektura hurtowni danych
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ´
Zródła danych
´
Zródła danych
Wszystkie systemy informatyczne i interfejsy zidentyfikowane jako ´zródła danych dla hurtowni
Systemy funkcjonuj ˛ace wewn ˛atrz or-ganizacji
Zewn ˛etrzne ´zródła danych: Notowania
Publikacje statystyczne Inne
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ´
Zródła danych
´
Zródła danych
Wszystkie systemy informatyczne i interfejsy zidentyfikowane jako ´zródła danych dla hurtowni
Systemy funkcjonuj ˛ace wewn ˛atrz or-ganizacji
Zewn ˛etrzne ´zródła danych: Notowania
Publikacje statystyczne Inne
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ´
Zródła danych
´
Zródła danych
Wszystkie systemy informatyczne i interfejsy zidentyfikowane jako ´zródła danych dla hurtowni
Systemy funkcjonuj ˛ace wewn ˛atrz or-ganizacji
Zewn ˛etrzne ´zródła danych: Notowania
Publikacje statystyczne Inne
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ´
Zródła danych
´
Zródła danych
Wszystkie systemy informatyczne i interfejsy zidentyfikowane jako ´zródła danych dla hurtowni
Systemy funkcjonuj ˛ace wewn ˛atrz or-ganizacji
Zewn ˛etrzne ´zródła danych: Notowania
Publikacje statystyczne Inne
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ´
Zródła danych
´
Zródła danych
Wszystkie systemy informatyczne i interfejsy zidentyfikowane jako ´zródła danych dla hurtowni
Systemy funkcjonuj ˛ace wewn ˛atrz or-ganizacji
Zewn ˛etrzne ´zródła danych: Notowania
Publikacje statystyczne
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ´
Zródła danych
´
Zródła danych
Wszystkie systemy informatyczne i interfejsy zidentyfikowane jako ´zródła danych dla hurtowni
Systemy funkcjonuj ˛ace wewn ˛atrz or-ganizacji
Zewn ˛etrzne ´zródła danych: Notowania
Publikacje statystyczne Inne
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT
ELT – Extract Load Transform Cyklicznie uruchamiany proces:
pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),
przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):
Uspójnienie Czyszczenie danych Agregacja danych
Ładuj ˛acy dane do hurtowni (ładowa-nie)
Infrastruktura informatyczna:
Narz ˛edzie definiowania procesów przetwarzania danych
Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT
ELT – Extract Load Transform Cyklicznie uruchamiany proces:
pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),
przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):
Uspójnienie Czyszczenie danych Agregacja danych
Ładuj ˛acy dane do hurtowni (ładowa-nie)
Infrastruktura informatyczna:
Narz ˛edzie definiowania procesów przetwarzania danych
Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT
ELT – Extract Load Transform Cyklicznie uruchamiany proces:
pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),
przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):
Uspójnienie Czyszczenie danych Agregacja danych
Ładuj ˛acy dane do hurtowni (ładowa-nie)
Infrastruktura informatyczna:
Narz ˛edzie definiowania procesów przetwarzania danych
Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT
ELT – Extract Load Transform Cyklicznie uruchamiany proces:
pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),
przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):
Uspójnienie Czyszczenie danych Agregacja danych
Ładuj ˛acy dane do hurtowni (ładowa-nie)
Infrastruktura informatyczna:
Narz ˛edzie definiowania procesów przetwarzania danych
Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT
ELT – Extract Load Transform Cyklicznie uruchamiany proces:
pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),
przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):
Uspójnienie
Czyszczenie danych Agregacja danych
Ładuj ˛acy dane do hurtowni (ładowa-nie)
Infrastruktura informatyczna:
Narz ˛edzie definiowania procesów przetwarzania danych
Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT
ELT – Extract Load Transform Cyklicznie uruchamiany proces:
pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),
przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):
Uspójnienie Czyszczenie danych
Agregacja danych
Ładuj ˛acy dane do hurtowni (ładowa-nie)
Infrastruktura informatyczna:
Narz ˛edzie definiowania procesów przetwarzania danych
Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT
ELT – Extract Load Transform Cyklicznie uruchamiany proces:
pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),
przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):
Uspójnienie Czyszczenie danych Agregacja danych
Ładuj ˛acy dane do hurtowni (ładowa-nie)
Infrastruktura informatyczna:
Narz ˛edzie definiowania procesów przetwarzania danych
Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT
ELT – Extract Load Transform Cyklicznie uruchamiany proces:
pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),
przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):
Uspójnienie Czyszczenie danych Agregacja danych
Ładuj ˛acy dane do hurtowni (ładowa-nie)
Infrastruktura informatyczna:
Narz ˛edzie definiowania procesów przetwarzania danych
Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT
ELT – Extract Load Transform Cyklicznie uruchamiany proces:
pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),
przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):
Uspójnienie Czyszczenie danych Agregacja danych
Ładuj ˛acy dane do hurtowni (ładowa-nie)
Infrastruktura informatyczna:
Narz ˛edzie definiowania procesów przetwarzania danych
Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT
ELT – Extract Load Transform Cyklicznie uruchamiany proces:
pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),
przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):
Uspójnienie Czyszczenie danych Agregacja danych
Ładuj ˛acy dane do hurtowni (ładowa-nie)
Infrastruktura informatyczna:
Narz ˛edzie definiowania procesów przetwarzania danych
Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura ELT
ELT – Extract Load Transform Cyklicznie uruchamiany proces:
pobieraj ˛acy dane ze ´zródeł (ekstrak-cja),
przetwarzaj ˛acy te dane do postaci wymaganej przez model hurtowni da-nych (transformacja):
Uspójnienie Czyszczenie danych Agregacja danych
Ładuj ˛acy dane do hurtowni (ładowa-nie)
Infrastruktura informatyczna:
Narz ˛edzie definiowania procesów przetwarzania danych
Scheduler - oprogramowanie uruchamiaj ˛ace procesy zgodnie z kalendarzem oraz zarz ˛adzaj ˛ace kolejno´sci ˛a wykonywania tych procesów
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Repozytorium główne Repozytorium główne Inne okre´slenia: Repozytorium główne Repozytorium detaliczne Hurtownia globalna Hurtownia podstawowa Hurtownia centralna
Jest to repozytorium, przechowuj ˛ace wszystkie dane pobrane z systemów ´zródłowych na zakładanym poziomie granulacji.
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Repozytorium główne Repozytorium główne Inne okre´slenia: Repozytorium główne Repozytorium detaliczne Hurtownia globalna Hurtownia podstawowa Hurtownia centralna
Jest to repozytorium, przechowuj ˛ace wszystkie dane pobrane z systemów ´zródłowych na zakładanym poziomie granulacji.
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Repozytorium główne Repozytorium główne Inne okre´slenia: Repozytorium główne Repozytorium detaliczne Hurtownia globalna Hurtownia podstawowa Hurtownia centralna
Jest to repozytorium, przechowuj ˛ace wszystkie dane pobrane z systemów ´zródłowych na zakładanym poziomie granulacji.
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Repozytorium główne Repozytorium główne Inne okre´slenia: Repozytorium główne Repozytorium detaliczne Hurtownia globalna Hurtownia podstawowa Hurtownia centralna
Jest to repozytorium, przechowuj ˛ace wszystkie dane pobrane z systemów ´zródłowych na zakładanym poziomie granulacji.
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Data mart
Datamart
Niewielka hurtownia, zawieraj ˛aca wy-cinek pełnej informacji zgromadzonej w hurtowni globalnej, przygotowany na potrzeby grupy u˙zytkowników – np. jednego działu w firmie.
Inne okre´slenia: hurtownia tema-tyczna lub oddziałowa.
Mniejsza granulacja danych. Wybrane obiekty wraz z kontekstem analiz.
Dwie, wykluczaj ˛ace si ˛e definicje:
(1) Data mart to podzbiór hurtowni przeznaczony dla konkretnej grupy u˙zytkowników — czyli jest wycinek wi ˛ekszej hurtwoni.
(2) Data mart to samodzielna baza danych, o specyficznej strukturze, przystosowanej do konkretnych potrzeb (czyli mo˙ze by´c niezale˙zny od DWH).
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Data mart
Datamart
Niewielka hurtownia, zawieraj ˛aca wy-cinek pełnej informacji zgromadzonej w hurtowni globalnej, przygotowany na potrzeby grupy u˙zytkowników – np. jednego działu w firmie.
Inne okre´slenia: hurtownia tema-tyczna lub oddziałowa.
Mniejsza granulacja danych. Wybrane obiekty wraz z kontekstem analiz.
Dwie, wykluczaj ˛ace si ˛e definicje:
(1) Data mart to podzbiór hurtowni przeznaczony dla konkretnej grupy u˙zytkowników — czyli jest wycinek wi ˛ekszej hurtwoni.
(2) Data mart to samodzielna baza danych, o specyficznej strukturze, przystosowanej do konkretnych potrzeb (czyli mo˙ze by´c niezale˙zny od DWH).
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Data mart
Datamart
Niewielka hurtownia, zawieraj ˛aca wy-cinek pełnej informacji zgromadzonej w hurtowni globalnej, przygotowany na potrzeby grupy u˙zytkowników – np. jednego działu w firmie.
Inne okre´slenia: hurtownia tema-tyczna lub oddziałowa.
Mniejsza granulacja danych. Wybrane obiekty wraz z kontekstem analiz.
Dwie, wykluczaj ˛ace si ˛e definicje:
(1) Data mart to podzbiór hurtowni przeznaczony dla konkretnej grupy u˙zytkowników — czyli jest wycinek wi ˛ekszej hurtwoni.
(2) Data mart to samodzielna baza danych, o specyficznej strukturze, przystosowanej do konkretnych potrzeb (czyli mo˙ze by´c niezale˙zny od DWH).
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Data mart
Datamart
Niewielka hurtownia, zawieraj ˛aca wy-cinek pełnej informacji zgromadzonej w hurtowni globalnej, przygotowany na potrzeby grupy u˙zytkowników – np. jednego działu w firmie.
Inne okre´slenia: hurtownia tema-tyczna lub oddziałowa.
Mniejsza granulacja danych.
Wybrane obiekty wraz z kontekstem analiz.
Dwie, wykluczaj ˛ace si ˛e definicje:
(1) Data mart to podzbiór hurtowni przeznaczony dla konkretnej grupy u˙zytkowników — czyli jest wycinek wi ˛ekszej hurtwoni.
(2) Data mart to samodzielna baza danych, o specyficznej strukturze, przystosowanej do konkretnych potrzeb (czyli mo˙ze by´c niezale˙zny od DWH).
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Data mart
Datamart
Niewielka hurtownia, zawieraj ˛aca wy-cinek pełnej informacji zgromadzonej w hurtowni globalnej, przygotowany na potrzeby grupy u˙zytkowników – np. jednego działu w firmie.
Inne okre´slenia: hurtownia tema-tyczna lub oddziałowa.
Mniejsza granulacja danych. Wybrane obiekty wraz z kontekstem analiz.
Dwie, wykluczaj ˛ace si ˛e definicje:
(1) Data mart to podzbiór hurtowni przeznaczony dla konkretnej grupy u˙zytkowników — czyli jest wycinek wi ˛ekszej hurtwoni.
(2) Data mart to samodzielna baza danych, o specyficznej strukturze, przystosowanej do konkretnych potrzeb (czyli mo˙ze by´c niezale˙zny od DWH).
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Data mart
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Aplikacje raportowo-analityczne
Aplikacje raportowo-analityczne OLAP – Online Analytical Proces-sing Oprogramowanie, umo˙zliwiaj ˛ace u˙zytkownikom analiz ˛e danych bez ko-nieczno´sci formułowania zapyta ´n w j ˛ezyku SQL
Raportowanie ad-hoc Krótki czas odpowiedzi < 5s Interaktywno´s´c raportu
Hurtownie danych OLTP a OLAP Model wielowymiarowy Architektura Aplikacje raportowo-analityczne
Aplikacje raportowo-analityczne OLAP – Online Analytical Proces-sing Oprogramowanie, umo˙zliwiaj ˛ace u˙zytkownikom analiz ˛e danych bez ko-nieczno´sci formułowania zapyta ´n w j ˛ezyku SQL
Raportowanie ad-hoc Krótki czas odpowiedzi < 5s Interaktywno´s´c raportu