Usługi przechowywania danych
KMD/PLATON-U4
dla bibliotek cyfrowych
Maciej Brzeźniak, Norbert Meyer,
Rafał Mikołajczak, Maciej Stroiński
PLATON-U4 Plan prezentacji
l
KMD/PLATON-U4:
l
Motywacje, cel, założenia
l
Zastosowania i potencjalni użytkownicy
lKim jesteśmy
l
Usługa PLATON-U4/Usługa Powszechnej Archiwizacji:
lWażne cechy usługi
l
Architektura systemu
l
Środowisko realizacji usługi
Motywacje, cel
lDane są bardzo wartościowe:
l
Bezcenne zbiory cyfrowe
lWyniki kosztownych badań
l
Społeczeństwo Informacyjne....
l
Cele szczegółowe:
l Zabezpieczenie fizyczne danych l Zapewnienie i kontrola
integralności logicznej danych
l Poufność danych
l Długoterminowe przechowywanie
i udostępnianie wykonanych kopii
l Dostarczenie narzędzi wspierających
wykonywanie kopii danych
Cele i założenia
l
Cele nadrzędne:
l
„Usługa Powszechnej Archiwizacji”
lPomoc użytkownikom i instytucjom
l
Potencjalni użytkownicy:
l
Biblioteki cyfrowe J
l Wirtualne laboratoria
l Uczelnie, pracownicy uczelni, naukowcy l Instytuty PAN i ich pracownicy
l Akademickie centra obliczeniowe l Szpitale kliniczne
l Operatorzy sieci miejskich MAN w ramach
konsorcjum PIONIER
l Inni
l
KMD vs PLATON-U4:
l KMD – Krajowy Magazyn Danych
– projekt rozwojowy (2007-2009)
l PLATON-U4 – „Usługa powszechnej archiwizacji” - wdrożenie KMD
dla użytkowników EDU (2010)
l Partnerzy:
l Poznańskie Centrum Superkomputerowo-Sieciowe (PCSS) l Akademickie Centrum Komputerowe CYFRONET AGH
l Politechnika Gdańska, Centrum Informatyczne Trójmiejskiej Akademickiej Sieci Komputerowej l Politechnika Białostocka (BIAMAN)
l Politechnika Częstochowska (PCz)
l Uniwersytet Marii Curie-Skłodowskiej w Lublinie, LubMAN UMCS (LUBMAN) l Politechnika Łódzka, Centrum Komputerowe, (LODMAN)
l Politechnika Wrocławska, Wrocławskie Centrum Sieciowo Superkomputerowe (WCSS) l Uniwersytet Warszawski, ICM
l Politechnika Świętokrzyska
l
Docelowe zastosowanie
l
Długoterminowa archiwizacja danych
lKopie zapasowe
l Przechowywanie 2-go poziomu!! (ang. Secondary Storage)
l Zakładamy, że użytkownicy mają lokalne systemy przechowywania
LOKALNY SYSTEM
PRZECHOWYWANIA (1-go poziomu)
Użytkownik Sieć
PIONIER Usługa PLATON-U4
KOPIA ARCHIWALNA/ZAPASOWA (2-go poziomu)
l
Zabezpieczenie fizyczne danych:
lReplikacja geograficzna
Cechy usługi - replikacja
Użytkownik Dane Usługa PLATON-U4 użytkownika
Centrum
Danych 1 Danych 2Centrum Danych 3Centrum Replika 1 Replika 2 Replika 3
Cechy usługi - replikacja
Usługa PLATON-U4
Centrum
Danych 1 Danych 2Centrum Danych 3Centrum Replika 1 Replika 2 Replika 3
O D T W A R Z A N I E Dane dostępne!
Użytkownik Dane użytkownika
l
Zabezpieczenie fizyczne danych:
lBezpieczne centra danych
Cechy usługi
Redundantna klimatyzacja
Wiele linii zasilania System wczesnego ostrzegania Serwerownia w PCSS
l
Zapewnienie i kontrola
integralności logicznej danych:
l Wyliczanie skrótów kryptograficznych
danych umieszczanych i składowanych
l
Poufność danych:
l
Dane szyfrowane w drodze do systemu:
l Wsparcie dla SSH, HTTPS
l
Dane szyfrowane wewnątrz systemu:
• Łącza zabezpieczone kryptograficznie• Sprzętowe szyfrowanie
w technologii taśmowej LTO4 / LTO5
l
Kontrola dostępu
l
Długoterminowe przechowywanie
l Automatyczna kontrola i „odświeżanie”
mediów:
l Disk-scrubbing w macierzach dyskowych l Technologia S.M.A.R.T.
l Kontrolne odczytywanie taśm
l Automatyczne przepisywanie danych
pomiędzy taśmami – oprogramowanie zarządzające np. Tivoli Storage Manager
l Kontrola skrótów kryptograficznych
danych – cyklicznie lub na żądanie (plany)
l Porównywanie replik (plany)
Cechy usługi
?
=
Cechy usługi
IBM 350 (1956) Dysk twardy 3,5” SSD lDługoterminowe przechowywanie
l
Długoterminowe przechowywanie
l
Migracji między technologiami taśmowymi -> outsourcing
Cechy usługi
...
...
IBM 3480 (1984)...
DLT (1985/86) do 70 GB/taśmę...
LTO4/5 (2007/2010) do 1,6 TB taśmęl
Dostarczenie narzędzi wspierających wykonywanie kopii
:
l
Szablony wdrożeń dla popularnego oprogramowania
do wykonywania kopii zapasowych i archiwalnych m.in. open source
l
Tzw. appliance kopiująco-archiwizujące dla dużych instytucji (plany)
lAplikacja – zaawansowany klient kopii zapasowych / archiwizacji
PLATON-U4: Architektura usługi
•
Węzły Dostępowe (AN):
– Oferują różne Metody Dostępu do Danych: SSH, HTTP/WebDAV i GridFTP
•
Węzły Przechowywania (SN):
– Przechowują fizyczne repliki danych użytkownika,
– Na różnego typu mediach: systemy dyskowe, biblioteki taśmowe, – Wykorzystują oprogramowanie TSM
PLATON-U4: Architektura usługi (4)
•
Zalety architektury
–
De-centralizacja, rozproszenie danych i usług:
»
Wiele punktów świadczenia usługi (Węzły Dostępowe),
»
Wiele punktów przechowywania danych (Węzły Przechowywania),
–
Automatyczna replikacja danych (synchr. & asynchr.)
i replikacja meta-danych systemu KMD
–
Skalowalność w wielu wymiarach:
»
Liczba użytkowników i instytucji klienckich
»
Przestrzeń przechowywania, liczba obiektów danych
»
Wielkość ruchu od klientów
PLATON-U4: Realizacja usługi
•
W sumie
– 12,5 PB pamięci taśmowych – 2 PB pamięci dyskowych
Węzły przechowywania dyskowego
i taśmowego
Zastosowanie PLATON-U4 / KMD
dla bibliotek cyfrowych
PLATON-U4: Zastosowanie dla bibliotek cyfrowych
Interfejs do danych oraz formaty danych:
a. Standardowe interfejsy
– OK.
• Dostęp: SCP, HTTP/WebDAV, usługa B/A • Użytkownik widzi zdalny system plików
(jak zdalny site FTP lub HTTP/WebDAV)
b. Format danych nie gra roli
– OK
Kompatybilność:
a. dLibra
- OK
PLATON-U4: Zastosowanie dla bibliotek cyfrowych
Długoterminowe zabezpieczenie danych:
a. Fizyczne - przeciw kataklizmom, aktom wandalizmu etc. – OK
b. Trwałość danych i mediów – OK
c. Migracja między technologiami – OK
=> OUTSOURCING PROBLEMU
– OK!
Masowość danych (TB... PB... ?):
a. Duża przestrzeń przechowywania – niskie koszty – OK.
b. Usługa jest darmowa – OK.
c. Wydajność dostępu do danych – Sieć PIONIER + MANy – OK