• Nie Znaleziono Wyników

Kompresja danych a ekonomiczna efektywność systemu przechowywania danych

N/A
N/A
Protected

Academic year: 2021

Share "Kompresja danych a ekonomiczna efektywność systemu przechowywania danych"

Copied!
11
0
0

Pełen tekst

(1)KOMPRESJA DANYCH A EKONOMICZNA EFEKTYWNO SYSTEMU PRZECHOWYWANIA DANYCH 1 JAKUB SWACHA Uniwersytet Szczeciski. Streszczenie Ekonomiczna efektywno systemu przechowywania danych stanowi stosunek wartoci uzyskanych korzyci do kosztów budowy i utrzymania takiego systemu. Warto uytkowa informacji maleje wraz z wydłuaniem si czasu potrzebnego na dostp do niej, z kolei koszt urzdze słucych do przechowywania danych wzrasta wraz z szybkoci dostpu do danych, któr zapewniaj. Podstawowym celem zarzdzania przechowywaniem danych jest przyporzdkowanie danym, z uwzgldnieniem ich uytkowej wartoci, najbardziej właciwej i efektywnej ekonomicznie infrastruktury informatycznej słucej do ich przechowywania. Istotnym czynnikiem zmieniajcym relacj kosztów i korzyci przechowywania danych jest kompresja danych. Jej zaimplementowanie w systemie z jednej strony obnia koszty (poprzez zmniejszenie pojemnoci pamici masowej potrzebnej do przechowania danych), z drugiej obnia take warto korzyci (przede wszystkim, obniajc szybko dostpu do danych). W niniejszym artykule opisano wyniki bada przeprowadzonych z wykorzystaniem szeregu najpopularniejszych obecnie algorytmów kompresji bezstratnej na systemie testowym zbudowanym z komponentów powszechnie uywanych w niewielkich systemach przechowywania danych. Słowa kluczowe: kompresja danych, efektywno przechowywania danych, koszty przechowywania danych, system przechowywania danych 1. Wprowadzenie Jednym z najbardziej charakterystycznych przejawów rewolucji informacyjnej, która zachodzi w dzisiejszych czasach, jest lawinowy wzrost wiatowych zasobów informacyjnych. Według prognoz analityków wielko wiatowych cyfrowych zasobów informacyjnych z poziomu 160 eksabajtów na pocztku roku 2007, do roku 2010 wzronie do jednego zetabajta [26]. Bardzo szybkiemu wzrostowi zasobów informacyjnych towarzyszy bardzo szybki wzrost pojemnoci pamici masowych słucych do ich przechowywania. Jest on moliwy za spraw postpu zachodzcego w dziedzinie technologii przechowywania danych – od roku 1956 koszt 1 gigabajta przestrzeni dyskowej zmalał z 10 milionów dolarów [8] do zaledwie 14 centów [4], nastpiła równie kolosalna poprawa wydajnoci tych urzdze. Niemniej, wydatki na przechowywanie danych stanowi istotny element całoci wydatków na informatyk [27]. O skali tych wydatków wiadcz cho by przychody producentów systemów przechowywania danych – tylko dla producentów systemów dyskowych osignły one 26,3 miliarda dolarów w roku 2007 [28]. 1 W artykule wykorzystano rezultaty pracy naukowej finansowanej ze rodków na nauk w latach 2007-2008 jako projekt badawczy..

(2) 214. Jakub Swacha Kompresja danych a efektywno systemu przechowywania danych. Zgodnie z logik zarzdzania cyklem ycia informacji, infrastruktur pamici masowych powinno si dobiera w sposób adekwatny do uytkowej wartoci przechowywanych informacji [18]. Wycena uytkowej wartoci informacji musi uwzgldnia funkcj, jak pełni ona w procesach realizowanych w przedsibiorstwie (lub innej instytucji) [5]. Naley bra pod uwag zarówno warto informacji jako takiej (w funkcji sterujcej, decyzyjnej, czy konsumpcyjnej), jak i jej zdolno do bycia wykorzystan do tworzenia nowych informacji, szczególnie istotn w dobie rozwoju metod eksploracji danych [9]. W kadym przypadku, czynnikiem ograniczajcym uytkow warto przechowywanej informacji jest z pewnoci trudno w dostpie do niej, przede wszystkim czas, jaki trzeba na to powici . Znanym sposobem na zmniejszenie kosztów zwizanych z przechowywaniem danych jest ich kompresja [23]. Niestety, prowadzi ona zazwyczaj do obnienia szybkoci dostpu do danych. Powstaje zatem pytanie, na ile uzasadnione ekonomicznie jest stosowanie metod kompresji danych, biorc pod uwag nie tylko korzyci wynikajce z ich uycia, ale i koszty. Prób czstkowej odpowiedzi na to pytanie s zamieszczone w dalszej czci tego artykułu wyniki bada przeprowadzonych na systemie testowym o parametrach uytkowych zblionych do rzeczywistych systemów spotykanych w małych firmach i instytucjach. Wczeniej jednak, opisane zostan krótko metody kompresji danych i praktyczne konsekwencje ich stosowania. 2. Metody kompresji danych i konsekwencje ich stosowania Kompresja danych moe polega bd na alternatywnym, krótszym zakodowaniu tych samych danych (opierajc si na ich właciwociach statystycznych), bd na usuniciu sporód danych tych, które nie s istotne w ich pó niejszej interpretacji (opierajc si na modelu odbiorcy i jego potrzeb informacyjnych). Metody z pierwszej grupy nazywane s bezstratnymi (ang. lossless), z drugiej za stratnymi (ang. lossy) [22]. W systemach przechowywania danych ogólnego przeznaczenia implementuje si zwykle metody bezstratne, gdy tylko one umoliwiaj odtworzenie danych w ich oryginalnej postaci. Wród samych metod bezstratnych rozróniamy cztery podstawowe ich rodzaje, według zasady działania, na której si opieraj [21]: • substytucyjne, • predykcyjne, • transformacyjne, • hybrydowe. Metody substytucyjne opieraj swe działanie na podmianie długich, wielokrotnie wystpujcych cigów symboli ich krótszymi odpowiednikami (na przykład zastpowanie słów indeksami słownika). S to metody najszerzej rozpowszechnione, wystarczy wymieni tu algorytm Deflate [6] zaimplementowany w programach Gzip i Zip [7], czy podstawowy tryb działania programu Rar [14]. Równie zdecydowana wikszo układów sprztowych realizujcych kompresj bezstratn implementuje metody substytucyjne. Ich podstawow zalet jest szybko , wad – wzgldnie słaba efektywno kompresji (redukcja długoci plików wskutek kompresji). Najbardziej zaawansowane algorytmy substytucyjne – takie jak na przykład LZMA zaimplementowany jako podstawowy tryb programu 7-Zip [13] – wyróniaj si duo lepsz efektywnoci kompresji (cho nie dorównujc najlepszym algorytmom innych typów), lecz znacznie wydłuonym czasie kompresji, przy zachowaniu krótkiego czasu dekompresji..

(3) POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 17, 2008. 215. Metody predykcyjne wykorzystuj model statystyczny, zbudowany w oparciu o wczeniej przetworzone dane, aby przewidzie dalszy cig danych. Prosty model osiga zazwyczaj nisk efektywno kompresji, skomplikowany moe osign bardzo wysok, jednak jego budowa i utrzymanie wymaga duej iloci pamici i czasu. Podstawowym parametrem modelu jest jego rzd, okrelajcy maksymaln długo kontekstu, czyli liczb ostatnio przetworzonych symboli, która wpływa na wynik predykcji kolejnego symbolu. Zwykle jest to kilka symboli, w bardziej zaawansowanych modelach – kilkanacie, lub nawet kilkadziesit. Dwa najczciej obecnie spotykane rodzaje bezstratnych metod predykcyjnych to predykcja przez czciowe dopasowanie (ang. prediction by partial match, PPM) oraz mieszanie kontekstów (ang. context mixing, CM). PPM próbuje wykorzysta najpierw model dla najdłuszego moliwego kontekstu, a w przypadku, gdy nie przewidział on wystpienia nastpnego symbolu, koduje błd predykcji (tak zwan ucieczk) i przechodzi do modelu dla kontekstu o jeden symbol krótszego [16]. W CM prawdopodobiestwo wystpienia pewnego symbolu jest redni prawdopodobiestw wystpienia tego symbolu otrzymanych ze wszystkich dostpnych modeli (niekoniecznie rónicych si tylko długoci kontekstu), waon efektywnoci poszczególnych modeli [10]. Najbardziej znan implementacj PPM jest PPMd D. Szkarina [17]; PPM wykorzystywany jest take w trybie kompresji tekstu programu Rar [14]. Z kolei najbardziej znana implementacja CM to najbardziej efektywny obecnie program kompresujcy, PAQ [11]. Znacznie bardziej praktyczn implementacj (z uwagi na szybko działania) stanowi program CCM [12]. Metody transformacyjne posługuj si zwykle bardzo prostymi modelami statystycznymi, kluczem ich działania jest jednak przekształcenie, któremu poddaj wpierw dane. Celem tego przekształcenia jest taka zmiana kolejnoci i zakresu wartoci danych, by efektywnie si one kompresowały z wykorzystaniem tego prostego (lecz odpowiednio dobranego) modelu. Dwa podstawowe przekształcenia to transformata Burrowsa-Wheelera (BWT) [3] i transformata sortujca Schindlera (ST) [15]. Adaptacj pierwszej z nich stanowi popularny program bzip2 i programy z nim kompatybilne (na przykład 7-Zip w jednym ze swych trybów). Pod wzgldem efektywnoci metody transformacyjne ustpuj jedynie najlepszym metodom predykcyjnym, s jednak wyra nie wolniejsze od metod substytucyjnych. Metody hybrydowe stanowi połczenie metod rónego typu. Przykładem jest algorytm PLZ [25], łczcy substytucj z predykcj i pozwalajcy przez to na uzyskanie szybkoci i efektywnoci kompresji plasujcej si pomidzy tymi dwoma podejciami. Wykonanie kompresji (w przypadku zapisu) lub dekompresji (w przypadku odczytu) wydłua czas dostpu do danych. Nie jest to jednak jedyna negatywna konsekwencja stosowania kompresji. Kompresja utrudnia losowy dostp do danych. Po skompresowaniu pliku, w przypadku wikszoci powszechnie stosowanych metod kompresji danych, moliwy jest jedynie sekwencyjny dostp do jego zawartoci. Oznacza to, e aby odczyta dane znajdujce si przed samym kocem pliku, naley wpierw zdekompresowa wszystkie znajdujce si wczeniej. Podobnie modyfikacja danych znajdujcych si na pocztku pliku wymaga rekompresji jego całoci. Sposobem złagodzenia tego zjawiska jest podział pliku na bloki, z których kady kompresowany jest osobno – negatywnie wpływa to jednak na efektywno kompresji. Uszkodzenie (przekłamanie) krótkiej sekwencji symboli na pewnej pozycji w pliku zwykle uniemoliwia odczyt wszystkich symboli znajdujcych si za ni. Tak jak poprzednio, złagodzi to mona przez podział pliku na bloki, wtedy uszkodzenia wtórne nie bd wykraczały poza granice bloków. Lepszym rozwizaniem jest dodanie bloków redundantnych, pozwalajcych na.

(4) 216. Jakub Swacha Kompresja danych a efektywno systemu przechowywania danych. odtworzenie całoci danych nawet w przypadku wielu uszkodze. Obnia to efektywno. kompresji, polepsza jednak prawdopodobiestwo wiernego przechowania danych nawet wobec oryginalnej postaci nieskompresowanej. 3. Miejsce, zakres i sposób przeprowadzenia eksperymentu badawczego W celu przeprowadzenia eksperymentu badawczego przygotowano niewielki testowy system przechowywania danych o niskich kosztach eksploatacji według załoe przedstawionych w pracy [20]. Sporód szerokiej gamy urzdze mogcych posłuy do zbudowania systemu przechowywania danych do przeprowadzenia eksperymentu badawczego wybrano nastpujce: • dyski twarde SATA: o Western Digital Raptor 150 GB (10000 obr./min.) – reprezentujcy najwyszy poziom wydajnoci dla dysków SATA; wykorzystano dwa dyski połczone w macierz RAID0; o Seagate Barracuda 320 GB (7200 obr./min.) – reprezentujcy redni poziom wydajnoci dla dysków SATA; wykorzystano dwa dyski połczone w macierz RAID0; o Hitachi HTS 100 GB (5400 obr./min.) – reprezentujcy niski poziom wydajnoci dla dysków SATA (charakterystyczny dla komputerów przenonych); • napdy dysków optycznych ATA DVD-RW: o Lite-On LH20A1H11C obsługujcy noniki CD-RW Verbatim 12x 700MB w trybie zapisu pakietowego, o Samsung SH-182M obsługujcy noniki DVD+RW 4x Verbatim 4,7GB w trybie zapisu pakietowego; • pami zewntrzn dołczana poprzez interfejs USB: o dysk twardy Western Digital Passport 120 GB (5400 obr./min.), o pami półprzewodnikowa Corsair Flash Voyager 8GB. Pamici masowe umieszczono w trzech jednostkach komputerowych: • komputer „A” o nastpujcej specyfikacji technicznej: dwurdzeniowy procesor Intel Core 2 Duo 6420 2,13 GHz (FSB 1066 MHz), płyta główna oparta na układzie Intel P965 / ICH8, pami DDR2 800 MHz 2 GB, pod kontrol 32-bitowego systemu operacyjnego Windows XP Professional; dołczono do niego macierz RAID0 dwóch dysków Western Digital Raptor, obie stacje dysków optycznych oraz obie pamici zewntrzne USB; • komputer „B” o nastpujcej specyfikacji technicznej: procesor AMD Athlon64 3800+ 2,4 GHz (FSB 1000 MHz), płyta główna oparta na układzie GeForce 6100 / nForce 430, pami DDR2 800 MHz 2 GB, pod kontrol 32-bitowego systemu operacyjnego Windows XP Professional; dołczono do niego macierz RAID0 dwóch dysków Seagate Barracuda; • komputer „C” o nastpujcej specyfikacji technicznej: dwurdzeniowy procesor Intel Core Duo 2250 1,73 GHz (FSB 533 MHz), płyta główna oparta na układzie Intel Mobile 945 Express, pami DDR2 533 MHz 1 GB, pod kontrol 32-bitowego systemu operacyjnego Windows Vista Home Basic; wbudowany dysk Hitachi. Rozpatrzono nastpujce sposoby dostpu do przechowywanych danych: • lokalny, dane dostpne na urzdzeniach bezporednio podłczonych do stacji roboczej (poprzez interfejs SATA, PATA lub USB);.

(5) POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 17, 2008. 217. zdalny, dane dostpne na urzdzeniach bezporednio podłczonych do serwera, stacja robocza połczona z serwerem przewodowo (Gigabit Ethernet) lub bezprzewodowo (802.11g). Sporód dostpnych implementacji algorytmów kompresji do eksperymentów wybrano: • Deflate [6] zaimplementowany w programie Zip 2.32 (wraz z Unzip 5.52) [7] w domylnym trybie redniej kompresji „–6”, • LZMA zaimplementowany w programie 7-Zip [13] w trybie „–5”, • PPM [16] zaimplementowany w PPMd [17] z nastpujcymi ustawieniami: rzd modelu 7, 256 MB pamici, • PPM zaimplementowany w programie Rar [14] w trybie najlepszej kompresji, • BWT [3] zaimplementowany w programie bzip2 w trybie najlepszej kompresji („-9”), • algorytm hybrydowy (LZP+BWT) zaimplementowany w programie GRZipII w trybie najlepszej kompresji. Efektywno kompresji zaley od zawartoci kompresowanych plików. W przypadku takich jak opisywany eksperymentów prowadzonych w warunkach sztucznych, wykorzystuje si zestawy testowe, do których pliki dobiera si w taki sposób, by były moliwie reprezentatywne dla swoich typów, to znaczy, by efektywno kompresji pliku ujtego w zestawie testowym nie odbiegała znaczco od redniej efektywnoci kompresji duej liczby plików tego samego typu. Z uwagi na to, e opisywany eksperyment nie jest ograniczony do pewnego ustalonego typu danych, lecz ma umoliwi porównanie efektywnoci badanych technologii dla plików rónego typu, a jednoczenie biorc pod uwag ograniczon limitem długoci artykułu moliwo przedstawienia wyników, posłuono si uniwersalnym zestawem testowym najwikszego obecnie internetowego serwisu powiconego kompresji danych – Maximum Compression [2]. Zestaw ten składa si z 10 plików o łcznej długoci 53 134 726 bajtów, nalecych do szeroko obecnie rozpowszechnionych typów danych: • Obraz JPEG „A10.jpg” o długoci 842 468 bajtów, • Plik programu „AcroRd32.exe” o długoci 3 870 784 bajtów, • Plik słownika „english.dic” o długoci 4 067 439 bajtów, • Ksika elektroniczna „FlashMX.pdf” o długoci 4 526 946 bajtów, • Log webowy „fp.log” o długoci 20 617 071 bajtów, • Biblioteka dynamiczna „mso97.dll” o długoci 3 782 416 bajtów, • Dokument edytora Word „ohs.doc” o długoci 4 168 192 bajtów, • Obraz BMP „rafale.bmp” o długoci 4 149 414 bajtów, • Plik pomocy on-line „vcfiu.hlp” o długoci 4 121 418 bajtów, • Dokument tekstowy „world95.txt” o długoci 2 988 578 bajtów. Zgodnie z wytycznymi przedstawionymi w pracy [20], przed przeprowadzeniem eksperymentów na wykorzystanych w nich komputerach wykonano wiee instalacje systemów operacyjnych. Pomiary parametrów wydajnociowych wykonano z pomoc autorskiego oprogramowania CoTe [19]. Zgodnie z przyjt metodologi, mierzono całkowity czas trwania poszczególnych operacji. Zmierzonych czasów nie rozbijano na czasy składowe odnoszce si do poszczególnych etapów pozyskiwania danych (odczytu, zapisu, przesłania w sieci, kompresji, dekompresji). •.

(6) 218. Jakub Swacha Kompresja danych a efektywno systemu przechowywania danych. 4. Wyniki eksperymentów i ich dyskusja Tabela 1 przedstawia uzyskane wyniki kompresji poszczególnych plików (w bitach pliku skompresowanego przypadajcych na bajt pliku oryginalnego). Tabela 1. Efektywno kompresji dla poszczególnych programów i plików Plik. 7-Zip. bzip2. A10.jpg AcroRd32.exe english.dic FlashMX.pdf FP.LOG MSO97.DLL ohs.doc rafale.bmp vcfiu.hlp world95.txt rednia. 8,033 2,664 1,675 6,557 0,360 3,657 1,524 1,911 1,207 1,579 2,917. 7,943 3,513 2,403 6,735 0,281 4,465 1,740 1,716 1,383 1,545 3,172. Program GRZipII Zip PPM d 7,922 7,993 7,917 3,333 3,585 3,202 2,336 2,066 2,100 6,615 6,780 6,577 0,243 0,562 0,241 4,108 4,635 3,960 1,588 1,948 1,600 1,523 2,432 1,512 1,275 1,648 1,298 1,291 2,338 1,270 3,023 3,399 2,968. Rar 8,001 2,845 2,193 6,626 0,258 3,919 1,547 1,585 1,298 1,242 2,951. rednia 7,969 3,110 2,063 6,619 0,305 4,014 1,614 1,734 1,296 1,481 3,021. Jak wida , dla testowego zestawu plików, najlepszy rezultat przypadł algorytmowi LZMA (program 7-Zip). Nieznacznie ustpuj mu wyniki uzyskane przez programy GRZipII i PPMd. Czołówce wyra nie ustpuje Zip. Tabele 2, 3 i 4 zawieraj pomiary czasu kompresji uzyskane odpowiednio dla dostpu do pamici masowych: lokalnego (z komputera „A”), sieciowego przewodowego (z komputera „B”) i sieciowego bezprzewodowego (z komputera „C”). Dla odniesienia, w pierwszej kolumnie podano czasy kopiowania nieskompresowanych plików. Pomiary czasu uzyskano w pojedynczej sesji testowej. W sytuacjach, w których wystpił przynajmniej jeden błd odtworzenia danych (wynikały one z problemów ze współdziałaniem niektórych programów i sterownika zapisu pakietowego napdów optycznych w warunkach pracy sieciowej), by zachowa porównywalno danych, nie powtarzano eksperymentu, a odpowiednie pola tablicy oznaczono słowem „błd”. Nie były one take brane przy obliczaniu kosztów (std brak niektórych kolumn na rys. 1 i 2)..

(7) POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 17, 2008. 219. Tabela 2. redni czas kompresji pliku dla komputera „A” (pamici lokalne) Urzdzenie/nonik Lite-On/DVD-RW 4,7 GB RAID0 2xRaptor 150 GB Samsung/CD-RW 0,7 GB Flash Corsair 8 GB USB WD Passport 120 GB rednia. (brak) 7-Zip. bzip2. 1,310 0,039 6,483 2,770 0,328. 1,195 1,400 1,789 2,167 1,510. 5,809 5,107 6,916 6,500 5,221. 2,186. 1,559 6,175. Program GRZiZip PPMd pII 1,488 1,016 1,853 1,035 0,332 1,175 2,802 2,517 2,702 2,405 2,440 2,539 1,140 0,587 1,279 2,030. 1,378. Rar. rednia. 2,851 1,080 2,530 2,233 1,173. 2,246 1,406 3,585 3,102 2,010. 2,154 1,824. 2,645. Tabela 3. redni czas kompresji pliku komputera „B” (sie przewodowa) Program GRZipII Zip. Urzdzenie/nonik. (brak). 7-Zip. bzip2. Lite-On/DVD-RW 4,7 GB RAID0 2xRaptor 150 GB Samsung/CD-RW 0,7 GB Flash Corsair 8 GB RAID0 2xBarracuda 320GB* rednia. 4,297 0,512 28,414 7,559 0,153 8,187. 12,517 6,162. 15,231 14,922 14,940 16,019 14,839 15,190. * Dysk lokalny.. błd 12,888 6,093. 3,193 3,171 3,199 3,392 3,104 3,212. błd 0,885. błd 4,849 0,724. PPMd 4,178 3,837 3,742 4,557 3,779 4,024. Rar 5,559 3,979. rednia# 7,496 5,431. błd 5,544 3,886. 8,327 5,309. # Z pominiciem wyników programu Zip.. Tabela 4. Czasy kompresji dla komputera „C” (sie bezprzewodowa) Urzdzenie/nonik. (brak). 7-Zip. bzip2. Lite-On/DVD-RW 4,7 GB RAID0 2xRaptor 150 GB Samsung/CD-RW 0,7 GB Flash Corsair 8 GB Hitachi 100GB* rednia. 5,611 1,911 31,837 7,223 0,173 9,320. 3,242 2,702. 8,914 7,736 11,335 8,654 7,228 8,748. * Dysk lokalny.. błd 3,313 2,325. Program GRZipII Zip 4,211 2,165 4,146 2,884 1,708 3,014. błd 1,341. błd 4,371 0,471. PPMd. Rar. 8,390 6,461 11,784 8,799 5,160 8,143. 4,599 2,054. rednia# 5,828 3,838. błd 3,502 1,866. 5,729 3,077. # Z pominiciem wyników programu Zip.. Aby zbada ekonomiczny efekt uycia kompresji danych, posłuono si prost formuł kosztów sumujc koszty przechowywania danych i koszty kadorazowego dostpu do nich. Przyjto, e roczne całkowite koszty utrzymania pamici masowych równe s kosztom ich nabycia (przyjtym według cen podanych na stronie [4]) a koszty dostpu równaj si redniemu wynagrodzeniu pracownika przypadajcemu na czas dostpu do danych (przyjtym za stron [1]). Wykorzystanie bardziej skomplikowanej formuły (takiej jak podana w pracy [24]) wymagałoby.

(8) 220. Jakub Swacha Kompresja danych a efektywno systemu przechowywania danych. wprowadzenia wielu dodatkowych załoe, co mijałoby si z ogóln natur przeprowadzonych bada. Z uwagi na ograniczone miejsce, wyniki przedstawiono w postaci dwóch wykresów. Rys. 1 przedstawia koszt archiwizacji dla komputera „A” (uwzgldniajcy tylko koszty przechowywania i jednokrotnej kompresji). Z kolei rys. 2 przedstawia koszty przechowywania dla komputera „B” obejmujce koszty przechowywania, jednokrotnej kompresji i stukrotnej dekompresji. Z uwagi na duy rozrzut wartoci, wykres na rys. 2 przedstawiono w skali logarytmicznej. Z obserwacji rys. 1 wynika, e w przypadku pamici lokalnych, jedynie szybki algorytm, taki jak Deflate uyty w programie Zip, pozwala uzasadni ekonomicznie zastosowanie kompresji danych. Rys. 2 pokazuje, e w przypadku pamici dołczonych sieciowo – nawet jeeli jest to szybkie połczenie gigabitowe – uzasadnione ekonomicznie moe by signicie po bardziej efektywne algorytmy, takie jak LZMA zaimplementowany w programie 7-Zip. Jest to take najlepszy wybór w przypadku łcza bezprzewodowego, dla którego nie zamieszczono tu szczegółowych rezultatów z powodu ograniczonego miejsca. 4,500. 4,000. 3,500. Koszt (cent US). 3,000. 2,500. 2,000. 1,500. 1,000. 0,500. Lite-On/DVD-RW 4,7 GB. RAID0 2xRaptor 150 GB Bez kompresji. Samsung/CD-RW 0,7 GB 7-Zip. bzip2. GRZipII. Flash Corsair 8 GB PPMd. Rar. USB WD Passport 120 GB. Zip. Rys. 1. redni koszt archiwizacji danych dla komputera „A” (pamici lokalne).

(9) POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 17, 2008. 221. 10 000,00. Koszt (cent US). 1 000,00. 100,00. 10,00. 1,00 Lite-On/DVD-RW 4,7 GB. RAID0 2xRaptor 150 GB. Bez kompresji. Flash Corsair 8 GB. 7-Zip. bzip2. GRZipII. Samsung/CD-RW 0,7 GB. PPMd. Rar. RAID0 2xBarracuda 320GB (lokalny). Zip. Rys. 2. redni koszt przechowywania danych dla komputera „B” (Gigabit Ethernet) 5. Uwagi kocowe Wyniki przeprowadzonych eksperymentów badawczych pokazuj, e mimo istotnego wzrostu wydajnoci pamici masowych, stosowanie kompresji danych nadal znajduje uzasadnienie ekonomicznie. W niniejszym artykule zamieszczono wyniki otrzymane w systemie testowym, zbudowanym z przykładowych komponentów i zawierajcym przekrojowy wybór danych. W przypadku rzeczywistych systemów przechowywania danych o opłacalnoci zastosowania kompresji decydowa bd parametry wydajnociowe uytych do ich budowy komponentów sprztowych oraz podatno na kompresj przechowywanych w nich danych. Naley zauway , e dziki dostpnoci programu CoTe [19], istnieje moliwo wykonania podobnych testów dla systemu uytkownika i zestawu danych dowolnie przez niego przygotowanych. Przy obecnych poziomach cen najbardziej efektywnym ekonomicznie urzdzeniem przechowywania danych zapewniajcym swobodny dostp do danych (w testach nie badano pamici tamowych), biorc pod uwag nie tylko koszty przechowywania danych, ale i pó niejszego do nich dostpu, s dyski SATA. Sporód algorytmów kompresji najbardziej uzasadnione wydaje si uycie algorytmów substytucyjnych. W zalenoci od wydajnoci urzdze i czstotliwoci dostpu do danych moe by to szybki algorytm Deflate lub wolniejszy LZMA..

(10) 222. Jakub Swacha Kompresja danych a efektywno systemu przechowywania danych. Bibliografia 1.. 2. 3. 4. 5. 6. 7. 8.. 9. 10. 11. 12. 13. 14. 15.. 16. 17. 18. 19. 20.. Average hourly earnings of production and nonsupervisory workers on private nonfarm payrolls by industry sector and selected industry detail, seasonally adjusted, U.S. Bureau of Labor Statistics, http://www.bls.gov/news.release/empsit.t17.htm, dane za 03.2008. [dostp: 2008-05-29]. Bergmans W.: Maximum Compression. The Test Files, http://www.maximumcompression.com/data/files, 2007 [dostp: 2008-05-29]. Burrows M., Wheeler D. J.: A block-sorting data compression algorithm. SRC Research Report 124, Digital Equipment Corporation, Palo Alto, CA, USA, 1994. Cennik sklepów internetowych, http://computers.pricegrabber.com/harddrives/p/11/st=pop_category, [dostp: 2008-05-29]. Cypryjaski J.: Metodyczne podstawy ekonomicznej oceny inwestycji informatycznych przedsibiorstw, Uniwersytet Szczeciski, Szczecin 2007. Deutsch P.: DEFLATE Compressed Data Format Specification version 1.3. RFC1951, Network Working Group 1996. http://www.ietf.org/rfc/rfc1951.txt. Gailly J-L., Adler M.: Zip 2.32 (program do kompresji), 2006. http://www.info-zip.org/. Historical Notes about the Cost of Hard Drive Storage Space (Smith I., ed.). http://www.littletechshoppe.com/ns1625/winchest.html, January 21, 2008 [dostp: 200805-29]. Larose D.T.: Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa 2006. Mahoney M.: Adaptive Weighing of Context Models for Lossless Data Compression. Technical Report CS-2005-16, Florida Institute of Technology, Melbourne, FL, USA. Mahoney M.: PAQ 8o10t (program do kompresji), 2008. http://www.cs.fit.edu/~mmahoney/compression/paq8o10t.zip, [dostp: 2008-08-03]. Martelock Ch.: CCM 1.30c (program do kompresji), 2008. http://christian.martelock.googlepages.com/dl_ccm130c.zip. Pavlov I.: 7-Zip 4.57 (program do kompresji), 2007. http://www.7-Zip.org. Roshal A.: WinRar 3.62 (program do kompresji), 2007. http://www.rarlab.com/download.htm. Schindler M.: A fast block-sorting algorithm for lossless data compression. In: Proceedings of the Data Compression Conference, IEEE Computer Society, Los Alamitos, CA, USA, 1997, 469. Shkarin D.: PPM: One Step to Practicality. In: Proceedings of the Data Compression Conference, IEEE Computer Society, Los Alamitos, CA, USA, 2002, 202-211. Shkarin D.: PPMd var. J (program do kompresji), 2006. http://www.compression.ru/ds. Short J. E.: Information Lifecycle Management: An Analysis of End User Perspectives. Working Paper 06-01, University of California, San Diego, CA, USA, January 2006. Swacha J.: CoTe: A Software Tool for Compression Benchmarking. In: Proceedings Data Compression Conference. IEEE Computer Society, Los Alamitos, CA, USA, 2008, 547. Swacha J.: Design of low-cost system for compressed storage benchmarking. Polish Journal of Environmental Studies, 16, 4A, 2007, 328-330..

(11) POLSKIE STOWARZYSZENIE ZARZDZANIA WIEDZ Seria: Studia i Materiały, nr 17, 2008. 223. 21. Swacha J.: Ekonomiczne miary efektywnoci kompresji danych. Informatyka Ekonomiczna, nr 9. Prace Naukowe Akademii Ekonomicznej we Wrocławiu nr 1144. Wydawnictwo Akademii Ekonomicznej we Wrocławiu, Wrocław 2006, 252-268. 22. Swacha J.: Popularne standardy kompresji danych. Pro Dialog, nr 9, 1999, 23-32. 23. Swacha J.: Usprawnienie systemów informatycznych poprzez uycie kompresji danych. W: Informatyka w globalnym wiecie (Kisielnicki J., red.). Wydawnictwo PolskoJaposkiej Wyszej Szkoły Technik Komputerowych, Warszawa 2006, 364-370. 24. Swacha J.: Zarzdzanie przechowywaniem danych: zarys praktycznej metodyki oceny efektywnoci. W: Zarzdzanie wiedz i technologiami informatycznymi (Orłowski C., Kowalczuk Z., Szczerbiski E., red.), Pomorskie Wydawnictwo Naukowo-Techniczne, Gdask 2008, 139-146. 25. Szyjewski Z., Swacha J.: A New Method of Predictive-substitutional Data Compression. In: Internet Technologies, Applications and Societal Impact. Kluwer Academic Publishers, Boston, 2002, 123-134. 26. The Expanding Digital Universe: A Forecast of Worldwide Information Growth Through 2010 (Gantz J. F., ed.), IDC, Framingham, MA, USA, March 2007. http://www.emc.com/about/destination/digital_universe. 27. Toigo J. W.: Zarzdzanie przechowywaniem danych w sieci, Helion, Gliwice 2004. 28. Worldwide Disk Storage Market Experiences Strong Fourth Quarter Growth as 2007 Revenues Surge Higher, According to IDC (Nisbet B., Yezhkova N., eds.), IDC, Framingham, MA, USA, March 6, 2008. DATA COMPRESSION AND ECONOMIC EFFICIENCY OF DATA STORAGE SYSTEM Summary An important factor affecting the relation of costs to benefits of data storage is data compression. Implementing it reduces the storage costs (by decreasing the capacity required to store the data), but on the other hand it increases the usage costs (because of additional compression/decompression procedures). This paper covers the results of experiments involving a selection of the most popular lossless compression algorithms and a test system based on widely used low-cost components, typical for small data storage systems. Keywords: data compression, data storage efficiency, data storage costs, data storage system. Jakub Swacha Wydział Nauk Ekonomicznych i Zarzdzania Instytut Informatyki w Zarzdzaniu Uniwersytet Szczeciski, 71-101 Szczecin, ul. Mickiewicza 64 e-mail: jakubs@uoo.univ.szczecin.pl.

(12)

Cytaty

Powiązane dokumenty

producent: MASKPOL. brak danych brak danych 5 szt. Kraj prod.: Polska,. producent: MASKPOL. brak danych brak danych 5 szt. brak danych brak danych 5 szt. brak danych brak danych 5

 Jeżeli lista nie jest pusta to składa się z pierwszego elementu zwanego nagłówkiem (ang. head) oraz reszty listy, zwanej stopką (ang. Istotne jest że nagłówek listy

Słownik jako abstrakcyjny typ danych nie dopuszcza duplikatów (z definicji) ale struktura danych która go implementuje (lista jednokierunkowa) może te.

Metody kompresji informacji do postaci zawierającej zmniejszoną liczbę bitów, pod warunkiem, że metoda ta gwarantuje możliwość odtworzenia informacji z.. postaci skompresowanej

Po wykonaniu poprawnie powyższych czynności, Student może zalogować się już do pozostałych systemów za pomocą nowego hasła (np. Platformy studenta) UWAGA: dla Office365

Cel bada ´n — sprawdzenie mo ˙zliwo´sci przewidywania liczby komórek somatycznych w mleku (lub klasy liczby komórek: dobra / zła).. Nadmierny poziom liczby komórek somatycznych

Dodatkowo zakłada się, że właściwy poziom zabezpieczenia i ochrony danych programu osiąga się poprzez zdefiniowanie dostępów do katalogów i plików programu z poziomu systemu

danych opisowych ewidencji zgłoszeń robót geodezyjnych, zamówień i faktur ze struktur bazy danych Oracle Standard Edition One v.. 9i, obsługiwanych przez program