Środowisko systemowe technologii eksploracji danych

Pełen tekst

(1)Di)C?. 604. 2002. w Krakowie. Tadeusz Wilusz Katedra Informatyki. Środowisko systemowe technologii. eksploracji danych Streszczenie: Cechą charakterystyczną metod eksploracji danych (Dala Mining) jesl bardzo zapotrL.cbowanic zarówno na moc obliczeniowi} systcmu,jak i zaawansOWane systemy gro~ madzenia, aktualizacji i udostępniania dunycłl. Stąd poszukiwania rozwiązań pozwalających na osiągni~cie na pozór sprzecznych celów: zwiększenia możliwości systemu informatycznego z jed~ noczesnym obniżeniem jego ceny. Nowe możliwości rozwiązania tak postawionego problemu przyniosło upowszechnienie się sieci komputerowych, a w szczególności dynamiczny rozwój sieci globalnej - internetu. W artykule przedstawiono najważniejsze elementy koncepcji sięgnięcia po istniejącą sieć jako tani, ale funkcjonalnie pelny równoważnik drogiego superkomputera. Jednym z bardziej interesujących, a jednocześnie już zweryfikowanych w praktyce rozwiąznIl pierwszego z wymienionych problemów jest pomysł "równoległej maszyny wirtualnej" (PVM), który zosta~ nie pokrótce przedstawiony w następnym punkcie. Słowa kluczowe: eksploracja danych, systemy informacyjne, systemy informatyczne, technologia informacji, sieciowy komputer równolegly, technologie składowania danych, PYM, SAN, NAS. duże. l. Wprowadzenie Integralnym elementem rozwoju naszej cywilizacji jest postęp technologiczny stymulowany trzema. zasadniczymi potrzebami ludzkości od zarania jej dziejów. Są to: - odkrywanie i produkcja nowych materiałów, - pozyskiwanie nowych źródeł energii, - poszerzanie wiedzy o otaczającym nas świecie. Warto zauważyć, że postęp w tym ostatnim obszarze będzie zawsze, z oczywistych powodów, warunkował osiągnięcia techniki w obrębie dwóch pierwszych. Rzecz w tym, że tempo procesu poszerzania wiedzy, podobnie jak efektywność wszystkich ludzkich działmI, w coraz większym stopniu zależy od narzędzi, którymi się posługujemy. Zatem postulat zwiększenia tempa poszerzania wiedzy oznacza de facto postulaty zwiększenia:.

(2) Tadeusz Wilus z. nia. możliwości. komunikowania się ludzi między sobą, przechowywania , upowszechniania i. zdolności gromadzenia, już posiadanej wiedzy,. użytkowa-. - tempa zdobywania nowej wiedzy. Tym samym można stwierdzić, że podstawowym czynnikiem warunkują cym tempo rozwoju cywilizacji technicznej przez całe wieki był problem automatyzacji procesów informacyjnych. Dlatego też stworzenie technologii' pozwalającej na pełną automatyzację wszystkich procesów informacyjnych będzie bez żadnej wątpliwości zaliczane do największych osiągnięć nauki nie tylko w XX wieku. Kluczowym wynalazkiem okazało się być wynalezienie komputera', czyli programowanego (tym samym uniwersalnego) urządzenia, pozwalającego automatyzować procesy gromadzenia, aktualizacji, przechowywania, przetwarzania i przesylania danych. Od jego powstania' dalllje się dynamiczny rozwój nowej dyscypliny wiedzy i nowej technologii, która w Polsce najczęściej jest okreśłana mianem informatyki' . W tym kontekście cala druga połowa dwudziestego wieku może być postrzegana jako proces przekształcania nowinki laboratorium naukowo-badawczego z 1947 r. we wszechobecną technologię informacji w 2000 r. Jedynym procesem informacyjnym, który bardzo dlugo opierał się automatyzacji, był proces pozyskiwania nowej wiedzy w oparciu o już istniejące zasoby danycl1. Istotny postęp w tej materii odnotowano dopiero w latach 90. XX wieku. Okazuje się bowiem, że dopiero współcześnie zaistniały warunki (zarówno w sensie niezbędnej infrastruktury technicznej, jak i dostatecznie dużych zasobów informacji utrzymywanych w wersji elektronicznej) do tego, aby można było myśleć o użytecznych w praktyce gospodarczej zautomatyzowanych technologiach pozyskiwania nowej wiedzy w oparciu o już zgromadzone i przechowywane dane. Jedną z technologii, która zdobywa coraz większą popularność jako narzędzie do analizy danych biznesowych jest technologia okreśłana mianem Data Mining - eksploracja (baz) danych'. Istota tej technologii 1 Stąd w języku angielskim określenie III/ormo/iQ" 7ec/mology . Polskie Iłumaczenie tego terminu jako "technologia informacji" nie jest niestety zupełnie jednoznacznie rozumiane. Pamdok-. salnic funkcję jednoznacznego identyfikatora tej technologii w języku polskim często pclni skrót IT od angielskiego picrwowzol1I. 2 Wspal1c rewolucją w zakresie elektroniki czyli wynalazkiem tranzystora, póżniej układu SCHI. tonego. W liternturze brak jest pełnej zgodności odnośnie dokładnej daty początku ery informatyki. uważają, że pierwszym komputerem był elektromechaniczny MARK I Howarda Aikcna, uruchomiony w 1944 r. w Harvard Univcrsity. Konkurencyjna dnta to 1946 r" kiedy na uniwersytecie Pensylwanii rozpoczął pracę w pelni elektroniczny ENJAC. 4 Polski termin wywodzi się z języka francuskiego. Jego odpowiednikiem, w znaczeniu dyscy~ pliny wiedzy, jest w języku angielskim Compllter Science. j Ponownie angielski termin Data Mili/lig nie ma do końca dobrze ustalonego polskiego odpo~ wicdnika. Najczęściej używany to właśnie "eksploracja danych" lub "eksploracja baz danych". 3. Jedni.

(3) Środowisko systemowe. polega na znajdowaniu zależności "ukrytych" w bardzo dużych zbiorach danych. Najkrótsza charakterystyka tej technologii oddająca istotę poglądów na jej temat da się zamknąć w dwóch poniższych konstatacjach: - Data Millillg (eksploracja danych) to termin używany współcześnie na określenie kompleksu zaawansowanych metod analizy danych dla dużych baz danych. DM stanowi kolejny etap w rozwoju tych metod po metodach statystycznych, systemach eksperckich, metodach sztucznej inteligencji oraz systemach analitycznych (OLAP); - DM stosuje się zwykle do analizy informacji zawartych w hurtowniach danych, ale może też być wykorzystywany do danych pochodzących z systemów transakcyjnych. Metody DM wykorzystują podejście indukcyjne. W przeciwieństwie do metod dedukcyjnych, skupionych na weryfikacji wcześniej sformułowanych hipotez, takie podejście umożliwia automatyzację procesu odkrywania nowej wiedzy.. 2.. Podsławowe polęcia. technologII informacll. Najprostszy przypadek systemu informacyjnego jest pokazany na rys. 1. Pozwoli on nam sprecyzować" najważniejsze pojęcia związane ze współczesną technologią informacji bez potrzeby uciekania się do złożonego aparatu formalnego. Zgodnie z tym schematem można przyj[IĆ, ze system informacyjny to system przekazywania wiedzy pomiędzy ludżmi. Sytuacja przedstawiona na rysunku zakłada, że źródło (nadawca) informacji posiada wiedzę rozumianą jako zdolność udzielania odpowiedzi na określo ną ( dużą) ilość różnorodnych pytań. Z punktu widzenia czynnika ludzkiego systemu informacyjnego wiedza jest przekazywana pewnymi logicznymi porcjami oznaczonymi na rysunku jako informacja. Przedstawiony schemat wyraźnie sugeruje , że informację można traktować jako czą stkę wiedzy. Można zatem z wystarczającą dla naszych potrzeb dokładnością przyjąć, że posiadanie informacji możemy traktować jako zdolność udzielenia odpowiedzi na jedno, określone pytanie. Najistotniejszym założeniem prezentowanego ujęcia jest aksjomatyczne przyjęcie, ze wiedza, będąc pewnym, niemierzalnym' stanem umysłu ludzkiego, ma w kategoriach technicznych wymiar niematerialny. W związku z tym zaznaczony na rysunku linią przerywaną kanal przekazu informacji z technologicznego punktu widzenia nie istnieje, a jest jedynie subiektywnym postrzeganiem procesu przekazu informacji przez człowieka, który niekoniecznie musi być zainteresowany wymiarem fizycznym całego. (I Problem w tym , że podstawowe pojęcia Inkie jak wiedza, informacja dnne mają w literaturze bardzo różnorodne, niekiedy nawet sprzeczne definicje. Prezentowane (uproszczone) uj(fcic ma. zapewnić kontrolę wewnętrznej spójności 7. syslemu używanych. W sensie pomiaru na gruncie neurofizjologii.. pojęć..

(4) Tadeusz Wilusz. procesu. Jeśli jednakże obszarem naszych zainteresowań jest możliwość automatyzacji procesu przekazywania informacji, to właśnie elementy połączone na omawianym rysunku linią ciągła dotyczą wszystkich ełementów procesu wymiany informacji, które w rzeczywistości konstytuują fizyczną warstwę całego procesu. Tym samym w odniesieniu do tych elementów sensowne jest rozważenie ich możliwych technicznie realizacji i poszukiwanie nowych, wydajniejszych technologii. Jeżeli, dła przykładu, przyjmiemy, że technologią przekazu jest mowa, to przedstawiony schemat można zinterpretować następująco: l. Nadawca musi "niematerialnej" informacji nadać wymiar materialny. W przypadku komunikacji głosowej materialnym medium będzie powietrze, a systemem kodowania po stronie nadawcy mowa, czyli modulacja fal głoso wych w określonym języku (np. polskim). Zakodowana w fale głosowe informacja stanowi nic innego jak strumień danycll. 2. Dane są przekazywane tzw. kanałem komunikacji'. Wszystkie realnie istniejące kanały komunikacji są zawsze narażone na zakłócenia, czego na omawianym schemacie nie zaznaczono. 3. Po stronie odbiorcy mamy do czynienia z procesem odwrotnym. Pierwszy etap to próba dekodowania otrzymanych danych. Jeśli zastosowano identyczną jak u nadawcy funkcję transformacji, to można przyjąć, że odbiorca-człowiek "zrozumiał" przekaz, czyli że transfer danych się powiódł. To, czy odbiorca otrzy mał informację, czy tylko wiadomość zależy przy takim rozumowaniu, od tego, czy poziom jego wiedzy się zwiększył, czy też nie'. Model z rys. l daje się łatwo przekształcić do postaci pokazanej na rys. 2, z której jasno wynika, że metody i środki informatyki, to nic innego jak współ czesna technologia systemów informacyjnych. Technologia ta z całą pewnością zostanie zamieniona na nowszą i wydajniejszą, ałe w annałach nauki pozostanie jako pierwsza technologia w dziejach ludzkości, która pozwoliła w pełni zautomatyzować wszystkie procesy informacyjne.. 8 Kanał komunikncji SIanowi użyte czną abstrakcje wszystkich. możliwych ośrodków. przekazu. danych.znrówJlo tych, które są elementami środowiska natumlncgo człowieka (ni). powictrze),jnk i technologicznych osiqgnięć człowieka (np. linia telefoniczna). 9. Ten ostatni przypadek to sytuacja, w której nadawca przekaza ł element wiedzy odbiorcy.. s tanowiła już. informa cję,. klóra. wcześniej.

(5) Środowisko. eksploracji danych. wiedza. ~. informacja. ł. ... l. -. -. -. informacja". r .... --r-~ / '. "). kodowanie ~. ' - - - informacji po stronic nadawcy. źródło. informacji (nadawca infonnacji). kanał. komunikacji. wiedza. informacja. t. dekodowanie danych po stronie odbiorcy. ~~~odbiorca informacji. Rys. 1 Podstawowe procesy w systemie informacyjnym Źródło: opracowanie własne.. r. wiedza. ~. wiedza. technologia: System rnformatyczny. l_D_M---;CO~ kom;:I~;r~wa I IBM coł_p_a_ti_bl_c_ _ _ _- ,. r-_ _ _ _ _ _. źródło informacji. (nadawcn informacji). ~I ~. odbiorca informacji. Rys. 2. System informatyczny jako technologia systemu informacyjnego Źródło: opracownnie własne,.

(6) Tadeusz Willlsz. I System informacyjny I. I. A. Technologia. I. I. I. I. Sprzęt. (Ha/'dwa/'e). I A,2,1.. Programy (algorytmy). I. I. I A,2 Oprogramowanie (SafllVa/'e) I. A, I. Ludzie i !·gnniZaCja. I. I. B, I. B,2 Procedury. Ludzie. I A,2,2. Dane. Rys, 3, Główne komponenty systemu informacyjnego Źródło: opracowanie włnsne.. Struktura podstawowej problematyki technologii procesów informacyjnych w postaci schematu blokowego jest pokazana na rys, 3, Na schemacie tym wyróżni ono dwie zasadnicze składowe oznaczone dużymi literami i opisane jako "Technologia" oraz "Ludzie i organizacja", Łatwo sobie wyobrazić, że pierwotnie systemy informacyjne nie miały komponenty technologicznej oraz że przed współczesną technologią informatyczną funkcjonowaly inne technologie, wspomagające wybiórczo określone procedury organizacyjne, Z przedstawionego schematu jasno wynika, że jakakolwiek dyskusja zarówno obecnych możliwości współczesnej technologii informacji, jak i możliwych trendów jej rozwoju musi obejmować trzy zasadnicze tematy: - rozwój możliwości sprzęlowych , zwlaszcza w zakresie wydajności procesu przetwarzania (możliw ości udostępniania tzw, mocy obliczeniowej), Należy zwrócić tutaj uwagę, że przyrost mocy obliczeniowej może być zarówno efektem zastosowania nowych, wydajniejszych technologii elektronicznych,jak i efektem nowych rozwiązań w zakresie architektury systemu przetwarzania; - rozwój metodologii automatyzacji procesów inFormacyjnych wyrażający się ofer tą dostępnego oprogramowania; - rozwój systemów efektywnego zarządzania dużymi zasobami danych (w zakresie bezpiecznego gromadzenia, aktualizacji, przechowywania, udostępniania oraz wyszukiwania),.

(7) Srodowisko. 3.. Podsławowe. eksploracji danych. kategorie systemów Informatycznych. W toku rozwoju informatyki wykształciły się trzy, obecnie uważane za podstawowe, kategorie systemów informatycznych, które współcześnie koegzystują ze sobą w filozofii systemów otwartych: l. Pierwsze komputery były duże i drogie. W łatach 1960-1970 duże komputery (mainframe) uzyskały status systemów wiełodostępnych poprzez rozwiązanie problemu jednoczesnej pracy dużej liczby użytkowników za pośred nictwem zdalnych urządzeń we/wy (terminali). Z nieodłącznymi terminalami rozpoczęły swój triumfalny pochód w latach 1960- 1970. Racjonalizowalo to wykorzystanie drogiego sprzętu. Obecnie, kiedy sprzęt jest relatywnie coraz tańszy i istnieją alternatywne architektury sprzętowe, nadal zaleca się włącza nie do newralgicznych systemów dużych komputerów ze względu na ich wydajność i niezawodność. 2. Na początku dekady lat 1970-1980 na rynku pojawiły się na tyle tm\sze od mainframe'ów systemy minikomputerowe, że mogly sobie pozwolić na nie również mniejsze firmy i organizacje"'. Minikomputery istotnie przyczyniły się do upowszechnienia informatyki, ale prawdziwą rewolucję w tym względzie wywołała dopiero nastepna generacja, znana obecnie pod nazwą "komputery osobiste" . 3. Komputery osobiste (Persollał COlllputers) upowszechniły nową jakość w systemach informatycznych: sieci komputerowe. Współczesne sieci lokalne to przede wszystkim technologia intranetów firmowych i fragment technologii kontrolowanego dostępu pracowników firmy do zasobów sieci globalnej, czyli internetu. Każda z wymienionych wyżej kategorii sprzętu informatycznego pojawiała się jako model jednoprocesorowego komputera w klasycznej już dzisiaj architekturze zaproponowanej przez von Neumanna ponad 50 lat temu. Architektura tajest nadal najpowszechniej stosowaną, co prawda z pewnymi udoskonaleniami zaznaczonymi na rys. 4. Udoskonalenia te w niczym jednakże nie umniejszają fenomenu koncepcji komputera ze wspólną pamięcią programu i danych, która przetrwała pół wieku i nadal obowiązuje. W kontekście prowadzonych rozważań warto jest sobie uświadomić, że powiększanie mocy obliczeniowej systemu komputerowego od dziesięcioleci odbywa się na dwa zasadnicze sposoby: - zmiana technologii (w tym ełementów wewnętrznej architektury) procesora! - zaangażowanie w proces przetwarzania większej liczby procesorów. 10 Czasem były to po prostu działy w duł.ych firmach, cht;tJlc UO wykorzystania technologii informatycznej na własne potrzeby, bez oglądania si't na priorytety i plany całego przcdsiębiors twn. Póżniej , gdy "wyspy informacyjne" stały s ię poważnym problemem org,mizacyjnym, wysttU'towal. proces ich integrAcji z dużymi systemami w jednolite, zintegrowane systemy wspomagania zarówno procesów wytwórczych, jak i procesów inrormacyjnych zarządzania firmij..

(8) Tadeusz Wilusz. Pierwszy przypadek, to nic innego jak historia coraz to bardziej wydajnych generacji procesorów. W tym drugim przypadku, w zależności od szczegółów architektonicznych otrzymujemy różnorodność obecnie funkcjonujących rozwiązań sprzętowych zebraną w tabeli 1. Tabela l. Klasyfikacja (według. wielkości. fizycznej) systemów. powstałych. z połącze. nia procesorów Odłegłości między. procesorami. Rozmieszczenie procesorów w obrębie jednego. Przykład. przepływowe. pakietu systemu. systemy wieloproccsowc. łOm. pomieszczenia. sieci lokalne. 100m łkm. bndynku terenu firmy (np. uczelni). 10 km 100 km. kraju. 1000 km 10 000 km. kontynentu p1anely. 0,1 m 1m. miasta. maszyny. sieci dalekosiężne (rozlegle) intersieci powstałe z połączenia sieci dalekosiężnych. Źródło: [Tanenbaum 1998].. Warto może podkreślić, że zwiększanie (w dowolny sposób) liczby elementów przetwarzających dane (procesorów) to zwiększenie potencjalnie dostęp nej mocy obliczeniowej. Wykorzystanie potencjalnie coraz większych zasobów systemów informatycznych zawsze było limitowane dwoma podstawowymi czynnikami: poziomem rozwoju metod budowy efektywnych algorytmów przetwarzania" równoległego i ". ceną. To drugie ograniczenie traci na znaczeniu wraz z dynamicznym rozwojem systemów rozproszonych. Historycznie przejście od scentralizowanej architektury systemów komputerowych do sieci spowodowały głównie dwa czynniki: - chęć zapewnienia każdemu użytkownikowi dostępu do wszystkich zasobów sprzętowo-programowych niezależnie od fizycznej lokalizacji danego zasobu i użytkownika, - chęć podniesienia niezawodności przez posiadallie alternatywnych zasobów mocy obliczeniowej. W niektórych obszarach zastosOWall ma to strategicznie ważne znaczenie (np. w zastosowaniach wojskowych, w bankach, w systemach sterowania procesami technologicznymi).. II. muły. W literaturze można spotkać porównanie superkomputera do samochodu wyścigowego forw l, który swoją przewagę na typowym samochodem użytkownika (odpowiednikiem jest kom-. puter osobisty) jest w stanic wykazać na specjalnie przygotowanym torzc. W normalnym ruchu ulicznym jego wyższość technologiczna może być nic do wykorzystania..

(9) Środowisko. B .. PamIęć. technologii eksploracji dm,,,,,h. t. Dane i instrukcje l. t. ):. Adresy. B. Pamięć. Dane. •. danych. Procesor. •. Adresy Architektura von Neumanna. Procesor. ,. Pamięć. Inslmkcje. instrukcji. ,, ,. Architekt~lra. •. Harvard. Architektura współczesnych procesorów. '------------------------------------------1. ,, I. Pamięć. , ,. Dane. I '). Adresy:. Procesor Układ. pobrań. I). ,,. , ,, Wewnętrzna szyna danych • • ,, I , Instrukcje , l. ---I. Cachc danych. I~ Cuche instlllkcji. •. Dekoder instrukcji. ,, ,. ~-----------------------------------------~ Rys. 4. Rodowód architektury. współczesnych. procesorów. Żródło: [Kossowski 1999J.. Dynamiczny rozwój sieci komputerowych w latach 90. spowodował, że mocy obliczeniowej (czytaj - systemu z dostatecznie wielonu\ procesorami) mamy ją łatwo i praktycznie bez nakładów inwestycyjnych łatwo dostępną jako zainstalowaną moc istniejących sieci komputerowych, obecnie już o zasięgu globalnym. Funkcjonalne równoważniki o architekturze scentralizowanej (superkomputery, zestawy wieloprocesorowe lub klastry komputerów) wymagają nakładów, na które stać tylko duże firmy i organizacje. potrzebując dużej. 4.. Sieć. lako wirtualny komputer. równoległy. Cechą charakterystyczną metod eksploracji danych (Data Mining) jest bardzo duże zapotrzebowanie zarówno na moc obliczeniową systemu jak i zaawansowane systemy gromadzenia, aktualizacji i udostępniania danych. Stąd poszukiwania rozwiązml umożliwiających sięgnięcie po sieć jako tani, ale funkcjonalny równoważnik superkomputera. Jednym z bardziej interesujących, a jednocześnie już zweryfikowanych w praktyce rozwiązml pierwszego z wy-.

(10) Tadeusz Wilusz. mienionych problemów jest pomysł "równoległej maszyny wirtualnej" (PVM) , który zostanie pokrótce przedstawiony w następnym punkcie. 4.1. PVM - Parallei Vlrlual Machine. PVM jest pakietem" oprogramowania, które pozwala wykorzystać moc komputerów dołączonych do sieci unixowej. Oprogramowanie PVM w sensie funkcjonalnym przekształca ją w wirtualną maszynę równoległą i pozwala uruchamiać aplikacje zachowujące się tak, jakby działały na prawdziwym komputerze równoległym, a nie na sieci (czyli w środowisku rozproszonym) . Pakiet PVM składa się z dwóch podstawowych części: - demona uruchamianego w węzłach sieci, który pozwala na traktowanie jej jak jednego komputera równoległego, - biblioteki funkcji (C lub Fortran), zawierające definicję interfejsu do systemu dla programów mających działać na PVM. Demony mogą być uruchamiane przez dowolnych użytkowników, na dowolnych maszynach podłączonych do sieci, niezależnie od istniejących fizycznych połączeń i architektury komputerów. Dzięki temu utworzony "wirtualny komputer równoległy" jest bardzo elastyczny i efektywny. Nie musi bowiem na stałe obciążać określonych węzłów sieci, a nawet nie musi działać na dedykowanych maszynach. W rzeczywistości oprogramowanie PVM było kompilowane i działało zarówno na najprostszych komputerach klasy PC, silnych stacjach roboczych, jak i najpotężniejszych komputerach typu Cray czy MPP. Dzięki pakietowi PVM wszystkie te typy komputerów, o ile tylko są połączo ne w jedna sieć, mogą wspólnie tworzyć wirtualną maszynę równoległą. Idea programowania dla PVM da się sprowadzić do wykonania dwóch kroków: - należy podzielić aplikację na zadania (np. na zadanie czytające dane, wykonujące obliczenia i zajmujące się formatowaniem wyników), - dla każdego otrzymanego zadania należy napisać oddzielnie program na ogólnych zasadach programowania zwykłej aplikacji w C lub Fortranie, tyle, że przy użyciu udogodnień dostarczanych przez PVM. Poszczególne zadania mogą być uruchamiane z poziomu systemu operacyjnego lub z poziomu innego, już uruchomionego zadania użytkownika. obliczeniową. 12. Pakiet rYM jest efektem projektu o tej samej nazwie, który rozpoczął siQ latem 1989 r.. w Oak Ridge National Laborntory, prototyp (PYM 1.0), Jego autorzy to Vaidy Sundcrama i Al Gcista, Ta wersja systemu nigdy nic zostala udostępniona użytkownikom zcwl1Qtrznym. Dostępną uczyniono dopiero wersję drug,}, która zostala napisana na Univcrsity of Tennessee. Stało się to w marcu 1991 r. Wersja ta szybko znalazła dość szerokie zastosowanie w badaniach naukowych, W lutym 1993 r. ukazała się poprawiona wersja pakietu sygnowana numerem 3,0, Od tego czasu pakiet zyskuje rosn11cą popularność i jest naj prawdopodobniej najszerzej używanym narzędziem w swojej kategorii. Aktualne wersje pakietu są (m.in,) dostępne pod następującymi adresami internetowymi: hU p:/lwww.net!ib.org/pym3/index.html.ftp:llftp.netlib .org/pv m3.

(11) $rodowisko systemowe. W szczególności najbardziej typowy schemat aplikacji dla PVM wygląda tak, jest jedno zadanie glówne (zarządzające) uruchamiane z poziomu systemu operacyjnego, które następnie wywołuje kolejne zadania. Każde z zadań przejmuje swoją funkcję i od tego momentu zaczyna się właściwa praca aplikacji. Na ogół owo zadanie "główne" ma wyłącznie funkcje inicjujące i absolutnie nie musi występować w roli nadzorcy dła wszystkich pozostałych, zadań. Wspomniane udogodnienia,jak się latwo domyśleć, dotyczą przede wszystkim funkcji służących do komunikacji i synchronizacji miedzy poszczególnymi elementami naszej aplikacji (w nomenklaturze PVM elementy te zwane są zadaniami - ang. tasks). W zasadzie jedynym mechanizmem do komunikacji w PVM jest przesyłanie komunikatów. Na dodatek korzystanie z niego jest cał kiem proste, ponieważ większość operacji, o jakie trzeba by się martwić podczas przesyłania komunikatów w sieciach, została przejęta przez demony ijest wykonywana automatycznie (ma to szczególne znaczenie w kwestiach zwią zanych z heterogenicznością sieci i routingiem komunikatów). Bardzo ważnym jest to, że użytkownik nie musi angażować się w proces rozmieszczania zadań na poszczególnych komputerach w sieci. Tym zajmuje się pakiet PVM, co czyni z niego pretendenta do miana systemu operacyjnego rozproszonego systemu przetwarzania. że. 4.2. Zalety pakietu Do najważniejszych zalet pakietu PVM należy zaliczyć: a) przenośność, b) obsługę środowisk heterogenicznych, c) skalowalność, d) możliwość dynamicznej konfiguracji e) dobry system diagnostyki blędów, f) niskie naklady. Ada Autorzy pakietu PVM starali się uczynić go możliwie niezależnym od platformy sprzętowej. W efekcie pakiet działa równie dobrze na komputerach klasy PC, co i na najsilniejszych istniejących maszynach wiełoproccsorowych. Co szczególnie imponuje, to fakt, że wszystkie obsługiwane typy komputerów, niezależnie od architektury, mogą być polączone w jedną wirtualną maszynę równolegią.. Adb W PVM zaimplementowano mechanizm "pakowania komunikatów", czyli nadania im takiej formy, która pozwoli na poprawne przesianie wiadomości mimo różnic w lokalnych formatach danych. Minimalizuje to ryzyko utraty danych. Dodatkowo pakiet potrafi robić użytek z nierównomiernego obciążenia poszczególnych, używanych przez siebie komputerów. PVM sam bada obcią żenie poszczególnych węzlów tworzących maszynę równolegia i przydziela im uruchamiane zadania tak, by jak najlepiej wykorzystać ich moc obliczeniową..

(12) Tadeusz Wilusz Oprócz automatycznego rozmieszczania zadań, programista ma również do dyspozycji funkcje, które pozwalają mu umieścić dany fragment aplikacji na konkretnym komputerze (np. jeśli jest to komputer dedykowany do pewnego rodzaju obliczeń). Ad c Skalowalność wirtualnej maszyny równoległej to nic innego jak możliwo ść latwej zmiany liczby komputerów angażowanych w sieci do realizacji zadań przydzielanych przez PVM. Okazuje się, że omawiany pakiet w równie łatwy sposób pozwala zbudować maszynę dziesięciokomputerow ą, co tysiąc komputerową. Jeśli tylko mamy odpowiednio dużą sieć, to budowa maszyny równoległej sprowadza się wyłącznie do utworzenia odpowiednich plików konfiguracyjnych na kolejnych komputerach i uruchomieniu demonów. Łatwość zmiany rozmiarów jest olbrzymią zaletą tego systemu, zwłaszcza gdy weźmie my pod uwagę fakt, że prawdziwy komputer równolegly ma na ogól ustaloną liczbę procesorów i zmiana ich ilości jest skomplikowana, czasochlonna i kosztowna. Ad d Zaleta dynamicznej konfiguracji (a właściwie rekonfiguracji) oznacza, że możemy dodawać bądź usuwać węzły maszyny w trakcie jej pracy (w pakiecie są m.in. graficzne narzędzia do zarządzania ma szy ną równoległą). Warto podkreśłić, że odbywa się to w sposób bezpieczny dla pracujących aplikacji. Istotne jest także to, że system potrafi sobie poradzić z "niezamierzoną" rekonfiguracją. Sytuacja taka ma miejsce w przypadku awarii używanego węzła. PVM potrafi ograniczyć nasze straty do minimum, podejmując odpowiednie akcje w celu zapewnienia bezpieczeństwa zadaniom, które pozostały przy ży ciu. Ade Biblioteka funkcji PVM została stworzona miedzy innymi z myślą o bezpieczeństwie aplikacji, dłatego teź dużą wagę przywiązywano do zdefiniowania efektywnego zestawu funkcji, które informują zadania o zaistniałych błę dach. Dzięki nim stosunkowo łatwo jest pisać "bezpieczne" programy. Adf NajtUllszy komputer typu MPP kosztuje ponad !O mln USD, podczas gdy pakiet PVM jest rozprowadzany jako ji·eeware. Dzięki temu pakiet umożliw ia w warunkach już istniejącej sieci stworzenie i używanie wirtualnego komputera równoległego praktycznie bez nakładów finansowych .. 5.. Współczesne ośrodki. przechowywania danych. Budowanie systemów o coraz to większej mocy przetwarzania miałoby ograniczony sens praktyczny bez równolegle rozwijanych możliwości gromadzenia i składowania coraz większych zasobów danych. Te dwa procesy są, bo muszą być ze sobą ściśłe związanej, a wynika to z podstawowej koncepcji.

(13) Srodowisko systemowe. DAS - Direct Attachcd Storage. pamięć. dedykowana. pamięć wspóldziełona. NAS - Network Attached Storage. SAN_Storage Area Network. Rys. 5. Podstawowe architektury udostępniania pamięci masowych Żródło: opracowanie własne..

(14) Tadeusz Willlsz narzędzia do automatyzacji procesów informacyjnych. Przedstawioną już koncepcję sieciowego komputera wirtualnego możemy sprowadzić do postulatu budowy systemu operacyjnego udostępniającego pojedynczemu użytkownikowi rozproszoną w sieci moc obliczeniową w filozofii, pojęciowo. komputera jako. dla niego latwiejszej, scentralizowanej mocy obliczeniowej superkomputera. Rozwiązanie tego problemu, z oczywistych powodów, podobnego potraktowania problemu pamięci masowych. W rezultacie obok klasycznego modelu pamięci masowej bezpośrednio dolączanej do modułu komputera przetwarzającego dane pojawily się nowe rozwiązania: autonomiczna usluga udostępniania wszystkim komputerom w sieci dużych zasobów pamięci masowej (NAS) w filozofii pamięci bezpośrednio dolączonej do komputera (NAS) oraz specjalizowanych w uslugach skladowania i udostępniania danych sieci komputerowych (SAN). W rezultacie obecnie dostępna rozmaitość technologii przechowywania masowych danych przedstawia się następująco (porównaj również rys. 5): - DAS (Direct Allached Storage) - klasyczne, rozwijane od zarania dziejów informatyki, rozwiązanie występujące w 95% instalacji komputerowych, polegające na bezpośrednim podłączeniu pamięci masowej do procesora. Rozwój tej filozofii polegał glównie na opracowywaniu coraz to bardziej wydajnych sposobów połączeń (typów magistrali zewnętrznych), - wspólna pamięć typu DAS w zestawach wieloprocesorowych (w tym w kłastrach komputerowych); - NAS (Network Allached Storage) - technika o rosnącej popularności w małych i średnich firmach polegająca na rozciągnięciu terminu "pamięć masowa" na rozwiązania będące de facto uslugą sieci lokalnych udostępniania pamięci masowej (serwer plików); - SAN (Storage Area Network) - zaawansowane rozwiązania adresowane do dużych firm i korporacji wspólbrzmiące z filozofią traktowania rozproszonych zasobów jako wirtualnego komputera sieciowego. Network Attached Slorage (NAS). Z rys. 5 wynika, że technologia NAS lokuje się pomiędzy klasycznymi, obecnie bardzo tanimi metodami bezpośred niego podlączania pamięci do komputera użytkownika (DAS) a zaawansowanymi rozwiązaniami stworzonymi z myślą o dużych firmach i korporacjach(SAN). Jest to technologia ciesząca się rosnącym powodzeniem w środowisku małych i średnich firm z racji takich cech jak: - łatwość implementacji w zastanych strukturach, - niezależność od serwerów i stacji roboczych, - odciążenie serwera (przeplyw danych, przerwania IRQ), - specjalizacja urządzeń (prosta budowa, zwarta konstrukcja, więc także podwyższona niezawodność),. -łatwość stosowania w zmieniającej się infrastrukturze, -łatwość administracji, (najczęściej przez przeglądarkę WWW), - zgodność z istniejącymi standardami, - niskie koszty całkowite..

(15) Środowisko .. pamięć. technologii eksploracji danych. masowa. serwery. platformy użytkowników. SCSI. Rys. 6. Koncepcja Storage Area Network (SAN) Źródło: opracowanie własne.. Od strony czysto technicznej NAS należy traktować jako w pełni zintegrowane i dedykowane rozwiązanie w dziedzinie pamięci masowej, które pozwala się w łatwy i szybki sposób podłączyć do istniejącej topologii sieci. Po podłączeniu staje się natychmiast transparentnym zasobem dla wszystkich stanowisk w sieci. NAS jest niezależny od systemu operacyjnego i jest widziany przez aplikacje jako następny serwer. Urządzenia typu NAS można podłą czać do sieci w czasie jej pracy i nie wymaga to żadnych zmian w istniejących serwerach plików. W przeciwieństwie do dedykowanych sieci wykorzystywanych w architekturze SAN, urządzenia typu NAS są podłączane do istniejących sieci, a komunikacja odbywa się poprzez standardowe protokoły systemu plików takie jak NFS (Network File System) lub CIFS (Common Internet File System). Urządzenia typu NAS są zoptymalizowane do wykonywania szczególnych zadań, takich jak serwowanie plików. Ta optymalizacja powoduje, iż serwowanie plików odbywa się na możliwie najwyższym poziomie dostępno ści.. Storage Area Network (SAN). W odróżnieniu do DAS czy NAS Storage Area Network jest raczej koncepcją aniżeli produktem rynkowym. Rozwiązania Idea SAN leży w topologii połączeń i polega na tym, że serwery bazodanowe, plikowe i aplikacyjne są jednocześnie połączone do dwóch różnych sieci: do tradycyjnej sieci komunikacyjnej LAN i do szybkiej sieci dedykowanej do przesyłania dużej ilości danych. Właśnie ta szybka sieć łącząca serwery i zasoby pamięciowe, czyli macierze dyskowe, biblioteki taśmowe i optyczne umożliwia swobodny przepływ danych między elementami, odciążając tym samym zwykle przeciążoną sieć LANI3. 13 Należy. a nie na. jednoznacznie stwierdzić, że koncepcja SAN polega na współdzieleniu plików,jak to ma miejsce w urządzeniach typu NAS,. współdzieleniu. urządzeń,.

(16) Tadeusz Wilusz. a) Podstawowa slmktura pamięci. b). serwery. Zwiększenie. c) Rozbudowa. klienci. mocy obliczeniowej. pamięci. masowych. Rys, 7, Skalowalność architektury SAN Źródło: opracowanie własne na podstawie [Wyrzykowski 2000a).. W architekturze SAN można wyróżnić zatem trzy podstawowc warstwy: - pamięć masowa, czyli dyski, w'camery, biblioteki optyczne, taśmowe,ju keboxy, Funkcją tych urządzeń jest dostarczenie odpowiednio dużej, skalowalnej przestrzeni dla danych;.

(17) Srodowisko systemowe technologii eksploracji danych. - warstwa lączy, zapewniająca odpowiednią przepus towość. Warstwa ta powinna być redundantna; w polączeniu ze zdublowanymi interfejsami urządzeń daje to zdecyd owanie większą niezawodn ość; - warstwa serwerowa, zapewniająca odp'owiednią moc obliczeniową odpow i edzia lną za jako ść usług udos tępniania danyc1l. Bardzo ważna z punktu widzenia potrzeb wspólczesnych systemów informqacyjnych jest ska lowalność stosowanej technologii. Możliwości adaptacyjne koncepcji SAN pokazane są na rys. 7.. 6. Podsumowanie Trw ający już ponad 50 lat rozwój informatyki pozwoli! w pełni zau tomatyzo wać wszystkie procesy informacyjne i osiągnąć jej dojrzalą formę technologii znajdującej coraz szersze i coraz latw iejsze (z uwagi na uniwersa lność,. a tym samym p owszec hność występowania) zastosowania. Poni eważ jest to technologia procesów informacyjnych w naj szerszy m tego słowa znaczeniu, więc rozwój jej zastosowalI stwarza coraz si lniejszą presję na tempo rozwoju samej technologii. Ogromna konkurencja na rynku technologii informatycznych spowodowała, że powiększ anie możl iwośc i nowo ko nstruowanych systemów informatycznych na gruncie technologii pólprzewodnikowych zaczęlo napotykać bariery fizyczne niemożliwe do przekroczenia. Dlatego w chwili obecnej trwają intensywne prace nad zamianą technologii pólprzewodn ikowej na inną, a w międzyczasie na znaczeniu istotnie zyskaly wszelkie metody zwiększania możliwości systemów informatycznych oparte na idei traktowania sieci "słabych" komputera w kategoriach równoleglego, wi rtualnego superkomputera. W artykule, na podstawie dostępnych źródel literaturowych starano się pokrótce zaprezentować filozofię takich rozw iązUJI i pokazać, że w kontekście globalizacji sieci (internet) oraz wyzwani~ ze strony ci'jgle niepelnego rozwią zan ia problemu automatyzacji pozyskiwania nowej wiedzy z lawinowo rosną cych zasobów elektronicznych danych (Da~a Mining) tego typu rozwiązania można z du ży m prawdopodobie.lstwem traktować jako najbliższą generację technologii systemów infonn acyjnych, ju ż XXI wieku. Literatura Ben·Ari M . [1 982] . Principles o[ COllcurrellf Progrllll1w;llg.. Prcnl ice~H" II.. Comcr D. E. [2000]. Sieci komputerowe i intersieci,WNT. Warsznwa. Glow i.iski C. [2000], Sztl/ka wysokiego skladowollia , "PC Kuri er", nr t2. Kisielnicki J., Sroka [-I. [1999]. Systemy illformacyjlle biznesl/, Agencja Wydawnic za PLACET, Warszawa. Kossowski P. [1 9991,l?ol.wój mikrokomjJwerów i ich l1'ykorzy.\'llIlIie we wspólcze.mym .rwiecie, pracu magisterska , AE w Krakowie, Kraków, Kowalski M. [2oo1J, Wielkie przyspieszellie , "PC Kurier", nr I..

(18) Tadeusz Wilusz Shim 1.K., Siegel 1.G., Chi R. [1999], Teclrllologia illformacyjlla , Dom Wydawniczy ABC,. Warszawa. Silberschatz A., Galvin P. B. [2000), Podstawy systemów operacyjllych, WNT, Warszawa. Stcvens W.W. [1990), Pl'ogramowmlie zastosowań sieciowych IV systemie Ullix, WNT, Warszawa. Tancnbaum A.S. [1998], Sieci komputerowe. WNT, Warszawa. Vaskevitch D. [1995], Strategie Kliellt-Server,IDG Poland SA, Warszawa, Wyrzykowski A. [2000a], Pamięci ",asowe, "PC Kurier", nr 7, Wyrzykowski A, [2000b], PojemIlość bez grallic, "PC Kurier", nr 7. Wyrzykowski A. [2000c], Więcej, szybciej, talliej, "PC Kurier", nr 6, http://www.netlib.org/pvm3/book/pvm-book.htmIElektroniczna(html.ps) wersja książki o systemie PVM, oryginalnie wydana przez MIT Press http://www.sp2.uni-c.dklPVM/Pvmlntro.htmIZwarte wprowadzenie do PVM z informacją o zasadach instalacji i uruchamiania systemu. System Envlronment for Data MInIng Technlques Data mining methods necd very much ar system computing power and require ndvanced tools performing information gathering , updating, and giving nccess to data. Consequently. therc is a necessily to search for solutions lhat enable achievement er seemingly contradictory goals: the increase af possibilities ar information system and simultaneously the reduction of its price, New prospects. ar solving Su ch a problem have occurrcd wilen computer networks, especi.lly global network - the Internet, h.ve developed nnd become. widespread, The paper presents the most important elements or the idea of uti1ization or the existing network, which can be a cheap tool, but functionally completely equivalenl to nn expensive supercomputer, One of the most interesting and a180 practically verified solutions to the first above-mentioned problem is the concept of a "parallei virtual machine" (PVM), which is discussed in the sludy..

(19)