Ewolucja i stan obecny systemów analizy danych biznesowych

Pełen tekst

(1)Zeszyty Naukowe nr. 770. Uniwersytetu Ekonomicznego w Krakowie. 2009. Paweł Lula Katedra Systemów Obliczeniowych. Janusz Sztorc Katedra Systemów Obliczeniowych. Ewolucja i stan obecny systemów analizy danych biznesowych* Streszczenie. W artykule przedstawiono proces rozwoju systemów analitycznych wykorzystywanych w sferze biznesowej. Zdefiniowano kryteria pozwalające na ich ocenę i porównanie. Przedstawiono mocne i słabe strony poszczególnych ich form rozwojowych. Szczególną uwagę skupiono na dominującej obecnie koncepcji systemów analitycznych klasy business intelligence. Zwrócono uwagę na duże możliwości systemów rozprowadzanych na zasadach open source. W końcowej części artykułu przedstawiono proces budowy przykładowego modelu za pomocą pakietów C4.5 oraz WEKA. Słowa kluczowe: systemy biznesu elektronicznego, metody analizy danych. 1. Struktura aplikacji komputerowych wspomagających działalność biznesową Różnorodność programów komputerowych wspierających działalność biznesową jest bardzo duża. Biorąc pod uwagę podstawowe funkcje realizowane przez użytkowane programy w literaturze proponuje się zbliżone do siebie sposoby ich klasyfikacji ([Zieliński, 2000], [Kisielnicki, Sroka 2001], [Wprowadzenie do informatyki…, 2004]): Do najczęściej wyróżnianych klas należą systemy: transakcyjne, gromadzenia i wyszukiwania informacji, wspomagające prace biurowe, informowania kierownictwa, wspomagania decyzji, zintegrowane zarządzania, ekspertowe. *Pracę wykonano w ramach realizacji tematu badawczego nr 60/KI/2/2004/S/170..

(2) Paweł Lula, Janusz Sztorc. 72. Mimo dużego zróżnicowania zadań przypisywanych do poszczególnych typów programów można zaproponować wspólny dla wszystkich model prezentujący ich strukturę i najważniejsze zasady funkcjonowania. Model zakłada, że program komputerowy składa się z trzech zasadniczych elementów określanych mianem warstw. Są to: warstwa prezentacji, warstwa przetwarzania (warstwa logiki biznesowej), warstwa zarządzania danymi. Wzajemne relacje pomiędzy wyróżnionymi elementami przedstawia rys. 1. warstwa prezentacji warstwa prezentacji warstwa prezentacji. Rys. 1. Struktura aplikacji biznesowej Źródło: opracowanie własne.. Warstwa prezentacji programu odpowiedzialna jest za komunikację pomiędzy użytkownikiem a systemem. Na realizację tego zadania składają się: pobieranie danych od użytkownika, prezentacja wyników, zapewnienie komunikacji z warstwą przetwarzania. Warstwa przetwarzania (zwana również warstwą logiki biznesowej) odpowiedzialna jest za przetworzenie danych zgodnie z zaimplementowanym w programie algorytmem. Dane poddawane przetwarzaniu dostarczane są zarówno przez warstwę prezentacji, jak i warstwę zarządzania danymi. Warstwa zarządzania danymi realizuje zadania związane z gromadzeniem informacji. Jej zasadniczą częścią są rozwiązania bazodanowe lub system plików. Przedstawiony powyżej model ma charakter uniwersalny. Może być z powodzeniem stosowany do różnych typów aplikacji powstałych zarówno w początkowym okresie rozwoju metod i narzędzi informatyki, jak i w czasach obecnych. Historia systemów komputerowych służących wspieraniu działalności biznesowej sięga połowy dwudziestego wieku. W pierwszej kolejności systemy informatyczne pojawiły się w bankowości. W wyniku prac prowadzonych na początku lat 50. XX stulecia przez Stanford Research Institute oraz Bank of America powstał system ERMA – Electronic Recording Method of Accounting wspomagający działalność w zakresie rachunkowości (http://inventors.about.com/library/inventors/ bl_ERMA_Computer.htm). System ten zaprezentowany został we wrześniu 1955 r., a w następnym roku został próbnie wdrożony. Pozytywne wyniki próbnego wdrożenia pozwoliły podjąć decyzję o jego zastosowaniu. Bank of America sto-.

(3) Ewolucja i stan obecny systemów…. 73. sował wspomniany system w latach 1959–1970. Pojawienie się systemu ERMA zapoczątkowało erę systemów wspierających działalność biznesową działających na podstawie modelu scentralizowanego przetwarzania danych. Wszystkie funkcje wynikające z przyjętego powyżej modelu programu realizowane są przez jeden komputer, co w wielu wypadkach prowadziło do nieefektywnego wykorzystania zasobów komputerowych wynikających z konieczności oczekiwania jednych modułów programu na zakończenie pracy innych. Działania mające na celu rozwiązanie powyższych problemów zaowocowały powstaniem systemów wielozadaniowych oraz wielodostępnych. Główną zaletą systemów wielozadaniowych jest możliwość jednoczesnej realizacji wielu zadań. Przyjęcie założenia głoszącego, że poszczególne procesy realizują w tym samym czasie zadania przypisane do różnych warstw modelu oprogramowania wskazuje, że system tego typu może znacznie lepiej gospodarować zasobami systemu komputerowego. Znacznie dalej posunięte zmiany w sposobie realizacji programów wprowadził wielodostępny tryb pracy. Z punktu widzenia użytkownika wielodostępność polega na umożliwieniu jednoczesnej pracy wielu użytkownikom komunikującym się z komputerem za pośrednictwem terminali. Z punktu widzenia aplikacji zmiany były jeszcze mocniej zauważalne, gdyż polegały na przesunięciu zadań związanych z realizacją funkcji warstwy prezentacji z komputera centralnego do terminala. W systemach wielodostępnych wszystkie funkcje właściwe dla warstw niższych programu nadal były w całości realizowane przez komputer centralny. Fakt ten stanowił zapowiedź przemian w strukturze systemów komputerowych. Przez 20 lat był stosowany model scentralizowany. Atmosfera zimnej wojny pod koniec lat 60 przyczyniła się do opracowania w Stanach Zjednoczonych rozwiązania zakładającego połączenie samodzielnie pracujących maszyn za pomocą sieci komputerowej. Zaproponowane w 1969 r. rozwiązanie miało umożliwić niezakłócony przepływ informacji pomiędzy wojskowymi systemami komputerowymi w wypadku ataku nuklearnego. W ten sposób powstał ARPANet (http:// inventors.about.com/library/weekly/aa091598.htm), stanowiący początek dzisiejszego Internetu. Pierwsza dekada lat 70. XX w. zapoczątkowała dynamiczny rozwój lokalnych sieci komputerowych. Osobą, która w największym stopniu przyczyniła się do rozwoju technologii pozwalających łączyć ze sobą komputery znajdujące się na stosunkowo niewielkim obszarze, był R. Metcalfe, twórca Ethernetu (http://inventors.about.com/library/weekly/aa111598.htm). Powstanie Internetu i Ethernetu stworzyło dogodne warunki do rozwoju systemów biznesowych działających w środowisku rozproszonym. Systemy działające w środowisku rozproszonym nie stanowią jednorodnej grupy, lecz można wśród nich wyróżnić dwie zasadnicze klasy. Są to: systemy typu klient–serwer, systemy o architekturze obiektów rozproszonych. Podstawową cechą systemów o architekturze klient–serwer jest rozdzielenie funkcji programu (prezentacji, przetwarzania, zarządzania danymi) pomiędzy.

(4) 74. Paweł Lula, Janusz Sztorc. dwa komunikujące się ze sobą procesy: klienta oraz serwera. Przy czym sposób podziału może być realizowany na dwa sposoby: – realizacja funkcji prezentacji po stronie klienta oraz funkcji przetwarzania i zarządzania danymi po stronie serwera – w prezentowanym rozwiązaniu zadania klienta ograniczone są wyłącznie do obsługi interakcji z użytkownikiem. Z tego względu ten typ klienta określany jest mianem cienkiego klienta. Zastosowanie tego typu modelu może skutkować dużym obciążeniem sieci oraz serwera. W niewielkim stopniu obciążony zostaje klient; – realizacja funkcji prezentacji i funkcji przetwarzania po stronie klienta i realizacja funkcji zarządzania danymi po stronie serwera – z uwagi na duże zaangażowanie klienta w całość realizowanych zadań w tym wypadku używa się terminu grubego klienta. Obciążenie sieci oraz serwera powinno być mniejsze, natomiast większe wymogi stawiane są klientowi. Rozwiązania wykorzystujące koncepcję grubego klienta są trudniejsze w implementacji od rozwiązań opartych na cienkim kliencie. Podstawowym problemem jest zapewnienie poprawności pracy systemu w heterogenicznym środowisku sieciowym. Drugim typem rozwiązań stosowanych w środowiskach rozproszonych są aplikacje działające w oparciu o obiekty rozproszone. Rozwiązanie to jest rozszerzeniem modelu klient–serwer, ale w odróżnieniu od niego nie zakłada podziału przypisania poszczególnych funkcji programu do jednej z komunikujących się dwóch stron, lecz przewiduje, że w procesie komunikacji uczestniczy wielu uczestników korzystających ze świadczonych dla siebie wzajemnie usług. Poszczególne obiekty mogą realizować różne funkcje aplikacji biznesowej (prezentacja, przetwarzanie, zarządzanie danymi). Do komunikacji pomiędzy obiektami wykorzystuje się warstwę pośrednią. Zakłada się, że każdy obiekt ma ściśle zdefiniowany interfejs określający sposób korzystania z oferowanych przez niego usług. Założenia technologii obiektów rozproszonych przewidują możliwość komunikowania się heterogenicznych środowisk sprzętowo-programowych. Istnieje możliwość stosowania różnych języków programowania do pisania poszczególnych aplikacji. Uwidaczniające się tendencje rozwojowe oprogramowania wspierającego działalność biznesową wyraźnie wskazują na szybki rozwój produktów wykorzystujących architekturę obiektów rozproszonych komunikujących się wzajemnie przez Internet lub rozwiązania intranetowe. 2. Ewolucja systemów analizy danych biznesowych O powodzeniu każdej formy działalności biznesowej decyduje właściwie przeprowadzona analiza danych. Od jej wyników w dużym stopniu zależą podejmowane decyzje. Nie budzące wątpliwości wzrastające znaczenie systemów analitycznych stwarza potrzebę sformułowania jednoznacznych kryteriów pozwa-.

(5) Ewolucja i stan obecny systemów…. 75. lających na opis, porównanie i ocenę użytkowanych systemów analizy danych. Autorzy niniejszego opracowania proponują, aby w tym celu przyjąć następujący zbiór cech: – zakres stosowania analizy danych – biorąc pod uwagę ten punkt widzenia, należy zwrócić uwagę na zakres dziedzinowy oraz zakres czasowy analizy. Wraz ze zwiększaniem się zakresu obszaru poddawanego analizie powiększają się możliwości badania występujących związków, możliwe staje się wykrycie prawidłowości związanych z tymi aspektami działania, które nie były jeszcze eksplorowane, zwiększa się prawdopodobieństwo wykrycia ewentualnych błędów w danych lub w wynikach przeprowadzonych analiz; podobne rozumowanie można przeprowadzić w odniesieniu do czasu – możliwość uwzględnienia informacji pochodzących z dłuższego okresu pozwala zidentyfikować prawidłowości długookresowe i przyczynić się do polepszenia możliwości prognostycznych tworzonych modeli; – zakres stosowanych metod – dobór algorytmów analizy powinien być uzależniony od charakteru badanych zjawisk, ilości danych, złożoności obliczeniowej procedur oraz dostępnej mocy obliczeniowej, przydatności wyników dla decydentów; zwykle oceny systemów analitycznych rosną wraz ze zwiększającą się liczbą dostępnych algorytmów, lecz reguła ta nie zawsze musi być spełniona, gdyż w niektórych wypadkach sprawność algorytmów zaimplementowanych w dużych systemach jest mniejsza od wydajności ich odpowiedników znajdujących się w ściśle specjalizowanych pakietach; – otwartość – nawet najbardziej rozbudowany system analityczny nie jest w stanie spełnić oczekiwań wszystkich jego użytkowników, dlatego też za istotną cechę systemów analizy danych należy uznać ich otwartość przejawiającą się w możliwości rozbudowy o nowe algorytmy przetwarzania oraz w możliwości pozyskiwania informacji z nowych źródeł i standaryzacji formy prezentacji wyników (w sposób zapewniający możliwość jej dalszego automatycznego przetworzenia); – charakter danych i mechanizmy zarządzania danymi – tylko dane rzetelne, zebrane we właściwy sposób, opisujące całokształt badanych zjawisk, nie uszkodzone i nie sfałszowane, pobrane z różnych źródeł i przechowywane pierwotnie w różnych formatach pozwalają na uzyskanie przydatnych i pełnych wyników; – łatwość interpretacji wyników – wyniki analiz powinny być udostępniane w postaci zrozumiałej dla decydenta, stosowane terminy muszą odnosić się do sfery przedsiębiorczości, niedostosowanych algorytmów obliczeniowych, w wielu wypadkach wysoko oceniana będzie prezentacja graficzna; wyniki powinny być zagregowane na odpowiednim poziomie; – aktualność rezultatów – moment dostarczania wyników powinien być dostosowany do procesu decyzyjnego; dostarczone zbyt późno wyniki analiz są bezużyteczne; zbyt wczesne przeprowadzenie obliczeń i dostarczenie wyników również nie jest właściwe, przede wszystkim ze względu na brak możliwości uwzględnienia informacji bezpośrednio poprzedzających moment podejmowania decyzji;.

(6) 76. Paweł Lula, Janusz Sztorc. – łatwość i koszty implementacji systemu analizy danych – kształtowanie się tych czynników uzależnione jest między innymi od stosowanej konfiguracji sprzętowej i programowej systemu biznesu elektronicznego, stosowanych narzędzi i metod analizy, szkoleń, korzystania z usług analityków, wymaganego poziomu bezpieczeństwa, wymaganej szybkości obliczeń. Charakterystyka systemów analizy danych zmieniała się wraz z zachodzącymi przemianami w systemach informatycznych zarządzania [Kurowski 2001]. Pierwszy okres rozwoju systemów analitycznych jest ściśle związany z systemami wspierającymi działalność biznesową działającymi na podstawie modelu scentralizowanego. Przy uwzględnieniu sformułowanych powyżej kryteriów charakterystyka tego podejścia przedstawia się w sposób następujący: – zakres zastosowania analizy danych – analiza dotyczyła przede wszystkim bieżącej działalności transakcyjnej, reprezentowanej przez zapisy znajdujące się w bazie danych lub w systemie plików; – zakres stosowanych metod – największą popularnością cieszyły się metody analizy danych numerycznych (np. regresja, korelacja, klasyfikacja); – otwartość – narzędzia analizy tworzone były w postaci programów pisanych w językach wysokiego poziomu (Fortran, Algol, Pascal); istniała więc możliwość rozbudowy, ale wymagała znajomości metod programowania; – charakter danych i mechanizmy zarządzania danymi – dane wykorzystywane w analizie pochodziły bezpośrednio z bazy transakcyjnej, przez co odzwierciedlały tylko wycinek działalności przedsiębiorstwa, często miały charakter zbyt szczegółowy; analizie poddawane były dane o charakterze numerycznym lub sprowadzone do takiej postaci; mechanizmy zarządzania danymi nie były poddane standaryzacji, co znacznie utrudniało przenośność systemów analitycznych; – łatwość interpretacji wyników – postulat łatwości interpretacji wyników nie zawsze był zachowany; uzyskiwane rezultaty miały postać tabulogramów, często wyłącznie formę tekstową, bez zachowania odpowiedniego poziomu agregacji; – aktualność rezultatów – w wielu wypadkach realizacja obliczeń była czasochłonna, obejmowała przygotowanie odpowiedniego programu; na aktualność wyników negatywnie wpływał również stosowany często wsadowy tryb pracy; – łatwość i koszty implementacji systemu analizy danych – zgromadzenie danych w jednym punkcie w dużym stopniu upraszczało realizację zadań związanych z dostępem do danych (występujące problemy dotyczyć mogły kompatybilności formatów danych), przeprowadzenie analizy wymagało wiedzy informatycznej (konieczność oprogramowania algorytmów lub skorzystania z bibliotek programowych) oraz było procesem czasochłonnym; przeprowadzenie obliczeń związane było z dodatkowym obciążeniem systemu komputerowego wykorzystywanego przede wszystkim do wspomagania bieżacej działalności biznesowej..

(7) Ewolucja i stan obecny systemów…. 77. Pojawienie się systemów rozproszonych wymusiło wprowadzenie zmian w systemach analizy danych. Przede wszystkim zwrócono uwagę na konieczność agregacji danych pochodzących z wielu różnych źródeł. Stało się to możliwe dzięki wprowadzeniu hurtowni danych, które stanowią „logicznie skonsolidowany zbiór danych pochodzących z jednego lub wielu źródeł z wewnątrz i (lub) spoza przedsiębiorstwa” [Simon, Schaffer 2002]. Hurtownia danych tworzona jest z myślą o dokonywaniu złożonych analiz, zapisy w niej zgromadzone mają trwały charakter (nie powinny być poddane modyfikacji), są we właściwy sposób uporządkowane tematycznie i zagregowane, często charakteryzują się redundancją, są oznakowane czasem. Proces uzupełniania zawartości bazy danych ma charakter przyrostowy (dane są dodawane do hurtowni, nie następuje modyfikacja wcześniejszych zapisów). Zasilenia hurtowni danych przeprowadzane jest jako rezultat procesu ekstrakcji, transformacji i wczytywania danych (proces ETL – Extract, Transform, Load) odpowiedzialnego za czyszczenie danych, ich konsolidację oraz ujednolicenia formatu (http://www.infar.com.pl/tech_hurtowniadanych.html). Przydatność systemów analitycznych opartych na hurtowniach danych w zakresie uwzględnionych powyżej kryteriów przedstawia się następująco: 1) zakres zastosowania analizy danych – z uwagi na przeprowadzane w hurtowni procesy konsolidacyjne zakres zastosowań prac analitycznych jest znacznie szerszy niż w systemach opartych na pojedynczych bazach danych, gdyż hurtownia danych powinna zawierać pełną wiedzę dotyczącą funkcjonowania przedsiębiorstwa; hurtownia danych służy przede wszystkim do przechowywania danych historycznych, co pozwala na modelowanie długookresowych prawidłowości uwidaczniających się w działalności przedsiębiorstwa; 2) zakres stosowanych metod – w systemach analizy opartych na hurtowniach danych wykorzystywana jest zwykle znacznie większa różnorodność metod niż w systemach scentralizowanych. Są to przede wszystkim: – klasyczne metody statystyczne, – interaktywne systemy analizy i przetwarzania informacji (systemy OLAP – On-Line Analitical Processing) pozwalające na generowanie w czasie rzeczywistym zestawień i raportów o zadanej przez analityka strukturze; narzędzia tego typu w szerokim zakresie wykorzystują techniki graficznej prezentacji danych, – metody eksploracji danych (metody Data Mining) – metody poszukiwania prawidłowości w zbiorach danych (zwykle w zbiorach o dużych rozmiarach). Celem badań może być rozpoznanie struktury badanego zbioru obiektów lub opis zachodzących związków. Do podstawowych metod stosowanych w analizie eksploracyjnej zalicza się drzewa regresyjne i klasyfikacyjne, sieci neuronowe, metody taksonomiczne, metody analizy współwystępowania oraz metody graficzne; 3) otwartość – postulat zachowania otwartości systemu należy do głównych wymogów stawianych zaawansowanym systemom przechowywania i analizy.

(8) 78. Paweł Lula, Janusz Sztorc. danych. Otwartość przejawia się w możliwości uwzględnienia nowych źródeł danych oraz metod ich przetworzenia; 4) charakter danych i mechanizmy zarządzania danymi – przed umieszczeniem danych w hurtowni poddawane są one między innymi procesom czyszczenia, który ma na celu wyeliminowanie lub znaczne ograniczenie błędnych zapisów. Pozytywnie należy też ocenić wstępne przekształcenie danych i odpowiednie ich zagregowanie. Przechowywane w systemie informacje mogą mieć różnorodny charakter (nie tylko numeryczny), metody dostępu do danych wejściowych oraz formaty wyników ulegają ciągłej standaryzacji; 5) łatwość interpretacji wyników – możliwość uzyskania wyników prostych do interpretacji dla przedstawicieli kadry zarządzającej jest jedną z podstawowych cech technik OLAP i Data Mining; użyteczność i łatwość interpretacji może zostać zwiększona poprzez stosowanie różnorodnych metod wizualizacji; 6) aktualność rezultatów – aktualność wyników jest uzależniona przede wszystkim od częstotliwości uaktualniania hurtowni danych. Techniki OLAP pozwalają na niezwłoczne generowanie raportów. Techniki Data Mining stanowią grupę bardzo zróżnicowaną pod względem czasochłonności obliczeń (w skrajnych wypadkach czas obliczeń może być czynnikiem krytycznym w wyborze metody); 7) łatwość i koszty implementacji systemu analizy danych – implementacja hurtowni danych i nowoczesnego systemu analizy wymaga zaangażowania dużych środków finansowych związanych z zakupem sprzętu i oprogramowania zarządzającego hurtownią oraz służącego do przeprowadzania prac analitycznych. Zasoby systemu komputerowego niezbędne do utrzymania i obsługi hurtowni danych oraz realizacji procedur analitycznych nie mogą wpływać negatywnie na wydajność systemu podstawowego. W rezultacie uogólnienia pojęcia systemu analitycznego opartego na hurtowni danych w latach 80. XX w. zrodziła się, zaś w latach 90. zdobyła popularność, koncepcja inteligentnych systemów analizy informacji biznesowych (systemy BI – Business Intelligence). Pojęcie Business Intelligence zostało zdefiniowane jako „szeroki wachlarz aplikacji i technologii służących do zbierania, analizowania i udostępniania danych po to, aby pomóc pracownikom organizacji w podejmowaniu lepszych decyzji gospodarczych. Do aplikacji BI można zaliczyć systemy wspomagania decyzji (DSS), systemy raportująco-pytające (Q&R), Online analytical processing (OLAP), analizy statystyczne, prognozowanie i eksplorację danych”. (whatis.com, tłumaczenie za: [Zalech 2004]). 3. Charakterystyka systemów typu „business intelligence” Trudno w sposób jednoznaczny określić kryteria pozwalające na rozróżnienie systemów analitycznych opartych na hurtowniach danych i systemów klasy busi-.

(9) Ewolucja i stan obecny systemów…. 79. ness intelligence. W wielu materiałach źródłowych wykorzystanie hurtowni danych jest już warunkiem dostatecznym do przypisania systemowi określenia business intelligence. Jednakże przyjęcie takiego sposobu rozumowania można uznać za pewne uproszczenie. Mimo płynności granicy pomiędzy rozważanymi dwoma klasami systemów analitycznych, można wykazać, że systemy BI stanowią uogólnienie systemów wykorzystujących hurtownie danych rozumiane jako narzędzie integrujące dane pochodzące z transakcyjnych baz danych. Zachodzące zmiany dotyczą większości sformułowanych powyżej aspektów systemów analitycznych. 1. Zakres zastosowania analizy danych – systemy klasy business inlelligence odpowiedzialne są za analizę informacji reprezentujących całokształt istnienia i funkcjonowania przedsiębiorstwa; dotyczą nie tylko jego działalności podstawowej mającej swoje bezpośrednie odbicie w zapisach prowadzonych w bazach danych, ale również uwzględniają i analizują sytuację w otoczeniu firmy, również w tym, które tworzone jest przez dynamicznie się rozwijające rynki elektroniczne. 2. Zakres stosowanych metod – oprócz metod przydatnych w analizie danych pochodzących z hurtowni (metody statystyczne, techniki OLAP, Data Mining, wizualizacja) wprowadzane są metody przydatne do analizy informacji nieposiadających ściśle zdefiniowanej struktury (np. zawartość serwisów www) lub nieposiadających narzuconej struktury (tekst, dźwięk, grafika). 3. Otwartość – jest jedną z najważniejszych cech systemów analitycznych; odnosi się do możliwości akceptacji danych pochodzących z nowych źródeł, możliwości wzbogacenia możliwości analitycznych poprzez dołączenie nowych procedur i modułów oraz standaryzacji metod opisu modeli wynikowych. 4. Charakter danych i mechanizmy zarządzania danymi – rozszerzenie zakresu analiz poza dane poddające się ściśle strukturyzacji stwarza konieczność rozwiązania wielu nowych problemów, do których trzeba zaliczyć między innymi: – dużą wagę przywiązuje się do ekonomicznej interpretacji przetwarzanych informacji. Dane pierwotne (pobrane z systemów transakcyjnych) muszą być w wielu wypadkach przetworzone w informacje mające znaczenie ekonomiczne. Jest to szczególnie widoczne w systemach biznesu elektronicznego, w których zbierane są głównie dane technologiczne, które muszą zostać przełożone na informacje o znaczeniu biznesowym (np. historia aktywności użytkowników w sklepie internetowym powinna być podstawą do określenia mierników ukazujących ekonomiczną stronę funkcjonowania przedsięwzięcia); – określenie sposobów wymiany informacji (wprowadzenie systemu metadanych pozwalających na zdefiniowanie zawartości semantycznej danych oraz opisujących sposób ich struktury, ujednolicenie sposobów kodowania); – określenie sposobu numerycznej reprezentacji informacji – wszystkie systemy komputerowe działają na podstawie systemu binarnego, co powoduje, że wszelkie przetwarzane w nich informacje muszą zostać sprowadzone do takiej.

(10) 80. Paweł Lula, Janusz Sztorc. postaci. O ile reprezentacja numeryczna wartości wyrażonych na klasycznych skalach pomiarowych nie wzbudza obecnie dyskusji, to sposób numerycznej reprezentacji zawartości dokumentów tekstowych, dźwięku, grafiki, filmu nie może być uznany za rozwiązany; – szersze uwzględnienie otoczenia analizowanego przedmiotu powoduje, że większego znaczenia nabierają dane zewnętrzne, których powstanie, gromadzenie i udostępnianie jest poza kontrolą rozpatrywanej jednostki. Może to stwarzać problemy z weryfikacją ich jakości. 5. Łatwość interpretacji wyników – w systemach business intelligence postulowana jest łatwość interpretacji wyników; jej uzyskanie wymaga w wielu wypadkach zaangażowania złożonych algorytmów, dużej mocy obliczeniowej oraz czasu. 6. Aktualność rezultatów – jest jak zawsze uwarunkowana od złożoności obliczeniowej stosowanych algorytmów oraz od dostępności danych. Oba czynniki mogą prowadzić do opóźnień w dostępności rezultatów. Stosowane metody (łącznie z koniecznością przetworzenia bardzo dużych zbiorów danych) są często bardzo czaso- oraz pamięciochłonne, gdyż w wielu wypadkach wykorzystują techniki przeszukiwania zbioru dopuszczalnych wartości. Dotkliwe mogą być również opóźnienia spowodowane brakiem dostępności we właściwym czasie do danych zewnętrznych. 7. Łatwość i koszty implementacji systemu analizy danych – wdrożenie systemu klasy business intelligence jest systemem złożonym, wieloaspektowym i drogim. Wymaga zaangażowania dobrze przygotowanego zespołu. Realizacja części metod obliczeniowych może wymagać zastosowania dedykowanych serwerów lub klastrów obliczeniowych. Prawidłowo wykonany proces projektowania i wdrożenia systemu może być jednak istotnym czynnikiem sukcesu firmy. 4. Modelowanie wybranych zachowań uczestników rynków B2C za pomocą systemów analitycznych rozprowadzanych na zasadach open source Działalność analityczna typu business intelligence powinna obejmować całokształt działalności firmy, jej funkcjonowania oraz jej otoczenia, powinna wspomagać proces opracowywania strategii oraz podejmowania działań operacyjnych, powinna uwzględniać zachowania na rynkach tradycyjnych i elektronicznych, dotyczyć może problemów predykcyjnych lub dotyczących rozpoznania istniejących struktur. Tak szerokie spektrum zagadnień nie może być zwykle opisane przez jeden model. Lepsze rezultaty można uzyskać, budując modele cząstkowe dotyczące różnych fragmentów rzeczywistości. Należy jednak zadbać, aby poszczególne rozwiązania: – stosowały ustandaryzowany format przetwarzanych danych,.

(11) Ewolucja i stan obecny systemów…. 81. – miały charakter modułowy pozwalający na ich łączenie w różnych konfiguracjach, – były w wysokim stopniu konfigurowalne przez użytkownika, co pozwoli na ich adaptację do nowych warunków. Wymienione powyżej warunki spełniają pakiety programowe oferowane na zasadach komercyjnych. Często ich wysoka cena stanowi trudną do pokonania barierę, przede wszystkim dla małych i średnich firm oraz nabywców indywidualnych. Rozwiązaniem tego problemu mogą być narzędzia analityczne rozprowadzane na zasadach open source, które pod względem oferowanych funkcji w wielu wypadkach nie ustępują komercyjnym odpowiednikom. Poznanie możliwości tych pakietów i zasad ich stosowania może w znacznym stopniu rozszerzyć zakres zastosowań systemów business intelligence. Na potrzeby niniejszego artykułu podjęto próbę stworzenia modelu prognostycznego służącego analizie sprzedaży prowadzonej przez sklep internetowy. W badaniach wykorzystano dane dotyczące rzeczywistych zamówień dokonanych przez klientów działającego na terenie Stanów Zjednoczonych sklepu internetowego zajmującego się sprzedażą produktów pończoszniczych. Dane zostały udostępnione przez firmę Blue Martini Software (http://www.bluemartini.com/index. jsp) na rzecz współzawodnictwa w zakresie modelowana i prognozowania (KDD Cup 2000 – http://www.ecn.purdue.edu/KDDCUP/) organizowanego w ramach The Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, która odbyła się w Bostonie w 2000 r. Użyte w niniejszym opracowaniu informacje stanowią bardzo niewielką część udostępnianych zasobów i dotyczą tylko tych klientów, którzy w rozpatrywanym okresie dokonali zakupu za pośrednictwem Internetu. Łączna liczba zarejestrowanych zamówień wynosi 1781. Każda transakcja opisana jest za pomocą 518 cech. Opis każdej transakcji zawierał wiele informacji dotyczących między innymi: – klienta (wiek, płeć, sytuacja materialna, sytuacja rodzinna, miejsce zamieszkania, sytuacja zawodowa, zainteresowania, jego aktywności w Internecie, historię zakupów itd.), – towarów (cena, rozmiar, jakość, producent itd.), – warunków sprzedaży (cena przesyłki, promocje, zniżki itd.). Do zebrania różnorodnych informacji wykorzystano metody aktywne (działania wymagające zaangażowania klienta – ankiety, wywiady, programy monitorujące instalowane za zgodą internauty, badania panelowe) oraz pasywne (przekształcone dane z serwerów www, zapisy w plikach cookies, dane zgromadzone w bazie klientów). Celem analizy było stworzenie modelu klasyfikacyjnego pozwalającego określić, czy wartość rozpatrywanej transakcji przekroczy 12 USD. Analizowany zbiór udostępniany był w postaci pliku tekstowego zgodnego z formatem programu See5/C5.0 autorstwa R. Quinlana (http://www.rulequest..

(12) Paweł Lula, Janusz Sztorc. 82. com/see5-info.html). Format ten pozwala na przechowywanie danych numerycznych, tekstowych (łańcuchy znaków), wartości nominalnych i porządkowych, wartości określających datę i czas. Każdy plik z danymi ma ściśle określoną przez badacza strukturę. Definicja struktury pozwala na interpretację danych oraz weryfikację poprawności danych (niezgodność typów, niedopuszczalne wartości nominalne lub porządkowe, błędny format daty lub czasu). Jedyną wadą tego systemu przechowywania wartości jest stosunkowo niewielki stopień rozpowszechnienia formatu See5/C5.0 (znacznie bardziej rozpowszechnionym i akceptowanym przez wiele narzędzi programowych jest format zaproponowany przez Quinlana w rozprowadzanym bezpłatnie pakiecie C4.5; format C5.0 zawiera kilka elementów rozszerzających w stosunku do C4.5; jego popularyzacji nie służy również komercyjny charakter pakietu See5/C5.0)1. Uogólniając doświadczenia zdobyte w trakcie przetwarzania zgromadzonych zasobów, można stwierdzić, że przechowywanie danych niezbędnych do analizy w ustrukturyzowanych plikach tekstowych ma wiele zalet w porównaniu z alternatywną metodą przechowywania danych w bazach danych, na przykład: – przenośność pomiędzy programami i systemami komputerowymi, – stosunkowa łatwość konwersji, – niska cena implementacji. Do wad systemów przechowywania danych opartych na plikach tekstowych należy zaliczyć: – sekwencyjny charakter dostępu do danych (i związany z tym długi czas dostępu), – utrudnione przechowywanie danych multimedialnych, – problemy ze zmianą formatu danych (wydaje się, że problem ten jest stosunkowo łatwy do wyeliminowania poprzez zastosowanie rozwiązań bazujących na technologii XML). Przechodząc do wyboru narzędzia służącego do prac analitycznych, trzeba uwzględnić wiele czynników, a mianowicie: – rodzaje analiz realizowanych za pomocą pakietu (liczba i rodzaj dostępnych algorytmów), – źródła danych (formaty danych wejściowych, ograniczenia dotyczące wielkości zbiorów danych), – technologia wykorzystana przy tworzeniu pakietu (programy skompilowane, programy uruchamiane w środowisku maszyny wirtualnej – od tych cech zależy wieloplatformowość pakietu i szybkość jego działania), – cena (niektóre pakiety komercyjne są bardzo drogie, gdy jednocześnie istnieją pakiety o podobnych możliwościach, lecz rozpowszechniane bezpłatnie). Zadanie konwersji danych z formatu C5.0 do C4.5 dokonano za pomocą oprogramowania napisanego w tym celu w języku Perl. 1.

(13) Ewolucja i stan obecny systemów…. 83. Pierwszy etap prac obliczeniowych polegał na skonstruowaniu modelu klasyfikacyjnego wykorzystującego drzewa decyzyjne. Za wykorzystaniem tej metody przemawiała przydatność drzew decyzyjnych w analizie zbiorów danych złożonych w dużym stopniu z wartości nienumerycznych oraz szybkość realizacji obliczeń nawet w wypadku dużej liczby zmiennych i (lub) przypadków (cechy tej nie posiadają np. sieci neuronowe wymagające w wielu wypadkach długiego czasu uczenia). Do realizacji obliczeń wykorzystano algorytm C4.5 Quinlana dostępny w rozprowadzanym bezpłatnie przez autora programie. Wychodząc naprzeciw postulatowi konieczności zapewnienia łatwości interpretacji uzyskanych wyników, poddane redukcji drzewo decyzyjne poddano przekształceniu do postaci reguł decyzyjnych. Uzyskany efekt przyjął postać: Read 1781 cases (517 attributes) from eb Processing tree 0 Final rules from tree 0:. Rule 62: Percent Order Promotion FRIEND > 0 Order Shipping Amount Minimum <= 0 -> class True [93.0%]. Rule 2: Order item Quantity Sum Percent Having Discount Range (10 ... ) <= 0 Percent Order Promotion FRIEND <= 0 Percent Order Promotion FREEBAG <= 50 -> class True [92.2%] Rule 16: DoYouPurchaseForOthers = NULL -> class True [91.1%]. Rule 37: Order Line Amount Sum Percent Legwear <= 66 Order item Quantity Sum Percent Having Discount Range (5 ... 10] > 33.3333 Depth Average > 4.4 -> class True [88.2%] Rule 60: Order Line Quantity Sum > 1 Num LG Category Views <= 0 Num LEO Category Views > 1 -> class True [79.4%]. Rule 26: Order item Quantity Sum Percent Having Discount Range (5 ... 10] <= 33.3333 Percent Order Promotion FRIEND > 0 Order Line Quantity Sum Percent Of Specialty Items Collection > 50 -> class True [75.8%].

(14) 84. Paweł Lula, Janusz Sztorc. Rule 66: Percent Order Promotion FRIEND > 0 Pack Average <= 1.08 Num LG Category Views > 1 -> class True [73.1%]. Rule 54: Order Line Amount Sum Percent Legwear > 66 Order item Quantity Sum Percent Having Discount Range (5 ... 10] > 33.3333 Order Line Quantity Sum <= 1 Order Line Amount Sum Percent Of Women Products <= 50 -> class False [99.5%] Rule 1: Order Line Quantity Sum <= 1 Weight Average <= 1.93333 Num main/lifestyles Template Views <= 0 -> class False [98.3%]. Rule 53: DoYouPurchaseForOthers = False Company = NULL Order Line Amount Sum Percent Legwear > 66 Num LEO Category Views <= 0 Num LG Category Views <= 0 Order item Quantity Sum Percent Having Discount Range (5 ... 10] > 33.3333 Percent Order Promotion FRIEND > 0 WaistControl Last = NULL -> class False [97.9%] Rule 15: Order item Quantity Sum Percent Having Discount Range (10 ... ) > 0 -> class False [96.4%] Rule 65: SendEmail = False Percentage Legwear_size L Purchased <= 50 Percent Order Promotion FRIEND > 0 Order Shipping Amount Minimum > 0 Num main/vendor2 Template Views <= 0 Num LG Category Views <= 1 -> class False [96.0%] Rule 20: Order Amount Sum Percent In process > 50 Percent Order Promotion FRIEND > 0 -> class False [95.1%] Default class: True.

(15) Ewolucja i stan obecny systemów…. 85. Każda zidentyfikowana przez program reguła określa warunki decydujące o zaliczeniu obiektu (którym jest opisywana transakcja) do jednej z dwóch rozpatrywanych klas. Warunki pojawiające się w regułach mają postać:. nazwa_zmiennej operator_relacyjny wartość. Dla każdej reguły podawany jest wskaźnik określający jej poprawność (odsetek obiektów, które spełniają warunki określone w regule i zostały prawidłowo zaklasyfikowane). Pakiet C4.5 jest doskonałym, darmowym i bardzo szybkim programem analitycznym. Jego przydatność jednak jest ograniczona wyłącznie do drzew decyzyjnych. Realizacja innych typów zadań musi być realizowana za pomocą innych pakietów. Do szczególnie polecanych, darmowych programów wspomagających prace analityczne zaliczany jest pakiet WEKA (http://www.cs.waikato.ac.nz/~ml/ weka/). Do jego najważniejszych cech należy zaliczyć: – bardzo szeroki zakres dostępnych metod analitycznych, – wieloplatformowość (pakiet dostępny jest w postaci klas zdefiniowanych w języku Java), – możliwość korzystania z interfejsu graficznego lub tekstowego, – możliwość wywoływania dostępnych w pakiecie metod z poziomu własnych programów, – otwarta architektura pozwalająca na rozbudowę pakietu o nowe możliwości, – przystosowanie pakietu do analizy danych tekstowych, – wbudowane narzędzia służące do wizualizacji danych, – duża liczba publikacji (dostępnych w postaci elektronicznej i drukowanej) prezentujących rezultaty prac wykonanych z użyciem pakietu i potwierdzająca jego przydatność. W trakcie dalszej analizy rozpatrywanego zbioru danych, posługując się pakietem WEKA dokonano identyfikacji kluczowych czynników wpływających na decyzje konsumentów dotyczące wysokości zawieranych transakcji. Wykorzystano algorytm oparty na algorytmie genetycznym. Każdy chromosom służył do zakodowania jednego zestawu zmiennych. Funkcja przystosowania uzależniona była od wartości błędu modelu klasyfikacyjnego opartego na drzewach decyzyjnych (wykorzystano drzewa C4.5) uwzględniających wyłącznie zmienne uwzględnione w chromosomie. W trakcie realizacji prac uzyskano następujące rezultaty: Selected attributes: 5,13,182,227,228,229,232,233,238,302 : 10. DoYouPurchaseForOthers SendEmail Order_Line_Quantity_Sum_Percentage_black Order_Discount_Amount_Average Order_Amount_Sum_Percent_Having_Discount_Range_(5 ... 10].

(16) 86. Paweł Lula, Janusz Sztorc. Order_Amount_Sum_Percent_Having_Discount_Range_0 Order_item_Quantity_Sum_Percent_Having_Discount_Range_(5 ... 10] Order_item_Quantity_Sum_Percent_Having_Discount_Range_0 Percent_Order_Promotion_FRIEND Order_Shipping_Amount_Minimum. Wybrana metoda dokonywała doboru najistotniejszych czynników poprzez budowę i ocenę wielu drzew klasyfikacyjnych typu C4.5 korzystających z różnych zestawów zmiennych wejściowych. Zmienne uwzględnione w najlepszym drzewie w sensie przyjętego miernika jakości modelu uznane zostały za czynniki kluczowe wpływające na decyzje konsumenckie. Należy podkreślić, że wspomniany sposób realizacji obliczeń (algorytm przeszukujący) prowadzi zwykle do osiągnięcia wyników lepszych od dostarczanych przez alternatywne metody postępowania. Jednakże wyższa jakość wyników pociąga za sobą znaczne zwiększenie czasochłonności obliczeń. 5. Wnioski końcowe. Zmiany zachodzące w systemach wspierających działalność biznesową i stopniowe przenoszenie działalności biznesowej do środowiska wirtualnego powoduje, że wraz z upływem czasu zmienia się rola, struktura, sposób funkcjonowania i zakres wykorzystania systemów analitycznych. Analizując obecną sytuację, można przypuszczać, że w najbliższej przyszłości prowadzone będą prace zmierzające do: – standaryzacji formatów danych wejściowych i wyjściowych – w tym zakresie szczególną rolę odgrywać będą prawdopodobnie rozwiązania bazujące na języku XML, – rozbudowy narzędzi pozwalających na analizę danych tekstowych i multimedialnych, – stosowania metod zmierzających do zmniejszenia czasochłonności obliczeń – zaliczyć tu należy przede wszystkim rozwiązania pozwalające na pracę w środowisku rozproszonym, – możliwości łączenia ze sobą modułów analitycznych w zamierzony przez badacza sposób. Pozytywnie należy też ocenić istnienie i stały rozwój zaawansowanych pakietów pozwalających na budowę systemów klasy business intelligence przy wykorzystaniu oprogramowania typu open source. Fakt ten w znacznym stopniu ułatwia prowadzenie prac badawczych i pozwala na kształcenie przyszłych analityków..

(17) Ewolucja i stan obecny systemów…. 87. Literatura Inteligentne systemy w zarządzaniu. Teoria i praktyka [2000], red. J. Zieliński, Wydawnictwo Naukowe PWN, Warszawa. Kisielnicki J., Sroka H. [2001], Systemy informacyjne biznesu. Informatyka dla zarządzania. Metody projektowania i wdrażania systemów, Placet, Agencja Wydawnicza, Warszawa. Kurowki J. [2001], Systemy e-Business Intelligence. Gra o wiedzę, „Telenet Forum”, nr 11. Simon A.R., Shaffer S.L. [2002], Hurtownie danych i systemy informacji gospodarczej. Zastosowania w handlu elektronicznym, Oficyna Ekonomiczna, Kraków. Wilusz T. [2003], Architektury systemów rozproszonego przetwarzania danych [w:] Rozproszone systemy analizy danych ekonomicznych, raport z badań statutowych, nr: 61/ KI/2/2003/S/066, kierownik tematu: Paweł Lula, Akademia Ekonomiczna w Krakowie, Kraków. Wprowadzenie do informatyki dla ekonomistów [2004], red. A. Bąk, Wydawnictwo Akademii Ekonomicznej we Wrocławiu, Wrocław. Zalech W. [2004], Narzędzia Business Intelligence, „Gazeta IT”, nr 11, http://www.gazetait.pl/zw/git21/narzedzia_business_intelligence.html. Evolution and Current State of Business Data Analysis Systems The paper describes the development process of analytical systems that are used in a business field. Criteria enabling their evaluation and comparison have been defined. The strengths and weaknesses of their particular development forms have been submitted. Special attention has been paid to currently dominating idea of analytical systems belonging to a business intelligence category. The substantial capabilities of open source systems have been pointed out. The last part of the article presents the process of a selected model construction with application of C4.5 and WEKA software. Key words: electronic business law, methods of data analysis..

(18)