• Nie Znaleziono Wyników

Metody typu Data Mining i możliwości ich zastosowań w ekonomii

N/A
N/A
Protected

Academic year: 2021

Share "Metody typu Data Mining i możliwości ich zastosowań w ekonomii"

Copied!
12
0
0

Pełen tekst

(1)mI:? 604. Paweł. 2002. Lula. Katedra Informatyki. Metody tyyu Data Mining i możliwosci ich zastosowań w ekonomii Streszczenie: W artykule przedstawiono ogólną charakterystykę grupy metod służących do eksploracji danych określanych mianem metod Data Milling i zaprezentowano podstawowych jej przedstawicieli. Omówiono możliwości zastosowań metod eksploracyjnych, zwracając szczególną uwagę na zastosowania ekonomiczne. W części końcowej artykułu przedstawiono podstawowe narzędzia programowe wspomagające eksplorację danych. Słowa kluczowe: Data MiniI/g, eksploracja danych, analiza danych. pozyskiwanie wiedzy.. l. Geneza I wstępna charakterystyka metod D",,, MIning Od drugiej połowy XX wieku rozpoczął się okres burzliwego rozwoju systemów informacyjnych. Zachodzące zmiany w stosowanych technologiach informatycznych pozwalają na stałe zwiększanie zakresu ich zastosowań [Inteligentne ... 2000]. W bardzo szybkim tempie rośnie ilość gromadzonych, przechowywanych, przetwarzanych i przesyłanych informacji. Niewątpliwy rozwój zachodzący w dziedzinie systemów informacyjnych nie zawsze prowadzi do usprawnienia sposobu funkcjonowania podmiotów korzystających z systemów informacyjnych i z informacji, traktowanych jako produkt. Z informacją traktowaną w charakterze produktu związane mogą być następujące typy niedomagań [Martyniak 2000]: - przeciążenie informacyjne - występujące wówczas, gdy ilość otrzymywanych informacji przewyższa możliwości ich wykorzystania, - dwuznaczność informacji - pojawiająca się wtedy, gdy informacja może być interpretowana na różne sposoby, - anemia informacyjna - przejawiająca się brakiem aktualnej informacji, rozproszeniem informacji bądź jej niekompletnością, - przekłamania informacyjne..

(2) Pawel Lula. Z. Martyniak wskazuje również na niedomagania procesów informacyjnych do wytworzenia informacji-produktu. Zalicza do nich: - zaleganie informacji - przejawiające się w znacznym wydłużaniu czasu biernego przechowywania informacji w stosunku do czasu jej przetwarzania i wykorzystania, - dystorsja informacji - rozumiana jako świadoma lub nieświadom a deformacja informacji pojawiająca się w trakcie kolejnych etapów jej przepływu, - zawał informacyjny - występujący wówczas, gdy szybkość przepływów informacyjnych nie jest dostateczna. Źródeł występujących niedomagań informacyjnych nie należy upatrywać w stosowanych rozwiązaniach technologicznych, które od wielu już lat znajdują się w fazie gwałtownego rozwoju, lecz należy wiązać ze stosowanymi metodami zarządzania informacją i sposobem funkcjonowania człowieka. Do klasycznych metod analizy danych należą metody statystyczne. One pozwalają m.in. na wyznaczenie parametrów opisowych, opis zależności, prezentację graficzną. Z uwagi na charakter gromadzonych i przetwarzanych danych o charakterze ekonomicznym na szczególną uwagę zasługują statystyczne metody analizy wielowymiarowej. W rezultacie integracji osiągnięć statystyki z metodami wypracowanymi na gruncie sztucznej inteligencji i teorii baz danych pojawiła się grupa metod analizy danych określana mianem metod Data Mining . Definicja tego typu narzędzi podana zostala w pracy [Gatnar 1997]: "Data Mining to określenie grupy metod szeroko rozumianej analizy danych mających na celu identyfikację nieznanych wcześniej prawidłowości występujących w dużych zbiorach danych. Powstałe wyniki mają postać łatwą do interpretacji przez prowadzącego badania." Z kolei w pracy [StatSoft 1997] termin Data Mining przetłumaczony został jako zgłębianie danych, które definiowane jest jako: "proces analityczny, przeznaczony do eksploracji dużych zasobów danych (zazwyczaj powiązanych z zagadnieniami gospodarczymi lub rynkowymi) w poszukiwaniu logicznych schematów oraz systematycznych współzależności pomiędzy zmiennymi, a następnie do oceny wyników poprzez zastosowanie wykrytych schematów dla nowych podzbiorów danych." Wskazując na podstawowe cechy metod Data Mining , należy zwrócić uwagę na następujące ich właściwości: - metody Data Mining są grupą bardzo zróżnicowaną, wywodzą się ze statystyki, informatyki, analizy sygnałów, matematyki, grafiki, - należą do metod o charakterze indukcyjnym, formułowane wnioski wypły­ wają z analizy dostępnych zbiorów danych, - uzyskiwane rezultaty są proste w interpretacji, - pozwalają na badanie prawidłowości przybierających postać związków pomiędzy zmiennymi, wzorców występujących w czasie oraz umożliwiają rozpoznawanie struktur, mających prowadzić.

(3) Data Mining i moŻliwoś(.' j ich zastosowati.... - celem ich stosowania może być dostarczenie opisu badanego fragmentu rzeczywistości bądź też prognozowanie, - są ukierunkowane na zastosowania praktyczne, przede wszystkim wspomaganie procesów decyzyjnych. Realizacja badal! z wykorzystaniem metod typu Data Mining jest procesem kilkuetapowym. Do zasadniczych jego elementów należy zaliczyć [Heidsieck, Uhr 2000]: - określenie celu przeprowadzanych badań, - określenie zakresu badań - z uwagi na czasochłonność przeprowadzanych obliczeJ! należy dokonać selekcji danych rozpatrywanych w trakcie prac obliczeniowych, podstawowym narzędziem stosowanym do selekcji danych pochodzących z baz danych jest język SQL, - wstępna analiza danych - identyfikacja obserwacji brakujących i nietypowych oraz przyjęcie sposobu ich traktowania, operacjonalizacja, reprezentacja, - wykonanie właściwych obliczeń, - weryfikacja poprawności uzyskanych wyników, - interpretacja uzyskanych rezultatów.. 2. Zakres. zastosowań. metod Data MInIng. Dobór właściwej metody analizy danych uzależniony jest od charakteru rozpatrywanego problemu. Przegląd przykładowych metod slużących do rozwią­ zywania typowych typów problemów przedstawiono w tabeli l. Po zidentyfikowaniu rodzaju rozwiązywanego problemu należy dokonać wyboru metod wlaściwych do jego rozwiązania . Wybór metody stosowanej do analizy zgromadzonych danych powinien uwzględniać: - aprioryczną wiedzę o badanym zjawisku (np. stopień znajomości ogólnych praw rządzących badanym zjawiskiem, liniowy bądź nieliniowy charakter zależności lub granic pomiędzy klasami, znajomość struktury szeregu czasowego), - wielkość zbiorów danych (niektóre metody analizy wymagają dużej liczby zaobselwowanych przypadków, inne są preferowane przy malej liczbie danych), - sposób wykorzystania wyników (w zależności od sytuacji wyżej mogą być oceniane metody modelujące sposób funkcjonowania badanego zjawiska, metody mające charakter "czal'llej skrzynki", metody dostarczające rezultatów w formie graficznej bądź regul decyzyjnych), - dostępność oprogramowania. Jeśli to możliwe, należy zastosować więcej niż jedną metodę postępowania. Za takim podejściem mogą przemawiać następujące przestanki: - uzyskanie zbieżnych rozwiąZaI! za pomocą różnych algorytmów postępo­ wania można traktować jako czynniki potwierdzające formulowane wnioski,.

(4) Paweł. Lula. - wyniki uzyskane przez różne metody mogą naświetlać różne aspekty badanych zjawisk i przez to mogą wzbogacić pozyskaną wiedzę, - stosowane metody analizy różnią się znacznie postacią uzyskiwanych wyników i sposobami ich interpretacji i wykorzystania. Tabela J. Rodzaje problemów i wlaściwe dla nich metody Dala Millillg Rodzaj problemu Opis zależności. Metody modele ekonometryczne sieci neuronowe tablice konlyngcllcji. metody analizy współ występowa nia zbiory. Klasyfikacja wzorcowa. przybliżone. funkcje dyskryminacyjne sieci neuronowe drzewa decyzyjne systemy rozmyte systemy rcgul owc. zbiory przybli żo lle metoda k-najbliższych. Klasyfikacja bezwzorcowa. sąsiadów. metody taksonomiczne. sieci neuronowe metoely redukcji wymiaru przestrzeni danych. metody graficzne algorYlmy genetyczne. Anal iza szeregów czasowych. modele ekonometryczne. sieci neuronowe metody analizy sygnałów. Problemy wyboru Żr6dło:. algorytmy genetyczne zbiory przybliżone. opracowanie własne,. Rodzaje problemów wyszczególnionych w tabeli l mają charakter ogólny. Wymienione typy zagadnień rozpatrywane są na gruncie różnych gałęzi wiedzy. Do nich również należą rozpatrywane i rozwiązywane za pomocą metod Data Minig zagadnienia ekonomiczne, ale z uwagi na specyfikę i znaczenie praktyczne problemów rozważanych na gruncie ekonomii i zarządzania warto je oddzielnie scharakteryzować . Coraz bogatsze źródła literaturowe pozwalają stwierdzić, że metody Data Mning stosowane są najczęściej do rozwiązywania następujących typów problemów z dziedziny ekonomii i zarządzania: - analiza klientów, - segmentacja, - prognoza zachowań klientów (prognoza przejścia clo konkurencji - ważne np. dla firm telekomunikacyjnych, ubezpieczeniowych, prognozowanie sposobu odpowiedzi klienta na przedstawioną ofertę, analiza współwy­ stępowania zjawisk - łącznego zakupu towarów lub usług),.

(5) Data. i możliwości ich zastosowmi.... - zastosowanie finansowe, - określanie trendów, - projektowanie portfela inwestycyjnego, - analiza nadużyć, - zastosowania w bankowości , - ocena wniosków kredytowych, - monitorowanie klientów, - analiza serwisów internetowych (tzw. webMinig), - ocena oglądalności serwisów internetowych i poszczególnych ich elementów, - zbieranie informacji o użytkownikach serwisów (profile użytkowni­ ków), jego potrzebach, zainteresowaniach, oczekiwaniach , - możliwość dostosowania zawartości informacyjnej do zindywidualizowanych potrzeb użytkowników, - badanie sekwencji odwiedzania serwisów internetowych. Należy oczekiwać, że wraz ze zwiększaniem się zasobów informacyjnych przechowywanych w bazach danych i wraz z rosnącymi potrzebami uczestników rynków znaczenie i zakres zastosowań metod analizy danych podlegać będzie ciąglemu rozwojowi.. 3. Przeglqd metod D",,, MInIng I możliwości Ich zastosowań Zestaw metod przydatnych do realizacji obliczeń typu Data Mining nie jest jednoznacznie określony. Bazując na przedstawionych powyżej definicjach, do rozpatrywanej grupy metod można zaliczyć wszystkie te , które pozwalają na wykrycie wcześniej nieznanych prawidlowości występujących w dużych zbiorach danych i których rezultaty są stosunkowo proste do interpretacji oraz przydatne w procesach decyzyjnych. Przyjęcie takiego stanowiska prowadzi do znacznego rozszerzenia liczby rozpatrywanych metod, ale znajduje potwierdzenie w praktyce. W kolejnych punktach przedstawiono krótką charakterystykę podstawowych narzędzi eksploracji danych. Metody statystyczne. Metody statystyczne stanowią podstawową grupę narzędzi analizy danych [Zając 1988]) . Zgodnie z definicją podaną w pracy [Zając 1985] statystyka jest nauką traktującą o ilościowych metodach badania prawidlowości występujących w zjawiskach masowych. Metody statystyczne pozwalają m.in. na dokonanie opisu zjawisk i procesów, badanie współzależności, budowę modeli, testowanie hipotez oraz analizę szcrcgów czasowych. Przydatność metod statystycznych rozciąga się praktycznie na wszystkie rodzaje problemów rozpatrywunych na gruncie ekonomii. Metody sta.tystycznej analizy wielowymiarowej. Metody statystycznej analizy wielowymiarowej (SAW) pozwalają na badanie zbioru obiektów charakteryzowanych przez więcej niż jedną cechę. Metody SAW są opisane w literaturze.

(6) Pawel Lula. [Jajuga 1993). [Walesiak 1996). [Grabiński i in. 1989). [Grabiński 1992). [Metody taksonomiczne ... 1988]) . Zakres zastosowań ekonomicznych SAW jest bardzo szeroki. Do przykładowych dziedzin ich stosowania można zaliczyć: - zagadnienia marketingowe [Badania marketingowe ... 1992). [Walesiak 1996], [Mynarski 1999], - badania regionalne' . - klasyfikacja obiektów gospodarczych. - porządkowanie obiektów. Modele ekonometryczne. Model ekonometryczny pozwala na formalne uj ęc ie w postaci formuły matematycznej zależności istniejących pomiędzy zmiennymi. Bogata literatura z zakresu ekonometrii wskazuje na szeroki zakres ich zastosoWalI. Modele ekonometryczne stosowane w eksploracji zawaltości baz danych mogą być przydatne do opisu prawidłowości o charakterze przekrojowym i czasowym. Do podstawowych ich zalet należy zaliczyć bardzo duże możli ­ wości interpretacyjne. krótki czas szacowania ich parametrów oraz przydatność w procesie prognozowania . Do najpoważniej szych trudności związanych z ich stosowaniem należy zaliczyć zagadnienia doboru postaci analitycznej modelu oraz określenia wlaściwego zbioru uwzględnionych zmiennych. Rozwiązanie wspomnianych problemów wymaga zwykle stosowania innych metod analizy danycll. Metody analizy sygllalów. Rozwijane na gruncie nauk technicznych metody analizy sygnałów zajmują się deterministycznymi bądź stochastycznymi metodami opisu zjawisk rozwijających się w czasie [Szabatin 2000]. Stosowane na tym gruncie metody badawcze pozwalają na analizę zjawisk w dziedzinie czasu i częstotliwości. Wydaje się. że przydatność tego typu narzędzi badawczych w analizie zjawisk ekonomicznych będzie wzrastać wraz ze wzrostem liczby dostępnych. dlugich szeregów czasowych (głównie finansowych). Szczególnie obiecujące możliwo ści zastosowań związane są z: - możliwością rozpoznania struktury szeregów i ich dekompozycji [Tal aga. Zieliński 1986]. [Szabatin2000). [Percival. Walden2000). [Białasiewicz 2000]. - modelowaniem i prognozowaniem szeregów czasowych [Azoff 1994]. [Lula 1999]. [BiaJasiewicz 2000). - filtracją szeregów czasowych [Talaga. Zielirlski 1986]. Sieci neuronowe. Sieci neuronowe należą do metod analizy danych pozwalają­ cych na rozwiązywanie różnorodnych typów problemów badawczych. Charakterystyka neuronowych metod analizy danych znajduje się m.in. w pracach: [Tadeusiewicz 1993). [Trippi. Turban 1993). [Refcnes 1995] . [Osowski 1996]. [Rojas 1996). [Rymarczyk 1997). [Grabowski 1997. 1998). [Lula 1999a). [Nałęcz 2000]. Sztuczna sieć neuronowa pozwala na reprezentację wiedzy zdo-. I Szereg prac z lego zakresu opublikowanych zostało w: Klasyfikacja i a/wliw dauych. Teoria i zastosowa1lia. Taksonomia, [1998] Sekcjn Klnsyfikacji i Analizy Danych Polskiego Towarzystwa StatYSlycznego, ZN. AE wc Wrocławiu, Wrocław. nr 5..

(7) Metody typu Data. i możliwości ich zastosowml. ... by tej w trakcie uczenia polegającego na prezentacji zgromadzonych zbiorów danycll. Do typowych problemów ekonomicznych rozwiązywanych za ich pomocą można zaliczyć:. - modelowanie i prognozowanie zjawisk ekonomicznych ([Azoff 1994], [Baestaens van den Bergh, Wood 1994], [Trippi, Turban 1993], [Refenes 1995], [Lula 1999a]), - wycena nieruchomości [Lula 1999a], [Hopfer 1997], - predykcja bankructwa firm [Trippi, Turban 1993], [Refenes 1995], [Inteligentne ... 2000], [Visual ... 2000], - ocena kredytobiorców [Inteligentne ... 2000], - badanie struktury zbioru obiektów [Grabowski 1998], [Lula 1999c], - wspomaganie procesów podejmowania decyzji, - filtracja szeregów czasowych. Algorytmy genetyczne. Algorytm genetyczny służy do rozwiązywania problemów optymalizacyjnych w sposób wzorowany na mechanizmach ewolucji [Go1dberg 1995]. Algorytmy genetyczne mogą być przydatnym narzędziem do rozwiązywania różnorodnych problemów o charakterze ekonomicznym: - analizy i modelowania rynków kapitałowych [Gwiazda 1998], - jako narzędzie wspomagające podejmowanie decyzji inwestycyjnych [Morajda 1997], [Bauer 1994], [Biethahn, Nissen 1995], - w zarządzaniu przedsiębiorstwem [Biethahn, Nissen 1995], - w optymalizacji [Kwaśnicka, Markowska-Kaczmar 1995], [Inteligentne ... 2000]. Drzewa klasyfikacyjne. Drzewa klasyfikacyjne służą do opisu sposobu podziału zbioru obiektów na jednorodne klasy [Gatnar 1998]. Struktura drzewa może zostać przekształcona do postaci reguł określających zasady klasyfikacji obiektów. Podstawowe dziedziny ekonomicznych zastosowań drzew klasyfikacyjnych to: - badania marketingowe [Gatnar 1998], - ocena kredytobiorców [Gatnar 1998], - badania marketingowe [Berty, Linoff 1997], [Kurzydłowski 2000], - systemy wspomagania decyzji. Metody k-najbliższych sqsiadów (wnioskowanie przez analogię). Stosowanie metody k-najbliższych sąsiadów polega na obliczeniu odległości pomiędzy rozpatrywanym punktem (reprezentującym badany obiekt) a punktami pochodzą­ cymi ze zbioru uczącego, a następnie jego zaklasyfikowaniu do tej klasy, do której należy większość spośród jego k-najbliższych sllsiadów. Literatura dostępna w języku polskim z zakresu teorii i zastosowali rozpoznawania obrazów obejmuje m.in.: [Rozin 1979], [Tadeusiewicz 1985], [Jajuga 1990], [Tadeusiewicz, Flasil\ski 1991]..

(8) Paweł. Lula. Do podstawowych możliwości zastosowań rodziny metod k-najbliższych sąsiadów należy zaliczyć: - ocenę i prognozowanie zachowań badanego zbioru obiektów (np. klientów) na podstawie informacji zgromadzonych w bazach danych, - klasyfikację obiektów gospodarczych, - badania marketingowe. Zbiory przybliżone. Metoda zbiorów przybliżonych [Mrózek, Pionka 1999] pozwala na analizę zbiorów obiektów opisywanych przez zbiór cech (atrybutów). Ze względu na przyjęty zbiór atrybutów zbiór obiektów dzielony jest na nierozróżnialne podzbiory, które stanowią podstawę do analizy (aproksymacji, klasyfikacji, opisu zależności pomiędzy atrybutami oraz redukcji atrybutów) innych podzbiorów obiektów. Istotną zaletą stosowania metody zbiorów przybliżonych jest możliwość automatycznego generowania reguł uogólniających wiedzę pozyskaną z analizowanego zbioru danycłl. W dziedzinie ekonomii metoda zbiorów przybliżonych może być przydatna do [Mrózek, Płonka 1999]: - wyceny przedsiębiorstwa, - oceny wniosków kredytowych, - badal\ marketingowych, - systemów wspomagania decyzji, - konstrukcji systemówekspertowych. Metody redukcji wymiaru przestrzeni danycII. W przypadku występowania dużej liczby zmiennych charakteryzujących badane obiekty w wielu przypadkach należy dokonać ich redukcji (w celu wizualizacji, otrzymania modelu o mniejszej liczbie parametrów). Metody redukcji liczby zmiennych można podzielić na dwie grupy. Pierwszą z nich stanowią metody, które pierwotny zbiór zmiennych zastępują nowym, o mniejszej liczbie zmiennych. Do drugiej grupy metod należą procedury pozwalające na wybór najistotniejszych zmiennych spośród ich pierwotnego zestawu. Zestaw narzędzi pozwalających na zredukowanie liczby zmiennych jest bardzo bogaty. Zastąpienie oryginalnego zbioru zmiennych nowym może być przeprowadzone za pomocą: - analizy głównych składowych, - analizy czynnikowej , - skalowania wielowymiarowego ([Biela 1992], [Mirek 1999]), - autoasocjacyjnych wielowarstwowych sieci neuronowych [Lula 1999], - sieci neuronowych uczonych w trybie bez nauczyciela (uogólnione sieci Hebba). Do metod pozwalających na dokonanie wyboru najlepszego zestawu zmiennych spośród ich oryginalnego zbioru można m.in. zaliczyć: - metodę Hellwiga [Pawełek, Zeliaś 1995], - algorytm genetyczny, - zbiory przybliżone..

(9) Data. i możliwości ich zastosowali. ... Metody graficzne. Stosowanie metod wizualizacji danych pozwala na identyfikację prawidłowości występujących w badanych zbiorach danych oraz ułatwia interpretację uzyskanych wyników. W celu rozpoznania prawidłowości wystę­ pujących w badanych zbiorach danych stosuje się: - wykresy statystyczne, - wykresy symboliczne pozwalające na prezentację obiektów opisywanych przez wiele cech, - metody prezentacji szeregów finansowych wypracowane na gruncie analizy technicznej. Metody graficzne stosowane są również do prezentacji uzyskanych rezultatów analiz i przyjmują postać: - map percepcji będących rezultatem zastosowania skalowania wielowymiarowego, analizy korespondencji, analizy głównych składowych, analizy czynnikowej, sieci Kohonena - [Mynarski 1999], [Walesiak 1996], [Badania ... 1992], [Inteligentne ... 2000], [Visual ... 2000], - dendrogramów przedstawiających sposób podziału badanego zbioru obiektów [Metody ... 1988], [GrabiIIski, Wydymus, Zeliaś 1989], [Grabiński 1992] , - graficznych form prezentacji zależności między zmiennymi, - prezentacji szeregów czasowych. Metody hybrydowe. Złożoność badanych procesów sprawia, że zastosowanie jednej metody nie zawsze pozwala na przeprowadzenie badań o charakterze całościowym. Z tego powodu często budowane są narzędzia o charakterze hybrydowym - łączące dwie lub większą liczbę różnych metod. Klasyfikacja, charakterystyka i możliwości zastosOWali tego typu narzędzi zostały przedstawione w pracy [Inteligentne ... 2000]. Szereg wartościowych informacji z tego zakresu prezentują również autorzy prac [Rutkowska, Piliński, Rutkowski 1997] oraz [Gwiazda 1998].. 4.. Narzędzia. reallzacll analiz typu Da'a MIning. Przeprowadzanie analiz typu Data Mining wymaga zastosowania zaawansowanych narzędzi programowych. Obecnie tego typu programy wchodzą w sk.ład lub mogą bezpośrednio współpracować z większością systemów baz danych i programów służących do analizy danych. Do czołowych reprezentantów programów do przeprowadzania analiz Data Mining należy zaliczyć: - SAS Enterprise Miner (http://www.sas.com). - IBM DB2 Intelligent Miner (http://www.ibm.com). - Oracle Darwin (http://www.oracle.com). - SPSS Clementine (http://www.webmining.pl/index.html. http://www.spss.com). - STATISTICA rodzina programów firmy StatSoft (http://www.statsoft.pl)..

(10) Paweł. Lula. Wymienione programy tworzą cal ościowe środowiska pozwalające na dostęp do danych. selekcję i wstępną analizę informacji. przeprowadzenie obliczeń i utworzenie modeli. wizualizację. zastosowanie uzyskanych rozwiązań. Opis wielu innych narzędzi analizy danych oraz szereg materialów z zakresu Data Mining znaleźć można również pod adresami : (http://www.kdnuggets.com oraz http://www.twocrows.com . Literatura. AzoffE.M. [1994]. New"al Network Time Series Forecastillg ol Filllll.cial Markets, John Wiley & Sons. Badallia marketingowe. Metod)' i oprogramowallie komputerowe [1992] , 1. Bazarnik. T, Grabiński, E. Kąciak, S. Mynarski, A. Sagan. Canadian Consortium of Management Schools i Akademia Ekonomiczna w Krakowie, Kraków-Warszawa.. Baestaens D.E" van den Bergh W.M., Wood D. [1994]. Neural Nehvork Solwiollslor Tradillg in Finallcial Markets, Pitman Pbl., London. Bauer R.J. [1994]. Genetic Algorilhms alld Investmellt Strotegies. John Wiley & Sons. Inc. Berry M.J .A .• Linoff G. [1997]. Data Milling Teclilliques For Marketillg. Sales alld OlS/omer Support, Wiley Computer Pbl. Bialasiewicz J .T. [2000]. Falki i aproksymacje. WNT. Warszawa . Biela A . [1992], Skalowanie wielowymiarowe jako me/oda badmi naukowych. ThwarzysLwo Naukowe KUL, Lublin. Biethahn J., Nissen V. [t 995]. Evoliltioliary Algoritlillis ili Maliagemelll Applicaliolis, Springer-Verlag. Biocybemetyka i iliżYliieria biomedyczna 2000 [2000], pod red. M. Nałęcza. t. 6. Sieci neuronowe, Akademicka Oficyna Wydawnicza Exit, Warszawa. Decyzje. Symulacje. Sieci lieuroliowe [I 997], pod red. M. Rymarczyka. Wydawnictwo Wyższej Szkoly Bankowej, Poznań. Gatnar E. [1997]. Data millillg: metody i zastosowania, Taksonomia, Sekcja Klasyfikacji i Analizy Danych PTS. z. 4. Wydawnictwo Akademii Ekonomicznej we Wroclawiu. Gatnar E. [1998]. Symboliczlie metody klas)fikacji daliych, Wyd. Naukowe PWN, Warszawa. Goldberg D. [1995], Algorytmy gelietyczlie i ich zastosowaliia, WNT. Warszawa. Grabiński T., Wydymus S.. Zeliaś A. [1989] Metody taksonomii HLlllleJycznej w modelowaniu zjawisk spo/ecZlio-gospodarczych. PWN, Warszawa. Grabiński T. [1992], Metody taksoliometrii, AE w Krakowie, Kraków. Grabowski M. [1997] , Zastosowanie samoorganizujących się map cech Ko/zol/ena tv mUł­ lizie daliych. Sekcja Klasyfikacji i Analizy Danych PTS. z. 4. I. Grabowski M. [1998]. Sieci neuronowe. HI. analizie danych. społeczno - eko nomic znych,. maszynopis pracy doktorskiej. AE w Krakowie. Kraków. Gwiazda T. [1998], AlgO/ytmy gelietyczne. Zmlosowaliia w filia liSach , Wydawnictwo Wyższej Szkoly Przedsiębiorczości i Zarządzania im. L. Kożmińskiego. Warszawa, Heidsieck C" Uhr W. [2000]. Systemalizilig alid Evalualilig Data Miliilig Methods [w:] Classificatioll mul /lljormation ProcessilIg at f/w Tum oj the MUle/mil/m, R, Decker, W. Gaul (red.l. Springer-Verlag. Heidelberg. IliIeligelillie systemy w zarzqdzaliiu. Teori" i praktyka [2000], pod red. J. Zieliliskiego, Wyda\vnictwo Naukowe PWN. Warszawa. 2000. Jajuga K. [1990] , Statystyczna teoria 1'OzpOZnawlllł;a obrazów, PWN , Warszawa. Jajuga K. [ł993] .Staty,rtycviO analiza wielowymiarowa, Wyd . Nfiukowe PWN. Warszawa..

(11) Data. i możliwości ich zastosowmi. ... Kurzydlowski A. [2000], Zastosowanie drzew klasyfikacyjnych. li'. segmelltacji rynku , Sekcja. Klasyfikacji i Analizy Danych PTS, Taksonomia, z. 7, Wyd . AE we Wrocławiu, Wrocław. Kwaśnicka H., Markowska-Kaczmar U. [1995], Zastosowanie algorytmów genetycznych IV problemach optymalizacyjnych, "Informatyka", nr 3.. Lula P. [1999a], Jednokierunkowe sieci neuronowe. \II. modelowaniu zJawisk ekollomicZ/lych,. Wyd. AE w Krakowie, Kroków. Lula P. [I 999b] , Metody eksploracyjnej analizy danych i możliwości ich zastosowmi, Materialy konferencyjne nt. Strategia Systemów Informacyjnych, AE w Krokowie, Kraków.. Luln P. [1999c], Sieci neuronowe , Materiały na seminarium organizowane przez StatSoft Polska Sp. z 0.0.14.10.1999 r. w Warszawie, StatSoft Polska, Kraków.. Metody taksollomiczne IV badaniach spoleczno-ekonomicznych [1988],1. Pociecha, B. Podolec, A. Sokolowski, K. Zając, PWN, Warszawa. Mirek 1. [1999]. Skalowanie wielowymiarowejoko metoda segmentacji ryllku [w:] [Zasto-. sowanie ... 1999] . Morajda 1. [1997]. Algorytmy genetyczne oraz możliwości ich zastosowmi w systemach decyzyjnych, Materialy z XXXI![ Konferencji Statystyków, Ekonometryków, Matematyków Polski Poludniowej oraz XV Seminarium Ekonometrycznego im. Profesora Zbigniewa P awło wskiego , Wyd. AE we Wrocławiu, Wroclaw. Mrózek A., Pionka L. [1999], Allaliza dallYc/lmetodą zbiorów przybliiollych. Zastosowania w ekonomii. medycynie i sterowaniu, Akademicka Oficyna Wydawnicza PLl, Warszawa. Nellral Networks ill Ihe Capi tal Market" [1995]. A.P. Refenes (red.), 10hn Wilcy & Sons. Osowski S. [1996], Sieci neuronowe \II ujęciu algorytmicznym , WNT, Warszawa.. Pawełek. B. Zeliuś A. [1995], Proste metody oceli)' ważności zmienl1ych diagllostycznyc" IV bada/liach takso/lomicznych , "Polia Oeconomica Cmcoviensia", Vol. XXXVII-XXXVIll t. (1994-1995). Percival D.B., Wajdon A.T. [2000], Wa"ele' Meth ods for Time Series Allalysis, Cambridge. Series in Slatistical and Probabilistic Methematics, Cambridge University Press. Prog/lozowallie gospodarcze. Metody i zastosowallia [1997]. pod red. M. Cieślaka, Wyd. Naukowe PWN, Warszawa.. Rozin B.B. [1979], Teoria rozpoznawania obrazów tv badaniach ekoJlomiC<.lIych. PWN, Warszawa. Rojas R. [1996]. Nellral Networks. A Systematic IlItrod/lclioll, Springer-Verlag. Rutkowska D., PiJiński M .. Rutkowski L. [1997]. Sieci lIe/lrollowe, algorytmy gelletycZlle i systemy rozmyte, Wyd. Naukowe PWN, Warsza wa. StatSoft, Inc. [1997]. STATISTICAfor Willdows [Colllp/lter Program MaIlItal]. Tulsa. Szobntin J. [2000] , Podstawy teorii sygnalów, Wydawnictwa Komunikacji i Łączności , Warszawa. Tndeusiewicz R. [1985], Rozpozna wanie obrazów w l.(lSIOsown1z;ach ekonomicznych, AE w Krakowie, Kraków, radeusiewicz R., Plasiński M. [1991], RozpoZ/lalVallie obrazów, Wyd. Naukowe PWN, War-. szawa. Tadeusiewicz R. [1993], S;eci neuronowe, Akademicka Oficyna Wydawnicza RM, Warszawa. Talago L., Zieli liski Z. [1986], Allaliza spektrailICI IV modelowalliu ekollometrycZllym , PWN,. Warszawa. Theil H. [1979]. Zasady ekollomelrii, PWN, Warszawa. Trippi R., Turban E .. [1993]. Neural Network" in FilIalIce alld IIlvestillg, Probus Pbl. Co. Vis/wl Exploratiolls in Finance wilII Self-Organizitlg Mops [2000]. G. Deboeck, T. Kohonen (Eds), Springer-Verlag, London . Wolesiak M. [1996]. Metody allalizy dallych marketillgowych, WycI. Naukowe PWN, War-. szawa..

(12) Pawel Lula. Wycella. lIieruchomości i przedsiębiorstw. [1997], A. Hopfer (red.), t. l, SwcolVallie lIieru-. cllOt1loici, Twigger SA. Warszawa . Zając Z1jąC. K. [1985], Wyk/ady" statystyki, AE w Krakowie, Kraków. K. [1988], Zell)'S metod statystycznych, PWE, Warszawa. Zarządzanie iI/formacją i komunikacją. lilgc/dllienia wyhrmlC w świetle studiów i badmi empirycwych [2000], pod red. Z. Martyniaka, Wyd. AE w Krakowie, Kraków. Zllstosowallie metod wielowymiarowych w badaniach segmentacji i selektywności rynku [1999]. pod red. S. Mynarskiego, Wyd. AE w Krakowie, Kraków. Zelin! A. [1997], Teoria progIlOZ)', PWE, Warszawa.. Data M/n/ng Methods and Possibllltles ol Thelr Appllcations In Economy The sludy describes a general characteristic of the group of data min ing techniques (used in data exploration processes) and presenls Ihe basic methods. The possibilities or ulilization of data mining methods, wilh (he emphasis on economic applications, have been discussed. At fhe e nd or Ihe paper, Ihe basic software lools supporting data exploralion process have. been presented..

(13)

Cytaty

Powiązane dokumenty

Tak spełniło się słowo Pańskie wypowiedziane przez usta Jeremiasza: D o k ą d kraj nie wywiąże się ze swoich szabatów, będzie leżał odłogiem .... Dopóki nie

„Sferę niewi- dzialną: egzotyczne kraje, inne społeczeństwa, dziwne klimaty&#34; (s. 52), przeszłość i teraźniejszość, słowem „ogrom wszechświata&#34; sprowadzo- ny

Poprad sa v po- sledných desaťročiach vďaka cudzineckému ruchu stal výrazne kozmopolitným mestom, na druhej však práve z tohto dôvodu jeho snahy smerujú k

For the given Gaussian distributions for each cluster, compute the probabilities of belonging of data points to particular clusters.. The closer a point is to the Gaussian’s center,

For the given Gaussian distributions for each cluster, compute the probabilities of belonging of data points to particular clusters.. The closer a point is to the Gaussian’s center,

odkrycie cennej informacji, wzorców i wiedzy ukrytych w dużych ilościach danych zgromadzonych przez systemy informatyczne. Czyszczenie i

Term in „churn” jest stosowany w branży telekomunikacyjnej i oznacza odejście klientów do konkurencyjnych operatorów sieci kom órkow ych. W praktyce może

Stel gegeven twee zwak stationaire random processen (xk(t)) en (yk(t)) Deze processen zijn zwak ergodisch, indien de gerniddelde waarden en de kovariantie funkties, gedefinieerd