• Nie Znaleziono Wyników

Zagadnienia eksploracji danych i odkrywania wiedzy w świetle literatury

N/A
N/A
Protected

Academic year: 2021

Share "Zagadnienia eksploracji danych i odkrywania wiedzy w świetle literatury"

Copied!
10
0
0

Pełen tekst

(1)

ZAGADNIENIA EKSPLORACJI DANYCH I ODKRYWANIA WIEDZY W ŚWIETLE LITERATURY

PIOTR SULIKOWSKI, DOMINIK TURZYŃSKI, TOMASZ ZDZIEBKO Streszczenie

Artykuł ma charakter przeglądowy, jego celem jest analiza wybranych aspektów eksploracji danych i odkrywania wiedzy w kontekście ich rosnącej roli w społeczeń-stwie informacyjnym. Przeanalizowano podejścia różnych badaczy do najważniej-szych pojęć w eksploracji danych, podjęto się konfrontacji interpretacji etapów pro-cesu KDD proponowanych przez wybranych specjalistów, analizując metodologię CRISP-DM, regułową reprezentacją wiedzy i zadania eksploracji danych.

Słowa kluczowe: eksploracja danych, odkrywanie wiedzy, reprezentacja wiedzy Wprowadzenie

Problemy eksploracji danych (DM – ang. Data Mining) i odkrywania wiedzy (KDD – ang. Knowledge Discovery in Databases) to niezwykle istotne zagadnienia dla współczesnego społeczeń-stwa informacyjnego, w którym informacja pełni nową, kluczową rolę. Jest to rola szczególnego dobra niematerialnego, co najmniej równoważnego dobrom materialnym, którego przetwarzaniem zajmuje się rosnąca liczba zawodowo czynnych osób.

W każdym projekcie eksploracji danych niezależnie od funkcji, jakie ona pełni, dąży się do odkrycia i wykorzystania pewnych cech zawartych w danych. Początkowo cechy te są niewidoczne, a zatem właściwie przeprowadzony proces eksploracji pozwolić może pozyskać nowe informacje i poprawić funkcjonowanie wdrażającej go organizacji – lepiej zrozumieć swoją działalność, jak i funkcjonowanie otoczenia. Eksploracja danych z powodzeniem wykorzystywana bywa np. do seg-mentacji klientów, określania wiarygodności finansowej, wykrywania sytuacji nietypowych pod względem bezpieczeństwa, odkrywania reguł zachowania się klientów czy wspomagania diagno-styki medycznej.

Odkrywana wiedza ma ogromne znaczenie w społeczeństwie, w którym informacja traktowana jest jako jedno z najcenniejszych dóbr. Wiedząc na przykład, jak klient najprawdopodobniej za-chowa się w określonym czasie w przyszłości, firma może podjąć pewne decyzje marketingowe oparte na tej wiedzy, np. zaoferować rabaty wartościowym klientom należącym do grupy skłonnych do odejścia [11, s. 47]. Wszechstronne zrozumienie klienta pozwala na lepszą jego identyfikację, pozyskanie i utrzymanie, a zatem ma bezpośrednie przełożenie na przychody [27, s. 46]. Podobnie w przypadku diagnozy medycznej możliwość uwzględnienia bardzo szerokiego spektrum danych może pozytywnie wpłynąć na proces terapeutyczny. Stosowanie eksploracji danych pozwala podej-mować lepsze i bardziej proaktywne decyzje poprzez uczenie się z przeszłości, zrozumienie teraź-niejszości i przewidywanie przyszłości [22].

Niniejszy artykuł ma charakter przeglądowy i jego celem jest usystematyzowanie najważniej-szych zagadnień z obszaru eksploracji danych i odkrywania wiedzy. Podjęto się próby konfrontacji podejść wiodących badaczy zajmujących się tą tematyką, pochylając się nad takimi istotnymi aspek-tami KDD i DM jak interpretacja etapów badań, metodologia CRISP-DM, reprezentacja wiedzy czy zadania eksploracji danych.

(2)

1. Eksploracja danych a odkrywanie wiedzy

Eksploracja danych (ang. data mining) to według definicji Gartner, wiodącej globalnej agencji badawczo-konsultingowej, „proces odkrywania znaczących powiązań, wzorców lub tendencji po-przez dokładne badanie dużych ilości danych przechowywanych w repozytoriach. Data mining wy-korzystuje techniki rozpoznawania wzorców, jak też metody statystyczne i matematyczne” [26, s. 99]. Eksploracja bywa nazywana zgłębianiem, drążeniem, ekstrakcją lub wydobywaniem danych. Wy-daje się, że dwa ostatnie określenia nie są jednak najbardziej trafne, gdyż mogą sugerować zwykłe pobieranie danych z bazy, a nie ich twórczą analizę.

Wielu autorów, jak np. Hand et al. [16, s. 37], Cios et al. [5, s. 3–5, 14] czy Stefanowski [25, s. 2], obecnie traktuje eksplorację danych jako pojęcie węższe, a mianowicie jeden z etapów odkry-wania wiedzy w bazach danych KDD (ang. Knowledge Discovery in Databases), na którym to two-rzy się model analizowanego zjawiska. Podejście to wykształciło się już w 1996 roku, a objaśnienie jego zasadności stanowi jedną z głównych treści artykułu Fayyada et al. [12]. W duchu ich interpre-tacji można powiedzieć, że eksploracja danych niejako służy odkrywaniu wiedzy, które według de-finicji Frawleya et al. zawartej w [15, s. 40] jest „nietrywialnym procesem wydobywania ukrytych, wcześniej nieznanych i potencjalnie użytecznych informacji ze zbiorów danych”. Nieco inaczej uj-mują odkrywanie wiedzy Fayyad et al. w [13, s. 6] – jako „nietrywialny proces identyfikowania obowiązujących, wcześniej nieznanych, potencjalnie użytecznych i ostatecznie zrozumiałych wzor-ców z danych”.

Niektórzy, np. Soman et al., bardzo ściśle wiążą ze sobą wyjaśniane powyżej pojęcia, twierdząc, że „data mining stanowi sedno odkrywania wiedzy” [24, s. 2]. Inni naukowcy, jak Lloyds-Williams [19, s. 140], eksploracją danych nazywają jedno z możliwych podejść do odkrywania wiedzy. Podejście to charakteryzuje się tym, iż w procesie analizy wykorzystywany jest komputer, m.in. ze względu na ogromne ilości przetwarzanych danych. Lloyds-Williams dodaje, że pewni autorzy trak-tują określenia „eksploracja danych” i „odkrywanie wiedzy” jako synonimiczne i używają ich za-miennie; potwierdzają to Berry i Linoff [2, s. 8], preferując jednak określenie „tworzenie wiedzy” [ang. knowledge creation] zamiast jej „odkrywania”.

Prawdopodobnie opisana niejednoznaczność pojęciowa wynika z trudności, jakich może na-stręczać uznanie, w którym miejscu kończy się drążenie danych, a zaczyna odkrywanie wiedzy. Autorzy przychylają się do popularnego w sztucznej inteligencji podejścia rozróżniającego te poję-cia tak, jak to czynią przywoływani wcześniej Fayyad et al., mimo że metody data miningu (lub przynajmniej ich elementy) często są stosowane na wielu etapach procesu odkrywania wiedzy.

Podobnie pojęcie kilkakrotnie już użyte, a mianowicie „wiedza”, jest w literaturze definiowane w rozmaity sposób. Za klasyczną uznaje się definicję przypisywaną Platonowi: „wiedza to praw-dziwe i (odpowiednio) uzasadnione przekonanie” [18, s. 140]. W kontekście ekonomicznym można mówić o wiedzy jako efekcie pewnych transformacji informacji uzyskanych ze zgromadzonych da-nych: „dane (aktualny stan świata) są zamieniane na informacje (wskaźniki dostępne dla jednostek podejmujących decyzje), a następnie na wiedzę (na skutek przetwarzania informacji w modelach analitycznych przez jednostki obliczeniowe)”, jak pisze Drelichowski w [9, s. 13]. Według Pawlaka zaś [21, s. 2] „wiedza opiera się na umiejętności klasyfikowania obiektów, przy czym przez obiekty rozumiemy cokolwiek, o czym można pomyśleć, np. przedmioty rzeczywiste, stany, pojęcia abstrak-cyjne, procesy, momenty czasu itd.”.

W wielu publikacjach różnice pomiędzy pojęciami danych, informacji i wiedzy zacierają się, dlateg warto przypomnieć ich znaczenie, tym bardziej że można mówić o wyraźnej hierarchii zw.

(3)

DIKW (ang. Data, Information, Knowledge, Wisdom), zaproponowanej w pełnej postaci po raz pierwszy przez Zelenego [28]. Piramidę symbolizującą tę hierarchię przedstawiono na Rysunku 1.

Rysunek 1. Piramida DIKW Źródło: [28].

Wiedza ma pozycję nadrzędną w stosunku do danych, jak i informacji, a podrzędną jedynie wobec mądrości. „Dane definiuje się jako niepołączone ze sobą fakty. Poprzez informacje rozu-miemy te dane, które zostały poddane kategoryzacji i klasyfikacji lub w inny sposób zostały upo-rządkowane. Natomiast wiedza oznacza uporządkowane i »oczyszczone« informacje. Powstaje ona dopiero po wyciągnięciu wniosków z dostępnych danych i informacji. Posiadanie bogatej wiedzy na dany temat prowadzi zaś do mądrości. Mądrość oznacza więc użycie wiedzy w praktyce” [17]. Należy pamiętać, że istnieją różne odmiany wiedzy – szerokie omówienie typologii prezentuje m.in. Drelichowski [9, s. 14–17].

2. Zadania eksploracji danych

W literaturze wyróżnia się kilka podstawowych funkcji, bądź inaczej zadań, realizowanych przy pomocy eksploracji danych. Berry i Linoff [2, s. 8 12] wyróżniają przykładowo zadania: klasyfika-cji, estymaklasyfika-cji, predykklasyfika-cji, poszukiwania asocjaklasyfika-cji, grupowania (klasteryzacji) oraz opisu i profilowa-nia, twierdząc, że większość problemów natury intelektualnej, ekonomicznej i biznesowej da się ująć w ich ramach.

Trzy pierwsze zadania to przykłady tzw. data miningu ukierunkowanego (ang. directed data mining), w którym interesujący nas efekt został już zaobserwowany i zapisany w badanym zbiorze

(4)

danych, na podstawie którego budowany jest model. Z kolei badanie asocjacji i grupowanie to za-dania tzw. data miningu nieukierunkowanego (ang. undirected data mining), gdzie poszukuje się pewnych struktur w danych, np. określa tzw. skupiska.

Inną popularną klasyfikację kategorii zadań data miningu proponują Hand et al. [16, s. 46 51]: ▪ eksploracyjna analiza danych – celem jest zgłębianie danych bez konkretnych założeń co do

pożądanych efektów,

▪ modelowanie opisowe – ma na celu opisanie wszystkich danych, np. poprzez dokonanie ich podziału na grupy (klasteryzacja),

▪ modelowanie predykcyjne: klasyfikacja i regresja – celem jest budowa modelu, pozwalającego przewidywać wartość pewnej zmiennej zależnej (inaczej zmiennej objaśnianej lub decyzyjnej) na podstawie wartości zmiennych niezależnych (inaczej zmiennych objaśniających lub pre-dyktorów),

▪ odkrywanie wzorców i reguł – pozwala wykrywać pewne regularności w danych, podobień-stwa w zachowaniu się obiektów, czy też wykrywać sytuacje nietypowe,

▪ wyszukiwanie według zawartości – gdzie badacz dysponuje pewnym szczególnym wzorcem (np. tekstowym), który chciałby szybko odnaleźć w zbiorze danych.

Do realizacji tych zadań stosuje się wiele różnych metod modelowania, m.in. algorytm k-naj-bliższych sąsiadów, algorytmy genetyczne, drzewa decyzyjne, grupowanie hierarchiczne i metodą k-średnich, regresję liniową, regresję logistyczną, reguły asocjacyjne, sieci bayesowskie, sztuczne sieci neuronowe czy zbiory przybliżone. Nie można wskazać najlepszych z nich, gdyż w każdym przypadku wybór powinien zależeć od szczegółów związanych z problemem; np. dla problemu kla-syfikacji trzeba by wziąć pod uwagę m.in. strukturę danych, wykorzystywane charakterystyki, za-kres w jakim można rozdzielić klasy czy też cel analizy.

Różnorodność realizowanych zadań eksploracji pozwala kompleksowo wspomagać funkcjono-wanie organizacji, a w konsekwencji i społeczeństwa informacyjnego. Dane gromadzone w syste-mach komputerowych stają się przydatne, ponieważ wykorzystywane są do konkretnych analiz, po-magających zrozumieć badane zjawiska. Można dzięki nim tworzyć modele, które pozwolą np. na lepszy wybór grupy docelowej nowej kampanii marketingowej, bądź wskażą, do jakich klientów można kierować oferty w ramach sprzedaży krzyżowej (ang. cross-selling) czy dodatkowej (ang. up-selling). Eksploracja danych z powodzeniem wykorzystywana jest do segmentacji klientów, ich benchmarkingu, odkrywania reguł zachowania się klientów, np. w kontekście ich utrzymania i re-zygnacji, czy też wykrywania sytuacji odbiegających od standardowych.

3. Odkrywanie wiedzy w bazach danych

Dzięki eksploracji danych możliwe staje się stworzenie nowej jakości – wykrycie pewnych pra-widłowości, które początkowo, przed dokonaniem analiz, trudno byłoby spostrzec – za pomocą technik modelowania i zbierania danych, możliwe staje się quasi-inteligentne przewidywanie sytu-acji i zachowań. Wiedząc, jak klient najprawdopodobniej zachowa się, można podjąć decyzje oparte na tej wiedzy, np. w firmie zaoferować rabaty utrzymaniowe klientom należącym do grupy najbar-dziej skłonnych do odejścia [11, s. 46–47]. Wg Phelan [22] dzięki zrozumieniu dotychczasowych zachowań klientów zyskuje się możliwość swoistego zarządzania przyszłością, utrzymywania sa-tysfakcji klientów oraz zapewnienia stabilności i wzrostu przychodów. Stosowanie eksploracji da-nych pozwala podejmować lepsze i bardziej proaktywne decyzje poprzez uczenie się z przeszłości, zrozumienie teraźniejszości i przewidywanie przyszłości.

(5)

Aby uzyskać wiedzę z danych należy zrealizować kolejne fazy procesu KDD, m.in. eksplorację danych jako taką. W literaturze spotkać można różne podziały procesu odkrywania wiedzy na etapy – np. u Simoudisa [23], Mannili [20], Fayyada et al. [14], Brachmana i Ananda [3]. Interesujące zestawienie porównawcze przygotowali Andrássyová i Paralič [1, s. 97] – zobacz Tabela 1. Kolorem ciemnoszarym oznaczono etap właściwej eksploracji danych, a jasnoszarym etap wcześniejszego przygotowania danych (w szczególności chodzi o redukcję zbioru danych), który w niektórych me-todach może być elementem właściwej eksploracji.

Tabela 1. Etapy procesu KDD według wybranych autorów Simoudis

[23] Mannila [20] Fayyad et al. [14]

Brachman i Anand

[3] poznanie dziedziny poznanie dziedziny zasto-sowania wykrycie zadania selekcja danych stworzenie docelowego zbioru danych wykrycie danych

transformacja danych przygotowanie zbioru da-nych

oczyszczanie danych i przetwarzanie wstępne oczyszczanie danych redukcja i odwzorowanie danych budowa modelu wybór funkcji eksploracji

danych

eksploracja danych wykrywanie regularności (eksploracja danych)

wybór algorytmów eksploracji danych

analiza danych eksploracja danych

interpretacja wyników przetwarzanie końcowe wykrytych regularności interpretacja generacja wyniku wykorzystanie wyników wykorzystanie odkrytej wiedzy

Źródło: [1].

Oczywiście oprócz zautomatyzowanego przetwarzania danych, możliwe jest także przetwarza-nie manualne. Należy jednak podkreślić za Fayyadem et al. [14, s. 28], że przetwarzaprzetwarza-nie ręczne jest alternatywą powolną, kosztowną i dającą często wysoce subiektywne rezultaty. W wielu dziedzi-nach zautomatyzowane podejście KDD jest bardziej celowe również dlatego, iż przetwarzanie ręczne stało się zupełnie niepraktyczne w związku z ogromną ilością przetwarzanych danych. Me-tody odkrywania wiedzy można uznać za odpowiedź nauki i technologii na wzrost złożoności pro-blemów stojących przed społeczeństwem informacyjnym.

(6)

W związku z tą złożonością i różnorodnością problemów, a także mnogością wypracowanych podejść do ich rozwiązywania w KDD, w latach dziewięćdziesiątych XX wieku pojawiła się po-trzeba uniwersalnego wzorca realizacji procesu odkrywania wiedzy z danych, niezależnego „od ro-dzaju przemysłu, narzędzia i oprogramowania” [8, s. 5]. Takim wzorcem stała się metodologia CRISP-DM (ang. Cross-Industry Standard Process for Data Mining), koncepcja została stworzona w 1996 roku przez DaimlerChrysler, SPSS i NCR, rozwijana przy współfinansowaniu Komisji Eu-ropejskiej. Proces CRISP DM składa się z 6 faz, przedstawionych na Rysunku 2, i ma systema-tyczny, iteracyjny charakter [7].

zrozumienie uwarunkowań biznesowych zrozumienie danych przygotowanie danych modelowanie ewaluacja implementacja dane

Rysunek 2. Etapy procesu KDD Źródło: [6].

Sekwencja faz w procesie nie została ściśle określona, ponieważ wyniki otrzymane podczas pewnego etapu powinny być brane pod uwagę w przyszłości, a ponadto mogą one powodować ko-nieczność zmian w etapach wcześniejszych – w celu uzyskania jak najlepszych rezultatów analiz. Zewnętrzne strzałki symbolizują cykliczny charakter procesu, a strzałki wewnątrz okręgu wskazują

(7)

na najczęstsze zależności pomiędzy poszczególnymi etapami. Oto krótka charakterystyka każdej z faz [7, s. 13–14]:

▪ zrozumienie uwarunkowań biznesowych – obejmuje poznanie celów i wymagań projektu od strony biznesowej (przedmiotu badań), a następnie przekształcenie uzyskanej wiedzy w definicję problemu eksploracji danych i stworzenie wstępnego planu działania;

▪ zrozumienie danych – na tym etapie następuje wstępne gromadzenie danych, zapoznanie się z nimi, identyfikacja problemów związanych z ich jakością, wykrywanie interesujących podzbio-rów, tak aby móc sformułować pewne hipotezy co do ukrytej wiedzy;

▪ przygotowanie danych – obejmuje wszystkie działania zmierzające do skonstruowania osta-tecznego poddawanego analizom zbioru danych, w tym: selekcję danych (tzn. wybór tabel, obiektów czy też istotnych zmiennych), oczyszczanie i transformację danych;

▪ modelowanie – w tej fazie wybierane są metody modelowania i kalibrowane ich parametry; ponieważ niektóre metody mają specjalne wymagania co do danych, często niezbędny jest powrót do fazy przygotowawczej;

▪ ewaluacja – tu następuje dokładna ocena modelu i przeprowadzonych działań, aby zapewnić właściwą realizację postawionych wcześniej celów; decyzja co do wykorzystania wyników eksplo-racji danych powinna zostać podjęta;

▪ implementacja – odkryta dzięki poprzednim fazom wiedza zwykle musi być zorganizowana i zaprezentowana w sposób właściwy dla końcowego użytkownika; przykładem realizacji tej fazy może być stworzenie raportu z analiz lub wdrożenie powtarzalnego procesu eksploracyjnego.

W opisie ostatniej fazy podkreślono, że wiedza powinna być właściwie „zorganizowana i za-prezentowana”. Wydaje się to bardzo istotne i zgodne niejako z samą definicją odkrywania wiedzy według Fayyada et al., gdzie wiedza miała być m.in. „ostatecznie zrozumiała” [13, s. 6]. Fakt, iż wykryta wiedza powinna być przedstawiana w łatwo zrozumiały dla człowieka sposób, w języku wysokiego poziomu, podkreślali zresztą już wcześniej Frawley et al. [15, s. 5, 21].

Jako przykład najdogodniejszej i najbardziej zrozumiałej reprezentacji wiedzy Cios et al. [5, s. 3] podają reguły produkcyjne typu JEŚLI-TO (ang. IF-THEN), wykorzystujące słowa z języka naturalnego. Wczesnym przykładem systemu eksperckiego opartego na regułach był stworzony już w 1968 r. DENDRAL Buchanana et al. [4]. Hand et al. [16, s. 484–485] podają, że „reguła składa się z lewostronnego zdania (poprzednika lub warunku) oraz z prawej strony następstwa, na przykład »Jeśli pada deszcz, ziemia będzie mokra«. Zarówno lewa, jak i prawa strona składają się z boolow-skich (prawdziwych lub fałszywych) stwierdzeń (lub zdań) o świecie”. Obie strony reguły z natury mają zatem dyskretny charakter. Jak zauważają badacze, można jednak rozszerzyć reguły na zmienne przyjmujące wartości ciągłe, dzieląc je na „kwanty o wartościach dyskretnych”.

Reguły rozważać można w kategoriach deterministycznych, jak i probabilistycznych. Reguła o charakterze deterministycznym mówi, że jeśli lewa strona jest prawdziwa, to strona prawa także jest prawdą. Reguła o charakterze probabilistycznym zaś mówi, iż „prawa strona jest prawdą z prawdopodobieństwem p, jeśli lewa strona jest prawdą – prawdopodobieństwo p jest po prostu warunkowym prawdopodobieństwem tego, że prawa strona będzie prawdą pod warunkiem, że lewa strona jest prawdą” [16, s. 484–485]. Reguły mają długą historię zastosowania w modelowaniu poznawczym, metodach sztucznej inteligencji, a ich sposób reprezentacji wiedzy, jak zauważają Duce i Ringland [10, s. 8], uznaje się za klasyczny.

(8)

4. Podsumowanie

W artykule zaprezentowano wyniki porównawczego przeglądu literatury związanej z eksplora-cją danych i odkrywaniem wiedzy oraz wskazano na ich rolę w społeczeństwie informacyjnym. Podjęto się konfrontacji podejść różnych badaczy zajmujących się omawianymi problemami, w za-kresie najważniejszych pojęć, w tym m.in. w zaza-kresie interpretacji etapów procesu KDD i eksplo-racji danych, a także odniesiono się do popularnej metodologii CRISP-DM. Porównawcze ujęcie wybranych aspektów eksploracji danych i odkrywania wiedzy dzięki szerokiemu przeglądowi lite-ratury ułatwia wypracowanie własnego podejścia badaczowi planującemu stosować KDD, które w dobie społeczeństwa informacyjnego jest potrzebne w coraz to nowych obszarach. Przedstawione rozważania mogą stanowić punkt wyjścia do dalszych badań dla specjalistów zainteresowanych rolą eksploracji danych i odkrywania wiedzy w społeczeństwie informacyjnym.

Bibliografia

[1] Andrássyová E., Paralič J., Knowledge Discovery in Databases – A Comparison of Different Views. „Journal of Information and Organizational Sciences” 2000, Nr 23(2), s. 95–102. [2] Berry M.J.A., Linoff G.S., Data Mining Techniques For Marketing, Sales, and Customer

Relationship Management. 2nd Edition. Indianapolis, IN: Wiley Publishing., 2004.

[3] Brachman R., Anand T., The Process of Knowledge Discovery in Databases: A Human-Centered Approach. In: Fayyad U.M., Piatetsky-Shapiro G., Smyth P., Uthurusamy R. (eds.): Advances in Knowledge Discovery and Data Mining. Cambridge, MA: AAAI/MIT Press, 1996, s. 37–58.

[4] Buchanan B.G., Sutherland G.L., Feigenbaum E.A.: Heuristic DENDRAL: a program for generating explanatory hypotheses in organic chemistry. In: Meltzer B., Michie D. (eds.): Machine Intelligence 4. Proceedings of the Fourth Annual Machine Intelligence Workshop, Edinburgh, 1968. Edinburgh: Edinburgh University Press, 1969, s. 209–254.

[5] Cios K.J., Pedrycz W., Swiniarski R.W., Kurgan L.A., Data Mining: A Knowledge Discovery Approach. Secaucus, NJ: Springer-Verlag New York, 2007.

[6] CRISP-DM – Process Model [online]. Dostępny w Internecie: <http://www.crisp-dm.org/Process/index.htm>.

[7] CRISP-DM 1.0. Step-by-step data mining guide [online]. CRISP-DM Consortium, 2000. Źródło: http://www.crisp-dm.org/CRISPWP-0800.pdf, Dostęp: [15-04-2018].

[8] D.T. Larose, Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych. Warszawa: Wydawnictwo Naukowe PWN, 2006.

[9] Drelichowski L., Podstawy inżynierii zarządzania wiedzą. Bydgoszcz: Polskie Stowarzyszenie Zarządzania Wiedzą, 2004. Studia i Materiały Polskiego Stowarzyszenia Zarządzania Wiedzą, t. 1.

[10] Duce D., Ringland G.: Background and Introduction. In: Ringland G.A., Duce D.A. (eds.): Approaches to Knowledge Representation: An Introduction. New York: John Wiley, 1988, s. 1–12.

[11] Dyché J., CRM. Relacje z klientami. Gliwice: HELION, 2002.

[12] Fayyad U., Piatetsky-Shapiro G., Smyth P., From Data Mining to Knowledge Discovery in Databases. “AI Magazine”, Nr 17(3), s. 37–54, 1996.

[13] Fayyad U.M., Piatetsky-Shapiro G., Smyth P., From Data Mining to Knowledge Discovery: An Overview. In: Fayyad U.M., Piatetsky-Shapiro G., Smyth P., Uthurusamy R. (eds.): Advances

(9)

In Knowledge Discovery and Data Mining. Cambridge, MA: AAAI/MIT Press, 1996, s. 1–34. [14] Fayyad U.M., Piatetsky-Shapiro G., Smyth P., The KDD Process for Extracting Useful

Knowledge from Volumes of Data. „Communications of the ACM” 1996, Nr 39(11), s. 27–34. [15] Frawley W.J., Piatetsky-Shapiro G., Matheus C.J., Knowledge discovery in databases: An overview. In: G. Piatetsky-Shapiro, W.J. Frawley (eds.): Knowledge Discovery in Databases. Cambridge, MA: MIT Press, s. 121, 1991.

[16] Hand D., Mannila H., Smyth P., Eksploracja danych. Warszawa: Wydawnictwa Naukowo-Techniczne, 2005.

[17] Jakubowski T., Zarządzanie wiedzą w firmach konsultingowych [online]. „Gazeta IT” 2002, Nr 7. Źródło: http://archiwum.gazeta it.pl/2,16,1006,index.html, Dostęp: [08-04-2017]. [18] Judycki S., Ewolucja epistemologii w XX wieku: kontynuacja czy zmiana tematu? In:

Ziemińscy R. i I. (red.): Był i sens. Księga Pamiątkowa VII Polskiego Zjazdu Filozoficznego w Szczecinie. Szczecin: Wydawnictwo Naukowe Uniwersytetu Szczecińskiego, 2005, s. 140– 148.

[19] Lloyd-Williams M., Empirical studies of the knowledge discovery approach to health-information analysis. In: Bramer M.A. (ed.): Knowledge Discovery and Data Mining: Theory and Practice. London: The Institution of Electrical Engineers (IEE), 1999, s. 139–159. [20] Mannila H., Methods and problems in data mining. In: Afrati F.N., Kolaitis P.G. (eds.):

Database Theory – ICDT '97. 6th International Conference, Delphi, Greece, January 8–10, 1997 Proceedings. Berlin: Springer-Verlag, 1997, Lecture Notes in Computer Science Nr 1186, s. 41–55.

[21] Pawlak Z., Rough Sets. Theoretical Aspects of Reasoning abaut Data. Kluwer Academic Publishers, Dordrecht-Boston-London, 1991. Series D: System Theory, Knowledge Engineering and Problem Solving, t. 9.

[22] Phelan S.: Customer Information as a Strategic Asset. „DM Review” [online]. Apr 2002. Źródło: http://www.dmreview.com/dmdirect/20020419/5047-1.html, Dostęp: [16-05-2017]. [23] Simoudis E., Reality Check for Data Mining. „IEEE Expert” 1996, Nr 11(5), s. 26–33. [24] Soman K.P., Diwakar S., Ajay V., Insight Into Data Mining: Theory and Practice. New Delhi:

Prentice Hall of India, 2006.

[25] Stefanowski J., Eksploracja danych – wybrane metody i zastosowania w analizie danych [online]. Poznań: Instytut Informatyki Politechniki Poznańskiej, 2007, Źródło: <http://idss.cs.put.poznan.pl/~stefanowski/aed/DMwstep.pdf, Dostęp: [12-05-2017].

[26] The Gartner Glossary of Information Technology and Acronyms and Terms [online]. [Stamford, CT]: Gartner Inc., 2004. Źródło:

http://www.gartner.com/6_help/glossary/Gartner_IT_Glossary.pdf, Dostęp: [10-05-2018]. [27] Tiwana A., Przewodnik po zarządzaniu wiedzą. E-biznes i zastosowania CRM. Wydawnictwo

Placet, Warszawa 2003.

[28] Zeleny M., Management Support Systems: Towards Integrated Knowledge Management. „Human Systems Management” 1987, Nr 7(1), s. 59–70.

(10)

KNOWLEDGE DISCOVERY IN THE INFORMATION SOCIETY Summary

This article aims to review selected aspects of data mining and knowledge discov-ery with regard to their role in the information society. Approaches of various re-searchers to basic notions in the field have been analyzed. Interpretations of KDD stages proposed by chosen experts have been confronted, as well as the CRISP-DM methodology, rule knowledge representation and data mining tasks have been ad-dressed. The article is a review of literature on the topic.

Keywords: data mining, knowledge discovery, knowledge representation, methodology Piotr Sulikowski

Katedra Inżynierii Systemów Informacyjnych Wydział Informatyki

Zachodniopomorski Uniwersytet Technologiczny w Szczecinie ul. Żołnierska 49, 71-210 Szczecin

e-mail: psulikowski@wi.zut.edu.pl Dominik Turzyński

Wydział Nauk o Zdrowiu

Pomorski Uniwersytet Medyczny w Szczecinie ul. Żołnierska 48, 71-210 Szczecin

e-mail: turzynski.d@edu.pum.edu.pl Tomasz Zdziebko

Katedra Zarządzania i Inżynierii Wiedzy Wydział Nauk Ekonomicznych i Zarządzania Uniwersytet Szczeciński

ul. Adama Mickiewicza 64, 71-101 Szczecin e-mail: tomasz.zdziebko@usz.edu.pl

Cytaty

Powiązane dokumenty

Jeśli Microsoft SQL Server 2008 zainstalowany jest na komputerze pracującym pod kontrolą systemu Microsoft Windows Server 2003, można wymusić odpowiednią politykę

W kroku drugim, na podstawie znalezionych zbiorów częstych są generowane wszystkie reguły asocjacyjne, których ufność jest większa niż zadany próg ufności minconf..

Zajęcia nr 2 Przegląd zbiorów danych z 2 źródeł: MLRepository oraz ArrayExpress Wybór po jednym przykładowym zbiorze do późniejszych analiz z obu zbiorów. Zajęcia nr

Logiczna interpretacja w˛ezłów w sieci MLP jest w ogólno´sci trudna, dlatego algorytm MLP2LN u˙zywa funkcji sigmoidalnych o stopniowo (w czasie uczenia) wzrastaj ˛ acym nachyleniu.

 Zintegrowane uczenie – integracja fazy przetwarzania danych z fazą uczenia (indukcji klasyfikatora).. Redukcja atrybutów. 

Są to: współczynnik GPM ogólnej wiarygodności reguły, wyznaczający jej priorytet względem pozostałych reguł w bazie wiedzy medycz- nego systemu ekspertowego, oraz współczynnik

Cel bada ´n — sprawdzenie mo ˙zliwo´sci przewidywania liczby komórek somatycznych w mleku (lub klasy liczby komórek: dobra / zła).. Nadmierny poziom liczby komórek somatycznych

46,6% wszystkich respondentów odniosła się do propozycji obejrzenia wy- stawy archeologicznej, spośród tych osób łącznie aż 85,0% wykazało się bardzo dużym i