• Nie Znaleziono Wyników

Grzegorz Stolecki Wprowadzenie do Data Mining

N/A
N/A
Protected

Academic year: 2021

Share "Grzegorz Stolecki Wprowadzenie do Data Mining"

Copied!
17
0
0

Pełen tekst

(1)

Grzegorz Stolecki

Wprowadzenie do Data Mining

(2)

O mnie...

Życiorys

• Z komputerem – od 1986 roku

• Z technologią AI+BI – od 1993 roku

• Z SQL Server – od 1998 roku

• MCTS BI

Co robię?

• Projektowanie i wdrażanie rozwiązao Business Intelligence

• Szkolenia i warsztaty

Co mnie interesuje?

• BI, kontroling, sztuczna

inteligencja.

• Historia i militaria

Gdzie mnie można spotkad?

• Polish SQL Server User Group

• Śląska

Regionalna Grupa

Microsoft

• wss.pl

(3)

Agenda

• Data Mining – parę podstawowych pojęd

• Co jest potrzebne by zacząd kopanie?

Co to…?

• Do czego można zastosowad Data Mining?

• Algorytmy, modele, struktury

Co

może…?

• Kilka prostych przykładów

Jak to

zrobid…?

(4)

Aby podjąć dobrą decyzję, potrzebnych jest trochę informacji…

I generacja: bazy danych i systemy ewidencyjne

Data Mining – skąd się wziął?

(5)

Aby podjąć dobrą decyzję, potrzebnych jest trochę informacji…

II generacja: hurtownie danych

Data Mining – skąd się wziął?

(6)

Aby podjąć dobrą decyzję, potrzebnych jest trochę informacji…

III generacja: wielowymiarowe kostki OLAP

Data Mining – skąd się wziął?

(7)

Data mining to proces analizy, którego celem jest

odkrycie cennej informacji, wzorców i wiedzy ukrytych w dużych ilościach danych zgromadzonych przez systemy informatyczne.

Czyszczenie i integracja

danych

Selekcja i przetworzenie

danych

Data mining Ewaluacja wzorców

Prezentacja wiedzy

Data Mining – co to jest?

(8)

Analizy „churn”

Koszyk towarów

Wykrywanie oszustw i fałszerstw w transakcjach Ocena ryzyka (np. kredytowego)

Segmentacja klientów

Profilowane kampanie marketingowe Prognozowanie sprzedaży, kosztów Analiza odwiedzin serwisu WWW

Wykrywanie wzorców zachowań

Ocena, który z 500 milionów obiektów gwiezdnych jest wart zainteresowania

Rekordowe wyniki sportowców – czynniki

… i wiele, wiele innych…

Data Mining – zastosowania

(9)

Data mining

Odkrywanie asocjacji

Odkrywanie sekwencji

Klasyfikacja

Grupowanie

Prognozy

Data Mining – techniki

(10)

• Na jakie pytania ma odpowiadad model ?

• Kto będzie odbiorcą analiz ? Określenie problemu biznesowego

• Jakie informacje są potrzebne aby udzielid odpowiedzi na pytania ?

• Gdzie znajdują się wymagane dane ? Zebranie danych

• Utworzenie hurtowni danych

• Realizacja procedur ETL

• Ujednolicenie formatu i struktury danych Konsolidacja i czyszczenie danych

Data Mining – jak się to robi (1)

(11)

• Analiza jakości danych

• Uzupełnienie danych brakujących

• Identyfikacja i eliminacja wartości ekstremalnych Przygotowanie danych

• Wybór rodzaju modelu

• Dobranie algorytmów data-mining

• Dobór optymalnych parametrów modelu Budowa modelu analitycznego

• Wybór testowej próbki danych

• Przetworzenie treningowej próbki danych w celu identyfikacji wzorców

• Analiza dopasowania wzorców do rzeczywistych danych Trenowanie modelu

Data Mining – jak się to robi (2)

(12)

• Ocena merytorycznej poprawności odnalezionych wzorców i reguł

• Wykorzystanie wzorców do analizy całości dostępnych danych Interpretacja rezultatów

• Ocena jakości dopasowania modelu dla nowych danych Monitoring modelu

Data Mining – jak się to robi (3)

(13)

SQL Server Analysis Services (SQL Server) Business Intelligence Development Studio Data Mining Add-In dla Office 2007

Third-party plugins

Data Mining – narzędzia Microsoft

(14)

Data Mining – narzędzia Microsoft

(15)

BOL – SQL Server Books Online

http://www.sqlserverdatamining.com/

Data Mining with SQL Server 2008 RapidMiner (www.rapidminer.com) R Project, WEKA, KMINE

Data Mining – warto zobaczyd

(16)

Na koniec...

(17)

Grzegorz Stolecki

grzegorz.stolecki@plssug.org.pl

To już naprawdę wszystko

Cytaty

Powiązane dokumenty

rzy stw a D em okratycznego Polskiego, n a jb ard ziej zbliżonego ideow o do stanow iska Heinego, nie pośw ięciła jego p ub licystyce ani jedn ej

Zarządzanie zasobami ludzkimi 30 W, 15 C Systemy zarządzania przez jakość 30 W, 15 C Laboratorium systemów informatycznych 30 L. Wiedzę studenci zdobywają realizując

Synthesis and investigation of neptunium zirconium phosphate, a member of the NZP family: crystal structure, thermal behaviour and Mössbauer spectroscopy studies.. Bykov,

Implikatura – ja chcę wiedzieć i pytam czy X jest NAJLEPSZYM trenerem i ty wiesz o tym, a mówisz, że miałeś wielu DOBRYCH trenerów, czyli nie chcesz albo nie potrafisz

− service automation (automatyzację obsługi serwisowej) operacje contact i call center, serwis internetowy. Analityczny CRM, zwany back-office CRM, analizuje struktury danych

We współczesnej analizie strukturalnej do modelowania systemu wykorzystuje się narzędzia graficzne oraz uzupełniające narzędzia tekstowe. Do podstawowych narzędzi

• Model związków encji (DZE) (diagramy binarne, predykatory, struktury danych) - jest to abstrakcyjny model danych (entity relationship), który służy do wyrażania

Comparing the research results from both periods (2002–2008 and 2010– 2013), a decrease of several percent in terms of the number of the samples with residue, as well as