• Nie Znaleziono Wyników

z baz danych

N/A
N/A
Protected

Academic year: 2021

Share "z baz danych"

Copied!
20
0
0

Pełen tekst

(1)

Proces odkrywania wiedzy z baz danych

Wydział Informatyki

Politechnika Białostocka email: m.czajkowski@pb.edu.pl Marcin Czajkowski

(2)

Świat pełen danych

(3)

Świat pełen danych

Kilkanaście zetabajtów (1ZB = 1021 bajtów) danych zostanie wygenerowanych tylko w tym roku

Najwięksi „producenci” to banki, firmy, sieci handlowe, ubezpieczalnie ośrodki naukowe, sieć WWW

Przechowywanie ogromnych ilości danych i samo ich magazynowanie nie ma większego sensu – niezbędna jest analiza tych danych dzięki której można otrzymać informacje (ukrytą wiedzę) w nich zawartą

Tylko niewielka część danych jest analizowana a efekty tej analizy wykorzystywane w praktyce na przykład w:

diagnostyce medycznej; rozpoznawaniu obrazu, mowy i pisma; analizie operacji bankowych; reklamie skierowanej; ocenie ryzyka kredytowego itp.

Możliwości analizowania i zrozumienia danych

Możliwości gromadzenia i przechowywania danych

<<

(4)

Trafnie przewidujące rzeczywistość (generalizacja)

Zrozumiałe

Użyteczne

Ukazujące nowe zależności

Interaktywne

Interesujące

Cechy wiedzy DM

(5)

Wybór danych do analizy

wybór atrybutów i obiektów do analizy

integracja i zdefiniowanie zbiorów danych

zbiory powinny być wystarczająco duże aby móc odkryć wzorce do analizy a jednocześnie na tyle zwięzłe aby pozyskać wiedzę w akceptowalnym czasie

Proces pozyskiwania wiedzy z baz danych (ang. knowledge discovery in databases)

Wybór danych

Wstępne przetwarzanie

Transformacja

Eksploracja danych

Interpretacja

Baza danych

Zbiór danych

Dane przetworzone

Dane po transformacji

Wzorce i modele

Wiedza Wybór

danych

Wstępne przetwarzanie

Transformacja

Eksploracja danych

Interpretacja

(6)

Czyszczenie danych i wstępne przetwarzanie

usunięcie szumów i wartości odstających

eliminacja lub uzupełnianie wartości brakujących

usunięcie niespójnych danych

Transformacja danych

transformacja danych do postaci odpowiedniej do eksploracji danych

ormalizacja, standaryzacja danych

Selekcja i ekstrakcja cech – zredukowanie wymiaru wektora danych

Proces pozyskiwania wiedzy z baz danych (ang. knowledge discovery in databases)

(7)

Eksploracja danych (ang. data mining):

„Nietrywialne wydobywanie ukrytej, poprzednio nieznanej i potencjalnie użytecznej informacji z danych” (W.Frawley, G. Piatetsky-Shapiro, C. Matheus. Knowledge Discovery in Databases: An Overview. AI Magazine, 1992)

„Nauka zajmująca się wydobywaniem informacji z dużych zbiorów danych lub baz danych” (D. Hand, H. Mannila, P. Smyt. Principles of Data Mining. MIT Press, Cambridge, MA, 2001)

Eksploracja danych cd

najistotniejsza część tego procesu związana jest z analizą przygotowanych zbiorów danych, pozyskiwaniem zależności i wzorców

główne zadania eksploracji danych: opisywanie i predykcja

Interpretacja - identyfikacja, interpretacja i ocena zależności oraz odkrytych struktur

Proces pozyskiwania wiedzy z baz danych (ang. knowledge discovery in databases)

(8)

Proces DM

(9)

Zapytania bazodanowe:

ile piwa sprzedano w 1 kwartale 2012 r. w sklepie Żak.

ile piwa sprzedano w sieci Real na terenie Polski z podziałem na województwa, gatunki oraz kwartały w ciągu ostatnich 5 lat?

Zapytania eksploracyjne

Jakie inne jeszcze produkty najczęściej kupują klienci, którzy kupują piwo?

(wykazano powiązanie piwo + pieluchy)

Czym różnią się koszyki klientów kupujących wino i piwo?

Jak można scharakteryzować klientów kupujących tanie wino?

W jaki sposób pogrupować klientów kupujących piwo?

Czy można dokonać predykcji, że dany klient kupi piwo?

Dany jest zbiór danych pacjentów szpitala. W oparciu o ten zbiór:

Określ potencjalną chorobę pacjenta (diagnoza)

Określ poprawny wynik terapii

Zaproponuj najlepszą terapię (uwzględnij również koszty)

Zapytania

(10)

Systemy baz danych, hurtownie danych, OLAP

Statystyka

Uczenie maszynowe i odkrywanie wiedzy

Techniki wizualizacji danych

Teoria informacji

Wyszukiwanie informacji

Inne dyscypliny:

Sieci neuronowe,

modelowanie matematyczne,

rozpoznawanie obrazów,

technologie internetowe,

systemy reputacyjne, etc.

Mieszanka dyscyplin

(11)

klasyfikacja/regresja

grupowanie

odkrywanie sekwencji

odkrywanie charakterystyk

analiza przebiegów czasowych

odkrywanie asocjacji

wykrywanie zmian i odchyleń

eksploracja WWW

eksploracja tekstów

Metody eksploracji danych

(12)

Metoda analizy danych, której celem jest predykcja wartości określonego atrybutu w oparciu o pewien zbiór danych treningowych

Metody eksploracji: klasyfikacja/regresja

Wiele technik:

statystyka,

drzewa decyzyjne, sieci neuronowe, ...

???

(13)

przykład klasyfikacji: automatyczny podział kierowców na powodujących i nie powodujących wypadków drogowych:

kierowcy prowadzący czerwone pojazdy o pojemności 650 ccm powodują wypadki drogowe

kierowcy, którzy posiadają prawo jazdy ponad 3 lata lub jeżdżą niebieskimi samochodami nie powodują wypadków drogowych

klasyfikacja vs regresja?

zastosowania klasyfikacji/regresji:

diagnostyka medyczna

rozpoznawanie trendów na rynkach finansowych

automatyczne rozpoznawanie obrazów

przydział kredytów bankowych

Metody eksploracji: klasyfikacja/regresja

(14)

Znajdź „naturalne” pogrupowanie obiektów w oparciu o ich wartości

Metody eksploracji: grupowanie

zastosowania grupowania:

- grupowanie dokumentów - grupowanie klientów

- segmentacja rynku

(15)

odkrywanie asocjacji: znajdowanie związków pomiędzy występowaniem grup elementów w zbiorach danych

przykłady asocjacji:

niscy ludzie mają długie włosy 

klienci, którzy kupują pieluszki, kupują również piwo

klienci, którzy kupują chleb, masło i ser, kupują również wodę mineralną i ketchup

zastosowania odkrytych asocjacji:

planowanie kampanii promocyjnych

planowanie rozmieszczenia stoisk sprzedaży w supermarketach

Metody eksploracji: odkrywanie asocjacji

(16)

odkrywanie wzorców sekwencji: znajdowanie najczęściej występujących sekwencji elementów

przykład odkrywania wzorców sekwencji:

klienci, którzy kupili farbę emulsyjną, kupią w najbliższym czasie pędzel płaski

kurs akcji BPH, który podczas ostatnich trzech sesji wzrósł o 0.5%, 0.9%, 0.1%, na następnej sesji spadnie o 0.5%

zastosowania odkrytych wzorców sekwencji:

planowanie inwestycji giełdowych

przewidywanie sprzedaży

znajdowanie skutecznej terapii

Metody eksploracji: odkrywanie wzorców sekwencji

(17)

odkrywanie charakterystyk: znajdowanie zwięzłych opisów (charakterystyk) podanego zbioru danych

przykład odkrywania charakterystyk: opis pacjentów chorujących na anginę

pacjenci chorujący na anginę cechują się temperaturą ciała większą niż 37.5 C, bólem gardła, osłabieniem organizmu

zastosowania odkrywania charakterystyk:

znajdowanie zależności funkcyjnych pomiędzy zmiennymi

określanie profilu klienta - zbioru cech charakterystycznych

Metody eksploracji: odkrywanie charakterystyk

(18)

problem z danymi (niekompletne, wielowymiarowe, etc.)

w dużych bazach danych mogą zostać odkryte tysiące reguł

człowiek nie potrafi rozumieć i przeanalizować bardzo dużych zbiorów informacji

różni użytkownicy systemu bazy danych są zainteresowani różnymi typami reguł z różnych relacji

odkrywanie reguł jest procesem bardzo złożonym obliczeniowo

Rozwiązanie:

odkrywanie tylko części wszystkich możliwych reguł - wskazanej przez użytkownika przy pomocy kryteriów

tylko użytkownik potrafi ocenić poprawnie wartość odkrytej wiedzy

Istotny problem etyczny: jak zagwarantować poufność i ochronę danych osobistych w przypadku eksploracji danych?

Problemy

(19)

Nauka: astronomia, bioinformatyka, przemysł farmaceutyczny, …

Biznes: reklama, CRM (Customer Relationship management), inwestycje, finanse, ubezpieczenia, telekomunikacja, medycyna, …

Web: przeglądarki (Google), handel elektroniczny – Amazon, eBay, Allegro

Administracja: wykrywanie przestępstw, wykrywanie nadużyć podatkowych, etc.

Handel i marketing

identyfikacja „profilu klienta” dla przewidywania, którzy klienci odpowiedzą na marketing korespondencyjny,

wykrywanie schematów zakupów i planowanie lokalizacji artykułów

Finanse i bankowość

identyfikacja schematów wykorzystywania kradzionych kart kredytowych

przewidywanie dochodowości portfela akcji, znajdowanie korelacji wśród wskaźników finansowych

Technologia

Odkrywanie nowych obiektów (astronomia)

wykrywanie schematów alarmowych w sieciach telekomunikacyjnych

Dziedziny zastosowań

(20)

Eksploracja danych z google:

Predykcja w eksploracji danych

Cytaty

Powiązane dokumenty

Zestaw składa się z 10 zadań które należy rozwiązać korzystając z zasobu serwisów: Centralnej Informacji Krajowego Rejestru Sadowego, Centralnej Ewidencji i Informacji o

Zestaw składa się z 10 zadań, które należy rozwiązać korzystając z zasobu serwisów: Centralnej Informacji Krajowego Rejestru Sądowego, Centralnej Ewidencji i Informacji o

Tekst jednolity aktu normatywnego innego niż ustawa ogłasza się nie rzadziej niż raz na 12 miesięcy, jeżeli był on nowelizowany. Akt normatywny może określić termin

o Krajowym Rejestrze Sądowym (Dz. zmieniające rozporządzenie w sprawie szczegółowego sposobu prowadzenia rejestrów wchodzących w skład Krajowego Rejestru Sądowego

Niezależność aplikacji i danych - dane mogą być wprowadzane do bazy bez konieczności modyfikacji korzystających z nich programów czy systemów użytkowych, a z drugiej

Podaj imiona i daty urodzenia dziewczynek, które odziedziczyły imię po matce.. Bliźnięta można rozpoznad po tej samej dacie urodzenia i tym samym

W okienku kreatora wybierz opcję Kreator kwerend wyszukujących duplikaty i kliknij przycisk OK.. W tym okienku musisz wybrad tabelę, w której kwerenda będzie poszukiwała duplikatów

Projekt mechanizmów bezpieczeństwa na poziomie bazy danych .... Projekt aplikacji