• Nie Znaleziono Wyników

<< Świat pełen danych

N/A
N/A
Protected

Academic year: 2021

Share "<< Świat pełen danych"

Copied!
11
0
0

Pełen tekst

(1)

Świat pełen danych

Kilkanaście zetabajtów (1ZB = 1021 bajtów) danych zostanie wygenerowanych tylko w tym roku

Najwięksi „producenci” to banki, firmy, sieci handlowe, ubezpieczalnie ośrodki naukowe, sieć WWW

Przechowywanie ogromnych ilości danych i samo ich magazynowanie nie ma większego sensu – niezbędna jest analiza tych danych dzięki której można otrzymać informacje (ukrytą wiedzę) w nich zawartą

Tylko niewielka część danych jest analizowana a efekty tej analizy wykorzystywane w praktyce na przykład w:

diagnostyce medycznej; rozpoznawaniu obrazu, mowy i pisma; analizie operacji bankowych; reklamie skierowanej; ocenie ryzyka kredytowego itp.

Możliwości analizowania i zrozumienia danych

Możliwości gromadzenia i przechowywania danych

<<

(2)

Wybór danych do analizy

wybór atrybutów i obiektów do analizy

integracja i zdefiniowanie zbiorów danych

zbiory powinny być wystarczająco duże aby móc odkryć wzorce do analizy a jednocześnie na tyle zwięzłe aby pozyskać wiedzę w akceptowalnym czasie

Czyszczenie danych i wstępne przetwarzanie

usunięcie szumów i wartości odstających

eliminacja lub uzupełnianie wartości brakujących

usunięcie niespójnych danych

Transformacja danych

transformacja danych do postaci odpowiedniej do eksploracji danych

normalizacja, standaryzacja danych

Selekcja i ekstrakcja cech – zredukowanie wymiaru wektora danych

Eksploracja danych (ang. data mining):

„Nietrywialne wydobywanie ukrytej, poprzednio nieznanej i potencjalnie użytecznej informacji z danych” (W.Frawley, G. Piatetsky-Shapiro, C. Matheus. Knowledge Discovery in Databases: An Overview. AI Magazine, 1992)

„Nauka zajmująca się wydobywaniem informacji z dużych zbiorów danych lub baz danych” (D. Hand, H. Mannila, P. Smyt. Principles of Data Mining. MIT Press, Cambridge, MA, 2001)

Eksploracja danych cd

najistotniejsza część tego procesu związana jest z analizą przygotowanych zbiorów danych, pozyskiwaniem zależności i wzorców

główne zadania eksploracji danych: opisywanie i predykcja

Interpretacja - identyfikacja, interpretacja i ocena zależności oraz odkrytych struktur

Proces pozyskiwania wiedzy z baz danych (ang. knowledge discovery in databases)

Wybór danych Wybór danych

Wstępne przetwarzanie Wstępne przetwarzanie

Transformacja Transformacja

Eksploracja danych Eksploracja danych

Interpretacja Interpretacja

Baza danych

Zbiór danych

Dane przetworzone

Dane po transformacji

Wzorce i modele

Wiedza Wybór

danych

Wstępne przetwarzanie

Transformacja

Eksploracja danych

Interpretacja

(3)

Eksploracja danych – co to jest?

Eksploracja danych jest procesem odkrywania nowych/nieznanych/ukrytych powiązań, związków, wzorców, trendów i potencjalnie użytecznej informacji.

Eksploracja danych jest międzydyscyplinarną dziedziną, łączącą techniki uczenia maszynowego, rozpoznawania wzorców, baz danych i wizualizacji w celu uzyskiwania informacji z dużych baz danych.

Eksploracja danych to nie to samo co statystyka!!!

Eksploracja danych polega

na torturowaniu danych tak

długo, aż zaczną zeznawać

(4)

Eksploracja danych:

dane + algorytm reguły, wzorce

algorytmy

klasteryzacja i reguły asocjacyjne (uczenie bez nadzoru)

dane + algorytm klastry, reguły

klasyfikacja i regresja (uczenie z nadzorem)

dane treningowe + algorytm model

dane + model klasy, prognozy

Predykcja w eksploracji danych

Klasyfikacja - ma nominalną (jakościową) zmienną zależną, której wartość wyliczana jest na podstawie znajomości jednej lub większej liczby predykcyjnych (niezależnych) zmiennych ciągłych lub nominalnych.

Regresja - posiada ciągłą (ilościową) zmienną zależną.

(5)

Drzewa decyzyjne

korzeń

węzeł wewnętrzny

liście decyzja

gałąź test

Budowa drzewa – korzeń, węzły wewnętrzne, liście, testy, gałąź

Działanie – seria testów prowadząca od korzenia do liścia zawierającego decyzję

Każda ścieżka od korzenia do liścia odpowiada jednej regule decyzyjnej

Zalety: łatwość interpretacji, podobieństwo do sposobu podejmowania decyzji przez człowieka

Problem znalezienia optymalnego drzewa decyzyjnego na podstawie zbioru uczącego jest NP-trudny

(6)

Drzewa decyzyjne

Drzewo decyzyjne rekurencyjnie dzieli zbiór treningowy na partycje do

momentu, w którym każda partycja zawiera dane należące do jednej klasy, lub, gdy w ramach partycji dominują dane należące do jednej klasy

Każdy wierzchołek wewnętrzny drzewa zawiera tzw. punkt podziału (ang. split point), którym jest test na atrybucie (atrybutach), który dzieli zbiór danych na partycje

Postać testu stanowiącego punkt podziału zależy od kryterium podziału i typu danych atrybutu występującego w teście:

dla atrybutu ciągłego A, test ma postać wartość(A) < x

dla atrybutu kategorycznego A, test ma postać wartość(A) należy do x

Możliwość podziałów skośnych / wielowymiarowych

(7)

Algorytm zstępujący (ang. top-down”)

Najpopularniejszy sposób indukcji drzew

Podstawowe zalety: szybki i efektywny w zastosowaniach

Strategia zachłanna i nie gwarantuje otrzymania optymalnego drzewa

Drzewa decyzyjne – algorytm zstępujący

korzeń

węzeł wewnętrzny

liście decyzja

gałąź test

W każdym liściu wyznaczana jest decyzja (prognoza) wyłącznie na

podstawie części zbioru uczącego, która dotarła do liścia

(8)

Drzewa decyzyjne

Algorytm jest wykonywany w dwóch fazach:

Faza 1: Konstrukcja drzewa decyzyjnego w oparciu o zbiór treningowy, który jest dzielony na partycje, rekurencyjnie, w punktach podziału do momentu, gdy każda z partycji jest „czysta” (zawiera dane należące wyłącznie do jednej klasy) lub liczba elementów partycji dostatecznie mała (spada poniżej pewnego zadanego progu

Faza 2: Obcinanie drzewa w celu poprawy dokładności,

interpretowalności i uniezależnienia się od efektu przetrenowania

Kryterium podziału:

Indeks Gini (algorytmy CART, SPRINT) - wybieramy atrybut, który minimalizuje indeks Gini

Zysk informacyjny (algorytmy ID3, C4.5) - wybieramy atrybut, który maksymalizuje redukcję entropii

indeks korelacji (algorytm CHAID) - mierzymy korelację pomiędzy każdym atrybutem i każdą klasą (wartością atrybutu decyzyjnego) i wybieramy atrybut o maksymalnej korelacji

(9)

Drzewa decyzyjne I

Słoń widziany oczami drzewa decyzyjnego

“The Blind Men and the Elephant” by John Godfrey Saxe (1816-1887)

(10)

Podział drzew ze wzglęgu na rodzaj badań:

Roczny przychód

Umowa

o pracę Zadłużenie

Wiek

>= 30 000

< 30 000

tak

nie < 100 000 >= 100 000

>= 80

< 80

Odpowiedź na pytanie typu:

Jaka jest moja zdolność kredytowa?

drzewa modelowe (np. M5, SMOTI)

Odpowiedź na pytanie typu:

Czy otrzymam kredyt?

Rodzaje drzew decyzyjnych

Liście w drzewie klasyfikacyjnym zawierają decyzję (klasę)

Każdy liść drzewa regresyjnego zawiera wartość średnią

zmiennej zależnej

(przewidywanej) wszystkich obiektów w nim się znajdujących Przykład decyzji w liściu

Każdy liść zawiera model regresji liniowej (bądź nieliniowej).

Znajduje rozwiązanie zapewniające możliwie maksymalną dokładność parametrycznej reprezentacji funkcji docelowej.

Przykładowa funkcja docelowa:

Zdolność kredytowa = 4*roczny

przychód – 1.5*zadłużenie – 0.7*wiek

drzewa regresyjne (np. CART, REPTree)

drzewa klasyfikacyjne

(11)

Algorytmy ewolucyjne i drzewa decyzyjne

Algorytmy ewolucyjne:

zbiór metod optymalizacji inspirowany naturalnym procesem ewolucji

wykorzystują oparte na populacji losowe różnicowanie i selekcję

wzajemne przenikanie się różnych technik:

algorytmy genetyczne, strategie ewolucyjne, programowanie genetyczne, ...

efektywne w unikaniu minimów lokalnych

Algorytmy ewolucyjne jako narzędzie indukcji drzew:

umożliwia równoczesne poszukiwanie struktury drzewa oraz wszystkich testów

możliwość wykorzystania znajomości problemu

Cytaty

Powiązane dokumenty

Nauczyciel prosi o przypomnienie tego, co uczniowie już wiedzą na temat Odyseusza z mitologii i z przekazu Homera, i wypisywanie przez jednego ucznia tego w postaci haseł

Za pomocą kwerend można pobierać i tworzyć zestawienia danych które Cię aktualnie interesują.. Sortowanie polega na uporządkowanym układaniu

(2 pkt) Podaj definicję kwantyla rzędu p rozkładu zmiennej losowej oraz jej źródło (autor, tytuł, rok wydania, strona).. (1 pkt) Niech zmienna losowa X posiada rozkład równomierny

Ponieważ obliczona wartość statystyki testowej nie należy do zbudowanego zbioru krytycznego, to na poziomie istotności α = 0.05 nie ma podstaw do odrzucenia hipotezy H 0

Funkcje zmiennej zespolonej: holomorczno±¢, funkcje elementarne, funkcje harmoniczne.. Zapisa¢ f jako funkcj¦

Na wystawie znajdują się głównie najnowsze pejzaże Michała Jelińskiego, które zrobił w trakcie podróży po różnych krajach Europy - Islandii, Alba- nii, Ukrainie, a także

w ażniej zastanowim y się nad zagadnieniem języka, którym posługujem y eię co dzień, okaże się, że ogromna ilość potocznych w y­. razów pow stała drogą

Wciąż może nas zadziwiać los Aleksandra i Rufusa, należących do pierwszej generacji chrześcijan, a zarazem synów Szymona… Może nas zadziwiać los lekarza z