• Nie Znaleziono Wyników

Analiza danych

N/A
N/A
Protected

Academic year: 2021

Share "Analiza danych"

Copied!
5
0
0

Pełen tekst

(1)

Analiza danych

Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/

Podstawowe pojęcia.

Reprezentacja graficzna danych.

PODSTAWOWE POJĘCIA

Dane do analizy zwykle będziemy przechowywali w tablicach danych, w których kolejne wiersze odpowiadają obiektom (obserwacjom).

Obiekty składają się na próbę (populację, zbiór treningowy).

Obiekty opisane są określonymi z góry cechami (atrybutami), mogą też dzielić się na pewne kategorie (klasy decyzyjne).

o1 o2 o3 ...

12.3 AAC 1 -5 6.87 AAA 1 -2 0.12 BBB 0 0

...

Obiekty Wartości atrybutów

(cechy obiektów)

1 0 0 ...

Decyzje

(kategorie obiektów)

(2)

PODSTAWOWE POJĘCIA

Cechy (atrybuty) mogą być:

• ilościowe (numeryczne, ciągłe)

np. waga, wiek klienta, dochód, wynik pomiaru napięcia, ...

• jakościowe (symboliczne, dyskretne)

np. kolor samochodu, płeć, położenie geograficzne (miasto) Cechy ilościowe można zamienić na jakościowe (i odwrotnie).

PRZYKŁAD -

PROBLEM DECYZYJNY

Analizujemy bazę danych klientów salonu samochodowego.

Mamy dany opis osób, którzy wystąpili o przyznanie karty stałego klienta. Chcielibyśmy przewidzieć, którzy klienci mogliby być w przyszłości również zainteresowani.

Zasada działania: badamy, jakie cechy wyróżniają przypadki

„pozytywne” (klienci z kartami) od „negatywnych” (pozostali).

Budujemy model danych.

o1 o2 o3 ...

12.3 AAC 1 -5 6.87 AAA 1 -2 0.12 BBB 0 0

...

1 0 0 ...

Obiekty Wartości atrybutów

(cechy klientów)

Decyzje

(klient pozytywny/negatywny)

(3)

PRZYKŁAD -

WYKORZYSTANIE MODELU

Tworzymy model danych (np. statystyczny) i wykorzystujemy go do przewidywania cechy decyzyjnej dla nowych obiektów.

o1 o2 o3 ...

12.3 AAC 1 -5 6.87 AAA 1 -2 0.12 BBB 0 0

...

1 0 0 ...

Dane treningowe (znana decyzja)

o1 o2 o3 ...

25.1 BBA 0 -1 15.8 BBB 1 -2 7.6 BAB 1 -4

...

?

?

? ...

Dane testowe (nieznana decyzja)

przewidywana decyzja dla danych testowych budowa m

odelu

Model danych - dyskryminacja liniowa - drzewo decyzyjne - sieć neuronowa - ...

HISTOGRAMY

• Oś pozioma: wartość atrybutu podzielona na przedziały.

• Oś pionowa: częstość (liczba obiektów w danym przedziale).

4 4,5 5 5,5 6 6,5 7 7,5 8

0 5 10 15 20 25 30 35

4,5 5 5,5 6 6,5 7 7,5 8

(4)

HISTOGRAMY

• Kształt histogramu zależy od szerokości przedziałów i położenia ich granic.

• Moda – największa (lokalnie) wartość histogramu

4 4,5 5 5,5 6 6,5 7 7,5 8

0 5 10 15 20 25 30 35

4,5 5 5, 5 6 6,5 7 7,5 8

0 5 10 15 20 25 30 35 40

4,8 5,3 5,8 6,3 6,8 7,3 7,8 8,3

0 2 4 6 8 10 12 14 16 18 20

DYSKRETYZACJA

• Równomierny podział dziedziny na k

przedziałów

(traktowanych jako cechy jakościowe)

• Można też dzielić na przedziały

równoliczne

4 4,5 5 5,5 6 6,5 7 7,5 8

4 4,5 5 5,5 6 6,5 7 7,5 8

(5)

WYKRES

WIELOWYMIAROWY

Wybieramy dwa atrybuty jako etykiety osi. Możemy też zobrazować kategorię (decyzję), np. kolorem.

PREZENTACJA WIELU WYMIARÓW

• Sieci Kohonena

• Metoda składowych głównych

Cytaty

Powiązane dokumenty

„Skoro przedmiot badań musi pozostać niedookreślony, źródeł wiarygodności teoriotwórczego dyskursu językoznawczego powinno się szukać w metodologii badań

Manuel Castells pisze o mieście jako o scenie konfliktów, na której ujawniają się różne formy protestu i wyrażany jest sprze- ciw wobec planowania miejskiego,

Manuel Castells pisze o mieście jako o scenie konfliktów, na której ujawniają się różne formy protestu i wyrażany jest sprze- ciw wobec planowania miejskiego, który

[r]

Oznaczenie zawartości sumy związków polifenolowych, w tym sumy kwasów fenolowych, flawonoidów i flawonoli w wy- ciągu wodnym, metanolowym i metanolowo-wodnym, oznaczenie

Aby otrzymać tego rodzaju układ, szczególnie w naukach społecznych, trzeba się odwołać do wielu istotnych właściwości elementarnych, tj.. Najbardziej cenne dla teorii

Jednym z nich jest to, że w przeszłości nowożeńcy łamali naczynia pod drzwiami domu, aby odjechać złe duchy.. Inny

Nauczyciel zapoznaje uczniów z następującymi pojęciami: terytorium, granica, morskie wody wewnętrzne, morze terytorialne oraz podaje dane dotyczące Polski (terytorium, morskie