CZĘŚĆ III : PREPROCESSING DANYCH –

(1)

CZĘŚĆ III : PREPROCESSING DANYCH – NIEKOMPLETNOŚĆ DANYCH

Analizujemy zbiór danych „cars” dostępny pod adresem: http://www.sgi.com/tech/mlc/db dotyczący 261 samochodów i ich parametrów. Wybrano do analizy 10 rekordów:

mpg cylinders cubicinches Hp

14 8 350 165

31.9 4 89 71

17 8 302 140

15 - 400 150

30.5 - - -

23 - 350 125

13 - 351 158

14 8 - 215

25.4 5 - 77

37.7 4 89 62

Uzupełnij braki w danych wartością średnią.

Zadanie 1.

A teraz spróbuj wykonać to samo, ale brakujące dane uzupełnij wartością dominującą w zbiorze.

Zadanie 2.

Zakładając, że zbiór do analizy wygląda następująco:

Uzupełnij braki w danych wartością średnią.

(2)

Zadanie 3.

A co jeśli to dane jakościowe są niekompletne ?

Wstaw odpowiednią wartość w brakującą komórkę.

Krok 1. Metoda wstawienia zamiast znaku „?” tekstu „brak”

Metoda znajdowania wartości najczęściej występującej i wypełniania nią brakujących danych.

Krok 2a. Zliczanie wystąpień danej wartości tekstowej „K” i „M”.

(3)

Krok 2b. wybór tej wartości, która występuje najczęściej.

Krok.2c. Formula logiczna do wypelniania braków wartością najczęściej występującą.

(4)

CZĘŚĆ IV : PREPROCESSING DANYCH – WYKRYWANIE ODCHYLEŃ METODAMI NUMERYCZNYMI

1. Zakładając, że liczba przepracowanych godzin przez pracowników na rzecz nowego projektu wygląda następująco:

a) Znajdź odchylenia metodą wartości średniej i odchylenia standardowego.

b) Znajdź odchylenia metodą rozstępu międzykwartylowego.

2. Zebrano dane o wydatkach poniesionych na żywność przez kolejne 90 dni:

30, 171, 184, 201, 212, 250, 265, 270, 272, 289, 305, 306, 322, 322, 336, 346, 351, 370, 390, 404, 409, 411, 436, 437, 439, 441, 444, 448, 451, 453, 470, 480, 482, 487, 494, 495, 499, 503, 514, 521, 522, 527, 548, 550, 559, 560, 570, 572, 574, 578, 585, 592, 592, 607, 616, 618, 621, 629, 637, 638, 640, 656, 668, 707, 709, 719, 737, 739, 752, 758, 766, 792, 792, 794, 802, 818, 830, 832, 843, 858, 860, 869, 918, 925, 953, 991, 1000, 1005, 1068, 1441

Znajdź odchylenia jeśli występują.

CZĘŚĆ V : PREPROCESSING DANYCH – NORMALIZACJA DANYCH

Normalizacja prowadzi do przekształcania danych do formy uniwersalnej (takiego samego zakresu wartości):

 Metoda normalizacja Min-Max

 Metoda normalizacji Z-score

Ad. 1. Sprawdza jak bardzo wartość pola jest większa od wartości minimalnej (min(x)) i skaluje tę różnicę przez zakres:

a) Forma uproszczona:

b) Forma uniwersalna:

Gdzie:

New_min to nowa wartość minimalna, którą chcemy uzyskać New_max – nowa wartość maksymalna.

Min – to dotychczasowa wartość minimalna Max – dotychczasowa wartość maksymalna

) min(

) max(

) min(

) (

)

* min(

x x

x zakres

x x x



 

(5)

Zakładając, że mamy znormalizować następującą kolumnę (L). Wynik będzie następujący:

Jeśli jednak chcemy zmienić zakres nowej wartości dla kolumny L np. na zakres 1-10

Musimy skorzystać z wzoru uniwersalnego, i wówczas formula Excela będzie następująca:

Zadanie do wykonania dla studentów:

a) Przeprowadź dla podanych danych normalizację metodą Min-Max do zakresu od 1 do 5 b) Przeprowadź dla podanych danych normalizację metodą Min-Max do zakresu od 1 do 10

(6)

TEST KOŃCOWY UTRWALAJĄCY INFORMACJĘ Z WYKŁADU ORAZ LABORATORIUM NR 1.

Zadanie 1

Tętna spoczynkowe lekkoatletów wynoszą: 44;34;33;34;35;33;31;41;30;31;31;32;34;45;37;35 Wyznacz:

a) wykres pudełkowy (narysuj go ręcznie z zaznaczeniem wszystkich elementów) b) modę

c) medianę d) średnią e) wariancję f) kwartyle

g) Odchylenie standardowe Zadanie 2

Średnia temperatura w kolejnych miesiącach 1974 roku w Warszawie na Okęciu wynosiła:

-2,4; 4,2; 9,2; 22,6; 29,4; 31,6; 36,2; 26,8; 13,2; 6,8; 4,6

Przeprowadź dla podanych danych normalizację metodą Min-Max do zakresu od 1 do 8 Zadanie 3

Jeśli spojrzymy na wykres pudełkowy dla atrybutu „b” to:

 Ile ma on wartości?

 Co powiemy o wartościach w stosunku do wartości atrybutu „klasa”?

 Czy atrybut „b” może być dobrym klasyfikatorem obiektów w systemie ? Odpowiedź uzasadnij.

(7)

Zadanie 4

Jeśli spojrzymy na histogram dla atrybutu „klasa” to:

1. Ile atrybut „klasa” ma wartości?

2. Jaka jest liczność poszczególnych wartości atrybutu :”klasa” ?