• Nie Znaleziono Wyników

CZĘŚĆ III : PREPROCESSING DANYCH –

N/A
N/A
Protected

Academic year: 2021

Share "CZĘŚĆ III : PREPROCESSING DANYCH –"

Copied!
7
0
0

Pełen tekst

(1)

CZĘŚĆ III : PREPROCESSING DANYCH – NIEKOMPLETNOŚĆ DANYCH

Analizujemy zbiór danych „cars” dostępny pod adresem: http://www.sgi.com/tech/mlc/db dotyczący 261 samochodów i ich parametrów. Wybrano do analizy 10 rekordów:

mpg cylinders cubicinches Hp

14 8 350 165

31.9 4 89 71

17 8 302 140

15 - 400 150

30.5 - - -

23 - 350 125

13 - 351 158

14 8 - 215

25.4 5 - 77

37.7 4 89 62

Uzupełnij braki w danych wartością średnią.

Zadanie 1.

A teraz spróbuj wykonać to samo, ale brakujące dane uzupełnij wartością dominującą w zbiorze.

Zadanie 2.

Zakładając, że zbiór do analizy wygląda następująco:

Uzupełnij braki w danych wartością średnią.

(2)

Zadanie 3.

A co jeśli to dane jakościowe są niekompletne ?

Wstaw odpowiednią wartość w brakującą komórkę.

Krok 1. Metoda wstawienia zamiast znaku „?” tekstu „brak”

Metoda znajdowania wartości najczęściej występującej i wypełniania nią brakujących danych.

Krok 2a. Zliczanie wystąpień danej wartości tekstowej „K” i „M”.

(3)

Krok 2b. wybór tej wartości, która występuje najczęściej.

Krok.2c. Formula logiczna do wypelniania braków wartością najczęściej występującą.

(4)

CZĘŚĆ IV : PREPROCESSING DANYCH – WYKRYWANIE ODCHYLEŃ METODAMI NUMERYCZNYMI

1. Zakładając, że liczba przepracowanych godzin przez pracowników na rzecz nowego projektu wygląda następująco:

a) Znajdź odchylenia metodą wartości średniej i odchylenia standardowego.

b) Znajdź odchylenia metodą rozstępu międzykwartylowego.

2. Zebrano dane o wydatkach poniesionych na żywność przez kolejne 90 dni:

30, 171, 184, 201, 212, 250, 265, 270, 272, 289, 305, 306, 322, 322, 336, 346, 351, 370, 390, 404, 409, 411, 436, 437, 439, 441, 444, 448, 451, 453, 470, 480, 482, 487, 494, 495, 499, 503, 514, 521, 522, 527, 548, 550, 559, 560, 570, 572, 574, 578, 585, 592, 592, 607, 616, 618, 621, 629, 637, 638, 640, 656, 668, 707, 709, 719, 737, 739, 752, 758, 766, 792, 792, 794, 802, 818, 830, 832, 843, 858, 860, 869, 918, 925, 953, 991, 1000, 1005, 1068, 1441

Znajdź odchylenia jeśli występują.

CZĘŚĆ V : PREPROCESSING DANYCH – NORMALIZACJA DANYCH

Normalizacja prowadzi do przekształcania danych do formy uniwersalnej (takiego samego zakresu wartości):

 Metoda normalizacja Min-Max

 Metoda normalizacji Z-score

Ad. 1. Sprawdza jak bardzo wartość pola jest większa od wartości minimalnej (min(x)) i skaluje tę różnicę przez zakres:

a) Forma uproszczona:

b) Forma uniwersalna:

Gdzie:

New_min to nowa wartość minimalna, którą chcemy uzyskać New_max – nowa wartość maksymalna.

Min – to dotychczasowa wartość minimalna Max – dotychczasowa wartość maksymalna

) min(

) max(

) min(

) (

)

* min(

x x

x x

x zakres

x x x

 

 

(5)

Zakładając, że mamy znormalizować następującą kolumnę (L). Wynik będzie następujący:

Jeśli jednak chcemy zmienić zakres nowej wartości dla kolumny L np. na zakres 1-10

Musimy skorzystać z wzoru uniwersalnego, i wówczas formula Excela będzie następująca:

Zadanie do wykonania dla studentów:

a) Przeprowadź dla podanych danych normalizację metodą Min-Max do zakresu od 1 do 5 b) Przeprowadź dla podanych danych normalizację metodą Min-Max do zakresu od 1 do 10

(6)

TEST KOŃCOWY UTRWALAJĄCY INFORMACJĘ Z WYKŁADU ORAZ LABORATORIUM NR 1.

Zadanie 1

Tętna spoczynkowe lekkoatletów wynoszą: 44;34;33;34;35;33;31;41;30;31;31;32;34;45;37;35 Wyznacz:

a) wykres pudełkowy (narysuj go ręcznie z zaznaczeniem wszystkich elementów) b) modę

c) medianę d) średnią e) wariancję f) kwartyle

g) Odchylenie standardowe Zadanie 2

Średnia temperatura w kolejnych miesiącach 1974 roku w Warszawie na Okęciu wynosiła:

-2,4; 4,2; 9,2; 22,6; 29,4; 31,6; 36,2; 26,8; 13,2; 6,8; 4,6

Przeprowadź dla podanych danych normalizację metodą Min-Max do zakresu od 1 do 8 Zadanie 3

Jeśli spojrzymy na wykres pudełkowy dla atrybutu „b” to:

 Ile ma on wartości?

 Co powiemy o wartościach w stosunku do wartości atrybutu „klasa”?

 Czy atrybut „b” może być dobrym klasyfikatorem obiektów w systemie ? Odpowiedź uzasadnij.

(7)

Zadanie 4

Jeśli spojrzymy na histogram dla atrybutu „klasa” to:

1. Ile atrybut „klasa” ma wartości?

2. Jaka jest liczność poszczególnych wartości atrybutu :”klasa” ?

Cytaty

Powiązane dokumenty

Szymu- sik stwierdza, iż "w przypadku wystąpienia zaburzeń reaktywnych należy dążyć do za- kończenia śledztwa i doprowadzenia do roz- prawy sądowej,

Przy założeniu, że długości rozmów mają rozkład normalny, wyznacz przedział ufności dla średniej długości rozmowy na poziomie ufności

Pytanie brzmi: czy wolimy A od B, ponieważ bar- dziej cenimy A? Powołując się na uznawane przez siebie wartości i wynikające z nich preferencje uzasadniamy swoje wybory, lecz

koszt ukończenia, szacowane koszty do poniesienia, odchylenie kosztów ukończenia, wartość planowaną na tym etapie realizacji, wskaźnik

Podobnie, jeśli dla każdej liczby bliźniaczej istnieje liczba bliźniacza od niej większa, to jest to obiektywny fakt, niezależny od tego, czy ktoś o tym wie czy nie.. Dlatego

Biorąc to p o d uwagę, Redak­ cja zdecydowała się otworzyć bieżący zeszyt tekstem Tomasza Kizwaltera poświęco­ nym związkom nauki z polityką. PRZEGLĄD HISTORYCZNY, TOM

aks Over Threshold, POT) wywodzący się z teorii wartości ekstremalnych (Extreme Value Theory, EVT) do oceny grubości ogona i indeks ekstremalny (Extremal Index)... Modelowanie

Among the studied Ti6Al4V-TNT systems, obtained with the use of low-potential anodic oxidation of titanium alloy, only the TNT5 surface appears to maintain an appropriate