• Nie Znaleziono Wyników

A jaka dla zbioru ? 3

N/A
N/A
Protected

Academic year: 2021

Share "A jaka dla zbioru ? 3"

Copied!
10
0
0

Pełen tekst

(1)

Laboratorium nr 1

CZĘŚĆ I : STATYSTYKA OPISOWA :

1. Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

6,9,1,2,5,2,6,2,1,0,1,4,5,6,3,7,3,2,2,3,8,5,3,4,8,0,8,0,5,1,6,4,8,0,3,2 2. Jaka będzie moda dla zbioru: 3; 4; 5; 6; 7; 7; 7; 8; 8; 9 ? Odp 7

3. A jaka dla zbioru ? 3; 4; 5; 6; 7; 7; 7; 8; 8; 8; 9 ? Odp {7,8} albo 7.5

4. jaka będzie mediana dla 3; 4; 7; 2; 3; 7; 4; 2; 4; 7; 4 ? Odp: 2; 2; 3; 3; 4; 4; 4; 4; 7; 7; 7 5. jaka będzie wartość średnia dla zbioru: 3; 4; 5; 7; 7; 8; 9; 9; 9 Odp 61/9 = 6.78

6. Jaki będzie rozstęp zbioru: 2; 3; 4; 6; 7; 7; 8; 9 Odp 9-2 = 7

7. Kwartyle: dla zbioru: 3; 4; 7; 2; 3; 7; 4; 2; 4; 7; 4 Najpierw sortujemy: 2; 2; 3; 3; 4; 4; 4; 4;7; 7; 7,

Mediana, q2 = 4, Q1 to wartość środkowa z danych: 2; 2; 3; 3; 4 a więc 3, Q3 to wartość srodkowa z danych: 4; 4;7; 7; 7 a wiec 7, IRQ = q3-q1 = 7-3 = 4

8. Oblicz wariancję dla danych: 3; 4; 4; 5; 5; 5; 6; 6; 6; 7; 7; 8; 9 Będzie liczona ze wzoru:

Gdzie:

xi – to bieżący element, to średnia wartość x, zaś n –to liczba obserwacji.

=( 3 4 4 5 5 5 6 6 6 7 7 8 9)/13= 5.8 Tabela pomocnicza wygląda tak:

Teraz wystarczy podstawić odpowiednie wartości do wzoru:

(2)

9. Odchylenie standardowe będzie liczone ze wzoru:

Czyli pierwiastek (14.74) = 3.84

Zadania do wykonania dla studentów:

Zadanie 1.

Zbadano profile klientów banku A pod względem liczby osób w rodzinie. Wyniki były następujące:

3,5,3,4,4,4,5,3,6,4,4,4,2,3,4,2,3,4,5,4.

 Oblicz średnią , medianę i modę.

 Oblicz q1,q3.

 Narysuj odpowiedni wykres prezentujący rozkład wartości w zbiorze.

Zadanie 2.

W pewnej firmie przeprowadzono ankietę dotyczącą liczby telefonów zgłaszających awarię u klientów w ciągu ostatnich 6 miesiecy. Uzyskane wyniki są następujące:

Liczba awarii

0 1 2 3 4 5

Liczba klientów

35 25 15 10 10 5

Czy prawdą jest, że:

 Średnia liczba zgłoszonych awarii wynosiła 1.3 ?

 W badanej próbie najczęściej zgłaszano 2 awarie ?

 50 % badanej grupy zgłosiło co najwyżej 1 awarię ?

(3)

CZĘŚĆ II : GRAFICZNA REPREZENTACJA DANYCH :

1. Narysować i opisać elementy wykresu pudełkowego dla obserwacji: 8,5,17,18,9,4,17,16,12 2. Narysować histogram dla obserwacji (przyjąć 5 przedziałów): 8,5,17,18,9,4,17,16,12,14,15,53.

3. Jeśli spojrzymy na histogram poniżej dla atrybutu „klasa” to:

 Ile atrybut „klasa” ma wartości?

 Jaka jest liczność poszczególnych wartości atrybutu :”klasa” ?

4. Jeśli spojrzymy na wykres pudełkowy dla atrybutu „b” to:

 Ile ma on wartości?

 Co powiemy o wartościach w stosunku do wartości atrybutu „klasa”?

 Czy atrybut „b” może być dobrym klasyfikatorem obiektów w systemie ? Odpowiedź uzasadnij.

(4)

CZĘŚĆ III : PREPROCESSING DANYCH – NIEKOMPLETNOŚĆ DANYCH

Analizujemy zbiór danych „cars” dostępny pod adresem: http://www.sgi.com/tech/mlc/db dotyczący 261 samochodów i ich parametrów. Wybrano do analizy 10 rekordów:

mpg cylinders cubicinches Hp

14 8 350 165

31.9 4 89 71

17 8 302 140

15 - 400 150

30.5 - - -

23 - 350 125

13 - 351 158

14 8 - 215

25.4 5 - 77

37.7 4 89 62

Uzupełnij braki w danych wartością średnią.

Zadanie 1.

A teraz spróbuj wykonać to samo, ale brakujące dane uzupełnij wartością dominującą w zbiorze.

Zadanie 2.

Zakładając, że zbiór do analizy wygląda następująco:

Uzupełnij braki w danych wartością średnią.

(5)

Zadanie 3.

A co jeśli to dane jakościowe są niekompletne ?

Wstaw odpowiednią wartość w brakującą komórkę.

Krok 1. Metoda wstawienia zamiast znaku „?” tekstu „brak”

Metoda znajdowania wartości najczęściej występującej i wypełniania nią brakujących danych.

Krok 2a. Zliczanie wystąpień danej wartości tekstowej „K” i „M”.

(6)

Krok 2b. wybór tej wartości, która występuje najczęściej.

Krok.2c. Formula logiczna do wypelniania braków wartością najczęściej występującą.

(7)

CZĘŚĆ IV : PREPROCESSING DANYCH – WYKRYWANIE ODCHYLEŃ METODAMI NUMERYCZNYMI

1. Zakładając, że liczba przepracowanych godzin przez pracowników na rzecz nowego projektu wygląda następująco:

a) Znajdź odchylenia metodą wartości średniej i odchylenia standardowego.

b) Znajdź odchylenia metodą rozstępu międzykwartylowego.

2. Zebrano dane o wydatkach poniesionych na żywność przez kolejne 90 dni:

30, 171, 184, 201, 212, 250, 265, 270, 272, 289, 305, 306, 322, 322, 336, 346, 351, 370, 390, 404, 409, 411, 436, 437, 439, 441, 444, 448, 451, 453, 470, 480, 482, 487, 494, 495, 499, 503, 514, 521, 522, 527, 548, 550, 559, 560, 570, 572, 574, 578, 585, 592, 592, 607, 616, 618, 621, 629, 637, 638, 640, 656, 668, 707, 709, 719, 737, 739, 752, 758, 766, 792, 792, 794, 802, 818, 830, 832, 843, 858, 860, 869, 918, 925, 953, 991, 1000, 1005, 1068, 1441

Znajdź odchylenia jeśli występują.

CZĘŚĆ V : PREPROCESSING DANYCH – NORMALIZACJA DANYCH

Normalizacja prowadzi do przekształcania danych do formy uniwersalnej (takiego samego zakresu wartości):

 Metoda normalizacja Min-Max

 Metoda normalizacji Z-score

Ad. 1. Sprawdza jak bardzo wartość pola jest większa od wartości minimalnej (min(x)) i skaluje tę różnicę przez zakres:

a) Forma uproszczona:

b) Forma uniwersalna:

Gdzie:

New_min to nowa wartość minimalna, którą chcemy uzyskać New_max – nowa wartość maksymalna.

Min – to dotychczasowa wartość minimalna Max – dotychczasowa wartość maksymalna Przykłady:

) min(

) max(

) min(

) (

)

* min(

x x

x x

x zakres

x x x

 

 

(8)

Zakładając, że mamy znormalizować następującą kolumnę (L). Wynik będzie następujący:

Jeśli jednak chcemy zmienić zakres nowej wartości dla kolumny L np. na zakres 1-10

Musimy skorzystać z wzoru uniwersalnego, i wówczas formula Excela będzie następująca:

Zadanie do wykonania dla studentów:

a) Przeprowadź dla podanych danych normalizację metodą Min-Max do zakresu od 1 do 5 b) Przeprowadź dla podanych danych normalizację metodą Min-Max do zakresu od 1 do 10

(9)

TEST KOŃCOWY UTRWALAJĄCY INFORMACJĘ Z WYKŁADU ORAZ LABORATORIUM NR 1.

Zadanie 1

Tętna spoczynkowe lekkoatletów wynoszą: 44;34;33;34;35;33;31;41;30;31;31;32;34;45;37;35 Wyznacz:

a) wykres pudełkowy (narysuj go ręcznie z zaznaczeniem wszystkich elementów) b) modę

c) medianę d) średnią e) wariancję f) kwartyle

g) Odchylenie standardowe Zadanie 2

Średnia temperatura w kolejnych miesiącach 1974 roku w Warszawie na Okęciu wynosiła:

-2,4; 4,2; 9,2; 22,6; 29,4; 31,6; 36,2; 26,8; 13,2; 6,8; 4,6

Przeprowadź dla podanych danych normalizację metodą Min-Max do zakresu od 1 do 8 Zadanie 3

Jeśli spojrzymy na wykres pudełkowy dla atrybutu „b” to:

 Ile ma on wartości?

 Co powiemy o wartościach w stosunku do wartości atrybutu „klasa”?

 Czy atrybut „b” może być dobrym klasyfikatorem obiektów w systemie ? Odpowiedź uzasadnij.

(10)

Zadanie 4

Jeśli spojrzymy na histogram dla atrybutu „klasa” to:

1. Ile atrybut „klasa” ma wartości?

2. Jaka jest liczność poszczególnych wartości atrybutu :”klasa” ?

Cytaty

Powiązane dokumenty

Przy założeniu, że długości rozmów mają rozkład normalny, wyznacz przedział ufności dla średniej długości rozmowy na poziomie ufności

Pytanie brzmi: czy wolimy A od B, ponieważ bar- dziej cenimy A? Powołując się na uznawane przez siebie wartości i wynikające z nich preferencje uzasadniamy swoje wybory, lecz

koszt ukończenia, szacowane koszty do poniesienia, odchylenie kosztów ukończenia, wartość planowaną na tym etapie realizacji, wskaźnik

Podobnie, jeśli dla każdej liczby bliźniaczej istnieje liczba bliźniacza od niej większa, to jest to obiektywny fakt, niezależny od tego, czy ktoś o tym wie czy nie.. Dlatego

[r]

[r]

rachunek prawdopodobieństwa i statystyka matematyczna (4inf, rpism,

Metoda znajdowania wartości najczęściej występującej i wypełniania nią brakujących danych. Zliczanie wystąpień danej wartości tekstowej „K” i „M”.. wybór tej