Metody wykrywania odchyleo w danych. Metody wykrywania braków w

(1)

Metody wykrywania odchyleo w danych.

Metody wykrywania braków w danych.

Korelacja.

PED – lab 4

(2)

• Błędne dane typu dochód z minusem na początku: to błąd we wprowadzaniu danych, czy faktyczny ujemny dochód ?

Co z danymi oddalonymi ?

(3)

• Np. wartość „99999” może być prawidłową daną, a może być także błędem w danych. W starszych BD pewne określone wartości oznaczały kod dla niewłaściwie wprowadzonych danych i właśnie wartość

„99999” może być w tym względzie wartością oznaczającą błąd.

Inne problemy z danymi?

(4)

• Np. kolumna „wiek” czy „rok_urodzenia” ?

• Czy jest jakas różnica między nimi ?

• Wiek - źle, rok_urodzenia - dobrze

Złe dane

(5)

Nie wiadomo jaka jest przyczyna braku danych i jak z tymi brakami w danych postępować.

Powody niekompletności danych:

• atrybuty najbardziej pożądane do analizy mogą być niedostępne

• dane nie były możliwe do zdobycia w określonym czasie, co spowodowało nie zidentyfikowanie pewnych ważnych zależności

• czasami winą jest błąd pomiaru

• dane mogły być zapisane ale potem usunięte

• o prostu może brakować pewnych wartości dla atrybutów.

Brakujące dane – bardzo poważnym problemem przy analizie danych

(6)

Są 2 możliwości:

1. Pomijanie danych – niebezpieczny krok 2. Zastępowanie danych (różne metody):

1. Zastąpienie pewną stałą podaną przez analityka

2. Zastąpienie wartością średnią lub modalną 3. Zastąpienie wartością losową.

Metody na brakujące dane:

(7)

• Braki w danych numerycznych zastępuje się wartością „0”

• Braki w danych tekstowych zastępuje się wartością „missing”

Ad .1. Zastąpienie pewną stałą podaną przez analityka

(8)

• Dane numeryczne zastępuje się wartością średnią w zbiorze danych

• Dane nienumeryczne (tekstowe) zastępuje się wartością modalną a więc wartością najczęściej występującą w zbiorze.

Ad. 2. Zastąpienie wartością średnią lub modalną

(9)

•w 1 przypadku dane z uwzględnieniem danych brakujących

•w 2 przypadku dane z uwzględnieniem metod interpolacji

•w 3 przypadku gdy dane brakujące są ignorowane, a więc nie są brane pod uwagę przy wykreślaniu wykresu.

(10)

Przypuśćmy, że mamy do czynienia ze zbiorem danych, w którym brak niektórych informacji. Konkretnie brakuje nam stawki godzinowej w wierszu 2 oraz informacji o czasie pracy w wierszu 11.

R i Rattle a brakujące dane

W Rattle w zakładce „Transform” możemy użyć jednej z kilku metod radzenia sobie z brakami w danych:

Zero/Missing – zastępowanie braków w danych wartością „0”

Mean – zastępowanie braków w danych wartością średnią w danym zbiorze (tutaj można rozważyć także uśrednianie w ramach danej podgrupy!!!)

Median – zastępowanie braków w danych medianą w danym zbiorze

Mode– zastępowanie braków w danych modą w danym zbiorze

Constant – stała wartość, którą będą

zastępowane wszelkie braki w danych. Może to być np. wartość 0, "unknown", "N/A" lub -

(11)

(12)

(13)

Efekt:

Gdzie widzimy, że zarówno wiersz 2 jak i 11 mają teraz nowe wartości:

będące wartościami średnimi w zbiorze.

(14)

Zero/Missing

(15)

Efekt:

(16)

• Metoda zastępowania braków w danych w dużej mierze zależy od typu danych. Gdy brakuje danych w kolumnach z danymi numerycznymi często stosuje się uzupełnianie braków w danych wartością średnią czy medianą np.

Jednak jeśli brakuje danych w kolumnach z danymi typu nominalnego wówczas powinno się wypełniać braki wartością najczęściej występującą w zbiorze !

(17)

• Metoda ta polega na tym, by znaleźć K takich przykładów, które są najbardziej podobne do obiektu, dla którego mamy pewne wartości puste. Wówczas brakująca wartość jest wyznaczana jako średnia wartość tej danej (zmiennej, kolumny) wśród tych K wybranych wartości.

• Wówczas wartość brakująca jest wypełniana jako:

• , gdzie I_Kih jest zbiorem przykładów wziętych pod uwagę jako najbardziej podobne obserwacje, y_jh jest wartością brakującą.

Wadą tej metody jest fakt, że nie wiadomo jaka wartość liczby K jest najwłaściwsza – i dobiera się ją czysto doświadczalnie.

Zastosowanie metody „k-NN” do

uzupełniania braków w danych

(18)

Widzimy, że w komórce K1 brakuje wartości. Excel rozpoznaje komórki z błędnymi wartościami – w tym przypadku będzie to zawartość tej komórki równa „?” i nie wlicza takich wartości przy podstawowych statystykach tupu średnia czy mediana.

Przykład

średnia 3.875

mediana 4

średnia w grupie 1.666667

(19)

(20)

Punkty oddalone to skrajne wartości, znajdujące się blisko granic zakresu danych bądź są sprzeczne z ogólnym trendem pozostałych danych.

Metody:

1. Histogram lub dwuwymiarowe wykresy rozrzutu, które potrafią wskazać obserwacje oddalone dla więcej niż 1 zmiennej.

Graficzne metody wykrywania

wartości oddalonych:

(21)

histogram

(22)

Histogram 2

(23)

Wykres rozrzutu

(24)

Płatki śniadaniowe

Liczba obserwacji: 77

Wartości brakujące są opisane jako „-1”

http://lib.stat.cmu.edu/DASL/Datafiles/Cereals.html

(25)

1. Metoda oparta na średniej i odchyleniu standardowym

2. Rozstęp międzykwartylowy

Numeryczne metody wykrywania

danych oddalonych (outlierów):

(26)

• Punkt oddalony to przecież taki punkt który jest oddalony od średniej o dużo więcej niż odchylenie standardowe, np. 2 razy odchylenie standardowe.

• Niestety średnia i odchylenie standardowe biorą udział we wzorze na standaryzację, i dlatego są raczej wrażliwe na obecność punktów oddalonych.

Ad.1. Metoda oparta na średniej i

odchyleniu standardowym

(27)

Często do wykrywania odchyleń w danych używa się wartości średniej i odchylenia standardowego. Mówi się wówczas, że jeśli jakaś wartość jest większa bądź mniejsza o wartość równą dwukrotnej wartości odchylenia standardowego od wartości średniej to należy ją uznać za odchylenie.

(28)

• To bardziej odporna metoda.

• Kwartyle dzielą zbiór danych na 4 części z których każda zawiera 25 % danych.

• Rozstęp międzykwartylowy to miara zmienności, która jest dużo bardziej odporna niż odchylenie standardowe

• IRQ = Q3 – Q1

Ad.2. Rozstęp międzykwartylowy IQR

Q1 – pierwszy kwartyl Q3 – trzeci kwartyl

(29)

• lower inner fence: Q1 - 1.5*IQ

• upper inner fence: Q3 + 1.5*IQ

• lower outer fence: Q1 - 3*IQ

• upper outer fence: Q3 + 3*IQ

• A point beyond an inner fence on either side is considered a mild outlier. A point beyond an outer fence is considered an extreme outlier.

(30)

• Jest położona przynajmniej o 1.5 x IQR poniżej Q1 (a więc:  Q1-1.5 * IQR )

• Jest położona przynajmniej o 1.5 x IQR powyżej Q3 (a więc  Q3+1.5 * IQR )

Dana jest punktem oddalonym gdy:

(31)

Zbiór danych

30, 171, 184, 201, 212, 250, 265, 270, 272, 289,

305, 306, 322, 322, 336, 346, 351, 370, 390, 404, 409, 411, 436, 437, 439, 441, 444, 448, 451, 453, 470, 480, 482, 487, 494, 495, 499, 503, 514, 521, 522, 527, 548, 550, 559, 560, 570, 572, 574, 578, 585, 592, 592, 607, 616, 618, 621, 629, 637, 638, 640, 656, 668, 707, 709, 719, 737, 739, 752, 758, 766, 792, 792, 794, 802, 818, 830, 832, 843, 858, 860, 869, 918, 925, 953, 991, 1000, 1005, 1068, 1441

(32)

Obliczenia…

• Median = (n+1)/2 largest data point = the average of the 45th and 46th ordered points = (559 + 560)/2 = 559.5

• Lower quartile = .25(N+1)= .25*91= 22.75th ordered point

= 411 + .75(436-411) = 429.75

• Upper quartile = .75(N+1)=0.75*91= = 68.25th ordered point = 739 +.25(752-739) = 742.25

• Interquartile range = 742.25 - 429.75 = 312.5

• Lower inner fence = 429.75 - 1.5 (312.5) = -39.0

• Upper inner fence = 742.25 + 1.5 (312.5) = 1211.0

• Lower outer fence = 429.75 - 3.0 (312.5) = -507.75

• Upper outer fence = 742.25 + 3.0 (312.5) = 1679.75

(33)

Odchyleniem jest…

30, 171, 184, 201, 212, 250, 265, 270, 272, 289, 305, 306, 322, 322, 336, 346, 351, 370, 390, 404, 409, 411, 436, 437, 439, 441, 444, 448, 451, 453, 470, 480, 482, 487, 494, 495, 499, 503, 514, 521, 522, 527, 548, 550, 559, 560, 570, 572, 574, 578, 585, 592, 592, 607, 616, 618, 621, 629, 637, 638, 640, 656, 668, 707, 709, 719, 737, 739, 752, 758, 766, 792, 792, 794, 802, 818, 830, 832, 843, 858, 860, 869, 918, 925, 953, 991, 1000, 1005, 1068, 1441

MIN= -39.0 MAX = 1211.0

(34)

Co po wykładzie powinniśmy wiedzied

?

• Jak wykrywad wartości oddalone w zbiorze danych ?

• Jak zastępowad braki w danych ?

• Czy typ danych ma wpływ na wybór graficznej reprezentacji ?

• W czym może pomóc eksploracja danych ?