„Transformacja danych w Rattle”
Zajęcia 18.04.2012
Wczytanie zbioru danych:
http://zsi.tech.us.edu.pl/~nowak/ed/pima.data.txt
Zbiór ten zawiera dane statystyczne dotyczące kobiet pod kątem klasyfikacji czy chorują na cukrzycę czy też nie. Jest to zbiór zawierający 768 elementów.
Po poprawnym wczytaniu danych przechodzimy do zakładki „Transform”.
W ramach transformacji danych można mówić o skalowaniu danych do przedziału 0-1, albo uzupełnianiu braków w danych czy przekodowywaniu danych numerycznych na jakościowe i odwrotnie.
Normalizacja do przedziale [0..1] wartości atrybutu „cukrzyca”
Krok 1. Dla atrybutu „cukrzyca” dokonamy skalowania [0..1]
Efekt:
W zakładce Explorer powstaje nam nowy wiersz…
Gdy podglądniemy dane…
To widzimy, że faktycznie minimalną wartością tej cechy jest 0, a maksymalną 1.
Proszę przeanalizować pozostałe opcje zakładki Transform (zwłaszcza opcję „recode ” oraz „impute” – do czego ona służy ?).
Dla swojego zbioru proszę dla jednej z cech opisujących obiekty zastosować skalowanie, jeśli brakuje pewnych wartości – uzupełnić te brakujące wartości, a dla pewnej cechy zastosować kodowanie.
W formie krótkiego sprawozdania proszę przesłać mailowo do północy w środę 18.04.2012.