Zajęcia nr VII – poznajemy Rattle i pakiet R. Okno główne Rattle wygląda następująco:

(1)

Zajęcia nr VII – poznajemy Rattle i pakiet R.

Okno główne Rattle wygląda następująco:

Widzimy główne zakładki:

Data – pozwala odczytad dane z różnych źródeł danych (pliki TXT, CSV) i inne bazy danych.

Jak widzimy po wczytaniu zbioru IRIS.TXT – użytkownik widzi jakie zmienne są w analizowanym zbiorze, jakiego typu (tutaj numeryczne), która zmienna została wybrana jako zmienna objaśniania (wtedy przy takiej zmiennej mamy

(2)

znacznik TARGET), pewne zmienne możemy ignorowad w analizach (kolumna IGNORE). Widzimy także w kolumnie COMMENT ile dany atrybut (cecha) ma unikalnych wartości, ile wartości brakujących.

Klikając przycisk VIEW otrzymujemy podgląd zbioru danych:

Z kolei klikając przycisk EDIT możemy edytowad analizowany zbiór danych.

W ramach statystyk [type = summary] podsumowujących zastosowad możemy:

 Explore – pozwoli przejrzed dane, dokonad podstawowych statystyki:

 Summary – statystyki podsumowujące

 Describe – statystyki opisujące

 Basics – statystyki podstawowe

 Kurtosis – mówi, jaka jest kurioza w analizowanym zbiorze

 Skewness – mówi o skośności danych w zbiorze

 Show Missing – jeśli jest zaznaczone uwzględnia braki w danych podczas analizy

(3)

Statystyki podsumowujące zazwyczaj dostarczają ogólnych informacji o danych. Możemy zobaczyd typ każdej danej, wartości minimalne, maksymalne, średnie oraz medianę i pierwszy oraz trzeci kwartyl.

Klikając w opcję „Describe”

(4)

Z kolei wybierając opcję „basic”

W ramach metod rozkładów danych [type = distribution] zastosowad możemy:

Wybierając np. opcję „Box plot” wygenerujemy wykresy pudełkowe dla wybranych zmiennych. Np. zaznaczając opcje Box plot dla zmiennej X5.1 i X0.2 otrzymamy następujące wykresy.

(5)

Zaznaczając opcję „histogram” dla tych samych zmiennych otrzymamy następujące wykresy:

(6)

Klikacjąc w zakładce Explore opcję Coorelation możemy obliczyd korelację zachodzącą między wszystkimi zmiennymi w analizowanym zbiorze.

Oprócz graficznej wizualizacji tej korelacji mamy także informację o konkretnych wartościach korelacji oraz o użytej do jej pomiaru metryce (czy to była miara Spearmana, Kendalla czy Pearsona).

Wybierając opcję „Principal Components” w zakładce Explore docieramy do analizy składowych głównych (Principal Component Analysis):

(7)

Zadanie 1.

Przejrzed zasoby Internetu i zapoznad się z celem metody analizy składowych głównych. Student powinien wiedzied do czego służy ta metoda, jakie ma wady i zalety, w jakich zastosowaniach najczęściej się ją spotyka, oraz jakie są jej wymagania co do danych podlegających takiej analizie.

Omijamy zakładkę TEST – służy ona do testowania hipotez statystycznych a tym się zajmowad na tym przedmiocie nie będziemy !!!

Przechodzimy do zakładki TRANSFORM. Mamy tu do czynienia z różnymi metodami transformacji danych, ich normalizacji i skalowania.

Tutaj student winien przypomnied sobie treśd zajęd http://zsi.tech.us.edu.pl/~nowak/ed/mv.pdf gdzie była mowa o normalizacji danych a także radzenia sobie z niekompletnością danych.

W zakładce transform dostępnych jest szereg narzędzi zarówno do zadania normalizacji jak i zadania wypełniania braków w danych.

Zakładka CLUSTER pozwoli na zastosowanie analizy skupieo do wydobywania wiedzy z danych. W tym celu student powinien przejrzed zasoby Internetu i zdobyd informacje wstępne o tym co jest celem analizy skupieo, co ona daje w efekcie.

(8)

Zakładkę PREDICTIVE będziemy z pewnością analizowad na zajęciach z PED. Bardzo popularną metodą analizy danych jest metoda generowania drzew decyzyjnych. Metoda ta pozwala na szybką klasyfikację danych.

W powiększeniu:

A klikając teraz opcję (przycisk) [Draw]otrzymujemy drzewo decyzyjne postaci:

(9)

Które można już zapisad w wybranym formacie: JPG, png czy PDF.

Zadanie do wykonania:

1. Dla swojego zbioru danych proszę wygenerowad skrócone charakterystyki, i dla wybranej cechy opisującej obiekty w tym zbiorze podad wartośd minimalną i maksymalną, a następnie wyrysowad dla niej odpowiednio wykres pudełkowy. Dla innej cechy (nie numerycznej) proszona podstawie charakterystyk opisowych podad wartośd dominującą w zbiorze, jaki ma ona zakres procentowy, i wyrysowad odpowiedni wykres dla niej.

2. Dla tego samego zbioru proszę przeskalowad wartości dla wybranej cechy nie numerycznej w kilku możliwych metodach.

3. Sprawdzid między którymi zmiennymi istnieje największa korelacja dodatnia bądź ujemna, a między którymi jest brak korelacji.