• Nie Znaleziono Wyników

Zajęcia nr VII – poznajemy Rattle i pakiet R. Okno główne Rattle wygląda następująco:

N/A
N/A
Protected

Academic year: 2021

Share "Zajęcia nr VII – poznajemy Rattle i pakiet R. Okno główne Rattle wygląda następująco:"

Copied!
9
0
0

Pełen tekst

(1)

Zajęcia nr VII – poznajemy Rattle i pakiet R.

Okno główne Rattle wygląda następująco:

Widzimy główne zakładki:

Data – pozwala odczytad dane z różnych źródeł danych (pliki TXT, CSV) i inne bazy danych.

Jak widzimy po wczytaniu zbioru IRIS.TXT – użytkownik widzi jakie zmienne są w analizowanym zbiorze, jakiego typu (tutaj numeryczne), która zmienna została wybrana jako zmienna objaśniania (wtedy przy takiej zmiennej mamy

(2)

znacznik TARGET), pewne zmienne możemy ignorowad w analizach (kolumna IGNORE). Widzimy także w kolumnie COMMENT ile dany atrybut (cecha) ma unikalnych wartości, ile wartości brakujących.

Klikając przycisk VIEW otrzymujemy podgląd zbioru danych:

Z kolei klikając przycisk EDIT możemy edytowad analizowany zbiór danych.

W ramach statystyk [type = summary] podsumowujących zastosowad możemy:

 Explore – pozwoli przejrzed dane, dokonad podstawowych statystyki:

 Summary – statystyki podsumowujące

 Describe – statystyki opisujące

 Basics – statystyki podstawowe

 Kurtosis – mówi, jaka jest kurioza w analizowanym zbiorze

 Skewness – mówi o skośności danych w zbiorze

 Show Missing – jeśli jest zaznaczone uwzględnia braki w danych podczas analizy

(3)

Statystyki podsumowujące zazwyczaj dostarczają ogólnych informacji o danych. Możemy zobaczyd typ każdej danej, wartości minimalne, maksymalne, średnie oraz medianę i pierwszy oraz trzeci kwartyl.

Klikając w opcję „Describe”

(4)

Z kolei wybierając opcję „basic”

W ramach metod rozkładów danych [type = distribution] zastosowad możemy:

Wybierając np. opcję „Box plot” wygenerujemy wykresy pudełkowe dla wybranych zmiennych. Np. zaznaczając opcje Box plot dla zmiennej X5.1 i X0.2 otrzymamy następujące wykresy.

(5)

Zaznaczając opcję „histogram” dla tych samych zmiennych otrzymamy następujące wykresy:

(6)

Klikacjąc w zakładce Explore opcję Coorelation możemy obliczyd korelację zachodzącą między wszystkimi zmiennymi w analizowanym zbiorze.

Oprócz graficznej wizualizacji tej korelacji mamy także informację o konkretnych wartościach korelacji oraz o użytej do jej pomiaru metryce (czy to była miara Spearmana, Kendalla czy Pearsona).

Wybierając opcję „Principal Components” w zakładce Explore docieramy do analizy składowych głównych (Principal Component Analysis):

(7)

Zadanie 1.

Przejrzed zasoby Internetu i zapoznad się z celem metody analizy składowych głównych. Student powinien wiedzied do czego służy ta metoda, jakie ma wady i zalety, w jakich zastosowaniach najczęściej się ją spotyka, oraz jakie są jej wymagania co do danych podlegających takiej analizie.

Omijamy zakładkę TEST – służy ona do testowania hipotez statystycznych a tym się zajmowad na tym przedmiocie nie będziemy !!!

Przechodzimy do zakładki TRANSFORM. Mamy tu do czynienia z różnymi metodami transformacji danych, ich normalizacji i skalowania.

Tutaj student winien przypomnied sobie treśd zajęd http://zsi.tech.us.edu.pl/~nowak/ed/mv.pdf gdzie była mowa o normalizacji danych a także radzenia sobie z niekompletnością danych.

W zakładce transform dostępnych jest szereg narzędzi zarówno do zadania normalizacji jak i zadania wypełniania braków w danych.

Zakładka CLUSTER pozwoli na zastosowanie analizy skupieo do wydobywania wiedzy z danych. W tym celu student powinien przejrzed zasoby Internetu i zdobyd informacje wstępne o tym co jest celem analizy skupieo, co ona daje w efekcie.

(8)

Zakładkę PREDICTIVE będziemy z pewnością analizowad na zajęciach z PED. Bardzo popularną metodą analizy danych jest metoda generowania drzew decyzyjnych. Metoda ta pozwala na szybką klasyfikację danych.

W powiększeniu:

A klikając teraz opcję (przycisk) [Draw]otrzymujemy drzewo decyzyjne postaci:

(9)

Które można już zapisad w wybranym formacie: JPG, png czy PDF.

Zadanie do wykonania:

1. Dla swojego zbioru danych proszę wygenerowad skrócone charakterystyki, i dla wybranej cechy opisującej obiekty w tym zbiorze podad wartośd minimalną i maksymalną, a następnie wyrysowad dla niej odpowiednio wykres pudełkowy. Dla innej cechy (nie numerycznej) proszona podstawie charakterystyk opisowych podad wartośd dominującą w zbiorze, jaki ma ona zakres procentowy, i wyrysowad odpowiedni wykres dla niej.

2. Dla tego samego zbioru proszę przeskalowad wartości dla wybranej cechy nie numerycznej w kilku możliwych metodach.

3. Sprawdzid między którymi zmiennymi istnieje największa korelacja dodatnia bądź ujemna, a między którymi jest brak korelacji.

Cytaty

Powiązane dokumenty

Ojczyzny oraz pomyślność obywateli będą dla mnie zawsze najwyższym nakazem". Przysięga może być złożona z dodaniem zdania "Tak mi dopomóż Bóg"... Jeżeli

Przystępując do oceny wpływu metod chemicznych na czytelność śladów linii papilarnych naniesionych bada- nymi substancjami śladotwórczymi, ustalono następujące

Zestaw zadań 2: grupy, pierścienie i ciała.. Czy jest rozdzielne

Oddział Łódzkiego Stowarzyszenia Pisarzy Polskich, Festiwal Puls Literatury oraz Dom Literatury w Łodzi.. zachęcają do wzięcia

Dobór stabilizujący – utrwalane są w puli genowej populacji cechy zbliżone do średniej, cechy o skrajnych wartościach są eliminowane.. Dzięki temu następuje

Na tej lekcji poćwiczymy działania w zbiorze liczb całkowitych , zwłaszcza zadania tekstowe.. Wykonaj zadania :

Drzewa decyzyjne oraz analiza skupień w środowisku Rattle.. Wczytanie

Pozwala ocenić w jakim stopniu wykres punktów indywidualnych jest bliski pewnej prostej lub czy zmiana jednej cechy powoduje proporcjonalną zmianę wartości drugiej