Matematyka stosowana ze statystyką II
Zarządzanie danymi i elementy statystyki opisowej
Krótkie omówienie
— Operacje na zmiennej X będącej ramką danych (obiektem klasy data.frame):
? odwołanie do kolumny Płeć: X$Płeć
? odwołanie do n-tego elementu kolumny: X$Płeć[n]
? usuwanie n-tego elementu kolumny: X$Płeć[-n]
? usuwanie kolumny z ramki danych: X$Płeć = NULL
? symbol braku danych: NA
— Niektóre statystyki: range, mean, sd, var, median, quantile, IQR, skewness, kurtosis (dwie ostatnie funkcje wymagają wcześniejszego załadowania biblioteki moments za pomocą funkcji library)
— Histogram dla zmiennej niemierzalnej (kategorycznej):
? ggplot(ramka, aes(x=zmienna))+geom bar(fill=’kolor’, col=’kolor’)+ylab(’opis’)
? barplot(table(zmienna), ylab = ’opis’)
— Histogram dla zmiennej mierzalnej:
? ggplot(zbiór danych, aes(x=zmienna)) + geom histogram(fill=’kolor’, col=’kolor’, binwidth=szerokość klasy) + ylab(’opis’)
? hist(zmienna)
— diagram łodyga-liście: stem(zmienna)
— wykres pudełkowy (ramka-wąsy):
? ggplot(zbiór danych, aes(x = zmienna kategoryczna, y = zmienna mierzalna)) + geom boxplot(fill = ’kolor’, col = ’kolor’)
? boxplot(zmienna mierzalna ~ zmienna kategoryczna)
Zadania do samodzielnego rozwiązania
1. Wczytać dane z pliku (funkcja read.table(’ścieżka’, header=TRUE)).
a) przekodować zm. kategoryczne (użyć factor), nadając poziomom (levels) etykiety (labels):
Płeć 1 — M, 2 — K
M.zamieszk 1 — Mieszkanie, 2 — Akademik, 3 — Stancja Sz.średnia 1 — LO (PM), 2 — LO (RM), 3 — TI, 4 — Inna
System 1 — Windows 10, 2 — Windows 8 lub starszy, 3 — Inny F.studiów 1 — S, 2 — N
1
b) wyświetlić podsumowanie danych (użyć summary) i ocenić wartości skrajne zmiennych mie- rzalnych;
c) napisać funkcję zakres3sigm, która zwróci dla dowolnej zmiennej lewy.kres / prawy.kres jako średnią -/+ trzy odchylenia standardowe;
d) dla zmiennej Średnia wyznaczyć ewentualne dane odstające (korzystając z funkcji zakres3sigm) i zastąpić je średnią;
e) utworzyć podzbiory danych Ankieta.M i Ankieta.K dla mężczyzn i kobiet odpowiednio (użyć split);
f) dla zmiennych Waga i Wzrost wyznaczyć ewentualne dane odstające dla obu płci i zastąpić je średnią;
g) utworzyć nową zmienną Waga.dag, zawierającą wagę w dekagramach, a następnie ją usunąć;
h) utworzyć nową zmienną L.g.kody, w której zostaną umieszczone 3 przedziały liczbowe od- powiadające ustalonym kategoriom: ’krótko’, ’średnio’, ’długo’ (użyć cut) i wyświetlić liczności przedziałów;
i) zapisz przetworzony zbiór za pomocą funkcji write.table (pomiń nazwy wierszy).
2. Wyznaczyć histogramy dla zmiennych M.zamieszk, Sz.średnia i System.
3. Dla zmiennych Waga i Wzrost w grupie mężczyzn:
a) wyznaczyć i zinterpretować odpowiednie miary położenia, zmienności, asymetrii i koncentracji
— w tym celu napisać funkcję parametry.opisowe, która dla dowolnej zmiennej wyznaczy pa- rametry opisowe: minimum, maksimum, rozstęp empiryczny, średnią, odchylenie standardowe, wariancję, dolny kwartyl, medianę, górny kwartyl, rozstęp międzykwartylowy, współczynnik skośności, kurtozę;
b) narysować histogram (przyjąć szerokość klasy równą 10);
c) wyznaczyć i zinterpretować diagramy łodyga-liście;
d) wyznaczyć i zinterpretować wykresy ramka-wąsy.
2
Interpretacja parametrów
? rozstęp empiryczny — waga mężczyzn zmienia się w zakresie . . .
? odchylenie standardowe — waga mężczyzn różni się od wagi przeciętnej średnio o . . .
? wariancja — średnie kwadraowe odchylenie wagi mężczyzn od wagi przeciętnej wynosi . . .
? dolny kwartyl — waga 25% mężczyzn nie przekracza . . .
? mediana — waga 50% mężczyzn nie przekracza . . .
? górny kwartyl — waga 75% mężczyzn nie przekracza . . .
? rozstęp międzykwartylowy — 50% środkowych wartości wag zmienia się w zakresie . . .
? współczynnik zmienności sx — odchylenie standardowe wagi mężczyzn stanowi . . . % wagi średniej.
Interpretacja miar asymetrii i koncentracji
wsp. skośności > 0 asymetria prawostronna
wsp. skośności < 0 asymetria lewostronna wsp. skośności = 0
brak asymetrii
Rysunek 1. Interpretacja współczynnika skośności.
kurtoza = 3 kurtoza > 3
kurtoza < 3
Rysunek 2. Interpretacja kurtozy.
3
5060708090100
Waga [kg] mediana
(kwartyl środkowy)
dolny kwartyl górny kwartyl
rozstęp międzykwartylowy
dolny wąs górny wąs
Rysunek 3. Interpretacja wykresu ramka-wąsy: różnica między dolnym kwartylem a dolnym wąsem (górnym wąsem a górnym kwartylem) nie przekracza półtorakrotności rozstępu międzykwartylowego (różnicy między górnym a dolnym kwartylem). Obserwacje znajdujące się poniżej dolnego (powyżej górnego) wąsa traktuje
się jako obserwacje odstające
4