Matematyka stosowana ze statystyką II
Elementy statystyki opisowej cz. II
Krótkie omówienie
— Operacje na zmiennej X będącej ramką danych (obiektem klasy data.frame):
? odwołanie do kolumny Płeć: X$Płeć
? odwołanie do n-tego elementu kolumny: X$Płeć[n]
? usuwanie n-tego elementu kolumny: X$Płeć[-n]
? usuwanie kolumny z ramki danych: X$Płeć = NULL
? symbol braku danych: NA
— Niektóre statystyki: range, mean, sd, var, median, quantile, IQR, skewness, kurtosis (dwie ostatnie funkcje wymagają wcześniejszego załadowania biblioteki moments za pomocą funkcji library)
— Histogram dla zmiennej mierzalnej:
? ggplot(zbiór danych, aes(x=zmienna)) + geom histogram(fill=’kolor’, col=’kolor’, binwidth=szerokość klasy) + ylab(’opis’)
— diagram łodyga-liście: stem(zmienna)
— wykres pudełkowy (ramka-wąsy):
? ggplot(zbiór danych, aes(x = zmienna kategoryczna, y = zmienna mierzalna)) + geom boxplot(fill = ’kolor’, col = ’kolor’)
? boxplot(zmienna mierzalna ~ zmienna kategoryczna)
— Parametry dla szeregu rozdzielczego (˚x — środek przedziału; n = P
ini, gdzie ni to liczność i-tego przedziału):
średnia wariancja
¯
x = n1 P
i˚xi· ni s2 = n1P
i(˚x − ¯x)2· ni sˆ2 = n−11 P
i(˚x − ¯x)2· ni
Zadania do samodzielnego rozwiązania
1. Dla zmiennych Waga i Wzrost w grupie mężczyzn:
a) wyznaczyć i zinterpretować odpowiednie miary położenia, zmienności, asymetrii i koncentracji
— w tym celu napisać funkcję parametry.opisowe, która dla dowolnej zmiennej wyznaczy parametry opisowe: średnia, kwartyl.1, mediana, kwartyl.3, min, max, rozstęp empiryczny, roz- stęp międzykwartylowy, odchylenie standardowe, wariancja, współczynnik zmienności, współ- czynnik skośności, kurtoza;
b) narysować histogram (przyjąć szerokość klasy równą 10);
c) wyznaczyć i zinterpretować diagramy łodyga-liście;
1
d) wyznaczyć i zinterpretować wykresy ramka-wąsy.
2. Dla zmiennych Średnia, L.godzin wyznaczyć i zinterpretować odpowiednie miary położenia, zmienności, asymetrii i koncentracji.
3. Dla zmiennych ECTS, Średnia, L.godzin, L.sys.op, Wiek wyznaczyć i zinterpretować wykresy ramka-wąsy skategoryzowane względem cech kategorycznych.
4. Dla zmiennej Wzrost w grupie mężczyzn wyznaczyć szereg rozdzielczy przedziałowy (krok — 10 cm, od minimum obciętego w dół z dokładnością do 10 cm, użyć table i cut) i utworzyć pomoc- nicze zmienne Wzrost.środki i Wzrost.wagi. Dla tak zgrupowanych danych obliczyć średnią i odchylenie standardowe stosując
a) pomocniczą zmienną Wzrost.szereg (użyć rep);
b) średnie ważone — w tym celu napisać funkcję parametry.ważone, która dla dwóch argumen- tów (środki i wagi) zwróci średnią.ważoną i odchylenie.ważone.
Czy otrzymane średnie i odchylenia standardowe są równe? Czy otrzymane średnie i odchylenia standardowe są takie same jak parametry dla zmiennej Wzrost w grupie mężczyzn? Na ile pomoże zastosowanie poprawki Shepparda (tj. odjęcia od wariancji wartości h122, gdzie h oznacza szerokość przedziału)?
Interpretacja parametrów
? rozstęp empiryczny — waga mężczyzn zmienia się w zakresie . . .
? odchylenie standardowe — waga mężczyzn różni się od wagi przeciętnej średnio o . . .
? wariancja — średnie kwadratowe odchylenie wagi mężczyzn od wagi przeciętnej wynosi . . .
? dolny kwartyl — waga 25% mężczyzn nie przekracza . . .
? mediana — waga 50% mężczyzn nie przekracza . . .
? górny kwartyl — waga 75% mężczyzn nie przekracza . . .
? rozstęp międzykwartylowy — 50% środkowych wartości wag zmienia się w zakresie . . .
? współczynnik zmienności s¯x — odchylenie standardowe wagi mężczyzn stanowi . . . % wagi średniej.
2
Interpretacja miar asymetrii i koncentracji
wsp. skośności > 0 asymetria prawostronna
wsp. skośności < 0 asymetria lewostronna wsp. skośności = 0
brak asymetrii
Rysunek 1. Interpretacja współczynnika skośności.
kurtoza = 3 kurtoza > 3
kurtoza < 3
Rysunek 2. Interpretacja kurtozy.
3
5060708090100
Waga [kg] mediana
(kwartyl środkowy)
dolny kwartyl górny kwartyl
rozstęp międzykwartylowy
dolny wąs górny wąs
Rysunek 3. Interpretacja wykresu ramka-wąsy: różnica między dolnym kwartylem a dolnym wąsem (górnym wąsem a górnym kwartylem) nie przekracza półtorakrotności rozstępu międzykwartylowego (różnicy między górnym a dolnym kwartylem). Obserwacje znajdujące się poniżej dolnego (powyżej górnego) wąsa traktuje
się jako obserwacje odstające
4