Po co nam charakterystyki liczbowe?
Def.
Charakterystyki liczbowe
to wielkości wyznaczone na podstawie danych statystycznych, charakteryzujące własności badanej cechy.Klasyfikacja charakterystyk:
–charakterystyki położenia (np. średnia, mediana, dominanta),
–charakterystyki rozproszenia (np. wariancja, odchylenie standardowe, odstęp międzykwartylowy, współczynnik zmienności),
–charakterystyki asymetrii (np. współczynnik asymetrii, wskaźnik asymetrii), –charakterystyki spłaszczenia (np. kurtoza).
• klasyczne
(wyznaczone przez wszystkie wartości danych statystycznych, np. średnia, wariancja, odchylenie standardowe,
współczynnik zmienności, współczynnik asymetrii),
Charakterystyki mogą być:
• pozycyjne
(wyznaczone przez niektóre (decyduje ich pozycja) wartości danych statystycznych,
np. mediana, dominanta, kwartyle),
• mieszane
(np. wskaźnik asymetrii).
Podstawowe miary położenia:
Def.
P-tym centylem (percentylem)
w zbiorze liczb (uporządkowanych według wielkości) jest taka wartość, poniżej której znajduje się P% liczb z tego zbioru.Miejsce P-tego percentyla określa wzór (wersja Aczel):
1
100
n P
k
A z takiego wzoru liczy liczy Excel
1
100 1
n P
k
Decyle (dziesiątki centyli)
np. decyl pierwszy (D1) oznacza, że 10% jednostek ma wartości cechy mniejsze bądź równe od decyla pierwszego, a 90% jednostekwartości cechy równe lub większe od decyla pierwszego. Analogicznie dla kolejnych decyli.
Przykład
Przy dużych n wyniki wychodzą podobne, dla n = 5000.
Porównajmy wyniki:
1 5001 20
1000, 2
100 100
n P
k
1 4999 20
1 1 1000,8
100 100
n P
k
Przykład
Wyniki z testu z Rachunku prawdopodobieństwa 1:liczone w procentach
88, 56, 64, 45, 52, 76, 54, 79, 38, 98, 69, 77, 71, 45, 60, 78, 90, 81, 87, 44, 80, 41 Znajdziemy 20 centyl.
Najpierw uporządkuję wyniki:
38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98 Policzymy ze wzoru zgodnego z Excelem
Analogicznie 30 percentyl to 54,6
50 percentyl to 70 90 percentyl to 87,9
czyli między 5 a 6 wyrazem ciągu, 45 i 52 odpowiednio, w odległości 0,2 od 45 i 0,8 od 52,
ponieważ odległość między nimi to 7,
więc0,2*7=1,4 i otrzymujemy wynik 46,4 i to jest nasz 20 percentyl.
k=(n-1)P/100+1 = 21*20:100+1=5,2
Def.
Kwartyl pierwszy Q1
dzieli zbiorowość na dwie części w ten sposób, że 25%jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu Q1, a 75% równe bądź wyższe od tego kwartyla, kwartyl pierwszy to 25centyl.
Kwartyl drugi (mediana Me)
dzieli zbiorowość na dwie równe części; połowa jednostek ma wartości cechy mniejsze lub równe medianie, a połowa wartości cechy równe lub większe od Me; stąd nazwa wartość środkowa, inaczej możemy zapisać, że to 50 centyl.Kwartyl trzeci Q3
dzieli zbiorowość na dwie części w ten sposób, że 75% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu Q3, a 25%równe bądź wyższe od tego kwartyla. Inaczej to 75 centyl.
Gdy mamy szereg szczegółowy to Me można wyznaczyć bardzo prosto:
Przykład 1
Niech dany będzie szereg szczegółowy, wiek w latach kolegów z pracy: 31, 32, 32, 33, 36, 38, 38, 40, 41, 45, 46
6
38
Me x
Przykład 2
Niech dany będzie szereg szczegółowy, oceny z kolokwium: 3.0, 3.0, 3.5, 3.5, 3.5, 3.5, 4.0, 4.0, 4,0, 4.5, 4.5, 5
6 7
3.5 4.0 2 2 3.75
x x
Me
Gdzie P oznacza parzysta.
1 2
2 2 1
,
1 ,
2
n
n n
x n P
Me
x x n P
Gdy mamy szereg rozdzielczy punktowy to Me można wyznaczyć bez
problemu, wystarczy znaleźć wartość wariantu cechy, dla której liczebność skumulowana po raz pierwszy przekracza (n+1)/2, jeśli n jest liczbą
nieparzystą i n/2 jeśli parzystą. Jeśli wypada to między dwiema klasami, to trzeba wziąć średnią arytmetyczną wariantów.
Średnia ocen Liczba studentów Liczebność skumulowana
3,2 10 10
3,5 12 22
4,0 17 39
4,1 27 66
4,3 17 83
4,7 12 95
5 5 100
Razem 100
Przykład
Wracamy do przykładu ze średnimi ocen studentów
Me = 4.1
n =100, czyli patrzymy gdzie wpada 50 i 51 wynik.
2
1sk m
lm m
m
n n
Me x r
n
Gdy mamy szereg rozdzielczy to Me można znaleźć ze wzoru:
lewy koniec przedziału mediany (ten do którego należy mediana) liczebność przedziału mediany
liczebność skumulowana przedziału poprzedzającego przedział mediany rozpiętość przedziału mediany
xlm
nm
1 sk
nm
rm
Przedział z medianą, to pierwszy przedział, dla którego liczebność
Graficzny sposób wyznaczania Mediany w szeregu rozdzielczym przedziałowym:
Na osi pionowej mamy częstości skumulowane, a na osi poziomej granice przedziałów (klas).
Przykład
38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98 Q1=52,5
Me=70 Q3=79,75
Def
Moda (dominanta)
d = wariant cechy występujący najczęściej (o ile taki istnieje). Inne oznaczenia D, Mo
Przykład
Np. dla danych 2, 3, 4, 3, 2, 5, 3, 2, 3, 1 dominantą jest d=3.
Natomiast dla danych 2, 3, 4, 3, 2, 5, 3, 2, 3, 2 dominanta nie jest określona (mówimy, że Uwaga
Jeśli próba ma modę, to nazywamy rozkład jednomodalnym, jeśli jest kilka wartości występujących równie często, mówimy o rozkładzie wielomodalnym.
Dominantę w szeregu punktowym to wartość wariantu
dla którego liczebność jest największa.
Populacja może nie posiadać dominanty.
xi
n
iOd razu widać, że dominantą jest wartość wariantu 4,1.
Średnia ocen Liczba studentów
3,2 10
3,5 12
4,0 17
4,1 27
4,3 17
4,7 12
5 5
Razem 100
x
in
ilewy koniec przedziału dominanty (tego, dla którego liczebność jest największa) liczebność przedziału dominanty
liczebność przedziału poprzedzającego przedział dominanty liczebność przedziału następującego po przedziale dominanty
rozpiętość przedziału dominanty xld
nd
1
nd
1
nd
rd
1
1 1
d d
ld d
d d d d
n n
d D x r
n n n n
Dominantę w szeregu przedziałowym możemy policzyć ze wzoru:
Zakładamy, że sąsiadujące klasy mają równe długości.
Graficzny sposób znajdowania dominanty D w szeregu rozdzielczym przedziałowym.
Przykład jak statystyka kłamie:
Wyniki badania cechy w populacji:
0.5; 1; 1; 1.5, 2.5, 2.5, 3; 3; 3; 3.5; 3.5; 4.5, 4.5; 4.5, 4.5; 5; 6.5; 7; 7; 7.5; 7.5; 9; 9; 9.5 k = 5, r=2, d = 4.5
Klasa Liczebność klasy
[0,2) 4
[2,4) 7
[4,6) 5
[6,8) 5
[8,10) 4
Razem 24
[ ,x xi i1) ni
Przedział dominanty [2,4).
1 [2, 4)
d d
ld d
n n
d x r
Min = 38 Q1=52,5 Q3=79,75 Max = 98 66,95
x Me=70
Inna, klasyczna miara położenia Średnia (arytmetyczna):
1
1
ni i
x x
n
Przykład
Wyniki testu w %
38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98
1
1 66, 95
n i i
x x
n
W szeregach rozdzielczych punktowych stosuje się tzw.
średnią arytmetyczną ,
wyrażającą się wzorem:1
1
ki i i
x n x
n
Dla szeregu rozdzielczego przedziałowego:
1
1
ki i i
x n x
n
środek i - tej klasy (przedziału)
liczebność i-tej klasy Liczebność populacji
1
2
i i
i
x x
x
n
in
Przykład:
Wyniki badania średniej ocen studentów biologii 3 roku w 2013r Przedstawimy w postaci szeregu rozdzielczego punktowego:
Średnia ocen Liczba studentów
3,2 10
3,5 12
4,0 17
4,1 27
4,3 17
4,7 12
5 5
Razem 100
1
1 1
(10 3, 2 12 3,5 ... 5 5) 4, 07 100
k
i i i
x n x
n
Średnia geometryczna
, w statystyce miara przeciętnego poziomu wartości cechy jednostek zbiorowości statystycznej używana dla cech przyjmujących wyłącznie wartości dodatnie.Średnia geometryczna z dwóch liczb dodatnich jest pierwiastkiem kwadratowym z ich iloczynu. Ogólnie średnią geometryczną definiuje się jako pierwiastek n-tego stopnia z iloczynu wszystkich n wartości cechy:
1 ...
n n
G x x
Przykład:
W ciągu trzech kolejnych lat liczba osób nowozakażonych wirusem HIV wynosiła odpowiednio: 500, 750, 825. Jaki był średni względny przyrost liczby nowych
zakażeń? Wartości cechy statystycznej w tym zadaniu to przyrosty względna liczby zakażeń w kolejnych latach, tzn.:
1 , 750 1 825
5 , 500 1 750
2 1
x x
Miary położenia
pozycyjne
Dominanta Kwantyle
Q1, Q3, Me Centyle
Klasyczne
Średnia arytmetyczna
Średnia Geometryczna
Zalety i wady różnych miar położenia
Miara położenia Zalety Wady
Średnia
arytmetyczna
• Łatwo policzyć, jest
zdefiniowana algebraicznie
• Uwzględnia wszystkie wartości wariantów
• Duży wpływ mają na nią wartości odskakujące
• Zniekształcenie w przypadku rozkładów skośnych
Moda • Łatwo znaleźć
• Nie mają na nią wpływu wyniki odskakujące
• Można ją wyznaczyć dla cech niemierzalnych
• Nie zawsze istnieje
• Pomija większość informacji
• Nie jest zdefiniowana algebraicznie
Mediana • Nie jest zniekształcona w
przypadku rozkładów skośnych
• Brak wpływu wartości odskakujących
• Pomija większość informacji
• Nie jest zdefiniowana algebraicznie