Podstawowe miary rozproszenia:
Wariancja z populacji:
22 2 2
1 1
1
k1
ki i
i i
s x x x x
n
n
Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:
22
1
1 1
k
i i
s x x
n
Przykład
38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98
1
1 66, 95
n i i
x x
n
2 1 2 2
306, 77
n
s
x x 2 1
2 321,38n
s
x x Odchylenie standardowe
to pierwiastek z wariancji:
21
1
ki i
s x x
n
21
1 1
k
i i
s x x
n
lub
Przykład
38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98
306, 77 17,5
s s 321,38 17, 9
W szeregach rozdzielczych punktowych stosuje się tzw.
wariancję,
wyrażającą się wzorem:
22 2 2
1 1
1
k1
ki i i i
i i
s n x x n x x
n
n
22
1
1 1
k
i i
i
s n x x
n
wartość wariantu i - tej klasy (przedziału) liczebność i-tej klasy
Liczebność populacji liczba klas
xi
n
ik
n
Dla szeregu rozdzielczego przedziałowego:
środek i - tej klasy (przedziału)
liczebność i-tej klasy Liczebność populacji liczba klas
1
2
i i
i
x x
x
n
ik
n
22 2 2
1 1
1
k1
ki i i i
i i
s n x x n x x
n
n
22
1
1 1
k
i i
i
s n x x
n
Współczynnik zmienności
(niekiedy wynik jest podawany w procentach) Współczynnik zmienności mierzy zróżnicowanie względne i określa jaką część (ile procent) przeciętnego poziomu badanej cechy stanowi odchylenie standardowe.v s
x
Przykład
Mamy dwie maszyny rozsypujące cukier do torebek:
1. Maszyna A rozsypuje cukier do torebek 1 kg, wyniki otrzymane przy kontroli wagi pokazują następujące wyniki w kg: 0,85; 0,87; 0,9; 0,91; 1,03; 1,03; 1,08; 1,1; 1,12 2. Maszyna B rozsypuje cukier do worków 1 00kg, wyniki otrzymane przy kontroli wagi
pokazują następujące wyniki w kg: 86; 87,5; 91; 91; 100; 102; 105; 110; 115
v s
x
0,10533
0,106633 0, 987778
A A
A
v s
x
10, 31315
0,104584
B B
v s
0,10533 s
A10, 31315 s
BBadanie go ma sens tylko dla cech o dodatnich wartościach
Def.
Odchylenie przeciętne S
D - jest to średnia arytmetyczna bezwzględnych odchyleń wartości cechy od średniej arytmetycznej. Określa o ile jednostki danej zbiorowości różnią się średnio, ze względu na wartość cechy, od średniejarytmetycznej.
Odchylenie przeciętne
W szeregach szczegółowych stosuje się odchylenie przeciętne
,
wyrażającą się wzorem:1
1
nD i
i
S x x
n
W szeregach rozdzielczych punktowych stosuje się odchylenie przeciętne
,
wyrażającą się wzorem:
wartość wariantu i - tej klasy (przedziału) liczebność i-tej klasy
Liczebność populacji liczba klas
xi
n
ik
n
1
1
kD i i
i
S n x x
n
W szeregach rozdzielczych przedziałowych stosuje się odchylenie przeciętne
,
wyrażającą się wzorem:Środek i - tej klasy (przedziału) liczebność i-tej klasy
Liczebność populacji liczba klas
xi
n
ik
n
1
1
kD i i
i
S n x x
n
S D s
Zachodzi następująca zależność między odchyleniem przeciętnym i standardowym
Dla powyższej miary rozrzutu też można zdefiniować współczynnik zmienności:
D D
v s
x
Rozstęp
jest najprostszą miarą rozproszenia (zmienności). Jest niczym innym jak różnicą między wartością maksymalną a minimalną z naszego zbioru obserwacji.Pokazuje zatem jedynie jaki jest zakres naszych obserwacji nie informuje w żaden sposób co dzieje się "w środku" tego zakresu np. jaka wartość występowała
najczęściej, czy jaka jest średnia dla tego zbioru obserwacji.
max min
R x x Max Min
Przykład
38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98
max min 98 38 60 R x x
Uwaga
Wartość miary R zależy jedynie od dwóch skrajnych (największej i najmniejszej) wartości zmiennej, nie dostarczając tym samym wyczerpującej informacji o
zróżnicowaniu pozostałych wartości cechy . Jest to niewątpliwie słabością tej miary dyspersji.
Dlatego też często stosuje się inny rodzaj rozstępu, jakim jest odstęp międzykwartylowy.
Odstęp międzykwartylowy
definiuje się wzorem:1 3 IQR Q Q
Przykład
38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98
1 3 79,75 52,5 17, 25 IQR Q Q
Min = 38 Q1=52,5 Q3=79,75 Max = 98
66,95
x Me=70
Znając średnie, mediany, kwartyle oraz wartości skrajne możemy zbudować wykresy pudełkowe w celu porównywania dwóch podobnych populacji ze względu na tę samą cechę.
Na rysunki mamy wykresy pudełkowe dla 2 grup studentów i ich wyniki procentowe z tego samego egzaminu.
Jakie wnioski możemy wyciągnąć porównując wykresy?
Min = 38 Q1=52,5 Q3=79,75 Max = 98
66,95
x Me=70
Min = 45 Q1=60,5 Q3=72,5 Max = 88
62,25
x Me=64
Przedział typowych wartości
[x - s, x + s]
Jest to przedział, do którego należy większość danych statystycznych,
interpretacja ta jest uzasadniona wtedy, gdy cecha ma rozkład zbliżony do rozkładu normalnego.
Miara rozproszenia Zalety Wady
Wariancja, odchylenie standardowe
• Łatwo policzyć, jest zdefiniowana algebraicznie
• Uwzględnia wszystkie wartości wariantów cechy
• Duży wpływ mają na nią wartości odskakujące
• Zniekształcenie w przypadku rozkładów skośnych
• Trudno porównywać przy różnych wielkościach
Współczynnik zmienności
• Łatwo policzyć, jest zdefiniowana algebraicznie
• Uwzględnia wszystkie wartości wariantów cechy
• Można porównywać dwie różniące się wartościami populacje
• Duży wpływ mają na nią wartości odskakujące
• Zniekształcenie w przypadku rozkładów skośnych
Rozstęp • Łatwo znaleźć • Zniekształcony przez wartości
odskakujące
• Pomija większość informacji
• Nie jest zdefiniowana algebraicznie IQR • Nie jest zniekształcona w
przypadku rozkładów skośnych
• Brak wpływu wartości odskakujących
• Dobry w przypadku rozkładów
• Pomija większość informacji
• Nie jest zdefiniowana algebraicznie
• Nie powinno się stosować do małych prób
Zalety i wady różnych miar rozproszenia
Miary asymetrii
Jak interpretujemy wartości miar asymetrii?
1 0
x
2 0
x
0 2 4 6 8 10 12 14 16 18
-3 -2 -1 0 1 2 3 4 5 6 7
0 2 4 6 8 10 12 14 16 18
-7 -6 -5 -4 -3 -2 -1 0 1 2 3
1
5, 062279 s
2
5, 062279
s
Znak współczynnika asymetrii wskazuje na kierunek asymetrii natomiast jego wartość bezwzględna określa siłę asymetrii.
Mówimy, że rozkład może być
symetryczny:
prawoskośny,
lewoskośny
Def
Rozkład symetryczny
występuje, jeśli skupienie wyników znajduje się wokół środka rozkładu.Rozkład prawoskośny -
(asymetria dodatnia) wyniki skupiają się przy niskich wartościach cechy.Rozkład lewoskośny
- (asymetria ujemna) wyniki skupiają się przy wysokich wartościach cechy.Skośność mierzymy przy pomocy miar asymetrii, najpopularniejsze to:
Współczynnik asymetrii (klasyczny)
31 3
1
ni i
x x A n
s
Współczynnik asymetrii (klasyczny) dla szeregu punktowego:
31
3
1
ki i
i
n x x A n
s
31
3
1
ki i
i
n x x A n
s
Współczynnik asymetrii (klasyczny) dla szeregu przedziałowego:
Miary asymetrii
Jak interpretujemy wartości miar asymetrii?
1 0
x
2 0
x
0 2 4 6 8 10 12 14 16 18
-3 -2 -1 0 1 2 3 4 5 6 7
0 2 4 6 8 10 12 14 16 18
-7 -6 -5 -4 -3 -2 -1 0 1 2 3
1
5, 062279 s
2
5, 062279 s
1
0, 077084 A
2
0, 077084
A
Współczynnik asymetrii (klasyczny) - własności
na ogół
2 A 2
• określa kierunek i siłę asymetrii, ujemny oznacz rozkład o asymetrii lewostronnej , a dodatni prawostronnej
• o sile asymetrii mówi wartość bezwzględna z A:
0-0,4 bardzo słaba asymetria, rozkład prawie symetryczny 0,4-0,8 słaba asymetria
0,8-1,2 umiarkowana asymetria 1,2-1,6 siła asymetria
Powyżej 1,6 bardzo silna asymetria.
Skośność (inna odmiana klasycznego współczynnika skośności)
33
1 2
1 ni i
x x A n
n n
s
Z tego wzoru policzymyskośność korzystając z Excela.
Wskaźnik asymetrii Pearsona:
x d
AP s
Możemy go wyznaczać tylko, jeśli próba ma modę (dominantę)
d
na ogół
1 AP 1
określa kierunek i siłę asymetrii, ujemny oznacz rozkład o asymetrii lewostronnej, a dodatni prawostronnej
o sile asymetrii mówi wartość bezwzględna z AP :
0,0 - 0,2 bardzo słaba asymetria, rozkład prawie symetryczny 0,2 - 0,4 słaba asymetria
0,4 - 0,6 umiarkowana asymetria 0,6 - 0,8 silna asymetria
Powyżej 0,8 bardzo silna asymetria.
Zauważmy, że najprostszym, prymitywnym sposobem badania skośności może być porównywanie położenia średniej i mediany,
• Jeśli średnia jest na prawo od mediany
d Me x
to mamy asymetrię prawoskośną• Jeśli średnia jest na lewo od mediany
x Me d
to mamy asymetrię lewośnąMiary skupienia (koncentracji) Def.
Koncentracja
oznacza skupienie wartości cechy wokół średniej arytmetycznej z próby.Def.
Współczynnikiem kurtozy
(koncentracji, spłaszczenia) nazywamy wartość K otrzymaną ze wzoru:4 4
K m
s 4 4
1
1 n
i i
m x x
n
gdzie
Jest 4 momentem centralnym z populacji.
W celu oceny koncentracji badanego rozkładu porównuje się ją do rozkładu normalnego, dla którego
K 3
Def.
Współczynnikiem ekscesu
nazywamy wartość liczoną ze wzoru:3 K K
Jak widać celem wprowadzenia nowego pojęcia było przesunięcie wartości do 0.
Rozkłady prawdopodobieństwa można podzielić ze względu na wartość współczynnika ekscesu na rozkłady:
mezokurtyczne - wartość kurtozy wynosi 0, spłaszczenie rozkładu jest podobne do spłaszczenia rozkładu normalnego (dla którego kurtoza wynosi dokładnie 0)
leptokurtyczne - kurtoza jest dodatnia, wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnym
platokurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym