Podstawowe miary rozproszenia:

(1)

Podstawowe miary rozproszenia:

Wariancja z populacji:

 

²

2 2 2

1 1

1

^k

1

^k

i i

s x x x x

n

_

n

_

     

Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

 

²

2

1

1 1

k

i i

s x x

n

_

 

 



Przykład

38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98

1

1 66, 95

n i i

x x

n _







2 1 2 2

306, 77

n

s 



x x  ² ¹

^ ^

² ^321,38

n

s^ 



x  x 

(2)

Odchylenie standardowe

to pierwiastek z wariancji:

 

²

1

^k

i i

s x x

n

_

  

 

²

1

1 1

k

i i

s x x

n

_

 

 



lub

Przykład

38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98

306, 77 17,5

s   s  321,38 17, 9

(3)

W szeregach rozdzielczych punktowych stosuje się tzw.

wariancję,

wyrażającą się wzorem:

 

²

2 2 2

1 1

1

^k

1

^k

i i i i

i i

s n x x n x x

n

_

n

_

     

 

²

2

1

1 1

k

i i

i

s n x x

n

_

 

 



wartość wariantu i - tej klasy (przedziału) liczebność i-tej klasy

Liczebność populacji liczba klas

xi

n

i

k

n

(4)

Dla szeregu rozdzielczego przedziałowego:

środek i - tej klasy (przedziału)

liczebność i-tej klasy Liczebność populacji liczba klas

1

2

i i

i

x x

x  ^

 

n

i

k

n

 

²

2 2 2

1 1

1

^k

1

^k

i i i i

i i

s n x x n x x

n

_

n

_

  ^    ^ 

 

²

2

1

1 1

k

i i

i

s n x x

n

_

 

 

 

(5)

Współczynnik zmienności

(niekiedy wynik jest podawany w procentach) Współczynnik zmienności mierzy zróżnicowanie względne i określa jaką część (ile procent) przeciętnego poziomu badanej cechy stanowi odchylenie standardowe.

v s

 x

Przykład

Mamy dwie maszyny rozsypujące cukier do torebek:

1. Maszyna A rozsypuje cukier do torebek 1 kg, wyniki otrzymane przy kontroli wagi pokazują następujące wyniki w kg: 0,85; 0,87; 0,9; 0,91; 1,03; 1,03; 1,08; 1,1; 1,12 2. Maszyna B rozsypuje cukier do worków 1 00kg, wyniki otrzymane przy kontroli wagi

pokazują następujące wyniki w kg: 86; 87,5; 91; 91; 100; 102; 105; 110; 115

v s

 x

 

0,10533

0,106633 0, 987778

A A

A

v s

 x  

 

10, 31315

0,104584

B B

v  s  

 

0,10533 s  

A

10, 31315 s  

B

Badanie go ma sens tylko dla cech o dodatnich wartościach

(6)

Def.

Odchylenie przeciętne S

^D - jest to średnia arytmetyczna bezwzględnych odchyleń wartości cechy od średniej arytmetycznej. Określa o ile jednostki danej zbiorowości różnią się średnio, ze względu na wartość cechy, od średniej

arytmetycznej.

Odchylenie przeciętne

W szeregach szczegółowych stosuje się odchylenie przeciętne

,

1

ⁿ

D i

i

S x x

n

_

  

(7)

W szeregach rozdzielczych punktowych stosuje się odchylenie przeciętne

,

wartość wariantu i - tej klasy (przedziału) liczebność i-tej klasy

xi

n

i

k

n

1

^k

D i i

i

S n x x

n

_

  

(8)

W szeregach rozdzielczych przedziałowych stosuje się odchylenie przeciętne

,

Środek i - tej klasy (przedziału) liczebność i-tej klasy

xi

n

i

k

n

1

^k

D i i

i

S n x x

n

_

  ^ 

(9)

S D  s

Zachodzi następująca zależność między odchyleniem przeciętnym i standardowym

Dla powyższej miary rozrzutu też można zdefiniować współczynnik zmienności:

D D

v s

 x

(10)

Rozstęp

jest najprostszą miarą rozproszenia (zmienności). Jest niczym innym jak różnicą między wartością maksymalną a minimalną z naszego zbioru obserwacji.

Pokazuje zatem jedynie jaki jest zakres naszych obserwacji nie informuje w żaden sposób co dzieje się "w środku" tego zakresu np. jaka wartość występowała

najczęściej, czy jaka jest średnia dla tego zbioru obserwacji.

max min

R  x  x  Max  Min

Przykład

38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98

max min 98 38 60 R  x  x   

Uwaga

Wartość miary R zależy jedynie od dwóch skrajnych (największej i najmniejszej) wartości zmiennej, nie dostarczając tym samym wyczerpującej informacji o

zróżnicowaniu pozostałych wartości cechy . Jest to niewątpliwie słabością tej miary dyspersji.

(11)

Dlatego też często stosuje się inny rodzaj rozstępu, jakim jest odstęp międzykwartylowy.

Odstęp międzykwartylowy

definiuje się wzorem:

1 3 IQR  Q  Q

Przykład

38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98

1 3 79,75 52,5 17, 25 IQR  Q  Q   

Min = 38 Q1=52,5 Q3=79,75 Max = 98

66,95

x  Me=70

(12)

Znając średnie, mediany, kwartyle oraz wartości skrajne możemy zbudować wykresy pudełkowe w celu porównywania dwóch podobnych populacji ze względu na tę samą cechę.

Na rysunki mamy wykresy pudełkowe dla 2 grup studentów i ich wyniki procentowe z tego samego egzaminu.

Jakie wnioski możemy wyciągnąć porównując wykresy?

Min = 38 Q1=52,5 Q3=79,75 Max = 98

66,95

x  Me=70

Min = 45 Q1=60,5 Q3=72,5 Max = 88

62,25

x  Me=64

(13)

Przedział typowych wartości

[x - s, x + s]

Jest to przedział, do którego należy większość danych statystycznych,

interpretacja ta jest uzasadniona wtedy, gdy cecha ma rozkład zbliżony do rozkładu normalnego.

(14)

Miara rozproszenia Zalety Wady

Wariancja, odchylenie standardowe

• Łatwo policzyć, jest zdefiniowana algebraicznie

• Uwzględnia wszystkie wartości wariantów cechy

• Duży wpływ mają na nią wartości odskakujące

• Zniekształcenie w przypadku rozkładów skośnych

• Trudno porównywać przy różnych wielkościach

Współczynnik zmienności

• Łatwo policzyć, jest zdefiniowana algebraicznie

• Uwzględnia wszystkie wartości wariantów cechy

• Można porównywać dwie różniące się wartościami populacje

• Duży wpływ mają na nią wartości odskakujące

• Zniekształcenie w przypadku rozkładów skośnych

Rozstęp • Łatwo znaleźć • Zniekształcony przez wartości

odskakujące

• Pomija większość informacji

• Nie jest zdefiniowana algebraicznie IQR • Nie jest zniekształcona w

przypadku rozkładów skośnych

• Brak wpływu wartości odskakujących

• Dobry w przypadku rozkładów

• Pomija większość informacji

• Nie jest zdefiniowana algebraicznie

• Nie powinno się stosować do małych prób

Zalety i wady różnych miar rozproszenia

(15)

Miary asymetrii

Jak interpretujemy wartości miar asymetrii?

1 0

x 

2 0

x 

0 2 4 6 8 10 12 14 16 18

-3 -2 -1 0 1 2 3 4 5 6 7

0 2 4 6 8 10 12 14 16 18

-7 -6 -5 -4 -3 -2 -1 0 1 2 3

1

5, 062279 s 

2

5, 062279

s 

(16)

Znak współczynnika asymetrii wskazuje na kierunek asymetrii natomiast jego wartość bezwzględna określa siłę asymetrii.

Mówimy, że rozkład może być

symetryczny:

(17)

prawoskośny,

lewoskośny

(18)

Def

Rozkład symetryczny

występuje, jeśli skupienie wyników znajduje się wokół środka rozkładu.

Rozkład prawoskośny -

(asymetria dodatnia) wyniki skupiają się przy niskich wartościach cechy.

Rozkład lewoskośny

- (asymetria ujemna) wyniki skupiają się przy wysokich wartościach cechy.

Skośność mierzymy przy pomocy miar asymetrii, najpopularniejsze to:

Współczynnik asymetrii (klasyczny)

 

³

1 3

1

ⁿ

i i

x x A n

s









(19)

Współczynnik asymetrii (klasyczny) dla szeregu punktowego:

 

³

1

3

1

^k

i i

i

n x x A n

s









 

³

1

3

1

^k

i i

i

n x x A n

s







 ^

Współczynnik asymetrii (klasyczny) dla szeregu przedziałowego:

(20)

Miary asymetrii

Jak interpretujemy wartości miar asymetrii?

1 0

x 

2 0

x 

0 2 4 6 8 10 12 14 16 18

-3 -2 -1 0 1 2 3 4 5 6 7

0 2 4 6 8 10 12 14 16 18

-7 -6 -5 -4 -3 -2 -1 0 1 2 3

1

5, 062279 s 

2

5, 062279 s 

1

0, 077084 A 

2

0, 077084

A  

(21)

Współczynnik asymetrii (klasyczny) - własności

na ogół

2 A 2

  

• określa kierunek i siłę asymetrii, ujemny oznacz rozkład o asymetrii lewostronnej , a dodatni prawostronnej

• o sile asymetrii mówi wartość bezwzględna z A:

0-0,4 bardzo słaba asymetria, rozkład prawie symetryczny 0,4-0,8 słaba asymetria

0,8-1,2 umiarkowana asymetria 1,2-1,6 siła asymetria

Powyżej 1,6 bardzo silna asymetria.

Skośność (inna odmiana klasycznego współczynnika skośności)

  

 

³

3

1 2

1 n

i i

x x A n

n n

_

s

 

  



Z tego wzoru policzymy

skośność korzystając z Excela.

(22)

Wskaźnik asymetrii Pearsona:

x d

AP s

 

Możemy go wyznaczać tylko, jeśli próba ma modę (dominantę)

d

na ogół

1 AP 1

  

określa kierunek i siłę asymetrii, ujemny oznacz rozkład o asymetrii lewostronnej, a dodatni prawostronnej

o sile asymetrii mówi wartość bezwzględna z AP :

0,0 - 0,2 bardzo słaba asymetria, rozkład prawie symetryczny 0,2 - 0,4 słaba asymetria

0,4 - 0,6 umiarkowana asymetria 0,6 - 0,8 silna asymetria

Powyżej 0,8 bardzo silna asymetria.

(23)

Zauważmy, że najprostszym, prymitywnym sposobem badania skośności może być porównywanie położenia średniej i mediany,

• Jeśli średnia jest na prawo od mediany

d  Me  x

to mamy asymetrię prawoskośną

• Jeśli średnia jest na lewo od mediany

x  Me  d

to mamy asymetrię lewośną

(24)

Miary skupienia (koncentracji) Def.

Koncentracja

oznacza skupienie wartości cechy wokół średniej arytmetycznej z próby.

Def.

Współczynnikiem kurtozy

(koncentracji, spłaszczenia) nazywamy wartość K otrzymaną ze wzoru:

4 4

K m

 s ₄   ⁴

1 1 ⁿ

i i

m x x

n _

  

gdzie

Jest 4 momentem centralnym z populacji.

W celu oceny koncentracji badanego rozkładu porównuje się ją do rozkładu normalnego, dla którego

K  3

(25)

Def.

Współczynnikiem ekscesu

nazywamy wartość liczoną ze wzoru:

3 K   K 

Jak widać celem wprowadzenia nowego pojęcia było przesunięcie wartości do 0.

Rozkłady prawdopodobieństwa można podzielić ze względu na wartość współczynnika ekscesu na rozkłady:

mezokurtyczne - wartość kurtozy wynosi 0, spłaszczenie rozkładu jest podobne do spłaszczenia rozkładu normalnego (dla którego kurtoza wynosi dokładnie 0)

leptokurtyczne - kurtoza jest dodatnia, wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnym

platokurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym

(26)

(27)

Podstawowe miary rozproszenia: