• Nie Znaleziono Wyników

Podstawowe miary rozproszenia:

N/A
N/A
Protected

Academic year: 2021

Share "Podstawowe miary rozproszenia:"

Copied!
27
0
0

Pełen tekst

(1)

Podstawowe miary rozproszenia:

Wariancja z populacji:

 

2

2 2 2

1 1

1

k

1

k

i i

i i

s x x x x

n

n

     

Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

 

2

2

1

1 1

k

i i

s x x

n

 

 

Przykład

38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98

1

1 66, 95

n i i

x x

n

2 1 2 2

306, 77

n

s

x x 2 1

2 321,38

n

s

x x

(2)

Odchylenie standardowe

to pierwiastek z wariancji:

 

2

1

1

k

i i

s x x

n

  

 

2

1

1 1

k

i i

s x x

n

 

 

lub

Przykład

38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98

306, 77 17,5

s  s  321,38 17, 9

(3)

W szeregach rozdzielczych punktowych stosuje się tzw.

wariancję,

wyrażającą się wzorem:

 

2

2 2 2

1 1

1

k

1

k

i i i i

i i

s n x x n x x

n

n

     

 

2

2

1

1 1

k

i i

i

s n x x

n

 

 

wartość wariantu i - tej klasy (przedziału) liczebność i-tej klasy

Liczebność populacji liczba klas

xi

n

i

k

n

(4)

Dla szeregu rozdzielczego przedziałowego:

środek i - tej klasy (przedziału)

liczebność i-tej klasy Liczebność populacji liczba klas

1

2

i i

i

x x

x

 

n

i

k

n

 

2

2 2 2

1 1

1

k

1

k

i i i i

i i

s n x x n x x

n

n

    

 

2

2

1

1 1

k

i i

i

s n x x

n

 

 

 

(5)

Współczynnik zmienności

(niekiedy wynik jest podawany w procentach) Współczynnik zmienności mierzy zróżnicowanie względne i określa jaką część (ile procent) przeciętnego poziomu badanej cechy stanowi odchylenie standardowe.

v s

x

Przykład

Mamy dwie maszyny rozsypujące cukier do torebek:

1. Maszyna A rozsypuje cukier do torebek 1 kg, wyniki otrzymane przy kontroli wagi pokazują następujące wyniki w kg: 0,85; 0,87; 0,9; 0,91; 1,03; 1,03; 1,08; 1,1; 1,12 2. Maszyna B rozsypuje cukier do worków 1 00kg, wyniki otrzymane przy kontroli wagi

pokazują następujące wyniki w kg: 86; 87,5; 91; 91; 100; 102; 105; 110; 115

v s

x

 

0,10533

0,106633 0, 987778

A A

A

v s

x  

 

10, 31315

0,104584

B B

vs  

 

0,10533 s 

A

10, 31315 s 

B

Badanie go ma sens tylko dla cech o dodatnich wartościach

(6)

Def.

Odchylenie przeciętne S

D - jest to średnia arytmetyczna bezwzględnych odchyleń wartości cechy od średniej arytmetycznej. Określa o ile jednostki danej zbiorowości różnią się średnio, ze względu na wartość cechy, od średniej

arytmetycznej.

Odchylenie przeciętne

W szeregach szczegółowych stosuje się odchylenie przeciętne

,

wyrażającą się wzorem:

1

1

n

D i

i

S x x

n

  

(7)

W szeregach rozdzielczych punktowych stosuje się odchylenie przeciętne

,

wyrażającą się wzorem:

wartość wariantu i - tej klasy (przedziału) liczebność i-tej klasy

Liczebność populacji liczba klas

xi

n

i

k

n

1

1

k

D i i

i

S n x x

n

  

(8)

W szeregach rozdzielczych przedziałowych stosuje się odchylenie przeciętne

,

wyrażającą się wzorem:

Środek i - tej klasy (przedziału) liczebność i-tej klasy

Liczebność populacji liczba klas

xi

n

i

k

n

1

1

k

D i i

i

S n x x

n

 

(9)

S Ds

Zachodzi następująca zależność między odchyleniem przeciętnym i standardowym

Dla powyższej miary rozrzutu też można zdefiniować współczynnik zmienności:

D D

v s

x

(10)

Rozstęp

jest najprostszą miarą rozproszenia (zmienności). Jest niczym innym jak różnicą między wartością maksymalną a minimalną z naszego zbioru obserwacji.

Pokazuje zatem jedynie jaki jest zakres naszych obserwacji nie informuje w żaden sposób co dzieje się "w środku" tego zakresu np. jaka wartość występowała

najczęściej, czy jaka jest średnia dla tego zbioru obserwacji.

max min

RxxMaxMin

Przykład

38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98

max min 98 38 60 Rxx   

Uwaga

Wartość miary R zależy jedynie od dwóch skrajnych (największej i najmniejszej) wartości zmiennej, nie dostarczając tym samym wyczerpującej informacji o

zróżnicowaniu pozostałych wartości cechy . Jest to niewątpliwie słabością tej miary dyspersji.

(11)

Dlatego też często stosuje się inny rodzaj rozstępu, jakim jest odstęp międzykwartylowy.

Odstęp międzykwartylowy

definiuje się wzorem:

1 3 IQRQQ

Przykład

38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98

1 3 79,75 52,5 17, 25 IQRQQ   

Min = 38 Q1=52,5 Q3=79,75 Max = 98

66,95

x  Me=70

(12)

Znając średnie, mediany, kwartyle oraz wartości skrajne możemy zbudować wykresy pudełkowe w celu porównywania dwóch podobnych populacji ze względu na tę samą cechę.

Na rysunki mamy wykresy pudełkowe dla 2 grup studentów i ich wyniki procentowe z tego samego egzaminu.

Jakie wnioski możemy wyciągnąć porównując wykresy?

Min = 38 Q1=52,5 Q3=79,75 Max = 98

66,95

x  Me=70

Min = 45 Q1=60,5 Q3=72,5 Max = 88

62,25

x  Me=64

(13)

Przedział typowych wartości

[x - s, x + s]

Jest to przedział, do którego należy większość danych statystycznych,

interpretacja ta jest uzasadniona wtedy, gdy cecha ma rozkład zbliżony do rozkładu normalnego.

(14)

Miara rozproszenia Zalety Wady

Wariancja, odchylenie standardowe

Łatwo policzyć, jest zdefiniowana algebraicznie

Uwzględnia wszystkie wartości wariantów cechy

Duży wpływ mają na nią wartości odskakujące

Zniekształcenie w przypadku rozkładów skośnych

Trudno porównywać przy różnych wielkościach

Współczynnik zmienności

Łatwo policzyć, jest zdefiniowana algebraicznie

Uwzględnia wszystkie wartości wariantów cechy

Można porównywać dwie różniące się wartościami populacje

Duży wpływ mają na nią wartości odskakujące

Zniekształcenie w przypadku rozkładów skośnych

Rozstęp Łatwo znaleźć Zniekształcony przez wartości

odskakujące

Pomija większość informacji

Nie jest zdefiniowana algebraicznie IQR Nie jest zniekształcona w

przypadku rozkładów skośnych

Brak wpływu wartości odskakujących

Dobry w przypadku rozkładów

Pomija większość informacji

Nie jest zdefiniowana algebraicznie

Nie powinno się stosować do małych prób

Zalety i wady różnych miar rozproszenia

(15)

Miary asymetrii

Jak interpretujemy wartości miar asymetrii?

1 0

x 

2 0

x 

0 2 4 6 8 10 12 14 16 18

-3 -2 -1 0 1 2 3 4 5 6 7

0 2 4 6 8 10 12 14 16 18

-7 -6 -5 -4 -3 -2 -1 0 1 2 3

1

5, 062279 s 

2

5, 062279

s 

(16)

Znak współczynnika asymetrii wskazuje na kierunek asymetrii natomiast jego wartość bezwzględna określa siłę asymetrii.

Mówimy, że rozkład może być

symetryczny:

(17)

prawoskośny,

lewoskośny

(18)

Def

Rozkład symetryczny

występuje, jeśli skupienie wyników znajduje się wokół środka rozkładu.

Rozkład prawoskośny -

(asymetria dodatnia) wyniki skupiają się przy niskich wartościach cechy.

Rozkład lewoskośny

- (asymetria ujemna) wyniki skupiają się przy wysokich wartościach cechy.

Skośność mierzymy przy pomocy miar asymetrii, najpopularniejsze to:

Współczynnik asymetrii (klasyczny)

 

3

1 3

1

n

i i

x x A n

s

(19)

Współczynnik asymetrii (klasyczny) dla szeregu punktowego:

 

3

1

3

1

k

i i

i

n x x A n

s

 

3

1

3

1

k

i i

i

n x x A n

s

Współczynnik asymetrii (klasyczny) dla szeregu przedziałowego:

(20)

Miary asymetrii

Jak interpretujemy wartości miar asymetrii?

1 0

x 

2 0

x 

0 2 4 6 8 10 12 14 16 18

-3 -2 -1 0 1 2 3 4 5 6 7

0 2 4 6 8 10 12 14 16 18

-7 -6 -5 -4 -3 -2 -1 0 1 2 3

1

5, 062279 s 

2

5, 062279 s 

1

0, 077084 A 

2

0, 077084

A  

(21)

Współczynnik asymetrii (klasyczny) - własności

na ogół

2 A 2

  

• określa kierunek i siłę asymetrii, ujemny oznacz rozkład o asymetrii lewostronnej , a dodatni prawostronnej

• o sile asymetrii mówi wartość bezwzględna z A:

0-0,4 bardzo słaba asymetria, rozkład prawie symetryczny 0,4-0,8 słaba asymetria

0,8-1,2 umiarkowana asymetria 1,2-1,6 siła asymetria

Powyżej 1,6 bardzo silna asymetria.

Skośność (inna odmiana klasycznego współczynnika skośności)

  

 

3

3

1 2

1 n

i i

x x A n

n n

s

 

  

Z tego wzoru policzymy

skośność korzystając z Excela.

(22)

Wskaźnik asymetrii Pearsona:

x d

AP s

 

Możemy go wyznaczać tylko, jeśli próba ma modę (dominantę)

d

na ogół

1 AP 1

  

określa kierunek i siłę asymetrii, ujemny oznacz rozkład o asymetrii lewostronnej, a dodatni prawostronnej

o sile asymetrii mówi wartość bezwzględna z AP :

0,0 - 0,2 bardzo słaba asymetria, rozkład prawie symetryczny 0,2 - 0,4 słaba asymetria

0,4 - 0,6 umiarkowana asymetria 0,6 - 0,8 silna asymetria

Powyżej 0,8 bardzo silna asymetria.

(23)

Zauważmy, że najprostszym, prymitywnym sposobem badania skośności może być porównywanie położenia średniej i mediany,

• Jeśli średnia jest na prawo od mediany

dMex

to mamy asymetrię prawoskośną

• Jeśli średnia jest na lewo od mediany

xMed

to mamy asymetrię lewośną

(24)

Miary skupienia (koncentracji) Def.

Koncentracja

oznacza skupienie wartości cechy wokół średniej arytmetycznej z próby.

Def.

Współczynnikiem kurtozy

(koncentracji, spłaszczenia) nazywamy wartość K otrzymaną ze wzoru:

4 4

K m

s 4   4

1

1 n

i i

m x x

n

  

gdzie

Jest 4 momentem centralnym z populacji.

W celu oceny koncentracji badanego rozkładu porównuje się ją do rozkładu normalnego, dla którego

K  3

(25)

Def.

Współczynnikiem ekscesu

nazywamy wartość liczoną ze wzoru:

3 K   K

Jak widać celem wprowadzenia nowego pojęcia było przesunięcie wartości do 0.

Rozkłady prawdopodobieństwa można podzielić ze względu na wartość współczynnika ekscesu na rozkłady:

mezokurtyczne - wartość kurtozy wynosi 0, spłaszczenie rozkładu jest podobne do spłaszczenia rozkładu normalnego (dla którego kurtoza wynosi dokładnie 0)

leptokurtyczne - kurtoza jest dodatnia, wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnym

platokurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym

(26)
(27)

Cytaty

Powiązane dokumenty

 platokurtyczne - kurtoza jest ujemna, wartości cechy mniej skoncentrowane niż przy rozkładzie normalnym. Kurtoza czasu trwania erupcji

W pewnym zakładzie wśród losowo wybranych dwudziestu osób okazało się, że cztery z nich nigdy nie były na zwolnieniu chorobowym.. Oszacować jaki odsetek pracowników tego

Dwuwymiarowa zmienna losowa jest typu skokowego jeśli przyjmuje skończoną lub co najwyżej przeliczaną liczbę wartości (x 1 ,y j ), (i,j=1,2,…... Oznacza to, że

Populacyjna wartość odchylenia standardowego mieści się w pewnym przedziale zawierającym odchylenie standardowe z próby.. Przedział ten nazywany jest przedziałem ufności

Model ewolucji obiektu bez struktury jest przede wszystkim podstawą sformułowania ogólnej definicji tendencji, a w szczególności wskazania ten- dencji małej zmiany –

wartości cechy bardziej skoncentrowane niż przy rozkładzie normalnym. wartości cechy mniej skoncentrowane niż przy

Z uwagi na fakt, iż w tej pracy zajmujemy się przypadkiem, w którym są analizowane ciągi niezależnych zmiennych losowych do budowy prognoz ostrzegawczych, wzięte zostały stany

Zontek (1996) za- proponowali pewną metodę odpornej estymacji efektów stałych i odchylenia standardowego efektów losowych bazującą na zgodnych w sensie Fishera i róż- niczkowalnych