Po co nam charakterystyki liczbowe?

(1)

(2)

Def.

Charakterystyki liczbowe

to wielkości wyznaczone na podstawie danych statystycznych, charakteryzujące własności badanej cechy.

Klasyfikacja charakterystyk:

–charakterystyki położenia (np. średnia, mediana, dominanta),

–charakterystyki rozproszenia (np. wariancja, odchylenie standardowe, odstęp międzykwartylowy, współczynnik zmienności),

–charakterystyki asymetrii (np. współczynnik asymetrii, wskaźnik asymetrii), –charakterystyki spłaszczenia (np. kurtoza).

(3)

• klasyczne

(wyznaczone przez wszystkie wartości danych statystycznych, np. średnia, wariancja, odchylenie standardowe,

współczynnik zmienności, współczynnik asymetrii),

Charakterystyki mogą być:

• pozycyjne

(wyznaczone przez niektóre (decyduje ich pozycja) wartości danych statystycznych,

np. mediana, dominanta, kwartyle),

• mieszane

(np. wskaźnik asymetrii).

(4)

(5)

Podstawowe miary położenia:

Def.

P-tym centylem (percentylem)

w zbiorze liczb (uporządkowanych według wielkości) jest taka wartość, poniżej której znajduje się P% liczb z tego zbioru.

Miejsce P-tego percentyla określa wzór (wersja Aczel):

 ¹ 

100 n P

k 



A z takiego wzoru liczy liczy Excel

 ¹ 

100 1

n P

k 

 

(6)

Decyle (dziesiątki centyli)

np. decyl pierwszy (D1) oznacza, że 10% jednostek ma wartości cechy mniejsze bądź równe od decyla pierwszego, a 90% jednostek

wartości cechy równe lub większe od decyla pierwszego. Analogicznie dla kolejnych decyli.

Przykład

Przy dużych n wyniki wychodzą podobne, dla n = 5000.

Porównajmy wyniki:

 ¹  ^{5001 20}

1000, 2

100 100

n P

k  

  

 ¹  ^{4999 20}

1 1 1000,8

100 100

n P

k  

    

(7)

Przykład

Wyniki z testu z Rachunku prawdopodobieństwa 1:liczone w procentach

88, 56, 64, 45, 52, 76, 54, 79, 38, 98, 69, 77, 71, 45, 60, 78, 90, 81, 87, 44, 80, 41 Znajdziemy 20 centyl.

Najpierw uporządkuję wyniki:

38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98 Policzymy ze wzoru zgodnego z Excelem

Analogicznie 30 percentyl to 54,6

50 percentyl to 70 90 percentyl to 87,9

czyli między 5 a 6 wyrazem ciągu, 45 i 52 odpowiednio, w odległości 0,2 od 45 i 0,8 od 52,

ponieważ odległość między nimi to 7,

więc0,2*7=1,4 i otrzymujemy wynik 46,4 i to jest nasz 20 percentyl.

k=(n-1)P/100+1 = 21*20:100+1=5,2

(8)

Def.

Kwartyl pierwszy Q1

dzieli zbiorowość na dwie części w ten sposób, że 25%

jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu Q1, a 75% równe bądź wyższe od tego kwartyla, kwartyl pierwszy to 25centyl.

Kwartyl drugi (mediana Me)

dzieli zbiorowość na dwie równe części; połowa jednostek ma wartości cechy mniejsze lub równe medianie, a połowa wartości cechy równe lub większe od Me; stąd nazwa wartość środkowa, inaczej możemy zapisać, że to 50 centyl.

Kwartyl trzeci Q3

dzieli zbiorowość na dwie części w ten sposób, że 75% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu Q3, a 25%

równe bądź wyższe od tego kwartyla. Inaczej to 75 centyl.

(9)

(10)

Gdy mamy szereg szczegółowy to Me można wyznaczyć bardzo prosto:

Przykład 1

Niech dany będzie szereg szczegółowy, wiek w latach kolegów z pracy: 31, 32, 32, 33, 36, 38, 38, 40, 41, 45, 46

6

38 Me  x 

Przykład 2

Niech dany będzie szereg szczegółowy, oceny z kolokwium: 3.0, 3.0, 3.5, 3.5, 3.5, 3.5, 4.0, 4.0, 4,0, 4.5, 4.5, 5

6 7

3.5 4.0 2 2 3.75

x x

Me  

  

Gdzie P oznacza parzysta.

1 2

2 2 1

,

1 ,

2

n

n n

x n P

Me

x x n P



 

 

   

    

  



(11)

Gdy mamy szereg rozdzielczy punktowy to Me można wyznaczyć bez

problemu, wystarczy znaleźć wartość wariantu cechy, dla której liczebność skumulowana po raz pierwszy przekracza (n+1)/2, jeśli n jest liczbą

nieparzystą i n/2 jeśli parzystą. Jeśli wypada to między dwiema klasami, to trzeba wziąć średnią arytmetyczną wariantów.

Średnia ocen Liczba studentów Liczebność skumulowana

3,2 10 10

3,5 12 22

4,0 17 39

4,1 27 66

4,3 17 83

4,7 12 95

5 5 100

Razem 100

Przykład

Wracamy do przykładu ze średnimi ocen studentów

Me = 4.1

n =100, czyli patrzymy gdzie wpada 50 i 51 wynik.

(12)

2

1

sk m

lm m

m

n n

Me x r

n



  

Gdy mamy szereg rozdzielczy to Me można znaleźć ze wzoru:

lewy koniec przedziału mediany (ten do którego należy mediana) liczebność przedziału mediany

liczebność skumulowana przedziału poprzedzającego przedział mediany rozpiętość przedziału mediany

xlm

nm

1 sk

nm_

rm

Przedział z medianą, to pierwszy przedział, dla którego liczebność

(13)

Graficzny sposób wyznaczania Mediany w szeregu rozdzielczym przedziałowym:

Na osi pionowej mamy częstości skumulowane, a na osi poziomej granice przedziałów (klas).

(14)

Przykład

38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98 Q1=52,5

Me=70 Q3=79,75

Def

Moda (dominanta)

d = wariant cechy występujący najczęściej (o ile taki istnieje). Inne oznaczenia D, Mo

Przykład

Np. dla danych 2, 3, 4, 3, 2, 5, 3, 2, 3, 1 dominantą jest d=3.

Natomiast dla danych 2, 3, 4, 3, 2, 5, 3, 2, 3, 2 dominanta nie jest określona (mówimy, że Uwaga

Jeśli próba ma modę, to nazywamy rozkład jednomodalnym, jeśli jest kilka wartości występujących równie często, mówimy o rozkładzie wielomodalnym.

(15)

Dominantę w szeregu punktowym to wartość wariantu

dla którego liczebność jest największa.

Populacja może nie posiadać dominanty.

xi

n

i

Od razu widać, że dominantą jest wartość wariantu 4,1.

Średnia ocen Liczba studentów

3,2 10

3,5 12

4,0 17

4,1 27

4,3 17

4,7 12

5 5

Razem 100

x

i

n

i

(16)

lewy koniec przedziału dominanty (tego, dla którego liczebność jest największa) liczebność przedziału dominanty

liczebność przedziału poprzedzającego przedział dominanty liczebność przedziału następującego po przedziale dominanty

rozpiętość przedziału dominanty xld

nd

1

nd_

1

nd_

rd

   

1

1 1

d d

ld d

d d d d

n n

d D x r

n n n n



 

    

  

Dominantę w szeregu przedziałowym możemy policzyć ze wzoru:

Zakładamy, że sąsiadujące klasy mają równe długości.

(17)

Graficzny sposób znajdowania dominanty D w szeregu rozdzielczym przedziałowym.

(18)

Przykład jak statystyka kłamie:

Wyniki badania cechy w populacji:

0.5; 1; 1; 1.5, 2.5, 2.5, 3; 3; 3; 3.5; 3.5; 4.5, 4.5; 4.5, 4.5; 5; 6.5; 7; 7; 7.5; 7.5; 9; 9; 9.5 k = 5, r=2, d = 4.5

Klasa Liczebność klasy

[0,2) 4

[2,4) 7

[4,6) 5

[6,8) 5

[8,10) 4

Razem 24

[ ,x x_i _i_1) nⁱ

Przedział dominanty [2,4).

1 [2, 4)

d d

ld d

n n

d x  ^ r

   

(19)

Min = 38 Q1=52,5 Q3=79,75 Max = 98 66,95

x  Me=70

Inna, klasyczna miara położenia Średnia (arytmetyczna):

1

ⁿ

i i

x x

n

_

 

Przykład

Wyniki testu w %

38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98

1

1 66, 95

n i i

x x

n _







(20)

W szeregach rozdzielczych punktowych stosuje się tzw.

średnią arytmetyczną ,

wyrażającą się wzorem:

1

^k

i i i

x n x

n

_

 

Dla szeregu rozdzielczego przedziałowego:

1

^k

i i i

x n x

n

_

  ^

środek i - tej klasy (przedziału)

liczebność i-tej klasy Liczebność populacji

1

2

i i

i

x x

x  ^

 

n

i

n

(21)

Przykład:

Wyniki badania średniej ocen studentów biologii 3 roku w 2013r Przedstawimy w postaci szeregu rozdzielczego punktowego:

Średnia ocen Liczba studentów

3,2 10

3,5 12

4,0 17

4,1 27

4,3 17

4,7 12

5 5

Razem 100

1

1 1

(10 3, 2 12 3,5 ... 5 5) 4, 07 100

k

i i i

x n x

n

_

         

(22)

Średnia geometryczna

, w statystyce miara przeciętnego poziomu wartości cechy jednostek zbiorowości statystycznej używana dla cech przyjmujących wyłącznie wartości dodatnie.

Średnia geometryczna z dwóch liczb dodatnich jest pierwiastkiem kwadratowym z ich iloczynu. Ogólnie średnią geometryczną definiuje się jako pierwiastek n-tego stopnia z iloczynu wszystkich n wartości cechy:

1 ...

n n

G  x   x

Przykład:

W ciągu trzech kolejnych lat liczba osób nowozakażonych wirusem HIV wynosiła odpowiednio: 500, 750, 825. Jaki był średni względny przyrost liczby nowych

zakażeń? Wartości cechy statystycznej w tym zadaniu to przyrosty względna liczby zakażeń w kolejnych latach, tzn.:

1 , 750 1 825

5 , 500 1 750

2 1



 x x

(23)

Miary położenia

pozycyjne

Dominanta Kwantyle

Q1, Q3, Me Centyle

Klasyczne

Średnia arytmetyczna

Średnia Geometryczna

(24)

Zalety i wady różnych miar położenia

Miara położenia Zalety Wady

Średnia

arytmetyczna

• Łatwo policzyć, jest

zdefiniowana algebraicznie

• Uwzględnia wszystkie wartości wariantów

• Duży wpływ mają na nią wartości odskakujące

• Zniekształcenie w przypadku rozkładów skośnych

Moda • Łatwo znaleźć

• Nie mają na nią wpływu wyniki odskakujące

• Można ją wyznaczyć dla cech niemierzalnych

• Nie zawsze istnieje

• Pomija większość informacji

• Nie jest zdefiniowana algebraicznie

Mediana • Nie jest zniekształcona w

przypadku rozkładów skośnych

• Brak wpływu wartości odskakujących

• Pomija większość informacji

• Nie jest zdefiniowana algebraicznie

Po co nam charakterystyki liczbowe?

Def.

Charakterystyki liczbowe

• klasyczne

(wyznaczone przez wszystkie wartości danych statystycznych, np. średnia, wariancja, odchylenie standardowe,

współczynnik zmienności, współczynnik asymetrii),

Charakterystyki mogą być:

• pozycyjne

(wyznaczone przez niektóre (decyduje ich pozycja) wartości danych statystycznych,

np. mediana, dominanta, kwartyle),

• mieszane

(np. wskaźnik asymetrii).

Podstawowe miary położenia:

Def.

P-tym centylem (percentylem)

 1 

100

n P

k 



 1 

100 1

n P

k 

 

Decyle (dziesiątki centyli)

 1  5001 20

1000, 2

100 100

n P

k  

  

 1  4999 20

1 1 1000,8

100 100

n P

k  

    

Def.

Kwartyl pierwszy Q1

Kwartyl drugi (mediana Me)

Kwartyl trzeci Q3

38

Me  x 

3.5 4.0 2 2 3.75

x x

Me  

  

,

1 ,

2

x n P

Me

x x n P

 

 

   

    

  



2

n n

Me x r

n



  

Def

Moda (dominanta)

n

x

n

   

n n

d D x r

n n n n

    

  

Inna, klasyczna miara położenia Średnia (arytmetyczna):

1

x x

 ¹ 

 ¹ 

 ¹  ^{5001 20}

 ¹  ^{4999 20}

  ^