• Nie Znaleziono Wyników

Po co nam charakterystyki liczbowe?

N/A
N/A
Protected

Academic year: 2021

Share "Po co nam charakterystyki liczbowe?"

Copied!
24
0
0

Pełen tekst

(1)

Po co nam charakterystyki liczbowe?

(2)

Def.

Charakterystyki liczbowe

to wielkości wyznaczone na podstawie danych statystycznych, charakteryzujące własności badanej cechy.

Klasyfikacja charakterystyk:

–charakterystyki położenia (np. średnia, mediana, dominanta),

–charakterystyki rozproszenia (np. wariancja, odchylenie standardowe, odstęp międzykwartylowy, współczynnik zmienności),

–charakterystyki asymetrii (np. współczynnik asymetrii, wskaźnik asymetrii), –charakterystyki spłaszczenia (np. kurtoza).

(3)

klasyczne

(wyznaczone przez wszystkie wartości danych statystycznych, np. średnia, wariancja, odchylenie standardowe,

współczynnik zmienności, współczynnik asymetrii),

Charakterystyki mogą być:

pozycyjne

(wyznaczone przez niektóre (decyduje ich pozycja) wartości danych statystycznych,

np. mediana, dominanta, kwartyle),

mieszane

(np. wskaźnik asymetrii).

(4)
(5)

Podstawowe miary położenia:

Def.

P-tym centylem (percentylem)

w zbiorze liczb (uporządkowanych według wielkości) jest taka wartość, poniżej której znajduje się P% liczb z tego zbioru.

Miejsce P-tego percentyla określa wzór (wersja Aczel):

1

100

n P

k

A z takiego wzoru liczy liczy Excel

1

100 1

n P

k

 

(6)

Decyle (dziesiątki centyli)

np. decyl pierwszy (D1) oznacza, że 10% jednostek ma wartości cechy mniejsze bądź równe od decyla pierwszego, a 90% jednostek

wartości cechy równe lub większe od decyla pierwszego. Analogicznie dla kolejnych decyli.

Przykład

Przy dużych n wyniki wychodzą podobne, dla n = 5000.

Porównajmy wyniki:

15001 20

1000, 2

100 100

n P

k  

  

14999 20

1 1 1000,8

100 100

n P

k  

    

(7)

Przykład

Wyniki z testu z Rachunku prawdopodobieństwa 1:liczone w procentach

88, 56, 64, 45, 52, 76, 54, 79, 38, 98, 69, 77, 71, 45, 60, 78, 90, 81, 87, 44, 80, 41 Znajdziemy 20 centyl.

Najpierw uporządkuję wyniki:

38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98 Policzymy ze wzoru zgodnego z Excelem

Analogicznie 30 percentyl to 54,6

50 percentyl to 70 90 percentyl to 87,9

czyli między 5 a 6 wyrazem ciągu, 45 i 52 odpowiednio, w odległości 0,2 od 45 i 0,8 od 52,

ponieważ odległość między nimi to 7,

więc0,2*7=1,4 i otrzymujemy wynik 46,4 i to jest nasz 20 percentyl.

k=(n-1)P/100+1 = 21*20:100+1=5,2

(8)

Def.

Kwartyl pierwszy Q1

dzieli zbiorowość na dwie części w ten sposób, że 25%

jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu Q1, a 75% równe bądź wyższe od tego kwartyla, kwartyl pierwszy to 25centyl.

Kwartyl drugi (mediana Me)

dzieli zbiorowość na dwie równe części; połowa jednostek ma wartości cechy mniejsze lub równe medianie, a połowa wartości cechy równe lub większe od Me; stąd nazwa wartość środkowa, inaczej możemy zapisać, że to 50 centyl.

Kwartyl trzeci Q3

dzieli zbiorowość na dwie części w ten sposób, że 75% jednostek zbiorowości ma wartości cechy niższe bądź równe kwartylowi pierwszemu Q3, a 25%

równe bądź wyższe od tego kwartyla. Inaczej to 75 centyl.

(9)
(10)

Gdy mamy szereg szczegółowy to Me można wyznaczyć bardzo prosto:

Przykład 1

Niech dany będzie szereg szczegółowy, wiek w latach kolegów z pracy: 31, 32, 32, 33, 36, 38, 38, 40, 41, 45, 46

6

38

Mex

Przykład 2

Niech dany będzie szereg szczegółowy, oceny z kolokwium: 3.0, 3.0, 3.5, 3.5, 3.5, 3.5, 4.0, 4.0, 4,0, 4.5, 4.5, 5

6 7

3.5 4.0 2 2 3.75

x x

Me  

  

Gdzie P oznacza parzysta.

1 2

2 2 1

,

1 ,

2

n

n n

x n P

Me

x x n P

 

 

   

    

  

(11)

Gdy mamy szereg rozdzielczy punktowy to Me można wyznaczyć bez

problemu, wystarczy znaleźć wartość wariantu cechy, dla której liczebność skumulowana po raz pierwszy przekracza (n+1)/2, jeśli n jest liczbą

nieparzystą i n/2 jeśli parzystą. Jeśli wypada to między dwiema klasami, to trzeba wziąć średnią arytmetyczną wariantów.

Średnia ocen Liczba studentów Liczebność skumulowana

3,2 10 10

3,5 12 22

4,0 17 39

4,1 27 66

4,3 17 83

4,7 12 95

5 5 100

Razem 100

Przykład

Wracamy do przykładu ze średnimi ocen studentów

Me = 4.1

n =100, czyli patrzymy gdzie wpada 50 i 51 wynik.

(12)

2

1

sk m

lm m

m

n n

Me x r

n

  

Gdy mamy szereg rozdzielczy to Me można znaleźć ze wzoru:

lewy koniec przedziału mediany (ten do którego należy mediana) liczebność przedziału mediany

liczebność skumulowana przedziału poprzedzającego przedział mediany rozpiętość przedziału mediany

xlm

nm

1 sk

nm

rm

Przedział z medianą, to pierwszy przedział, dla którego liczebność

(13)

Graficzny sposób wyznaczania Mediany w szeregu rozdzielczym przedziałowym:

Na osi pionowej mamy częstości skumulowane, a na osi poziomej granice przedziałów (klas).

(14)

Przykład

38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98 Q1=52,5

Me=70 Q3=79,75

Def

Moda (dominanta)

d = wariant cechy występujący najczęściej (o ile taki istnieje). Inne oznaczenia D, Mo

Przykład

Np. dla danych 2, 3, 4, 3, 2, 5, 3, 2, 3, 1 dominantą jest d=3.

Natomiast dla danych 2, 3, 4, 3, 2, 5, 3, 2, 3, 2 dominanta nie jest określona (mówimy, że Uwaga

Jeśli próba ma modę, to nazywamy rozkład jednomodalnym, jeśli jest kilka wartości występujących równie często, mówimy o rozkładzie wielomodalnym.

(15)

Dominantę w szeregu punktowym to wartość wariantu

dla którego liczebność jest największa.

Populacja może nie posiadać dominanty.

xi

n

i

Od razu widać, że dominantą jest wartość wariantu 4,1.

Średnia ocen Liczba studentów

3,2 10

3,5 12

4,0 17

4,1 27

4,3 17

4,7 12

5 5

Razem 100

x

i

n

i

(16)

lewy koniec przedziału dominanty (tego, dla którego liczebność jest największa) liczebność przedziału dominanty

liczebność przedziału poprzedzającego przedział dominanty liczebność przedziału następującego po przedziale dominanty

rozpiętość przedziału dominanty xld

nd

1

nd

1

nd

rd

   

1

1 1

d d

ld d

d d d d

n n

d D x r

n n n n

    

  

Dominantę w szeregu przedziałowym możemy policzyć ze wzoru:

Zakładamy, że sąsiadujące klasy mają równe długości.

(17)

Graficzny sposób znajdowania dominanty D w szeregu rozdzielczym przedziałowym.

(18)

Przykład jak statystyka kłamie:

Wyniki badania cechy w populacji:

0.5; 1; 1; 1.5, 2.5, 2.5, 3; 3; 3; 3.5; 3.5; 4.5, 4.5; 4.5, 4.5; 5; 6.5; 7; 7; 7.5; 7.5; 9; 9; 9.5 k = 5, r=2, d = 4.5

Klasa Liczebność klasy

[0,2) 4

[2,4) 7

[4,6) 5

[6,8) 5

[8,10) 4

Razem 24

[ ,x xi i1) ni

Przedział dominanty [2,4).

1 [2, 4)

d d

ld d

n n

d x r

   

(19)

Min = 38 Q1=52,5 Q3=79,75 Max = 98 66,95

x  Me=70

Inna, klasyczna miara położenia Średnia (arytmetyczna):

1

1

n

i i

x x

n

 

Przykład

Wyniki testu w %

38, 41, 44, 45, 45, 52, 54, 56, 60, 64, 69, 71, 76, 77, 78, 79, 80, 81, 87, 88, 90, 98

1

1 66, 95

n i i

x x

n

(20)

W szeregach rozdzielczych punktowych stosuje się tzw.

średnią arytmetyczną ,

wyrażającą się wzorem:

1

1

k

i i i

x n x

n

 

Dla szeregu rozdzielczego przedziałowego:

1

1

k

i i i

x n x

n

 

środek i - tej klasy (przedziału)

liczebność i-tej klasy Liczebność populacji

1

2

i i

i

x x

x

 

n

i

n

(21)

Przykład:

Wyniki badania średniej ocen studentów biologii 3 roku w 2013r Przedstawimy w postaci szeregu rozdzielczego punktowego:

Średnia ocen Liczba studentów

3,2 10

3,5 12

4,0 17

4,1 27

4,3 17

4,7 12

5 5

Razem 100

1

1 1

(10 3, 2 12 3,5 ... 5 5) 4, 07 100

k

i i i

x n x

n

         

(22)

Średnia geometryczna

, w statystyce miara przeciętnego poziomu wartości cechy jednostek zbiorowości statystycznej używana dla cech przyjmujących wyłącznie wartości dodatnie.

Średnia geometryczna z dwóch liczb dodatnich jest pierwiastkiem kwadratowym z ich iloczynu. Ogólnie średnią geometryczną definiuje się jako pierwiastek n-tego stopnia z iloczynu wszystkich n wartości cechy:

1 ...

n n

Gx   x

Przykład:

W ciągu trzech kolejnych lat liczba osób nowozakażonych wirusem HIV wynosiła odpowiednio: 500, 750, 825. Jaki był średni względny przyrost liczby nowych

zakażeń? Wartości cechy statystycznej w tym zadaniu to przyrosty względna liczby zakażeń w kolejnych latach, tzn.:

1 , 750 1 825

5 , 500 1 750

2 1

x x

(23)

Miary położenia

pozycyjne

Dominanta Kwantyle

Q1, Q3, Me Centyle

Klasyczne

Średnia arytmetyczna

Średnia Geometryczna

(24)

Zalety i wady różnych miar położenia

Miara położenia Zalety Wady

Średnia

arytmetyczna

Łatwo policzyć, jest

zdefiniowana algebraicznie

Uwzględnia wszystkie wartości wariantów

Duży wpływ mają na nią wartości odskakujące

Zniekształcenie w przypadku rozkładów skośnych

Moda Łatwo znaleźć

Nie mają na nią wpływu wyniki odskakujące

Można ją wyznaczyć dla cech niemierzalnych

Nie zawsze istnieje

Pomija większość informacji

Nie jest zdefiniowana algebraicznie

Mediana Nie jest zniekształcona w

przypadku rozkładów skośnych

Brak wpływu wartości odskakujących

Pomija większość informacji

Nie jest zdefiniowana algebraicznie

Cytaty

Powiązane dokumenty

jednostek zbiorowości ma wartości nie wyższe niż kwartyl pierwszy, a 75% jednostek zbiorowości ma wartości nie niższe niż kwartyl pierwszy Kwartyl drugi (mediana,

Dowieść, że liczba a jest

Na końcu dzieci próbują zsumować liczby krążków w każdym kolorze, które były wylosowane dla każdej sumy i sprawdzają, który kolor „wygrał”.. Zbierz dane ze wszystkich

wójta, zastępcy wójta, sekretarza gminy, skarbnika gminy, kierownika jednostki organizacyjnej gminy, osoby zarządzającej i członka organu zarządzającego gminną osobą

Wspólnie z Karma Ventures, Heal Capital, Inovo Capital Partners i DreamIt Ventures bank zainwestował blisko 40 mln PLN w Infermedica – wrocławską spółkę, który

W tym momencie zauważamy, że każda funkcja może być przybliżana wielomianami trygo- nometrycznymi... To są falki (Guy David, Wavelets and

• Stabilna sytuacja na kluczowych rynkach byłego ZSRR i Europy Środkowo-Wschodniej i walutach krajów byłego ZSRR (nie gorsza niż w 2020 r.).. • Nie nastąpią istotne zakłócenia

Ustaw uczniów w pary tak, by suma numerów uczniów każdej pary była podzielna przez 6.. Udowodnij, że