Statystyka Opisowa 2014 część 1

(1)

Statystyka Opisowa 2014 część 1

Katarzyna Lubnauer

(2)

Literatura:

1. „Statystyka w Zarządzaniu” ‚ Admir D. Aczel

2. „Statystyka Opisowa od Podstaw” ‚ Ewa Wasilewska 3. „Statystyka” , Lucjan Kowalski.

4. „Statystyka opisowa”, Mieczysław Sobczyk

Są trzy rodzaje kłamstw: kłamstwa,

(3)

Populacja = zbiorowość statystyczna

to zbiór elementów (ludzi, przedmiotów, zwierząt itp.) objętych badaniem statystycznym, powiązanych ze sobą logicznie, mających wspólne cechy, ale jednocześnie nieidentycznych ze względu na badaną cechę statystyczną.

Aby populację określić jednoznacznie charakteryzujemy ją pod względem:

• rzeczowym (np. kto? – Studenci; co? - Zapałki.)

• czasowym (kiedy? - 02.2014r)

• przestrzennym (terytorialnym - zebrani w sali, w pudełku)

Te cechy populacji mają charakter stały i są wspólne dla badanej populacji

Podstawowe pojęcia

(4)

Statystyka opisowa

to dział statystyki zajmujący się metodami opisu

danych statystycznych uzyskanych podczas badania statystycznego. Dane dotyczą całej badanej populacji.

Statystyka opisowa

zajmuje się:

• Gromadzeniem danych

• Prezentacją danych

• Analizą i interpretacją danych

Statystyka dzieli się na dwa działy:

(5)

Statystyka matematyczna

to dział statystyki, który zajmuje się uogólnianiem wyników badania części zbiorowości (tzw. próby) na całą zbiorowość.

Statystyka matematyczna wykorzystuje do badań modele probabilistyczne.

Badanie statystyczne może być:

• pełne (obejmuje całą populację),

• częściowe (obejmuje część populacji – próbę).

Które są lepsze i dlaczego?

Dlaczego nie robimy zawsze badań pełnych?

(6)

Żona wysyła męża - policjanta do sklepu po zapałki:

- Tylko kup dobre zapałki, żeby się dobrze paliły - dodaje.

Po kwadransie policjant wraca, kładzie pudełko na stole i mówi zadowolony:

- Bardzo dobre zapałki. Wypróbowałem w sklepie. Wszystkie się palą.

Def.

Próba

jest podzbiorem wyników pomiarów wybranych z populacji.

Próbę nazywamy

próbą losową

, jeżeli każda możliwa próba złożona z n elementów miała taką samą szansę, że zostanie wybrana.

Próba powinna być

reprezentatywna

tzn. rozkład wariantów badanej cechy

w próbie powinien być zbliżony do rozkładu w całej populacji, temu służy jej losowość.

(7)

Nas interesuje badanie całej populacji. Np. analiza spisu powszechnego, badanie wyników studentów na egzaminie.

Badaniem populacji na podstawie próby zajmą się Państwo na statystyce matematycznej.

(8)

Def.

Cecha

to właściwość elementów populacji ze względu na którą prowadzimy badanie statystyczne.

Przykład1

Badamy czas spędzany przez studentów codziennie na fb.

Cechy to wyniki tego doświadczenia podawane w minutach.

Przykład 2

Zapałki, badamy czy się zapalają, czy nie.

Mamy dwa wyniki: tak lub nie

Warianty to wartości cechy (cecha powinna mieć przynajmniej dwa warianty).

Zwyczajowo oznaczamy je x_i .

Zaproponujcie inne cechy badane w obu przypadkach.

(9)

Mierzalne

(ilościowe), czyli liczby.

Mogą być ciągłe lub skokowe.

Przykład1

Czas spędzany przez Państwa na Fb, wzrost, zarobki, waga torebki z cukrem, itp.

Rodzaje cech:

(10)

Jakościowe (niemierzalne)

Mogą być

nominalne i porządkowe

Przykład2

Studenci: kolor oczu, grupa krwi, palenie papierosów , grupa krwi (nominalne), Wykształcenie:

podstawowe, średnie, wyższe.

Masa ciała – mała, średnia, duża waga (porządkowe).

(11)

Na potrzeby naszego wykładu założymy, że badana cecha jest mierzalna.

Cechy zmienne

Mierzalne (ilościowe)

ciągłe skokowe

Niemierzalne (jakościowe)

Nominalne porządkowe

(12)

Sposoby prezentacji danych liczbowych.

Dane statystyczne prezentujemy zwykle w postaci

• Szeregu prostego (szczegółowego) (stosujemy w przypadku małej liczby danych)

• Szeregu rozdzielczego:

punktowego (stosujemy gdy dane się powtarzają, dla cech skokowych)

przedziałowego (stosujemy gdy danych jest dużo i się nie powtarzają (ale mogą) lub zawsze dla cech ciągłych)

• Wykresu

(13)

Def.

Szereg szczegółowy

to materiał statystyczny uporządkowany wyłącznie wg wartości badanej cechy.

Przykład:

Wyniki badania średniej ocen studentów biologii 3 roku w 2013r Szereg szczegółowy, uporządkowany rosnąco:

3,2; 3,2; 3,2; 3,2; 3,2; 3,2; 3,2; 3,2; 3,2; 3,2; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5;

3,5; 3,5; 3,5; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0;

4,0; 4,0; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1;

4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3;

4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7;

4,7; 5,0; 5,0; 5,0; 5,0; 5,0;

(14)

Def.

Szereg rozdzielczy

jest statystycznym sposobem prezentacji danych z próby. Uzyskuje się go dzieląc dane statystyczne na pewne kategorie i podając liczebność lub częstość zbiorów danych przypadających na każdą z tych

kategorii.

Jeśli mamy szereg rozdzielczy punktowy to wypisujemy wartości cech (warianty)

x

_i i przypisujemy im częstość występowania

n

_i.

Ważnymi danymi dotyczącymi wariantów badanej cechy są największa najmniejsza i wartości z populacji:

max

,

min

x x

(15)

Przykład:

Wyniki badania średniej ocen studentów biologii 3 roku w 2013r Szereg szczegółowy, uporządkowany rosnąco:

3,2; 3,2; 3,2; 3,2; 3,2; 3,2; 3,2; 3,2; 3,2; 3,2; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 4,0; 4,0;

4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1;

4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,3; 4,3; 4,3; 4,3; 4,3;

4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7;

5,0; 5,0; 5,0; 5,0; 5,0;

Przedstawimy w postaci szeregu rozdzielczego punktowego:

Średnia ocen Liczba studentów

3,2 10

3,5 12

4,0 17

4,1 27

4,3 17

4,7 12

5 5

(16)

Warianty, które wyróżniamy w szeregu rozdzielczym to klasy.

Ilość klas będziemy oznaczać k.

k

(17)

Jeżeli wyników jest bardzo dużo, lub przyjmują wartości w sposób ciągły

stosujemy szereg rozdzielczy przedziałowy,

np. badamy wzrost studentek z biologii, mamy dokładną miarę i wyniki

dostajemy z dokładnością do minimetra. Dzielimy je więc na przedziały np. o długości 5 cm (na ile i jakie przedziały powinniśmy podzielić odpowiem później).

Jeśli mamy szereg rozdzielczy przedziałowy to wypisujemy przedziały wartości cech (wariantów)

[ , x x

_i _i_₁

)

i przypisujemy im częstość

występowania

n

_i^.

(18)

Szereg rozdzielczy przedziałowy dla wzrostu grupy stu studentek

Wzrost x_i Liczba studentów n_i

[145;150) 3

[150;155) 7

[155;160) 12

[160;165) 23

[165;170) 28

[170;175) 15

[175;180) 8

[180;185) 3

[185;190) 1

Razem 100

(19)

Szereg rozdzielczy przedziałowy – wykres słupkowy

(20)

Szereg rozdzielczy przedziałowy – wykres liniowy

(21)

Zasady wyznaczania klas w szeregu rozdzielczym przedziałowym:

Przystępując do konstrukcji szeregu rozdzielczego przedziałowego musimy pamiętać o tym, żeby podział na klasy był:

• wyczerpujący (tzn. nie pomijał żadnego wyniku)

• rozłączny (tzn. przedziały muszą być rozłączne)

Konstrukcja szeregu rozdzielczego przedziałowego

przebiega w 3 etapach:

• Ustalenie liczby klas

• Ustalenie rozpiętości przedziałów klasowych Def.

Przedziały, na które dzielimy szereg rozdzielczy nazywamy

klasami,

liczebność i-tej klasy oznaczymy :

n

_i

(22)

• Liczba zalecanych klas Liczba obserwacji

N •k 40-60 •6-8

•7-10 60-100

•9-12 100-200

•11-17 200-500

Przykład #:

Pytamy 50 studentów o czas spędzany codziennie przy komputerze, otrzymujemy następujące wyniki w postaci szeregu szczegółowego (prostego):

26, 48, 60, 66, 72, 84, 90, 96, 108, 114, 126, 126, 126, 132, 138, 138, 144, 144, 150, 156,

162, 168, 168, 168, 168, 174, 174, 175, 180, 180, 192, 192, 192, 198, 198, 204, 210, 210, 222, 240,

(23)

Liczbę klas

możemy wyznaczać też ze wzoru:

k  n

Długość klasy, rozpiętość klas.

Zwykle klasy mają tą samą rozpiętość r i wyznaczamy ją ze wzoru:

max min

R x x

r k k

  

Własności

(24)

Przykład #.

Dla liczebności próby 50 będziemy mieli 7 klas, bo

50 = 7,07 …

Długość z klasy policzymy ze wzoru:

3 6 4 2 6

4 8, 3 5 0 7

r R

k

    

Uwaga:

r bierzemy na ogół z nadmiarem, jeżeli przybliżamy, żeby mieć pewność, że wszystkie wartości próby się zmieszczą.

(25)

Są od tej reguły wyjątki. Czasem lepiej wziąć nierówne długości klas, np. gdy mamy pewne wyniki mocno odbiegające od pozostałych.

Przykład *

Zarobki koszykarzy wyrażone w tys. Złotych wynoszą:

7,8, 9, 10, 10, 10, 11, 12, 12, 14, 15, 15, 15, 17,17, 17, 20, 21, 21, 21, 22, 25, 30, 90, 100.

Mamy n=25, a zatem k=5, sprawdźmy co się stanie gdy wyznaczymy równe klasy.

max min

100 7

18, 6 19 5

x x

r k

 

   

Klasa Liczebność klasy

[7, 26) 22

[26,45) 1

[45,64) 0

(26)

Jak widzimy, z takiego szeregu nic się nie dowiem, tu trzeba zrobić zmienne długości klas.

Stworzyłam osobną klasę dla wyników odbiegających od normy (90,100), następnie pozostałe wyniki podzieliłam na 4 równe klasy.

Klasa Liczebność klasy

[7, 13) 9

[13,19) 7

[19,25) 5

[25,31) 2

[31, 101) 2

Zapiszę raczej informacje w takiej postaci:

(27)

Przykład #:

Pytamy 50 studentów o czas spędzany codziennie przy komputerze, otrzymujemy następujące wyniki w postaci szeregu szczegółowego (prostego):

26, 48, 60, 66, 72, 84, 90, 96, 108, 114, 126, 126, 126, 132, 138, 138, 144, 144, 150, 156, 162, 168, 168, 168, 168, 174, 174, 175, 180, 180, 192, 192, 192, 198, 198, 204, 210, 210, 222, 240, 246, 258, 258, 270, 276, 282, 294, 300, 324, 364

n=50

Pamiętają Państwo ten przykład?

(28)

Granice przedziałów

Granica lewa pierwszej klasy powinna być równe najmniejszemu wynikowi z populacji lub mniejsze, następne klasy wyznaczamy dodając rozstęp.

Klasa Liczebność klasy

[25, 75) 5

[75,125) 5

[125,175) 18

[175, 225) 11

[225, 275) 5

1 25

x  Przykład #

Ponieważ rozpiętość klasy mocno zaokrągliłam w górę więc przyjmę

[ ,x x_i _i_1) n_i

(29)

Przydatnym narzędziem bywają liczebności skumulowane.

1 i sk

i m

m

n n



 

Liczebność skumulowaną i-tej klasy liczymy sumując liczebności klas od pierwszej do it-ej.

Klasa Liczebność klasy Liczebność skumulowana

[25, 75) 5 5

[75,125) 5 10

[125,175) 18 28

[175, 225) 11 39

[225, 275) 5 44

[ x _i , x _i_1 )

n

i

n

i^sk

(30)

Wskaźnik struktury Def.

Wskaźnikiem struktury i- tej klasy,

(częstością względną, frakcją) nazywamy liczbę określającą jaką część zbiorowości stanowi dana klas. Czyli jaką częścią liczebności próby jest liczebność klasy.

Wskaźnik struktury liczymy ze wzoru:

i i

w n

 n

n

i - liczebność i-tej klasy.

(31)

Uwaga:

1

k

i i

w



 

oraz

0  w

_i

 1

bo ₁

k

i i

n n



 

Klasa Liczebność klasy Częstość

[25, 75) 5 0,1

[75,125) 5 0,1

[125,175) 18 0,36

[175, 225) 11 0,22

[225, 275) 5 0,1

[275, 325) 5 0,1

Przykład #

[ ,x x_i _i_1)

n

_i

w

_i

(32)

Wygodnym narzędziem może być też skumulowany wskaźnik struktury.

Def.

Wskaźnikiem skumulowanym struktury (częstością względną skumulowaną)

i- tej klasy nazywamy stosunek liczebności wszystkich klas do i- tej włącznie, do liczebności całej próby.

Skumulowany wskaźnik struktury liczymy z jednego ze wzorów:

1

ⁱ

sk

i m

m

w n

n

_

 

^gdzie

ⁿ

^m oznacza liczebność klasy m

1 i sk

i m

m

w w



 

^gdzie

^w

^m

sk

oznacza częstość klasy m

sk

(33)

Uwaga

Częstości względne skumulowane są wartościami tzw.

dystrybuanty empirycznej.

Klasa Liczebność klasy Częstość Częstości względne skumulowane

[25, 75) 5 0,1 0,1

[75,125) 5 0,1 0,2

[125,175) 18 0,36 0,56

[175, 225) 11 0,22 0,78

[225, 275) 5 0,1 0,88

[275, 325) 5 0,1 0.98

[325,375) 1 0,02 1

[ ,x x_i _i_1) n_i

wi

1 i sk

i m

m

w w



 Przykład #