Statystyka Opisowa 2014 część 1
Katarzyna Lubnauer
Literatura:
1. „Statystyka w Zarządzaniu” ‚ Admir D. Aczel
2. „Statystyka Opisowa od Podstaw” ‚ Ewa Wasilewska 3. „Statystyka” , Lucjan Kowalski.
4. „Statystyka opisowa”, Mieczysław Sobczyk
Są trzy rodzaje kłamstw: kłamstwa,
Populacja = zbiorowość statystyczna
to zbiór elementów (ludzi, przedmiotów, zwierząt itp.) objętych badaniem statystycznym, powiązanych ze sobą logicznie, mających wspólne cechy, ale jednocześnie nieidentycznych ze względu na badaną cechę statystyczną.Aby populację określić jednoznacznie charakteryzujemy ją pod względem:
• rzeczowym (np. kto? – Studenci; co? - Zapałki.)
• czasowym (kiedy? - 02.2014r)
• przestrzennym (terytorialnym - zebrani w sali, w pudełku)
Te cechy populacji mają charakter stały i są wspólne dla badanej populacji
Podstawowe pojęcia
Statystyka opisowa
to dział statystyki zajmujący się metodami opisudanych statystycznych uzyskanych podczas badania statystycznego. Dane dotyczą całej badanej populacji.
Statystyka opisowa
zajmuje się:• Gromadzeniem danych
• Prezentacją danych
• Analizą i interpretacją danych
Statystyka dzieli się na dwa działy:
Statystyka matematyczna
to dział statystyki, który zajmuje się uogólnianiem wyników badania części zbiorowości (tzw. próby) na całą zbiorowość.Statystyka matematyczna wykorzystuje do badań modele probabilistyczne.
Badanie statystyczne może być:
• pełne (obejmuje całą populację),
• częściowe (obejmuje część populacji – próbę).
Które są lepsze i dlaczego?
Dlaczego nie robimy zawsze badań pełnych?
Żona wysyła męża - policjanta do sklepu po zapałki:
- Tylko kup dobre zapałki, żeby się dobrze paliły - dodaje.
Po kwadransie policjant wraca, kładzie pudełko na stole i mówi zadowolony:
- Bardzo dobre zapałki. Wypróbowałem w sklepie. Wszystkie się palą.
Def.
Próba
jest podzbiorem wyników pomiarów wybranych z populacji.Próbę nazywamy
próbą losową
, jeżeli każda możliwa próba złożona z n elementów miała taką samą szansę, że zostanie wybrana.Próba powinna być
reprezentatywna
tzn. rozkład wariantów badanej cechyw próbie powinien być zbliżony do rozkładu w całej populacji, temu służy jej losowość.
Nas interesuje badanie całej populacji. Np. analiza spisu powszechnego, badanie wyników studentów na egzaminie.
Badaniem populacji na podstawie próby zajmą się Państwo na statystyce matematycznej.
Def.
Cecha
to właściwość elementów populacji ze względu na którą prowadzimy badanie statystyczne.Przykład1
Badamy czas spędzany przez studentów codziennie na fb.
Cechy to wyniki tego doświadczenia podawane w minutach.
Przykład 2
Zapałki, badamy czy się zapalają, czy nie.
Mamy dwa wyniki: tak lub nie
Warianty to wartości cechy (cecha powinna mieć przynajmniej dwa warianty).
Zwyczajowo oznaczamy je xi .
Zaproponujcie inne cechy badane w obu przypadkach.
Mierzalne
(ilościowe), czyli liczby.Mogą być ciągłe lub skokowe.
Przykład1
Czas spędzany przez Państwa na Fb, wzrost, zarobki, waga torebki z cukrem, itp.
Rodzaje cech:
Jakościowe (niemierzalne)
Mogą być
nominalne i porządkowe
Przykład2
Studenci: kolor oczu, grupa krwi, palenie papierosów , grupa krwi (nominalne), Wykształcenie:
podstawowe, średnie, wyższe.
Masa ciała – mała, średnia, duża waga (porządkowe).
Na potrzeby naszego wykładu założymy, że badana cecha jest mierzalna.
Cechy zmienne
Mierzalne (ilościowe)
ciągłe skokowe
Niemierzalne (jakościowe)
Nominalne porządkowe
Sposoby prezentacji danych liczbowych.
Dane statystyczne prezentujemy zwykle w postaci
• Szeregu prostego (szczegółowego) (stosujemy w przypadku małej liczby danych)
• Szeregu rozdzielczego:
punktowego (stosujemy gdy dane się powtarzają, dla cech skokowych)
przedziałowego (stosujemy gdy danych jest dużo i się nie powtarzają (ale mogą) lub zawsze dla cech ciągłych)
• Wykresu
Def.
Szereg szczegółowy
to materiał statystyczny uporządkowany wyłącznie wg wartości badanej cechy.Przykład:
Wyniki badania średniej ocen studentów biologii 3 roku w 2013r Szereg szczegółowy, uporządkowany rosnąco:
3,2; 3,2; 3,2; 3,2; 3,2; 3,2; 3,2; 3,2; 3,2; 3,2; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5;
3,5; 3,5; 3,5; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0;
4,0; 4,0; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1;
4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3;
4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7;
4,7; 5,0; 5,0; 5,0; 5,0; 5,0;
Def.
Szereg rozdzielczy
jest statystycznym sposobem prezentacji danych z próby. Uzyskuje się go dzieląc dane statystyczne na pewne kategorie i podając liczebność lub częstość zbiorów danych przypadających na każdą z tychkategorii.
Jeśli mamy szereg rozdzielczy punktowy to wypisujemy wartości cech (warianty)
x
i i przypisujemy im częstość występowanian
i.Ważnymi danymi dotyczącymi wariantów badanej cechy są największa najmniejsza i wartości z populacji:
max
,
minx x
Przykład:
Wyniki badania średniej ocen studentów biologii 3 roku w 2013r Szereg szczegółowy, uporządkowany rosnąco:
3,2; 3,2; 3,2; 3,2; 3,2; 3,2; 3,2; 3,2; 3,2; 3,2; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 3,5; 4,0; 4,0;
4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,0; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1;
4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,1; 4,3; 4,3; 4,3; 4,3; 4,3;
4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,3; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7; 4,7;
5,0; 5,0; 5,0; 5,0; 5,0;
Przedstawimy w postaci szeregu rozdzielczego punktowego:
Średnia ocen Liczba studentów
3,2 10
3,5 12
4,0 17
4,1 27
4,3 17
4,7 12
5 5
Warianty, które wyróżniamy w szeregu rozdzielczym to klasy.
Ilość klas będziemy oznaczać k.
k
Jeżeli wyników jest bardzo dużo, lub przyjmują wartości w sposób ciągły
stosujemy szereg rozdzielczy przedziałowy,
np. badamy wzrost studentek z biologii, mamy dokładną miarę i wyniki
dostajemy z dokładnością do minimetra. Dzielimy je więc na przedziały np. o długości 5 cm (na ile i jakie przedziały powinniśmy podzielić odpowiem później).
Jeśli mamy szereg rozdzielczy przedziałowy to wypisujemy przedziały wartości cech (wariantów)
[ , x x
i i1)
i przypisujemy im częstośćwystępowania
n
i.Szereg rozdzielczy przedziałowy dla wzrostu grupy stu studentek
Wzrost xi Liczba studentów ni
[145;150) 3
[150;155) 7
[155;160) 12
[160;165) 23
[165;170) 28
[170;175) 15
[175;180) 8
[180;185) 3
[185;190) 1
Razem 100
Szereg rozdzielczy przedziałowy – wykres słupkowy
Szereg rozdzielczy przedziałowy – wykres liniowy
Zasady wyznaczania klas w szeregu rozdzielczym przedziałowym:
Przystępując do konstrukcji szeregu rozdzielczego przedziałowego musimy pamiętać o tym, żeby podział na klasy był:
• wyczerpujący (tzn. nie pomijał żadnego wyniku)
• rozłączny (tzn. przedziały muszą być rozłączne)
Konstrukcja szeregu rozdzielczego przedziałowego
przebiega w 3 etapach:
• Ustalenie liczby klas
• Ustalenie rozpiętości przedziałów klasowych Def.
Przedziały, na które dzielimy szereg rozdzielczy nazywamy
klasami,
liczebność i-tej klasy oznaczymy :
n
i• Liczba zalecanych klas Liczba obserwacji
N •k 40-60 •6-8
•7-10 60-100
•9-12 100-200
•11-17 200-500
Przykład #:
Pytamy 50 studentów o czas spędzany codziennie przy komputerze, otrzymujemy następujące wyniki w postaci szeregu szczegółowego (prostego):
26, 48, 60, 66, 72, 84, 90, 96, 108, 114, 126, 126, 126, 132, 138, 138, 144, 144, 150, 156,
162, 168, 168, 168, 168, 174, 174, 175, 180, 180, 192, 192, 192, 198, 198, 204, 210, 210, 222, 240,
Liczbę klas
możemy wyznaczać też ze wzoru:k n
Długość klasy, rozpiętość klas.
Zwykle klasy mają tą samą rozpiętość r i wyznaczamy ją ze wzoru:max min
R x x
r k k
Własności
Przykład #.
Dla liczebności próby 50 będziemy mieli 7 klas, bo
50 = 7,07 …
Długość z klasy policzymy ze wzoru:
3 6 4 2 6
4 8, 3 5 0 7
r R
k
Uwaga:
r bierzemy na ogół z nadmiarem, jeżeli przybliżamy, żeby mieć pewność, że wszystkie wartości próby się zmieszczą.
Są od tej reguły wyjątki. Czasem lepiej wziąć nierówne długości klas, np. gdy mamy pewne wyniki mocno odbiegające od pozostałych.
Przykład *
Zarobki koszykarzy wyrażone w tys. Złotych wynoszą:
7,8, 9, 10, 10, 10, 11, 12, 12, 14, 15, 15, 15, 17,17, 17, 20, 21, 21, 21, 22, 25, 30, 90, 100.
Mamy n=25, a zatem k=5, sprawdźmy co się stanie gdy wyznaczymy równe klasy.
max min
100 7
18, 6 19 5
x x
r k
Klasa Liczebność klasy
[7, 26) 22
[26,45) 1
[45,64) 0
Jak widzimy, z takiego szeregu nic się nie dowiem, tu trzeba zrobić zmienne długości klas.
Stworzyłam osobną klasę dla wyników odbiegających od normy (90,100), następnie pozostałe wyniki podzieliłam na 4 równe klasy.
Klasa Liczebność klasy
[7, 13) 9
[13,19) 7
[19,25) 5
[25,31) 2
[31, 101) 2
Zapiszę raczej informacje w takiej postaci:
Przykład #:
Pytamy 50 studentów o czas spędzany codziennie przy komputerze, otrzymujemy następujące wyniki w postaci szeregu szczegółowego (prostego):
26, 48, 60, 66, 72, 84, 90, 96, 108, 114, 126, 126, 126, 132, 138, 138, 144, 144, 150, 156, 162, 168, 168, 168, 168, 174, 174, 175, 180, 180, 192, 192, 192, 198, 198, 204, 210, 210, 222, 240, 246, 258, 258, 270, 276, 282, 294, 300, 324, 364
n=50
Pamiętają Państwo ten przykład?
Granice przedziałów
Granica lewa pierwszej klasy powinna być równe najmniejszemu wynikowi z populacji lub mniejsze, następne klasy wyznaczamy dodając rozstęp.
Klasa Liczebność klasy
[25, 75) 5
[75,125) 5
[125,175) 18
[175, 225) 11
[225, 275) 5
1 25
x Przykład #
Ponieważ rozpiętość klasy mocno zaokrągliłam w górę więc przyjmę
[ ,x xi i1) ni
Przydatnym narzędziem bywają liczebności skumulowane.
1 i sk
i m
m
n n
Liczebność skumulowaną i-tej klasy liczymy sumując liczebności klas od pierwszej do it-ej.
Klasa Liczebność klasy Liczebność skumulowana
[25, 75) 5 5
[75,125) 5 10
[125,175) 18 28
[175, 225) 11 39
[225, 275) 5 44
[ x i , x i1 )
n
in
iskWskaźnik struktury Def.
Wskaźnikiem struktury i- tej klasy,
(częstością względną, frakcją) nazywamy liczbę określającą jaką część zbiorowości stanowi dana klas. Czyli jaką częścią liczebności próby jest liczebność klasy.Wskaźnik struktury liczymy ze wzoru:
i i
w n
n
n
i - liczebność i-tej klasy.Uwaga:
1
1
k
i i
w
oraz
0 w
i 1
bo 1
k
i i
n n
Klasa Liczebność klasy Częstość
[25, 75) 5 0,1
[75,125) 5 0,1
[125,175) 18 0,36
[175, 225) 11 0,22
[225, 275) 5 0,1
[275, 325) 5 0,1
Przykład #
[ ,x xi i1)
n
iw
iWygodnym narzędziem może być też skumulowany wskaźnik struktury.
Def.
Wskaźnikiem skumulowanym struktury (częstością względną skumulowaną)
i- tej klasy nazywamy stosunek liczebności wszystkich klas do i- tej włącznie, do liczebności całej próby.Skumulowany wskaźnik struktury liczymy z jednego ze wzorów:
1
1
isk
i m
m
w n
n
gdzien
m oznacza liczebność klasy m1 i sk
i m
m
w w
gdziew
msk
oznacza częstość klasy m
sk
Uwaga
Częstości względne skumulowane są wartościami tzw.
dystrybuanty empirycznej.
Klasa Liczebność klasy Częstość Częstości względne skumulowane
[25, 75) 5 0,1 0,1
[75,125) 5 0,1 0,2
[125,175) 18 0,36 0,56
[175, 225) 11 0,22 0,78
[225, 275) 5 0,1 0,88
[275, 325) 5 0,1 0.98
[325,375) 1 0,02 1
[ ,x xi i1) ni
wi
1 i sk
i m
m
w w
Przykład #