STATYSTYCZNA ANALIZA DANYCH STATYSTYCZNA ANALIZA DANYCH
IV semestr studiów inżynierskich w PJWSTK IV semestr studiów inżynierskich w PJWSTK
Prowadząca: dr hab. Elżbieta Ferenstein, profesor PJWSTK
Cel wykładu - poznanie podstaw analizy danych
• statystyka opisowa statystyka opisowa
• modelowanie probabilistyczne modelowanie probabilistyczne
• wnioskowanie statystyczne wnioskowanie statystyczne
STATYSTYKA OPISOWA
Techniki wstępnej analizy danych i ich prezentacji:
• gromadzenie gromadzenie , przechowywanie danych, analiza danych , surowych
• p p rezentacja danych: tabele, wykresy, parametry liczbowe rezentacja obliczane dla danych.
Cel:
• charakteryzacja danych - w zwięzłej formie odzwierciedlająca charakteryzacja pewne ich cechy, np. średni dochód, średnie zużycie paliwa, ..
• odnalezienie różnego rodzaju regularności ( nieregularności ) odnalezienie
ukrytych w danych, zależności między podzbiorami danych.
Obejrzenie danych surowych – nieprzetworzonych, niepogrupowanych, niezorganizowanych.
Poznanie sposobu i celu zebrania danych:
jaką cechę mierzono ( obserwowano ) ?,
w jakich jednostkach ?,
ile wykonano obserwacji ( liczebność zbioru danych ), w jakich
warunkach – czy nie zgubiono części danych, dane brakujące, czy jest możliwość przekłamań ?
czy celem zebrania danych ma być odpowiedź na konkretne pytania ?
Cel badania statystycznego: poznanie charakterystyk dużej zbiorowości
obiektów ( osoby, przedmioty, zjawiska, możliwe wyniki eksperymentów... ) na podstawie obserwacji cech (danych ) jedynie niektórych ( wylosowanych obiektów.
Populacja: zbiór obiektów badanych ze względu na określoną cechę nazywaną zmienną.
Próbka: zbiór cech zbadanych obiektów populacji
Populacja badana cecha zebrane dane (zmienna) ( próbka )
zbiór detali jakość detalu zbiór jakości zbadanych detali
zbiór komputerów liczba awarii kompu- zbiór liczb awarii wybranych w sieci tera w danym okresie komputerów w danym czasie
P r z y k ła d . W 3 0 r z u ta c h k o s tk ą s z e ś c ie n n ą o tr z y m a n o lic z b y o c z e k :
3 5 6 1 4 6 2 3 5 6 2 6 5 3 5 4 6 6 5 1 5 2 4 3 6 1 1 2 1 3 3 6
w a r t o ś ć ( lic z b a o c z e k ) 1 2 3 4 5 6 lic z n o ś ć ( lic z b a w y s t ą p ie ń ) 5 4 6 3 5 7
c z ę s t o ś ć
30 5
30 4
30 6
30 3
30 5
30
7
Diagram liczebności
0 2 4 6 8
1 2 3
4 5
6
Liczba oczek
Wykres kołowy
12 34 56 16,67%
13,33%
20,00%
10,00%
16,67%
23,33%
Metody opisu danych jakościowych
procent liczba
procent liczba
8,1 110565
12,7 69088
Humanistyczne
14 91100
18,3 99552
Pedagogiczne
Rok 1997/1998 Rok 1990/1991
Grupa kierunków
wykres słupkowy, wykres kołowy
Przykład.
Liczba studentów w kraju na różnych
kierunkach studiów w roku ak. 1990/91 oraz 1997/98.
pedagogiczne 99552 18,3 91100 14,0 humanistyczne 69088 12,7 110565 8,1 prawne i nauki 133824 24,6 566475 41,5 społeczne
nauki ścisłe i 144704 26,6 292110 21,4 przyrodnicze
medyczne 81600 15,0 95550 7,0 pozostałe 15232 2,8 109200 8,0
ogółem
ogółem 544000 100 1365000 100 Grupa rok 1990/91 rok 1997/98 Grupa rok 1990/91 rok 1997/98 kierunków
kierunków
liczba % liczba % liczba % liczba %
Wstępna analiza danych Wstępna analiza danych
Opis danych surowych:
2 próbki o liczebnościach n = 544000 oraz m = 1365000
• cecha jakościowa : grupa kierunków studiów :
• 6 kategorii ( klas, atrybutów ) cechy
• atrybuty: grupa kierunków pedagogicznych, humanistycznych, medycznych, ....
Najliczniejsze grupy kierunków:
nauki ścisłe i przyrodnicze nauki ścisłe i przyrodnicze w 1990/91 roku w 1990/91 roku
prawo i nauki społeczne prawo i nauki społeczne w 1997/98 roku w 1997/98 roku Procentowy udział klasy =
( liczność klasy/ liczebność próbki ) x 100% =
częstość x 100%
pr oc en t
0 5 10 15 20 25 30
pedag.
human.prawne,spol
scisle,przyr.med.
inne
Wykres słupkowy procentowego udziału grup kierunków studiów
w r. ak. 1990/91
pr oc en t
0 10 20 30 40 50
pedag.
human.prawne,spol
scisle,przyr.med.
inne
Wykres słupkowy procentowego udziału grup kierunków studiów
w r. ak. 1997/98
Wykresy słupkowe Rok 1997/98
procent
0 10 20 30 40 50
pedag.
human.prawne,spol
scisle,przyr.med.
inne
procent
0 5 10 15 20 25 30
pedag.
human.prawne,spol
scisle,przyr.med.
inne
Rok 1990/91
pr oc en t
1990/91 1997/98
0 10 20 30 40 50
pedag.
human.
prawne,społ.
ścisłe,przyr.
med..
inne
Połączony wykres słupkowy
pedag.
human.
prawne,spol scisle,przyr.
med.
inne
1990/91 1997/98
0 1 2 3 4 5 6
(X 100000)
Połączony wykres słupkowy
kierunki pedag.
human.
prawne,spol scisle,przyr.
med. inne
18,30%
12,70%
24,60%
26,60%
15,00%
2,80%
1990/91
pedag.
human.
prawne,spol scisle,przyr.
med.
inne 18,30%
12,70%
24,60%
26,60%
15,00%
2,80%
Ką t w y c i n k a k o ł a d l a g r u p y h u m a n i s t y c z n e j =
Ką t w y c i n k a k o ł a o d p o w i a d a ją c e g o o k r e ś l o n e j k a t e g o r i i = L i c z e b n oś ć k a t e g o r i i / l i c z e b n o ś ć p r ó b k i )
360 o .c zę s t o ś ć k a t e g o r i i x 1 0 0 % =
= ( p o l e w y c i n k a / p o l e k oł a ) x 1 0 0 %
o
o
45 72,
360 127
,
0
pedag.
human.
prawne,spol scisle,przyr.
med. inne 14,00%
8,10%
41,50%
21,40%
7,00%
8,00%
1997/98
Ograniczenia wykresów kołowych :
można przedstawić jedynie dane procentowe
w próbce musi być co najmniej 1 obserwacja każdej kategorii ( bo łączna suma pól wycinków musi stanowić 100 % pola koła )
mało czytelne przy dużej liczbie kategorii
analiza dwóch wykresów kołowych bardziej
kłopotliwa niż połączonego wykresu słupkowego
.METODY OPISU DANYCH ILOŚCIOWYCH SKALARNYCH
Wykresy: diagramy, histogramy, łamane częstości
,wykresy przebiegu.
Przykład. W stu kolejnych rzutach kostką sześcienną otrzymano wyniki (próbkę cechy dyskretnej o liczności 100):
5 2 2 6 3 2 5 3 1 2 5 3 6 2 5 4 4 6 1 6 4 5 5 2 4 6 1 4 4 3 4 2 4 2 4 4 1 1 4 5 3 1 5 6 5 6 1 5 6 2 4 5 5 2 5 4 5 5 1 1 2 2 5 5 2 6 3 5 5 4 1 4 5 5 1 4 3 2 1 2 6 1 2 1 6 5 1 3 6 1 5 6 6 2 2 3 5 5 2 4
Rozkład liczby oczek w próbce
Wartość (l. oczek) 1 2 3 4 5 6 Liczność (l. wystąpień) 16 19 9 17 25 14
Rozkład częstości liczby oczek w próbce
Wartość (l. oczek)
1 2 3 4 5 6 Częstość 0,16 0,19 0,09 0,17 0,25 0,14
Zwięzły opis próbki: rozkład cechy w próbce, tzn. zapisanie jakie wartości wystąpiły w próbce i ile razy, lub z jaką częstością.
Diagram liczebności Diagram częstości
Przykład. Wiek 25 osób, które ubezpieczyły się w III filarze
emerytalnym w pewnym zakładzie pracy: 30, 49, 33, 35, 37, 20, 31, 30, 36, 46, 39, 40, 38, 41, 35, 37, 24, 27, 36, 43, 45, 25, 32, 29, 28.
21 różnych wartości: diagram rozkładu lat nieczytelny.
Aregacja danych: przedziały wiekowe zawierające wszystkie
obserwacje, liczba obserwacji w tych przedziałach.
Przedział Obserwacje Liczność Częstość (klasa)
[18,23) 20 1 1/25 = 0,04
[23,28) 24, 27, 25 3 3/25 = 0,12
[28,33) 30, 30, 31, 32, 29, 28 6 6/25 = 0,24
[33,38) 33, 35, 37, 36, 35, 37, 36 7 7/25 = 0,28
[38,43) 39, 40, 38, 41 4 4/25 = 0,16
[43,48) 43, 45, 46 3 3/25 = 0,12
[48,53) 49 1 1/25 = 0,04
Histogram
wiek
pr oc en t
18 28 38 48 58
0 5 10 15 20 25 30
28+16+12+4=60% pracowników ma co najmniej 33 lata
Na osiach poziomych: granice klas wiekowych ( przedziałów) wysokości słupków = procentowy udział każdej klasy w próbce
Wysokość słupka = częstość klasy x 100%.
Pole słupka =
stała długość przedziału x częstość x 100
Histogram liczebności: wysokość słupka = liczność klasy
Histogram częstości: wysokość słupka = częstość klasy
KONSTRUKCJA HISTOGRAMU
P o c z ą t k o w y
w y b ó r d ł u g o ś c i p r z e d z ia łó w :
3 /
64
1,
2
IQR n
h
n = l i c z n o ś ć p r ó b k i , I Q R = r o z s t ę p m i ę d z y k w a r t y l o w y = z a k r e s 5 0 % " ś r o d k o w y c h " w a r t o ś c i w p r ó b c e
Obserwacja wpływu stopniowego zwiększania lub
zmniejszania długości przedziałów na kształt histogramu:
h ,
2h ,... lub
1h ,
2h ,... ; 1
Mała długość przedziału to : nieregularność histogramu
Duża długość przedziału to: za duże wygładzenie histogramu
Przy ustaleniu kompromisu pomiędzy zbyt dużym wygładzeniem histogramu (redukcją informacji) a dużą nieregularnością histogramu pomocne są
dodatkowe informacje o naturze obserwowanego zjawiska, np. obserwacje z kilku różnych populacji mogą dawać histogramy wielomodalne.
Początek histogramu: najmniejsza obserwacja stanowi środek pierwszego przedziału. Uśredniając kilka
histogramów o nieznacznie przesuniętych początkach można uniezależnić się od
wpływu początku histogramu na jego
kształt.
WSKAŹNIKI SUMARYCZNE
W S K AŹ N I K I P O Ł O Ż E N I A
(m i a r y p oł o ż e n i a , p a r a m e t r y p oł o ż e n i a ) c h a r a k t e r y z u ją n a j b a r d z i e j r e p r e z e n t a t y w n e d a n e , c e n t r a l ną „ t e n d e n c ję ” d a n y c h , o k r e ś l a j ą „ ś r o d e k ” p r ó b k i
:N i e c h : x
1, x
2, . . . , x
n- p r ó b k a o l i c z n oś c i n .
W a r t oś ć ś r e d n i a w p r ó b c e ( ś r e d n i a p r ó b k o w a , ś r e d n i a p r ó b k i )
x x x
n nx
ix
1 21
) ...
1 (
x
med= x
((n1)/2), gdy n jest nieparzyste
x
med= ( ),
2
1 x
(n/2) x
(n/21)gdy n jest parzyste.
Mediana w próbce ( mediana próbki , mediana próbkowa)
Niech x ( 1 ) x ( 2 ) ... x ( n 1 ) x ( n )
uporządkowane w sposób rosnący wartości próbki:
x
(1)= min{ x
1, x
2, ...,x
n}, ... x
(n)= min{ x
1, x
2, ...,x
n}
Przykład. Miesięczny dochód 11-tu osób:
Dochód (PLN) 2000 2500 3500 19000
Liczba osób 4 4 2 1
Ś r e d n ie w y n a g r o d z e n ie t e j g r u p y o s ó b t o :
( 4 2000 4 2500 2 3500 19000 ) 11
x 1 4 0 0 0
2000, 2000, 2000, 2000, 2500, 2500, 2500, 2500, 3500, 3500, 19000
Ś r e d n i a w r a ż l i w a n a o b s e r w a c j e o d s t a j ą c e :
) 10
3500
(4000 x
x
,x
(11 ) 19000
- ś r e d n i a n i e o d z w i e r c i e d l a„ t y p o w e g o ” d o c h o d u .
M e d i a n a o d p o r n a ( m ał o w r a ż l i w a ) n a o b s e r w a c j e o d s t a ją c e :
)
2500
6(
x
x
med- m e d i a n a j e s t l e p s zą m i a r ą
p r z e c ię t n e g o w y n a g r o d z e n i a n i ż ś r e d n i a
Ś r e d n i a u c i n a n a ( u c ię t a ) ( z p a r a m e t r e m k )
n kk
i i
tk
x
k x n
1 ( )
2
1
,s t o s o w a n a g d y w a r t oś c i o d s t a ją c e s ą w y n ik ie m b łę d u ( błę d n e p r z e t w o r z e n ie d a n y c h lu b b łę d y p r z y r z ą d ó w p o m ia r o w y c h ) .
O s t r z eż e n i e : o b s e r w a c je o d s t a ją c e m o g ą b y ć b a r d z o is t o t n e , n p . są w y n ik ie m r o z r e g u lo w a n ia p r o c e s u
p r o d u k c ji
Średnia winsorowska ( z parametrem k )
1
2 ( ) ( )
) 1
(
( 1 )
1 1
n kk
i i n k
k
wk
k x x k x
x n
Stosowana w sytuacjach gdy wartości skrajne ( k najmniejszych lub k największych ) niepewne co do ich prawdziwych wartości (np. zostały utracone z bazy danych; nie mogły być zaobserwowane w przypadku badania czasu życia lub czasu bezawaryjnej pracy urządzenia gdy eksperymentator ma ograniczony czas obserwowania zjawiska.
Moda – najczęściej występująca wartość (lub wartości) w
próbce.
WSKAŹNIKI ROZPROSZENIA (miary rozproszenia, parametry rozproszenia ) charakteryzują rozrzut danych, rozproszenie wartości próbki wokół parametru położenia.
Rozstęp próbki
) 1 ( )
(
x
x
R
n
,W ariancja próbki
( w próbce )
ni
x
ix
s n
1
2
2
( )
1
1
,O d c h y le n ie s ta n d a rd o w e w p ró b c e
(p r ó b k i)
s
2s
Odchylenie przeciętne od wartości średniej
ni
x
ix
d n
1
1
1D olny (pierw szy) kw artyl
Q
1=m ediana podpróbki składającej się z „połowy”
najm niejszych elem entów próbki: x ,...,
(1)x
med .G ó r n y ( t r z e c i ) k w a r t y l
3
Q = m e d i a n a p o d p r ó b k i s kł a d a j ą c e j s i ę z „ p o ł o w y ” n a j w ię k s z y c h e l e m e n t ó w p r ó b k i : x
med,..., x
( n )R o z s tę p m ię d z y k w a r t y lo w y :
1
3
Q
Q
IQR
W Y K R E S R A M K O W Y ( p u d eł k o w y )
i l u s t r u j e w z a j e m n e p oł o ż e n i e p i ę c i u w s k a ź n i k ó w s u m a r y c z n y c h :
max )
( 3 1
min )
1(
x , Q , x , Q , x x
x
med n
.0 0,4 0,8 1,2 1,6
Obserwacja odstająca