STATYSTYCZNA ANALIZA DANYCH STATYSTYCZNA ANALIZA DANYCH

(1)

STATYSTYCZNA ANALIZA DANYCH STATYSTYCZNA ANALIZA DANYCH

IV semestr studiów inżynierskich w PJWSTK IV semestr studiów inżynierskich w PJWSTK

Prowadząca: dr hab. Elżbieta Ferenstein, profesor PJWSTK

Cel wykładu - poznanie podstaw analizy danych

• statystyka opisowa statystyka opisowa

• modelowanie probabilistyczne modelowanie probabilistyczne

• wnioskowanie statystyczne wnioskowanie statystyczne

(2)

STATYSTYKA OPISOWA

Techniki wstępnej analizy danych i ich prezentacji:

• gromadzenie gromadzenie , przechowywanie danych, analiza danych , surowych

• p p rezentacja danych: tabele, wykresy, parametry liczbowe rezentacja obliczane dla danych.

Cel:

• charakteryzacja danych - w zwięzłej formie odzwierciedlająca charakteryzacja pewne ich cechy, np. średni dochód, średnie zużycie paliwa, ..

• odnalezienie różnego rodzaju regularności ( nieregularności ) odnalezienie

ukrytych w danych, zależności między podzbiorami danych.

(3)

  Obejrzenie danych surowych – nieprzetworzonych, niepogrupowanych, niezorganizowanych.

  Poznanie sposobu i celu zebrania danych:

 jaką cechę mierzono ( obserwowano ) ?,

 w jakich jednostkach ?,

 ile wykonano obserwacji ( liczebność zbioru danych ), w jakich

warunkach – czy nie zgubiono części danych, dane brakujące, czy jest możliwość przekłamań ?

 czy celem zebrania danych ma być odpowiedź na konkretne pytania ?

  Cel badania statystycznego: poznanie charakterystyk dużej zbiorowości

obiektów ( osoby, przedmioty, zjawiska, możliwe wyniki eksperymentów... ) na podstawie obserwacji cech (danych ) jedynie niektórych ( wylosowanych obiektów.

(4)

 Populacja: zbiór obiektów badanych ze względu na określoną cechę nazywaną zmienną.

 Próbka: zbiór cech zbadanych obiektów populacji

Populacja badana cecha zebrane dane (zmienna) ( próbka )

 zbiór detali jakość detalu zbiór jakości zbadanych detali

 zbiór komputerów liczba awarii kompu- zbiór liczb awarii wybranych w sieci tera w danym okresie komputerów w danym czasie

(5)

P r z y k ła d . W 3 0 r z u ta c h k o s tk ą s z e ś c ie n n ą o tr z y m a n o lic z b y o c z e k :

3 5 6 1 4 6 2 3 5 6 2 6 5 3 5 4 6 6 5 1 5 2 4 3 6 1 1 2 1 3 3 6

w a r t o ś ć ( lic z b a o c z e k ) 1 2 3 4 5 6 lic z n o ś ć ( lic z b a w y s t ą p ie ń ) 5 4 6 3 5 7

c z ę s t o ś ć

30 5

30 4

30 6

30 3

30 5

30

7

(6)

Diagram liczebności

0 2 4 6 8

1 2 3

4 5

6 Liczba oczek

(7)

Wykres kołowy

12 34 56 16,67%

13,33%

20,00%

10,00%

16,67%

23,33%

(8)

Metody opisu danych jakościowych

procent liczba

8,1 110565

12,7 69088

Humanistyczne

14 91100

18,3 99552

Pedagogiczne

Rok 1997/1998 Rok 1990/1991

Grupa kierunków

wykres słupkowy, wykres kołowy

Przykład.

Liczba studentów w kraju na różnych

kierunkach studiów w roku ak. 1990/91 oraz 1997/98.

(9)

pedagogiczne 99552 18,3 91100 14,0 humanistyczne 69088 12,7 110565 8,1 prawne i nauki 133824 24,6 566475 41,5 społeczne

nauki ścisłe i 144704 26,6 292110 21,4 przyrodnicze

medyczne 81600 15,0 95550 7,0 pozostałe 15232 2,8 109200 8,0

ogółem

ogółem 544000 100 1365000 100 Grupa rok 1990/91 rok 1997/98 Grupa rok 1990/91 rok 1997/98 kierunków

kierunków

liczba % liczba % liczba % liczba %

(10)

Wstępna analiza danych Wstępna analiza danych

Opis danych surowych:

2 próbki o liczebnościach n = 544000 oraz m = 1365000

• cecha jakościowa : grupa kierunków studiów :

• 6 kategorii ( klas, atrybutów ) cechy

• atrybuty: grupa kierunków pedagogicznych, humanistycznych, medycznych, ....

Najliczniejsze grupy kierunków:

nauki ścisłe i przyrodnicze nauki ścisłe i przyrodnicze w 1990/91 roku w 1990/91 roku

prawo i nauki społeczne prawo i nauki społeczne w 1997/98 roku w 1997/98 roku Procentowy udział klasy =

( liczność klasy/ liczebność próbki ) x 100% =

częstość x 100%

(11)

pr oc en t

0 5 10 15 20 25 30

pedag.

human.prawne,spol

scisle,przyr.med.

inne

Wykres słupkowy procentowego udziału grup kierunków studiów

w r. ak. 1990/91

(12)

pr oc en t

0 10 20 30 40 50

pedag.

human.prawne,spol

scisle,przyr.med.

inne

Wykres słupkowy procentowego udziału grup kierunków studiów

w r. ak. 1997/98

(13)

Wykresy słupkowe Rok 1997/98

procent

0 10 20 30 40 50

pedag.

human.prawne,spol

scisle,przyr.med.

inne

procent

0 5 10 15 20 25 30

pedag.

human.prawne,spol

scisle,przyr.med.

inne

Rok 1990/91

(14)

pr oc en t

1990/91 1997/98

0 10 20 30 40 50

pedag.

human.

prawne,społ.

ścisłe,przyr.

med..

inne

Połączony wykres słupkowy

(15)

pedag.

human.

prawne,spol scisle,przyr.

med.

inne

1990/91 1997/98

0 1 2 3 4 5 6

(X 100000)

Połączony wykres słupkowy

(16)

kierunki pedag.

human.

prawne,spol scisle,przyr.

med. inne

18,30%

12,70%

24,60%

26,60%

15,00%

2,80%

1990/91

pedag.

human.

prawne,spol scisle,przyr.

med.

inne 18,30%

12,70%

24,60%

26,60%

15,00%

2,80%

(17)

Ką t w y c i n k a k o ł a d l a g r u p y h u m a n i s t y c z n e j =

Ką t w y c i n k a k o ł a o d p o w i a d a ją c e g o o k r e ś l o n e j k a t e g o r i i = L i c z e b n oś ć k a t e g o r i i / l i c z e b n o ś ć p r ó b k i )

 360 ^o .

c zę s t o ś ć k a t e g o r i i x 1 0 0 % =

= ( p o l e w y c i n k a / p o l e k oł a ) x 1 0 0 %

o

45 72,

360 127

,

0  

(18)

pedag.

human.

prawne,spol scisle,przyr.

med. inne 14,00%

8,10%

41,50%

21,40%

7,00%

8,00%

1997/98

(19)

Ograniczenia wykresów kołowych :

 

można przedstawić jedynie dane procentowe

 

w próbce musi być co najmniej 1 obserwacja każdej kategorii ( bo łączna suma pól wycinków musi stanowić 100 % pola koła )

 

mało czytelne przy dużej liczbie kategorii

 

analiza dwóch wykresów kołowych bardziej

kłopotliwa niż połączonego wykresu słupkowego

.

(20)

METODY OPISU DANYCH ILOŚCIOWYCH SKALARNYCH

Wykresy: diagramy, histogramy, łamane częstości

,

wykresy przebiegu.

Przykład. W stu kolejnych rzutach kostką sześcienną otrzymano wyniki (próbkę cechy dyskretnej o liczności 100):

5 2 2 6 3 2 5 3 1 2 5 3 6 2 5 4 4 6 1 6 4 5 5 2 4 6 1 4 4 3 4 2 4 2 4 4 1 1 4 5 3 1 5 6 5 6 1 5 6 2 4 5 5 2 5 4 5 5 1 1 2 2 5 5 2 6 3 5 5 4 1 4 5 5 1 4 3 2 1 2 6 1 2 1 6 5 1 3 6 1 5 6 6 2 2 3 5 5 2 4

(21)

Rozkład liczby oczek w próbce

Wartość (l. oczek) 1 2 3 4 5 6 Liczność (l. wystąpień) 16 19 9 17 25 14

Rozkład częstości liczby oczek w próbce

Wartość (l. oczek)

1 2 3 4 5 6 Częstość 0,16 0,19 0,09 0,17 0,25 0,14

Zwięzły opis próbki: rozkład cechy w próbce, tzn. zapisanie jakie wartości wystąpiły w próbce i ile razy, lub z jaką częstością.

Diagram liczebności Diagram częstości

(22)

Przykład. Wiek 25 osób, które ubezpieczyły się w III filarze

emerytalnym w pewnym zakładzie pracy: 30, 49, 33, 35, 37, 20, 31, 30, 36, 46, 39, 40, 38, 41, 35, 37, 24, 27, 36, 43, 45, 25, 32, 29, 28.

 

21 różnych wartości: diagram rozkładu lat nieczytelny.



Aregacja danych: przedziały wiekowe zawierające wszystkie

obserwacje, liczba obserwacji w tych przedziałach.

(23)

Przedział Obserwacje Liczność Częstość (klasa)

[18,23) 20 1 1/25 = 0,04

[23,28) 24, 27, 25 3 3/25 = 0,12

[28,33) 30, 30, 31, 32, 29, 28 6 6/25 = 0,24

[33,38) 33, 35, 37, 36, 35, 37, 36 7 7/25 = 0,28

[38,43) 39, 40, 38, 41 4 4/25 = 0,16

[43,48) 43, 45, 46 3 3/25 = 0,12

[48,53) 49 1 1/25 = 0,04

(24)

Histogram

wiek

pr oc en t

18 28 38 48 58

0 5 10 15 20 25 30

28+16+12+4=60% pracowników ma co najmniej 33 lata

(25)

Na osiach poziomych: granice klas wiekowych ( przedziałów) wysokości słupków = procentowy udział każdej klasy w próbce

Wysokość słupka = częstość klasy x 100%.

Pole słupka =

stała długość przedziału x częstość x 100

Histogram liczebności: wysokość słupka = liczność klasy

Histogram częstości: wysokość słupka = częstość klasy

(26)

KONSTRUKCJA HISTOGRAMU

 

P o c z ą t k o w y



w y b ó r d ł u g o ś c i p r z e d z ia łó w :

3 /

64

1

,

2  

^

 IQR n

h

n = l i c z n o ś ć p r ó b k i , I Q R = r o z s t ę p m i ę d z y k w a r t y l o w y = z a k r e s 5 0 % " ś r o d k o w y c h " w a r t o ś c i w p r ó b c e



Obserwacja wpływu stopniowego zwiększania lub

zmniejszania długości przedziałów na kształt histogramu:

 h , 

²

h ,... lub 

^¹

h , 

^²

h ,... ;   1

(27)

Mała długość przedziału to : nieregularność histogramu

Duża długość przedziału to: za duże wygładzenie histogramu

Przy ustaleniu kompromisu pomiędzy zbyt dużym wygładzeniem histogramu (redukcją informacji) a dużą nieregularnością histogramu pomocne są

dodatkowe informacje o naturze obserwowanego zjawiska, np. obserwacje z kilku różnych populacji mogą dawać histogramy wielomodalne.



Początek histogramu: najmniejsza obserwacja stanowi środek pierwszego przedziału. Uśredniając kilka

histogramów o nieznacznie przesuniętych początkach można uniezależnić się od

wpływu początku histogramu na jego

kształt.

(28)

WSKAŹNIKI SUMARYCZNE

W S K AŹ N I K I P O Ł O Ż E N I A

(

m i a r y p oł o ż e n i a , p a r a m e t r y p oł o ż e n i a ) c h a r a k t e r y z u ją n a j b a r d z i e j r e p r e z e n t a t y w n e d a n e , c e n t r a l ną „ t e n d e n c ję ” d a n y c h , o k r e ś l a j ą „ ś r o d e k ” p r ó b k i

:

N i e c h : x

₁

, x

₂

, . . . , x

_n

- p r ó b k a o l i c z n oś c i n .

W a r t oś ć ś r e d n i a w p r ó b c e ( ś r e d n i a p r ó b k o w a , ś r e d n i a p r ó b k i )







 x x x

_n ⁿ

x

_i

x

₁ ₂

1 ) ...

1 (

(29)

x

_med

= x

₍₍_n_₁₎_/₂₎

, gdy n jest nieparzyste

x

_med

= ( ),

2 1 x

(_n/2)

 x

(_n/21)

gdy n jest parzyste.

Mediana w próbce ( mediana próbki , mediana próbkowa)

Niech x ₍ ₁ ₎  x ₍ ₂ ₎  ...  x ₍ _n _ ₁ ₎  x ₍ _n ₎

uporządkowane w sposób rosnący wartości próbki:

x

₍₁₎

= min{ x

₁

, x

₂

, ...,x

_n

}, ... x

_(n)

= min{ x

₁

, x

₂

, ...,x

_n

}

(30)

Przykład. Miesięczny dochód 11-tu osób:

Dochód (PLN) 2000 2500 3500 19000

Liczba osób 4 4 2 1

Ś r e d n ie w y n a g r o d z e n ie t e j g r u p y o s ó b t o :















 ( 4 2000 4 2500 2 3500 19000 ) 11

x 1 4 0 0 0

2000, 2000, 2000, 2000, 2500, 2500, 2500, 2500, 3500, 3500, 19000

(31)

Ś r e d n i a w r a ż l i w a n a o b s e r w a c j e o d s t a j ą c e :

) 10

3500

(

4000 x

x   

,

x

₍₁₁ ₎

 19000

- ś r e d n i a n i e o d z w i e r c i e d l a

„ t y p o w e g o ” d o c h o d u .

M e d i a n a o d p o r n a ( m ał o w r a ż l i w a ) n a o b s e r w a c j e o d s t a ją c e :

)

2500

6(



 x

x

_med

- m e d i a n a j e s t l e p s zą m i a r ą

p r z e c ię t n e g o w y n a g r o d z e n i a n i ż ś r e d n i a

(32)

Ś r e d n i a u c i n a n a ( u c ię t a ) ( z p a r a m e t r e m k )



^







ⁿ ^k

k

i i

tk

x

k x n

1 ( )

2

1

,

s t o s o w a n a g d y w a r t oś c i o d s t a ją c e s ą w y n ik ie m b łę d u ( błę d n e p r z e t w o r z e n ie d a n y c h lu b b łę d y p r z y r z ą d ó w p o m ia r o w y c h ) .

O s t r z eż e n i e : o b s e r w a c je o d s t a ją c e m o g ą b y ć b a r d z o is t o t n e , n p . są w y n ik ie m r o z r e g u lo w a n ia p r o c e s u

p r o d u k c ji

(33)

Średnia winsorowska ( z parametrem k )

  _ ^

     



^



^



 



1

2 ( ) ( )

) 1

(

( 1 )

1 1

ⁿ ^k

k

i i n k

k

wk

k x x k x

x n

Stosowana w sytuacjach gdy wartości skrajne ( k najmniejszych lub k największych ) niepewne co do ich prawdziwych wartości (np. zostały utracone z bazy danych; nie mogły być zaobserwowane w przypadku badania czasu życia lub czasu bezawaryjnej pracy urządzenia gdy eksperymentator ma ograniczony czas obserwowania zjawiska.

Moda – najczęściej występująca wartość (lub wartości) w

próbce.

(34)

WSKAŹNIKI ROZPROSZENIA (miary rozproszenia, parametry rozproszenia ) charakteryzują rozrzut danych, rozproszenie wartości próbki wokół parametru położenia.

Rozstęp próbki

) 1 ( )

(

x

R 

_n



,

W ariancja próbki

( w próbce )





 



ⁿ

i

x

i

x

s n

1

2

( )

1

,

(35)

O d c h y le n ie s ta n d a rd o w e w p ró b c e

(p r ó b k i)

s

2

s 

Odchylenie przeciętne od wartości średniej









ⁿ

i

x

i

x

d n

1

D olny (pierw szy) kw artyl

Q

1⁼

m ediana podpróbki składającej się z „połowy”

najm niejszych elem entów próbki: x ,...,

₍₁₎

x

_med ^.

(36)

G ó r n y ( t r z e c i ) k w a r t y l

3

Q = m e d i a n a p o d p r ó b k i s kł a d a j ą c e j s i ę z „ p o ł o w y ” n a j w ię k s z y c h e l e m e n t ó w p r ó b k i : x

_med

,..., x

₍ _n ₎

R o z s tę p m ię d z y k w a r t y lo w y :

1

3

Q

IQR  

(37)

W Y K R E S R A M K O W Y ( p u d eł k o w y )

i l u s t r u j e w z a j e m n e p oł o ż e n i e p i ę c i u w s k a ź n i k ó w s u m a r y c z n y c h :

max )

( 3 1

min )

1(

x , Q , x , Q , x x

x 

_med _n



^.

0 0,4 0,8 1,2 1,6

Obserwacja odstająca