1. Statystyka opisowa, cz. II:

(1)

Statystyka Matematyczna

Anna Janicka

wykład II, 29.02.2016

STATYSTYKA OPISOWA, cz. II

WSTĘP DO STATYSTYKI MATEMATYCZNEJ

(2)

Plan na dzisiaj

1. Statystyka opisowa, cz. II:

miary położenia – dokończenie miary zróżnicowania

miary asymetrii

wykres pudełkowy

2. Wstęp do statystyki matematycznej

model statystyczny

(3)

Moda

Moda (dominanta, wartość modalna)

wartość najczęściej pojawiająca się w próbie

dla szeregu rozdzielczego punktowego:

Mo = wartość najczęstsza

dla szeregu rozdzielczego przedziałowego

gdzie

n

_Mo

– liczebność klasy dominanty,

c

_L

, b – dla dominanty analogicznie do mediany

n b n

n n

n c n

Mo

Mo Mo

L

⋅

− +

− + −

≅

+

−

) (

)

(

₁ ₁

1

(4)

Przykład 1 – cd.

Ocena Liczebność Częstość

2 72 0,429

3 42 0,250

3,5 32 0,190

4 11 0,065

4,5 7 0,042

5 4 0,024

Razem 168 1,000

Moda – przykłady Kwartyle – przykłady Wariancja – przykłady

(5)

Przykład 3 – cd.

Przedział Środek

przedziału Liczebność Częstość Liczebność skumulowana

Częstość skumulowana

(30,40] 35 11 0,11 11 0,11

(40,50] 45 23 0,23 34 0,34

(50,60] 55 33 0,33 67 0,67

(60,70] 65 12 0,12 79 0,79

(70,80] 75 6 0,06 85 0,85

(80,90] 85 8 0,08 93 0,93

(90,100] 95 3 0,03 96 0,96

(100,110] 105 2 0,02 98 0,98

(110,120] 115 2 0,02 100 1

Razem 100 1

Moda – przykłady Kwartyle – przykłady Wariancja – przykłady

(6)

Moda – przykłady

Przykład 1:

Mo = 2 Przykład 3:

przedział dominanty to (50,60], o liczebności 33 n

_Mo

= 33, c

_L

= 50, b = 10, n

_Mo-1

= 23, n

_Mo+1

= 12

23 , 53 ) 10

12 33

( )

23 33

(

23 50 33 ⋅ ≈

− +

− + −

≅ Mo

Przykład 1 – cd.

Przykład 3 – cd.

(7)

Którą miarę stosować?

Średnia arytmetyczna: do szeregów typowych (jedno max, częstości

monotoniczne)

Dominanta: do szeregów typowych, danych pogrupowanych, długości przedziału

dominanty i sąsiednich powinny być równe

Mediana: nie ma ograniczeń. Najbardziej

odporna na zaburzenia, niedokładności

pomiaru, zmiany, wartości odstające

(8)

Kwantyle, kwartyle

p-ty kwantyl (kwantyl rzędu p): odsetek wartości nie większych niż on wynosi co najmniej p, a wartości nie mniejszych co najmniej 1-p

Q

₁

: Pierwszy kwartyl = kwantyl rzędu ¼

Drugi kwartyl = mediana = kwantyl rzędu ½

Q

₃

: Trzeci kwartyl = kwantyl rzędu ¾

(9)

Kwantyle – cd.

Kwantyl próbkowy rzędu p:



 



∉ + ∈

=

+

Z np

X

Z X np

X Q

n np

n np n

np p

: 1 ] [

: 1 :

2

(10)

Kwartyle – cd.

Kwantyle dla p = ¼ i p = ¾.

Dla szeregu rozdzielczego

przedziałowego: wzór jak dla mediany

dla k=1 lub 3, odpowiednio gdzie M

₁

, M

₃

– numer klasy kwartyla b – szerokość klasy kwartyla

c

_L

– dolny koniec klasy kwartyla

 

 



 ⋅ −

+

≅ ∑

⁻

= 1

4

1

k

M

i

i M

L

k

k n n

n c b

Q

(11)

Kwartyle – przykłady

Przykład 1:

a więc Przykład 3:

a więc

126 168

42 168 ⋅

¹₄

= ⋅

³₄

=

(

₄₂_:₁₆₈ ₄₃_:₁₆₈

)

²^, ₃ ₂¹

(

₁₂₆_:₁₆₈ ₁₂₇_:₁₆₈

)

³^,⁵

2 1

1 = X + X = Q = X + X =

Q

75 100

25 100 ⋅

¹₄

= ⋅

³₄

= 4

M ,

2

₃

1

= =

M

67 , 66 )

67 75

12 ( 60 10

09 , 40 )

11 25

23 (

40 10 ₃

1 ≅ + − ≈ Q ≅ + − ≈

Q

Przykład 1 – cd.

Przykład 3 – cd.

(12)

Rozproszenie, zmienność, dyspersja

duże

małe

(13)

Miary rozproszenia

Miary klasyczne

wariancja, odchylenie standardowe odchylenie przeciętne

współczynnik zmienności (klas.)

Miary pozycyjne

rozstęp

rozstęp międzykwartylowy odchylenie ćwiartkowe

współczynnik zmienności (poz.)

(14)

Miary pozycyjne

Rozstęp

najprostsza miara, nie bierze pod uwagę żadnych wartości oprócz skrajnych

Rozstęp międzykwartylowy

bardziej odporny na obserwacje nietypowe niż zwykły rozstęp

n n

n

X

r =

_:

−

₁_:

1

3

Q

IQR = −

na jego podstawie odchylenie ćwiartkowe Q= IQR/2, oraz pozycyjne współczynniki zmienności V_Q = Q/Med albo V_Q1Q3 = IQR/(Q₃+Q₁)

także typowy przedział zmienności cechy: [Med – Q, Med + Q]

długość przedziału, w którym mieści się 50% środkowych obserwacji

(15)

Rozstęp, rozstęp międzykwartylowy – przykłady

Przykład 1:

Przykład 3:

(w rzeczywistości

5 , 1 2

5 , 3

, 3 2

5 =

−

=

−

= IQR r

58 ,

20 09

, 46 67

, 66

) 45 ,

86 45

32 9

118 90 30

120 =

−

≅

=

−

≅ IQR

, -

,

r

(16)

Miary klasyczne

Wariancja

dane surowe

szereg rozdzielczy punktowy

szereg rozdzielczy przedziałowy

+ ew. poprawka Shepparda lub ogólniej

2 1

1 2 1

1 2

2 ( ) ( )

ˆ

∑ ∑

=

−

=

−

= ⁿ

i n i n

i

n Xi X X X

S

2 1

1 2 1

1 2

2 ( ) ( )

ˆ

∑ ∑

=

−

=

−

= ^k

i

i n i

k

i

n ni X X n X X

S

2 1

1 2 1

1 2

2 ( ) ( )

ˆ

∑ ∑

=

−

=

−

≅ ^k

i

i n i

k

i

n ni c X n c X

S

12 2

2 Sˆ ^c²

S ≅ −

c=długość przedziału klasy (jeśli równe)

2 1

12 1 2 1

2 ˆ

∑

( )

=

− −

−

≅

k

i

i i

n ni c c

S S

(17)

Wariancja – przykłady

Przykład 1:

Przykład 3:

w rzeczywistości

(⁽² ²^,⁸⁴²⁾² ⁷² ⁽³ ²^,⁸⁴²⁾² ⁴² ⁽³^,⁵ ²^,⁸⁴²⁾² ³² ⁽⁴ ²^,⁸⁴²⁾² ¹¹ ⁽⁴^,⁵ ²^,⁸⁴²⁾² ⁷ ⁽⁵ ²^,⁸⁴²⁾² ⁴)

168

1 − ⋅ + − ⋅ + − ⋅ + − ⋅ + − ⋅ + − ⋅

706 ,

0 ˆ²

≈

≈ S

98 , 12 322

31 10 , 331

31 , 331

ˆ

2 2

1100 2

≈

−

=

⋅

≈

S S

) 2 ) 7 , 58 115 ( 2 ) 7 , 58 105 ( 3 ) 7 , 58 95 ( 8 ) 7 , 58 85 ( 6 ) 7 , 58 75 (

12 ) 7 , 58 65 ( 33 ) 7 , 58 55 ( 23 ) 7 , 58 45 ( 11 ) 7 , 58 35 ((

2 2

2

2 2

⋅

− +

⋅

− +

⋅

− +

⋅

− +

⋅

− +

⋅

− +

⋅

− +

⋅

− +

⋅

−

85 , ˆ² = 333

S

Przykład 1 – cd.

Przykład 3 – cd.

rozkład nie jest normalny, za mała próba na poprawkę Shepparda – większe błędy wynikają z małej próby niż z podziału na klasy

(18)

Odchylenie standardowe

W tych samych jednostkach, co wyjściowy szereg

Przykład 1:

Przykład 3:

2 2,

ˆ

ˆ S S S

S = =

[oceny]

Sˆ ≈ 0,840

] [

2 ,

ˆ 18 m² S ≈

(19)

Odchylenie przeciętne

średnie odchylenie bezwzględne

obecnie rzadko stosowane, choć łatwiejsze w obliczeniach, wyrażone w jednostkach naturalnych

dla danych surowych

itd...

Mamy: d<S

∑

=

−

=

ⁿ

i

n

X

i

X

d

1

| |

(20)

Współczynniki zmienności (klasyczne)

Do porównywania tej samej cechy w

różnych populacjach lub różnych cech jednej populacji

%) 100

( lub

%), 100

ˆ (

⋅

=

⋅

=

X V d

X V S

d S

(21)

Asymetria

lewostronna symetria prawostronna

(ujemna) (dodatnia)

(typowe układy)

Mo Med

X < < X = Med = Mo X > Med > Mo

(22)

Miary asymetrii

Współczynnik asymetrii

gdzie M

₃

jest trzecim momentem centralnym Współczynnik skośności

Pozycyjny współczynnik asymetrii

3 3

S ˆ A = M

ˆ lub

ˆ

¹

1

S

Med A X

S

Mo

A X −

− =

=

1 3

2

2 Q Q

Q Med

A Q

−

+

= −

mierzy asymetrię tylko dla obserwacji drugiej i trzeciej ćwiartki

(23)

Interpretacja

Wskaźniki dodatnie = asymetria dodatnia (prawostronna)

Wskaźniki ujemne = asymetria ujemna (lewostronna)

Dla współczynnika skośności (z medianą) i pozycyjnego wsp. asymetrii ocena siły

asymetrii (co do modułu):

0 - 0,33: słaba

0,34 - 0,66: średnia 0,67 – 1: silna

(24)

Asymetria – przykłady

Przykład 1:

Przykład 3:

15 , 09 0

, 46 67

, 66

09 , 46 85

, 54 2

67 , 66

) (

24 , 2 0

, 18

85 , 54 7

, lub 58

) (

3 , 2 0

, 18

23 , 53 7

, 58

, 15 , 1

2

1 1

− ≈

+

⋅

≅ −

− ≈

=

− ≈

≅

A

Med A

Mo A

A

33 , 2 0

5 , 3

2 3 2 5 , 3

00 , 840 1

, 0

2 842 ,

2

18 , 840 0

, 0

3 842 ,

2 55 , 0

2 1 1

−

− ≈ +

⋅

= −

− ≈

=

−

− ≈

=

A

) Mo ( A

) Med (

A

(25)

Wykres pudełkowy („pudełko z wąsami”)

Pozwala porównać graficznie dwie populacje (lub więcej)

(ewentualne)

obserwacje odstające:

x_max

obs. odstające X^*

Q₃ Med Q₁

X_*

obs. odstające x_min

]}

, [ :

max{

]}

, [

: min{

32 3 3

2 1 1 3

IQR Q

Q X

X X

Q IQR Q

X X

X

i i

+

∈

=

−

∈

=

∗

∗ >

< X x X x lub

(26)

Wykres pudełkowy – przykład porównania

051015

1 2

(27)

Przyklady zestawień statystycznych (1)

Źródło: GUS, Ceny w gospodarce narodowej 2009

(28)

Przyklady zestawień statystycznych (2)

Źródło: GUS, Zużycie energii w gospodarstwach domowych 2009

(29)

Przyklady zestawień statystycznych (3)

siatka centylowa masy chłopców w W-wie

Źródło: IMiD, 1999

(30)

Przykłady zestawień statystycznych (4) Względne rozstępy międzykwartylowe

Rozstęp międzykwartylowy poziomu emerytury wg płci

Źródło:Komisja Europejska 2013

(31)

Przykłady zestawień statystycznych (5) Zróżnicowanie poziomów bezrobocia

Zróżnicowanie poziomów bezrobocia w ujęciu regionalnym (mierzone współczynnikiem zmienności), 2006

Źródło: Komisja Europejska

(32)

Przykłady zestawień statystycznych (6) Godzinowe wynagrodzenia brutto, 2002

Źródło: komisja Europejska 2005

(33)

STATYSTYKA MATEMATYCZNA

(34)

Założenia statystyki matematycznej

Dane doświadczalne są wynikiem działania pewnego mechanizmu losowego.

A zatem: mamy do czynienia ze zmiennymi losowymi określonymi na pewnej

przestrzeni probabilistycznej, których

realizacjami (wartościami) są zebrane

dane. Problem: nie znamy (dokładnego)

rozkładu tych zmiennych losowych...

(35)

Różnica w podejściach RP i SM:

1. RP, przykład:

Sformułowanie: w procesie produkcyjnym każdy

konkretny wyrób może być wadliwy. Dzieje się tak z prawdopodobieństwem 10%. Wady poszczególnych sztuk są niezależne.

Problemy: Jaka jest szansa, że w partii 50 sztuk dokładnie 6 będzie wadliwych? Ile średnio sztuk będzie wadliwych? Jaka jest najbardziej

prawdopodobna liczba sztuk wadliwych?

Rozwiązanie: budujemy model probabilistyczny, tu:

Schemat Bernoulliego dla n=50, p=0,1

Ewentualnie, jeśli interesują nas też inne pytania (np.

jaka jest szansa, że pierwsze 5 sztuk wadliwych), model dla ciągów

(36)

Różnica w podejściach RP i SM – cd.

2. SM, przykład:

Sformułowanie: Kontroler przebadał partię 50 sztuk towaru. Wyniki są następujące (1– towar wadliwy, 0 – bez wad):

0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1

Problemy: jakie jest prawdopodobieństwo, że produkt jest wadliwy (oszacowanie)? Czy prawdą może być deklaracja producenta, że wadliwość to 10%?

Rozwiązanie: budujemy model statystyczny, czyli model probabilistyczny z nieznanym(i)

parametrem(ami) rozkładu

(37)

Model Statystyczny

Model statystyczny:

gdzie:

X – przestrzeń wartości obserwowanej

zmiennej losowej X (często n-wymiarowa, jeśli mamy n-wymiarową próbkę

zmiennych X

₁

, ..., X

_n

) F

_X

– σ-ciało na X

P – rodzina rozkładów prawdopodobieństw P

_θ

, indeksowana parametrem θ ∈Θ

W mniej formalnym opisie zwykle podaje się: X, P, Θ

) ,

,

( Ω F P

) ,

,

( X F

_X

P

w RP było:

(38)

Model statystyczny – przykład

X = {0,1}

ⁿ

– przestrzeń próbkowa

Łączny rozkład prawdopodobieństwa:

dla θ ∈[0,1]

(u nas n=50 oraz X

₂

= X

₁₀

= X

₁₅

= X

₃₂

=X

₄₂

= X

₅₀

=1, pozostałe X

_i

= 0)

i i

x n x

n

i

x x

n

x

X x

X P

Σ

− Σ

=

−

=

−

=

= ∏

) 1

(

) 1

( )

,..., ,

(

1

1 2

2 1

1

θ θ

θ

(39)

Model statystyczny – przykład cd.

Alternatywne sformułowanie (jeśli notujemy tylko liczbę wadliwych elementów w

próbie):

X = {0,1, 2, ..., n} – przestrzeń próbkowa Łączny rozkład prawdopodobieństwa:

dla θ ∈[0,1]

(u nas n=50 oraz X=6)

x n x

x x n

X

P  −

⁻



 



= 

= ) ( 1 )

( θ θ

θ

(40)

Model statystyczny – przykład cd. (2):

pytania

Mamy konkretne dane (próbkę):

Jaka jest wartość parametru θ ?

interesuje nas konkretna wartość interesuje nas przedział (ufności)

→ zagadnienie estymacji

Weryfikacja hipotezy, że θ =0,1

→ testowanie hipotez statystycznych

→ ew. predykcje

(41)

Statystyki

Estymację parametrów (punktową,

przedziałową) czy testowanie hipotez statystycznych przeprowadza się na podstawie tzw. statystyk:

Statystyka = dowolna funkcja obserwacji, czyli zmienna losowa postaci

Rozkład statystyki T zależy od rozkładu zmiennej X, ale statystyka jako taka nie

może zależeć od parametru θ , np. X

₁

+X

₂

- θ )

,..., ,

( X

₁

X

₂

X

_n

T

T =

(42)

Statystyki – przykład

są statystykami dla pierwszego sformułowania;

są statystykami dla drugiego sformułowania Wybór statystyki zależy od pytania, na które

mamy odpowiedzieć.

1 , 0

,

1 1

3 1

1 2

1

= ∑ = ∑ = ∑ −

=

n

i n i n

i

T X T X

X T

1 , 0

,

₂ ₃

1

= = = −

n T X

X

T

(43)

Model Statystyczny: Przykład 2

Wzrosty na giełdzie. Analityk bada długość

okresów wzrostowych na giełdzie. Interesuje go czas wzrostu kursu (do pierwszego spadku), w dniach. Załóżmy, że czasy wzrostu X

₁

, X

₂

, ..., X

_n

są próbką z rozkładu wykładniczego Exp( λ ^).

λ – nieznany parametr

X =(0,∞)

ⁿ

– przestrzeń próbkowa

Łączny rozkład prawdopodobieństwa:

dla λ > 0

∏

=

− −

=

≤

≤ ⁿ

i

x n

n

e i

x X

P

1 2

2 1

1 , ,..., ) (1 )

( ^λ

λ

xi

n

n e

x x

x

f_λ( ₁, ₂,..., ) = λ ⁻^λ ^Σ

(44)

Model Statystyczny: Przykład 3

Pomiar z błędem losowym: powtarzamy pomiar wielkości µ , wyniki poszczególnych pomiarów są niezależnymi zmiennymi los. X

₁

, X

₂

, ..., X

_n

, bo

maszyna do pomiaru niedoskonała. Każdy z

pomiarów ma jednakowy rozkład normalny N( µ , σ

²

).

µ ^, σ

²

– nieznane parametry (a więc θ ^{= (} µ ^, σ ⁾⁾

X = R

ⁿ

– przestrzeń próbkowa

Łączny rozkład prawdopodobieństwa:

lub

dla µ ∈R, σ ^>0

∏ ( )

=

Φ −

=

≤

≤ ⁿ

i

x n

n

x i

X x

X x X

P

1 2

2 1

1

,_σ ( , ,..., ) _σ ^µ

µ

( ) (

⁻

_∑

₌ ⁻

)

= ⁿ

i i

n

n x

x x

x

f 1

2 2

1 2

1

,_σ ( , ,..., ) _π_σ exp _σ₂ ( µ)

µ

(45)