Statystyka Matematyczna
Anna Janicka
wykład II, 29.02.2016
STATYSTYKA OPISOWA, cz. II
WSTĘP DO STATYSTYKI MATEMATYCZNEJ
Plan na dzisiaj
1. Statystyka opisowa, cz. II:
miary położenia – dokończenie miary zróżnicowania
miary asymetrii
wykres pudełkowy
2. Wstęp do statystyki matematycznej
model statystyczny
Moda
Moda (dominanta, wartość modalna)
wartość najczęściej pojawiająca się w próbie
dla szeregu rozdzielczego punktowego:
Mo = wartość najczęstsza
dla szeregu rozdzielczego przedziałowego
gdzie
n
Mo– liczebność klasy dominanty,
c
L, b – dla dominanty analogicznie do mediany
n b n
n n
n c n
Mo
Mo Mo
Mo Mo
Mo Mo
L
⋅
− +
− + −
≅
+
−
−
) (
)
(
1 11
Przykład 1 – cd.
Ocena Liczebność Częstość
2 72 0,429
3 42 0,250
3,5 32 0,190
4 11 0,065
4,5 7 0,042
5 4 0,024
Razem 168 1,000
Moda – przykłady Kwartyle – przykłady Wariancja – przykłady
Przykład 3 – cd.
Przedział Środek
przedziału Liczebność Częstość Liczebność skumulowana
Częstość skumulowana
(30,40] 35 11 0,11 11 0,11
(40,50] 45 23 0,23 34 0,34
(50,60] 55 33 0,33 67 0,67
(60,70] 65 12 0,12 79 0,79
(70,80] 75 6 0,06 85 0,85
(80,90] 85 8 0,08 93 0,93
(90,100] 95 3 0,03 96 0,96
(100,110] 105 2 0,02 98 0,98
(110,120] 115 2 0,02 100 1
Razem 100 1
Moda – przykłady Kwartyle – przykłady Wariancja – przykłady
Moda – przykłady
Przykład 1:
Mo = 2 Przykład 3:
przedział dominanty to (50,60], o liczebności 33 n
Mo= 33, c
L= 50, b = 10, n
Mo-1= 23, n
Mo+1= 12
23 , 53 ) 10
12 33
( )
23 33
(
23
50 33 ⋅ ≈
− +
− + −
≅ Mo
Przykład 1 – cd.
Przykład 3 – cd.
Którą miarę stosować?
Średnia arytmetyczna: do szeregów typowych (jedno max, częstości
monotoniczne)
Dominanta: do szeregów typowych, danych pogrupowanych, długości przedziału
dominanty i sąsiednich powinny być równe
Mediana: nie ma ograniczeń. Najbardziej
odporna na zaburzenia, niedokładności
pomiaru, zmiany, wartości odstające
Kwantyle, kwartyle
p-ty kwantyl (kwantyl rzędu p): odsetek wartości nie większych niż on wynosi co najmniej p, a wartości nie mniejszych co najmniej 1-p
Q
1: Pierwszy kwartyl = kwantyl rzędu ¼
Drugi kwartyl = mediana = kwantyl rzędu ½
Q
3: Trzeci kwartyl = kwantyl rzędu ¾
Kwantyle – cd.
Kwantyl próbkowy rzędu p:
∉ + ∈
=
+
+
Z np
X
Z X np
X Q
n np
n np n
np p
: 1 ] [
: 1 :
2
Kwartyle – cd.
Kwantyle dla p = ¼ i p = ¾.
Dla szeregu rozdzielczego
przedziałowego: wzór jak dla mediany
dla k=1 lub 3, odpowiednio gdzie M
1, M
3– numer klasy kwartyla b – szerokość klasy kwartyla
c
L– dolny koniec klasy kwartyla
⋅ −
+
≅ ∑
−= 1
4
1k
k
M
i
i M
L
k
k n n
n c b
Q
Kwartyle – przykłady
Przykład 1:
a więc Przykład 3:
a więc
126 168
42
168 ⋅
14= ⋅
34=
(
42:168 43:168)
2, 3 21(
126:168 127:168)
3,52 1
1 = X + X = Q = X + X =
Q
75 100
25
100 ⋅
14= ⋅
34= 4
M ,
2
31
= =
M
67 , 66 )
67 75
12 ( 60 10
09 , 40 )
11 25
23 (
40 10 3
1 ≅ + − ≈ Q ≅ + − ≈
Q
Przykład 1 – cd.
Przykład 3 – cd.
Rozproszenie, zmienność, dyspersja
duże
małe
Miary rozproszenia
Miary klasyczne
wariancja, odchylenie standardowe odchylenie przeciętne
współczynnik zmienności (klas.)
Miary pozycyjne
rozstęp
rozstęp międzykwartylowy odchylenie ćwiartkowe
współczynnik zmienności (poz.)
Miary pozycyjne
Rozstęp
najprostsza miara, nie bierze pod uwagę żadnych wartości oprócz skrajnych
Rozstęp międzykwartylowy
bardziej odporny na obserwacje nietypowe niż zwykły rozstęp
n n
n
X
X
r =
:−
1:1
3
Q
Q
IQR = −
na jego podstawie odchylenie ćwiartkowe Q= IQR/2, oraz pozycyjne współczynniki zmienności VQ = Q/Med albo VQ1Q3 = IQR/(Q3+Q1)
także typowy przedział zmienności cechy: [Med – Q, Med + Q]
długość przedziału, w którym mieści się 50% środkowych obserwacji
Rozstęp, rozstęp międzykwartylowy – przykłady
Przykład 1:
Przykład 3:
(w rzeczywistości
5 , 1 2
5 , 3
, 3 2
5
=
−
=
=
−
= IQR r
58 ,
20 09
, 46 67
, 66
) 45 ,
86 45
32 9
118
90 30
120
=
−
≅
=
=
−
≅ IQR
, -
,
r
Miary klasyczne
Wariancja
dane surowe
szereg rozdzielczy punktowy
szereg rozdzielczy przedziałowy
+ ew. poprawka Shepparda lub ogólniej
2 1
1 2 1
1 2
2 ( ) ( )
ˆ
∑ ∑
=
=
−
=
−
= n
i n i n
i
n Xi X X X
S
2 1
1 2 1
1 2
2 ( ) ( )
ˆ
∑ ∑
=
=
−
=
−
= k
i
i n i
k
i
i
n ni X X n X X
S
2 1
1 2 1
1 2
2 ( ) ( )
ˆ
∑ ∑
=
=
−
=
−
≅ k
i
i n i
k
i
i
n ni c X n c X
S
12 2
2 Sˆ c2
S ≅ −
c=długość przedziału klasy (jeśli równe)
2 1
12 1 2 1
2 ˆ
∑
( )=
− −
−
≅
k
i
i i
n ni c c
S S
Wariancja – przykłady
Przykład 1:
Przykład 3:
w rzeczywistości
((2 2,842)2 72 (3 2,842)2 42 (3,5 2,842)2 32 (4 2,842)2 11 (4,5 2,842)2 7 (5 2,842)2 4)
168
1 − ⋅ + − ⋅ + − ⋅ + − ⋅ + − ⋅ + − ⋅
706 ,
0 ˆ2
≈
≈ S
98 , 12 322
31 10 , 331
31 , 331
ˆ
2 2
1100 2
≈
−
=
=
⋅
≈
S S
) 2 ) 7 , 58 115 ( 2 ) 7 , 58 105 ( 3 ) 7 , 58 95 ( 8 ) 7 , 58 85 ( 6 ) 7 , 58 75 (
12 ) 7 , 58 65 ( 33 ) 7 , 58 55 ( 23 ) 7 , 58 45 ( 11 ) 7 , 58 35 ((
2 2
2 2
2
2 2
2 2
⋅
− +
⋅
− +
⋅
− +
⋅
− +
⋅
− +
⋅
− +
⋅
− +
⋅
− +
⋅
−
85 , ˆ2 = 333
S
Przykład 1 – cd.
Przykład 3 – cd.
rozkład nie jest normalny, za mała próba na poprawkę Shepparda – większe błędy wynikają z małej próby niż z podziału na klasy
Odchylenie standardowe
W tych samych jednostkach, co wyjściowy szereg
Przykład 1:
Przykład 3:
2 2,
ˆ
ˆ S S S
S = =
[oceny]
Sˆ ≈ 0,840
] [
2 ,
ˆ 18 m2 S ≈
Odchylenie przeciętne
średnie odchylenie bezwzględne
obecnie rzadko stosowane, choć łatwiejsze w obliczeniach, wyrażone w jednostkach naturalnych
dla danych surowych
itd...
Mamy: d<S
∑
=−
=
ni
n
X
iX
d
1
1
| |
Współczynniki zmienności (klasyczne)
Do porównywania tej samej cechy w
różnych populacjach lub różnych cech jednej populacji
%) 100
( lub
%), 100
ˆ (
⋅
=
⋅
=
X V d
X V S
d S
Asymetria
lewostronna symetria prawostronna
(ujemna) (dodatnia)
(typowe układy)
Mo Med
X < < X = Med = Mo X > Med > Mo
Miary asymetrii
Współczynnik asymetrii
gdzie M
3jest trzecim momentem centralnym Współczynnik skośności
Pozycyjny współczynnik asymetrii
3 3
S ˆ A = M
ˆ lub
ˆ
11
S
Med A X
S
Mo
A X −
− =
=
1 3
1 3
2
2
Q Q
Q Med
A Q
−
+
= −
mierzy asymetrię tylko dla obserwacji drugiej i trzeciej ćwiartki
Interpretacja
Wskaźniki dodatnie = asymetria dodatnia (prawostronna)
Wskaźniki ujemne = asymetria ujemna (lewostronna)
Dla współczynnika skośności (z medianą) i pozycyjnego wsp. asymetrii ocena siły
asymetrii (co do modułu):
0 - 0,33: słaba
0,34 - 0,66: średnia 0,67 – 1: silna
Asymetria – przykłady
Przykład 1:
Przykład 3:
15 , 09 0
, 46 67
, 66
09 , 46 85
, 54 2
67 , 66
) (
24 , 2 0
, 18
85 , 54 7
, lub 58
) (
3 , 2 0
, 18
23 , 53 7
, 58
, 15 , 1
2
1 1
− ≈
+
⋅
≅ −
− ≈
=
− ≈
≅
≅
A
Med A
Mo A
A
33 , 2 0
5 , 3
2 3 2 5 , 3
00 , 840 1
, 0
2 842 ,
2
18 , 840 0
, 0
3 842 ,
2 55 , 0
2 1 1
−
− ≈ +
⋅
= −
− ≈
=
−
− ≈
=
=
A
) Mo ( A
) Med (
A
A
Wykres pudełkowy („pudełko z wąsami”)
Pozwala porównać graficznie dwie populacje (lub więcej)
(ewentualne)
obserwacje odstające:
xmax
obs. odstające X*
Q3 Med Q1
X*
obs. odstające xmin
]}
, [ :
max{
]}
, [
: min{
32 3 3
2 1 1 3
IQR Q
Q X
X X
Q IQR Q
X X
X
i i
i i
+
∈
=
−
∈
=
∗
∗
∗
∗ >
< X x X x lub
Wykres pudełkowy – przykład porównania
051015
1 2
Przyklady zestawień statystycznych (1)
Źródło: GUS, Ceny w gospodarce narodowej 2009
Przyklady zestawień statystycznych (2)
Źródło: GUS, Zużycie energii w gospodarstwach domowych 2009
Przyklady zestawień statystycznych (3)
siatka centylowa masy chłopców w W-wie
Źródło: IMiD, 1999
Przykłady zestawień statystycznych (4) Względne rozstępy międzykwartylowe
Rozstęp międzykwartylowy poziomu emerytury wg płci
Źródło:Komisja Europejska 2013
Przykłady zestawień statystycznych (5) Zróżnicowanie poziomów bezrobocia
Zróżnicowanie poziomów bezrobocia w ujęciu regionalnym (mierzone współczynnikiem zmienności), 2006
Źródło: Komisja Europejska
Przykłady zestawień statystycznych (6) Godzinowe wynagrodzenia brutto, 2002
Źródło: komisja Europejska 2005
STATYSTYKA MATEMATYCZNA
Założenia statystyki matematycznej
Dane doświadczalne są wynikiem działania pewnego mechanizmu losowego.
A zatem: mamy do czynienia ze zmiennymi losowymi określonymi na pewnej
przestrzeni probabilistycznej, których
realizacjami (wartościami) są zebrane
dane. Problem: nie znamy (dokładnego)
rozkładu tych zmiennych losowych...
Różnica w podejściach RP i SM:
1. RP, przykład:
Sformułowanie: w procesie produkcyjnym każdy
konkretny wyrób może być wadliwy. Dzieje się tak z prawdopodobieństwem 10%. Wady poszczególnych sztuk są niezależne.
Problemy: Jaka jest szansa, że w partii 50 sztuk dokładnie 6 będzie wadliwych? Ile średnio sztuk będzie wadliwych? Jaka jest najbardziej
prawdopodobna liczba sztuk wadliwych?
Rozwiązanie: budujemy model probabilistyczny, tu:
Schemat Bernoulliego dla n=50, p=0,1
Ewentualnie, jeśli interesują nas też inne pytania (np.
jaka jest szansa, że pierwsze 5 sztuk wadliwych), model dla ciągów
Różnica w podejściach RP i SM – cd.
2. SM, przykład:
Sformułowanie: Kontroler przebadał partię 50 sztuk towaru. Wyniki są następujące (1– towar wadliwy, 0 – bez wad):
0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1
Problemy: jakie jest prawdopodobieństwo, że produkt jest wadliwy (oszacowanie)? Czy prawdą może być deklaracja producenta, że wadliwość to 10%?
Rozwiązanie: budujemy model statystyczny, czyli model probabilistyczny z nieznanym(i)
parametrem(ami) rozkładu
Model Statystyczny
Model statystyczny:
gdzie:
X – przestrzeń wartości obserwowanej
zmiennej losowej X (często n-wymiarowa, jeśli mamy n-wymiarową próbkę
zmiennych X
1, ..., X
n) F
X– σ-ciało na X
P – rodzina rozkładów prawdopodobieństw P
θ, indeksowana parametrem θ ∈Θ
W mniej formalnym opisie zwykle podaje się: X, P, Θ
) ,
,
( Ω F P
) ,
,
( X F
XP
w RP było:
Model statystyczny – przykład
X = {0,1}
n– przestrzeń próbkowa
Łączny rozkład prawdopodobieństwa:
dla θ ∈[0,1]
(u nas n=50 oraz X
2= X
10= X
15= X
32=X
42= X
50=1, pozostałe X
i= 0)
i i
i i
x n x
n
i
x x
n
n
x
X x
X x
X P
Σ
− Σ
=
−
−
=
−
=
=
=
= ∏
) 1
(
) 1
( )
,..., ,
(
1
1 2
2 1
1
θ θ
θ
θ
θ
Model statystyczny – przykład cd.
Alternatywne sformułowanie (jeśli notujemy tylko liczbę wadliwych elementów w
próbie):
X = {0,1, 2, ..., n} – przestrzeń próbkowa Łączny rozkład prawdopodobieństwa:
dla θ ∈[0,1]
(u nas n=50 oraz X=6)
x n x
x x n
X
P −
−
=
= ) ( 1 )
( θ θ
θ
Model statystyczny – przykład cd. (2):
pytania
Mamy konkretne dane (próbkę):
Jaka jest wartość parametru θ ?
interesuje nas konkretna wartość interesuje nas przedział (ufności)
→ zagadnienie estymacji
Weryfikacja hipotezy, że θ =0,1
→ testowanie hipotez statystycznych
→ ew. predykcje
Statystyki
Estymację parametrów (punktową,
przedziałową) czy testowanie hipotez statystycznych przeprowadza się na podstawie tzw. statystyk:
Statystyka = dowolna funkcja obserwacji, czyli zmienna losowa postaci
Rozkład statystyki T zależy od rozkładu zmiennej X, ale statystyka jako taka nie
może zależeć od parametru θ , np. X
1+X
2- θ )
,..., ,
( X
1X
2X
nT
T =
Statystyki – przykład
są statystykami dla pierwszego sformułowania;
są statystykami dla drugiego sformułowania Wybór statystyki zależy od pytania, na które
mamy odpowiedzieć.
1 , 0
,
,
1 1
3 1
1 2
1
1
= ∑ = ∑ = ∑ −
=
=
=
n
i n i n
i n i n
i
i
T X T X
X T
1 , 0
,
,
2 31
= = = −
n T X
n T X
X
T
Model Statystyczny: Przykład 2
Wzrosty na giełdzie. Analityk bada długość
okresów wzrostowych na giełdzie. Interesuje go czas wzrostu kursu (do pierwszego spadku), w dniach. Załóżmy, że czasy wzrostu X
1, X
2, ..., X
nsą próbką z rozkładu wykładniczego Exp( λ ).
λ – nieznany parametr
X =(0,∞)
n– przestrzeń próbkowa
Łączny rozkład prawdopodobieństwa:
dla λ > 0
∏
=− −
=
≤
≤
≤ n
i
x n
n
e i
x X
x X
x X
P
1 2
2 1
1 , ,..., ) (1 )
( λ
λ
xi
n
n e
x x
x
fλ( 1, 2,..., ) = λ −λ Σ
Model Statystyczny: Przykład 3
Pomiar z błędem losowym: powtarzamy pomiar wielkości µ , wyniki poszczególnych pomiarów są niezależnymi zmiennymi los. X
1, X
2, ..., X
n, bo
maszyna do pomiaru niedoskonała. Każdy z
pomiarów ma jednakowy rozkład normalny N( µ , σ
2).
µ , σ
2– nieznane parametry (a więc θ = ( µ , σ ))
X = R
n– przestrzeń próbkowa
Łączny rozkład prawdopodobieństwa:
lub
dla µ ∈R, σ >0
∏ ( )
=
Φ −
=
≤
≤
≤ n
i
x n
n
x i
X x
X x X
P
1 2
2 1
1
,σ ( , ,..., ) σ µ
µ
( ) (− ∑
= − )
= n
i i
n
n x
x x
x
f 1
2 2
1 2
1 2
1
,σ ( , ,..., ) πσ exp σ2 ( µ)
µ