Statystyka Matematyczna
Anna Janicka
Wykład III, 07.03.2016
MODEL STATYSTYCZNY – CD.
MODEL NORMALNY
Plan na dzisiaj
1. Model statystyczny – cd.
pojęcie statystyki
2. Model normalny. Rozkłady statystyk w modelu normalnym
Chi-kwadrat t-Studenta
F (Fishera-Snedecora)
3. Wstęp do estymacji
Model Statystyczny – przypomnienie
Model statystyczny:
gdzie:
X – przestrzeń wartości obserwowanej
zmiennej losowej X (często n-wymiarowa, jeśli mamy n-wymiarową próbkę
zmiennych X1, ..., Xn) FX – σ-ciało na X
P – rodzina rozkładów prawdopodobieństw Pθ , indeksowana parametrem θ∈Θ
W mniej formalnym opisie zwykle podaje się: X, P, Θ
) ,
,
(Ω F P
) ,
,
( X F
XP
w RP było:
Model statystyczny – przykład
Sformułowanie: Kontroler przebadał partię 50 sztuk towaru.
Wyniki są następujące (1– towar wadliwy, 0 – bez wad):
0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1
X = {0,1}n – przestrzeń próbkowa
Łączny rozkład prawdopodobieństwa:
dla θ ∈[0,1]
(u nas n=50 oraz X2 = X10 = X15 = X32 =X42 = X50 =1, pozostałe Xi = 0)
i i
i
i x n x
n
i
x x
n
n x
X x
X x X
P Σ −Σ
=
− = −
−
=
=
=
= , ,..., ) ∏ (1 ) (1 )
(
1
1 2
2 1
1 θ θ θ θ
θ
Model statystyczny – przykład cd.
Alternatywne sformułowanie (jeśli notujemy tylko liczbę wadliwych elementów w
próbie):
X = {0,1, 2, ..., n} – przestrzeń próbkowa Łączny rozkład prawdopodobieństwa:
dla θ ∈[0,1]
(u nas n=50 oraz X=6)
x n x
x x n
X
P − −
=
= ) (1 )
( θ θ
θ
Model statystyczny – przykład cd. (2):
pytania
Mamy konkretne dane (próbkę):
Jaka jest wartość parametru θ ?
interesuje nas konkretna wartość interesuje nas przedział (ufności)
→ zagadnienie estymacji
Weryfikacja hipotezy, że θ =0,1
→ testowanie hipotez statystycznych
→ ew. predykcje
Model Statystyczny: Przykład 2
Wzrosty na giełdzie. Analityk bada długość
okresów wzrostowych na giełdzie. Interesuje go czas wzrostu kursu (do pierwszego spadku), w dniach. Załóżmy, że czasy wzrostu X1, X2, ..., Xn są próbką z rozkładu wykładniczego Exp(λ).
λ – nieznany parametr
X =(0,∞)n – przestrzeń próbkowa
Łączny rozkład prawdopodobieństwa:
dla λ > 0
∏
=− −
=
≤
≤
≤ n
i
x n
n
e i
x X
x X
x X
P
1 2
2 1
1 , ,..., ) (1 )
( λ
λ
xi
n
n e
x x
x
fλ( 1, 2,..., ) = λ −λ Σ
Model Statystyczny: Przykład 3
Pomiar z błędem losowym: powtarzamy pomiar wielkości µ, wyniki poszczególnych pomiarów są niezależnymi zmiennymi los. X1, X2, ..., Xn, bo
maszyna do pomiaru niedoskonała. Każdy z
pomiarów ma jednakowy rozkład normalny N(µ, σ2).
µ, σ2 – nieznane parametry (a więc θ = (µ, σ))
X = Rn – przestrzeń próbkowa
Łączny rozkład prawdopodobieństwa:
lub
dla µ∈R, σ >0
∏ ( )
=
Φ −
=
≤
≤
≤ n
i
x n
n
x i
X x
X x X
P
1 2
2 1
1
,σ ( , ,..., ) σ µ
µ
( ) (
−∑
= −)
= n
i i
n
n x
x x
x
f 1
2 2
1 2
1 2
1
,σ ( , ,..., ) πσ exp σ2 ( µ)
µ
Statystyki
Estymację parametrów (punktową,
przedziałową) czy testowanie hipotez statystycznych przeprowadza się na podstawie tzw. statystyk:
Statystyka = dowolna funkcja obserwacji, czyli zmienna losowa postaci
Statystyka nie może zależeć od parametru θ, np. X1+X2 - θ
) ,...,
,
( X
1X
2X
nT
T =
Statystyki – przykład
są statystykami dla pierwszego sformułowania;
są statystykami dla drugiego sformułowania Wybór statystyki zależy od pytania, na które
mamy odpowiedzieć.
1 , 0
,
,
1 1
3 1
1 2
1
1 =
∑
=∑
=∑
−=
=
=
n
i n i n
i n i n
i
i T X T X
X T
1 , 0
,
, 2 3
1 = = = −
n T X
n T X
X T
Rozkład statystyki
Przy odpowiedzi na pytania z
wykorzystaniem statystyk będziemy musieli znać rozkład statystyki. Mimo że sama
statystyka nie zależy od nieznanych parametrów, jej rozkład – owszem.
Ważne rozkłady statystyk: w modelu normalnym
Model normalny
Najbardziej powszechne założenie stosowane przy badaniach statystycznych:
X1, X2, ..., Xn są próbką z rozkładu normalnego N(µ, σ2).
Ważne statystyki w tym modelu:
średnia
wariancja próbkowa:
odchylenie std:
∑
== n
i
Xi
X n
1
1
2 1
2 1
2 1
, ) (
S S
X X
S
n
i n i
=
−
=
∑
− =
jakie są ich rozkłady?
Model normalny – cd.
Rozkład : jako przeskalowana suma (niezależnych) zmiennych z rozkładu normalnego
Rozkład S2?
X
) ,
(
~ N
2 nX µ
σRozkład chi-kwadrat χ2(n)
Suma kwadratów n niezależnych zmiennych losowych o rozkładach N(0,1) ma rozkład chi kwadrat z n stopniami swobody, χ2(n) ew.
χ2(n) jest szczególnym przypadkiem rozkładu gamma: Γ(n/2, 1/2)
n=1 n=2 n=5
EX = n, VarX = 2n
0 dla
) 2 / ( 2
) 1
( /2 /2 1 /2 >
= Γ x − e− x
x n
f n n x
2
χ
nModel normalny – cd. (1)
Tw. W modelu normalnym, statystyki i S2 są niezależnymi zmiennymi
losowymi, t. że
w szczególności:
X
) ,
(
~ N
2 nX µ
σ) 1 (
~
21 2
2
χ −
−
S n
n σ
) 1 2 (
Var oraz
, 2 4
2 2
, = = −
S n S
Eµ σ σ σ
) 1 , 0 ( ) ~
(X n N
σ µ
−
Rozkład t-Studenta t(k), k = 1,2,;
dla X i Y niezależnych X~N(0,1), Y~χ2(k)
ma rozkład t-Studenta z k stopniami swobody
k=2 k=10
N(0,1)
k Y T X
= /
EX = 0 dla k>1, VarX = k/(k-2) dla k>2
Model normalny – cd. (2)
Tw. W modelu normalnym, zmienna
ma rozkład t-Studenta z n -1 stopniami swobody, T ~ t(n -1)
S X
T = n( − µ)
Rozkład F-Snedecora F(d1,d2), d1,d2 = 1, 2,;
F ma rozkład F(d1,d2), jeśli ,
gdzie Yi są niezależnymi zmiennymi losowymi o rozkładzie χ2(di)
2 2
1 1
/ /
d Y
d F = Y
Model normalny – cd. (3)
Jeśli mamy więcej niż jedną (sub)populację:
Tw. Jeśli X1, X2, ..., Xn są próbką z rozkładu normalnego N(µX, σX2), zaś Y1, Y2, ..., Ym są (niezależną) próbką z rozkładu
normalnego N(µY, σY2), to zmienna
przy dodatkowym założeniu σX2 = σY2, już jest statystyką
) 1 ,
1 (
2 ~
2 2 2
−
−
= F n m
S F S
X Y
Y X
σ σ
to nie jest statystyka!
) 1 ,
1 (
2 ~
2
−
−
= F n m
S F S
Y X
Estymacja punktowa
Wybór, na podstawie danych, najlepszego parametru θ spośród parametrów, jakie
mogą opisywać rozkład Pθ
Esytmator parametru θ to dowolna statystyka
o wartościach w zbiorze Θ (interpretujemy ją jako przybliżenie θ ). Zwykle
zapisywany jako
Czasem estymowane nie θ, a g(θ ).
) ,...,
,
( X
1X
2X
nT
T =
θ ˆ
Przykład estymacji – częstość empiryczna
Kontrola jakości:
0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1
Model stat. np. X = {0,1, 2, ..., n} (tu n=50), dla θ ∈[0,1]
parametr θ : p-stwo sztuki wadliwej oczywisty estymator:
n – liczebność próby
X – liczebność wadliwych sztuk
650
ˆ =
X n=
θ
x n x
x x n
X
P − −
=
= ) (1 )
( θ θ
θ
przy innym sformułowaniu modelu, ten estymator to średnia
Kłopoty z częstością (i nie tylko)...
Przykład: trzy genotypy w populacji, występują w proporcjach
W populacji n osób zaobserwowano odpowiednio N1, N2, N3 osobników poszczególnych genotypów.
Czy powinniśmy wziąć , czy raczej , a może , a może
jeszcze jakiś inny estymator?
→ Jak wybrać najlepszy?
2 2 : 2θ(1 θ ) : (1 θ )
θ − −
n N1
θ
ˆ =n N3
ˆ = 1−
θ
nN n
N1 2 2
ˆ = + 1 θ
Estymacja – statystyki próbkowe
Charakterystyki próbkowe:
estymatory tworzone w oparciu o rozkład empiryczny (dystrybuantę empiryczną)
Dystrybuanta empiryczna
Niech X1, X2, ..., Xn – próbka z rozkładu o dystrybuancie F (model z rodziną {PF})
(n-ta) dystrybuanta empiryczna
Dla ustalonych realizacji Xi jest to
dystrybuanta rozkładu empirycznego
(równomiernego na punktach x1, x2, ..., xn).
Dla ustalonego t jest to statystyka dla próby losowej: zmienna losowa o rozkładzie
n
t n X
i t i
n n
i
X i
t
F =
∑
=1 (−∞, ] = liczbaobserwacji :X ≤1 ( )
)
ˆ ( 1
n k
t F t
k F t n
F
P( ˆ( ) nk) ( )k (1− ( ))n k, = 0,1,...,
=
= −
Dystrybuanta empiryczna: własności
1.
2.
3. z CTG:
czyli dla dowolnego z:
4. Tw. Gliwenki-Cantelliego
(podstawowe tw. statystyki)
dla ) ( )
ˆ (t F t F
EF n =
)) (
1 )(
( )
ˆ (
VarFn t = n1 F t − F t
) 1 , 0 )) (
( 1
)(
(
) ( )
ˆ (
N t n
F t
F
t F t
F
n
n →
−
−
∞
→
) )) (
( 1
)(
(
) ( )
ˆ (
z z
t n F t
F
t F t
P Fn → Φ
≤
−
−
0
| ) ( )
ˆ (
|
sup − →. .
∈
n p t n
t F t
F
R n → ∞
jeśli liczebność próby wzrasta, to możemy poznać nieznany rozkład
prawdopodobieństwa z dowolną
dokładnością
Dystrybuanta empiryczna – przykład
Dane z rozkładu U[0,1], n=10
0,29 0,30 0,40 0,44 0,50 0,60 0,64 0,72 0,81 0,83
0.2.4.6.81p - stwo
-.2 0 .2 .4 .6 .8 1 1.2
wartości
dystr teoret dystr emp
Statystyki pozycyjne
Niech X1, X2, ..., Xn – próbka z rozkładu o dystrybuancie F. Porządkujemy je w
kolejności rosnącej, i oznaczamy
X1:n, X2:n, ..., Xn:n ← statystyki pozycyjne (w szczególności X1:n = min, Xn:n = max)
Dystrybuanta empiryczna jest funkcją schodkową, stałą na przedziałach
[Xi:n, Xi+1:n)
Rozkłady statystyk pozycyjnych
Niech X1, X2, ..., Xn – niezależne zmienne losowe o dystrybuancie F. Wówczas Xk:n ma rozkład o dystrybuancie
jeśli dodatkowo rozkład jest ciągły o gstości f, to Xk:n ma rozkład o gęstości
( ) ( )
∑
=− −
=
≤
= n
k i
i n i
n k n
k F x F x
i x n
X P x
F : ( ) ( : ) ( ) 1 ( )
( ) (
k)
n kn
k f x F x F x
k n n x
f − − −
−
= − ( ) ( ) 1 ( )
1 ) 1
( 1
: