0.2.4.6.81p - stwo

(1)

Statystyka Matematyczna

Anna Janicka

Wykład III, 07.03.2016

MODEL STATYSTYCZNY – CD.

MODEL NORMALNY

(2)

Plan na dzisiaj

1. Model statystyczny – cd.

pojęcie statystyki

2. Model normalny. Rozkłady statystyk w modelu normalnym

Chi-kwadrat t-Studenta

F (Fishera-Snedecora)

3. Wstęp do estymacji

(3)

Model Statystyczny – przypomnienie

Model statystyczny:

gdzie:

X – przestrzeń wartości obserwowanej

zmiennej losowej X (często n-wymiarowa, jeśli mamy n-wymiarową próbkę

zmiennych X₁, ..., X_n) F_X – σ-ciało na X

P – rodzina rozkładów prawdopodobieństw P_θ , indeksowana parametrem θ∈Θ

W mniej formalnym opisie zwykle podaje się: X, P, Θ

) ,

,

(Ω F P

) ,

,

( X F

_X

P

w RP było:

(4)

Model statystyczny – przykład

Sformułowanie: Kontroler przebadał partię 50 sztuk towaru.

Wyniki są następujące (1– towar wadliwy, 0 – bez wad):

0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1

X = {0,1}ⁿ – przestrzeń próbkowa

Łączny rozkład prawdopodobieństwa:

dla θ ∈[0,1]

(u nas n=50 oraz X₂ = X₁₀ = X₁₅ = X₃₂=X₄₂= X₅₀ =1, pozostałe X_i = 0)

i i

i

i x n x

n

i

x x

n

n x

X x

X x X

P ^Σ ⁻^Σ

=

− = −

−

=

= ^, ^,..., ⁾ ∏ ⁽¹ ⁾ ⁽¹ ⁾

(

1

1 2

2 1

1 θ θ θ θ

θ

(5)

Model statystyczny – przykład cd.

Alternatywne sformułowanie (jeśli notujemy tylko liczbę wadliwych elementów w

próbie):

X = {0,1, 2, ..., n} – przestrzeń próbkowa Łączny rozkład prawdopodobieństwa:

dla θ ∈[0,1]

(u nas n=50 oraz X=6)

x n x

x x n

X

P  − ⁻



 



= 

= ) (1 )

( θ θ

θ

(6)

Model statystyczny – przykład cd. (2):

pytania

Mamy konkretne dane (próbkę):

Jaka jest wartość parametru θ ?

interesuje nas konkretna wartość interesuje nas przedział (ufności)

→ zagadnienie estymacji

Weryfikacja hipotezy, że θ =0,1

→ testowanie hipotez statystycznych

→ ew. predykcje

(7)

Model Statystyczny: Przykład 2

Wzrosty na giełdzie. Analityk bada długość

okresów wzrostowych na giełdzie. Interesuje go czas wzrostu kursu (do pierwszego spadku), w dniach. Załóżmy, że czasy wzrostu X₁, X₂, ..., X_n są próbką z rozkładu wykładniczego Exp(λ^).

λ – nieznany parametr

X =(0,∞)ⁿ – przestrzeń próbkowa

dla λ > 0

∏

=

− −

=

≤

≤ ⁿ

i

x n

n

e i

x X

P

1 2

2 1

1 , ,..., ) (1 )

( ^λ

λ

xi

n

n e

x x

x

f_λ( ₁, ₂,..., ) = λ ⁻^λ ^Σ

(8)

Model Statystyczny: Przykład 3

Pomiar z błędem losowym: powtarzamy pomiar wielkości µ, wyniki poszczególnych pomiarów są niezależnymi zmiennymi los. X₁, X₂, ..., X_n, bo

maszyna do pomiaru niedoskonała. Każdy z

pomiarów ma jednakowy rozkład normalny N(µ, σ²).

µ^,σ² – nieznane parametry (a więc θ ^{= (}µ^,σ⁾⁾

X = Rⁿ – przestrzeń próbkowa

lub

dla µ∈R, σ ^>0

∏ ( )

=

Φ −

=

≤

≤ ⁿ

i

x n

n

x i

X x

X x X

P

1 2

2 1

1

,_σ ( , ,..., ) _σ ^µ

µ

( ) (

⁻

_∑

₌ ⁻

)

= ⁿ

i i

n

n x

x x

x

f 1

2 2

1 2

1

,_σ ( , ,..., ) _π_σ exp _σ₂ ( µ)

µ

(9)

Statystyki

Estymację parametrów (punktową,

przedziałową) czy testowanie hipotez statystycznych przeprowadza się na podstawie tzw. statystyk:

Statystyka = dowolna funkcja obserwacji, czyli zmienna losowa postaci

Statystyka nie może zależeć od parametru θ, np. X₁+X₂ - θ

) ,...,

,

( X

₁

X

₂

X

_n

T

T =

(10)

Statystyki – przykład

są statystykami dla pierwszego sformułowania;

są statystykami dla drugiego sformułowania Wybór statystyki zależy od pytania, na które

mamy odpowiedzieć.

1 , 0

,

1 1

3 1

1 2

1

1 =

∑

=

∑

=

∑

−

=

n

i n i n

i

i T X T X

X T

1 , 0

,

, ₂ ₃

1 = = = −

n T X

X T

(11)

Rozkład statystyki

Przy odpowiedzi na pytania z

wykorzystaniem statystyk będziemy musieli znać rozkład statystyki. Mimo że sama

statystyka nie zależy od nieznanych parametrów, jej rozkład – owszem.

Ważne rozkłady statystyk: w modelu normalnym

(12)

Model normalny

Najbardziej powszechne założenie stosowane przy badaniach statystycznych:

X₁, X2, ..., Xn są próbką z rozkładu normalnego N(µ^,σ²^).

Ważne statystyki w tym modelu:

średnia

wariancja próbkowa:

odchylenie std:

∑

=

= ⁿ

i

Xi

X n

1

2 1

, ) (

S S

X X

S

n

i n i

=

−

=

∑

− =

jakie są ich rozkłady?

(13)

Model normalny – cd.

Rozkład : jako przeskalowana suma (niezależnych) zmiennych z rozkładu normalnego

Rozkład S²?

X

) ,

(

~ N

² _n

X µ

^σ

(14)

Rozkład chi-kwadrat χ²(n)

Suma kwadratów n niezależnych zmiennych losowych o rozkładach N(0,1) ma rozkład chi kwadrat z n stopniami swobody, χ²(n) ew.

χ²(n) jest szczególnym przypadkiem rozkładu gamma: Γ(n/2, 1/2)

n=1 n=2 n=5

EX = n, VarX = 2n

0 dla

) 2 / ( 2

) 1

( _/₂ ^/² ¹ ^/² >

= Γ x ⁻ e⁻ x

x n

f _n ⁿ ^x

2

χ

n

(15)

Model normalny – cd. (1)

Tw. W modelu normalnym, statystyki i S² są niezależnymi zmiennymi

losowymi, t. że

w szczególności:

X

) ,

(

~ N

² _n

X µ

^σ

) 1 (

~

²

1 2

2

χ −

−

S n

n σ

) 1 2 (

Var oraz

, ² ⁴

2 2

, = = −

S n S

E_µ _σ σ σ

) 1 , 0 ( ) ~

(X n N

σ µ

−

(16)

Rozkład t-Studenta t(k), k = 1,2,;

dla X i Y niezależnych X~N(0,1), Y~χ²(k)

ma rozkład t-Studenta z k stopniami swobody

k=2 k=10

N(0,1)

k Y T X

= /

EX = 0 dla k>1, VarX = k/(k-2) dla k>2

(17)

Tw. W modelu normalnym, zmienna

ma rozkład t-Studenta z n -1 stopniami swobody, T ~ t(n -1)

S X

T = n( − µ)

(18)

Rozkład F-Snedecora F(d₁,d₂), d₁,d₂= 1, 2,;

F ma rozkład F(d₁,d₂), jeśli ,

gdzie Y_i są niezależnymi zmiennymi losowymi o rozkładzie χ²(d_i)

2 2

1 1

/ /

d Y

d F = Y

(19)

Jeśli mamy więcej niż jedną (sub)populację:

Tw. Jeśli X₁, X₂, ..., X_n są próbką z rozkładu normalnego N(µ_X, σ_X²), zaś Y₁, Y₂, ..., Y_m są (niezależną) próbką z rozkładu

normalnego N(µ_Y, σ_Y²), to zmienna

przy dodatkowym założeniu σ_X²= σ_Y², już jest statystyką

) 1 ,

1 (

2 ~

2 2 2

−

= F n m

S F S

X Y

Y X

σ σ

to nie jest statystyka!

) 1 ,

1 (

2 ~

2

−

= F n m

S F S

Y X

(20)

Estymacja punktowa

Wybór, na podstawie danych, najlepszego parametru θ spośród parametrów, jakie

mogą opisywać rozkład P_θ

Esytmator parametru θ to dowolna statystyka

o wartościach w zbiorze Θ (interpretujemy ją jako przybliżenie θ ). Zwykle

zapisywany jako

Czasem estymowane nie θ, a g(θ ).

) ,...,

,

( X

₁

X

₂

X

_n

T

T =

θ ^ˆ

(21)

Przykład estymacji – częstość empiryczna

Kontrola jakości:

0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1

Model stat. np. X = {0,1, 2, ..., n} (tu n=50), dla θ ∈[0,1]

parametr θ : p-stwo sztuki wadliwej oczywisty estymator:

n – liczebność próby

X – liczebność wadliwych sztuk

650

ˆ =

^X _n

=

θ

x n x

x x n

X

P  − ⁻



 



= 

= ) (1 )

( θ θ

θ

przy innym sformułowaniu modelu, ten estymator to średnia

(22)

Kłopoty z częstością (i nie tylko)...

Przykład: trzy genotypy w populacji, występują w proporcjach

W populacji n osób zaobserwowano odpowiednio N₁, N₂, N₃ osobników poszczególnych genotypów.

Czy powinniśmy wziąć , czy raczej , a może , a może

jeszcze jakiś inny estymator?

→ Jak wybrać najlepszy?

2 2 : 2θ(1 θ ) : (1 θ )

θ − −

n N₁

θ

ˆ =

n N₃

ˆ = 1−

θ

n

N n

N₁ ₂ 2

ˆ = + 1 θ

(23)

Estymacja – statystyki próbkowe

Charakterystyki próbkowe:

estymatory tworzone w oparciu o rozkład empiryczny (dystrybuantę empiryczną)

(24)

Dystrybuanta empiryczna

Niech X₁, X₂, ..., X_n– próbka z rozkładu o dystrybuancie F (model z rodziną {P_F})

(n-ta) dystrybuanta empiryczna

Dla ustalonych realizacji X_i jest to

dystrybuanta rozkładu empirycznego

(równomiernego na punktach x₁, x₂, ..., x_n).

Dla ustalonego t jest to statystyka dla próby losowej: zmienna losowa o rozkładzie

n

t n X

i t i

n n

i

X i

t

F =

∑

₌1 (_−∞, ] = ^liczba^obserwacji ^:^X ^≤

1 ( )

)

ˆ ( 1

n k

t F t

k F t n

F

P( ˆ( ) _n^k)  ( )^k (1− ( ))ⁿ ^k, = 0,1,...,



 



= 

= ⁻

(25)

Dystrybuanta empiryczna: własności

1.

2.

3. z CTG:

czyli dla dowolnego z:

4. Tw. Gliwenki-Cantelliego

(podstawowe tw. statystyki)

dla ) ( )

ˆ (t F t F

E_F _n =

)) (

1 )(

( )

ˆ (

VarF_n t = _n¹ F t − F t

) 1 , 0 )) (

( 1

)(

(

) ( )

ˆ (

N t n

F t

F

t F t

F

n

n  →

−

∞

→

) )) (

( 1

)(

(

) ( )

ˆ (

z z

t n F t

F

t F t

P Fⁿ  → Φ









 ≤

−

0

| ) ( )

ˆ (

|

sup −  →^. ^.

∈

n p t n

t F t

F

R n → ∞

jeśli liczebność próby wzrasta, to możemy poznać nieznany rozkład

prawdopodobieństwa z dowolną

dokładnością

(26)

Dystrybuanta empiryczna – przykład

Dane z rozkładu U[0,1], n=10

0,29 0,30 0,40 0,44 0,50 0,60 0,64 0,72 0,81 0,83

0.2.4.6.81p - stwo

-.2 0 .2 .4 .6 .8 1 1.2

wartości

dystr teoret dystr emp

(27)

Statystyki pozycyjne

Niech X₁, X₂, ..., X_n– próbka z rozkładu o dystrybuancie F. Porządkujemy je w

kolejności rosnącej, i oznaczamy

X_1:n, X_2:n, ..., X_n:n ← statystyki pozycyjne (w szczególności X_1:n = min, X_n:n = max)

Dystrybuanta empiryczna jest funkcją schodkową, stałą na przedziałach

[X_i:n, X_i+1:n)

(28)

Rozkłady statystyk pozycyjnych

Niech X₁, X₂, ..., X_n– niezależne zmienne losowe o dystrybuancie F. Wówczas X_k:n ma rozkład o dystrybuancie

jeśli dodatkowo rozkład jest ciągły o gstości f, to X_k:nma rozkład o gęstości

( ) ( )

∑

=

− −



 



= 

≤

= ⁿ

k i

i n i

n k n

k F x F x

i x n

X P x

F _: ( ) ( _: ) ( ) 1 ( )

( ) (

^k

)

ⁿ ^k

n

k f x F x F x

k n n x

f  ⁻ − ⁻



 





−

= − ( ) ( ) 1 ( )

1 ) 1

( ¹

:

(29)