• Nie Znaleziono Wyników

0.2.4.6.81p - stwo

N/A
N/A
Protected

Academic year: 2021

Share "0.2.4.6.81p - stwo"

Copied!
29
0
0

Pełen tekst

(1)

Statystyka Matematyczna

Anna Janicka

Wykład III, 07.03.2016

MODEL STATYSTYCZNY – CD.

MODEL NORMALNY

(2)

Plan na dzisiaj

1. Model statystyczny – cd.

pojęcie statystyki

2. Model normalny. Rozkłady statystyk w modelu normalnym

Chi-kwadrat t-Studenta

F (Fishera-Snedecora)

3. Wstęp do estymacji

(3)

Model Statystyczny – przypomnienie

Model statystyczny:

gdzie:

X – przestrzeń wartości obserwowanej

zmiennej losowej X (często n-wymiarowa, jeśli mamy n-wymiarową próbkę

zmiennych X1, ..., Xn) FX – σ-ciało na X

P – rodzina rozkładów prawdopodobieństw Pθ , indeksowana parametrem θ∈Θ

W mniej formalnym opisie zwykle podaje się: X, P, Θ

) ,

,

(Ω F P

) ,

,

( X F

X

P

w RP było:

(4)

Model statystyczny – przykład

Sformułowanie: Kontroler przebadał partię 50 sztuk towaru.

Wyniki są następujące (1– towar wadliwy, 0 – bez wad):

0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1

X = {0,1}n – przestrzeń próbkowa

Łączny rozkład prawdopodobieństwa:

dla θ ∈[0,1]

(u nas n=50 oraz X2 = X10 = X15 = X32 =X42 = X50 =1, pozostałe Xi = 0)

i i

i

i x n x

n

i

x x

n

n x

X x

X x X

P Σ Σ

=

=

=

=

=

= , ,..., )(1 ) (1 )

(

1

1 2

2 1

1 θ θ θ θ

θ

(5)

Model statystyczny – przykład cd.

Alternatywne sformułowanie (jeśli notujemy tylko liczbę wadliwych elementów w

próbie):

X = {0,1, 2, ..., n} – przestrzeń próbkowa Łączny rozkład prawdopodobieństwa:

dla θ ∈[0,1]

(u nas n=50 oraz X=6)

x n x

x x n

X

P 



=

= ) (1 )

( θ θ

θ

(6)

Model statystyczny – przykład cd. (2):

pytania

Mamy konkretne dane (próbkę):

Jaka jest wartość parametru θ ?

interesuje nas konkretna wartość interesuje nas przedział (ufności)

→ zagadnienie estymacji

Weryfikacja hipotezy, że θ =0,1

→ testowanie hipotez statystycznych

→ ew. predykcje

(7)

Model Statystyczny: Przykład 2

Wzrosty na giełdzie. Analityk bada długość

okresów wzrostowych na giełdzie. Interesuje go czas wzrostu kursu (do pierwszego spadku), w dniach. Załóżmy, że czasy wzrostu X1, X2, ..., Xn są próbką z rozkładu wykładniczego Exp(λ).

λ – nieznany parametr

X =(0,∞)n – przestrzeń próbkowa

Łączny rozkład prawdopodobieństwa:

dla λ > 0

=

=

n

i

x n

n

e i

x X

x X

x X

P

1 2

2 1

1 , ,..., ) (1 )

( λ

λ

xi

n

n e

x x

x

fλ( 1, 2,..., ) = λ λ Σ

(8)

Model Statystyczny: Przykład 3

Pomiar z błędem losowym: powtarzamy pomiar wielkości µ, wyniki poszczególnych pomiarów są niezależnymi zmiennymi los. X1, X2, ..., Xn, bo

maszyna do pomiaru niedoskonała. Każdy z

pomiarów ma jednakowy rozkład normalny N(µ, σ2).

µ, σ2 – nieznane parametry (a więc θ = (µ, σ))

X = Rn – przestrzeń próbkowa

Łączny rozkład prawdopodobieństwa:

lub

dla µ∈R, σ >0

∏ ( )

=

Φ

=

n

i

x n

n

x i

X x

X x X

P

1 2

2 1

1

,σ ( , ,..., ) σ µ

µ

( ) (

=

)

= n

i i

n

n x

x x

x

f 1

2 2

1 2

1 2

1

,σ ( , ,..., ) πσ exp σ2 ( µ)

µ

(9)

Statystyki

Estymację parametrów (punktową,

przedziałową) czy testowanie hipotez statystycznych przeprowadza się na podstawie tzw. statystyk:

Statystyka = dowolna funkcja obserwacji, czyli zmienna losowa postaci

Statystyka nie może zależeć od parametru θ, np. X1+X2 - θ

) ,...,

,

( X

1

X

2

X

n

T

T =

(10)

Statystyki – przykład

są statystykami dla pierwszego sformułowania;

są statystykami dla drugiego sformułowania Wybór statystyki zależy od pytania, na które

mamy odpowiedzieć.

1 , 0

,

,

1 1

3 1

1 2

1

1 =

=

=

=

=

=

n

i n i n

i n i n

i

i T X T X

X T

1 , 0

,

, 2 3

1 = = = −

n T X

n T X

X T

(11)

Rozkład statystyki

Przy odpowiedzi na pytania z

wykorzystaniem statystyk będziemy musieli znać rozkład statystyki. Mimo że sama

statystyka nie zależy od nieznanych parametrów, jej rozkład – owszem.

Ważne rozkłady statystyk: w modelu normalnym

(12)

Model normalny

Najbardziej powszechne założenie stosowane przy badaniach statystycznych:

X1, X2, ..., Xn są próbką z rozkładu normalnego N(µ, σ2).

Ważne statystyki w tym modelu:

średnia

wariancja próbkowa:

odchylenie std:

=

= n

i

Xi

X n

1

1

2 1

2 1

2 1

, ) (

S S

X X

S

n

i n i

=

=

=

jakie są ich rozkłady?

(13)

Model normalny – cd.

Rozkład : jako przeskalowana suma (niezależnych) zmiennych z rozkładu normalnego

Rozkład S2?

X

) ,

(

~ N

2 n

X µ

σ

(14)

Rozkład chi-kwadrat χ2(n)

Suma kwadratów n niezależnych zmiennych losowych o rozkładach N(0,1) ma rozkład chi kwadrat z n stopniami swobody, χ2(n) ew.

χ2(n) jest szczególnym przypadkiem rozkładu gamma: Γ(n/2, 1/2)

n=1 n=2 n=5

EX = n, VarX = 2n

0 dla

) 2 / ( 2

) 1

( /2 /2 1 /2 >

= Γ x e x

x n

f n n x

2

χ

n

(15)

Model normalny – cd. (1)

Tw. W modelu normalnym, statystyki i S2 są niezależnymi zmiennymi

losowymi, t. że

w szczególności:

X

) ,

(

~ N

2 n

X µ

σ

) 1 (

~

2

1 2

2

χ −

S n

n σ

) 1 2 (

Var oraz

, 2 4

2 2

, = =

S n S

Eµ σ σ σ

) 1 , 0 ( ) ~

(X n N

σ µ

(16)

Rozkład t-Studenta t(k), k = 1,2,;

dla X i Y niezależnych X~N(0,1), Y~χ2(k)

ma rozkład t-Studenta z k stopniami swobody

k=2 k=10

N(0,1)

k Y T X

= /

EX = 0 dla k>1, VarX = k/(k-2) dla k>2

(17)

Model normalny – cd. (2)

Tw. W modelu normalnym, zmienna

ma rozkład t-Studenta z n -1 stopniami swobody, T ~ t(n -1)

S X

T = n( µ)

(18)

Rozkład F-Snedecora F(d1,d2), d1,d2 = 1, 2,;

F ma rozkład F(d1,d2), jeśli ,

gdzie Yi są niezależnymi zmiennymi losowymi o rozkładzie χ2(di)

2 2

1 1

/ /

d Y

d F = Y

(19)

Model normalny – cd. (3)

Jeśli mamy więcej niż jedną (sub)populację:

Tw. Jeśli X1, X2, ..., Xn są próbką z rozkładu normalnego N(µX, σX2), zaś Y1, Y2, ..., Ym są (niezależną) próbką z rozkładu

normalnego N(µY, σY2), to zmienna

przy dodatkowym założeniu σX2 = σY2, już jest statystyką

) 1 ,

1 (

2 ~

2 2 2

= F n m

S F S

X Y

Y X

σ σ

to nie jest statystyka!

) 1 ,

1 (

2 ~

2

= F n m

S F S

Y X

(20)

Estymacja punktowa

Wybór, na podstawie danych, najlepszego parametru θ spośród parametrów, jakie

mogą opisywać rozkład Pθ

Esytmator parametru θ to dowolna statystyka

o wartościach w zbiorze Θ (interpretujemy ją jako przybliżenie θ ). Zwykle

zapisywany jako

Czasem estymowane nie θ, a g(θ ).

) ,...,

,

( X

1

X

2

X

n

T

T =

θ ˆ

(21)

Przykład estymacji – częstość empiryczna

Kontrola jakości:

0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1

Model stat. np. X = {0,1, 2, ..., n} (tu n=50), dla θ ∈[0,1]

parametr θ : p-stwo sztuki wadliwej oczywisty estymator:

n – liczebność próby

X – liczebność wadliwych sztuk

650

ˆ =

X n

=

θ

x n x

x x n

X

P 



=

= ) (1 )

( θ θ

θ

przy innym sformułowaniu modelu, ten estymator to średnia

(22)

Kłopoty z częstością (i nie tylko)...

Przykład: trzy genotypy w populacji, występują w proporcjach

W populacji n osób zaobserwowano odpowiednio N1, N2, N3 osobników poszczególnych genotypów.

Czy powinniśmy wziąć , czy raczej , a może , a może

jeszcze jakiś inny estymator?

→ Jak wybrać najlepszy?

2 2 : 2θ(1 θ ) : (1 θ )

θ

n N1

θ

ˆ =

n N3

ˆ = 1−

θ

n

N n

N1 2 2

ˆ = + 1 θ

(23)

Estymacja – statystyki próbkowe

Charakterystyki próbkowe:

estymatory tworzone w oparciu o rozkład empiryczny (dystrybuantę empiryczną)

(24)

Dystrybuanta empiryczna

Niech X1, X2, ..., Xn – próbka z rozkładu o dystrybuancie F (model z rodziną {PF})

(n-ta) dystrybuanta empiryczna

Dla ustalonych realizacji Xi jest to

dystrybuanta rozkładu empirycznego

(równomiernego na punktach x1, x2, ..., xn).

Dla ustalonego t jest to statystyka dla próby losowej: zmienna losowa o rozkładzie

n

t n X

i t i

n n

i

X i

t

F =

=1 (−∞, ] = liczbaobserwacji :X

1 ( )

)

ˆ ( 1

n k

t F t

k F t n

F

P( ˆ( ) nk)  ( )k (1 ( ))n k, = 0,1,...,



=

=

(25)

Dystrybuanta empiryczna: własności

1.

2.

3. z CTG:

czyli dla dowolnego z:

4. Tw. Gliwenki-Cantelliego

(podstawowe tw. statystyki)

dla ) ( )

ˆ (t F t F

EF n =

)) (

1 )(

( )

ˆ (

VarFn t = n1 F tF t

) 1 , 0 )) (

( 1

)(

(

) ( )

ˆ (

N t n

F t

F

t F t

F

n

n  →

) )) (

( 1

)(

(

) ( )

ˆ (

z z

t n F t

F

t F t

P Fn Φ

0

| ) ( )

ˆ (

|

sup  →. .

n p t n

t F t

F

R n

jeśli liczebność próby wzrasta, to możemy poznać nieznany rozkład

prawdopodobieństwa z dowolną

dokładnością

(26)

Dystrybuanta empiryczna – przykład

Dane z rozkładu U[0,1], n=10

0,29 0,30 0,40 0,44 0,50 0,60 0,64 0,72 0,81 0,83

0.2.4.6.81p - stwo

-.2 0 .2 .4 .6 .8 1 1.2

wartości

dystr teoret dystr emp

(27)

Statystyki pozycyjne

Niech X1, X2, ..., Xn – próbka z rozkładu o dystrybuancie F. Porządkujemy je w

kolejności rosnącej, i oznaczamy

X1:n, X2:n, ..., Xn:n ← statystyki pozycyjne (w szczególności X1:n = min, Xn:n = max)

Dystrybuanta empiryczna jest funkcją schodkową, stałą na przedziałach

[Xi:n, Xi+1:n)

(28)

Rozkłady statystyk pozycyjnych

Niech X1, X2, ..., Xn – niezależne zmienne losowe o dystrybuancie F. Wówczas Xk:n ma rozkład o dystrybuancie

jeśli dodatkowo rozkład jest ciągły o gstości f, to Xk:n ma rozkład o gęstości

( ) ( )

=





=

= n

k i

i n i

n k n

k F x F x

i x n

X P x

F : ( ) ( : ) ( ) 1 ( )

( ) (

k

)

n k

n

k f x F x F x

k n n x

f 

 

= − ( ) ( ) 1 ( )

1 ) 1

( 1

:

(29)

Cytaty

Powiązane dokumenty

Aby rozpocząć pomiar odległości należy podać na pin TRIG impuls napięciowy w stanie wysokim 5V przez czas 10μs, następnie dokonywany jest pomiar odległości przy

[r]

Rozkład gamma, chi-kwadrat, t-Studenta, F-Snedecora..

są niezależnymi zmiennymi losowymi o rozkładzie Laplace’a jest słabo zbieżny?. Jeśli tak, to do

Kodowanie kategorii (metody: zastąpienie kategorii rangami, kodowanie liniowe lub nieliniowe), potraktowanie zmiennych porządkowych jako zmienne mierzone na skali

Obliczyć wartość oczekiwaną liczby rzutów monetą aż do otrzymania n orłów pod

X, Y są niezależnymi zmiennymi losowymi o jednakowym

UFP (unadjusted function point) – nieuzgodniona liczba punktów funkcyjnych dla funkcjonalności aplikacji, dostępnej dla użytkownika końcowego po instalacji. CFP (conversion