• Nie Znaleziono Wyników

 4.Własności działań na zdarzeniacha.Przemienność

N/A
N/A
Protected

Academic year: 2021

Share " 4.Własności działań na zdarzeniacha.Przemienność"

Copied!
17
0
0

Pełen tekst

(1)

Rachunek prawdopodobieństw i statystyka.

I. Wstęp – zdarzenia losowe, prawdopodobieństwo,

1. Pojęcia pierwotne: doświadczenie losowe, zdarzenie elementarne e , Przestrzeń zdarzeń elementarnych Ω.

2. Zdarzenie losowe definicja: Zdarzeniem losowym nazywamy każdy element

przeliczalnie addytywnego ciała Z przestrzeni zdarzeń elementarnych (inaczej sigma ciało zdarzeń).

Uwaga: Gdy Ω jest przeliczalne to każdy podzbiór Ω jest zdarzeniem losowym.

Przeliczalnie addytywne ciało zbioru Ω to niepusta klasa Z podzbiorów zbioru Ω taka, że i.  Z

ii. Jeśli A Z to A'Z - stąd wynika, że

  Z

- (dopełnienie należy do Z.)

iii. Suma co najwyżej przeliczalnej liczby zbiorów Ai należących do Z również należy do Z Jeśli

A

i

Z

to

i i

AZ

-

stąd i z ii wynika też, że każda przeliczalna różnica należy do Z, oraz że każdy iloczyn również należy do Z. Z nazywane jest też sigma-algebrą.

Maksymalna ilość elementów w Z to 2m , gdzie m to ilość zdarzeń elementarnych 3. Operacje na zdarzeniach losowych – algebra zbiorów.

a. Alternatywa (suma): AB - zachodzi zdarzenie A lub B

b. Koniunkcja (iloczyn) A B AB - zachodzi zdarzenie A i B (niekoniecznie jednocześnie w czasie)

c. Różnica

A \ B

- zachodzi zdarzenie A i nie zachodzi zdarzenie B

d.

A '   \ A

- zdarzenie przeciwne do A (lub dopełnienie A) stąd mamy:

'

AA   i

AA '  

e. AB - zdarzenie A pociąga za sobą (implikuje) zdarzenie B f. AB i BA to A B - zdarzenia są równe

g. A B   zdarzenia rozłączne

h. Podziałem przestrzeni zdarzeń elementarnych jest rodzina

A t T

t

,   A

t

Z

taka, że A At1 t2  

dla

t

1

t

2 i

t t

A  

4. Własności działań na zdarzeniach

a. Przemienność AB BAA  B B A

b. Łączność A BC( ) ( AB C) A(B C ) ( AB)C

c. Rozdzielność koniunkcji wzg. alternatywy i alternatywy wzg. koniunkcji

( )

A B C ABAC A(BC) ( A B A C )(  ) d. Prawa de Morgana: (AB) ' A' B' (A B ) ' A B' ' 5. Definicja prawdopodobieństwa – aksjomatyczna (Kolmogorow):

Prawdopodobieństwo to funkcja określona na zbiorze Z i przyporządkowująca każdemu elementowi tego zbioru liczbę P(A) zgodnie z następującymi warunkami:

i. P(A) 0 dla każdego A Z ii. P( ) 1 

(2)

iii. Dla dowolnego ciągu parami rozłącznych zdarzeń Ai (A Ai j  

dla

ij

) należących do zbioru Z zachodzi:

(

i

) ( )

i

i i

PA   P A

- stąd i z poprzednich dwóch punktów wynika, że P Z: [0,1]

6. Własności prawdopodobieństwa a. P( ) 0 

b. Jeśli AB to P A( )P B( ) c. P A( ) 1

d. Jeśli AB to P(B\ A)P B( ) P(A) e. P A( )P A( ') 1

f. P A B(  )P A( )P B( )P AB( )

g. Jeśli przestrzeń zdarzeń elementarnych jest co najwyżej przeliczalna i określone są prawdopodobieństwa wszystkich zdarzeń elementarnych to

( ) 1 ...

i ik

P Ap   p

jeśli zdarzenia elementarne 1,...,

i ik

e e

sprzyjają zdarzeniu A

h. Klasyczna definicja prawdopodobieństwa (Laplace)

Jeśli przestrzeń składa się z n zdarzeń elementarnych i wszystkie zdarzenia

elementarne są jednakowo prawdopodobne to

( ) ( )

( ) P A n A

n

, gdzie n(A) to liczba zdarzeń elementarnych sprzyjających zdarzeniu A.  przykład 3 teleturniej 3 drzwi.

7. Przestrzeń probabilistyczna: ( , , ) Z P

8. Prawdopodobieństwo warunkowe:

( ) ( | )

( ) P A B P AB

P B

9. Niezależność zdarzeń: P AB( )P A P B( ) ( ) 10. Prawdopodobieństwo zupełne

Jeśli Ai są parami rozłączne i 1

n i i

A

 

oraz

P (A ) 0

i

wówczas

1

( ) n ( ) ( | )i i

i

P B P A P B A

11. Twierdzenie Bayesa: 1

( ) ( | A ) (A | B)

( ) ( | )

k k

k n

i i

i

P A P B P

P A P B A

 

- prawdopodobieństwo a priori i a posteriori.

a. czułość testu diag. (objawu): prawdopodobieństwo że test wypadnie dodatnio zakładając, że pacjent jest rzeczywiście chory P(A|B) (A-jest objaw, pozytywny wynik testu, B – pacjent jest chory na daną chorobę).

b. swoistość testu diag. (objawu): prawdopodobieństwo że test wypadnie ujemnie zakładając, że pacjent nie jest chory. P(A’|B’)

12. Elementy kombinatoryki:

(3)

a. Ilość permutacji zbioru n-elementowego – n!

b. Ilość kombinacji k elementowych zbioru n elementowego (bez powtórzeń)

!

!( )!

k n

n n

C k k n k

        

c. Ilość kombinacji k elementowych zbioru n elementowego (z powtórzeniami)

1

k n

C k n k

   

  

 

d. Ilość wariacji bez powtórzeń

k

!

n

V n k k

    

 

e. Ilość wariacji k-elementowych z powtórzeniami

k k

Vnn 13. Prawdopodobieństwo w binarnych eksperymentach powtarzalnych

,

m n m n m

P n p q

m

 

  

 

gdzie p – prawdopodobieństwo sukcesu, q=1-p –

prawdopodobieństwo porażki, Pn,m – prawdopodobieństwo, że w n próbach będzie m sukcesów.

II. Zmienna losowa – dyskretna i ciągła, rozkład prawdopodobieństwa zmiennej losowej.

1. Definicja zmiennej losowej:

Niech ( , , ) Z P będzie dowolną przestrzenią probabilistyczną. Zmienna losowa to dowolna funkcja X określona na zbiorze zdarzeń elementarnych o wartościach ze zbioru liczb rzeczywistych, taka że dla dowolnego ustalonego

x  

zbiór zdarzeń elementarnych, dla których przyjmuje ona wartość mniejszą niż x jest zdarzeniem losowym.

:

{ : ( ) } X

x e X e x Z

 

   

a. Powyżej zdefiniowany podzbiór jest zdarzeniem losowym.

b. Zdarzeniem losowym są też zbiory: { : ( )e X eR} gdzie R to dowolny zbiór borelowski na prostej.

2. Definicja dystrybuanty.

Niech ( , , ) Z P będzie dowolną przestrzeń probabilistyczną. Funkcję FX określoną na zbiorze  wzorem:

( ) ( )

F x

X

P Xx

dla

x  

Nazywamy dystrybuantą zmiennej losowej X.

3. Własności dystrybuanty

a. 0F x( ) 1 dla każdego

x  

b.

lim ( ) ( ) 0

x

F x F



  

lim ( ) ( ) 1

x

F x F



  

c. F jest funkcją niemalejącą

d. F jest co najmniej lewostronnie ciągła 0 0 lim ( ) ( )

x xF x F x

e. P a( Xb) F(b) F(a) 

(4)

f. 0 0 0

( ) lim ( ) ( )

x x

P X x F x F x

 

stąd wynika, że gdy F jest ciągła

P(X  x

0

) 0 

g. Dowolna funkcja G o wartościach rzeczywistych spełniająca warunki b, c, d jest dystrybuantą.

4. Zmienna losowa typu skokowego (dyskretnego)

a. Zmienna losowa jest typu dyskretnego, jeśli zbiór jej wartości

1 2

{ , ,...}

W

X

x x

jest przeliczalny lub skończony, oraz

P X (  x

i

) p  

i

0

dla każdego i, takie, że

i

1

i

p

(

x

i

to punkty skokowe zmiennej X) b. Funkcję

p x ( )

i

P X (  x

i

) p 

i

nazywamy rozkładem prawdopodobieństwa zmiennej losowej X.

c. Dystrybuanta zmiennej skokowej

( )

i

i x x

F x p

 

 

d. Znając dystrybuantę można łatwo obliczyć rozkład prawdopodobieństwa korzystając z własności 3f.

5. Zmienna losowa typu ciągłego

a. Zmienną losową nazywamy ciągłą jeśli przyjmuje wszystkie wartości z pewnego przedziału i istnieje taka nieujemna funkcja f, że dystrybuantę zmiennej losowej X możemy przedstawić jako

F x ( )

x

f t dt ( )

 

 . f nazywa się gęstością prawdopodobieństwa, lub gęstością.

b. Jeżeli x jest punktem ciągłości f to F x'( ) f x( )

c.

(x) 1 f dx



 

d.  c  (XPc) 0

e.

( ) ( )

b

a

P a X   b   f x dx

6. Funkcje zmiennych losowych

a. Jeśli X jest zmienną losową, a g jest dowolną funkcją o wartościach

rzeczywistych określoną na zbiorze wartości zmiennej X to wtedy Ug(X) (U e( )g X e( ( )), e ) jest zmienną losową o rozkładzie:

i. Dla zmiennej dyskretnej:

{ : ( ) }

( ) ( ) ( )

, , u ( )

i i j

j j j i

x g x u

i X j U j i

q q u P U u p x

x W u W g x

   

  

ii. Dla zmiennej ciągłej.

Twierdzenie: Jeśli g(X) jest funkcją ściśle monotoniczną, oraz '( ) 0

g x dla

x  

wówczas gęstość zmiennej U wyraża się wzorem:

1 1

( ) ( ( )) ( (u)) '

U X

f uf g u

g

, gdzie

g

1 oznacza funkcję odwrotną do g.

(5)

Dowód jest prosty. Załóżmy, że wybieramy odcinek (x1, x2), wówczas zmiana zmiennych w całce poniżej pozwala szybko odnaleźć gęstość zmiennej losowej u (przyjmujemy, że u1=g(x1) i u2=g(x2):

2 2

1 1

1 1

1 2

(x ) ( ) ( ( ))(g (u)) '

x u

X X

x u

P  x x

f x dx

f g u du

Gdy g jest rosnąca (u2>u1) wyrażenie w ostatniej całce to gęstość zmiennej losowej u. Jeśli g jest malejąca to należy zmienić kolejność granic w ostatniej całce. Ponieważ monotoniczność funkcji odwrotnej jest taka sama jak funkcji wyjściowej, więc ostatecznie otrzymujemy:

1 1

( ) ( ( )) ( (u)) '

U X

f uf g u

g

Twierdzenie: Jeśli u=g(x) jest funkcją przedziałami ściśle monotoniczną,

a

i

dla i=0,1,2,…,n to granice odpowiednich przedziałów, a

g g

i

w tych przedziałach to gęstość zmiennej losowej U wyraża się wzorem:

1 1

( ( )) ( (u)) ' c<u<d ( )

0 dla pozostalych u

X i i

U i

f g u g f u

  



gdzie

c

i

g (a )

i

dla i=1,2,…,n oraz

min

i

c

i

c

i

max

i

d

i

c

Dowód jest bezpośrednim wnioskiem z poprzedniego twierdzenia.

7. Niezależność zmiennych losowych – Zmienne losowe X i Y określone na tej samej przestrzeni zdarzeń losowych są niezależne jeśli zdarzenia {Xx} i {Yy} niezależne, tzn. gdy zachodzi: P X( x Y,  y)P X( x P Y) ( y)

a. Dla zmiennych losowych dyskretnych:

( i, j) ( i) ( j) xi X i j Y P Xx YyP Xx P Yy  W  y W b. Dla zmiennych losowych ciągłych

P X (  x Y ,  y )  F x F y

X

( ) ( ) ,

Y

x y

III. Zmienna losowa – charakterystyki liczbowe i przykładowe rozkłady.

1. Miary położenia

a. Wartość przeciętna, średnia, oczekiwana - ( )

( )

i x

i i x W

x p E X

xf x dx





 



(zakładamy, że całka i szereg są zbieżne) i jej własności (c to stała):

i. E c( )c

ii. E X(c )cE X( ) iii. E X c(  )E(X)c iv. E X EX(  ) 0

v. E X Y(  )E X( )E Y( )

(6)

vi. E XY( )E X E Y( ) ( ) gdy X i Y są niezależne b. Mediana – każda liczba

x

0.5

, że

0.5 0.5

0.5 0.5

0.5

0.5

( ) 0.5 ( 0)

( ) 0.5

i i

i i

x x x x

p p

F x F x

F x

  

     

 

 

c. Kwantyl rzędu p – każda liczba xp , że

( ) ( 0)

( )

i p i p

i i

x x x x

p p

p

p p p

F x p F x

F x p

  

     

 

 

d. Moda –wartość najbardziej prawdopodobna 2. Miary rozrzutu

a. Wariancja

2

2

2

( )

( ) (( ( )) )

( ) ( )

i x

i i

x W

x p

V X E X E X

x f x dx



 

   

 



, właściwości

i. V c( ) 0 ii.

( )

2

( ) V aXa V X

iii. V X c(  ) V X( )

iv. V X Y(  )V X( )V Y( ) gdy X i Y są niezależne v.

2 2

V( ) XE X ( )  E X ( )

b. Odchylenie standardowe

  V (X)

c. Współczynnik zmienności

E X ( )

  

3. Momenty zwykłe mrE(X )r

4. Moment centralny

rE X E X((  ( )) )r 5. Współczynnik skośności

3 S 3

A

6. Współczynnik skupienia – kurtoza

4

4 3

K

(K>0 – leptokurtyczny, K<0 – platokurtyczny)

7. Rozkłady skokowe:

a. Równomierny 1 pi

n ,

2

1 1

1 1

( ) n i, ( ) n ( i ( ))

i i

E X x V X x E X

n n

b. Jednopunktowy

p

1

P x ( ) 1

1

,

E X ( )  x

1

, ( ) 0 V X

c. Zero-jedynkowy, dwupunktowy, Bernoulliego

1

( 0) 1 ,

2

(X 1) p

pP X     q p pP  

, E X( ) p, V(X)=pq

(7)

d. Rozkład dwumianowy zmiennej K=0,1,2,…,n – (k sukcesów w n etapowym eksperymencie binarnym z rozkładem zero-jedynkowym)

( , , ) n

k n k

, 0,1,..., 2 1

P k n p p q k q p

k

 

     

 

( ) , ( ) ,

3

(1 2 ) E Knp V Knpq   npqp

i. Dla n=1  rozkład zero-jedynkowy,

ii. dla n>1  K to suma zmiennych niezależnych o rozkładzie zero- jedynkowym

iii. Dla n∞ (p stałe) rozkład dwumianowy dąży do rozkładu Gaussa.

iv. Rozkład dwumianowy dąży do rozkładu Poissona w granicy n∞ i p0, tak, że np=λ

lim ( , n,

n

) ( ; )

n

P k p P k



gdy

np

n

   0

e. Rozkład Poissona – (ilość zdarzeń w jednostce czasu – czas pojawienia się zdarzenia określony jest rozkładem wykładniczym) zmienna losowa K=0,1,2,3,

… ma rozkład Poissona gdy:

( ; )

!

k

P k e k

 

( ) , ( ) , =

3

E K   V K    

i. Rozkład dwumianowy dąży do rozkładu Poissona w granicy n∞ i p0, tak, że np.=λ

lim ( , n,

n

) ( ; )

n

P k p P k



gdy

np

n

   0

ii. Dla dużej wartości λ i dużych wartości k rozkład Poissona może być przybliżony rozkładem Gaussa o średniej λ i wariancji λ.

8. Rozkłady ciągłe

a. Rozkład równomierny – skoncentrowany na przedziale [a,b]

1 dla ( )

0 dla x>b a x b f x b a

x a

  

   

  

2 0.5

( ) , ( ) 1 ( )

2 12

E X x a bV X b a

   

b. Rozkład wykładniczy – np. rozkład czasu bezawaryjnej pracy danego elementu, lub czas w którym pojawi się samochód na jakiejś ulicy, lub czas między jednym a drugim rozpadem jądra, prawdopodobieństwo przetrwania jądra niestabilnego przez czas x, okres między trzęsieniami ziemi, itp.

Można go wyprowadzić wychodząc z założenia, że czas oczekiwania na zdarzenie można modelować jako eksperyment Bernoulliego, w którym czas oczekiwania jest podzielony na bardzo dużą ilość prób Bernoulliego n∞, a prawd. porażki w każdej z tych prób jest liczbą stałą równą 1-t/(λn), gdzie t to czas czekania. Wówczas prawdopodobieństwo, że czas oczekiwania jest większy lub równy t wynosi:

1 t / n

n

exp t /

- z rozwinięcia Taylora wzg. T=0 i w granicy n ∞. – Stąd prawd. że nastąpił sukces w czasie krótszym niż t to 1-exp(-t/λ)

(8)

1exp dla 0 (x)

0 dla 0

x x

f

x

 

   

  

  

 

( ) 1 exp( / ), ( ) , ( )

2

F x    xE X   V X  

λ to czas życia i. Brak pamięci - a b, 0 (P X  a b X| a)P X( b)

Prawdopodobieństwo, że czas oczekiwania na zjawisko jest dłuższy niż a+b pod warunkiem że minął już czas a jest takie samo jak prawdopodobieństwo, że czas oczekiwania jest dłuższy niż b.

c. Rozkład normalny, Gaussa

2 2

1 ( )

( ) exp

2 2

f x x

  

  

   

 

2

0.5 1

( ) , ( )

E Xxm

V X

Rozkład standaryzowany

z x

 

 N(0,1)

d. Inne rozkłady ważne w statystyce: gamma, chi2, F-Snedecora, t- Studenta.

9. Rozkłady ucięte  prawdopodobieństwo warunkowe.

10. Centralne Twierdzenie Graniczne Lindeberga-Levy’ego:

Jeśli Xn jest ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie, o

skończonej wartości oczekiwanej µ i wariancji σ2>0, oraz

/

n n

Y X

n

 

to ciąg

standaryzowanych średnich arytmetycznych 1

1

n

n n

i

X X

n

 

wówczas ciąg dystrybuant

F y

n

( )

jest zbieżny do dystrybuanty rozkładu normalnego standaryzowanego N(0,1).

1 1

2

lim ( ) exp

2 2

y

n

F y

n

t dt

 

 

      

Jeżeli przyjmiemy, że średnia 1

1

n

n n

i

X X

n

 

to średnia z próbki wówczas możemy powiedzieć, że bez względu na rozkład statystyczny cechy w danej populacji rozkład średnich z próbek zbliża się do rozkładu normalnego wraz ze wzrostem rozmiaru próbki.

Dowód wymaga odwołania się do funkcji charakterystycznej rozkładu.

11. Mocne prawo wielkich liczb Kołmogorowa:

Jeśli Xn jest ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie, o skończonej wartości oczekiwanej µ, to wówczas zachodzi mocne prawo wielkich liczb, tzn. że dla

(9)

1

1 n

n i

i

X X

n

zachodzi

 

limn n (X) 0

1

P X E

   

Mówiąc inaczej średnia z próbki jest dobrym przybliżeniem średniej z populacji jeśli próbka jest dostatecznie duża. Oznacza to, że średnia z próbki jest zgodnym estymatorem.

IV. Zmienna losowa dwuwymiarowa – korelacja i regresja.

1. Dwuwymiarowa zmienna losowa – Parę zmiennych (X,Y) zmiennych losowych X i Y określonych nie koniecznie na tej samej przestrzeni probabilistycznej nazywamy dwuwymiarową zmienną losową.

a. Dystrybuanta – Funkcja

:

2

[0,1]

F  

taka, że

( , ) ( , ) ,

F x yP Xx Yyx y  , własności:

i.

lim ( , ) 0, lim ( , ) 0

y x

x F x y y F x y

 

       

ii.

lim ( , ) 1

xy

F x y



iii. Dla dowolnych punktów (x1,y1) i (x2,y2) takich, że x1<x2 i y1<y2 zachodzi:

1 2 1 2 2 2 2 1 1 2 1 1

( , ) ( , y ) ( , ) ( , ) ( , ) 0

P xXx y   Y yF xF x yF x yF x y

 Interpretacja geometryczna

iv. F jest niemalejąca i przynajmniej lewostronnie ciągła wzg. Każdego argumentu.

b. Rozkłady brzegowe - 1

( ) lim ( , ) P(X x, Y ) F x

y

F x y



   

dystrybuanta X, gdy Y przyjmuje dowolne wielkości

2

(y) lim ( , ) P(X , Y y) F

x

F x y



   

podobnie dla Y c. Dwuwymiarowa zmienna losowa typu skokowego -

(

i

,

k

)

ik

,

P Xx Yyp i k 

i zachodzi ,

ik 1

i k

p

i. Rozkłady brzegowe:

( ) F ( )

1

i

i i ik i

k x x

P X x p p x p

 

   

i

analogicznie dla P(Y=y)

(Y ) F (y)

2

k

k k ik k

i y y

P y p p p

 

   

ii. Rozkłady warunkowe – Jeśli wszystkie p.k są dodatnie to możemy zdefiniować prawdopodobieństwo warunkowe jako:

( | ) F(x|y ) ( | )

i

ik ik

i k k k

k x x k

p p

P X x Y y P X x Y y

p

p

       

analogicznie dla P(Y=yk|X=xi)

d. Dwuwymiarowa zmienna losowa (X,Y) jest typu ciągłego jeśli istnieje taka nieujemna funkcja f taka, że dystrybuantę tej zmiennej można przedstawić w

postaci:

( , ) ( , ) ,

x y

F x y f u v dudv x y

 

    

f to gęstość rozkładu

(10)

prawdopodobieństwa, a F(x,y) to odpowiednia objętość bryły pod wykresem f.

i. Własności f

( , ) 1

f u v dudv

 

 

  

 W punktach ciągłości (x,y) mamy

2

( , )

( , ) F x y

f x y x y

 

 

 Dla obszaru regularnego B 2 mamy

((X, Y) ) ( , )

B

PB   f x y dxdy

, w szczególnym przypadku, gdy B jest prostokątem o skrajnych współrzędnych a,b,c,d,

mamy:

((X, Y) ) (x, y)

b d

a c

PB   f dxdy

ii. Rozkłady brzegowe -

1

( )

1

( ) ( )

1

( , )

x

F x f u du f u f u v dv

 

   

i analogicznie dla F2(y)

iii. Rozkład warunkowy - 2

( , ) ( | ) (u | y) du ( | )

( )

x

f u y

F x y f f u y



f y

  

2. Niezależność zmiennych losowych – Zmienne X i Y zdefiniowane na tej samej przestrzeni zdarzeń elementarnych są niezależne jeśli dla dowolnych borelowskich zbiorów A i B zdarzenia

Z

1

 { : ( ) e X eA }

i

Z

2

 { : Y( ) e eB }

są niezależne, czyli

1 2 1 2

( , ) ( ) ( ) P Z ZP Z P Z

Stąd warunkiem koniecznym i wystarczającym, aby zmienne losowe X i Y były niezależne jest:

1 2

1 2

( , ) ( ) ( ) ( , ) ( ) ( )

(

i

,

k

) (

i

) P(

k

) f x y f x f y

F x y F x F y

P X x Y y P X x Y y

 

        

3. Charakterystyki liczbowe dwuwymiarowej zmiennej losowej

a. Momenty zwykłe mieszane rzędu r+s

rsE X Y( r s) ,r s0,1, 2,...

b. Momenty centralne mieszane rzędu r+s

(( ( )) (r ( )) ) ,s 0,1, 2,...

rs E X E X Y E Y r s

   

Macierz momentów centralnych rzędu 2

20 11

11 02

( ) cov( , Y) cov( , Y) ( )

V X X

M X V Y

 

 

   

     

 

 

cov( , )X YE XY( )E X E Y( ) ( ) - dla niezależnych zmiennych losowych X i Y cov(X,Y)=0

c. Współczynnik korelacji liniowej – Jeśli V(X)>0 i V(Y)>0 to współczynnik

cov( , )

( ) ( ) X Y V X V Y

 

jest miarą zależności liniowej między zmiennymi X i Y.

Można wykazać, że jeśli istnieje liniowa zależność między zmiennymi X i Y to

(11)

 jest równe 1 lub -1 to z prawdopodobieństwem 1. Dowód łatwy – z własności V i E.

2

2 2 2 2

cov( , ) ( ( )) ( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) bE(X) ( ( ) ( ))

| | ( ) | | ( ) | |

X aX b E X aX b E X E aX b V X V aX b V X a V X

aE X bE X aE X a E X E X a

a V X a V X a

      

   

  

4. Funkcje zmiennych losowych – przypadek szczególny: suma, iloczyn 5. Linie regresji.

a. Linie regresji pierwszego rodzaju – określmy warunkowe wartości przeciętne dla rozkładu skokowego:

(Y | X i) k (Y k| X i) 1 k ik

k i k

E x y P y x y p

 

   p

i dla rozkładu

ciągłego: 1

(Y | X ) (y | x) 1 ( , )

E x yf dy (x) yf x y dy f

 

    

. Niech

( | )

2

( )

E Y Xxm x

wówczas linią regresji pierwszego rodzaju zmiennej losowej Y wzg. X nazywamy zbiór punktów (x,y) spełniających równanie:

2

( ) y m x

.

i. Własność: Średnie odchylenie kwadratowe

(( (X)) )

2

E Y g

zmiennej losowej Y od pewnej funkcji g(X) jest najmniejsze gdy funkcja ta z prawdopodobieństwem 1 jest równa

m

2

(X)

.

2

(( 2(X)) ) min E Y m 

Dowód: Powyższa własność wynika z następującej nierówności:

( ) (( ) )

2

V XE X c

,którą najpierw udowodnimy:

2 2 2

2 2 2 2

2 2

2 2 2

2

(( ) ) ( 2 )

( ( ) 2 ( ) ( ) 2 ( ) 2 Xc c ) ( ) ( E (X) 2 XE(X) 2 Xc c )

V(X) E ( ) 2 ( ) 2 ( ) (X) (E(X) c)

E X c E X Xc c

E X E X XE X E X XE X V X E

X E X E X c c V

   

      

     

    

  

Stąd wynika, że E((X-c)2) jest minimalne dla c=E(X). Dla ciągłych zmiennych losowych:

2 2

2 1

(( ( )) ) ( ( )) ( , )

( ) ( ( )) ( | ) dy

E Y g X y g x f x y dxdy

f x y g x f y x dx

 

 

 

  

 

   

 

 

 

Wyrażenie w nawiasie jest analogiczne do E((X-c)2) ponieważ dla ustalonego x g(x) jest wartością stałą. Wykorzystując udowodnioną

(12)

powyżej nierówność otrzymujemy oczekiwaną własność. Dla skokowych zmiennych losowych dowód jest analogiczny.

b. Prostą regresji drugiego rodzaju zmiennej losowej Y wzg. zmiennej losowej X nazywamy prostą o równaniu y=ax+b, której współczynniki minimalizują średnią odległość kwadratową między zmiennymi losowymi Y i aX+b.

(( ) ) min

2

E Y aX b   

Łatwo wykazać, że dla dowolnej dwuwymiarowej zmiennej losowej (X,Y)

współczynniki a i b określone są wzorami:

,

Y Y

Y X

X X

a

 

b

  

 

  

Dowód: Łatwy – wystarczy rozwinąć wyrażenie E((Y-aX-b)2) i zminimalizować przez przyrównanie pierwszych pochodnych po a i b do zera.

i. Własność: Jeśli zmienne losowe X i Y mają rozkład normalny to linia regresji pierwszego rodzaju jest równa prostej regresji drugiego rodzaju.

V. Statystyka wstęp: statystyka opisowa, skale pomiarowe, estymatory punktowe, przedział ufności.

1. Co to jest statystyka i czym się zajmuje?  opis i estymacja, czyli przewidywanie parametrów dla całej populacji na podstawie badań na próbkach. Pojęcia podstawowe: populacja, próbka, estymatory.

2. mierzone wielkości i skala pomiarowa: jakościowa i ilościowa. jakościowa: nominalna, porządkowa. ilościowa: interwałowa (równomierna)  ciągła i dyskretna, ilorazowa

a. nominalna - wynikiem pomiaru jest rozłączna kategoria, np.: kolor oczu, płeć, grupa krwi,

b. porządkowa - podobnie jak nominalna, tylko że wyniki można jednoznacznie uporządkować, np.: stopień znajomości języka: podstawowy, średnio

zaawansowany, zaawansowany, biegły, lub masa ciała: niedowaga, norma, nadwaga, otyłość. Skala ta może być wyrażana przy pomocy cyfr, np. tak i nie to 1 i 0, lub skala Apgar (0-10)

c. przedziałowa (interwałowa, równomierna) - tak jak porządkowa, tylko że można obliczyć odległość między wynikami, większość pomiarów należy do tej skali, np.: ciśnienie krwi, masa ciała, temperatura

d. ilorazowa - to samo co skala przedziałowa z tym że iloraz ma sens (istnieje bezwzględne zero), np. wiek,

3. Sposoby przedstawiania surowych danych (szeregi statystyczne: szeregi szczegółowe, rozdzielcze i czasowe ):

a. histogramy, zwykłe i skumulowane - skala przedziałowa/ilorazowa - zmienne ciągłe

b. wykresy słupkowe - zmienne dyskretne - realizowane w statistica przez histogram

c. wykresy kołowe - wszystkie skale

d. łodyga i liście - skala przedziałowa /ilorazowa (diagram łodyga i liście - stat.

podstawowe)

e. wykresy rozrzutu - skala przedziałowa/ilorazowa

4. Statystyka opisowa  tak jak charakterystyki liczbowe zmiennej losowej, tylko, że dla próbki. Zakładamy prawdopodobieństwo jednostajne, czyli pi=1/n

5. Estymatory, statystyki

(13)

a. Załóżmy że badamy cechę X pewnej populacji. Wówczas n-elementową próbę prostą możemy przedstawić jako ciąg Xn niezależnych zmiennych losowych o takim samym rozkładzie jak X.

b. Statystyka to dowolna funkcja g zdefiniowana na próbie

g X ( ,...,

1

X

n

)

c. Estymatorem nazywamy każdą statystykę

 ˆ ( ,..., )

n

X

1

X

n

, której wartości przyjmujemy jako oceny szukanego parametru rozkładu zmiennej X. Dla danego parametru można skonstruować wiele estymatorów. Estymator jest zmienną losową (ponieważ jest funkcją zmiennych losowych) i ma swój rozkład. Optymalny estymator jest:

i. nieobciążony, czyli

E ( )  ˆ

n

 

ii. zgodny

lim (| ˆn | ) 0 0

n P    

     

iii. efektywny – najmniejsza wariancja

V ( ) min   ˆ

n d. Przykład 1: średnia z próbki 1

1 n

i i

X X

n

jest zgodnym (na mocy

twierdzenia wielkich liczb) nieobciążonym ( 1

( ) 1 n ( )i ( )

i

E X E X E X

n

)

estymatorem średniej z populacji o wariancji

2

( ) V X n

 

- dla rozkładu normalnego jest to także estymator efektywny.

e. Przykład 2: wariancja

2 2

1

1 (X )

n i i

S X

n

jest estymatorem obciążonym:

(X)

E

2

V X ( )

2 2 2

1 1

2 2

1 1

2 2

1 2

2 2 2

1 1

( ) (( ) ) ((( ) ( )) )

1 2

(( ) ) E(( ) ) (( )( ))

1 (( ) ) ((X ) )

1

n n

i i

i i

n n

i i

i i

n

i i

E S E X X E X X

n n

E X X E X X

n n

E X E

n

n

n n

   

   

 

   

       

      

   

    

 

 

ponieważ

2 2

1 2 1

1 1

((X ) ) ( )

n

X

i n

V(X )

i

i i

E V X V

n n n

 

 

      

   

Jest to estymator asymptotycznie nieobciążony, ponieważ

2 2

lim ( )

n

E S



Estymatorem nieobciążonym wariancji z populacji jest

*2 2

1

1 (X )

1

n i i

S X

n

 

, który jest także asymptotycznie efektywny. Oba estymatory są zgodne.

(14)

f. Uwaga jeśli dany estymator

 ˆ ( ,..., )

n

X

1

X

n ma pewne pożądane własności, to inny estymator będący funkcją tego estymatora wcale nie musi ich mieć.

Np. S* jest obciążonym estymatorem odchylenia standardowego, mimo że S*2 jest nieobciążonym estymatorem wariancji.

6. Sposoby znajdowania estymatorów.

a. Metoda największej wiarogodności – Jeśli chcemy oszacować k parametrów

na podstawie n-elementowej próby wówczas możemy użyć funkcji wiarogodności L

1 1 1

( ; ,..., )... ( ; ,..., )

k n k

Lf x   f x  

Gdzie f to gęstość prawdopodobieństwa (zmienne ciągłe), lub funkcja rozkładu prawdopodobieństwa (zmienne dyskretne). Estymatory otrzymuje się przez maksymalizację L, a dokładniej ln(L) co jest wygodniejsze.

ln 0 1,...,

i

L i k

  

 , oraz macierz

2

ln

i j

L

 

 

jest negatywnie określona, czyli wszystkie jej wartości własne są ujemne.

Estymatory otrzymane tą metodą nie zawsze są optymalne, ale przy dostatecznie regularnych funkcjach rozkładu są zgodne.

b. Metoda momentów – obliczamy momenty (zwykle kilka pierwszych) dla próby i przyrównujemy je do momentów otrzymanych z modelowanego rozkładu. W ten sposób otrzymujemy równania, z których wyliczamy parametry rozkładu. Ilość użytych momentów musi być oczywiście co najmniej równa ilości estymowanych parametrów.

c. Metoda najmniejszych kwadratów  przy okazji regresji.

7. Inne estymatory:

a. Wskaźnik struktury p – ˆn

k

n

- zgodny, nieobciążony, efektywny - tylko dla rozkładu Bernoulliego.

b. Współczynnik zmienności - V S

X 8. Estymacja przedziałowa średniej

a. Na mocy centralnego twierdzenia granicznego dla dostatecznie dużych próbek średnia z próbki ma rozkład normalny

( ,

2

/ n) X N  

.

b. Zakładamy, że w realnym eksperymencie (pomiarze) nie otrzymamy wartości zmiennej losowej X, które są bardzo mało prawdopodobne. Wówczas

możemy przyjąć, że zredukowana zmienna losowa / Z X

n

 

znajdzie się w przedziale

[  z

/2

, z

/2

]

, gdzie

z

/2

to kwantyl rzędu

1   / 2

standaryzowanego rozkładu normalnego. Stąd otrzymujemy, że średnia z

populacji powinna być w przedziale:

/2

,

/2

z z

X X

n n

   

 

 

, który

nazywamy przedziałem ufności średniej. Przedział ten zależy od konkretnej wartości elementów w próbie i jest różny dla różnych prób. Jeśli

skonstruujemy wiele takich przedziałów, dla różnych prób, to w 100*(1

) procentach takich przedziałów powinna znajdować się prawdziwa wartość

(15)

średniej z populacji, która jest wartością stałą. α jest wartości małą (zwykle 0.05, lub 0.01) i nazywane jest poziomem istotności. 1- α to poziom ufności.

c. Jeśli nie znamy wariancji z całej populacji (co ma zwykle miejsce), to wówczas zamiast rozkładu normalnego używamy rozkładu t-Studenta, a zamiast wariancji dla całej populacji używamy estymatora dla próby S*2. Wówczas otrzymujemy następujący przedział ufności dla średniej:

1 * 1 *

/2

,

/2

n n

t S t S

X X

n n

 

 

 

 

, gdzie /21

tn to kwantyl rzędu

1   / 2

rozkładu t- Studenta z n-1 stopniami swobody. Dla dużych n statystyka t-Studenta dąży do rozkładu normalnego standaryzowanego.

9. Estymacja przedziałowa odchylenia standardowego

a. Dla zmiennej X o rozkładzie normalnym korzystamy ze statystyki

2 2

2

nS

 

która ma rozkład chi-kwadrat. Wówczas odchylenie standardowe z populacji należy do przedziału:

2

,

2

(1 / 2, 1) ( / 2, 1)

n n

S S

n n

   

 

    

 

Gdzie

2

(1 / 2, n 1)

   

i

 

2

( / 2, n  1)

to odpowiednie kwantyle rozkładu chi-kwadrat z n-1 stopniami swobody.

Dla dużych próbek (n>50) można stosować przybliżenie rozkładem normalnym.

VI. Statystyka – testowanie hipotez statystycznych, parametryczne testy istotności.

1. Hipoteza statystyczna to każde przypuszczenie dotyczące rozkładu badanej cechy w populacji. Przyjmujemy zwykle dwie hipotezy, tzw. Zerową H0 i alternatywną H1 (HA), które się wzajemnie wykluczają.

a. Hipotezy dwustronne – np.:

H :

0

1

 

2

H :

1

1

 

2

b. Hipotezy jednostronne – np.:

H :

0

1

 

2

H :

1

1

 

2

2. Weryfikacja hipotez dokonuje się przez obliczenie statystyki testowej na próbie. W zależności od wartości statystyki wybieramy jedną z hipotez. Rodzaj użytej statystyki zależy od rodzaju problemu. Wybór hipotezy nie oznacza, że jest ona prawdziwa. W każdym wypadku możemy popełnić błąd.

prawdopodobieństwo H

0

prawdziwa H

1

prawdziwa Nie odrzucamy H

0

ok - 1-α β – błąd 2 rodzaju akceptacja H

1

α - błąd 1 rodzaju ok - 1-β

Moc testu to prawdopodobieństwo 1-β, że jeśli hipoteza H1 jest prawdziwa to H1 zostanie zaakceptowana.

3. Istnieje relacja między błędem pierwszego i drugiego rodzaju. Im większy błąd I rodzaju tym mniejszy błąd II rodzaju i odwrotnie. Wartość

powinna być niewielka (zwykle 0.05 lub 0.01), ale taka aby moc testu była duża.  rys.

4. Moc testu – Im test jest mocniejszy tym łatwiej wykazać prawdziwość H1. Moc testu zależy od wielkości próby, sformułowania hipotez oraz rozrzutu wyników w próbie. Im większa próba i mniejszy rozrzut wyników tym test jest mocniejszy.

5. Testy parametryczne – zakładają pewien rozkład cechy w populacji – najczęściej jest to rozkład normalny.

(16)

6. Przykładowe testy parametryczne:

a. Test dla jednej próby – porównanie z wartością tablicową:

i. Założenia – Próbka ma rozkład normalny, lub jest dostatecznie duża, tak, ze można skorzystać z Centralnego Twierdzenia Granicznego.

ii. Hipotezy:

H :

0

    

0

, 

0

H :

1

    

0

, 

0

iii. Statystyka:

0

* / t X

S n

 

iv. Obszar krytyczny: Jeśli /2 /2

1 1

n n

t t t t

   

to wybieramy hipotezę H1. W przeciwnym przypadku zostajemy przy H0 i mówimy że nie mamy podstaw do odrzucenia hipotezy zerowej.

v. Uwaga: Ten test jest równoważny sprawdzeniu, czy

0 należy do

przedziału ufności dla średniej z populacji:

1 * 1 *

/2

,

/2

n n

t S t S

X X

n n

 

 

 

 

. Jeśli tak to nie mamy podstaw do odrzucenia hipotezy zerowej zakładającej, że

0

jest średnią z populacji. W przeciwnym wypadku wybieramy hipotezę alternatywną.

vi. Rys. wyjaśniający test oraz błędy I i II rodzaju. Wartość P.

b. Test dla porównania średnich z dwóch prób zależnych (związanych) – test t- Studenta dla różnic

i. Założenia: Różnica z próbek ma rozkład normalny, lub próbki są dostatecznie duże, aby można było zastosować Centralne Twierdzenie Graniczne.

ii. Hipotezy:

H :

0

1

  

2

,

1

 

2

H :

1

1

  

2

,

1

 

2

iii. Statystyka:

*

/

D

t D

S n

gdzie

1 2

1

1 n

i i

i

D X X

n

to średnia z różnic związanych cech.

iv. Obszar krytyczny: Jeśli /2 /2

1 1

n n

t t t t

   

to wybieramy hipotezę H1. W przeciwnym przypadku zostajemy przy H0 i mówimy że nie mamy podstaw do odrzucenia hipotezy zerowej. Dla wartości P: Jeśli

P  

 H0 .Jeśli

P  

 H1.

v. Uwaga: Ten test jest równoważny testowi dla jednej próbki jeśli za elementy naszej próbki weźmiemy różnice elementów związanych:

1 2

i i i

DXX

c. Test dla porównania średnich z dwóch prób niezależnych (niezwiązanych) – test t-Studenta

i. Założenia: Obie próbki mają rozkład normalny, lub są dostatecznie duże, aby można było zastosować Centralne Twierdzenie Graniczne.

ii. Hipotezy:

H :

0

1

  

2

,

1

 

2

H :

1

1

  

2

,

1

 

2

iii. Statystyka: 1 2

1 2

x x

2 / x x t S

n

 

, gdzie 1 2

1 2

2 2

/ 2

x x

S

x

S

x

S  

i ilość stopni swobody df=2n-2 – dla próbek równolicznych.

(17)

iv. Obszar krytyczny: Jeśli /2 /2

2n 2 2n 2

t t

   t t

to wybieramy hipotezę H1. W przeciwnym przypadku zostajemy przy H0 i mówimy że nie mamy podstaw do odrzucenia hipotezy zerowej. Dla wartości P: Jeśli

P  

 H0 .Jeśli

P  

 H1.

v. Uwaga: Istnieją również wersje tego testu dla próbek z różną wariancją, oraz różnolicznych. Wtedy używa się bardziej

skomplikowanych statystyk, ale reguły wyboru hipotez są takie same.

d. Testy pomocnicze – Często prócz testów głównych potrzebne są inne testy np. w celu zweryfikowania założeń testów głównych.

i. Test Shapiro-Wilka – sprawdzanie normalności rozkładu próbki.

Hipotezy: H0: Rozkład próbki jest zgony z rozkładem normalnym H1: Rozkład próbki różni się od rozkładu normalnego

ii. Test Levena – sprawdzanie jednorodności wariancji. H0: wariancje są jednorodne H1: wariancje są różne.

VII. Zależność między zmiennymi – wsp. Korelacji liniowej i regresja.

1. Wstępne określenie rodzaju zależności na podstawie wykresu rozrzutu.

2. Jeśli jednocześnie zachodzą (relacja liniowa, nie ma wyników odstających, ani podgrup, normalny rozkład obu zmiennych) wtedy stosujemy współczynnik korelacji liniowej Pearsona r. Tutaj r szacowane jest dla próby. Jest to zgodny, ale obciążony estymator wartości tego współczynnika (ρ) dla populacji.

r=

i=1 n

( x

i

−´ x ) ( y

i

−´ y )

i=1n

( x

i

−´ x )

2

i=1n

( y

i

− ´ y )

2

 ( , )

x y

Cov x y r S S

a. r2 – współczynnik determinacji jest miarą (ułamkową) zmienności y, która może być wyjaśniona jej liniową zależnością od x --> rysunek przy regresji

b. Testowanie hipotez:

i. H0: ρ=0, H1: ρ≠0  zmienna testowa

t=r1−r n−2

2 test t-studenta z n-2 stopniami swobody

ii. H0: ρ=ρ0, H1: ρ≠ρ0  zmienna testowa

Z = z−z

0

n−3 z=

1

2 ln ( 1−r 1+r ) z

0

= 1 2 ln ( 1− ρ 1+ ρ

00

)

Gaussian test - transformacja odwrotna

2 2

1 1

z z

r e e

 

Przedział ufności dla z -->

/2 /2

3 , 3

z z

z z

n n

 

 

   

 

3. Regresja liniowa – regresja drugiego rodzaju – obliczana wtedy gdy zachodzą: relacja liniowa, nie ma wyników odstających, ani podgrup, normalny rozkład obu zmiennych. Dla pary zmiennych (X,Y) możemy obliczyć regresję Y wzg. X, X wzg. Y lub, regresję

ortogonalną. Załóżmy, że interesuje nas regresja Y wzg. X. Zakładamy, że w populacji

Cytaty

Powiązane dokumenty

1.8 Udowodnij regułę trzech sigm: Jeżeli zmienna losowa ma rozkład normalny, to war- tość bezwzględna odchylenia tej zmiennej od wartości oczekiwanej nie przekracza

Przykªad: Autokomis ma na swoim parkingu 62 Mazdy, i badamy zwi¡zek pomi¦dzy ich cen¡ (w dolarach) i wiekiem (w latach).. Przyjmijmy, »e prawdziwa linia regresji

5) Korzystając z Dane/Analiza danych / Histogram narysuj histogram oraz sporządź szereg rozdzielczy („Zakres komórek” to blok danych, pole „Zakres zbioru” pozostaw puste,

5) Korzystając z Dane/Analiza danych / Histogram narysuj histogram oraz sporządź szereg rozdzielczy („Zakres komórek” to blok danych, pole „Zakres zbioru” pozostaw puste,

rozkład prawdopodobieństwa zmiennej losowej - przypisanie wartościom zmiennej losowej wartości funkcji prawdopodobieństwa (tzn. szans wystąpienia określonych wartości)

[r]

Kwartyl trzeci (górny) to wartość cechy zmiennej, która dzieli badaną zbiorowość w taki sposób, że 75% jednostek zbiorowości charakteryzuje się wartościami nie wyższymi

Narysuj histogram, wielokąt częstości, krzywą częstości względnych skumulo- wanych i pudełko z