Wartość oczekiwana. Kowariancja.

(1)

Wartość oczekiwana. Kowariancja.

)]

, ( [g X Y

E = ^{ }x y

y x f y x

g( , ) ( , ),

gdy X, Y są dyskretne,

)]

, ( [g X Y

E = _^^{ }__^_^g⁽^x^,^y⁾^f⁽^x^,^y⁾^dxdy,

gdy X, Y są ciągłe.

Uwaga. Dla ^g⁽^X^,^Y⁾^ ^X lub ^g⁽^X^,^Y⁾^^Y otrzymujemy

wartości oczekiwane brzegowych zmiennych losowych X lub Y, gdyż

(a) w przypadku dyskretnym

) ( X

E = ^{ }x y

y x

xf( , ) =^{ }x y

y x f

x ( , )=^_x ^xf^X⁽^x⁾^^^X .

) (Y

E = ^{ }x y yf (x, y) = ^{ }y y x f (x,y)= ^y yfY(y)^ Y

(b) w przypadku ciągłym

) ( X

E = _^^{ }__^_^xf⁽^x^,^y⁾^dxdy = _^^_^x^_^_^^_^f⁽^x^,^y⁾^dy^_^^dx^

=_^^_^xf^X⁽^x⁾^dx ^^^X . Analogicznie otrzymujemy

   

 ^













dy y yf dxdy

y x yf Y

E( ) ( , ) _Y( ) = ^^Y.

Stwierdzenie. Niech c będzie dowolną stałą, a ^g⁽^X^,^Y⁾,

) ,

1(X Y

g , ^g²⁽^X^,^Y⁾ zmiennymi losowymi jednowymiarowymi. Wówczas

)]

, ( [ ) , (

[cg X Y cE g X Y

E  ,

)]

, ( [ )]

, ( ) , (

[g₁ X Y g₂ X Y E g₁ X Y E g₂ X Y

E    .

(2)

Stwierdzenie. Jeśli zmienne losowe X, Y są niezależne, to

) ( ) ( )

(XY E X E Y

E  .

Definicja. Niech X i Y będą zmiennymi losowymi o łącznej funkcji prawdopodobieństwa ( gęstości ) ^f⁽^x^, ^y⁾. Kowariancją zmiennych X i Y nazywamy liczbę:

)]

)(

[( _X _Y

XY E X  Y 

    .

Stąd: XY ^^{ }x y (x^X)(y^Y)f(x,y),

gdy X, Y są dyskretne ^^XY ^_^^{ }__^_⁽^x^^^X⁾⁽^y^^^Y⁾^f⁽^x^,^y⁾^dxdy,

gdy X, Y są ciągłe.

Notacja: Zamiast ^^XY często piszemy Cov (X,Y).

Stwierdzenie. Cov(X,Y) = ^E⁽^XY⁾^^^X^^Y.

Twierdzenie. Jeśli zmienne losowe X i Y są niezależne, to

Cov(X,Y) = 0.

Uwaga. Twierdzenie odwrotne nie jest na ogół prawdziwe.

(3)

Twierdzenie. Dla dowolnych stałych a, b Var(^aX ^^bY⁾ =

^a²Var(X) + ^b²Var(Y) + 2^abCov(X,Y).

Wniosek. Jeśli zmienne losowe X i Y są niezależne, to

Var(^aX ^^bY) = ^a²Var(X) + ^b²Var(Y).

Definicja. Współczynnikiem korelacji między zmiennymi losowymi X i Y nazywamy liczbę:

) ( ) (

) , (

Y Var X Var

Y X

 Cov

 .

Zadanie. Zmienna losowa ⁽^X^,^Y⁾ ma rozkład ciągły o gęstości



 ) 0 ,

( Cy

y x

f dla ⁰_przeciwnie^^x^^y^¹. a) Wyznaczyć stałą C.

b) Obliczyć kowariancję pomiędzy zmiennymi X, Y.

c) Czy zmienne losowe X, Y są niezależne ? a) _^^{ }__^_^f⁽^x^,^y⁾^dxdy = ¹^ ^

0 1 x

Cydy

dx = C ¹

 

0

2 1

2

/ dx

y x =

(4)

= C ^ 





 

1

0

2

2 2

1 x dx

= C ( 1/2 - 1/6 ) = 1. Stąd C = 3.

b) ^E^{( X}⁾^ _^^{ }__^_^xf ⁽^x^, ^y⁾^dxdy = ¹^ ^

0

13

x

ydy

xdx =

= 3 ¹

 

0

2 1

2

/ dx

y x

x = 3 ^ 





 

1

0

3

2 2x x dx

= 3 ^_^^x₄² ^^x₈⁴^_^₀¹ = = 3/8

) (Y

E = _^^{ }__^_^yf ⁽^x^, ^y⁾^dxdy = ¹^ ^

0

13 2 x

dy y

dx =

= 3 ¹₀^^_^₃¹^ ^x₃³^_^^dx = ^_^^x^ ^x₄⁴^_^₀¹ = 1 – 1/4 = 3/4

) ( XY

E = _^^{ }__^_^xyf⁽^x^, ^y⁾^dxdy = ¹^ ^

0

13 2 x

dy y

xdx =

= 3 ¹^x

 

^y ¹_x^dx

0

 3 = 3¹^ ^

0

3) 1

( x dx

x = 3( 0

)1 5 / 2

/ ⁵

2 x

x  =

= 0,9

Cov(X,Y) = 0,9 – (3/8)(3/4) = 99/160.

(c) Cov(X,Y) ^0, więc zmienne nie są niezależne, tzn. są zależne.

Własności współczynnika korelacji (i) ^¹^^ ^¹

(5)

(ii) Jeśli a i b są stałymi, oraz jeśli Y = a + bX,

to

^ ^_^^_¹₁ gdy _b^b_^₀⁰

(iii) Jeśli ^ ^¹, to między zmiennymi losowymi X, Y istnieje liniowa zależność funkcyjna.

(iv) Jeśli zmienne losowe X i Y są niezależne, to ^ ^⁰^.

Interpretacja. Współczynnik korelacji jest miarą zależności liniowej między zmiennymi losowymi.

Dwuwymiarowy rozkład normalny Zmienna losowa ⁽^X^,^Y⁾ ma dwuwymiarowy rozkład normalny, jeśli ma gęstość postaci:





Y X

y x

f 2 

) 1 ,

( exp^_^^₂₍₁_¹_²₎^^q⁽^x^,^y⁾^_^ , gdzie

2 2 2

2 ( )( ) ( )

) 2 ) (

, (

y Y Y

X

Y X

X

X x y y

y x x

q 







 



     

  ,

(6)

,





 x ^^^ ^y^^, stałe ^^X,^^Y,^ spełniają warunki ^^X >

0, ^^Y > 0,

1 

^ ^¹^.

Notacja: ⁽^X^,^Y⁾^~^N⁽^^X^,^^Y^,^^X^,^^Y^,^⁾

Twierdzenie. Jeśli ⁽^X^,^Y⁾^~^N⁽^^X^,^^Y^,^^X^,^^Y^,^⁾, to (i) X ~ ^N⁽^^X^,^^X⁾, Y ~ ^N⁽^^Y^,^^Y⁾.

(ii) Cov(X,Y) = ^.

(iii) X, Y są niezależne wtedy i tylko wtedy gdy ^ = 0.

Twierdzenie. Zmienna losowa (X,Y) ma

dwuwymiarowy rozkład normalny wtedy i tylko wtedy gdy zmienna losowa aX + bY ma rozkład normalny, a, b są dowolnymi stałymi.

Zadanie. Niech zmienna losowa X oznacza dzienną wartość sprzedaży ( w 100 zł. ) dyskietek a zmienna losowa Y dzienną wartość sprzedaży papieru

kserograficznego ( w 100 zł.). Wiadomo, że

dwuwymiarowa zmienna losowa ⁽^X^,^Y⁾ ma rozkład

normalny o parametrach: ^^X ^⁵, ^^Y ^⁶, ^^X ^⁰^,⁵, ^^Y ^⁰^,² ^ ^⁰^,¹. (a) Obliczyć wartość średnią oraz wariancję łącznej wartości sprzedaży w ciągu 10 dni, jeśli wartości sprzedaży obu artykułów w kolejnych dniach są

niezależnymi zmiennymi losowymi o rozkładach takich jak rozkład zmiennej ⁽^X^,^Y⁾. (b) Obliczyć

(7)

prawdopodobieństwo, że łączna wartość sprzedaży w ciągu 10 dni przekroczy 10000 zł.

(a) Łączna wartość sprzedaży:

) (

...

)

( ₁ ₁ ₁₀ ₁₀

10 X Y X Y

S      .

110 ) 6 5 ( 10 )]

( ) ( [ 10 )

(S₁₀   E X E Y   

E (100 zł.)

Średnia łączna wartość sprzedaży to 11000 zł.

Var(^S¹⁰) = 10^Var(X +Y) = 10^[Var(X) + Var(Y) + 2Cov(X,Y)] = 10(⁰^,⁵²^⁰^,²²^²^⁰^,¹^⁰^,⁵^⁰^,²⁾ =

= 30 (¹⁰⁰² zł. ).

(b) ^S¹⁰ ^~ ^N⁽¹¹⁰^, ³⁰⁾. Zatem po standaryzacji ^S¹⁰^₃₀¹¹⁰^~ ^N⁽⁰^,¹⁾, skąd

) 100 (S₁₀ 

P = ^P^_^^S¹⁰^₃₀¹¹⁰^¹⁰⁰^₃₀¹¹⁰^_^ =

) 8257 , 1 (Z 

P = ¹^^⁽^¹^,⁸²⁵⁷⁾ = 1 – [1 -^⁽¹^,⁸²⁵⁷⁾] = 0,966.

CIĄGI ZMIENNYCH LOSOWYCH Niech ^X¹^,^X²^,...,^Xⁿ będą zmiennymi losowymi określonymi na tej samej przestrzeni zdarzeń elementarnych ^S.

) ,..., ,

(x₁ x₂ x_n

F = ^P⁽^X¹ ^^x¹^,^X² ^^x²^,...,^Xⁿ ^^xⁿ⁾ =

dystrybuanta wektora losowego (^X¹^,^X²^,...,^Xⁿ).

) ,..., ,

(x₁ x₂ x_n

f = funkcja prawdopodobieństwa łącznego lub funkcja gęstości łącznej wektora losowego (^X¹^,^X²^,...,^Xⁿ).

(8)

Definicja. Zmienne losowe ^X¹^,^X²^,...,^Xⁿ są niezależne, jeśli

) ,..., ,

(x₁ x₂ x_n

F = ^F^X¹⁽^x¹⁾^F^X²⁽^x²⁾^^...^^F^Xⁿ⁽^xⁿ⁾, gdzie ^F^Xⁱ⁽^xⁱ⁾^^P⁽^Xⁱ ^ ^xⁱ⁾, i = 1,2,...,n.

Definicja.

)]

, , , , , (

[g X₁ X₂ X_n

E =

  

1 2

) ,..., , ( ) ,..., ,

(

... ₁ ₂ ₁ ₂

x x x n n

n

x x x f x x

x

g ,

lub

  











 g(x ,x ,...,x_n)f(x ,x ,...,xn)dx dx ...dxn

... ₁ ₂ ₁ ₂ ₁ ₂ .

Stwierdzenie. Dla dowolnych stałych â¹^,â²^,...,âⁿ:

) ...

(a₁X₁ a₂X₂ a_nX_n

E    =

) ( ...

) ( )

( ₁ ₂ ₂

1E X a E X anE Xn

a    .

Wniosek. Niech ^E⁽^Xⁱ⁾^ ^^, i = 1,2,..,n, oraz



 ⁿ

i Xi

X n

1

1 .

Wówczas ^E^{( X}⁾ = ^.

D. W stwierdzeniu trzeba przyjąć ^aⁱ ^_n¹, i = 1,2,..,n.

Stwierdzenie. Jeśli ^X¹^,^X²^,...,^Xⁿ są niezależnymi zmiennymi losowymi, to

(9)

Var⁽â¹^X¹^â²^X² ^^...^âⁿ^Xⁿ⁾ =

2

a1 Var(^X¹) + ^a²²Var(^X²) + ... +^aⁿ²Var(^Xⁿ).

W szczególności, jeśli Var(^Xⁱ) = ^² oraz ^aⁱ ^_n¹, i = 1,2,..,n, to

Var(^X) = ^_n².

Przykład. Dokonujemy n jednakowych, niezależnych doświadczeń Bernoulli’ego o prawdopodobieństwie sukcesu p, ⁰^{ p}^¹. Znaleźć wartość oczekiwaną i

wariancję zmiennej losowej ^Sⁿ będącej liczbą sukcesów.

Niech ^Xⁱ ^ 1, gdy sukces w i-tym doświadczeniu,

i 

X 0, gdy porażka w i-tym doświadczeniu. Wówczas

Xn

X

X₁, ₂,..., są niezależnymi zmiennymi losowymi o funkcjach prawdopodobieństwa:

p

f_X_i(1) , ^fXi(0) 1 ^p.

Stąd:

p X

E( _i) , Var(^Xⁱ) = ^p⁽¹^ ^p⁾. Liczba sukcesów =

.

2 ...

1 n

n X X X

S    

) (S_n

E = ^E⁽^X¹^^X²^^...^^Xⁿ⁾ =

) ( ...

) ( )

(X₁ E X₂ E X_n

E    = ^np.

(10)

Var(^Sⁿ) =

Var(^X¹⁾ + Var(^X²⁾ + ... + Var(^Xⁿ⁾ = ^np⁽¹^ ^p⁾

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO

Populacja – zbiorowość elementów badanych ze względu na określoną cechę.

Rozkład populacji = rozkład prawdopodobieństwa cechy = rozkład prawdopodobieństwa zmiennej losowej X - cechy losowo wybranego elementu populacji.

Losujemy n elementów niezależnie i w taki sam sposób ( np. w przypadku skończonej populacji – losowanie ze zwracaniem ). Niech zmienna losowa ^Xⁱ oznacza cechę i-go potencjalnie wylosowanego elementu, ⁱ ^¹^,...,ⁿ^.

Wówczas ^X¹^,^X²^,...,^Xⁿ są niezależnymi zmiennymi losowymi o rozkładzie cechy X .

Definicja. Prostą próbą losową o liczności n nazywamy ciąg niezależnych zmiennych losowych

Xn

X

X₁, ₂,..., określonych na przestrzeni zdarzeń

elementarnych ^S i takich, że każda ze zmiennych ma taki sam rozkład.

Mówimy wówczas, że ^X¹^,^X²^,...,^Xⁿ jest prostą próbą losową z rozkładu ( odpowiednia nazwa rozkładu ).

(11)

Konkretny ciąg wartości ^x¹^,^x²^,...,^xⁿ ( prostej ) próby

losowej ^X¹^,^X²^,...,^Xⁿ nazywamy realizacją ( prostej ) próby losowej lub próbką.

Zadanie statystyki: badanie własności rozkładu cechy X na podstawie obserwacji – próbki.

Np. jak ocenić ^^X na podstawie realizacji prostej próby losowej? W jakim sensie średnia próbkowa ^xjest dobrą oceną ^^X?

Rozkład średniej prostej próby losowej Określenie. Statystyką nazywamy zmienną losową

) ,..., ,

(X₁ X₂ X_n

T będącą funkcją próby losowej ^X¹^,^X²^,...,^Xⁿ. Statystykę

n X X

X  X₁ ₂... ⁿ

= ^_ⁿ

i Xi

n 1

1

nazywamy średnią z próby losowej ^X¹^,^X²^,...,^Xⁿ. Średnia próbkowa ^x = realizacja statystyki ^X. Twierdzenie. ( Prawo wielkich liczb ). Niech

Xn

X

X₁, ₂,..., będzie prostą próbą losową z rozkładu zmiennej losowej X o średniej ^. Wówczas dla dowolnie małej liczby ^ ^⁰

1 ]) ,

[

(X    

P , przy ⁿ^^.

(12)

Stąd średnia z prostej próby losowej jest dobrym

oszacowaniem średniej teoretycznej ( średniej rozkładu cechy populacji ): ^P⁽^X ^^ ^^⁾ bliskie 1, dla dostatecznie dużego n.

Stwierdzenie. Niech ^X¹^,^X²^,...,^Xⁿ będzie prostą próbą losową z rozkładu zmiennej losowej X o średniej ^ i wariancji ^². Wówczas

(a) ^E^{( X}⁾^ ^ , Var(^X ) = ^_n², (b) Jeśli ^X ^~ ^N⁽^^,^⁾, to ^X ^~ ^N⁽^^, ^_n⁾

Zadanie. Załóżmy, że wzrost ( w cm ) w populacji

dorosłych Polaków jest cechą o rozkładzie normalnym o nieznanej wartości średniej ^ ( cm ) i odchyleniu

standardowym ^ = 6,5 ( cm ). Obliczyć

prawdopodobieństwo, że średnia z prostej próby losowej o liczności 100 ( średni wzrost 100 losowo wybranych dorosłych Polaków ) różni się od

prawdziwej wartości ^ o więcej niż 1,5 (cm).

Wiemy, że ^X ^~ ^N⁽^^, ⁶₁₀₀^,⁵ ⁾^ ^N⁽^^,⁰^,⁶⁵⁾.





 1,5) (X 

P P({X  1,5}{X 1,5}) =

) 5 , 1 (X  

P + ^P⁽^X ^^^ ^¹^,⁵⁾ =

= ^P^_^^X₀_,^₆₅^ ^₀¹_,^,₆₅⁵ ^_^ + ^P^_^^X₀_,^₆₅^ ^^₀_,¹₆₅^,⁵^_^ =

(13)

= ^P⁽^Z ^ ²^,³¹⁾^^P⁽^Z ^ ^²^,³¹⁾ = 2^^(²^,³¹⁾ = 2[¹^^⁽²^,³¹⁾] = 0,0208,

gdzie Z ma standardowy rozkład normalny.

Zauważmy, że dla pojedynczej obserwowanej zmiennej mamy





 1,5) (X₁ 

P 2^P⁽^Z ^^⁰^,²³¹⁾ = 0,8180.

( rysunek gęstości średniej )

Twierdzenie. ( CENTRALNE TWIERDZENIE

GRANICZNE = twierdzenie Lindeberga-Levy’ego) Niech ^X¹^,^X²^,...,^Xⁿ będzie prostą próbą losową z rozkładu o średniej ^ i wariancji ^². Wówczas dla dużych

liczności próby n rozkład prawdopodobieństwa standaryzowanej średniej jest bliski standardowemu rozkładowi normalnemu ^N⁽⁰^,¹⁾, dokładniej, dla

dowolnych ^^^^a^^b^^ zachodzi

/ )

( b

n a X

P   



 P(aZ b)(b)(a),

przy ⁿ^^. Równoważnie rozkład średniej ^X jest bliski rozkładowi normalnemu ^N⁽^^,^ ^/ ⁿ⁾.

Uwaga. Przy założeniach centralnego twierdzenia granicznego rozkład prawdopodobieństwa

(14)

standaryzowanej sumy ^Sⁿ^ ^X¹^^X²^^...^^Xⁿ jest w przybliżeniu rozkładem normalnym, tzn.

) ( )

(b a

n b n a S

P ⁿ  



 



  

 

 , przy ⁿ^^.

Równoważnie rozkład ^Sⁿ jest bliski ^N⁽ⁿ^^, ⁿ^⁾. Wystarczy zauważyć:



 



   





 



  

 b

n a X

P n b

n a S

P ⁿ

 /







Uwaga. Przybliżenie na ogół można stosować gdy ⁿ^²⁵.

Wniosek. ( Twierdzenie Moivre’a – Laplace’a) Jeśli ^Sⁿ ^~ ^Bin⁽ⁿ^,^p⁾, to przy ⁿ^^

) ( ) ) (

1

( b b a

p np

np a S

P ⁿ  

 



 



  .

D. ^Sⁿ ^^X¹^^X²^^...^^Xⁿ, gdzie ^X¹^,^X²^,...,^Xⁿ jest prostą próbą losową z rozkładu Bernoulli’ego ^Bin^{( p}¹^, ⁾. Zatem

) 1 (

, ² p p

p  

 

 . Po podstawieniu otrzymujemy tezę.

Uwaga. Przybliżenie można stosować gdy ^np^⁵^,^np⁽¹^ ^p⁾^⁵.

(15)

Przykład. Załóżmy, że rozkład codziennego dojazdu do pracy jest w przybliżeniu rozkładem jednostajnym na przedziale [0,5 godz., 1 godz. ] i że czasy dojazdów w różne dni są niezależne. Obliczyć przybliżone

prawdopodobieństwo zdarzenia, że średni dzienny dojazd w ciągu 30 dni przekroczy 0,8 godz.

Niech ^Xⁱ oznacza czas dojazdu w i-tym dniu , ⁱ ^¹^,²^,...,³⁰.

4 3 2

1 5 , ) 0

(   

E X_i

 , ^² ^^Var⁽^Xⁱ⁾^⁽¹^₁₂⁰^,⁵⁾² ^₄₈¹ .

4 ) 3 (X 

E , ^Var⁽^X⁾^₃₀_¹₄₈

) 8 , 0 (X 

P = ^P⁽ ₁^X_/(₃₀^³_^/₄₈⁴ ₎ ^ ₁⁰^,_/(⁸₃₀^³_^/₄₈⁴₎⁾ 

03 , 0 ) 89 , 1

(Z  

P .

Zadanie. Codzienne opóźnienie pociągu ( w minutach ) na pewnej trasie jest zmienną losową ciągłą o gęstości



 ) 0

( Cx

x

f dla _przeciwnie⁰^ ^x^¹⁰ . a) Wyznaczyć stałą C.

b) Wyznaczyć dystrybuantę^F⁽^x^),^x^⁽^^,^⁾.

c) Obliczyć prawdopodobieństwa ^P⁽^X ^⁵⁾, ^P⁽⁵^{ X} ^⁷⁾. d) Obliczyć wartość oczekiwaną i wariancję

codziennego opóźnienia pociągu.

e) Obliczyć przybliżone prawdopodobieństwo, że łączne opóźnienie pociągu na tej trasie w ciągu 90 dni