Wartość oczekiwana. Kowariancja.
)]
, ( [g X Y
E = x y
y x f y x
g( , ) ( , ),
gdy X, Y są dyskretne,
)]
, ( [g X Y
E = g(x,y)f(x,y)dxdy,
gdy X, Y są ciągłe.
Uwaga. Dla g(X,Y) X lub g(X,Y)Y otrzymujemy
wartości oczekiwane brzegowych zmiennych losowych X lub Y, gdyż
(a) w przypadku dyskretnym
) ( X
E = x y
y x
xf( , ) = x y
y x f
x ( , )=x xfX(x)X .
) (Y
E = x y yf (x, y) = y y x f (x,y)= y yfY(y) Y
(b) w przypadku ciągłym
) ( X
E = xf(x,y)dxdy = xf(x,y)dydx
=xfX(x)dx X . Analogicznie otrzymujemy
dy y yf dxdy
y x yf Y
E( ) ( , ) Y( ) = Y.
Stwierdzenie. Niech c będzie dowolną stałą, a g(X,Y),
) ,
1(X Y
g , g2(X,Y) zmiennymi losowymi jednowymiarowymi. Wówczas
)]
, ( [ ) , (
[cg X Y cE g X Y
E ,
)]
, ( [ )]
, ( [ )]
, ( ) , (
[g1 X Y g2 X Y E g1 X Y E g2 X Y
E .
Stwierdzenie. Jeśli zmienne losowe X, Y są niezależne, to
) ( ) ( )
(XY E X E Y
E .
Definicja. Niech X i Y będą zmiennymi losowymi o łącznej funkcji prawdopodobieństwa ( gęstości ) f(x, y). Kowariancją zmiennych X i Y nazywamy liczbę:
)]
)(
[( X Y
XY E X Y
.
Stąd: XY x y (xX)(yY)f(x,y),
gdy X, Y są dyskretne XY (xX)(yY)f(x,y)dxdy,
gdy X, Y są ciągłe.
Notacja: Zamiast XY często piszemy Cov (X,Y).
Stwierdzenie. Cov(X,Y) = E(XY)XY.
Twierdzenie. Jeśli zmienne losowe X i Y są niezależne, to
Cov(X,Y) = 0.
Uwaga. Twierdzenie odwrotne nie jest na ogół prawdziwe.
Twierdzenie. Dla dowolnych stałych a, b Var(aX bY) =
a2Var(X) + b2Var(Y) + 2abCov(X,Y).
Wniosek. Jeśli zmienne losowe X i Y są niezależne, to
Var(aX bY) = a2Var(X) + b2Var(Y).
Definicja. Współczynnikiem korelacji między zmiennymi losowymi X i Y nazywamy liczbę:
) ( ) (
) , (
Y Var X Var
Y X
Cov
.
Zadanie. Zmienna losowa (X,Y) ma rozkład ciągły o gęstości
) 0 ,
( Cy
y x
f dla 0przeciwniexy1. a) Wyznaczyć stałą C.
b) Obliczyć kowariancję pomiędzy zmiennymi X, Y.
c) Czy zmienne losowe X, Y są niezależne ? a) f(x,y)dxdy = 1
0 1 x
Cydy
dx = C 1
0
2 1
2
/ dx
y x =
= C
1
0
2
2 2
1 x dx
= C ( 1/2 - 1/6 ) = 1. Stąd C = 3.
b) E( X) xf (x, y)dxdy = 1
0
13
x
ydy
xdx =
= 3 1
0
2 1
2
/ dx
y x
x = 3
1
0
3
2 2x x dx
= 3 x42 x8401 = = 3/8
) (Y
E = yf (x, y)dxdy = 1
0
13 2 x
dy y
dx =
= 3 1031 x33dx = x x4401 = 1 – 1/4 = 3/4
) ( XY
E = xyf(x, y)dxdy = 1
0
13 2 x
dy y
xdx =
= 3 1x
y 1xdx0
3 = 31
0
3) 1
( x dx
x = 3( 0
)1 5 / 2
/ 5
2 x
x =
= 0,9
Cov(X,Y) = 0,9 – (3/8)(3/4) = 99/160.
(c) Cov(X,Y) 0, więc zmienne nie są niezależne, tzn. są zależne.
Własności współczynnika korelacji (i) 1 1
(ii) Jeśli a i b są stałymi, oraz jeśli Y = a + bX,
to
11 gdy bb00
(iii) Jeśli 1, to między zmiennymi losowymi X, Y istnieje liniowa zależność funkcyjna.
(iv) Jeśli zmienne losowe X i Y są niezależne, to 0.
Interpretacja. Współczynnik korelacji jest miarą zależności liniowej między zmiennymi losowymi.
Dwuwymiarowy rozkład normalny Zmienna losowa (X,Y) ma dwuwymiarowy rozkład normalny, jeśli ma gęstość postaci:
Y X
y x
f 2
) 1 ,
( exp2(112)q(x,y) , gdzie
2 2 2
2 ( )( ) ( )
) 2 ) (
, (
y Y Y
X
Y X
X
X x y y
y x x
q
,
,
x y, stałe X,Y, spełniają warunki X >
0, Y > 0,
1
1.Notacja: (X,Y)~N(X,Y,X,Y,)
Twierdzenie. Jeśli (X,Y)~N(X,Y,X,Y,), to (i) X ~ N(X,X), Y ~ N(Y,Y).
(ii) Cov(X,Y) = .
(iii) X, Y są niezależne wtedy i tylko wtedy gdy = 0.
Twierdzenie. Zmienna losowa (X,Y) ma
dwuwymiarowy rozkład normalny wtedy i tylko wtedy gdy zmienna losowa aX + bY ma rozkład normalny, a, b są dowolnymi stałymi.
Zadanie. Niech zmienna losowa X oznacza dzienną wartość sprzedaży ( w 100 zł. ) dyskietek a zmienna losowa Y dzienną wartość sprzedaży papieru
kserograficznego ( w 100 zł.). Wiadomo, że
dwuwymiarowa zmienna losowa (X,Y) ma rozkład
normalny o parametrach: X 5, Y 6, X 0,5, Y 0,2 0,1. (a) Obliczyć wartość średnią oraz wariancję łącznej wartości sprzedaży w ciągu 10 dni, jeśli wartości sprzedaży obu artykułów w kolejnych dniach są
niezależnymi zmiennymi losowymi o rozkładach takich jak rozkład zmiennej (X,Y). (b) Obliczyć
prawdopodobieństwo, że łączna wartość sprzedaży w ciągu 10 dni przekroczy 10000 zł.
(a) Łączna wartość sprzedaży:
) (
...
)
( 1 1 10 10
10 X Y X Y
S .
110 ) 6 5 ( 10 )]
( ) ( [ 10 )
(S10 E X E Y
E (100 zł.)
Średnia łączna wartość sprzedaży to 11000 zł.
Var(S10) = 10Var(X +Y) = 10[Var(X) + Var(Y) + 2Cov(X,Y)] = 10(0,520,2220,10,50,2) =
= 30 (1002 zł. ).
(b) S10 ~ N(110, 30). Zatem po standaryzacji S1030110~ N(0,1), skąd
) 100 (S10
P = PS103011010030110 =
) 8257 , 1 (Z
P = 1(1,8257) = 1 – [1 -(1,8257)] = 0,966.
CIĄGI ZMIENNYCH LOSOWYCH Niech X1,X2,...,Xn będą zmiennymi losowymi określonymi na tej samej przestrzeni zdarzeń elementarnych S.
) ,..., ,
(x1 x2 xn
F = P(X1 x1,X2 x2,...,Xn xn) =
dystrybuanta wektora losowego (X1,X2,...,Xn).
) ,..., ,
(x1 x2 xn
f = funkcja prawdopodobieństwa łącznego lub funkcja gęstości łącznej wektora losowego (X1,X2,...,Xn).
Definicja. Zmienne losowe X1,X2,...,Xn są niezależne, jeśli
) ,..., ,
(x1 x2 xn
F = FX1(x1)FX2(x2)...FXn(xn), gdzie FXi(xi)P(Xi xi), i = 1,2,...,n.
Definicja.
)]
, , , , , (
[g X1 X2 Xn
E =
1 2
) ,..., , ( ) ,..., ,
(
... 1 2 1 2
x x x n n
n
x x x f x x
x
g ,
lub
g(x ,x ,...,xn)f(x ,x ,...,xn)dx dx ...dxn
... 1 2 1 2 1 2 .
Stwierdzenie. Dla dowolnych stałych a1,a2,...,an:
) ...
(a1X1 a2X2 anXn
E =
) ( ...
) ( )
( 1 2 2
1E X a E X anE Xn
a .
Wniosek. Niech E(Xi) , i = 1,2,..,n, oraz
n
i Xi
X n
1
1 .
Wówczas E( X) = .
D. W stwierdzeniu trzeba przyjąć ai n1, i = 1,2,..,n.
Stwierdzenie. Jeśli X1,X2,...,Xn są niezależnymi zmiennymi losowymi, to
Var(a1X1a2X2 ...anXn) =
2
a1 Var(X1) + a22Var(X2) + ... +an2Var(Xn).
W szczególności, jeśli Var(Xi) = 2 oraz ai n1, i = 1,2,..,n, to
Var(X) = n2.
Przykład. Dokonujemy n jednakowych, niezależnych doświadczeń Bernoulli’ego o prawdopodobieństwie sukcesu p, 0 p1. Znaleźć wartość oczekiwaną i
wariancję zmiennej losowej Sn będącej liczbą sukcesów.
Niech Xi 1, gdy sukces w i-tym doświadczeniu,
i
X 0, gdy porażka w i-tym doświadczeniu. Wówczas
Xn
X
X1, 2,..., są niezależnymi zmiennymi losowymi o funkcjach prawdopodobieństwa:
p
fXi(1) , fXi(0) 1 p.
Stąd:
p X
E( i) , Var(Xi) = p(1 p). Liczba sukcesów =
.
2 ...
1 n
n X X X
S
) (Sn
E = E(X1X2...Xn) =
) ( ...
) ( )
(X1 E X2 E Xn
E = np.
Var(Sn) =
Var(X1) + Var(X2) + ... + Var(Xn) = np(1 p)
PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO
Populacja – zbiorowość elementów badanych ze względu na określoną cechę.
Rozkład populacji = rozkład prawdopodobieństwa cechy = rozkład prawdopodobieństwa zmiennej losowej X - cechy losowo wybranego elementu populacji.
Losujemy n elementów niezależnie i w taki sam sposób ( np. w przypadku skończonej populacji – losowanie ze zwracaniem ). Niech zmienna losowa Xi oznacza cechę i-go potencjalnie wylosowanego elementu, i 1,...,n.
Wówczas X1,X2,...,Xn są niezależnymi zmiennymi losowymi o rozkładzie cechy X .
Definicja. Prostą próbą losową o liczności n nazywamy ciąg niezależnych zmiennych losowych
Xn
X
X1, 2,..., określonych na przestrzeni zdarzeń
elementarnych S i takich, że każda ze zmiennych ma taki sam rozkład.
Mówimy wówczas, że X1,X2,...,Xn jest prostą próbą losową z rozkładu ( odpowiednia nazwa rozkładu ).
Konkretny ciąg wartości x1,x2,...,xn ( prostej ) próby
losowej X1,X2,...,Xn nazywamy realizacją ( prostej ) próby losowej lub próbką.
Zadanie statystyki: badanie własności rozkładu cechy X na podstawie obserwacji – próbki.
Np. jak ocenić X na podstawie realizacji prostej próby losowej? W jakim sensie średnia próbkowa xjest dobrą oceną X?
Rozkład średniej prostej próby losowej Określenie. Statystyką nazywamy zmienną losową
) ,..., ,
(X1 X2 Xn
T będącą funkcją próby losowej X1,X2,...,Xn. Statystykę
n X X
X X1 2... n
= n
i Xi
n 1
1
nazywamy średnią z próby losowej X1,X2,...,Xn. Średnia próbkowa x = realizacja statystyki X. Twierdzenie. ( Prawo wielkich liczb ). Niech
Xn
X
X1, 2,..., będzie prostą próbą losową z rozkładu zmiennej losowej X o średniej . Wówczas dla dowolnie małej liczby 0
1 ]) ,
[
(X
P , przy n.
Stąd średnia z prostej próby losowej jest dobrym
oszacowaniem średniej teoretycznej ( średniej rozkładu cechy populacji ): P(X ) bliskie 1, dla dostatecznie dużego n.
Stwierdzenie. Niech X1,X2,...,Xn będzie prostą próbą losową z rozkładu zmiennej losowej X o średniej i wariancji 2. Wówczas
(a) E( X) , Var(X ) = n2, (b) Jeśli X ~ N(,), to X ~ N(, n)
Zadanie. Załóżmy, że wzrost ( w cm ) w populacji
dorosłych Polaków jest cechą o rozkładzie normalnym o nieznanej wartości średniej ( cm ) i odchyleniu
standardowym = 6,5 ( cm ). Obliczyć
prawdopodobieństwo, że średnia z prostej próby losowej o liczności 100 ( średni wzrost 100 losowo wybranych dorosłych Polaków ) różni się od
prawdziwej wartości o więcej niż 1,5 (cm).
Wiemy, że X ~ N(, 6100,5 ) N(,0,65).
1,5) (X
P P({X 1,5}{X 1,5}) =
) 5 , 1 (X
P + P(X 1,5) =
= PX0,65 01,,655 + PX0,65 0,165,5 =
= P(Z 2,31)P(Z 2,31) = 2(2,31) = 2[1(2,31)] = 0,0208,
gdzie Z ma standardowy rozkład normalny.
Zauważmy, że dla pojedynczej obserwowanej zmiennej mamy
1,5) (X1
P 2P(Z 0,231) = 0,8180.
( rysunek gęstości średniej )
Twierdzenie. ( CENTRALNE TWIERDZENIE
GRANICZNE = twierdzenie Lindeberga-Levy’ego) Niech X1,X2,...,Xn będzie prostą próbą losową z rozkładu o średniej i wariancji 2. Wówczas dla dużych
liczności próby n rozkład prawdopodobieństwa standaryzowanej średniej jest bliski standardowemu rozkładowi normalnemu N(0,1), dokładniej, dla
dowolnych ab zachodzi
/ )
( b
n a X
P
P(aZ b)(b)(a),
przy n. Równoważnie rozkład średniej X jest bliski rozkładowi normalnemu N(, / n).
Uwaga. Przy założeniach centralnego twierdzenia granicznego rozkład prawdopodobieństwa
standaryzowanej sumy Sn X1X2...Xn jest w przybliżeniu rozkładem normalnym, tzn.
) ( )
(b a
n b n a S
P n
, przy n.
Równoważnie rozkład Sn jest bliski N(n, n). Wystarczy zauważyć:
b
n a X
P n b
n a S
P n
/
Uwaga. Przybliżenie na ogół można stosować gdy n25.
Wniosek. ( Twierdzenie Moivre’a – Laplace’a) Jeśli Sn ~ Bin(n,p), to przy n
) ( ) ) (
1
( b b a
p np
np a S
P n
.
D. Sn X1X2...Xn, gdzie X1,X2,...,Xn jest prostą próbą losową z rozkładu Bernoulli’ego Bin( p1, ). Zatem
) 1 (
, 2 p p
p
. Po podstawieniu otrzymujemy tezę.
Uwaga. Przybliżenie można stosować gdy np5,np(1 p)5.
Przykład. Załóżmy, że rozkład codziennego dojazdu do pracy jest w przybliżeniu rozkładem jednostajnym na przedziale [0,5 godz., 1 godz. ] i że czasy dojazdów w różne dni są niezależne. Obliczyć przybliżone
prawdopodobieństwo zdarzenia, że średni dzienny dojazd w ciągu 30 dni przekroczy 0,8 godz.
Niech Xi oznacza czas dojazdu w i-tym dniu , i 1,2,...,30.
4 3 2
1 5 , ) 0
(
E Xi
, 2 Var(Xi)(1120,5)2 481 .
4 ) 3 (X
E , Var(X)30148
) 8 , 0 (X
P = P( 1X/(303/484 ) 10,/(8303/484))
03 , 0 ) 89 , 1
(Z
P .
Zadanie. Codzienne opóźnienie pociągu ( w minutach ) na pewnej trasie jest zmienną losową ciągłą o gęstości
) 0
( Cx
x
f dla przeciwnie0 x10 . a) Wyznaczyć stałą C.
b) Wyznaczyć dystrybuantęF(x),x(,).
c) Obliczyć prawdopodobieństwa P(X 5), P(5 X 7). d) Obliczyć wartość oczekiwaną i wariancję
codziennego opóźnienia pociągu.
e) Obliczyć przybliżone prawdopodobieństwo, że łączne opóźnienie pociągu na tej trasie w ciągu 90 dni