• Nie Znaleziono Wyników

Rozdział 3 WIELKOŚCI CHARAKTERYSTYCZNE ZMIENNEJ LOSOWEJ

N/A
N/A
Protected

Academic year: 2021

Share "Rozdział 3 WIELKOŚCI CHARAKTERYSTYCZNE ZMIENNEJ LOSOWEJ"

Copied!
39
0
0

Pełen tekst

(1)

Rozdział 3 WIELKOŚCI CHARAKTERYSTYCZNE ZMIENNEJ LOSOWEJ

Znajomość funkcji rozkładu prawdopodobieństwa danej zmiennej losowej X (dyskretnej, ciągłej lub mieszanej, jedno- lub wielowymiarowej) stanowi maksimum probabilistycznej informacji o tej zmiennej. W praktyce istotną rolę odgrywają jednak pewne liczby oraz (w przypadku wielowymiarowym) pewne funkcje charakteryzujące rozkład – tzw. wielkości charakterystyczne zmiennej losowej. (Stosowane są też nazwy: charakterystyki zmiennej losowej, parametry (rozkładu) zmiennej losowej).

Wielkości te niosą pewną zwartą informację o rozkładzie prawdopodobieństwa danej zmiennej losowej i są niezwykle ważne w statystyce matematycznej. Często są one jedyną żądaną (a czasami jedyną posiadaną) informacją o badanej zmiennej losowej X. Wielkości te to między innymi wartość średnia, odchylenie standardowe (są to liczby), czy krzywa regresji dwu zmiennych X i Y (ta z kolei jest funkcją). Ich główna rola polega na tym, że podają one w skondensowanej postaci informacje o zmiennej czy zmiennych.

3.1 3.1 3.1

3.1 JEDNOWYMIAROWA ZMIENNA LOSOWA JEDNOWYMIAROWA ZMIENNA LOSOWA JEDNOWYMIAROWA ZMIENNA LOSOWA JEDNOWYMIAROWA ZMIENNA LOSOWA

Dla jednowymiarowej zmiennej losowej definiuje się wiele wielkości charakterystycznych. Wszystkie one są one liczbami. Najważniejsze z nich to wartość oczekiwana (albo wartość średnia), wariancja oraz odchylenie standardowe zmiennej.

3.1.1 Miary położenia zmiennej losowej X: wartość oczekiwana EX, moda Mo(X), mediana Me(X) i inne kwantyle

Wartość oczekiwana EX. Jest to jedna z najważniejszych charakterystyk zmiennej losowej X. Najczęstsze oznaczenia: E(X), EX lub µ. Wzór definicyjny ma postać następującą

(2)

-

P( ) ( . )

E

( ) ( . )

i i

def i

x X x zm skokowa X

x f x dx zm ciągla

 ⋅ =

=

 ⋅ ⋅



(3.1)

EX można interpretować, jako taką liczbę, wokół której skupiają się wyniki wielokrotnie wykonywanego doświadczenia polegającego na losowaniu (wybieraniu) liczby – realizacji zmiennej X – z rozkładu P(X=xi) lub f(x). Jest to więc pewna typowa wartość, charakterystyczna dla konkretnego rozkładu danej zmiennej.

Przykład 3.1. Ilustracja pojęcia wartość średnia Wykonano dwa doświadczenia losowe polegające na losowaniu 50 realizacji x1i i x2i, i=1,2,...,50, (tzw. prób losowych) dwu zmiennych losowych X1 i X2 o funkcjach gęstości

odpowiednio f1(x) i f2(x). Realizacje te są pokazane na rys. 3.1 jako pionowe kreseczki na osi x.

W przypadku gęstości f1(x) widać wyraźnie jedno centrum utworzone przez dużą liczbę punktów i tutaj stwierdzenie, że wyniki doświadczenia losowego skupiają się wokół wartości średniej jest uzasadnione. Inaczej jest w przypadku gęstości f2(x) – wyniki doświadczenia losowego wskazują na więcej niż jedno centrum skupienia punktów (teoretycznie powinny być dwa, bo f2(x) ma dwa maksima).

f

1

(x) f

2

(x)

EX=4

EX=4

Rys. 3.1. W obu przypadkach wartość średnia EX=4, jednak sposób, w jaki losowane wartości skupiają się wokół EX, jest zdecydowanie inny

Przykład 3.1 pokazuje, że wartość średnia nie zawsze jest dobrą miarą położenia zmiennej X i w przypadku rozkładów z wieloma maksimami jej przydatność jest ograniczona. I chociaż używane są czasami inne miary, takie jak np. mediana, to jednak wartość średnia pozostaje najpowszechniejszą charakterystyką zmiennej losowej.

Przykład 3.2. Obliczanie wartości średniej dyskretnej zmiennej losowej X Niech dyskretna zmienna losowa X ma rozkład prawdopodobieństwa o gęstości danej

(3)

wzorem:

P( ) 1 dla 1, 2,..., 6

X =x =6 x= (3.2)

Jak wiemy rozkład ten stosuje się m.in. do idealnej kostki sześciennej. Z górnego wzoru mamy dla zadanego rozkładu P(X=x):

6

1

1 1 2 3 4 5 6 21

E 3.5

6 6 6

x

X x

=

+ + + + +

=

⋅ = = = (3.3)

Zwróćmy uwagę na fakt, że P(X=EX) = 0, czyli zdarzenie polegające na otrzymaniu średniej liczby oczek, jakie można otrzymać w pojedynczym rzucie kostką, jest zdarzeniem niemożliwym.

Jak widać z przykładu 3.2, EX dla zmiennej dyskretnej może być (i zdarza się to często) wartością, którą zmienna przyjmuje z prawdopodobieństwem zero, co nie oznacza, iż wielkość EX jest pozbawiona znaczenia.

Przykład 3.3. Obliczanie wartości średniej ciągłej zmiennej losowej X Niech ciągła zmienna losowa X ma rozkład prawdopodobieństwa o gęstości danej wzorem

0 dla (0, 2) ( ) / dla 2

(2 ) /(2 ) dla 0< 2 x

f x x a x a

x a a x

 ∉

= ≤ ≤

 − − ≤ ≤

(3.4)

(zob. rys. 3.2, gdzie a=1.5):

Ze wzoru (3.1) mamy dla zadanego wzorem (3.4) rozkładu fX(x):

2

0

3 2 3 2

0

2 2

2

E ( )

2 2

1 2

3 2 2 3

4 (3 )

3 3(2 )

4 2

3(2 ) 3

a

a a

a

X xf x dx

x x

x dx x dx

a a

x x x

a a

a a a

a

a a

a

−∞

=

= + −

 

= +  − 

−  

− −

= +

− + +

= =

∫ ∫

(3.5) Rys. 3.2. Trójkątny rozkład prawdopodobieństwa i jego niektóre charakterystyki (wykres dla a = 1.5). Znaczenie wielkości Me i Mo zostanie wyjaśnione dalej.

(4)

Fizyczna interpretacja wartości EX. W przypadku dyskretnym liczba EX może być interpretowana jako środek ciężkości mas mi=P(X=xi) rozłożonych na osi x w punktach xi (zob. r), a w przypadku ciągłym jako środek ciężkości masy znajdującej się na osi x o gęstości rozłożonej w sposób ciągły według funkcji f(x).

Ważna uwaga dotycząca postaci zapisu E(X). Pomimo stosowanego zapisu E(X), wielkość ta nie jest funkcją zmiennej X, gdyż we wzorze definicyjnym pojawiają się wszystkie wartości x zmiennej X na raz! Uwaga ta dotyczy również innych charak- terystyk zmiennej losowej – należy mieć to na uwadze, aby uniknąć nieporozumień.

Definicja wartości oczekiwanej E[g(X)] dowolnej funkcji g(X) zmiennej losowej X. Analogicznie do definiowana jest wartość oczekiwana E[g(X)] funkcji g(X):

[ ]

-

( ) P( ) ( . )

E ( )

( ) ( ) ( . )

i i

def i

g x X x zm skokowa g X

g x f x dx zm ciągla

 ⋅ =

=

 ⋅ ⋅



(3.6)

Z definicji tej wynikają następujące własności wartości oczekiwanej, łatwe do sprawdzenia na drodze bezpośrednich rachunków:

1. E( )

2. E( ) E( ) 3. E( ) E( ) 4. E( E ) 0

5. E ( )k k E( k) c c

X c X c

cX c X

X X

cX c X

=

+ = +

= ⋅

− =

  = ⋅

 

(3.7)

Miara położenia. Wartość oczeki- wana EX należy do pewnej grupy charak- terystyk liczbowych zmiennej losowej X zwanej charakterystyką pozycyjną lub miarą położenia zmiennej X. Są to takie wartości zmiennej X, które niosą pewną informacją o położeniu zmiennej na osi x i z tego powodu są użyteczne. Na rys. 3.3 zilustrowano trzy takie charakterystyki:

znaną już wartość średnią oraz dwie nowe: wartość modalną MoX oraz medianę MeX zwaną też wartością środkową. Mediana należy do pewnej szerszej podgrupy charakterystyk położenia, tzw. kwantyli. Wszystkie miary położenia posiadają taką własność, że przesunięcie całego rozkładu f(x)

Rys. 3.3. Jeśli wyobrazimy sobie, że w punktach 0,1,...,6 na osi x położone są masy proporcjo- nalne do wysokości narysowanych słupków, to taki układ pozostanie w równowadze (nie przechyli się w żadną stronę) jeśli podeprzemy go w punkcie EX

EX

(5)

wzdłuż osi x o wartość a powoduje zmianę każdej z nich o tę wartość (rys. 3.5).

f(x)

EX

x

P(X>MeX) = P(X<MeX)=2 f(MoX) = max

MoX MeX

2 2 2

2 2 2 2 2

Rys. 3.4. Podstawowe charakterystyki pozycyjne zmiennej losowej X: moda MoX, mediana MeX i średnia EX

a

X’ = X + a EX’ = EX+a MoX’ = MoX+a MeX’ = MeX+a

f

X’

(x)

=

f

X

(x-a) f

X

(x)

x

Rys. 3.5. Charakterystyki pozycyjne zmiennej losowej X zmieniają swoją wartość o wartość przesunięcia a

Moda (MoX) – zwana też wartością najbardziej prawdopodobną, wartością modalną lub dominantą zmiennej losowej X – jest z definicji taką wartością zmien- nej losowej X, że P(X=MoX) = max (w przypadku zmiennej dyskretnej) albo f(MoX) = max (w przypadku zmiennej ciągłej). Zwykle, zarówno w praktyce, jak i w teorii, rozpatruje się rozkłady jednomodalne, takie jak na rys. 3.4. Rys. 3.6 zawiera przy- kłady rozkładów wielomodalnych : trzy mody

rozkładu dyskretnego to wartości MoX = 4, 7 i 10;

a dwie mody rozkładu ciągłego – wartości 1 i 5.

Gdy P(X=xk) = const dla każdego k albo f(x) = const > 0 w pewnym przedziale na osi x i f(x) = 0 poza nim (tzw. rozkład jednostajny lub równo- mierny), to powiadamy, że w tym przypadku wartość modalna nie istnieje.

Może też zdarzyć się, że istnieje cały przedział wartości spełniających podaną powyżej definicję lub też że istnieje kilka oddzielnych wartości modalnych.

Rozkłady wielomodalne są stosowane zdecy- dowanie rzadziej niż rozkłady jednomodalne.

Istnieją dwa główne powody tego faktu: teore- tyczny i empiryczny. Teoria jednomodalnych roz- kładów prawdopodobieństwa jest – w odróż-

nieniu od teorii rozkładów wielomodalnych – szeroko rozwinięta, ich stosowanie jest też łatwiejsze. Powód empiryczny stosowania rozkładów jednomodalnych wynika zwykle z ograniczonej liczby danych, które nie pozwalają na wyraźne stwierdzenie, czy

moda 1

moda 2 moda 1moda 2 moda 3

Rys. 3.6. Trójmodalny rozkład dyskret- ny i dwumodalny rozkład ciągły

(6)

istnieje wiele mód, czy nie. Nawet jeśli liczba danych jest duża, brak jest przystępnych metod rozpoznania modalności rozkładu.

Kwantyl xp rzędu p. Jest to wielkość określona przez pewną wartość zmiennej losowej X związana z prawdopodobieństwem nieprze- wyższenia lub przewyższenia. Istnieją więc dwie nierównoważne definicje kwantyla ((3.8) lub (3.9)). Rys. 3.7 wyjaśnia dlaczego tak się dzieje:

każda wartość x zmiennej losowej X dzieli oś x na dwa przedziały. Z każdym z nich możemy związać określone prawdopodobieństwo. Na przykład, wartość x0=5 na górnym rys. 3.7. dzieli rozkład prawdopodobieństwa w ten sposób, że przedzia- łowi X < 5 odpowiada prawdopodobieństwo p = P(X < 5) = 0.75, a przedziałowi X $ 5 – prawdo- podobieństwo p = P(X$5) = 0.25. Jednakże poja- wienie się wartości x0=5 jest zdarzeniem niemoż- liwym, dlatego kwantylem xp jest wartość 5.26.

Nieco inaczej jest na dolnym rys. 3.7, gdzie war- tość xp = 0.52 jest jednoznacznie związana z p.

Definicje kwantyla. Niech F(x) ozna- cza dystrybuantę zmiennej losowej X, p(x) –

funkcję prawdopodobieństwa przewyższenia tej zmiennej, a p niech będzie dowolną liczbą (prawdopodobieństwem) z otwartego przedziału (0,1): 0 < p < 1.

Kwantyl xp jest taką wartością x zmiennej losowej X, która spełnia jedną (i tylko jedną!) z dwu następujących podwójnych nierówności:

Definicja 1 Definicja 2

( p)≤ ≤ ( +p)

F x p F x (3.8) p x( p)≥ pp x( +p) (3.9)

gdzie xp+ oznacza punkt xp osiągany z prawej strony przez funkcje F i p (granica prawostronna). Nierówności powyższe można też zapisać nieco inaczej:

Definicja 1 Definicja 2

P(X <xp)≤ p≤P(Xxp) (3.10) P(Xxp)≥ p≥P(X >xp) (3.11) W przypadku ciągłej zmiennej X o gęstości f(x) nierówności powyższe stają się równościami i dostajemy prostszy zapis:

Definicja 1 Definicja 2

( ) ( )

−∞

=

p =

x

F xp f x dx p (3.12) ( ) ( )

=

=

p

p x

p x f x dx p (3.13)

x

p

=0.52

0.7

x

0

=5

0.75 0.25

0.3

x

p

=5.26

Rys. 3.7. Wielkość xp dzieli oś x na dwa prze- działy, które można związać z dwoma dopeł- niającymi się do jedności prawdopodobieńst- wami. Podział na rysunku górnym nie jest jednoznaczny: każda z wartości pomiędzy 4.07 a 5.26 daje identyczny podział.

(7)

Obie definicje kwantyla są powszechnie stosowane, dlatego – jeśli nie jest to wyraźnie powiedziane – należy zwrócić uwagę na

to, która definicja ma w danym przypadku zastosowanie.

Jeśli istnieje więcej niż jedna wartość spełniająca przyjętą definicję kwantyla, to każda z nich może zostać nazwana kwantylem xp. Jak pokazuje rys. 3.8 taka sytuacja zdarza się, gdy cała dystrybuanta lub jej część jest funkcją schodkową. Należy jednak pamię- tać, że dodatkowym warunkiem uznania za kwantyl jest to, czy

wartość taka należy do zbioru możliwych wyników doświadczenia loso- wego. Podobna sytuacja pokazana jest na rys. 3.7. Na przykład, każda wartość z prawostronnie domkniętego przedziału (4.07, 5.26] wydaje się być kwantylem 75%

albo 25% ale tylko 5.26 jest wartością możliwą i ona jest kwantylem xp. Gdy rozkład prawdopodobieństwa jest ciągły, niejednoznaczność znika (por. dolny wykres na rys.

3.7).

f(x)

F(x)

x

x

25%

50%

75%

Rys. 3.9. Kwartyle x25%, x50%, x75% w rozkładzie normalnym N(0,1)

f(x)

F(x)

x

x

Rys. 3.10.Decyle x10%, x20%,..., x90% w rozkładzie normalnym N(0,1)

Niektóre z kwantyli noszą specjalne nazwy. I tak, gdy p jest wielokrotnością liczby 1/4, to wtedy kwantyle xp noszą nazwę kwartyli (rys. 3.9), gdy są wielokrotnością liczby 1/10 – zwane są decylami (rys. 3.2), a gdy są wielokrotnością 1/100 nazywa się je percentylami.

F(x)

x

Każda z liczb tego przedziału może zostać uznana za

kwantyl x0.4 Liczba 1.2 jest

kwantylem xp

dla każdego p 000 [0.65,0.7)0 :

(xp=1.2 dla p 000 [0.65,0.7))0

Rys. 3.8. Kwantylem x0.4 jest prawostronna granica przedziału wskazanego poziomymi strzałkami.

(8)

Mediana MeX. Obie definicje kwantyla xp stają się równoważne w przypadku, gdy p=1/2. Kwantyl ten (oznaczany symbolami x1/2 lub x0.5 lub Me(X) lub MeX) zwany jest medianą lub wartością środkową.

1 / 2

1 / 2

( ) ( ) 1 2

x

x

f x dx f x dx

−∞

−∞

= =

∫ ∫

(3.14)

Każdy rozkład ma co najmniej jedną medianę; natomiast wartość oczekiwana nie zawsze istnieje.

Przykład 3.4. Charakterystyki położenia zmiennej losowej X: moda i mediana Niech ciągła zmienna losowa X ma rozkład prawdopo-

dobieństwa o gęstości danej wzorem (zob. rys. 3.2). Z rys.

3.2 i definicji wartości modalnej jako takiej wartości zmiennej losowej, dla której funkcja gęstości przyjmuje maksimum, mamy:

( )

Mo X = a (3.15)

Wartość środkowa (mediana), Me. Dla a>1 mamy:

( )

1 2 1

( ) 2 2 2

Me Me

x Me

f x dx dx Me a

a a

−∞ −∞

   

= ⇔ = = ⇒ =

   

 

(3.16)

3.1.2 Miary rozproszenia (skupienia): wariancja varX, odchylenie standardowe DX i współczynnik zmienności CV (X) zmiennej losowej X

W poprzednim podrozdziale omawiane były charakterystyki położenia zmiennej losowej X zawierające określoną informację o położeniu zmiennej. Nie jest to jednak charakterystyka wystarczająca do w miarę pełnego opisu badanej zmiennej. Istotna jest bowiem nie tylko informacja o po-

łożeniu, ale również informacja o tym, jak zmienna losowa jest skupiona w swoim obszarze zmienności. Charakterystyki tego dotyczące to również liczby, ale tym razem nie będą związane one z wartością zmiennej lecz z przedziałem wartości. Najczęściej stosowane charakterystyki podające taką informację to wariancja i odchylenie standardowe zmiennej losowej X.

Wariancja. Wariancja najczęściej oz- naczana jest symbolami D2(X), D2X, σ2X , σ2, var(X), varX, V(X), a także, w niektó- rych podręcznikach, mylącym symbolem D(X).

F=3 F=2 F=1

µ=0 f(x)

x

Rys. 3.11. Im rozproszenie zmiennej X jest większe, tym większa jest wariancja σ2 i bar- dziej płaska jest funkcja gęstości

(9)

Definicja. Wariancja D2(X) zmiennej X jest taką liczbą, która spełnia następujące równanie:

2 2

D ( ) var E ( E )

def

XX =  XX  (3.17)

Jeśli różnicę X-EX nazwiemy odchyleniem zmiennej losowej X od jej wartości oczekiwanej (używane jest też nieco mylące określenie błąd), to wariancja jest średnim kwadratem tego odchylenia (średnim błędem kwadratowym). Wielkość ta jest miarą rozproszenia (lub miarą rozrzutu) wartości zmiennej losowej X wokół wartości średniej EX: im większa wariancja, tym rozkład jest słabiej skupiony wokół wartości średniej. W tym sensie wariancję można również traktować jako miarę skupienia zmiennej losowej X wokół wartości oczekiwanej.

Jawna postać definicji wariancji. Używając wzoru na E[g(X)], gdzie g(X) = X-EX, możemy napisać jawną postać definicji :

2

2

-

( E ) P( ) ( . )

var

( E ) ( ) ( . )

i i

def i

x X X x zm skokowa X

x X f x dx zm ciągla

 − ⋅ =

=

 − ⋅ ⋅



(3.18)

Bardzo praktyczny wzór. Dobrze jest pamiętać jeszcze jeden wzór na wariancję, bardzo przydatny w obliczeniach, a łatwy do wyprowadzenia z definicji :

2 2 2

( ) E( ) (E )

D X = XX (3.19)

Własności wariancji. Korzystając z równania definicyjnego lub jego postaci równoważnych bądź nietrudno sprawdzić, że wariancja posiada, między innymi, następujące własności:

2

1. var( ) 0 2. var( ) 0

3. var( ) var( ) 4. var( ) var( )

X c

X c X

cX c X

=

+ =

= ⋅

(3.20)

Ważna własność wartości oczekiwanej EX. Następujące rozumowanie pokaże ważny związek pomiędzy wartością oczekiwaną a wariancją. Utwórzmy mianowicie pewną funkcję g(c):

( ) E( )2

g c = Xc (3.21)

i zapytajmy dla jakiej wartości c funkcja ta osiąga minimum. Funkcja g(c) jest średnim odchyleniem kwadratowym zmiennej losowej X od punktu c. (Używane jest też określenie średni błąd kwadratowy). Mamy:

2 2 2 2

( ) E( 2 ) E( ) 2 min

g c = XcX +c = XcX +c = (3.22)

Po około 3 sekundach rachunków dostajemy pochodną g'(c):

( ) 2E( ) 2

g c′ = − X + c (3.23)

(10)

Przyrównanie jej do zera daje odpowiedź:

E( )

c= X (3.24)

A więc wartość oczekiwana jest taką wartością zmiennej losowej X, która minimalizuje średnie odchylenie kwadratowe tej zmiennej. Wyrażając to matematycznie: wariancja var(X) ma następującą własność

varX ≤E(Xc) (2 ∀ ∈c R ) (3.25) gdzie równość zachodzi tylko wtedy, gdy c = E(X). Możemy więc mówić o wariancji jako o minimalnym średnim błędzie kwadratowym.

Odchylenie standardowe. Pojęciem ściśle związanym z wariancją jest pier- wiastek kwadratowy z wariancji nazywany odchyleniem standardowym zmiennej X:

D D ( )2

def

X =σ = X (3.26)

Odchylenie standardowe jest oczywiście również miarą rozproszenia wartości zmiennej X, w dodatku wygodniejszą w praktyce od wariancji, gdyż wymiar odchylenia standardowego jest taki sam jak wymiar wartości oczekiwanej.

Przykład 3.5. Obliczanie wariancji i odchylenia standardowego zmiennej losowej X

Niech ciągła zmienna losowa X ma rozkład prawdo- podobieństwa o gęstości danej wzorem (3.4) (zob. rys.

3.2).

Aby obliczyć wariancję, varX, obliczymy najpierw EX2:

2 4 3 4 2

2 2 2 2

0 0

3 4 3 3 4 3 2

3

2 1

E ( ) 2

2 4 2 3 4

1 16 16 2 16 8 3 8 4 2

4 2 3 4 3 4 4 12(2 ) 6(2 ) 6

a a

a a

x x x x x

X x f x dx x dx x dx

a a a a

a a a a a a a a

a a a a

−∞

 

= = + − = +  − 

− −  

  − + − + +

= +  − − + = + = =

−   − −

∫ ∫ ∫

(3.27)

Wykorzystując ten wynik i obliczoną już uprzednio wartość oczekiwaną EX dla tego rozkładu (zob. (3.5)), mamy

2 2 2

2 2 4 2 2 ( 1) 3

varX=E E

6 3 18

a a a a

X X + +  +  − +

− = −  =

  (3.28)

Dla a = 1.5 jak na rys. 3.2 mamy: varX = 3.25'18 = 0.1806 Odchylenie standardowe DX = var X = 0.4249.

Odchylenie przeciętne. Istnieją też inne miary zmienności zmiennej. Jedną z nich jest odchylenie przeciętne zmiennej X:

* E E

def

X X

σ = − (3.29)

(11)

Wielkość ta jest dużo rzadziej używana niż odchylenie standardowe F.

Wartość oczekiwana jako sensowna predykcja wartości zmiennej X.

Postawmy następujące pytanie dotyczące zmiennej X:

“Ile w następnym doświadczeniu losowym wyniesie wartość x zmiennej X?” (*) Jest to jedna z postaci zagadnienia predykcji, czyli przewidywania (niekoniecznie w sensie czasowym) pojedynczej wartości x zmiennej losowej X. Oczywiście chcieli- byśmy otrzymać dokładną odpowiedź, na przykład taką:

“W następnym doświadczeniu losowym x = 5” (**) i w dodatku, aby rzeczywiście tak było.

Niestety, na pewno możemy powiedzieć (przewidzieć) tylko tyle, że x będzie jedną z możliwych realizacji zmiennej X, co jest odpowiedzią trywialną. Jednakże, spośród wszystkich wartości c zmiennej X równanie (3.25) wyróżnia w pewien sposób wartość średnią EX i wyróżnienie to możemy wykorzystać, jeśli przyjmiemy inne kryterium jakości odpowiedzi niż (**). Kryterium (**) jakości odpowiedzi na postawione pytanie, związane z odpowiedzią typu „x=5”, to kryterium „czarno-białe”: jeśli trafimy (tzn. x rzeczywiście było równe 5) to dobrze (predykcja trafna), jeśli x było inne niż 5 – to źle (predykcja nietrafna).

Tymczasem rachunek prawdopodobieństwa upewnia nas, że ta druga – nietrafna – odpowiedź jest regułą, bo mamy do czynienia z doświadczeniem losowym i każda predykcja skończy się z reguły niepowodzeniem (x nie jest równe 5). Nie oznacza to wszakże, że każda podana przez nas liczba będzie równie dobra, lub raczej równie niedobra jak pozostałe. Bo jeśli predykcja miała postać „x=5” a w doświadczeniu losowym otrzymano x=4.9 to jest to „x=5” jest lepszą predykcją niż „x=6”. Zachodzi więc pytanie: W jaki sposób odpowiadać na pytanie (*)? Istnieje wiele odpowiedzi, ale jedna z nich jest stosowana w statystyce powszechnie. Odpowiedź ta opiera się następującej zasadzie:

Najlepszą odpowiedzią jest taka, która stosowana wielokrotnie daje najmniejszy błąd.

Jeśli błąd ten oznacza błąd średniokwadratowy (mogą być inne), to równanie preferuje wartość oczekiwaną EX jako odpowiedź najlepszą. Tak więc, jeśli za każdym razem będziemy na pytanie (*) podawać jako odpowiedź wartość EX, to średnio popełnimy najmniejszy z możliwych błędów, najmniejszy w tym sensie, że każda inna liczba poza EX da większy błąd średniokwadratowy: E(X-c)2=min..

Zmienna standaryzowana. Wartość średnia EX i odchylenie standardowe DX pozwalają na wprowadzenie bardzo użytecznego pojęcia: zmienna standaryzo- wana X':

E D

def X X

X X

′ = − (3.30)

(12)

Jest to więc liniowe przekształcenie zmiennej X i, jak łatwo obliczyć, EX' = 0 oraz varX' = 1. Nie bez znaczenia jest też fakt, że zmienna X' jest bezwymiarowa. Ze zmienną tą spotkamy się wielokrotnie.

Nierówność Czebyszewa. Istnieją jeszcze inne miary rozproszenia, jednakże wariancja i odchylenie standardowe są wyróżnione poprzez m.in. tzw. nierówność Czebyszewa, którą podana będzie w dwu równoważnych postaciach.

Jeśli EX i σ są odpowiednio wartością oczekiwaną i odchyleniem standardowym zmiennej losowej X, a k jest dowolną stałą dodatnią, to prawdopodobieństwo, że odchylenie zmiennej od jej wartości oczekiwanej przekroczy k odchyleń standardowych wyraża się wzorem

( )

2

P X EX k 1 σ k

− ≥ ≤ (3.31)

Używana jest także postać równoważna

( )

22

P X EX t t

− ≥ ≤σ (3.32)

Twierdzenie to pozwala & bez znajomości rozkładu prawdopodobieństwa zmiennej X

!na oszacowanie prawdopodobieństwa odchylenia od wartości oczekiwanej przekraczającego zadaną wartość.

Współczynnik zmienności zmiennej losowej X. Iloraz odchylenia standardowego D(X) i wartości oczekiwanej E(X)…0, nazywany jest współczynnikiem zmienności zmiennej losowej X:

D , E 0

E

def V

C X X

= X ≠ (3.33)

Jest to jeszcze jedna charakterystyka liczbowa zmiennej losowej, stosowana często w praktyce. Jeśli odchylenie standardowe będziemy interpretować np. jako średni błąd pomiaru pewnej wielkości X, której prawdziwa wartość wynosi EX, to CV(X) będzie błędem względnym pomiaru, czyli wartością miary rozproszenia wyrażoną za pomocą wielokrotności EX.

3.1.3 Momenty i ich funkcje

Określenia. Wartość oczekiwana zmiennej losowej X, E(X), oraz wariancja, D2(X), należą do klasy tzw. momentów zmiennej losowej X. Dwa ważne rodzaje momentów to momenty początkowe i momenty centralne rzędu k zmiennej X.

Moment początkowy (albo: zwykły) rzędu k. Wielkość ta jest zdefiniowana następującą równością

E( )

def k

k X

α = (3.34)

Wartość oczekiwana E(X) jest momentem początkowym pierwszego rzędu E(X) = "1. Moment centralny rzędu k. Definicja ma postać następującą:

(13)

E( E )

def

k

k X X

µ = − (3.35)

Wariancja D2(X) jest więc momentem centralnym drugiego rzędu: µ2 = D2(X).

Funkcje momentów. Zmienna losowa X bywa charakteryzowana również poprzez pewne funkcje momentów (znamy już współczynnik zmienności CV(X)), a w szczególności poprzez dwie funkcje momentów wyższego rzędu: współczynnik asymetrii oraz, rzadziej, współczynnik ekscesu lub spłaszczenia, zwany też kurtozą.

Współczynnik skośności (asymetrii).

Jest to taka liczba Cs(X), że;

3

( ) 3 def

C Xs µ

=σ (3.36)

Dla rozkładu symetrycznego wartość tego współczynnika wynosi zero. Rys. 3.12 ilustruje trzy zasadnicze przypadki:

asymetrię dodatnią (dłuższy prawy ogon rozkładu), symetrię i asymetrię ujemną (dłuższy lewy ogon rozkładu). Rozkłady asymetryczne są często spotykane w praktyce.

Przykład 3.6. Obliczanie współczynnika skośności (asymetrii) zmiennej losowej X

Niech ciągła zmienna losowa X ma rozkład prawdopo- dobieństwa o gęstości danej wzorem (3.4) (zob. rys. 3.2).

Najpierw obliczymy EX3:

2 5 4 5

3 3 3 3

0 0 0

4 5 4 4 5

4

4 5 4 5 4 2

2 1

E ( ) 2

2 5 2 4 5

1 32 32 1 5 16 2 32 5 2

5 2 4 5 2 5 5 10(2 )

4 2 16 5 2 16 (2 )(4 )

10(2 ) 10(2 ) 10

a a a

a

x x x x x

X x f x dx x dx x dx

a a a a

a a a a a

a a a

a a a a a a a

a a

−∞

 

= = + − = +  − 

− −  

  ⋅ − ⋅ − +

= +  − − + = +

−   −

− + − + − + +

= = =

− −

∫ ∫ ∫

(3.37)

Teraz trzeci moment centralny, µ3, wyrazimy poprzez już obliczone wielkości:

( )

3 3 2 2 3

3

3 2 2 3

3 2 2 3

3 3 3 2

E( E ) E( 3 E 3 E E )

E( ) 3 E( ) E 3 E E E )

E( ) 3 E E( ) E E

E( ) 3 E var E E( ) E 3 var E

X X X X X X X X

X X X X X X

X X X X X

X X X X X X X X

µ = − = − ⋅ ⋅ + ⋅ −

= − ⋅ ⋅ + ⋅ ⋅ −

 

= − ⋅  − −

= − ⋅ − = − ⋅ +

(3.38)

Ostatecznie, wstawiając wzory (3.37), (3.28) i (3.5) do (3.38), dostajemy, że wartość µ3 wynosi f(x) Cs=0.75 Cs=0 Cs=-0.75

x

Rys. 3.12. Trzy typy asymetrii: dodatnia, zerowa (symetria) i ujemna (kolejno od lewej)

(14)

( )

2 2 2

3

2 2 2

2

2

(2 )(4 ) 2 ( 1) 3 2

10 3 3 18 3

(4 ) 2 4 4 4

(2 )

10 18 18

1 1 1 2 4 4 4 4

(2 )

10 18 27 18 27 10 18 27

2 ( 2)( 4)( 1)

5 4

135 135

a a a a a

a a a a a

a

a a a

a a a a

a a

µ = + ++  ⋅ + + +  

 + − + + + 

= +  − − 

 

      

= +   − − +  −   + − − 

+ + − −

= − + =

(3.39)

więc dla a=1, tj. gdy rozkład jest rozkładem symetrycznym, µ3 = 0, czyli Cs = 0. Gdy wartość a<1 wtedy µ3 >0 (zatem Cs > 0) mamy asymetrię dodatnią. Asymetria ujemna ma miejsce, gdy 1<a#2. Dla a=1.5 jak na rys. 3.2 mamy Cs = µ33 = -0.2534: rozkład posiada asymetrię ujemną.

Współczynnik spłaszczenia (synonimy: współczynnik ekscesu, kurto- za) wyraża się wzorem

4

( ) 4 def

C Xe µ

=σ (3.40)

Wartość tego współczynnika dla rozkładu symetrycznego może być wskaźnikiem zgodności tego rozkładu z rozkładem normalnym, gdyż dla omawianego rozkładu wartość współczynnika ekscesu wynosi 3. Wartości Ce>3 wskazują na funkcję gęstości wyższą i bardziej smukłą od funkcji gęstości rozkładu normalnego, a Ce<3 – na sytuację odwrotną. Fakt ten powoduje, że używana jest również trochę zmieniona definicja tego współczynnika, a mianowicie Ce-3.

Uwaga dotycząca stosowania momentów wyższych rzędów i ich funkcji. W praktyce funkcje momentów są obliczane nie na podstawie znanego dokładnie rozkładu prawdopodobieństwa badanej zmiennej losowej, lecz na podstawie pewnej liczby realizacji tej zmiennej, tzw. próby losowej (będzie o tym mowa w rozdziale poświęconym estymacji statystycznej. (część II niniejszej książki)).

Otrzymane liczby są tylko przybliżeniami nieznanych wartości i to przybliżeniami tym gorszymi im wyższą potęgę zmiennej X obliczana wielkość zawiera. Rzecz jest w tym, że nawet jedna realizacja zmiennej losowej odbiegająca znacznie od pozostałych może istotnie wpłynąć na obliczaną wartość powodując, że będzie ona gorszym przybliżeniem obliczanej wielkości. (por. przykład 6.? ) Dlatego najczęściej stosowane charakterystyki zmiennej losowej są charakterystykami rzędu pierwszego (jak EX) i drugiego (jak varX).

(15)

3.2 3.2 3.2

3.2 DWUWYMIAROWA ZMIENNA LOSOWA DWUWYMIAROWA ZMIENNA LOSOWA DWUWYMIAROWA ZMIENNA LOSOWA DWUWYMIAROWA ZMIENNA LOSOWA

Dana jest dwuwymiarowa zmienna losowa (X,Y) i jej rozkład prawdopodobieństwa w postaci funkcji rozkładu pij = P(X=xi,Y=yj) w przypadku dyskretnym albo funkcji gęstości f(x,y) w przypadku ciągłym. Oznacza to, oczywiście, że mamy dane również wszystkie rozkłady jednowymiarowe, to znaczy:

a) rozkłady brzegowe: pi* i p*j albo fX(x) i fY(y), oraz

b) rozkłady warunkowe: P(Y=yi|X=xk) i P(X=xi|Y=yk) albo g(y|x) i h(x|y).

Używając rozkładów brzegowych możemy więc obliczyć (osobno dla zmiennej X, osobno dla Y) wszystkie charakterystyki podane w poprzednim podrozdziale dla przypadku jednowymiarowego. Charakterystyki te dają informację o każdej zmiennej z osobna, nie wnoszą więc żadnej informacji o wzajemnych relacjach pomiędzy zmienną X i zmienną Y. Taka sytuacja jest zadowalająca tylko wtedy, gdy zmienne X i Y są niezależne.

Gdy zmienne X i Y są zależne, istnieje potrzeba zdefiniowania takich charakterystyk, które tę zależność będą opisywać liczbowo. Są to przede wszystkim kowariancja i współczynnik korelacji – wielkości kwantyfikujące zależność liniową.

Aby o nich mówić uogólnimy pojęcie wartości oczekiwanej E() na przypadek dwuwymiarowy.

Definicja wartości oczekiwanej w przypadku dwuwymiarowym.

Wartością oczekiwaną E[g(X,Y)] funkcji g(X,Y) jest taka liczba, że

[ ]

- -

( , ) P( , ) ( . )

E ( , )

( , ) ( , ) ( . )

i j i j

def i

g x y X x Y y zm skokowa g X Y

g x y f x y dx dy zm ciągla

∞ ∞

∞ ∞

 ⋅ = =

=

 ⋅ ⋅ ⋅



∫ ∫

(3.41)

Podobnie jak dla zmiennej jednowymiarowej tak również dla zmiennej losowej dwuwymiarowej można zdefiniować momenty – zarówno centralne, jak i początkowe.

Nowa ogólna postać tych charakterystyk wygląda następująco.

Moment początkowy mieszany ααααkl rzędu k+l E( ), , 0,1,...

def

k l

kl X Y k l

α = = (3.42)

Tak więc: α10 to EX, α01 to EY, itp.

Moment centralny mieszany µkl rzędu k+l

E ( E ) ( EY) , , 0,1,...

def

k l

kl X X Y k l

µ =  − −  = (3.43)

Łatwo poznajemy, że µ20 = varX, a µ02 = varY.

Nowymi w stosunku do już poznanych, a praktycznie używanymi są momenty mieszane α11 i µ11.

(16)

Przykład 3.7. Obliczanie średnich i wariancji w rozkładzie dwuwymiarowym Niech zmienna losowa (X,Y) posiada rozkład prawdopodobieństwa o następującej funkcji gęstości f(x,y)

2 3

dla ( , ) (0,1) (0,1), 2.65, 0.5 ( , )

0 dla ( , ) (0,1) (0,1)

a x b y x y x a b

f x y

x y x

 ⋅ + ⋅ ∈ = =

=

 ∉ (3.44)

(rys. 3.13). Rozkład ten będzie stosowany w kilku kolejnych przykładach.

Zadanie: Znaleźć średnie EX i EY oraz wariancje varX i varY.

Rozwiązanie. Wygodnie jest obliczyć najpierw rozkłady brzegowe fX(x) i fY(y), a potem, jak dla rozkładów jedno- wymiarowej zmiennej, liczyć średnie i wariancje.

Z definicji dostajemy rozkład brze- gowy fX(x) zmiennej X:

1

2 3 2

0

( ) ( , ) ( )

X 4

f x f x y dy a x b y dy a x b

−∞

=

=

⋅ + ⋅ = ⋅ + (3.45)

Oczywiście wzór jest ważny tylko dla x 0 [0,1]; poza tym przedziałem fX(x) jest równa zero. Możemy już obliczyć EX:

1 4 2 1

2

0 0

( ) ( ) 0.71875

4 4 4 2 4 8

X

b x b x a b

EX x f x dx x a x dx a

−∞

 

= ⋅ ⋅ = ⋅ + ⋅ = +  = + =

 

∫ ∫

(3.46)

Aby obliczyć wariancję varX, obliczymy najpierw EX2:

1 5 3 1

2 2 2 2

0 0

( ) ( ) 0.56667

4 5 4 3 5 12

X

b x b x a b

EX x f x dx x a x dx a

−∞

 

= ⋅ ⋅ = ⋅ + ⋅ = +  = + =

 

∫ ∫

(3.47)

Dalej łatwo dostajemy: varX = EX2 - E2X = 0.56667 - (0.71875)2 = 0.050065.

Obliczenia dla zmiennej Y przebiegają analogicznie. Najpierw liczymy rozkład brzegowy fY(y) zmiennej Y:

1

2 3 3

0

( ) ( , ) ( )

Y 3

f y f x y dx a x b y dx a b y

−∞

=

=

⋅ + ⋅ = + ⋅ (3.48)

skąd, licząc podobnie jak poprzednio, dostajemy EY = a/6 + b/5 = 0.5375 oraz varY = EY2 - E2Y = 0.375 - (0.5375)2 = 0.086094.

Rys. 3.13. Funkcja gęstości z=f(x,y) (3.44)

Rozpatrzymy teraz szczególną postać funkcji g(X,Y): sumę Z = X+Y zmiennych losowych i obliczymy dla tej zmiennej jej wartość oczekiwaną i wariancję: E(X+Y) oraz var(X+Y). Przy okazji poznamy nowe pojęcie: kowariancję zmiennych losowych.

(17)

3.2.1 Wartość oczekiwana E(X+Y) sumy dwu zmiennych losowych

Jeśli g(X,Y) = X+Y, to z definicji wartości oczekiwanej wynika niemal natychmiast następna własność tego operatora (poprzednie: patrz równania (3.7)) :

6. E(X +Y)=EX +EY (3.49)

Tak więc zależność zmiennych X i Y nie ma żadnego wpływu na wartość oczekiwaną ich sumy. Łatwo zrozumieć, wzór powyższy przenosi się na większą liczbę zmiennych losowych.

3.2.2 Wariancja, var(X+Y), sumy dwu zmiennych losowych.

Kowariancja, cov(X,Y), zmiennych losowych X i Y

Następująca sekwencja przekształceń doprowadzi nas do bardzo ważnego wzoru:

( ) ( )

( )

2 2

2 2

var( ) E E( + ) E ( E ) ( E )

E( E ) 2E ( E )( E ) E( E )

X Y X Y X Y X X Y Y

X X X X Y Y Y Y

+ = + − = − + −

= − + − − + −

(3.50) Wyrażenie środkowe w ostatniej linii powyższego wzoru (bez dwójki) nazywa się kowariancją zmiennych X,Y i jest oznaczane symbolem cov(X,Y):

[ ]

cov( , ) E ( E )( E )

def

X Y = XX YY (3.51)

Wykonując mnożenia wewnątrz nawiasu kwadratowego w powyższym wzorze i biorąc wartość oczekiwaną łatwo dostajemy pewien praktyczny wynik:

cov( , )X Y =E(XY) E− X⋅EY (3.52) Z definicji kowariancji prawie natychmiast wynikają następujące jej własności:

1. cov( , ) var

2. cov( , ) cov( , ) 3. cov( , ) cov( , )

X X X

X a Y b X Y

aX bY ab X Y

=

+ + =

=

(3.53)

Używając oznaczenia (3.51) możemy napisać końcowy ogólny wzór na wariancję sumy dwu zmiennych:

var(X +Y)=varX +2 cov( , )X Y +varY (3.54) Kowariancja jest pojęciem bardzo praktycznym, co wynika – jak to za chwilę zobaczymy – z faktu, że zeruje się ona, gdy zmienne X i Y są niezależne. Aby to zobaczyć musimy wykonać kilka obliczeń.

Przykład 3.8. Obliczanie kowariancji cov(X,Y) Niech zmienna losowa (X,Y) posiada rozkład prawdopodobieństwa o funkcji gęstości f(x,y) danej wzorem (3.44) (zob. przykład 3.7).

Zadanie: Obliczyć kowariancję cov(X,Y).

Rozwiązanie. Do obliczenia cov(X,Y) wykorzystamy wzór (3.52). Ułatwi on obliczenia, gdyż mamy już obliczone poprzednio (przykład 3.7) wartości średnie EX i EY. Wystarczy więc

(18)

obliczyć EXY:

1 1

2 3

0 0

1 1 1 1

3 4

0 0 0 0

( , ) ( )

0.378125 8 10

EXY xyf x y dxdy xy ax by dxdy a b

ax ydxdy bxy dxdy

∞ ∞

−∞ −∞

= = +

= + = + =

∫ ∫ ∫ ∫

∫ ∫ ∫ ∫

(3.55)

Końcowy wynik: cov(X,Y) = EXY - EX EY = 0.378125 - (0.71875)(0.5375) = -0.008203. Co liczba ta oznacza?

3.2.3 Podstawowa własność kowariancji zmiennych losowych Własność ta polega na tym, że

Jeśli zmienne X, Y są niezależne, to cov(X,Y) = 0.

Twierdzenie odwrotne nie jest prawdziwe: zerowa wartość kowariancji nie musi pociągać za sobą niezależności zmiennych X i Y. (Nie wynika z tego twierdzenia rów- nież to, że gdy zmienne te są zależne, to cov(X,Y) … 0.) Z tego powodu wprowadzony jest osobny termin: zmienne X, Y, których kowariancja równa się zeru nazywamy nieskorelowanymi. Wyjaśnienie tego terminu znajduje się w następnym podrozdziale.

Przykład 3.9. Zmienne zależne mogą mieć zerową kowariancję (tylko dla odważnych) Niech zmienne losowe X i Y podlegają rozkładowi

prawdopodobieństwa o gęstości f(x,y)=const na okręgu jednostkowym (tj. o promieniu r=1) f(x,y)=0 poza nim (rys. 3.14). Zmienne te są w oczywisty sposób zależne, gdyż są zależne funkcyjnie.

Obliczymy teraz kowariancję cov(X,Y). Bez liczenia widać, że EX = EY = 0 (dlaczego?), stąd cov(X,Y) = E(XY). Jak pokazano dalej (zob.?), zachodzi równość E(XY) = EX[EY(XY*X)] = EX[XEY(Y*X)] oznaczająca, że średni iloczyn zmiennych X i Y możemy liczyć w ten sposób, że najpierw liczymy średnią wartość zmiennej Y, EY(Y*X), dla każdej wartości zmiennej X z osobna a potem otrzymany wynik uśredniamy po wszystkich x.

Tymczasem dla każdego x z przedziału (-1,1) mamy EY(Y*x)=0 (dlaczego?), skąd wynika, że E(XY) = 0, a więc cov(X,Y)=0.

x y

x2+y2=1 1

1

Rys. 3.14. Zmienne (X,Y) związane równaniem okręgu są oczywiście za- leżne ale cov(X,Y) = 0 (jeśli f(x,y) = const na okręgu i zero poza nim).

Załóżmy teraz, że rozważane zmienne są niezależne. Udowodnimy dla przypadku ciągłych zmiennych X i Y, że wtedy cov(X,Y) = 0, czyli E(XY) = E(X)E(Y).

(19)

DOWÓD. Mamy daną funkcję gęstości f(x,y). Z definicji wartości oczekiwanej wynika, że

EXY xyf x y dxdy( , )

∞ ∞

−∞ −∞

=

∫ ∫

(3.56)

Niezależność zmiennych X, Y oznacza, że f(x,y) = fX(x)fY(y), co powoduje, że

E ( ) ( ) ( ) ( ) E E

∞ ∞

−∞ −∞ −∞ −∞

=

∫ ∫

X Y =

X

Y = ⋅

XY xyf x f y dxdy xf x dx yf y dy X Y (3.57) czego należało dowieść. Dowód dla przypadku zmiennych losowych dyskretnych jest analogiczny.

Tak więc, gdy X,Y są niezależne, to wzór (3.54) przyjmuje prostszą postać:

var(X+Y)=varX +varY (3.58)

W praktycznych zastosowaniach kowariancja (i związany z nią współczynnik korelacji) jest stosowana jako miara pewnego rodzaju współzależności (a raczej współzmienności) zmiennych X i Y – współzależności nazywanej korelacją.

3.2.4 Korelacja zmiennych X i Y

Kowariancja cov(X,Y) ma jeszcze jedną ważną własność:

[

cov(X +Y)

]

2 varXvarY (3.59)

Aby to zobaczyć załóżmy, że t jest dowolną liczbą rzeczywistą i dokonajmy przekształcenia następującego wyrażenia:

2 2

2 2 2

2

var( ) E[( ) E( )] E[ ( - E ) ( - E )]

E( ) 2 E[( E )( E )] E( - E ) var( ) 2 cov( , ) var( ) 0

tX Y tX Y tX Y t X X Y Y

t X EX t X X Y Y Y Y

t X t X Y Y

+ = + − + = +

= − + − − +

= + + ≥

(3.60)

Wyrażenie w ostatnim wierszu przed znakiem nierówności przedstawia trójmian kwadratowy ze względu na t, z definicji (jako wariancja) nieujemny. Fakt ten oznacza, że wyróżnik ∆ tego trójmianu nie może być dodatni:

= 4 cov ( , ) 2 X Y 4 var( ) var( ) X Y 0

∆ − ≤ (3.61)

Stąd w łatwy sposób dostajemy wyjściową nierówność .

Nierówność pozwala wprowadzić nowe, bardzo użyteczne pojęcie – współczynnik korelacji liniowej ρ zmiennych losowych X i Y (mówi się też: współczynnik korelacji pomiędzy zmiennymi):

cov( , ) var var

def X Y

X Y

ρ =

(3.62)

Z definicji tej i wynika, że wartość ρ jest zawarta w domkniętym przedziale [-1,1].

(20)

Przykład 3.10. Obliczanie współczynnika korelacji liniowej Zadanie: Obliczyć wartość współczynnika korelacji ρ zmiennych X, Y o łącznym rozkładzie prawdopodobieństwa f(x,y) danym wzorem (3.44) (zob. przykład 3.7).

Rozwiązanie. W poprzednich przykładach (tj. 3.7 i 3.8) obliczyliśmy wartości potrzebne do zastosowania wzoru : varX = 0.050065, varY = 0.086094, cov(X,Y) = -0.00820. Stąd i z (3.62)

mamy: ρ = -0.00820/( 0.050065 0.086094 ) = -0.00820/ (0.223752⋅0.293417) = -0.125.

Otrzymany wynik ρ = -0.125 oznacza, że zmienne X, Y o rozkładzie (3.44) są słabo skorelowane liniowo.

Współczynnik korelacji obrazuje liczbowo liniową współzależność zmiennych X i Y. Dodatnia wartość ρ oznacza zależność rosnącą tych zmiennych, ujemna – malejącą. Jeśli |ρ|=1 (dokładnie), to z prawdopodobieństwem 1 wszystkie punkty (x,y) leżą na prostej y = ax+b:

[ ]

2 1 P(Y aX b) 1

ρ = ⇔ = + =

  (3.63)

Dowód tej równoważności znajduje się na przykład u Fisza [11] lub de Groota [6].

Przypadek ten jest skrajnym przeciwieństwem niezależności – możemy więc interpretować współczynnik korelacji jako pewnego rodzaju miarę zależności (liniowej!) pomiędzy dwiema zmiennymi. Istnieją też inne miary, zob. np. Hellwig [14].

Rys. 3.15 ilustruje empiryczny sens pojęcia „zależność” (używanego czasami z dodatkowym określeniem „statystyczna” lub „stochastyczna”) stosowanego w probabilistyce oraz sens współczynnika korelacji jako miary tej zależności. Zależność pomiędzy zmienną losową Y a zmienną losową X nigdy nie oznacza informacji typu:

„jeśli wiem, ile wynosi wartość zmiennej X, to stąd wiem (tzn. mogę np. obliczyć) ile wynosi wartość zmiennej Y”. Zależność pomiędzy zmiennymi losowymi to pewna tendencja, która jest widoczna tylko w przypadku dużej liczby par (x,y) – realizacji zmiennej (X,Y). Współczynnik korelacji wskazuje na siłę tej zależności: widać na rys.

3.15 jak w miarę zwiększania się wartości ρ chmura punktów zaczyna coraz bardziej przypominać linię prostą.

(21)

Współczynnik korelacji jest współ- czynnikiem korelacji liniowej, co oznacza, że jeśli zmienne X, Y zależą od się- bie nieliniowo, to fakt ten może w ogóle nie zostać wykryty przez badanie współczyn- nika korelacji. Dlatego ważne jest, aby przed analizą liczbową przeprowadzić analizę graficzną, która czasami pomoże ustrzec przed popełnieniem grubego błędu (zob. przykład 3.9, str. 18).

3.2.5 Warunkowa wartość

oczekiwana E(Y|x) zmiennej losowej Y

Pojęcie warunek. Używając rozkładów warunkowych możemy zdefiniować wiel- kości analogiczne do charakterystyk rozkła-

du jednej zmiennej. Ich nazwa zawiera dodatkowe słowo: warunkowy. Oznacza ono, że posiadamy pewną dodatkową informację o jednej ze zmiennych (np. że X=x lub Y0S, gdzie S jest pewnym przedziałem liczbowym na osi y, zob. rys. 3.16).

Rys. 3.15.Przedstawione na kolejnych wykresach chmury punktów to wyniki kolejnych serii 50 losowań par liczb (x,y) z dwuwymiarowego rozkładu normalnego o identycznych średnich i wariancjach a różnych wartościach współczynnika korelacji ρ. Im wyższa wartość D tym silniej wartości (x,y) zmiennej losowej (X,Y) skupiają się wokół pewnej prostej

R

S

R’

R’

y y

x

x

X=x

R

(A)

(B)

Rys. 3.16. Zawężenie zbioru R realizacji zmien- nej (X,Y) do zbioru R' wskutek postawienia warunku X=x (A) i Y0S (B)

(22)

Konsekwencją tego faktu jest zawężenie zbioru R wszystkich realizacji (x,y) zmiennej (X,Y) do pewnego podzbioru R' (odpowiednio: R'={X=x}1R i R'= S1R, rys. 3.16). Fakt ten wpływa oczywiście również na postacie funkcji rozkładu i ich charakterystyki.

Najczęściej stosowane są tylko trzy wielkości: warunkowa średnia, warunkowa wariancja i warunkowe odchylenie standardowe.

Definicja średniej warunkowej.

Analogicznie do definicji wartości oczeki- wanej EX, określmy wielkość E(Y|x)

( | )

E( | )

( | )

i i

def i

y P Y y X x Y x

yg y x dy

−∞

 = =

=



(3.64) którą nazwiemy warunkową wartością ocze- kiwaną zmiennej losowej Y przy znanej

wartości x zmiennej losowej X, a w skrócie warunkową średnią zmiennej Y.

Jak widać z (3.64), różnica pomiędzy definicją E(Y|x)a definicją zwykłej średniej EX polega wyłącznie na zastosowaniu rozkładu warunkowego zamiast bezwarun- kowego.

Średnia warunkowa E(Y|x) jest liczbą przy ustalonej wartości x. Wartość x jest poza tym dowolna i gdy rozważać będziemy wszystkie możliwe x (tj. x rzeczywiste), to otrzymamy funkcję y(x) = E(Y|x) (rys. 3.17). Gdy natomiast wartość x nie jest znana, to średnia warunkowa jest zmienną losową, co symbolizujemy zapisem E(Y|X).

Przykład 3.11. Obliczanie krzywej regresji I rodzaju Niech zmienna losowa (X,Y) posiada rozkład prawdopodobieństwa o funkcji gęstości f(x,y) (wzór (3.44), przykład 3.7).

Zadanie. Znaleźć funkcję regresji I rodzaju E(Y|x) w tym rozkładzie.

Rozwiązanie. Trzeba najpierw znaleźć rozkład brzegowy zmiennej X, a potem użyć drugiego wzoru (3.64). Rozkład brzegowy fX(x) zmiennej X daje się łatwo wyliczyć:

1

2 3 2

0

( ) ( , ) ( )

X 4

f x f x y dy ax by dy ax b

−∞

=

=

+ = + (3.65)

y

E(Y|x

2

) E(Y|x

1

)

g(y|x

1

)

x1

y=E(Y|x)

g(y|x2)

x1 x2 x

Rys. 3.17. Warunkowa wartość oczekiwana E(Y|x) zmiennej Y jest funkcją x.

(23)

Zgodnie z drugim wzorem (3.64) i warunkami zadania, mamy

1

0

1 2 3

0 2

2 2

E( | ) ( | )

( , ) ( )

4 / 2 / 5

/ 4

X

Y x yg y x dy f x y

y dy

f x ax by

y dy

ax b

ax b

ax b

−∞

=

=

= +

+

= +

+

(3.66)

Wykres krzywej regresji zamieszczony jest na rys. 3.18.

Rys. 3.18. Krzywa regresji I rodzaju dla rozkładu o gęstości f(x,y) = 2.625⋅x2+0.5⋅y3 skupionej na kwadracie (0,1)×(0,1)

3.2.6 Wariancja warunkowa var(Y|x) zmiennej losowej Y

Analogicznie do zwykłej wariancji varY definiujemy wariancję warunkową zmiennej losowej Y jako średni kwadrat odchylenia zmiennej Y od jej wartości średniej warunkowej:

[ ]

2

{ [ ]

2

}

var( | ) E | E( | ) E | E( | ) |

def

Y x = Y xY x = Y xY x x (3.67)

Wariancja warunkowa jest miarą rozproszenia zmiennej Y, gdy znana jest wartość x zmiennej losowej X. Tak samo jak warunkowa wartość oczekiwana również wariancja warunkowa jest liczbą var(Y|x), gdy x jest ustaloną wartością, funkcją var(Y|x), gdy x jest zwykłą zmienną oraz zmienną losową var(Y|X), gdy X jest zmienną losową.

Przykład 3.12. Obliczanie wariancji warunkowej var(Y|x) Niech zmienna losowa (X,Y) posiada rozkład prawdopodobieństwa o funkcji gęstości f(x,y) (wzór (3.44), przykład 3.7).

Zadanie. Znaleźć wariancję warunkową var(Y|x) w tym rozkładzie i wykreślić przebieg odchylenia standardowego D(Y|x).

Rozwiązanie. Ponieważ wyżej (zob. wzór (3.66) znaleźliśmy średnią warunkową E(Y|x) w tym rozkładzie, wykorzystamy pomocny wzór na wariancję var(Y|x) = E(Y2|x) – E2(Y|x).

Wystarczy teraz obliczyć średni warunkowy kwadrat E(Y2|x)

2

1 1 2 3

2 2 2 2

2 2

0 0

( , ) 3 6

E( | ) ( | )

( )

4 4

X

x b f x y ax by a

Y x y g y x dy y dy y dy

b b

f x ax ax

−∞

+ +

= = = =

+ +

∫ ∫ ∫

(3.68)

(24)

i zastosować wzór:

2 2 2

2 2

2 2

3 6 2 5

var( | ) E( | ) E ( | )

4 4

x b x b

a a

Y x Y x Y x

b b

ax ax

 

+  + 

= − = −  

 

+ +

 

 

(3.69)

Wykres odchylenia standardowego D(Y|x) = var(Y|x) zamieszczony jest na rys.

3.19.

3.2.7 Ważna tożsamość: E(Y) = E[E(Y|X)]

Prawdziwa jest bardzo praktyczna rów- ność:

E( ) = E[E( | )] Y Y X (3.70) Oznacza ona, że obliczanie wartości EY w dwuwymiarowym rozkładzie może odbywać się dwustopniowo: najpierw liczymy średnią warunkową E(Y|X) zmiennej Y, a potem uśredniamy wynik, czyli E(Y|X), po wartościach x zmiennej X.

Dowód dla przypadku ciągłych zmien- nych losowych o znanym rozkładzie praw- dopodobieństwa f(x,y) jest bardzo prosty:

E[E( | )] E [E ( | )] E( | ) ( ) ( | ) ( )

( ) ( | ) ( , ) E

X Y X X

X

Y X Y X Y x f x dx yg y x dy f x dx y f x g y x dydx y f x y dydx Y

 

= = =  

= = =

∫ ∫ ∫

∫ ∫ ∫ ∫

(3.71)

Granice całkowania we wszystkich całkach są identyczne i obejmują cały zakres zmienności zmiennych X i Y (formalnie od minus do plus nieskończoności).

Analogicznie można dowieść, że dla każdej funkcji losowej r(X,Y) prawdziwa jest równość:

[ ] { [ ] }

E r X Y( , ) = E E r X Y X( , )| (3.72) Tożsamość tę wykorzystamy natychmiast w następnym punkcie.

Uwaga pomocnicza. Występujące w zapisie E[E(Y|X)] symbole wartości oczekiwanej (operatory) E należy rozumieć w ten sposób, że wewnętrzne E działa na Y (X przyjmuje ustaloną wartość), a zewnętrzne E – na funkcję zmiennej X, tj. na E(Y|X). E[E(Y|X)] można zapisać w postaci jawnej np. tak: EX[EY(Y|X)].

Rys. 3.19. Warunkowe odchylenie standardowe w rozkładzie o gęstości f(x,y) = 2.625⋅x2+0.5⋅y3 skupionej na kwadracie (0,1)×(0,1)

Cytaty

Powiązane dokumenty

Zbudujemy model doświadczenia losowego (Ω, F, P ), polegaj¸ acego na losowym wyci¸ agni¸eciu z kieszeni jednej z dwóch monet i wyrzuceniu orła

[r]

W tabeli opłat sieci pewnej komórkowej można przeczytać, że rozmowa kosztuje 0,20 groszy za minutę, przy czym tak zwane impulsy są naliczane co minutę.. Zakładamy, że czas

Wartością zmiennej losowej X jest numer tej próby, w której klucz pasuje do zamka.. Wiadomo, że tylko jeden klucz

Zmienna losowa X przyjmuje wartości równe ilości wyrzuconych orłów, natomiast zmienna losowa Y przyjmuje wartość jeden jeśli w pierwszym rzucie wypadł orzeł oraz zero w

Zmienna losowa X przyjmuje wartości równe maksimum wyrzuconych oczek.. Wyz- naczyć rozkład zmiennej

Jakie jest prawdopodobieństwo, że losowo wybrana osoba waży więcej niż 83 kg?. Jaka jest frakcja osób mających wagę pomiędzy 71 a

zadania domowe 2, 27 października