Aanvulling op elementaire statistiek

(1)

a

(2)

(3)

Aanvulling op

ELEMENTAIRE STATISTIEK

ir.

A.J. Meelen, ir.

J. van Soest en

ir.

l.M

.G.

Verrneulen

Delftse Universitaire Pers

C:.. '~

(4)

Meelen, AJ.

Aanvulling op elementaire statistiek / door AJ. Meelen,I. van Soest,I.M.G. Vermeulen. - Delft: Delftse Universitaire Pers. - 111.

Uitg. in opdracht van: Vereniging voor Studie- en Studentenbelangen te Delft. -Ie dr. : Delft: Delftse Uitgevers Maatschappij, 1980.

SISO 301.2 UDe 311/314(075.8) ISBN 90-407-1271-9 Trefw.: statistiek. ©VSSD Eerste druk 1980 Vierde druk 1989, 1992, 1995, 1996 Uitgegeven door:

Delftse Universitaire Pers Stevinweg 1, 2628 eN Delft

tel. 015-2783254, telefax 015 - 2781661 In opdracht van:

Vereniging voor Studie- en Studentenbelangen te Delft Poortlandplein 6, 2628 BM Delft

tel. 015 - 2782124, telefax 015 - 2787585, e-mail: vssd@tudelft.nl internet: pubwww.tudelft.nUvssd/

Alle rechten voorbehouden. Niets uit deze uitgave mag worden verveelvoudigd, opgeslagen in een geautomatiseerd gegevensbestand, of openbaar gemaakt, in enige vorm of op enige wijze, hetzij elektronisch, mechanisch, door fotokopieën, opnamen, of op enige andere manier, zonder voorafgaande schriftelijke

toestemming van de uitgever.

All rights reserved. No part ofthis publication may be reproduced, stored in a retrieval system, or transmitted, in any form or by any means, electronic, mechanical, photocopying. recording, or otherwise, withourthe prior written permission ofthe publisher.

(5)

3

Inhoud

I. BÎj 3.2. I. Gamma-functie 5 2. Gamma-verdeling 7 3. Bijzondere gevallen 7 II. Bij 7.3. .9 III. Bij 7.4 en 7.5. I. Gezamenlijke dichtheden 11 2. Correlatie coëfficiënt 11 3. Conditionele verdelingen 13

4. Uitbreiding tot n stochastische variabelen 17 IV. Tussen 7 en 8.

I. Transformatie techniek 21

2. Belangrijke resultaten 27

3:Bi- en multinormale verdeling 29

4. Steekproeven uit normale populaties 37

5. Diversen 39

V. . Bij 13.

I. Het lineaire model 42

2. Regressie-analyse 46

3. Variantie-analyse 56

(6)

(7)

De Gamma-functie isgedefin ieerd als 5 a~ voor

a>

1, voor n = 1,2,. .. Q L - _ - - l - _ - - - - l_ _- ' -_ --'-_ - - - ' 5 I'(c) =

f

ta-1e-tdt voor

a

>

O. o

t

rea)5

De tabel op de volgende pagina geeft I'(n) voor 1

<

a

<

2; met behulp van de recurrente betrekking c kunnen hiermee andere functiewaardenberekend worden. Stel in de r-functie t = x2, dan is

Ga na dat a. I'(I) = 1, b.

rei)

= ...;;, c. F(u) = (a - I)r(a- 1) d.

ren)

= (n - 1)1 Grafisch : Fig.1.1.

1 .

Gamma-functie

1. Bij 3.2.

- 2

F(a)= 2f x2a- 1e- x dx.

, 0

Beschouw nu het produkt

-- 2 2

rea)re(3) = 4JJx2a-ly213-1e-(X +Y )dxdy, 00

en ga over op de'poo lcoörd inaten x = r cos o,p en y = r sin o,p: rr

ï

rea)rem = 4

J

r2(a+13)-le-r2(cos.,o)2a -l(sino,p)213-1drdo,p= r=O '1'=0

(8)

a f(a) a f(a) a f(a) a f(a)

o.

1.01 9943 1.26 9044 1.51 8866 1.76 9214 1.02 9888· 1.27 9025 1.52 8870 1.77 9238 1.03 9835 1.28 9007 1.53 8876 1.78 9262 1.04 9784 1.29 8990 1.54 8882 1.79 9288 1.05 9735 1.30 8975 1.55 8889 1.80 9314 1.06 9687 1.31 8960 1.56 8896 1.81 9341 1.07 9642 1.32 8946 1.57 8905 1.82 9368 1.08 9597 1.33 . 8934 1.58 8914 1.83 9397 1.09 9555 1.34 8922 1.59 8924 1.84 9426 1.10 9514 1.35 8912 1.60 8935 1.85 9456 1.11 9474 1.36 8902 1.61 8947 1.86 9487 1.12 9436 1.37 8893 1.62 8959 1.87 9518 1.13 9399 1.38 8885 1.63 8972 1.88 9551 1.14 9364 1.39 8879 1.64 8986 1.89 9584 1.15 9330 1.40 8873 1.65 9001 1.90 9618 1.16 9298 1.41 8868 1.66 9017 1.91 9652 1.17 9267 1.42 8864 1.67 9033 1.92 9688 1.18 9237 1.43 8860 1.68 9050 1.93 9724 1.19 9209 1.44 8858 1.69 9068 1.94 9761· 1.20 9182 1.45 8857 1.70 9086 1.95 9799 1.21 9156 1.46 8856 1.71 9106 1.96 9837 1.22 9131 1.47 8856 1.72 9126

ll97

9877 J.:!3 9108 1.48 8857 1.73 9147 1.98 9917 1.24 9085 1.49 8859 1.74 9168 1.99 9958 1.25 9064 _1.5.0 8862 1.75 9191 2.00

-oooo

Voorbeeld: f(3,4) = 2,4 f(2,4) = 2,4·1,4 f(l,4) = 2,4·1,4'0,8873 = 2,9813

"

. 2 .

= 2f(a + (3)

f

(cosop)2a-l (sinop)2il-1dop. 0

Substitutie van T= cos2op (met dr= -2cosop sinop dop) levert:

f(a)f«(3)=f 1'-1(1 _ )Ii-1d

f(a + (3) 0 T T T ,

een eigenschap welke we later nodig hebben.

(9)

7

Opgave

.

Bewijs bovenstaande relatienogm aalsdoor detransf ormat ie x

=

1+S en I y=- - in I +s r(a)r(JJ)

=

j j

ta-1 sll-1c-(I+S)dtd s. 00

2. Gamma-verdeling

.

Ga na dat de functie

- x

5 als x ",;;0, als x> 0, 4 3 2 =0

(standaard-exponentiële verdeling) 1 .

voor positieve waarden van a en {3 een dichtheidsfunctie voorstelt ;een sto-chastische variabele ~ met deze dichtheid heeft een Gamma-verdeling met

parametersa en (3. Notatie: ~ - G(a,{3).

Enige dichtheden voor(3

=

zijn:

o

Fig.1.2.

Opgave

.

Bewijsdal Ex_- =all en Varx_-

=

all' . Gaoo_' k na dat Ex k_-

=11k r{?"(+k»

_I en dat

Ct' ' f(x)maximaalisvoor x=ll(a-1).

3. Bijzondere gevallen

Bepaalde combinaties van a en (3 komen in de statistiek zo vaak voor dat de desbetreffende verdelingen een eigen naam hebben:

i) a

=

Ï

en {3

=

2 (waarin neen positief geheel getal is)geeft de

Chi-kwadraat-verd elin g met n vrijheidsgraden;

. 1 f'(x)=-

-n

~)2~

= 0 als x> 0, als x ",;;

o

.

(10)

Notatie: ~ - X2(n). E~

=

n en Var ~

=

2n.

ii) a

=

n en (3

=

*

(met n een positief geheel getal) geeft de Erlang-verdeling met parameters n en ;>,.;

f(x) = ;>,.n xn-I e-À x (n - I)! =0 n n E~=~en Var ~=;>,.2. als

x

>

0, als x .;;:;

o.

\

(11)

II 9

11 .

Bij

7.3.

Op basis van de redenering in de inleiding van dit hoofdstuk kan men de verdeling vany.

=

.p(Js) bepalen als 2Ç continu is met dichtheid f(·) en

verde-lingsfunctie F(·):

G(y) def Pr

{~

,ç yJ= Pr{.p(25) ,ç y}=

f

f(x)dx,

V_y

waarin V_y= {x ].p(x),ç y}.

Beschouw ter illustratie onderstaande grafiek:

_x

Fig. 11.1.

V_y =gearceerde gebied

De dichtheid van ~ is gelijk aan: g(y)

=

G'(y)=

J...

f(y-b).

lal

a

2. ~

=

~2. Uiteraard is G(y)

=

0 voor y ,ç

o

.

Voor y

>

0 is

als y >0, G(y)

=

Pr{~2 ,ç y}

=

Pr{-.JY,ç2Ç,ç

v'Y

}

=

F(vY) -·F(-vY).

g(y)= 2.Jy {f (y'y )+f(-vY)}

Dus:

I.

r

=

a2Ç

+

b (a

*

0)

G(y)=Pr{ax

~

b,ç y}=Pr{x,ç y - b} = F(Y - b) als a> 0 ,

- - a a

= Pr{~ ;;;,.y;;- b}= I _ F(Y ;;- b) als a

<

O. Voorbeelden.

(12)

Opgaven

1. Als l!. een N(Il.a2)-verdelingheeft, bewijs dan dat ~ =al!.+b (a

*-

0) normaal .verdeeld is met gemiddelde all +b en standaardafwijking lala. '

2. Bewijs dat~

=

!!2 een x2(l)_-verdeling _{bezit indien} _.!!._{~ N}_{O_.I). 3. Bepaal de dichtheid vany =JS2 indien

a) x uniform verdeeld is-op [-1,1],

b) ;Zuniform verdeeld is op [0.1).

- I

Antwoord:'iJYvoor 0

<

y

<

I en 0 elders. 4. Geef de dichtheid van

a) 1.=

vî

indien X uniform op [0.1]. b)I

=

X2indien X uniform op [-1.2].

Antwoord: a) 2y als 0

<

y

<

1 (0 elders),

b)

~voor

0

<y <

I,

~

voor I

<y

<4

(0 elders). 5. LaatJSeen G(a.ll)-verdeling hebben. Bewijs dat y = ÀX (À

>

O),eenG(a

.ÀIJ)-verdeling heeft.

(13)

III

III. Bij 7.4 en 7.5.

1. Gezamenlijke dichtheden

11

De sim u lta ne of gezam e nlij ke dichtheidsfunctie van twe e con t inu e stoc h

as-tische variabel en st elt ons in st aa t de kans op allerleige b eurtenissen

betref-fende deze varia belen uit te re ken en :

1. Bewijs dat f(XI'X;) =2e- xl- x2 als 0 <xI < x₂<00, = 0 elders,

eengezamenlij ke dichtheid is met marginaledichtheden 1'1(x) =2e-2xen f2(x) = 2e-x(l -.e-x); beide voor x

>

Oen 0 elders.Zijn~I en 2!.2 onafhankelijk?

2. Beschouw f(x l'x2)

=

1 als 0 <xl'x 2 < I,

=

o

elders, (uniforme verdeling over het eenheidsvierkant). a)

GanadatPr{!I+~2.;;;i

l=Aen

Pr{!1 +~2';;;Ià}=

H·

b) Ga uit van de verdelingsfunctie van~= ! 1!2 en bepaal zodoende de

dicht-heidvan~. .

Antwoord: - In z voor 0 < z < 1 en 0 elders. Zo _{is f(xl'x 2})= 4x_1x_{2 als 0 <} x1'x 2 < 1,

o

elders,

een simultane dichtheid , zodat bijvoorbeeld

y, 1 a) Pr {O< ~ I < t'~ < ~2'< I } ='4 f

f

x lx2dx ldx2 xI=O x2='4 1 I ' . 1 b)Pr{1SI <~2 }=4

f

x lx2dx ldx2=y-xl=o x2=x.l

Vraag : Zijn 1S1 en~2 ona fh a n k elij k '!

Opgaven

is

64 '

3. !dlen !!2zijnonafhankelijkenstandaard normaalverdeeldestoc hastischeva riabe-len .Bewijsdat ~=!!12 +'h2eenx\ 2)-verdeling heeft.

4. f(xl' x₂) =xI +x₂als0 < x l,x₂< 1(en0, zoniet ). Bewijsdat E':5.1':5./=

ti

enE~i =

tI

(i =1,2).

5. Bewijs datde stochastische variabelen~1en~2onafhankelij kzij n dan enalleen dan als f(x_l,x₂₎

==

f_t_{(x l )f2(}_x2).

2. Correlatiecoëfficiënt

De mate van (lineaire) samen ha ng tussen de sto ch astisch e va riabelen !1en !2 wordt gegeve n door de co rrela t ie co ë f f iciën t

(14)

Cov (~I '~2)

P(~I '~2) =

° °

'

kortweg p.

I 2

Wegens het feit dat het E-symbool gezien kan worden als een lineaire operator toe te passen op stochastische variabelen, is

Cov(!1'!2)=E(~I-J.lI)(!2 - J.l 2 )=

= E (!1~2 - JlI!2 - Jl2?f1+JlIJl2) = = E lil 1':2 - JlIJl2'

Weziendatp=O~ Cov(!I'!2)=0~ E!I!2 = Jl·_IJl2·

In zo'n geval heten x, en!2 ongecorre/eerd.

Volgens 7.4.2 van het boek zijn.onafh an kelij ke stochastische variabelen ongecorreleerd ;ongecorreleerde stochastische variabelen zijn niet noodza-kelijk onafhannoodza-kelijk tenzij ze gezamenlijk normaal verdeeld zijn (hierop komen we in IV.3 terug).

Altijd geldt dat -I ~p ~ I.

Bewijs: Stel

r

= À!I +!2' dan geldt Vari:: = À20₁2+°22+2ÀCov(~1'!2)

Voor alle À is Var y ;;;. 0, zodat de discriminant 4 {Cov (?fl ,?f2)}2 --4012°22

~

0

~

p2

~

I.

Op grond van de opgaven 2 en 3 is

Ipl

= I dan en slechts dan als voor zekere al'a 2 en c (al'a2 '1=0) geldt Pr{aJ!1

+

_{a2!2 = c} =} I. Alsp = I (a_la2

<

0)

is er met kans I een stijgend lineair verband tussen! I en ~2' alsp= -I

(a I a2

>

0) een dalend lineair verband.

Een gebruikelijke misvatting omtrent de betekenis van de correlatiecoëffici-ent is dat uitp = 0 geconcludeerd wordt dat er geen verband is tussen !.I en~2' terwijl alleen aangetoond is dat er geen lineair verband is. Als bijvoor-beeld de verdeling van.xl symmetrisch is om 0 en li2 = ~12, isP~I'~2 )= 0 (ga dit na) terwijl er stellig wel verband is tussen~I en ! 2' Een andere mis-vatting stelt correlatie gelijk met causaliteit. Alsp een waarde heeft die dicht bij -lof+I ligt, zodat de correlatie tussen lil en li2 groot is, betekent dit

dat er een zekere mate van lineaire afhankelijkheid tussen!1 en !2 bestaat. Maar het betekent niet dat er dus een oorzakelijk verband tussen KI en li2 moet bestaan.

Opgaven

I. Bewijs dat

a) Cov(alil,b~2)=ab CovVil'~2)'

b) Cov (a1l1+b1l2,Q)

=

ac Cov (111,.1;)+ bcCov(z2'V, c) Cov ("I +"2'~1 - ~2)= Var~I - Var 112'

2. Bewijs dal p

=

±I als

"2

=

3111 +b(a''1=0).

x x

3. Stel jo] = I cn g,=2 ±.:2(en wel"+"alsp= -1en U_"alsp = I). al _{a 2}

(15)

III 13

Bewijs dat Varg=0;~isgedegenereerdd.w.z.neemt me t kans ééneen bepaalde waard e aan(of Prg =Il_{z } =}

I

r

4. _{f(x l},x₂₎ = 2 als 0 < xI < x₂< 1(0elders). Ga na datE1>} 1>2=~ enp =1'>. 5. f(X},x 2) =e-x2voor _{O<x l} <x₂<00, =0 zo niet. . Ga na dalJl } - G(l ,! ) en1>2 - G( 2,1 ), enbewijs dal Co v~1 .2I.2) =I en p =

!V2.

3 .

Conditionele verdelingen

3.1. Conditionele of voorwaardelijke verdelingsfunctie

Onder de conditionele of voorwaardelijke verdelingsfu nctie van een stochastische variabele .1> gegeven een gebeurtenis A met Pr {A} > 0 verstaan we

P_r {₃ _""~ IA_x }= Pr_{Pr {A}

U .;:;;

x,A_} } Zo is bijvoorbeeld voor b > a: P_r {_{.1> "" x a "" .1> ""}~

I ,;;;:

.~b] ₌ Pr {x ';:;; x_{Pr {a .;:;;},a';:;;_{.l> .;:;; b ]}x.;:;; b}_

o

als x

<

a, 1alsx> b, Pr {a .;:;; x .;:;; x}

Pr {a';:;;.1>';:;;b} als a';:;; x.;:;; b. 3.2. Conditionele of voorwaardelijke dichtheid

Onder de conditionele of voorwaardelijke dichtheid van ~gegeven het op -treden van A wordt verstaan

f(x

I

A) =Apr {.1> ';:;; x

I

A}, mits Pr {A} > O.

In bovenstaand voorbeeld vindt men voor~continu met dichtheid f(') en verdelingsfunctie F('): f(x

I

a .;:;; ~.;:;;b) d F(x) - F(a) dx F(b) - F(a) =0 elders. f(x) F(b) - F(a) als a .;:;; x .;:;; b Toepassing.

Een machine verpakt bot er in papier .Het gewicht(.1» van een pakje boter is normaal verdeeld met gemiddeldeJlo= 255 gr en standaardafwijking

00 = 4 gr, Pakjes dieminder wegen dan a= 250 gr worden afgekeurd. Be-schouw en wenu de verdelingvan het gewicht van de goedgekeurdepakjes, dan kom t dat neer op het bepalenvan deconditioneledichtheid

(16)

_ f(x) f(x1~;;"a) - I _ F( a)

0 0

v07T

Pr {X;;"a}

= 0 alsx

<

a.

,x ~ a,

Van praktisch belang zalzijn het gemi dd elde (ver wach te) gewicht van de goedgekeurde pakjes, zijnde

}def -E {XIX;;"a =

i»

f(x1!i;;"a) dx = 0₀

..[2ir

Pr {~;;"a}

.J2ir

Pr{~;;"a} =/10

J

(/10 +0or)exp(-!r2) dr = a-I'o ao a - /10 2 ooexp(- i ( - o - ) ) + 0

V

211 Pr{ ~;;"a} 4ex p(-~ ) = 255 + ~ = 255,8 gr. O,8944y 211

Opgaven

\. Beschouwdeex po ne n tiëleverdelingmet f(x)

=

he-h Xals x;;" 0en ga nadat voor a

>

0: a) f(x

I

x;;"a)

=

he-h(x-a) alsx;;"a (en 0alsx

<

a), - t b) E(~b ;;" a } =a+ À'

Opmerking. Deze condition ele dichtheid iseen verschov en ex po ne n tië leverde ling. Stelt j;de levensduurvan ee n appar aat voor ,dan heeft blijkbaaro n-geach t de oude rdo mde nog teverstrijk enlevensd u ur dez el fdeV er-delin g als deleven sduurvan het apparaat zelf;de expone ntië le v er-delin gis een mod el zonde r "geh eu gen" .

2. I(x.y )

=

2 als0~x~Y ~I. =0cider s. Bewij sdat f( x

I

z

>

i)

=

1

als0~x~

t

.

=~(1 - x)als

i

~x~I, =0elde rs.

3. De stochavtisc hc variabelel".isun iform verdeeld op [ 4.0

I.

,\I,l =~2 , 4~+6.

bereke ndan

(17)

15 111 b) de dichtheidvan

r·

I Antwoord:

i

en -~ (2< y <6). 4VY - 2

3.3.Conditionele of voorwaardelijke dichtheid

Onder de cond it io ne le (voorwaardelijke) dichtheid van ~ gegeven~

=

y ver-staan we (wegens het feit dat Prf~

=

y}

=

0) :

f(x

I

y= y) = lim f(x

I

y

<

y

<

y +h).

- h+O

-Dus geldt dat f(xl y

=

y) = lim

~ Pr{~

< xl y < y < y+h}=

- h+O dx , -=Iim

~

h+O dx x y+h

L [

f(s,t) dsdt y+h

f

r,co

dt y y+h

f

f(x,1) dt

= lim y

=

f(x,y) als f

2(y)

>

O.

n--o y+h f2(y )

f

f₂( t )dt y

Opmerkingen.

I. f(x

Ir

= y) wordt ook genoteerd als f(x

I

y), de betreffende stochastische varia bele'als~

I

y.

2. Analoog is

f(y

I

_-

x = x) = f(x

_GW

,y) mits f (x)

>

0

I '

de conditionele dichtheid van ~gegeven ~= x.

Men kan nu de conditionele verwachting van een functie op(~)gegeven

r

= Y definiëren als

.

-E{op(~)

I

y}=

f

op(x) f(x

Iy) dx

.

In het bijzonder zijn van belang de conditionele verwachting (gemiddelde) van ~ gegeven ~ = y en de conditionele variantie van~ gegeven

r

=

y:

In de statistiek wordt E{~Iy} de regressiefunctie van ~ op }:: genoemd.

Voorbeeld .

Stel de gezamenlijke dichtheid van de continue stochastische variabelen~1 en ~2 is gelijk aan

f(x1,x

2)= g(xI,x2)

>

0 als(xI,x2 ) EA, = 0 elders.

(18)

I I I I I

-

T

-I I I Fig.1I1.1.

De marginaledichtheid van ~I isdan gel ijk aan

- XI

-fl (x_l)=!_f(_{XI, x2 ) d x2}

f

g(_{x I},x₂) dX₂ als XIEA I' X₁EI(x .)

=

0eld ers .

De voorwaardelijke dichtheid van ~2 gegeven ~. = xI isgedefiniëerd voor xI E AI en gelijk aan

f(xI ,x_{2 )} g(x \'x₂)

f(x2Ixl)

=

~

=

~ als x2 E l(x! ),

=0 elders .

Opgaven

1. f(x,y)=

e-:

voor0~x ~y,

=0elder s.

Bewijs dat (zie oo k opgave 5 in IiI.2.) : a) f(xl y) =t alsO ~x ~y ,

=

0 elders.

N.B. Voorw aard elijk edichtheid f(xIy )is alleengedefinieerd voor y

>

0, en

~Iyisuniform verdee ld op [O,y

J

.

f(y

Ix)

=

e-(Y-x)alsy.~x, .=0alsy

<

x.

N.B. Dezevoor waardelijkedichtheid is alleengedefinieerd voor x~0,en

y

I

xheeft een verscho ven expo nentiëleverdeli ng. b)

Eh

\

y

}

= ~y(allee ngede finiee rdalsy

>

0),

(19)

111 17

2. f(x.y) =

~

alsx2+y2

~a2

eny;;;'O.

rra2

=0elders.

Ga na dat

a) y1xuniform verdeeld is op [0.~

J.

b) ËÜ:I~ =

O

}=

!a.

3. f(xl'x₂) = 2voor 0 < xI _{< x2 <} 1en0elders. Ganadat

x2 1 2

a) EÜ~ l l x2}= 2 enVar(~ ( lx2).= ï2 x2 (0< x₂<1). b) Pr{O<!( <!1 !2 =~ } = jenPr {O <!1 <!}=à· e) E{!2IxI}=!O +xI)enVar (! 2 IxI )= ~(1 - x_l)2.

4. f(x.y) = 1 als -x < y< xen 0< x < I. =0 elders. Bewijs dat a) E{~I x} = 0 en E{! Iy} =

1

0 + Iyl). b) Cov(!,~)= O. 5*. Bewijs dat a) f'(x Iy) onafhankelijk Van y::::::? f'(x

I

y)=f1(x). b) f(x

Iy) onafhankelijk Van y

~ l!; en2::onafhan kelijk. e) Eh(!.r)=E[E{h(~.r)Ir }

J

.

d) Eo,o(!) 'I'(r);" E['!' (r) E{op(!)

Ir }

].

e) El!; = E [E{!l r }).

l) ! en ronafhankelijk=9 EG

Iy

}onafhankelijk van y=9 Cov(~,~)= O. Gevolg:Cov(~,r)

*-

0=9 EG Ir = y} afhankelijk van v.

4. Uitbreiding tot n stochastische variabelen

Iedere functie g(xI ' .. . ,_{xn) met g(x}I '.. . _{,x n)} ;;;. 0 en

f

..

. J

g(x_t, • . • ,xn)dx_t •• •_{dXn =} I kan opgevat worden als de simul-tane dichtheid van n continue stochastische variabelen2St, . . •'! n ' en be~ schrijft het kansgebeuren van deze grootheden gezamenlijk.

Degezamenlijke verdelingsfun ct ie G(x_{l ,}. .. ,_{xn) van} !I' . . . '~ n is dan ge-definieerd voor ieder n-tal reële getallen XI' . . . ,_{xn als de kans op de} gebeur-tenis 2S( ~ XI n . .. n!n ~x n:

Xl X_n

G(xl".' ,x n) = Pr{lf. ~X I '· ··'~n ~x n} =

J

.

..

J

g(t)•...•tn)dt•. .._{dt n·} Er geldt dat

(20)

Zijn destoc h astische variabelen ~1' . . . '~n discreet , dangaan weuit van een simultane kansfunctie (ge makshalve oo k 'dich th eid ' te noeme n)

zodat

De gezamenlijkeverdelingsfunctievan een aantal van densto chastische varia-belen (bijvoorbeeld~k+)' ... '~ n ) is bepaald door

Voor de gezamenlijke dichtheid van ~k+l ' . . . ,!'on geld t in het discre tegeval: h(x k+),.. . ,x_n) = L ' " Lg(x l' .. .,x_n),

-. Xk .en in het continue geval:

De verdelingsfunctie (resp.dichtheid) van zo'n deelgroepwordt in dit verband wel de marginale verdelingsfunctie (resp. dichtheid)genoemd .

De stochastische variabelen !'ol'.. . ,!'on worden onderlingonafhankelijk genoemd als voor alle waarden van XI'. . . ,_{xn g}eldt dat

n G(x_l, . . . _,xn) =

.n

_F/xj),

)=1

waarin Fj(x j) de marginale verdelingsfunctie is van !'oj

U

=

I, .. . ,n). Een noodzakelijke en voldoende voorwaarde voor onderlinge onafhankelijk-heid is dat voor alle waarden van xp .. . _{,xn geldt:}

n g(x_l,. . . _{,x n})

=

.n

_{fj(x j),}

)=)

waarin f/xj) de marginale dichtheid is van xj

U=

I,. .. ,n). Onafhankelijkheid van deelgroepen is analoog gedefin ieerd.

Als bijv.KI' ... '~k onafhankelijk zijn van !'ok+I' ... ,!'on dan wildat zeggen

dat

en dat elke !'oj(i = I, .. ..k) ona fh ankelijkisvan elke !'oj

U

=k+ l, . . .,n). De condi tio ne le ofvoorwaardelijk e dichtheid van de stochastisc he varia-belen !':.I'. . . ,!'ok gegeven dat ~k+)

=

xk+I' .. . '~n

=

xnis gedefinieerdals

(21)

111. 19

voo rdie waarden van _Xk+l' . . . 'X_{n waarvoor h(x}_k+I'. . . ,X_{n )}

>

O. Als de dee)groep!I' ... '~ k onafhan kelijk is van de deelgroep ~k·+l ' '~n

isdeze condi tion ele dichtheid gelijk aan de marginale dichtheid van !I' '~k

Het waarde n berei k Avan de stochastischevariabelenXI' . . •_{,x n is de ver}

-zame ling van waarden XI' . . . ,x_{n waarvoor de d}ichtheid positiefis:

Bij onafhankelijke stochastische variabelen is het waardenbereik het Carte-sisch produkt van de marginale waarden bereiken.

Voorbeeld (n

=

2) a) ~1 en ~2 onafhankelijk~ XI A 2 ' ---~

--~~

I I I b) I

Voor de verwachting van een functie 1/J(~1' '~n)van n stochastische variabelen met een gezamenlijke dichtheid g(xl' _{,x n) geldt in het con}

-tinue geval:

-E1/J(!I" . . '~n)= f1/J(x;, ... _{,x n) g(x}_l, · . . _{,xn) dx •..} .dx_n• en in het discrete geval:

E1/J(!1' ... '~n)= ~ .. . ~ 1/J(xl' ... •_{xn) g(x}_{l ,} . • • ,X_{n )·}

xl _Xn

We zien dat E een lineaire op erato r is, immers

De verwac htingvan~I met betrekking tot de voorwaardelijke dich th eid

so ,

I

x₂' . . . ,x_n) wordt de voorwaardelijkeverwach tingvan~I ' gegeven ~2

=

x_{2 '} •. • '!Sn

=

_xn' genoemd en aangeduid met E(~I

I

x₂' . • •_{,x n). De}

voorwaardelijke verwachting is een functie van x₂' ••• ,x n en wordt alsz o-danig de regressiefunctie van ~1 op ~2' . . . '~n genoe md. Laat deze functie gelijk zijn aan 11(X₂, •• . .x ,). Als de marginale verwachtingE~l bestaat,

(22)

Opgave

Beschouw de stochastische variabelen~I' ...'~n met E~j

=

Jlj en Var~i

=

of

(i=I •.. ..n). n n

Bewijs dat voor u

=

Laj~ien y

=

L bj~jgeldt:

I I

. 2 2

a) El!= L aiJlj en Var l!= L ai ai •

r..1.

aiaj Cov (xi,Xj)'

'''''''J

b) Var u

=

La~o~ indien xI' ...,_{x n onderling onafhankelijk zijn.}

- " - - df 2

c) Cov(l!,Y)

=

~ LajbjCov(~j'~j)metCov(~i'~j)

=

ai'

, J

d) Als0; ::02en~1" . .'''n onderling onafhankelijk zijn. is Cov(l!.y)

=

0~ ~ ajb

i O.

(23)

IV

.

Tussen 7 en 8

1. Transformatietechniek

1 .1.

Inleiding

21

o.

Beschouwde continue stochastische variabelen ~I' .. . '~n met simultane dich t heid f(x p . . .,x_n). Het probleem is nu het bepalen van de dichtheid g(YI'· .. Sm) van stochastische variabelen Xl' ·. . ,Xm (met m';;; n), gede-finieerd door Xj= Uj(~I' . .. '~ n) 'j= I, ... ,m. Op grond van het voorgaan-de ligt het voor voorgaan-de hand voorgaan-de dichtheid g vast te leggen door eerst te bepalen

Alhoewel de methode erg eenvoudig lijkt, kan het vaak moeilijk zijn om het integratiegebied V= {(XI' .. . ,xn )

I

uI(x!' .. .,Xn ) .;;;YI'· .. ,um(xl'. . . . ,x_{n )}

«

_Ym} te vertalen in integratiegrenzen voor XI' . ..,x_{n .}

Indien m=n (in het geval m

<

n moeten de nieuwe variabelen aangevuld worden met hulpvariabelen die later uitgeïntegreerd worden) en de transfor-matie één-éénduidig is,volgt ech ter uit het bovenstaande een directe uitdruk-king voorg.

1.2.

m = n =

1

Ga uit van de continue stochastische variabele~ met dichtheid f(x) en waar-denbereik A= {x

I

f(x)

>

O]. Laat Y=u (X) een één-éénduidige en differenti-eerbare functie zijn voor XEA;Y=u (x) is dus monotoon en de inverse func-tie x=w(y) bestaat. Dan is

X

=u(~) een continue stochastischevariabele met waardenbereik B= {y

I

y=u (x),XE A}.

Beschouw als Y EB: a) indien u (.) toenemend is,

w(y)

G(y)= Pr{u(l.')';;;y}= Pr{~.;;;w(y)} =

J

f(z) dz

dw

~ g(y) = f[w(y)] dy (hierin is w'

>

0). b) indien u(o) afnemend is,

w(y)

G(y)

=

Pr{u (~)';;; y}

=

Pr{~ ;:;:.,w(y)}= I -

J

f(z) dz

(24)

Conclusie: g(y)

=

f[

W(y)ll~;1

als yE B.

= 0 alsy ~ B. Kortweg ook te noteren als

g(y) = f(x)

I~;I

met x=:; w(y).

Voorbeelden

I. f(x)=:; I voor 0

<

x

<

1en 0 elders.

l

= -

In~ ~ ! =:; e -! .

A

=

{x

I

0

<

x

<

I} , B

=

{y

I

y

>

Ol

.

g(y)= I • je-YI = e-Y alsy

>

0,

=0 als y~

o.

2. Stel de stochastische variabele~ is uniform verdeeld op (0,1) en laat F(') een continue en differentieerbare verdelingsfunctie voorstellen; waarvan de inverse F-I bestaat; F' = f.

Beschouw

l

= F-l(~) ~ ! = F(X).

Dan heeft

X

de dichtheid g(y)= I •

I~;I

= f(y).

Dit resultaat speelt een grote rol bij simulatie. Laat het bijv.de bedoe-ling zijn waarnemingen aan de exponentiële verdebedoe-ling F(y)=

= 1-exp(-ÀoY) te genereren.

Wegens x=F(y)

~

y=

-t

lntl - x) is dit te realiseren via

X

= - ,1ln(l

-~)

met

~

uniform op (0,1);het genereren van - min

A_O .

of meer - uniform verdeelde getallen kan plaatsvinden m.b.v, een ta-bel van aselecte getallen of een standaardprocedure op de computer.

Opgaven

I. Stel ~uniform op (0,1) verdeeld en bewijs dat!

= -

2 In~eenx2

(2)·verdeling heeft.

2

2. ~heeft de dichtheid f'(x)

=

~

,

0

<

x

<

3.Ga na dat!

=

:!3 uniform ver deeld

is op (0,27).

3. Stel ~is continu met dichtheid fen verdelingsfunctie F.Bewijsdat y=F(~)

uniform op (0,1)verdeeld is.

-4. ~isuniform op(-~ . ~)verdeeld.Bep aaldeverdelingvan~=tg~.

(25)

IV

1.3. m

=

n

=

2

23

Stel de gezamenlijke dichtheid van de stochastische variabelen 1!:1 en 1!:2 is gelijk aan f(x_{I ,x2) terwijl}A

=

{(x .,_x2)

I

f{x,,_x2)

>

O}:

f(x_l,x₂₎ = f*_{(x l ,x}₂₎ als (X_I,X₂₎ EA;

=0 elders.

Door de transformatie Y₁=U_{I (XI , X}₂₎ _{en Y2}=U

2(X1,X2) gaat het gebied A in het Xl x2-vlak over in een gebied B in het Y₁_Y2-vlak.We veronderstellen dat de transformatie van A op B één -è én d u id ig is,d.w.z.dat de inverse func

-ties XI=wl(Y.,_{Y2) en x2}=_W2(Y₁,Y_{2) bestaan}.

De simultane dichtheid van l'1 en l'2 is dan:

g(yI'Y2) = Ijl f*[WI(Yl'Y2),w2( YI 'Y2») als (YI'Y₂₎E.B ,

=

0 elders.

Hierin is Ijl de absolute waarde van de determinant van Jacobi (de Jacobiaan van de transformatie): 3x₁ _{3x 1} 3YI 3Y2 J

=

~

3x 2 3YI 3Y2

Dit resultaat berust op het invoeren van nieuwe variabelen bij de berekening van meervoudige integralen.Immers met elke B

c

Bcorrespondeert een

A cA, zodat Pr {(y1'Y2)E B}

=

JJ

_{f* dx I dX2}

=

JJ

f* Ijl dy I dy 2'

- - A B

Opdat deze techniek geldig is, moeten de partiële afgeleiden (de elementen van J) _{bestaan en continu zijn in YI en Y2 en mag J n}iet identiek gelijk 0 zijn voor (Y₁._{y2) EB}.

Kortweg: g(y_{l , y}₂₎ = _{f(xl'x 2) Ijl} -met Xi = w_j(YI'Y_{2) v}oori= 1,2.

De verdereuitbreiding voor m=nzal duideli jk zijn.

Voorbeeld 1 f(X_I,X₂₎ = I als 0

<

Xi

<

I (i= 1,2) =0 elders. (i) \

~I

=

~

1+

~2

l'2

=

-ln ~ . g(Y₁_,Y2) = e-Y2

=

0 { X =e-~2 (ii) - I -y X = v - e -2 - 2 -"I als (y_l,Y₂) EB, elders. J

=

1

~

(26)

Uit (i) volge n de marginal e waardenb ereik en BI= {Y₁

I

0

<

Y

1

<

2} en

B2= {Y2

I

0

<

Y2

<

oo}.Uit (ü) volgt het geza m enlijk e waarde nbereik B

=

{(YI'Y2)

I

0

<

e-Y2

<

I,0

<

_YI- e-Y2

<

_I_}

₌

((YI'Y2)

I

0

<

Y₂

<

00, -ln YI

<

Y2

<

- _{ln ( YI}- I)}. fig.IV.I. 2

J

e-Y2 dY2 = Y₁ -In Y_I als 0

<

YI

<

I, =0 als _YI ~ 2. 1+e-Y2 g2(Y2)= e- Y2

_J

_dY 1 = e-Y2 _{als Y} 2

>

0, e-Y2 = 0 als _Y2.;;;O. Voorbeeld 2

~I en ~2 zijn onafhankelijke stochastische variabelen met dichtheden fi(x) voor i=1,2.We bepalen de dichtheid van .?SI +'?s2'

Zij ~\ =~1 + .?S2 en

X2

=~I' Omgekeerd is dan ~I=r2 en ~2=rl - r2' 1 0

I1

J = 1 - I = - I,dus

I

jl

= I.

(27)

IV

~ ~

=? gl(Y_l)

=

f

_{g(yI'Y2) dY2}

=

f _{f2(YI - Y2) f l(y2) dy2}·

--

-~ .

Met dezeconvolu tie -of vouwintegraalis dus de dichtheid van de

so m van twee ona fhankelijk estochastische variabelen te berekenen.

25

Toepassin g

We bepalen de verdeling van de som

i'l

=~I +~2 van twee onafhankelijke stochastische variabelen~l en ~2 die normaal verdeeld zijn met gemid-delden 0 en variantiesa~ resp.

ai:

Stel hierin

~ 2

omdat

_~exp[

-!

(z - ._. ) )dz

=..;2ii.

gl(·)isblijkbaar de dichtheid van een normale verdeling met gemiddelde 0 en variantie a~+

ai.

Gevolg

Laten~l en~2 onafhankelijke N(}..ll

,a;)

en N(}..l2

,ai)

verdeelde stochasti-sche variabelen zijn, en beschouw~=a1~1 + a2~2.•

Merk op, dat

. . df

X

-

_{a l}/11 - a2/12

=

al(~l - /11 ) + a2(~2 - /12 )

=

!S~ +

!;,

waarin ~7 en ~; onafhankelijk en normaal verdeeld zijn met gemiddelden

o

en varianties aia; resp.

a;ai-

Volgens het bovenstaande is nu

i'

-

_{a l}/1

_{1 -}

_{a 2}/1_{2 normaal verdeeld met gemiddelde 0 en variantie} aia~'+a;ai, hetgeen impliceert dat ~ een N(a1/1l+a2/12, aia~ +

a;a;)-verdeling heeft.

Opmerking. Herhaald toepassen van dit resultaat bewijst hetgeen in 7.5 van het boek is gesteld.

(28)

Opgaven

/.* ~I en~2 zijn onafhankelijk en uniform verdeeld op (0,1). Bewijsdat

XI

=

.../-2 In~1 cos 2"~2

~2

=.J-2ln

~I

sin 2"

~2

onafhankelijk en standaard-normaal zijn.

2. ~I en~2 zijn onafhankelijk en uniform op (1,10). Bepaal de dichtheid van

~I=~1~2' 1

Antw.: gl (YI)=llï_{In YI als I < YI < 10,}

=

tï

(21n10 -lny_l) als 10 <Y₁<100,

=

0 elders.

3. ~I en ~2zijn onafhankelijk en uniform op (0,1).Bereken de simultane dichtheid van~1

=

~I+~2 en ~2

=

~I - ~2'

Antw.: g(yI'Y2)

=

~ als jy21_{<Y I <2} - _ly2\,

=0 zorne ..

4. ~I en ~2 zijn onafhankelijk en verdeeld volgense-x.voo r x

>

O. Geef de dichtheid van XI=~I - 1>2'

Antw.: gl(Y₁)

=!

e-1YI1, -oo<Y_I <00.(Laplace-verdelinggenoemd) 5. ! en Xzijn onafhankelijk en standaard-normaal verdeeld.Ga na dat de dichtheid

van z=

~

gelijk is aan (1 I 2)' (d.i.de Cauchy-verde/in g)

-

X

"

+z

6. ~en

r

zijn gezamenlijk uniform verdeeld binnen een cirkel om de oorsprong met straal I.

Bewijs dat.à..en Cauchy-verdeling heeft. X

7. ~I en ~2 zijn onafhankelijk en verdeeld volgens e- x als x

>

0 (0, zo niet).

x

Bewijs dat !I+!2 en _-_1_ onafhankelijk zijn. 1>1+1>2

8. ~I en!2 zijn onafhankelijk met dichtheden fj(x) voor i

=

1,2.Bewijs dat

XI=uJ(~l)en X2=u2(~2) (1-1 transformaties) ook onafhankelijke

stochasti-sche variabelen zijn.

9. ~1 en ~2 zijn onafhankelijk en hebben een G(a,l)resp.G (jl,I)verdeling.

Bepaal de dichtheid van

~

~I+~2

. 1 a-I IJ-I <

Antw ..B (a,lJ) Y (1- y) , 0 Y < I.(Beta-verdelinggenaamd) 10. Bewijs dat voor de B(a,IJ)-verdelinggeldt:

Ex =_a_ en Varx= cilJ . - a+1J - (a+IJ)2(a + IJ+I )

*) Geententamenst of.he tresultaat iste gebruikenvoorhet sim ulere nvan normaal Ver-deeldegetallen.Denieuweverdelin gen op dezepaginalat en zichopanalogewijze simuleren!

(29)

IV

11.

27

Bereken de momentenschalters voor depar a met ers van de Gamma -en de Beta-verdeling .

Antw.: a)

Opmerking.

De Beta-verdelingiseen model voorverschij nsele ndie op eeneindig interval variëren;bijv. het dagelijks uitvalp ercentage bij de fabricage van een bepaald machineon derd eel. .

Merk ook op data =(3 = I de uniforme ver delin g geeft.

. 3.0t -- -t--- - - t - - - t -- -+- - + - - - + - -f - - - + - --I----\----I 2.0I-<!:---i-- --t- t +

-o

Fig.IV.2 . .1 .2 .3 .4 .5 .6 .7 .8 .9 1.0

2 .

Bel

angrijke

resultaten

a) ~J en ~2 zijnon afhan ke lijk en hebben een G(aj,{3)-verdeling(i

=

1, 2)

=9

~l +!2 heefteen G(a

l +a2,(3)-verdeling (pas con volutie-integraaltoe).

Gevolg

~J' . • . '~n on de rling onafhankelijken verdeeld volgens G(ai,{3)

n. n

i= 1, 2, .. . ,n

=9

~ !j heeft een G(a,{3)-verdeling met a = ~ai

J 1

(30)

b) !!.'.. '.'Y_n onderling onafhankelijk en N(O,I )-verdeeld isteek proefuil standaard-normale verdeling)

n 2 2

=? ~!!j heeft een X (n)-verdeling. 1

(!!r heeft een x2(I)-verdeling, x2(I )==

Gq

,2), dus wegens de additiviteit

n

heeft ~

yr

een G(~,2)-verdeling, per definitie x2(n».

1 .

Gevolg

~l en ~2 onafhankelijk en verdeeld volgens x2(n

t) resp.'

x

2(n2) =?!. + !2 heeft een x2(n. +n₂)-verdeling.

c) !.' . . . '!n vormen een steekproef uit de exponentiële verdeling met dichtheid Àe-ÀX voor x > 0

n

=?~ ~i heeft een Erlang-verdeling met parameters n en À(analoog bewijs 1

als in b). Gevolg

n

Volgens nopgave 5 is 2À.~!. - x2(2n), zodat Pr{~~. >x}

=

Pr{x2(2n) > 2ÀX}

1=1 I 1 _

d) Stel u standaard-normaal'en yverdeeld volgens X2_{(k ). Bovendien zijn} j;en

u

yonafhankelijk. !.=

-.fiiïk

heeft een zogenoemde t-verdeling (van Student) met k vrijheidsgraden.

De dichtheid hiervan is:

f(~) 2 _k+ I ----'2~_(l +.!..) 2 als - 0 0

<

t

<

00.

v'rrk

rr

~)

k als f> O. k

:;r-l

f f(~) r(~) 2 2 Notatie:

!.-

t(k).

We zien dat k=I de Cauchy-verdelinggeeft. e) Stel g heeft een X2(k

t )-verdeling en y een X2(k2)-verdeling, terwijl g en yonafhankelijk zijn.

f= !! / kt = k2 _!! _{heeft een Frverdeling (van Fisher) met kt en k} 2 vrij-- y / k₂ kJ Y heidsgraden. De dichtheid is:

rr

~ +k 2 ) 2 Notatie:

f. -

F(k.,k₂) ·

Merk op dat volgens de definities het kwadraat van een t(k)-verdeelde grootheid een F(I,k)-verdeling heeft.

(31)

IV

29

I. De dichtheden onderd en e laten zich,indien U zin heeft,met behulp

van transfo r ma tie met ho de n bewijz en.

2. Defor mele definitiesvan deX2-, t- en F-verdelingen (b, d en e) staan centraal in de stat istiek ;via de dichtheidsformules zijn

overschrijdings-kansen getabelleerd , en op het gebruik van deze tabellen komen we nog terug.

3. In S.I van het boek werd het Poisson-proces behandeld:

Ie 2e

!d

ke h

_I

4 I 1

1

0 T=l '

De 'tussenaankomsttijden'

!;

zijn onafhankelijk en exponentieel verdeeld volgens Àe-À t

, terwijl het aantal gebeurtenissen~ een Poisson-verdeling heeft met parameter À (immers, T = I genomen).

We zien dat

k k+l

i) ~= k ~

L!;

';;;

In

L

!;

>

I.

1 1

Realisaties van de Polssen-verdelingmet parameter À zijn dus te simu -leren via de som van 'lo tingen ' uit de exponentiële verdeling met para -meter À. k ti) L

!;

>

I ~ ~ .;;;k - I. 1 . k Dus Pr {; .;;; k - I} = Pr{L

!;

>

I} = Pr {x2(2k)

>

2 À} volgens c. 1

-Kansen met betrekking tot de Poisson-verdeling zijn blijkbaar ook via een x2-tabel te berekenen, en omgekeerd:

Pr{K 2(I0)

>

4} =Pr{~.;;; 4

I

m = 2} = 0,94 volgens het nomogram: zieappendix.

4. Vormen

Xl'

... ,

Xn

een steekproef uit een uniforme verdeling op (0,1), dan heeft

n n

-2lnny₁_{_}·=L(-2Iny.)_. ₁ _{_.}

een

x

2(2n)-verdeling, omdat - 2 In

Xi

volgens opgave I van IV.I.2 een X2(2)-verueling bezit. Dit is van belang voorsimulatie.

3 .

Bi-

en multinormale verdeling

3.1. Matrixnotaties

We gaan uit van n stochastischevariabelen~,'.. . '~n' Als vector gezien noteren we deze als

(32)

, . ( ] _dus

,

T. (,

,,

.

_'

ol

Van de n-dimensionale stochastischevector~

=

(~1' .. . '~n)T wordt de verwachtingsvectorJl= E~gedefinieerd als de vec tor met ele me nte n E~j

(j = I, .. .,n):

Jl= E!= (E ~I" .. ,E ~n )T .

We spreken ook wel kortweg van de n-dirnensionale stochastisch e variabele

~ met verwachting E.!=u. De co variantiematrix van een n-dimensionale sto-chastische variabele~ (ook welvariantie-covarian tiemat rix genoemd)is

gede-finieerd als de (n xn)-matrix ~x met elementen _{a ij}=E(~i- E~) (~j- E~): aij = Cov(~i '~) voor i =1=

i.

aii

=

Var!i=

af

(i,j= I, ... ,n ). Inhet vervolg wordt onder de verwachting van een matrixmetstoch ast ische elementen Yijde matrix met elementen EYijverstaan.Wekunnen de covarian -tiematrix dan schrijven als:

De covariantiematrix ~x iseen symmetrische matrix .

Als~ een n-dimensionale stochastische variabele is met verwachtingJlen n

covariantie matrix ~ , geldt voor de lineaire combinatie y= L a.x.= aT x:

x - i=l I - I

-en

Var

I:

=

E(~ - EY)(l: - E}::)T

=

EaT(l:; - Jl)(! - Jl)Ta

=

aT

t

_xa. Als verder_z

=

i

b.xI - I.

=

bTx geld- , t:

i=1

Opgave

(33)

IV 31

Opmerking

Beschouw de uitdrukking voor Vary. Dit is een kwadratische vorm in al'. . . , a_n· Omdat Var

X

;;;.

0 voor-iedere keuze van a,is ::l: niet-negatief deflniet"]. Een gevolg daarvan is dat voor de determinant geldt i_::l:xI;;;. O. Verder is Var y

=

0 dan en slechts dan als Pr{y

=

c}

=

1 voor zekere reële c. Met andere woorden:::l:x is positief

semi-defiI~iet

als er constanten al' .. . ,_{an (niet alle gelijk 0) bestaan},zodanig dat Pr{~~I ai~i

=

c}

=

I; in zo'n geval geldt

I

_x

1=

O. Als er geen lineaire afhankelijkheid tussen de stochastische variabelen~l' . • • '~n bestaat, geldt Var~

>

0 voor alle a=I=- 0, waaruit volgt dat ::l:x dan positief definiet is, zodat

u,

I

>

O.. Voorbeeld

1Cc=

C!I'~2,~)T,

::l:x

(~ -~

-;)

Bestudering van ::l:x levert in de eerste plaats op dat1Cc₁ en ~2 ongecor-releerd zijn. Verder is

u,

1=

0,zodat er met kans I een lineaire afhan-kelijkheid bestaat tussen ~I' ~2 en ~3' Uit aT::l: x a

=

0 volgt

a= X(1,-I,-I)T, zodat ~I - ~2 - ~3 =c.De constante c is gelijk aan - 6, hetgeen volgt uit E(~I - ~2 - ~3) = - 6.We kunnen dus vol-staan met de beschouwing van de stochastische variabelen~I en ~2'

omdat met kans één geldt: ~3 =~I'- ~2 +6.

Een uitbreiding van het voorgaande wordt geleverd door de volg,ende trans-formatie van ~l' . . • '~n naarYl' • • . ,Ik' Zij A een (k x n)-matrix en b

een k-vector van constanten. Voor de k-dimensionale stochastische varia-bele~=A~+b geldt dan:'

E

y

=

AJl+b en ::l:y

=

A ::l:x AT. Bewijs

Ey = E(A~+b) =A E~+b = AJl+b.

~

- Er

= A(~ :-Jl), dus ::l:y = E{A(~- Jl)(~- Jl)TAT}= A ::l:x AT.

• ) Een symmetrische matrix A en de kwadratische vorm uT Au noemen we a) positief definiet als uTAu

>

0 voor alle u=I=-O.

b) positief semi-definiet als uTAu;;;' 0 voor alle u en uTAu=0 voor zekere u=I=-0, c) niet-negatief definiet als uTAu;;;' 0 voor alle u.

Een niet-negatief definiete matrix is dusOfpositief definietOfpositiefsemi-definiet. Opgemerkt dient te worden dat so mmige schrijvers de term positief semi-definiet gebruiken voor matrices die volgens bovenstaande definitie niet-negatief definiet zijn.

(34)

Voorbeeld ~x =

(~ ~)

, {rl ~l +~2 + 2 X2 =3x-I - ~2 + 5

~y

(~

_-:)

(~ ~)

_C

3) _ (3 I : ) -1/ I

Stel ~l'• . . '~n zijn ongecorreleerde stochastische variabelen met ge-lijke variantie02: ~x =02I. Zij nu A een (n xn)-orthogonale matrix. Dan zijn de stochastische variabelen r₁, • • • ,rn die ontstaan door de

transformatie y = A! + beveneens ongecorreleerd met gelijke variantie

0 2.

-Bewijs

~y = A02 1AT = 02 A AT = 02I.

3.2 .

Definitie

T

Een stochastische vector ~= (!I' . . . '~k) ,welke kan worden voorge-steld als

~=Al!+p., waarin

a) A een (k xn)-matrix en p. een k-vector, beide van constanten (k = 1,2, .. .), b) l! = (1!1' . . . ,yn)T bestaat uit onafhankelijke en N(O,I)-verdeelde

compo-nenten (n = 1,2, . . . ),

heeft een verdeling welke wemulti (dimensionaal)-normaal noemen. Hieruit volgt direct dat

i) E!=p.en~x=A~uAT=AIAT=AAT.

ti) de verdeling van y = B! met Been (lx kj-matrix van constanten is ook multinormaal (w;gens

X

=

BA!! + Bp. = A*!! +Jl*).

iiij de marginale verdeling van bijv. !; is normaal(~i is immers een lineaire combinatie van onafhankelijke en normaal verdeelde grootheden). iv)vormen ~I' ... '~k een steekproef uit N(Jl,a2J, dan is~

=

(~l" .'!kJT

multinormaal verdeeld (immers!

=

0 I !! +

u

met n = kj.

De vraag is natuurlijk hoe de dichtheid g van! er uitziet. In de volgende paragraaf gaan we hierop in voor het geval dat k=n = 2 en A een specifieke matrix is.

3.3. Dichtheid

Beschouw~= Al! + p. met in het bijzonder

(35)

IV waarin 0i

>

0 (i= 1,2) en p2

<

I, d.w.z.: ~I

=

O.!:!I +p. ~2

=

P02!:!] + 02VI_p 2 !:!2 +11_{2 .} Blijkbaar is nu E2i;

=

(11., P_{2 )T} en 33

Zoals de notatie al doet vermoeden is dus E~i=Pi' Var~i =

of

(i> I, 2) en

P(~I '~2)=p.

Nu is[A] =

°

_1°2

vi

:-

p2

>

0, dusg = A-I(~ - p),

met Zodat

waarin

en

au , au]

J= aX1 aX2 = IA-II= I

0.02~

aU2 aU2 aX_I _aX2 -rnet

(~r

-

2p (x.

-~ll)~;2

-P2_{) +}

(~r

I --'p2 Dus: en wel voor - 0 0

<

xl'x₂

<

00.

g wordt de dichtheid van de bi (2·dimensionale)-normale verdeling genoemd.

(36)

Deze verdeling is een veelvuldig voorkomend model voor tweedimensionale verschijnselen. De ontstaanswijze uit onafhankelijke en standaard-normaal verdeelde variabelen kan gebruikt worden wanneer men dit model moet simuleren.

Fig.IV.3.a. Dichtheid van de 2-dimensionale normale verdeling; oorsprong in("1'''2)'

t

\ \ \ \ \ \ \ \

,

\ \

_,

,

_,

,

Fig.IV.3 .b. Lijnen van gelijke dichtheid (contoureUipsen); oorsprong in("1'''2)'

2pu u

tg2op=~

(37)

IV

,

35

Fig. IV.3.c. Vormenvan de contourellipsenvoor enkele combinatiesvanp,uI enu

2.

Opmerking

Op analoge wijze kan men voor het algemene geval met k

=

n en A regu

-lier(dus [A] =1=0, zodat A-I bestaat) de dichtheid van de n-d.imensio nale

normale verdeling vastleggen:

1 T T - I

1 -2(x-IJ) (AA) (X-IJ)

g(xl,···,x n) = !!. Ie ,

(27T)2 IA AT12

waarin

:t

_x

=

A AT (met

u,

I

>

0) en E~

=

Jl de parameters zijn.

Een specifieke verdeling met parametersJl_{o en}

:t

_{o kan dus gesimuleer}d

worden door

:t

_{o te factoriseren als Ao A~ en vervolgens te t}ransformeren

via x

=

_Aou+Jl_{o waarin u het resultaat is van n onafhankelijke 'loti}ngen'

uit de standaard-normale verdeling; hierbij is het van belang dat ~o een

inverse heeft,dus dat

It

_o

I

>

O. I

Een mogelijke keuze voor _{Ao is Ao}

=

U/\"1,waarin U de matrix vange

-normeerde eigenvectoren en /\ de diagonaalmatrixvan eigen waard en van

:t

_o voorstellen. Dan isdus~

=/\-

J/2 uT(~- Jlo),en de compon enten,van

!:!hetendegestandaardisee rdeprin cipale componenten van~. Ergeld t dat T ' ( TU\- l l·T(

~ ~= .~ - Ilo) I J ~- 1101=

= (~- Ilu)'I' ::1;) I(!i- Ilo)~Xl(n )

In woorden: de 'exponent van de normaledichtheid heeft een Chi-kwadraat verdeling.Een andere mogelijkheidisde Cholcski-Doolittlcopsplitsingvan

::1:0,

waarhij voorAo een drich ocksmutrixgevonden wordt. De inversematrix Y

=

A

~I

isdan eenvoudigtebep alen.en ergeldt dal

:t

~

)1

=

yTy.IndienItol

=

0, hestaan

er(zie IV.3.! )lineaire vcrhanden lussen;s.1•.. .•;s.nen ishetniet mogelijk een

(38)

3.4 .

Verdere eigenschappen

a. We bepalen allereerst" de conditionele dichtheid van~2 gegeven~I

=

X I in het

geval dat ~I en~2 binormaal verdeeld zijn:

(

I )

-

g(xl ,X2) _ [ I {X2- /12 pX I -/11 '2]

gX

2 XI - _gl_(XI) - ₀₂_""':11(1 _{_}_{p2 )} exp - ₂₍₁ _{_p2)} - - -₀₂ - - - -₀_l J

=

de dichtheid van een normale verdeling met gemidd elde

o

/1 +p-.1.(x - /11) en variantie 0~(I _ p2).

2 0l I .

Op grond van de ontstaanswijze is dit resultaat ook direct in te zien :

X

=

X ~ U

=

XI -/11

- I 1 -I · 0l '

zodat

zijnde een lineaire functie van de standaard-normaal verdeelde':!2'

Dit betekent dat ~2IXI normaal verdeeldismet gemiddelde (tevens de re

-gressiefunctie van

~2

·

op

~I)

₁₁₂ +p °2 (X I - /1₁) en variantieoi (I _ p2).

0, .

Verwisseling van ~I en ~2 in het bovenstaande leert dat de conditionele dichtheid van ~I gegeven ~2 =x₂ een normale dichtheid is met gemiddelde

o

(regressielijn van ~I" op ~2) _/11+P

cl

(x_{2 -} /1_{2 )}en variantie0;(1 - p2). 2

Merk op dat beide regressielijnen elkaar snijden in (J11,11₂) en dat ze voor

Ipl

;/=I een hoek met elkaar maken.

oorsprong in(/11.J1₂)

- - - - -- - hoofdassen I

=

regressielijn ~2 op ~ I

2 = regressielijn !I op !2

(39)

IV 37

?J

b. Beschouw de dichtheid g(x l'x ) van de binormale verdelin gvo or het geval dat p

=

0:

dUS.!1 en.!2 zijn onafhankelijke sto chastische variabelen. In dit geval is de covariantiematrix een diagonaalmatrix !

Heeft men in het algemen e geval een covarian tie ma t rixin de vormvan een diagonaalmatrix (~I'... '~ n zijn on de rlingongeco rreleerd), dus

(

a;

0 .

o

02

:t

x ;= .

2 o

;,)

_n

en zijn ~I' . . . '~n multinormaal verdeeld,dan zijn ze onderling onafhanke

-lijk. Deze belangrijkestelling kan no galgem ener gefo r mulee rd worden.

Stel dat de covariantie matrix

:t

_x van de multinorm aleverdeling als volgt ge-partioneerd kan worden:

waarin

:tI

een (q xq)-matrix en :l:2een (n-q xn-q)-matrixen

0

een ma-trix die uitsluitend uit nullen bestaa t.

Dan: (~I' ... •~q)onafh ank e lijk van (~q+ l' -. -'~n)' Opgave

Geef comme n taa rop de eigensc happe n(gadeze ook na)va nde sim u ltane d

icht-heid J

f'(x.y)= Tr-J3 coSh ( 3 x y) ex p{--~ (X 1.. y1)}. -oo < x. y <00.

a) de mar ginaleverdelin gen va n~en ~ zij nstandaa rd -no rm aa l. b) ~enXzij nongeco rrelcc rd.

c) ~en~ zijn afha n ke lijk.

4.Steekproeven uit normale populaties

Laten ~I ' . . . ';.(11 een steekproefvorme n uit een N( Il,u1I-vcr d cclöc p

opu-lat ie.Er worde n nu enige resul t a te n afgeleid betreffe nde het stee kpro efge

-middeld e

R=

A

2:

~i e

~

de steekp roe fva rian t ie

~1

=r!-1 2:

(~

i

-

~

)1

, nl.:

a)

g

en ~1 zijn onafhankelij ke stochastische var iab el en.

b) (n- I)

~1

heeft een

x

1_{( n}_{_} ₁₎_{-ve rdeling.} 01

(40)

Bewijs

Beschouw de sto chas tisch evector ~

=

(XI' . . . ,2'n+1)T met Yi

=

~i - ~

(i

=

I, . . .,n) en Xn+ 1

=

R

.

Omdat ~;

=

a

l!i+

u

,

is~

=

a

l!

+

u

,

zodatvoor i

=

I •.. .

.n

:

Xi

=

a(!!;

-

ï!

)

= a

{-

k !!,

-

..

.

+(J

-

i )

!!

;

- .

.

. -

*!!n}'

.Dit impliceert dat ~

=

Al!

+

u

,

waarin de (n

+

I xn)- ma trix A is:

n-I ) ) -n- - n ·- n ) n-1 1

-

n

-n-

_-

_n

A=a n - ) -n-en Jl=

o

1 n

Dus

r

heeft een multinormale verdeling met ) ij !!.=J n

o

I n n- ) n -) n n - )

-n-o

o

1 n zodat(~), ... '!'n) onafhankelijk isvanYn+1' d.w.z.Ken

2 _ ) n - 2

(~I - K, ... '~n -~) zijn onafhankelijk, dus ook~en ~ - ïï=T L (~i-lf) . )

Voor het bewijs van b merken we op dat:

der I n 2 I n 2 Z

= -

L(~i - J.1) = - L (;j -

K

+

K -

J.1)

-

a

2 ₎ _{0 2} 1 n 2 n der =a2

7

(~i -~)

+;ï

(R - Jl)2

=

I)

+

I2' Hierin is n x. - Jl i) I

=

L (---'

--l ,

dus X2(n) verdeeld. ) 0 2

ü) I2 verdeeld volgens X2(J),immers~ is N(Jl,~)verdeeld.

(41)

IV

Minof meer heuristisch heeft dan (n - l)s2

Z

=

-I 02

ee n X2(n - 1)-ve r d e li n g.

Opgaven

I. Bewijs dat onder de uitgangspunten van deze paragraaf

x -

IJ

a) - C een ten - I)-verdelingheeft.

s/yn 4

b) E-~2 =02 en Var~2 =;~I

.

n- I

_~re-2-)

c) Ean.5.

=

ometa,

=

·V

2-

re!!) . 2

39

2. Laten xI' .. '~nl een steekproefvormen van n_l onafhankelijke waarnemingen aan~die N(IJI'012) verdeeldis,en analoog!:I' ... '!:n

2onafhankelijkewaarne -mingen aan l _{welke N(IJ 2,022) verdeeld i}s.

Bewijs dat indien ?i en yona fh a nkelijk zijn:

2 2

-~I O2

a) 2 2ee_{n F{n l} - _{l,n 2} - I)verdelingheeft.

~20)

een t(n

l+n2- 2)-verdeling heeft als bovendien0~

=

oi

·

Opmerk ing.

Op dez eresulta ten zijn veel statisti sch etechniekengebascerd.,zoalsonde r meer in 9.2.2,

11.3en 12.2 vanhet boekbehandeldworden ;2.aisvan belang om de in 2.bvereiste

o~=o~ nategaan!

Stelnu da t?i en.yniel ona fh a n ke lij kzijn. maarweleenbino rma le verdeling bezitten .

Vo or ~

=

.?i

+Xeny.-;!5 - Xgeld t dandalp(~ .y'}=0 Ç> Cov (~,y'}

=

0 Ç> o~

=

o~,terwijl

bovendien(~.~) hinor ma alverdeel di~.Opgro nd vanwaanu-mingenaan~eny,dushier -mee correspo nde rendewaarne mi nge naan~en~isdande~c1 ij k hc idvan dev~riantieso~ eno~ (bijafhanke lijke slel"kproe VL'n)teonde rzoe ke n do or nate pan ofp( ~,y.)=0; zic

hier vo or 13.3vanhethoek.

5 .

Diversen

5 .1 .

Mult inorniale verdeling

Be s ch o u w een experi m e n t met als mo gelijke uitkom ste n de el kaa r uit

slui-te n d e gebeurtenissen I'.), E₂, .. ,[:k ' Stel P,= Pr{E) en zij?iihet aa n t a l

keren dat Eiop t re e d t bij n on afh a n k d iJk e uit vo erin gen van het expe r i me n t:

k k

~ Pi

=

1 en \" :';,= n.

)

(42)

n!

Pr{~l=x_1, · . . '~ k=x_k}

k voor xi';;;;' 0 en geheel, L xi

=

n.

I

Deze kansverdeling wordt de mu/tinomia/e verdeling genoemd, en wel (k- 1)

-k- I

dimensionaal wegens het feit dat x k

=

n - LXi'

I Zonder bewijs vermelden we dat

E~i= nPi' Var~i

=

n Pi(I -

p)

voor i= 1,2,. . . ,k.

Cov(~i'~i) = -n Pi Pi als i

*-

j.

Het is directin te zien dat de marginale verdeling van elke ~i (i= I, ... .k)

binomiaal is met parameters n en Pi'

5.2 .

Geordende waarnemingen

Beschouw de steekproef2'1' ~2' . . . '~n uit·een continue populatie met

dichtheid f(x) en verdelingsfunctie F(x). Zoals bekend is dan

f(x) = F'(x) =lim F(x+h) - F(x) = lim Pr{x';;;;~,;;;; x +h}.

" h .. O h h .. O h

Wanneer de waarnemingen naar opklimmende grootte gerangschikt worden,

krijgen we nieuwe grootheden die veelal aangeduid worden als~(l)' ~(2)' . .

. . ,~(n); men spreekt van de geordende steekproef.

Blijkbaar is~(l)=min{~I' . . . '~n}en ~(n) = max{~l' . . . '~n}'

We zijn geïnteresseerd in bijvoorbeeld de dichtheid g(x) van ~(kr

()_ . Pr{x';;;;x(k)';;;;x+h}

g x - lirn h '

h"'O

en hierin is op grond van de muJtinomiale verdeling Pr{x';;;; !(k) ,;;;; x + h} =

= Pr {één van de waarnemingen ligt tussen x en x + h en van de overige zijn

er (k - I) kleiner dan x, terwijl er(n - k) groter zijn dan x + h}

=

(k-I)!

~:

(n-k)! {F(x)}k-l {F(x+h) - F(x)} {I - F(x+h)}"-k,

zodat

g(x)=lim n {F(x)}k-l

F(X+h~

- F(x) {I _ F(x+h)}n-k =

h"'O (k-I)! (n-k)!

(43)

IV

Opgaven

41

I. a) Ga na datde dichtheid van dekleinste resp .degroo tste waarneming gelijk is aan

b) Bewij sdat de verdelingsfunctie van de klein steresp.gro ot ste waarneminggelijk is aan

I - {I - F(x) }n resp. {F (x)}n.

2. Stel n=2m +I, en bepaalde dichtheid van de middelste waarneming "'(m+l)' de zogenaamdesteekpro efmediaan.

(2m+ I)!

Antw.:~ {F(x)}m {I - F(x)}mf(x).

5 .3

.

Bij

7 .6.4.

Schatters ~voor een parameter {) worden met elkaarvergeleken via de

gemiddelde kwadratisch e[out

Hoewel niet noodzakelijk is het voor onz e doeleinden voldoende een schatter

1₁ beter dan een schatter

1

2 te noemen ,indien

GKF

1,

<

GKF

h

voor alle {).

Indien een schatter

1.

niet zuiver is, heet het verschil B t

=

Et - {) deonz

ui-verheid (bias) van

1. Opgaven

-k

k

I. .Ga na dat GKF 1

=

Var 1+(IJ1) 2 .

Bij zuivere schatte rs isB 1

=

0, en ishet vergelijkingscrit eriumdus de variantie. Beschouwde ste ek proe f~I ' .. . '~ n uit een uniform op (0.{J)verdeelde populat ie,

en bewij s dat

n+I . I 0 " t

a) 1₁

=

2:;;en 1₂

=

-n- ~(II)zuivere serat tors voorIIzij nenla l 1

2 beter is dan

1₁ (n ;;;.2).

. 11-+ " b) GKF

n+i

~(II)=

3. Stel~l' .. . .21\lij n ona fhaukvlijkc waarnvmingvnIstL' I..'kp rul' flaan~ met F~~J.1 en cindig« variantic, Ikwir..<bts::dehest\.'zuivere lineai reschatte rYQ\)fJ.1 is

(44)

n

(d.w.z. : van alle lineair e schatt erst

=

7

aj!s;voorJ.l diezuiverzij n, heeft~de kleinstevariantie).

Aanwijzing: 1:a~=1:(a. -

1.)2

+

1.

als 1: a,=I.

I I n n i

4. S2 ens2 zijnsteekp roefva riant ies .te berekene n uit de aselectesteekproeven van

-I -2

n

l resp.n2 waarnemingen uit norma alverdeeldepop ulat iesmet gemiddeldenJ.lI

resp.J.l

2engelij ke varianties

cr

.

Bewijsdat debeste lineair ecombin atie van~~ en~~ dieeenzuivereschatter voor

cr

oplevert,gegeven wordtdoor

(n i - 1)~; +(n_{2 -} Ihi

n

1+n2 - 2

5~ Beschouwdestoc hastische variab elen!S.en

r

(E K

=

Il, 'E~:

=

Il" VarK=

a;

,

Var1:=

a;

enp(lI,~)=p.)In tegen stellin gtot~ is?imoeilijk waarneembaar,en daarom wordt~voorspelddoor

S

=a+by,Bewijsdat E(S- !S)'minimaal is als a

=Il,

- p(a,

t

«

.

)Il, en b=p(a.!«.»(V-;;rgelijkdit metderegressiefu ncties van de binormaleverdeling).

Aanwijzing:E(S- !S)'=E[a' +2a(b~- ~)+(b~- 11)').

V

.

Bij 13

1. Het lineaire model

1.1. Formulering

De in het tweede gedeelte van 13.3 geintroduceerde modellen kunnen onder één noemer gebracht worden door uit te gaan van

1.

=(31 Xl

+

.

. . +

_{(3px p}

+

s

.

waarin de grootheden \ als instelbare variabelen worden beschouwd,en de variabele

1:

stochastisch is wegenseen bij elke instelling optred ende meet fo ut

~.

Immers de constante ain genoemde modellen correspondeert met deins

tel-lingXI

==

I,terwijl een kwadratisch verband gerepresente erd wordt door p= 3 met x

3

=

x; (en Xl

==

I);(*) laat ook modellen toe als

1:

=a

+

(31 Xl

+

(32 X₂

+

(33 XI X₂

+

~, waarin de variabelen Xl en x₂ dus niet additief werken.

Bij n instellingen geeft (*):

(i ':"1,2, ...,n).

Hierin is~i een niet-waarneembare stochastische.variabe le(de meet fout ) met

E!ii= 0, Var!ij

=

02 en Cov(!ii'~j)

=

0 (i

*

i). . De parameters(31 ' . . .,(3p zijn onbekend, alsmede veelal 02

Het beschreven model wordt een lineair model geno emdomdat het lineair is in deparameters

PI ' .

. .

,{Jp'

(45)

v

Het modelis in matrixnotatie te schrijven als X = Xp+~, waarin

43

XI XII xI 2 ~2 X 2 1 X2 2 X= ,X = X _~_I

<,

1

lp X 2p ~2 ~2 ,~= €= '

-~r

J

X_np

De veronderstellingen omtrentf_l '. . . '~n kunnen nu als volgt worden samen

-gevat: de n-dimensionale stochasti sche variabelei.heeft verwachting 0 en va

-riantie-covariantiematrix ~ Ü:)=a21.Voor de n-dimensionalestochastische

variabele

I

volgt dan EX = X~ en ~(I) = a21.

1.2. De kleinste-kwadratenschatter voor

(3

Stel b is een sch a t t ing voor(3. Dan is Xb een schatting voor E~ = X~. De

kleinste-kwad rat en schatting vo or ~ is ge defin iee r d als .lie vector b waarvoor

de len gte van de vector y- Xb minimaal is.We moeten dus h zó kiezen

dat het inwendig produkt

O(b)= ( y -X b jT ( y-Xb )=

~

(y.- b 1 x . -·...- b X.)2

;=1 I .1 P lp

geminimaliseerd wordt.

. aO(b) . T T

UIt ~ = 0 voor J= I,.. .,p volgt 2X Xb ~ 2X Y= O.

J

Dit levert een stel sel lineairevergelijkingen in b (de zogenoemde

normaal-vergelijk ingen ): XTXb = XTy.

De op lo ssing van dit st elsel is slech ts uniek als de sy m me t r isc h e (p xp)-ma

-trix XT X regulier is.Hieraan wordt volda an als

rt

X),de rang van de matrix X,

gel ijk is aan p ;dit impliceert dat n;;;'p moetzijn . De klein

ste-kwadratenschat-ter voor~ wordt dan b =(XTX)-I XTy. en de ze is zuiver voo r~. want

E~= (XTX)-IXTE~ =-~.

-Dat we inderda ad met ee n minimum van Ql b ) te maken hebben. volgt uit

he t feit dat de matrix van twee de afge le ide n van orb)gelij k is aan 2XTXen Jus posit ie f-defi nie t is.

Een nicct k u ndig« intcrprctat ir va n dit rcsult aa t is het volgende :

We ku n ne n y hcsch ouwcn alsn'n vcctor in een n-din u-nsionale vec to rru im te

Ril. Als de ~ani' van :\ gc'lijk is aa n r. sp anne n lIto kol omm en van X (die we

zulle n aanduiden met / ... ..I ) in Rileen r-dimcn sionalc devlru imt c Dop.

I I'

I'

Omdat

:\

13

= ~ ,3./. ven lineaire com b ina t ie is van de haxixvcctorc n van D

j I " .

geldt dus I'~' = X~' D. Hctzvl f'dv argument leve rt Xbs: Dvoor een w

(46)

Demethode van de kleinste kwadratenzoekt dus in Deen vect or XQ. zodanig dat de lengte van de vectory - XQ. minimaal is. Dit ishet geval als deze vec-tor loodrecht op D staat, dus als XQ de orthogonale projectie

Yo

van

Y

op D is. Er moet dus gelde n (~- Xg)1D, waaru it volgt

(X

-

XQ)llj

U

=

I, ...,p). Met ande re wo ord en lT( y - Xb)

=

0

U

=

I,.. . ,p) of samengevat

J - - .

XT(1' - XQ.)= O. En dit is weerhet stelsel normaalvergelijk ingen . Omdat

Yn

= XQ.E D altijd bestaat en uniek is,kan altijd eenvector Q. gevond en worden die voldoet aan de normaalvergelijkingen. Alsr= r(X)= Pis er p re-cies één oplossing : Q=(XTX) -I XT~:

Opmerking.

In dat geval is

Yn

=

XQ.= X(XTX) -I XTr

=

Wr. De matrix W iseen project ie-matrix (de symmetrische ie-matrix W is idempotent: WW =W).

1.3. Het schatten van

02

Uit y

=

Yo +(y- Yo) volgt met Yb(Y - _{Yo) = 0,} dat yTy = YbYo +(y- YO)T(y - Yo ) '

De variatie in het waamemingsmat eriaal, weergegeven door de kwadra at so m yT Yvan de waarnemingen, is opgesplitst in een door het model verklaard e deel YbYo (ook wel regressie-kwadraatsom genoemd )en (y - YO)T(y - yo) (de residu ele-kwadraatsom' ï ;de laatste gaat een rol spelen bij het schatten

.van 0 2.

Er bestaat nu een orthonormale basis PI'... 'P_n in Rn zodanig dat PI' ... 'P_r de deelruimte D opspannen (te construeren via orthogonalisatie van /

1,•• .,lp met de methode van Gram-Schmidt bijvoorbeeld).

n r

Dan is y = 1: yp. en y0 = 1: yp., waarin _Yp. de projectie van y op vector

i=l I j=l I I

Piis. Zoals bekend geldt voor een vector Pi dat Y_p.=XP_j zodanig dat

T . I

Pi (y- Xp~= O.

D_us , -1\ - --y- -PiY - p.Ty daar p.Tp.-- I. Dit' beteken t dat voor1 -.- I,. ..,n

p.p. I I I •

I , n

YPI' = ziP; met Zj = P;

v

.

Dan is y- Y

_o

= 1: Z.p. , ofwel

i=r+] I I

T _ n 2

(y-yo) (y- yo)-.1: Zi "

,=r+1

We onderzoeken de eigenschappen van de stochastische variabelen z.= P:y -I 1

-(i=I, ...,n).

In vectornotatie hebben we ~=Pl" waarin

P,;,

(

PJ orthogonaal is

(PpT • 1). PnI

(47)

v

45

Deze transformatie van de ongecorreleerde ~I ' .. .,~n met variantie02 heeft

tot gevolg dat ook z_-1,.. .,Z_-n ongecorreleerdzijn met variantie02 (zie IV,

§3.1). Verderis Ez. = p:Ey =

°

als i;,;;. r+ I omdat immers EyE D. '

Dus

Ez~

_-,

=0 2 als

i'

;,;;.

r~

I.-

-Besch ouw de verwachting van de residuele kwadraatsom: E(y -y )T(y _y )=E

:Ë

J/

=(n-r)02.

- -0 - _0 i=r+\I

Een zuivere schatter voor 02 wordt dus geleverd door

(als n

>

r), waarin r = dim D = r(X).

Voor de teller hiervan is een aantal schrijfwijzen mogelijk:

(~- ro)T(~

- ro) = (r - Xl?)T(r-

X~)

=

= (~- XQ)T

r

=

=~Tr - (Xl?)T(X~) =

=~T~ _ QTXTr,

waarin

Q

een willekeurigeoplossing is van de normaalvergelijkingen *).

Als r ;, r( X)= p, is deze oplossing uniek en is de laatste van de gegeven

schrijf-wijzen bij berekeningen meestal het eenvoudigst:

Opmerking.

Indien de kleinste-kwadraten schattingen erg goed het model weergeven, zal

de residuele-kwadraatsom klein zijn. Dit betekent dat y TY "" bTXTY en dan moet men numerieke berekeningen met een grote nauwkeurigheid uitvoeren

om geen absurde uitkomsten (zoals een negatieve variantie-schatting) te krij

-gen.

1.4. Verdelings

-aspecten

Tot dusver hebben we de verdeling van y niet gespecificeerd. We vero

nderstel-den slechts Ey = X{3 en

:j;

(y) = 021.Nu-voerenwe ;Us extra aanname in dat

de meetfouten onderling on~fhankelijk en normaal verdeeld zijn, hetgeen neer

-komt op f - MVN(O,021) en ~ - MVN(X{3,021).

Let wel:

Met de notatic g - MVN(Jl,V) wordt aangegeven dat de sto ch ast ische vector

}:!een meer-dimensionale nor male (Eng.: MultiVariate Normal) ver delin g heeft met verwachtingsvector Jlen variantie-covari ant iematrix V.

Uit deze veronderstelling volgt dat de stochastische variabelen~I'.. .'~n in

voorgaande paragraaf onderling onafh an kelijk en normaal verdeeld zijn met variantie 02. Dit betekent dat

(n-r) s2 n Z.

a) - -2 -- = L (::l)2 -

x

2( n- r): met behulp hiervan kunnen voor 02

o i=r+l 0