• Nie Znaleziono Wyników

Elementaire statistiek

N/A
N/A
Protected

Academic year: 2021

Share "Elementaire statistiek"

Copied!
211
0
0

Pełen tekst

(1)

-

-

-

----~

Elementaire

Statistiek

J.

van Soest

x

x

X

--+---+--X

X

xx

K

x

X

x

x:

xx

(2)

I .

l

/0 ()

t {

8

c0

~I

J

n

,v~

..

l

Ele

'

mentaire Statistièk

El i b 1 lot heek TU De 1 ft.

~1111I!lIlllll

C 1902191

2478

569

2

\

i

(3)
(4)

Elementàire Statistiek

ir.

J.

van Soest

(5)

CIP-gegevens Koninklijke Bibliotheek, Den Haag Soest, J. van

Elementaire statistiek / door J. van Soest.""':' Delft: Delftsche U.M. -

m.,

tab. Uitg. van de :Vereniging voor Studie.. en Studentenbelangen te.Delft.

ISBN 90-6562-003-6 Trefw.; statistiek.

©VSSD

. Zévénde druk 1992 Eerste druk 1972

Delftse Uitgevers Maatschappij b.v.

P~O. Box 2851, 2601 CW Delft, The Netherlands Tel. 015-123725

A.lle rechten voorbehouden. Niets uit deze Uitgave mag worden verveelvoudigd, opge-slagen in een geautomatiseerd gegevensbestand, of openbaar gemaakt, in enige vorm of op enige wijze, hetzij elektronisch, meçhanisch, door fotokopieën, opnamen, of op enige andere manier; zonder voorafgaande schriftelijke toestemming van de uitgever . . All

righls reserved. No part ofthis pubiication

may

he

réproduced, storM in a retrieval

system, or transmilled, in any form or by any means, electronic

,

mechanicà1,

photo-copying, recording,

·

or otherwise, without the prior wrillen permission of the

publisher

.

(6)

5

Voorwoord

Deze handleiding is geschreven ten behoeve van het college Toegepaste Statistiek, gegeven aan de Technische Universiteit te DeIt:t. Aangezien vele , studenten niet aan het vervolgonderwijs toekomen en gelet op de belangstelling die voorgaande uitgaven ondervonden hebben bijvoorbeeld bij de onderwijs-vormen HTS en HEAO. is gepoogd tot een min of meer afgerQnde hoeveelheid basisstof te komen. Het boek bevat dan ook meer onderwerpen dan in het college behandeld worden en een aantal hoofstukken is zeer doelgericht geschreven. Algemene opzet, vele voorbeelden en opgaven zijn afkomstig van de door prof.ir. J.W. Sieben verzorgde colleges en examens aan de TUD. Ook is er een Aanvulling op Elementaire Statistiek (ISBN 9(kj562-OO~) in de handel waarin een belangrijke uitbreiding wordt gegeven van de leerstof in de hoofdstukken 3. 7 en 13.

Tegen inlevering van een diskette is bij de auteur een statistische manipulator verkrijgbaar. te gebruiken op een personal computer als rekenhulp op het gebied van beschrijvende statistiek. keuringen. verdelingsfuncties. toetsen voor aanpassing. betrouwbaarheidsintervallen en eenvoudige regressie- en variantie-analyse.

januari 1992 J. van Soest

Faciliteit Technische Wiskunde en Informatica TU Delft

(7)

(

Inhoud

VOORWOORD 5 INLEIDING '11 1. BESCHRIJVENDE STATISTIEK 14 \ 1.1. Frequentieverdelingen 14

1.2. ,Kentallen voor ligging 17

1.2.1. Gemiddelden 17

1.2.2. Demediaan 20

, 1.3. Kimtal ~oor variabiliteit 20 1.4. Ver~nvoudigde berekening van gemiddelde en'

standaardafwijking· 22

1.5. Berekening vande kentallen uit een frequentieverdeling 23 1. 5.1. Geiniddelde en variantie 23

1.5.2. Demediaan 2"·

1.6. Modus en modale klasse 26

1.7. Opgaven 27

2,: KANSREKENING 29

2.1. Inleiding 29

,2.2. Kans-axioma's ,33

2.3. Rekenregels 35

2.3.1. De kans dat een gebeurtenis niet optreedt 35

. -2.3:2: De kans dat minstens één vari twee gebeurtenissen

optrèedt 35

2.3.3. De kans dattwee gebeurtenissen geliJ1ctijdig optreden 37 2.4. Regels van de totale waarschijnlijkheid en van Bayes 39

2.5. ' Permutaties en combinaties 41

2.6. Opgaven 42

3. STOCHASTISCHE VARIABELEN; POPULATIE EN STEEKPROEF 44

3 . 1. Discrete stochastische variabelen 44

" 3.2. Continue stochastische variabelen 50

3.3. Populatie en steekprOef 58

3.4. Opgaven 60

4. DE BINOMIALE VERDELING 63

4.1. Gemiddelde

en

variantie 63

(8)

Inhoud · 7

4.3.

Benadering door de normale verdeling

66

4.4.

Keuring op attributen

70

4.4.1.

De keuringskarakteristiek

70

4.4.2.

Kentallen van de keuringskarakteristiek 72

4.4.3.

Het ontwerpen van een bruikbare keuring als twee

kentallen gegeven zijn

73

4.5.

Opgaven

74

5.

DE POISSON-VERDELING

76

5.1.

Ontstaanswijze

'

76

5.2.

Exponentiële verdeling 77

5.3.

Toepassingen van de Poisson-verdeling

78

5.4.

Schatting van de parameter van de Poisson-verdeling

82

5.4 .1.

Schatting uit het gemiddelde van de

waarnerningsuitkornsten

82

5.4.2.

Schatting uit het aantal gevallen waarin de waarde '0'

gevonden wordt

82

5.5.

Opgaven

83

6.

DE NORMALE VERDELING

85

6.1.

Inleiding

85

6.2.

Toepassingen van <,te normale verdeling

85

6.3.

Aanpassing van een normale verdeling

88

6.4.

Schatting van de parameters van de normale verdeling

90

6.4.1.

Schatting van Il

90

,

6.4.2.

Schatting van 0'

90

6.4.3.

Het combineren van schattingen voor 0'

94

6.5.

Opgaven

94

7.

FUNCTIES VAN CONTINUE STOCHASTISCHE VARIABELEN

97

7.1.

Inleiding

97

7.2.

De lineaire functie y

=

~

+

b

97

7.3.

De functie y

=

<p~)

98

7.4.

De lineaire functie y

=

all~l

+

a2~2

99

7.4.1.

Gemiddelde en variantie van y

99

7.4.2.

De variantie van y als ~l en ~2 onafhankelijk zijn

101

n

7

.

5.

De lineaire functie y

=

L

a~Î

102

Î=l

7.6.

Bijzondere gevallen; toepassingen

103

7.6.1.

Het verschil van 2 onafhankelijke stochastische

\

(9)

(

8 Elementaire Statistiek

7.6;2. De som van 2 onatbankeliJ1ce stochastische variabelen 104 7.6.3. De ~om en het gemiddelde van n onderling

onatb~elijke~n identiek verdeelde stochastische variabelen

/ " '

7.6:4. MÇ>mentenschatters

7.6.5. Meest aannemelijke schatters

7.7. Opgaven

8. CENTRALE LIMIETSTFLLING; TOEPASSINGEN

8 .1. Centrale limietstelling

8.2., Betrouwbaarheidsinterval voor het gemiddelde J.l. van een populatie met bekende of onbekende variantie cr2, gebaseerd . , op een grote steekproef

105 107 , 108 110 112

02

11~

8.3. Betrouwbaarheidsinterval voor een fractie, en-voor het verschil .

van twee fracties 8 .4. Controle-kaarten '

8.5. Keuring op variabelen 8.6. Opgaven

9. STATISTISCHE TOE'rSEN EN BETROUWBAARHEIDSINTERVALLEN

9.1. Statistische toetsen

9.1.1. Terminologie en opzet via een voorbeeld

9.1.2. , Fout van de tweede soort en het aantal waarnemingen 9.1.3. Samenvatting

9.2. Toets vOOr het gemiddelde J.l. van een normaal verdeelde populatie met bekende of onbekende variantie cr2

9.2. 1. Populatievariantie bekend 9.2.2. Populatievariantie onbekend

.

,

9.3.

Betrouwbaarheidsintervallen

. 9.4. Een- en tweezijdige statistische toetsen 10. TOETSEN VOOR LIGGING

10.1. u-Toets voor een gemiddelde

10.1.1. Kritieke gebieden, betrouwbaarheidsintervallen en onderscheidingsvermogen

1 0.1.2. Het aantal waarnemingen dat nodig is om bij een bepaalde alternatieve hypothese een van te voren

117 121 123 125 126 126, , 126 128 128 129 129 130 132' 133 135 135 135

,vastgesteld onderscheidingsvermogen te verkrijgen 136

(10)

Inhoud 9

10.1.3. Het aantal waarnemingen dat nodig is om bij een vast-gestelde betrouwbaarheid een tweezijdig begrensd

. betrouwbaarheidsinterval met een voorgeschreven

lengte ~ te veikrijgen 138

10.2. t-Toets voor een gemiddelde 138

10.2.1. Kritieke gebieden en betrouwbaarheidsintervallen 138 10.2.2. Het aantal waarnemingen dat nodig is om bij een

vast-gestelde betrouwbaarheid een tweezijdig begrensd betrouwbaarheidsinterval met een voorgeschreven

lengte ~ te verkrijgen 139

10.3. Tekentoets voor de mediaan 140

10.3.1. Afleiding van de toets 140

10.3.2. K:ritiéke gebieden en betrouwbaarheidsintervallen 143

10.4. Opgaven 145

,..

11. TOETSEN VOOR VERSCHil.. IN LIGGING 148

11.1. Inleiding 148

11.2. u-Toets voor het verschil in gemiddelden 149 11.3. t-Toets voor het verschil in gemiddelden 150

11.4. Toets van Wilcoxon 151

11. 5. Gepaarde waarnemingen 156

11. 6. Opgaven 157

12. TOETSEN VOOR VARIANTIES 161

12.1. Toets voor één variantie 161

12.2. Toets voor gelijkheid van twee varianties 164

12.3. Opgaven 165 13. REGRESSIE EN CORRELATIE 171 .. 13.1. Regressie 171 13.2. Correlatie 174 13.3. Statistische aspecten 176 13.4. Robuuste methoden 178 13.5.' Opgaven 180 APPENDIX A \ 182

A.I. Trekkingen met en zonder teruglegging , 182

A.2. Steekproefsystemen· 185

A.3. Gemiddelde en varian~e van de hypergeometrische verdeling 189

---

1

I I

(11)

1 0 Ele~en!aire Statistiek

APPENDIXB 192

192 196 199 B.l. ehi-kwadraat toets voor aanpassing

B.2. Toets voor normalit~it en exponentialiteit' B. 3 '. Toets voor ,onafhankelijkheid

APPENDIXC 200

200 C.l. Voorbeelden van dichtheidsschattingen

ANlWOORDEN 204

TABELLEN

Nomogram van de Poisson-verdeling 49

Tabel Van standaard-normale verdeling 57

Betrouwbaarheidsintervallen voor een fractie 119 Rechter-kritieke waarden vim de Student-verdeling 131 Linker-kritieke waarden van de tekentoets 142 Linker-kritieke waarden van de toets van Wilcoxon 153

Determinatie-ta~l bij de hoofdstukken 10 en 11 160 Rechter-kritieke waarden van de Chi-kwadr~at-verdeling 162 Réchter-kritièke waarden van de F~verde1ing 166

(12)

Inleiding 11

Inleiding

De naam statistiek is ontstaan uit het verzamelen, weergeven en samenvatten van gegevens die nodig ,waren om de staai in stand te houden. Tegenwoordig wordt de statistiek beschouwd als een wetenschap die zich bezig houdt met resultaten verkregen door middel van metingen, enquêtes, enzovoorts. Deze resultaten worden meestal in numerieke vorm gegeven en worden waar-nemingsuitkomsten genoemd .

. Men kan in een statistisch onderzoek drie ~ onderscheiden:

a. het waarnemen in de vorm van het verzamelen van de gegevens aan de hand van een vraagstelling.

b. het verwerken en presenteren van de gegevens op beknopte en overzichte-lijke wijze. Deze fase staat bekend als de beschrijveruUfStatistiek.

c. het analyseren en interpreteren van de gegevens, hetgeen behoort tot het terrein van de verklareride statistiek.

In het laatste stadium trekt men conclusies en neemt men beslissingen op grond van de beschikbare gegevens (die we dan steekproef noemen) omtrent een veel grotere hoeveelheid gelijksoortige gegevens (die met populatie wordt aange-duid). Dit zal door de volgende voorbeelden toegelicht worden.

Voorbeeld 1

Als uit een partij produkten een steekproef genomen wordt en deze produkten . worden op basis van een bepaalde eigenschap als 'goed' of 'slecht~ gekwalifi-' ceerd, dan doen we dat om conclusies te trekken over het aantal g;oede respectievelijk slechte exemplaren in de partij en om te beslis~en of deze partij ai

dan niet voor aflevering geschikt is.

o

Voorbeeld 2

Als men gedurende een uur het aantàl auto's telt dat een bepaald punt van een weg passeert, zal men geïnteresseerd zijn in het totale aantal auto's da~ bijvoor-beeld in een jaar langs dat punt komt. De verzameling van alle uurtellingen op dat punt van de weg en in het jaar waarvoor men dat totaal wil 'weten, vormt de populatie. Deze populatie bestaat dus uit 24 x 365 = 8760 uurtellingen, en hieruit is een steekproef van één uurtelling getrokken. 0

(13)

12 Elementaire Statistiek Voorbe~ld 3'

. Wanneer op een waarnemingspunt van een weg de snelheid van 300 auto's gemeten wordt, zullen we deze snelheidsmetingen opvatten als een steekproef van 300' stuks uit een populatie, bestaandeuÏt de verzameling van alle autosnelheden opdat punt gedurende een bepaalde tijdsperiode. 0

Voorbeeld 4

Als de weerstand van een.stuk koperdraad een aantal keren met een apparà!lt gemeten wordt, zal niet steeds dezelfde waarde gevonden worden. Van meting tot meting kunnen allerlei factoren het resultaat beïnvloeden: het inklemmen van de draad zal niet iedere keer op precies dezelfde wijze gebeuren, er kUnnen kleine temperatuurvariaties optreden, het aflezen van het apparaat zal n~et elke keer even nauwkeurig zijn, etcetera. De meetuitkomsten verschillen dus ten gevolge van toev'allige effecten. Wij willen nu uit de verkregen resultaten - de s~eekproef --een conclusie trekken over de werkelijke weerstand van de draad. Gesteld dat deze resultaten geen systematische afwijking vertonen in die zin dat het verschil tussen het gemiddelde van een zeer groot aantal meetuitkomsten en . 'de werkeIljke weerstandswaarde te verwaarlozen is, is de werkelijke

weer-standswaarqe te vinden als het gemiddelde. van een zeer groot aantal meetuit-,

komsten. De populatie bestaat hier dus uit de resultaten van alle metingen die men onder gelijkblijvende omstandighederi ~an de draad· zou kunnen .'

verrichten.

o

Ook kan een populatie gedefinieerd worden als een verzameling van elemeIiten , die voldoen aan een bepaalde omschrijving. Op grond van die omschrijving moet van ied,et object kpnnen worden vastgesteld of het al dan niet tot de populatie behoort: zo kan men de populatie van bomen in een bos beschouwen als duidelijk ~angegeven wordt wat éen boom is. Van ieder element van de populatie kan men een bepaalde eigenschap waarnemen: als eigenschap van een ' boom kan de hoogtein aanmerking k0t:nen, maar evengoed het aantal bladeren als men daarin geïnteresseerd zou zijn. Wij zullen ons grotendeels beperken tot kwamitalieve eige~schap~n, ook vqriabelen genoemd. Dat zijn eigenschappen die een numerieke waarde bezitten, en het zal duidelijk zijn dat deze waarde over de elementen van de populatie gezien varieert. Men kan ze onderscheiden in:

'\

a.

continue variabelen; grootheden die in principe elke waarde in eenbepaald interval kunnen aannemen. Bijvoorbeeld de hoogte van bomen.

(14)

Inleiding 13,

b. discrete variabelen; grootheden waarvoor alleen geïsoleerde waarden in aanmerking komen. Bijvoorbeeld het aantal bladeren van bomen. '

Naast kwantitatieve eigenschappen kent men kwalitatieve eigenschappen, ook wel attributen genoemd. Bijvoorbeeld godsdienst als eigenschap van personen: deze eigenschap kent geen natuurlijke ordening en wordt daarom nominaal

genoemd. Is er wel een zekere ordening aanwezig, dan spreekt men van een

ordinale eigenschap. Bijvoorbeeld een indeling van de smaak van biersoorten in goed, matig of slecht. Vàak kan de variabiliteit van zo'n eigenschap met behulp van getallen vastgelegd worden (in voorbeeld 1 via goed

=

0 en slecht

=

1). Aangezien uitsluitend de eigenschappen van de elementen in de populatie van belang zijn, kan men zonder bezwaar deze eigenschappen zelf als de populatie

~,::..t QPY,fI.!teQ; ,een populatie kan dus beschouwd worden als een verzameling van 'getallenbetreffende een variabele.

Men gaat dus generaliseren van steekproef naaI: populatie en uiteraard brengt dat het risico met zich mee dat de getrokken conclusie onjuist is. Dit risico zal omschreven worden met behulp van het begrip kans. In de statistiek zorgt men er voor dat de.kans op het trekken van een onjuiste conclusie (een kans ligt altijd tussen 0 en 1) klein is, waardoor men handelt alsof deze fout niet zal voorkomen. Dergelijke risico's zijn in het dagelijks leven heel normaal, zonder die risico's zou menniet kunnen leven. Toch wordt er wel rekening gehouden met gebeurtenissen die een kleine kans bezitten:

a.

men verzekert zich tegen dit soort gebeurtenissen indien de gevolgen bij op-treden erg ongunstig zijn.

b. men koopt dit soort gebeurtenissen bij een loterij waarbij de gevolgen bij optreden gunstig zijn,

(15)

,

\" '. ~ . " \ 14

·

1. Beschrijvende statistiek

1.1. Frequentieverdelingen

Beschouween aantal waarnemingsuitkomsten aan een continue variabele. Deze

/ . .

gegevens kUnnen overzichtelijk gerangschikt worden door waarnemingen die weinig in grootte van elkaar verschillen, in groepen samen te nemen. Deze groepen worden klassen genoemd. Het aantal gegevens in een klasse heet

frequentie. De som van de 'frequenties geeft het totale aantal waarnemingen. Men verkrijgt zodoende eenfrequentieverdeling.

In plaats van het aantal waarnemingen in elke klasse kan de fractie of het.

percentage van het totale aantal waarnemingen aangegeven worden dat. in een klasse valt. We krijgen dan een relatievefrequentieverdeling.

Ook kan bij elke grens tussen twee klassen aangegeven worden hoe groot het aantal règp. de fractie (percentage) waarnemingen is waarvan de waarde lager is '

dan die klassegrens. Men spreekt,van een ~ulatieJ!l! frequentieverdeling .

respectievelijk een relatieve cumUlatieve frequentieverdeling, .

. \3} /Y) ,

, . ~,,~,_ ,

Voorbeeld 1.1

Van 300. auto's die op een bepaalde 'dag een zeker punt van een weg pas-seerden, is de snelheid' bep~ald. De resultaten zijn als volgUn een .frequentie-verdeling en een relatieve frequentie.frequentie-verdeling' gegeven:

. ' .

snelheid in aantal auto's % ...

--...-km/uur

.' klasse frequentie . rela~ieve

freauentie 45-49 8 2,67 50-54 . 6 2,00 55-59 29 , 9,67 60-64 63 21,00 65~69 60 20,00 70-74 74 24,67 75-79 29 9,67 80-84 14 ·4,67 85-89 15 5,00 90-94 2 0,67 Totaal 300 100,02

\~~--~

{

~--~---~~---'

(16)

Beschrijvende statistiek 15 ,

Uit de klasse-indeling blijkt dat de autosnelheden ~epaald zijn in (dus in feite afgerond zijn op) gehele aantallen km/uur. Dit betekent dat bijvoorbeeld de klasse 45-49 alle snelheden van44,5 tot 49,5 (de klassegrenzen) bevat. De klassebreedte is dus gelijk aan 5. Onderstaande grafische voorstelling van de frequentieverdeling wordt fEsJQgram genoemd.

70 60 50 40 30 20 10

o

LI)

..

LI)

.. ..

LI) LI)

..

LI)

..

LI) LI)

...

'<t cr. '<t cr, '<t 0'> '<t

'<t '<t LI) LI) \D \D r- snelheid

Figuur 1.1.

De cumulatieve frequentieverdeling en de relatieve cumulatieve frequentiever-deling zijn: Snelheid aantal % < 44,5 0 0,00 < 49,5 8 2,67 < 54,5 14 4,67 < 59,5 43 14,33 < 64,5 106 35,33 < 69,5 166 55,33 < 74,5 240 80,00 < 79,5 269 89,67 < 84,5 283 94,33 < 89,5 ·298 99,33 < 94,5 300 100,00 o

(17)

16 Elementaire Statistiek

Bij het inak:811 van een frequentieverdeling en een histogram moeten de volgen-de regels in acht genomen worden:

,a. de ,klassen moeten zo gekozen zijn, dat het voor iedere waarneming

, duidelijk is tot welke klasse hij behoort. Daarbij dient rekening te worden gehouden met de wijze waarop de waarnemingen eventueel zijn afgerond;

b. het aantal klassen moet niet te groot zijn om niet te veel onbelangrijke details naar voren te laten komen en anderzijds niet te klein om niet te veel details verloren te laten gaan. Bovendien is het gebruikelijk dat alleen bij een zeer groot aantal waarnemingen meer dan' 20 klassen genomen worden en dat het aantal klassen nooit minder dan 5 bedraagt. Verder kan rekening worden

I

, , gehouden met de eis dat de optimale klassebreedte omgekeerd evenredig is

I

met de derdemachtswortel uit het aantal waamemingen 1. ' 1

,

c.

bij het tekenen van het histogram moet de opperVlakte van de kolommen eV,enredig zijn met de aantallen waamerriingendie in de ~treffende klasse vallen. Alleen als alle klassen even breed zijn, zal dus ook de hoogte van de kolommen evenredig zijn met die aantallen.

Waruieer de waarnemingsuitkomsten betrekking hebben op een discrete varia-bêle, treden in het bovenstaande, zekere wijzjgingen op; zie vo?rbeeld 1.2.

Voorbeeld 1.2

De volgende tabel geeft de frequentieverdeling van 1000 ziektegevallen naar de '

duur ervan in een groot bedrijf:

duur van de frequentie ziekte in dagen 1 300 2 200 3 100 , 4 80 5 t/m 7 150, 8 t/m 10 120 11 t/m 20 40 21 t/m 30 10 tötaal '10ÓO

De evenredigheidsfactor is problematisch: bij een normale,verdelingals achterliggend model (zie hoofdstuk 3) is deze 3.5cr waarin cr de standaardafwijkIng voOrstelt. In appendix C geven we enige prenten.

(18)

Beschrijvende statistiek 17 De frequentieverdeling van een discrete variabele wordt grafisch voorgesteld als een staak-of staafdiagram:

';J"f}(t> \ .1' 300 . L i00y ! srAC/t{ 200 1 0 80 50 50 50 40 40 40

__

~~~~_l

__

~~~~

__ '_'_' __

'~i

__

l~1

_._. __ • _ _

.~~

_ _ _ 2 3 4 5 6 7 8 9 10 11... •• ••• 20 21 ••••••• 30 Figuur 1.2.

1.2. Kentallen voor ligging

1.2.1. Gemiddelden

o

De algemene ligging van een reeks waarnemingen wordt meestal door een representatief getal (kental) aangegeven in de vorm van een gemiddelde. Als we de waarnemingsuitkomsten aangeven rrietxl, .:., Xn, dan is een gemiddelde een functie van XI> ••• , Xn die moet voldoen aan de volgende drie eisen:

a. de waarde van de functie mag niet veranderen als de getallen XI> ••• , Xn in een andere volgorde gezet worden. Als men dus drie waarnemingen doet en de getallen 7, 10 en 12 vindt, moet men hetzelfde gemiddelde krijgen als wanneer men deze zelfde getallen bijvoorbeeld in de volgorde 10,7,12 zou vinden.

b. als Xl> ••• , Xn dezelfde waarde hebben, moet het gemiddelde ook die waarde hebben.

c.

als Xl> ••• , Xn met eenzelfde bedrag vermenigvuldigd worden en als die nieuwe getallen dan in de functie gesubstitueerd worden, moet de nieuwe waarde van de functie door vermenigvuldiging met datzelfde bedrag uit de oorspronkelijkç waarde gevonden kunnen worden.

Er zijn vele functies die aan deze eisen voldoen. Dè keuze daartussen hangt af . van de aard van het cijfermateriaal en van het doel waarvoor men dit materiaal

(19)

, 18 Elementaire Statistiek

)

1) het rekenkundig gemiddelde2

· , ,

Dezè algemeen bekende grootheid die veel gebruikt zal worden, wordt gegeven door

f In

X=nLXi

i=l

2) .bet meetkundig gemiddelde

3) het harmonisch gemiddelde

vil)

J:'"

n' X h = --~

1

L X· i=l I

, . 4) het kwadratisch gemiddelde

Voorbeeld 1.3

Gegeven zijn 5 waamemi!lgen 7; 9; 12; 13; 14.

, i . ' .

Het rekenkundig gemiddelde is

x

7

+

9

+

1 2

+

1 3

+

14, - 11 0

5

-

,

,

, Het meetkundig gemiddelde is

5 '

Xg

=

v7·9·12·13·14·

=

10,7 Het harmonisch gemiddelde is

5

Xh

=

1 1 1 1 . ' 1

=

10,3 7

+9' +12 +13 +14

~---~~---2 In plaats van het rekenkundig gemiddelde spreekt men van het 'empirische eerste moment'.

, n

Onder het empirische k-de moment wordt verstaan de grootheid ~

L

Xlk, terwijl het

, n i=l

empirische k-de centrale moment gegeven wordt door ~

L

(Xl - X)k.

(20)

Beschrijvende statistiek 19 Het kwadratisch gemiddelde is

x

q

=

~72

+ 9

2

+ 12; + 132 + 142

=

13,2

We zien dat Xh < xg < X < Xq; deze relatie geldt altijd, tenzij alle (positief

geachte) waarnemingen samenvallen. 0

Voorbeeld 1.4

Iemand rijdt met een auto een afstand van 2a km. Daarvan wordt a km gereden met een snelheid van SI km/u en de andere a km met een snelheid van S2 km/u. Hij heeft in totaal dus een tijd nodig gehad van

a

a

~ +- uren

SI S2

en zijn gemiddelde snelheid was 2a a a

=

1 + -SI S2 SI 2 1 km/u + -s2

Deze gemiddelde snelheid is dus het harmonisch gemiddelde van de

afzon-. --- -.... (,"t..tlrf\.tr

~snelheden. Het harmonisch gemiddelde moet voor het gemiddelde van -snelheden altijd gebruikt worden als het gaat om het gemiddelde van -snelheden over gelijke afstanden. Als het gemiddelde van snelheden gedurende gelijke tijdsperiöden gezocht wordt, moet men het rekenkundig gemiddelde gebruiken: als b uren met een snelheid van SI km/u en b uren met een snelheid van S2 km/u wordt gereden, is de afgelegde afstand

bSI + bS2 km

en de gemiddelde snelheid gedurende deze 2b uren dus SI

+ S2 km/u

2

Opmerking

o

In dit hoofdstuk wordt met 'gemiddelde' steeds bedoeld het rekenkundig

(21)

20 . Elementaire Statistiek

1.2.2.

De, mediaan ~

I

r

\"j r~

Het is soms, zinvol een andere gr9otheid, namelijk de mediaan Xm, als kental

voor ligging van een reeks waarnemingen te gebruiken. De mediaan is de waarneming, die bij rangschikking naar grootte van ilUe waarnenungen de ffiiddelste plaats inneeJïïi3. Als het aantal waarnenri;;gen ~ven i'~~~ordt het - ,.

gennddelde van de

tw~

middelste waamemingen genomen. De mediaan maakt wat minder efficiënt gebruik van de aanwezige informatie dan het gemiddelde, maar is makkelijker te bepalen en is ~t (dat wil zeggen minder gevoelig) voor eventuele in het cijfermateriaal

~

Mt

k

~ih

énde

!ritschieters.

Voorbeeld 1~5

Gegeven zijn de waarnemingen: 12; 13; 7; 9; 14.

Naar toenemende grootte gerangsèhikt wordt de reeks: 7; 9;

12;

13; 14:

De mediaan is dus gelijk aan 12. 0

Voorbeeld 1)"6

Gegeven zijn de waàrnemingen: 12; 12; 13; 9; 7; 14; 5; 4. Naar toenemende grootte gerangschikt 4; 5; 7; 9; 12; 12; 13; 14.

Dus ,

'9

+ 12

Xm

2

=

10,5

o

1.3. Kental voor variabiliteit

f,

j

.") \0'

Onder variabiliteit, ook Vlel~pr.ei!P!J.g genoemd, verstaat men hetverschijnsel.

dat de afzonderlijke waarQeiningsuitkomsten ondeding verschillen. Hiervoor heeft men als kental-de standaardafwijking s;· deze. wordt gegeven door

n

L(Xi.- x)2

i=l

s= , Jl - 1

Het kwadraat van de 'standaardafwijking heetvariantie4.

V~or,beeld 1.7.

Van de waamemingen" 12; 13; 9; 7 en 14 is het gemiddelde 11.

3 De mediaan voldoet ook aan de in paragraaf 1.2.1 gestelde eisen.

4 Een robuust kental wordt gegeven door t

=

1,483 MAD, waarin MAp de mediaan van de getallen Ill1'-"mI voor i

=

1,2, ... , n voorstelt; MAD

=

Median Absolute Deviation.

De factor n - 1 iri s en 1,483 in t maakt dat S2 en t 'zuiver' zijn indien het waarnemingen

(22)

I

I

I

I

! I

I

I I I -Beschflj"vende statistiek 21

De ,berekehing van de standaardafwijking is gegeven in het volgende tabelle~e:

i Xi Xj-X (Xj-X)2 1 12 +1 1 2 13 ' +2 4 3 9 -2 4 4 7 -4 16 5 14 +3 9 totaal 55 0 34 - 55 34 X=5=11 52 - - = - 4 8,5 5 =

..J8.5

= 2,92

o

Uiteraard kan de berekening van de standaardafwijking, vooral bij een groot aantal· gegevens, nogal wat werk meebrengen; in het bijzonder als het ~emiddelde geen geheel getal is zoals in het bovenstaande voorbeeld, Er is echter een berekening mogelijk, waarbij het bepalen van de verschillen met het gemiddelde venneden wordt We kunnen namelijk schrijven:

n n n n n

L,(Xi-x)2 = L,(X?-2XiX+X2)= L,X?-2L,XiX+

L,x

2=

,i=l i=l i=l i=l i=l

n n

= LXi2 - 2XL Xi + nx2

i=l i=l

N . -u IS X =

n

l~ ~Xi, d us i=l

Met andere woorden:

, 1 n

s2 = n _ 1

L,

(Xi - x)2 = i=l

n

-

{n

-

cf

Xi)2}

=_I_{~x

.

2_nx2}=_I_ ~x

.

2_

...:i.::.;=l:...-_

n-I .~1 n - l ~1 n

i=l i=l

(23)

22 Elementaire Statistiek

We' hoeven nu alleen nog máar de som van de kwadraten van de getallen en de som van de getallen zelf 'te bepalen. en kunnen dan s2 en dus s vlot uitrekenen. '

Voorbeeld 1.8 ,

Van de getallen 12; 13; 9; 7; 14 en 6 is het gemiddelde lOt. De berekening van de standaardafwijking is in de volgende tabel gegeven: '

i Xi

x?

1 12 144 2 13 169 3 9 81 4 7 49 5 14 196 6 6 36 totaal 61 675 61 '

x

=

"6

=; 10,17 " , 2 675-~ = 54,83 ,$2, = 6 = 10,966 , 5 5 s= 3,31

1.4. Vereenvoudigde berekening van gemiddelde en

standaardafwijking

o

Dikwijls kan het rekenwerk aanzienlijk vereenvoudigd worden door de getallen

. " ,

-x}, .... xn te transformeren in getallenzl ... Zo door de transformatie,

X· - a .

Zi =~; 1 = 1 ... n en

p

> 0

waarbij a en b zo gekozen worden. dat het gemiddelde

x

en de variantie

sl

van~ de Zi'S gemakkelijk te b~rekenen zijn. Daaruit volgen dan het gemiddelde

x

en'

de varia,ntie

sl

van de Xi'S via de formules

n n n

LXi, L(a

+

bZi) na

+

bL Zi

- i=l ~i-.!..I _ _ ..,...-

=

i=1

=

a

+

b'ii

, X,= -n- = n n ' ' ...

2

(24)

I

I

i

I

I

,

! i

I

I

i

I

,

Beschrijvende statistiek 23

Dus Sx = bsz• Voorbeeld 1.9

Gegeven zijn 5 waarnemingen

97,7; 98,3; 99,2; 101,5; 102,3

Voor de berekening van gemiddelde en standaardafwijking worden deze getallen Xi getransformeerd volgens

Xi - 99,5 Zi

=

0,1 : i Xj Zj Z·2 I 1 97,7 -18 324 2 98,3 -12 144 3 99,2 -3 9 4 101-,5 +20 400 5 102,3 +28 784 totaal 499,0 +15 1661 / 1661 _ 152 z= 3; Sz = 4 5 = 20,1 I X = 99,5 + 0,1·3 = 99,8 Sx = 0,1·20,1 = 2,01

o

Na de berekening van X. en Sx kunnen de getallen Ui

=

(Xi - x)/sx berekend worden; deze grooÛleden zijn dimensieloos en er geldt dat

u

=

0 en Su

=

1. De waarnemingen zijn dan gestandaardiseerd, waardoor meerdere groepen waarne-mingenbeter vergelijkbaar zijn.

1.5. Betekening van de kentallen

,

uit een

frequentieverdeling

7.5.7. Gemiddelde en variantie

Soms staan de gegevens alleen in de vormvan een frequentieverdeling ter be-schikking, of is het in verband met het grote aantal waarnemingen gemak-kelijker ze voor de berekening van de kentallen in een frequentieverdeling weer

(25)

24 Elementaire Statistiek t. j

~c~ y. \la,'O'

{ \ te· geven. Dan zijn dus een aantal klassep. met de daarbij b or'ende aantallen waarnemingen gegeven'.maar de ligging van de afzonderlijke waarneiningtm

~

binnen een klasse is niét bekend of wordt met opzet

~--.aÇh~

Als dè ldassegrenzen iliet.al te ver uitélkaar liggen, kunnen x en s2 berek&d worden door aan te nemen dat alle waarnemingen 'in een klasse gelijk zijn alm het

klassemidden.

Als er k klassen zijn, kunnen we dezeklassemiddens x{

(1

= 1,

... , k) noemen en bij elke x{, behoren nu dus een aantal, stel fi waarnemingen. Gemiddelde en variantie worden dan berekend volgens

en k .. - 1 ~f ., x=- ~ iXi n i=1 k

waarin n

=

L

fi het totale aantal waarnemingen is. Deze berekening

veroor-i=1

zaakt voor het gemiddelde geen systematische afwijking, echter wel voor de variantie. Bij een constante klassebreedte c bedraagt deze 11

2 c2, maar, deze

correctie

van Sheppard wordt zelden toegepast.

De getallenx{, kunnen voor de berekening uiteraard op de in paragraaf.1.4 gegeven·wijze getransformeerd worden. Een handige keuze voor a is dan het

-midden van de klasse met de grootste ~equentie, terwijl voor b het beste de

-:-klassebreedt~ genomen kan worden.

Voorbeeld 1.10

Van de in voorbeeld

1.1

gegeven frequentieverdeling van 300 autosnelheden worden gemiddelde en standaardafwijking berekend (zie de tabel op de volgende bladzijde).

Merk op dat alle waarnenlingen liggen tussen x - 3sx = 41,52 en 'X

+

3s'x=

94,92. Het is een ervaringsfeit dat het interval (X - 2sx;x

+

2sx) in het algemeen

95% van de waarnemingen bevat 0

·1.5.2. De mediaan

De bepaling van de meoiaan van een aantal waarnemingen is behandeld in paragraaf 1.2.2. De mediaan van een even aantal·waarnemingeri wordt daarbij .. verkregen door lineaire interpolatie, Zodat in feite de mediaan dat getal is waar

(26)

!

I

I

I

I'

I

i

j

'

Beschrijvende staristiek 25

snelheid aantal klasse

§

f~

~.

in km/uur auto's middens Zj=-5-x;'-72

~

fi2

, I I I klasse frequentie x;' 45-49 8 47 -5 -40 200 50-54 6 52 -4 -24 96 55-59 29 57 -3 -87 261 60-64 63 62 -2 -126 252 65-69 60 67 -1 -60 60 70-74 74 72 0 0 0 75-79 29 77 1 29 . 29 80-84 14 82 2 28 56 85-89 15 87 3 45 135 90-94 2 92 4 8 32 Totaal 300 -227 1121 227 = -0,575 Z = - 300

x

=

72 +

5z

=

68,22 1 S1.2

=

299 (1121 - 300.0,5772)

=

3,18; Sz = 1,78 Sx

=

5·sz.

=

8,90

beneden 50% van de waarnemingen ligt. Als de waarnemingen in de vorm van een frequentieverdeling gegeven zijn, wordt de mediaan op analoge wijze met behulp van lineaire interpolatie berekend. Zie daartoe het volgende voorbeeld. Voorbeeld 1.11

Van de in voorbeeld 1.1 gegeven frequentiev~rdeling wordt de mediaan

berekend en daartoe gaan we uit van de eveneens in dit voorbeeld gegeven

relatieve cumulatieve frequentieverdeling. Hieruit blijkt dat 35,33% van de

waarnemingen kleiner is dan 64,5 en 55,33% kleiner dan 69,5. Nemen we aan dat de waarnemingen in een klasse gelijkmatig verdeeld zijn; dan wordt door lineaire interpolatie gevonden dat 50% van' de waarnemingen kleiner is dan

50 - 35,33

64,5

+

55,33 _ 35,33 (69,5 - 64,5)

=

68,17

Men neemt nu Xrn

=

68,17. Dat is een nauwkeuriger berekening van de mediaan

dan wanneer men het gemiddelde van de 150-ste en 151-ste 'waarneming' zou neinen, hetgeen neer zou komen op het klassemidden 67. De relatieve

(27)

cumu-r

I

I I I I ;;a:::- I[

=

26 Elementaire Statistiek

latieve frequentieverdeling is in figuur 1.3 grafisch voorgesteld als relatief cumiûatieffrequentiepolygoon. Hierinis boven;;taande methode ter bepaling vande mediaan aangegeven. Omdat de oppervlakte van de kolommen van het bijbehorende histograJIl evenredig is met de frequentie en dus ook met.de relatieve frequentie van de desbetreffende klasse, komt deze methode er'op neer dat de totale oppervlakte van het histogram door Xm in twee gelijke delen wordt

verdeeld. %

snelheid· Figuur 1.3.

1.6. Modus

en

modale klasse

I/)

~ .:T

r-.

lil LI) LI) LI)

~ ~ ~

'"

.:T '" .:T

r-. 00 00 ' "

Als maatStaf vOor ligging wordt ook de modus gebruikt; dat is die waarde wel- . ke het meest voorkomt. Zo is in voorbeeld 116 de modus gelijk aan 12, echter

in voorbeeld 1.5 bestaat de modus niet. Merk opdat de modus niet eenduidig bep,aaid hoeft te zij,n. Bij een frequentieverdeling met constante klassebreedte is die klasse mèt de grootste frequentie de modale klasse; bij ongelijke klas-sebreedten.moet men de frequenties delen door de bijbehorende klassebreedte en de grootste waarde die dan verkregen wordt, wijst de modale klasse aan .

. / l I

I

I 1

(28)

Beschrijvende statistiek 27

In

voorbeeld 1.1 is de klasse 70~74 dus de modale klasse (eventueel kan het bijbehorende klassemidden 72 als modus gegeven worden).

De modus is zeer gemakkelijk te bepalen, maar maakt helaas erg weinig gebruik van de aanwezige informatie.

1.7.

Opgaven

-f

1.' Een fabrikant verkoopt van een bepaald produkt over een periode van 40 weken de in onderstaande tabel gegeven hoeveelheden in tonnen per week:

44 50 43 49 51 40 55 50 52 37 54 47 46 53 59 57 53 56 47 51 ,41 56 49 53 50 53 45, 49 56 48 51 52 47 47 52 45 59 51 57 48 a) Bereken het gemiddelde en de standaardafwijking.

b) Maak van de gegevens een frequentieverdeling met klassen volgens 37 tlm 39, 40 tlm

42, enz., en bereken hieruit de onder a genoemde grootheden.

2. Onderstaande frequentieverdeling geeft van 150 gezinnen de jaarinkomens in duizenden guldens: inkomensklasse aantal van 5 tot 5,5 12 van 5,5 tot 6 18 van 6 tot 6,5 22 van 6.5 tot 7 37 van 7 tot 8 30 van 8 tot 9 21 van 9 tot 10 10

a) Maak de relatieve frequentieverdeling en \eken het bijbehorende histogram. b) Maak de relatieve cumulatieve frequentieverdeling en bereken de mediaan. c) Bereken het gemiddelde jaarinkomen.

, ', J

3. In onderstaande tabel zijn de resultaten gegeven van de meting van de ~.QQrsfàgspanning van honderli condensatoren. Van deze honderd condensatoren was bij de linkerkolom gegeven spanningen het in de rechter-kolom gegeven aantal doorgeslagen:

Spanning Aantal doorgeslagen

210 0 220 3 230 7 240 15 250 26 260 55 270 78 280 92 290 96 300 99 310 100

(29)

28 Elementaire Statistiek

a) Bereken voor de honderd gebruikte condensatoren de gemiddelde doorslagspanning. b) Bereken de' standaardafwijking der doorslagspanningen van de honderd gebruikte

condensatoren. .

4. Van 224 stukken geplastificeerd koperdraad is de dikte van de plastic omhulling gemeten.

De frequen,tieverdeling van de resultaten (in microns) is:

Dikte Frequentie Dikte Frequentie Dikte Frequentie

146 3 151 33 156 11

147 3 152 34 157 9

148 7 153 37" 158 2

149 11 154 25 159 0

150 25 155 23 160 1

a) Bereken het gemiddel4e en de standaardafwijking. b) Bereken de mediaan.

5. Beschouw de waarnemingsuitkomsten Xl. X2 •...• Xo• X~+l met de ken tallen

n+l n+l . ~ 1 " 2 1 ,,( - ) 2 ,Xn+l

=

~ ",,-Xl en 80+1

=;;- ""-

XI - Xn+l i=1 i=1 'Ga na dat . a)XD+l = Xn + (Xn+~ -xo)f(n + 1) .. b) n~+l

=

(n - 1) s~ + n(xn+l - xn)2f(n + 1).

6. Stel dat men over k gr~pen waarnemingen aan dezelfde variabele beschikt Van de i-de groep heeft men de ken tallen Xl en sr op basis van nl waarnemingen berekend

k

(i = 1. 2 •...• k). Bewijs dat

x

en S2 te berekenen uit alle n = Lnl waarnemingen. gelijk

. i=1

. k . k · k

zijri aan x = 1 " n ~ n X· respectievelijk S2 = _ 1 _ " (0' _1)52 + _ 1 _ " n{x -

xi.

11 n _ 1 ~ 1 I· 0 _ 1 ~ I I,

(30)

29

2. Kansrekening

2.1. Inleiding

Het kansbegrip staat centraal in de statistiek. Het betreft dan de beschrijving van experimenten die

herhaalbaar

zijn en waarbij

verschillende

uitkomsten mogelijk zijn; de verzameling van mogelijke uitkomsten wordt uitkomsten-ruimte genoemd. Klassieke voorbeelden van dergelijke experimenten zijn het gooien met een munt, het werpen met één of meer dobbelstenen en het trekken van ballen uit een va

«

~ die verschillende gekleurde ballen bevat. Bij uitvoering

",0

van zo 'n experiment is men geïnteresseerd in het wel dan niet optreden van bepaalde

gebeurtenissen.

V'{

anneer nu een experiment (bijvoorbeeld het gooien met een munt) N maal wordt uitgevoerd en een gebeurtenis (zoals Kop komt boven) treedt hierbij x maal op, dan is uiteraard de frequentie van dèze gebeurtenis x en de relatieve frequentie, hetfrequentiequotiënt te noemen, is

x/N.

We hebben echter niet de zekerheid dat bij nogmaals N worpen met de munt de K(op) weer x maal zal boven komen. De frequentie van de gebeurtenis K is dus niet voorspelbaar en dat geldt natuurlijk ook voor het frequentiequotiënt van deze gebeurtenis. In figuur 2.1 is dat frequentiequotiënt bij een toenemend aantal worpen weerge-geven. a5

-o.

-OJ a2 -Figuur 2.1. SOP . , f I I/J()() aantal worpen

(31)

\ .

30 Elementaire Statistiek

Deze figuuris een illustratie van wat wordt genoemd de experimentele wet van de grote aantallen:

Het frequentiequotiënt van een gebeurtenis zal, als het aantal experimenten waaruit het gevonden is, groter wordt, zich met steeds kleinere variaties gaan bewegen om een bepaalde vaste waarde.

Uit figuur 2.1 volgt dat het frequentiequotiënt zich gaat bewegen om de waarde 0,5 hetgeen we uitdrukken door te zeggen dat de kans op de gebeurtenis K 0~5

IS.

Algemeenkunnen we stellen:

Als de kans op het optreden van een gebeurtenis A gelijk is aan p, houdt dat .in, dat het frequentiequotiënt van de gebeurtenis A als het aantal experimenten waaruit het gevonden is, groter wordt, zich met steeds kleinere variaties gaat bewegen om de waarde p;

D~kans p op een gebeurtenis A, genoteerd als p = Pr(AJ, is dus een getal waarvóor - evenals voor het frequentiequotiënt - geldt 0 ~ p ~ 1. In plaats vàilde 'kans op' wordt soms gebruikt 'waarschijnlijkheid van'. l30vendien wordt een kans vaak uitgedrukt in procenten: p

=

0,5 of 50%.

Voor de numerieke bepaling van p moet men dus, het experiment vele malen uitvoeren. Dit is meestal ondoenlijk ~egens de tijd en de kosten die hieraan verbonden· zijn. De volgende omschrijving van het begrip kans heèft deze. bezwàren niet en is dan ook zeer bruikbaar:

,

Als bij een experiment 'In totaal n verschillende en even aannemelijke uitkomsten'mogelijk zijn, en als bij precies a van die ~ uitkomsten de gebeurtenis A optreedt, dan is de kans op deze gebeurtenis gelijk aan

aln.

Dit is de klassiekekansdefinitie van Laplace (1812), die kortweg weergegeven

, kan worden als

k _ aantal gunstige uitkomsten , ans - aantal mogelijke uitkomsten Voorbeeld 2.1

a. Bij het gooien met een symmetrisch en homogeen geconstrueerde munt (zuivere m~nt) onderscheiden we twee mogelijke -en even aannemelijke uitkomsten K(op) en M(unt),zodat

(32)

Kansrekening 31

Pr(K} = Pr(M} = ~

b. De kans met een zuivere dobbelsteen 6 ogen te gooien is

t.

De kans met een zuivere dobbelsteen een even aantal ogen te gooien is

t.

0 Voorbeeld 2.2

Een vaas bevat 3 witte en 7 zwarte ballen. Blindelings wordt er een bal uitge-haald. Wat is de kans om een witte te trekken?

Ervan uitgaande dat allè ballen onderling verschillen (bijvoorbeeld door num-mering), zijn bij dit experiment 10 even aannemelijke uitkomsten mogelijk en in 3 gevallen is het resultaat dat er een witte bal getrokken wordt. Dus is Pr{W} = 0,3 als W de gebeurtenis voorstelt dat er een witte bal getrokken wordt. 0 Voorbeeld

2.3

We hebben een rode, blauwe en witte kogel en laten deze door iemand die geblinddoekt is, op een rij leggen. Wat is de kans op de volgorde R W B? De mogelijke volgorden zijn R WB, R B W, W RB, W B R, B R W, B W R,

zodat Pr(RW B}

=t.

0

Voorbeeld 2.4

Er wordt tweemaal gegooid met een zuivere dobbelsteen. Wat is de kans in totaal 7 ogen te gooien?

In onderstaande schema zijn de mogelijke uitkomsten van dit experiment gegeven: uitkomst 1 e worp 1 2 3 4 5 6 2 3 4 5 uitkomst 2e· worp 2 3 4 3 4 5 4 5 6 9 10 11 12

In totaal dus 36 mogelijke uitkomsten waarvan er 6 'gunstig' zijn, dus de

, . 6 1

gevraagde kans IS 36

=

6"' 0

Voorbeeld 2.5

In een vaas zitten 2 zwarte en 3 witte ballen. Blindelings worden er achter elkaar twee ballen uitgehaald. Laat A de gebeurtenis zijn dat de eerste getrokken

,

(33)

-r

!

I

32 Elementaire Statistiek

I

, bal zwartis en B de gebeurtenis dat de tweede getrokken bal wit is. Wörden de ballen nu genummerd van 1 tot eri met 5, zodanig dat de nummers 1 en 2 corresponderen met' de' zwarte ·en de overige met witte ballen, ,dan bestaat de

uitkomstenruimteuit 20 punten: . , 1e 2e trekking trekking 1 2 3 4 5 1

-'

I

~

-

-

.

[---'

2 I · •

·

(

1

A

:

.

.

.

.:

.

3 I I .1 I I I 4 • I · . . ' B I I 5 • ~. ___ .! ___

J

Figuur 2.2, 8 2 · 12 3 Dus: Pr(A}

=

20

=

5' en Pr.{B}

=

20 = 5'

o

Uit. de gebeurtenissen A en B zijn andere gebeurtenissen af te leiden die van

_ belang kunnen zijn:

a. De gebeurtenis A

*

dat A niet optreedt, ( ) 12 3

I' Pr A* =20 =5

b. De gebeurtenis 'A (\ B of kort~eg AB, dat A en B gelijktijdig optreden, , 6 3

Pr{AB)

=

20

=

10

c. De gebeurtenis A u B dat minstens één van de twee (of A, of B, of allebei) optreedt,

14 7

Pr{Au B} =20

=

10

Het zal duidelijk zijn datin het voorbeeld hetiVastleggen van de uitkomsten-ruimte vrij bewerkelijk is. Het 'tellen' wordt zelfs erg lastig als de uitkomsten-,ruimte een nog ingewikkelder structuur bezit. Vandaar dat we voorde kans op

gebeurtenissen die uit A en B afgeleid kunnen worden, rekenregels zullen bepalen die gebruikt kunnen worden zonder de structuur van de

(34)

Kansrekening 33

2.2. Kans-axioma's

In het voorgaande is een tweetal mogelijkheden gegeven voor de numerieke bepaling van de kans op een bepaalde gebeurtenis. De methode volgens de definitie van Laplace heeft als bezwaar het' 'even aannemelijk' zijn van de mogelijke uitkomsten (eindig in aantal), want hoe maakt men dat uit? 'Even aannemelijk' betekent in dit verband 'gelijke kansen hebben'. De definitie is

dus circulair, en'daarom eigenlijk onjuist. De methode gebaseerd op de

experimentele wet van de grote aantallen komt neer op het bepalen van het frequentiequotiënt van een gebeurtenis op basis van een voldoend groot aantal

. experimenten, maar hoe wordt 'voldoend groot' gespecificeerd?

Deze bezwaren wegen zo zwaar dat men de kansrekening axiomatisch heeft

opgebouwd. Bij elk experiment wordt een uitkomstenruimte Q gedefinieerd,

zijnde de verzameling van alle mogelijke uitkomsten die we wensen te onder-scheiden. Een gebeurtenis A treedt op als de uitkomst van het experiment

voldoet aan de omschrijvingvan A; de voor A 'gunstige' uitkomsten vormen

een deelverzameling van 12. Ook 12 zelf is een gebeurtenis, de zekere

gebeurtenis. De lege verzameling 9> r diegeen.enkele uitkomst van het experiment .

bevat, wordt de onmogelijke gebeurtenis genoemd. De complementaire

gebeurtenis A

*

is de gebeurtenis dat A niet optreedt; de gunstige uitkomsten

hi~rvoor zijn de uitkomsten in 12 welke niet gunStig zijn voor A. De·

doorsnijding 0 Ai van AI, A2' ... is de gebeurtenis dat elk van deze 1

gebeurtenissen optreedt; de gunstige uitkomsten hiervoor zijn die uitkomsten welke gunstig ~ijn voor alle Alt A2, .... De vereniging u Ai van Alt A2, ... is de gebeurtenis dat minstens één van deze gebeurtenisseh optreedt; de gunstige

. uitkomsten hiervoor zijn de uitkomsten die gunstig zijn voor tenminste één van

Al, A2' ... . Indien twee gebeurtenissen A en B geen uitkomsten

gemeenschappelijk hebben,~ 0 B _ ~; A en B worden djçjuncte of elkaar

uitsluitende gebeurtenisseIl geRoemd. D@ gebeurtenissen Alt A2, ... sluiten elkaar uit indien ze twee aan twee disjunct zijn, dat wil zeggen AiAj = <I> voor

alle i ;t. j. Als uit het optreden van een gebeurtenis A geconcludeerd kan worden

dat Boptreedt, dan impliceert A de gebeurtenis

a,

aan te geven als Ac B. Aan

elke gebeurteniS"" A wordt nu een getal Pr{A}, de kans op

A te noemen,

toegevoegd zodanig dat

a.

Pr(A} ~ O.

b. Pr(Q} = l.

c.

Pr(yAd =

L

Pr(Ad indien AiAj = <I> (i;t. j).

(35)

34 Elementaire Statistiek

Met deze axioma'sl als uitgangspunt zullen in de volgende paragraaf een aantal rekenregels worden afgeleid.

Het doet ~ch voor dat mende kans op

een

gebeurtenis B wil weten gegeven het

. feit dat een gebeurtenis A is opgetreden.' Dit betekent dat niet elke uitkomst behorende tot B kan optreden, maar slechts die l,Jitkomsten welke tevens tot A

behoren. Het gaat dus om A n B, waarbij A als nieuwe uitkomstenruimte

Q\

I

;~o.::k

~

"

fun~

De conditionele of voorwaardelijke kans op de gebeurtenis

B

gegeven

llv het optreden van A wordt dan OQk gedefinieerd als

.

I

Pr{AnB}.

Pr{B A} , Pr{A) nuts Pr{A) >0 \

Het is gemakkelijk in te zien ~t Pr{·1 A} bij vasteA aan de axioma's voldoet, zOdat de af te leiden rekenregels ook conditioneel gelden.

We beschouwen het geval dat de uitkomstenruimte

n

aftelbaar is met elementen OOi (i= 1, 2, .. ~), dus n = (ooI, 002, ... ). Het is dan voldoende aan elke {ooil

een kans Pi tre te voegen met Pi ~ 0 volgens axioma a en

I.

Pi

=

1 volgens de axioma's b en c. Immers elke gebeurte~s A bestaat nu uit een aantal dÎsjuncte COi'S, zodat de kans 'op A vastligt als de som der bijbehorende Pi's:

Pr{A}

=

LPi

CIliEA

Bestaat bovendien O"uit n

ele~enten

en is Pi

=

,

~

(i

=

,1, 2, ... , n), dan wordt voor Pr{A} de definitie ,van Laplace teruggevonden,en is

:Pr{B

I

A}

=

nAB

nA

1 Merk op ~t Pr(.)· een verzamelingsfunctie is op een klasse van deelverzamellingen van

n .

. Met betrekking tdt deze klasse gaan we er niet alleen van uit dat

n

er toe behoort, maar ook dat hij gesloten is onder het nemen. van een complement en een aftelbaar aantal verenigingen; de regel van De Morgan garandeert dat de klasse dan ook gesloten is onder het nemen van een aftelbaar aantal doorsnijdingen. Bij een aftelbare uitlcomstenruirnçe

n

komt \

dit'neer op het beschouwen van de klasse van alle deelverzamelingen van

n.

Bij een over-aftelbare uitkomstenruimte is heel vaak zo'n klasse te uitgebreid om aan de axioma's te kunnen voldoen; men beperkt zich dan tot de kleinere Borel-klasse. Zodoende is het ·

kansbegrip niet noodzakelijk gekoppeld aan een 'frequentistische'"interpretatie en kan met dit begrip 'subjectief' gewerkt worden, namelijk als mate van geloof in uitspraken die aan de axioma's voldoen.

(36)

Kansrekening 35

waarin nA het aantal gunstige uitkomsten voor A en nAB het aantal gunstige uitkomsten voor zowel A als B voorstelt.

. Voorbeeld 2.6

Er wordt tweemaal geworpen met een zuivere dobbelsteen. Bereken de conditionele kans in totaal zeven ogen te gooien als gegeven is dat bij elk van de twee worpen minstens drie ogen bovenkomen.

Zij A de gebeurtenis dat bij elke worp minstens drie ogen bovenkomen, en B de gebeurtenis dat er in totaal 7 ogen gegooid worden. In voorbeeld 2.4 hebben we gezien dat Pr {B} =

i.

In het bij dit voorbeeld behorende schema is het met deze gebeurtenis corresponderende gebied met een stippellijn aangegeven. Het is niet moeilijk in dit schema ook het gebied dat met de gebeurtenis A overeenkomt, aan te geven. Dan blijkt:

I

nAB 2 1

Pr{B A} = =-

=-nA 16 8

o

2.3. Rekenregels

2.3.1.

De kans dat een gebeurtenis niet optreedt

Per definitie zijn A en A * disjuncte gebeurtenissen en is A u A *

=

Q. Wegens Pr{Q}

=

1 en Pr{A u A*}

=

Pr{A} + Pr{A*}, geldt de complementregel voor de kans dat A niet optreedt:

Pr{A*} = 1 - Pr{A} Hieruit volgen

a. Pr{A} ::;; 1, wegens Pr{A*} ~ O.

b. Pr{$l=O,omdatQ*=$. _

c. Pr{A}::;; Pr{B} indien Ac B; immers B = A u (BA *), en omdat A en BA * disjunct zijn, is Pr{B} =Pr(A} + Pr(BA*} ~ Pr{A}.

2.3.2.

De kans dat minstens één van twee gebeurtenissen

.

optreedt

Beschouw de gebeurtenis A u B = A u (BA *), zodat Pr(A u B}

=

Pr(A} + Pr(BA*}

Bovendien is B = (AB) u (BA *), dus Pr{B} = Pr{AB} + Pr{BA*}

(37)

36 Elementaire Statistiek'

SubstitUtie levert de. uitgebreide somregel voor de kans dat minstens één van twee gebewtenissen optreedt:

-. Pr{A u BJ

=

Pr{A}

+

Pr{B },- Pr{AB} waarin Pr{AB} de kans is dat.ze beide optreden.

Let wel: voor disjuncte gebeurtenissen ken Bgeldt de somregel Pr{A u B

r::::

Pr{A}

+

Pr{B

J.

Opmerking . .

~ . De kans dat op zijn minst, é~n van driy gebeurtenissen A, B en C optreedt, is analoog Pr{A u B u C} = Pr{A} + Pr{B} + Pr{C} Pr{AB} PR{AC} -- Pr(BC} + Pr(ABC}. Een.dergelijke formule bestaat ook voor de kans op he! optreden van minstens één van n gebeurtenissen.

Voorbeeld 2.7

Een partij keramische onderdelen is in zijn' geheel gekeurd op kleuren en dimensies~ De iumtallen die wel en niet aan de gestelde criteria voldoen, zijn in het volgende tabelletje gegeven:

voor kleuren

slecht . goed totaal

I

voor slecht 142 331 473 dJm.ensies goed ' 1233 5099 6332

.'

totaal 137.5 5430 6805

Wat is de' kans een slecht exemplaar, (dus slecht voor

minste~

één van 'beide Soorten eigenschappen) uit deze partij te halen?

Is Ade gebeurtenis dat het getrokken exemplaar slecht is voor dimensies en B de gébeurtenis ,dat het getrokken exemplaar slecht is voor kleuren~ dan is de

, gevraagde kans gelijk aan:

, ,

. 473 1375 142

Pr{Au B)

=

Pr{A} + Pr{B} - Pr{AB}

=

6805 + 6805 - 6805

=

0,2510 (

Voorbeeld

2.8

De kans om bij één worp met een zuivere dobbelsteen 1 of 2 ogen te,gooien is

o

I

(38)

Kansrekening 37

2.3.3.

De kans dat twee gebeurtenissen gelijktijdig optreden

De in de vorige paragraaf gegeven definitie van conditionele kans kan in de volgende vorm geschreven worden:

Pt:{AB}

=

Pr{A} Pr{ B

I

A} als Pr{A} > 0

Vaak is het mogelijk de conditionele kans rechtstreeks te berekenen wegens het feitrdat door de conditie een nieuw experiment wordt vastgelegd. Dit geeft dan

de uitgebreide produktregel voor de kans dat twee gebeurtenissen A en B

gelijktijdig optreden:

Pr{AB} = Pr{A} Pr{B

I

A}

waarin Pr{B

I

A} de conditionele kans op het optreden van B is, gegeven dat A is opgetreden.

Voorbeeld 2.9

In een vaas zitten 2 zwarte en 3 witte ballen. Blindelings worden er achter elkaar twee ballenuitgehaald. Wat is de kans dat de eerste zwart en de tweede wit is?

Laat A de gebeurtenis zijn dat de eerste getrokken bal zwart is, terwijl B de gebeurtenis aangeeft dat de tweede getrokken bal wit is, dan

Pr{AB}

=

Pr{A} Pr{B

I

A}

Hierin isPr{A} =~. Zonder in de details van voorbeeld 2.5 te treden, ziet men dat Pr{B

I

A} =~, want als een zwarte bal als eerste getrokken is, zijn er nog 1 zwarte en 3 witte ballen over. De gevraagde kans is dus gelijk aan

~.~

=

0,3. 0

Opmerking

Voor dé kans dat drie gebeurtenissen A, B en C gelijktijdig optreden, geldt Pr{ABC}

=

Pr{A} Pr{B

I

A) Pr{C

I

AB)

Een analoge formule bestaat voor de kans op het gelijktijdig optreden van n gebeurtenissen.

Voorbeeld 2.10

Een partij van 50 produkten bevat 5 slechte exemplaren. Er wordt een aselecte steekproef van 3 stuks genomen, dat wil zeggen: blindelings worden er achtereenvolgens 3 produkten uitgehaald. Wat is de kans in de steekproef geen enkel slecht exemplaar aan te treffen?

(39)

38 Elementaire Statistiek

'. Stel Ai de gebeurtenis dat het i-de getrokken exemplaar goed is (i = 1, 2,3). Dan wordt gevraagd naar Pr(AIAzA3}.

Pr(AIAzA3} = Pr(Ad Pr(Azl Al} Pr(A31 AIAz) =

~;

.!: .!!

= 0,724 0

In voorbeeld 2.4 besèhouwenwe de gebeurtenis Bdater in .totaal 7 ogen gegooid wordt en de gebeurtenis C dat de tweede worp

mi~stens

,

4 ogen

oplevert~' Dan is ' () , Pr(B IC) = nBC = 3~=! De 18 6 '-.

Dus is Pr(B I Cl =Pr{B), dat wil zeggen: de voorwaardelijke

ka~s

datB optreedt gegèven dat C opgetreden is, is gelijk aan de kans dat B op~eedt., V~or dç kans dat B optreedt, doet het er niets toe of

C

al dan niet opgetreden is. Evenmin doet het er voor de kans op het optreden van C iets toe ofB al dan niet opgetreden is, want

Pr{CIB) =~·=t= Pr{C)

.

.

~~t~~

.

'

.

De gebeurtenissenC en Bworden

s

~

onafhankelijk

genoemd, waarbij het woord 'stoc~astisch' vaak weggelaten wordt. Voor onatbankelijke ge, beur-tenissen geldt nu de produktregel voor kansen, namelijk

De kans dat twee onafhankelijke gebeurtenissen A en Bgelijktijdig optreden, is gelijk aan '

Pr{AB) = Pr{A} Pr{B}

"

. 'Om

a~

te tonen dat twee gebeuJ:tenisseIi A ep B

onatb~elijk

zijn, zal men moeteQbewijzend'at

Pr

(B I A . = Pr . B . Gelet op de definitie komt dat neer op et beWijzen van 'AB)= P{A} Pr{B). Veelal is het juist de bedoeling deze

,regel toe te passen, en dat kan blijkbaar op gebeurtenissen waarvan de onatban,;.

k~lijkheid'intuïtief'duidelijk is: het belangrijkste voorbeeld van stochastische onafhankelijkheid wordt gèvonden bij herhaling~n van expe-rimehten die

'zodanig zijn ingericht d.at voorafgaande uitkomsten geen enkele invloed uitoefenen op latere uitkomsten en omgekeerd. . , .- " - (

yodrbeeld 2.11

W~

gooien twee maal met een zuivere dobbelsteen. De kans dat bij oe eerste · worp loog en bij de tweéde worp

2

ogen bovenkomen is k-~ = 316' omdat de

I I

I

\

I

I

I

I

I

(40)

'\ansrekening

39

uitkomst van de tweede worp niet wordt beïnvloed door liet resultaat van de

eerste worp. ÇJ

Voorbeeld 2.12

In een vaas zitten 4 witte, 5 rode en 6 zwarte kogels. In een andere v.aas zitten 5 witte,

6

rode en

7

zwarte kogels. Uit beide vazen wordt blindelings een kogel genomen. Hoe groot is de kans dat ze dezelfde kleur hebben?

De kans uit de eerste vaas een witte kogel te trekken is

:5'

De kans uit de tweede vaas een witte kogel te trekken is 158 •

Beide trekkingen zijn onafhankelijk, dus de kans dat beide kogels wit zijn is 4 5 20 D k d be·d k i d .. . 5 6 30 D k d

15 ·18 =270' e ans at 1 e oge s roo z1Jn IS 15·18 = 270' e ans at

beide kogels zwart zijn is

:5' ;8

= ;;0' De kans om twee kogels van dezelfde kleur te trekken, is volgens de somregel gelijk aan

20 30 42 92 46 270

+

270

+

270 = 270 =

m

Voorbeeld 2.13

Er wordt geworpen met een munt waarvan Pr(K} = P (0 < P < I).

o

Zij Ak de gebeurtenis dat bij de k-de worp de K voor het eerst bovenkomt. Volgens de produktregelis dan Pr{Ak} = pqk-I met q = Pr(M} = 1 - P voor

k == 1,2,3, ....

Op grond van de somregel is

00

Pr(AI u A2 u ... } =

L.

Pr{Ak} ::

p(1

+ q + q2 + ... ) = -LI = 1

~I · -q

Met andere woorden: met kans 1 is er een worp waarbij de K voor het eerst bovenkomt. De complementregelleert dat met kans 0 de K nooit bovenkomt. 0

Wat betekent het bovenstaande wanneer u herhaalde)'ijk met 100 dobbelstenen tegelijk gaat werpen en de gebeurtenis beschouwt dat bij alle stenen 6 ogen bovenkomen?

2.4. Regels van de totale waarschijnlijkheid en van

Bayes

Laten de gebeurtenissen G I> G2, ... een partitie van een uitkomstenruimte

n

vormen, dat wil zeggen dat Gl> G2, ... elkaar uitsluiten eny Gj = Q. Zij Pr(Gj} > 0 voor alle i, dan geldt voor elke gebeurtenis A dat A =\; GjA waarin

r GtA, G2A, ... elkaar uitsluiten, zodat 1

I . I

(41)

4Q Elementaire Statistiek

Pr{A}

=

L',Pr{GiA}

=

L',Pr{Gil Pr{A I Gil

i . i

de zogenaamde regel van de totale waarschijnlijkheid. VOQrbeeld 2.14

Vaas I bevat 3 ,witte en 2 zwarte ballen. Vaas

TI

bèvat 1 witte en 3 zwarte

, ballen. Aselect wordt één van de, twee vazen gekoz~n en uit die vaas wordt dan blindelings één bal getrokken. Wat is d~ kans op de gebeurtenis dat deze bal wit

,

.

is?

Laat GI de gebeurtenis zijn dat vaas I en G2 de gebeurtenis dat vaas II gekozen

wordt. Dan:

Pr{W}

=

Pr{GIW}

+

Pr{G2W}

=

~

Pr(Gil Pr(W I Gil

+

Pr(G2} Pr(W I G2}

=

o

Stel dat in het voorbeeld inderdaad een witte bal getrokken is, wat is dan de kans dat deze uit vaas I respectievelijk vaas II afkomstig is? ,

Gevraagd wordt dus de conditionele kansen pr(G11 W} en Pr(G2 1 W} te berekenen. Aangezien Pr(W) > 0, is

P {Gr I .I W} _ Pr{GjW} - Pr{Wl

=

,Pr{Gïl Pr(W I Gd Pr{W} ..J voori

=

1,2 Dit betekent dat

en 1-. \ Pr(GII W} =..l.Q..:.. =11. 17 17 40 '1 . Pr{G21 W} =_8_ =2.... , 17 17 " 40

Het bovenstaande is een illustratievan de regel van Bayes; deze volgt direct uit de regel van de totale waarschijnlijkheid. Voor i

=

1,2, ... is namelijk

pr(GiI A } = Pr{Gil pr{AIGd indienPr{A} >0 LPr{Gil Pr{A I Gil

De kansen Pr(Gi}' worden a priori kansen genoemd, terwijl de conditionele \ i

(42)

I

'

I

Kansrekening 41

kansen Pr{Gi

I

A} bekend staan als a posteriori kansen omdat zij na het optreden van een gebeurtenis A worden bepaald.

2.5. Permutaties en combinaties

t">lli 9'1

We beschouwen het aantal manieren waarop r uit n verschillende elementen (r ~ n) gerangschikt kunnen worden, elke rangschikking heet een permutatie van r uit n. Het aantal permutaties van ruit n komt overe.en met het aantal manieren waarop de elementen verdeeld kunnen worden over r plaatsen, zodanig dat op elk van die plaatsen één object komt. Voor de bezetting van de eerste plaats heeft men n keuzemogelijkheden, en bij elk van deze mogelijk-heden heeft men voor de bezetting van de tweede plaats nog n - 1 objecten be.schikbaar. Het totale aantal mogelijkheden om de eerste twee plaatsen te bezetten bedraagt dus n(n - 1), waarna voor de bezetting van de derde plaats gekozen kan worden uit n - 2 objecten, enzovoorts. Het aantal permutaties van ruit n bedraagt tenslotte n(n - 1)(n - 2) ... (n - r+ 1). Wordt bijvoorbeeld gevraagd naar het aantal manieren waarop 3 klapstoeltjes op een treinbalkon bezet kunnen worden indien 5 personen op dat balkon reizen, dan moet het aantal permutaties van 3 uit 5 bepaald worden, zijnde 5-4·3 = 60.

Indien r

=

n wordt gemakshalve het 'uit n' weggelaten; het aantal permutaties van n verschillende objecten bedraagt dus

n(n - 1)(n - 2) ... 2·1 = n! (n-facu/teit)

Zo kunnen de letters van het woord 'getal' op 5!

=

120 manieren worden gerangschikt. Zijn niet alle te beschouwen elementen verschillend, maar bestaan ze uit nl onderling gelijke, n20nderling gelijke, enzovoorts, dan is het aantal permutaties gelijk aan

n!

Het aantal permutaties van de letters van het woord 'statistiek' is blijkbaar

1O!

2!3!2!

=

151.200

Het is soms niet belangrijk te weten hoe ruit n verschillende objecten gerangschikt zijn, maar gaat het er alleen om welke objecten gekozen worden; bij bridgen zal een speler uitsluitend geïnteresseerd zijn in welke kaarten uiteindelijk in zijn hand terecht komen. Een verzameling van ruit n elementen ongeacht de onderlinge volgorde, wordt een combinatie van ruit n genoemd.

Cytaty

Powiązane dokumenty

Une traduction moderne anonyme rend bien l’idée principale d’Horace : « Si, dans un mauvais poète, je trouve deux ou trois passages plaisants, je m’étonne et j’admire ;

Wydaje się jednak, że w postępo- waniu, w którym z powodu braku fizycznej obecności oskarżyciela pu- blicznego na rozprawie, to sąd jest zobligowany do inicjowania dowodów na

Initial rent setting  Maximum rents are  determined by a contract  between landlords and the  state  Maximum rents are 

Zdolności sorpcyjne łuszczyn słonecznika w stosunku do jonów Pb 2+ i Cd 2+ okazały się niższe niż w przypadku żywicy C160, ale mimo to uzyskane wyniki są zadawalające

Dotychczasowymi laureatami byli dwaj naukowcy: Ludwik Hass w roku 2004 oraz w roku 2005 Norbert Wójtowicz, re- prezentant młodego pokolenia naukowców i publicystów

Należy zatem przeanalizować, czy zainicjowa- nie i wykonanie inteligentnego kontraktu doty- czącego co najmniej dwóch użytkowników da się zakwalifikować jako złożenie przez

So according to Evagrius, in external, human knowledge, which can be re- ceived even by passionate people, the error is usually a mistake in reasoning, but in spiritual knowledge

Na to w szystko Tadeusz nic nie odpowiadał. Zaszła jakaś odmiana.. W przyp ad ku K raszew skiego chodzi oczywiście o jego odkryw czość na teren ie lite ra tu ry ,