• Nie Znaleziono Wyników

Elementaire Statistiek

N/A
N/A
Protected

Academic year: 2021

Share "Elementaire Statistiek"

Copied!
136
0
0

Pełen tekst

(1)

Handleiding voor het college toegepaste statistiek A

door ir.

J.

van Soest

VERENIGING

VOOR STUDIE- EN STUDENTENBELANGEN DELFT

(2)
(3)

par. Inleiding

INHOUD

Hoofd s tuk I. Beschrijvende Statistiek 1. Frequentieverdelingen.

2. Kentallen voor ligging. 2.1. Gemiddelden.

2.2. De mediaan.

3. Kental voor variabiliteit.

4. Vereenvoudigde berekening van gemiddelde en standaardafwijking.

5, Berekening van de kentallen uit een frequentieverdeling.

5,1. Gemiddelde en variantie. 5.2. De mediaan.

Ho o f d s tuk II. Kansrekening

pag. 7 11 14 14 16 17 19 20 20 21 1. Inleiding, 23 2. Kansbegrip. 23

3, Rekenregels voor kansen. 25

3.1. Inleiding. 25

3,2. De kans dat een gebeurtenis niet optreedt. 26 3.3. De kans dat minstens één van twee gebeurtenissen

optreedt.

3.4. De kans dat twee gebeurtenissen gelijktijdig ---- ---op-t-reden--;- --- ---4. 4 .1. 4.2. Opmerking en. Het kansbegrip.

Het rangschikken van elementen.

Hoofdstuk III. Stochastische variabelen; Populatie en steekproef

1. Discrete stochastische variabelen. 2. Continue stochastische variabelen. 3. Populatie en steekproef.

Hoofdstuk IV. De binomiale verdeling

27

---zs

31 31 31 33 36 41 1. Gemiddelde en variantie. 43

2. Benadering door de Poisson-verdeling. 45 3. Benadering door de normale verdeling. 47

4. Keuring op attributen. 52

4.1. De keuringskarakteristiek. 52

4.2. De invloed vannen c op de keuringskarakteristiek. 53 4.3. Kentallen van de keuringskarakteristiek. 54 4.4. Het ontwerpen van een bruikbare keuring als twee

(4)

par. pag. Ho o f d s tuk V. De Poisson-verdeling

1. Inleiding. 57

2. Toepassingen van de Poisson-verdeling. 58

3, Voorbeeld van aanpassing van een Poisson-verdeling, 60 4. Schatting van de parameter van de

Poisson-ver-deling. 62

4 .1. Schatting uit het gemiddelde van de waarneming sui

t-komsten. 62

4.2. Schatting uit het aantal gevallen waarin de waarde

11011 gevonden wordt, 62

Ho o f d s tuk VI. D\l normale verdeling

1. Inleiding.

2. Toepassingen van de normale verdeling.

3. Aanpassing van een normale verdeling. 4. Schatting van de parameters van de normale 4.1. 4.2. 4.3. ling. Schatting van \J, Schatting van CT,

Het combineren van schattingen voor CT,

verde-Hoofd s tuk VII. Functies van continue stochastische variabelen 1. Inleiding. 2, De lineaire functie y = a~ + b, 3, De functie y = qi (~) • 63 63 67 68 68 68 71 73 73 74 4-. ______ ne __ lineair.efunc_tie_}'._.=c_a.1~1_+ a2~2._. __________ _

4.1. Gemiddelde en variantie van

y.

________ 74 74 4.2. De variantie van y als ~1 en ~2 onafhankelijk zijn.

5. 6. 6 .1. 6.2. 6.3. n

De lineaire functie y =

l

ai~i·

1

Bijzondere gevallen; toepassingen.

Het verschil van 2 onafhankelijke stochastische variabelen.

De som van 2 onafhankelijke stochastische varia-belen.

De som en het gemiddelde van n onderling onafhan-kelijke en identiek verdeelde stochastische varia-belen,

Hoofdstuk VIII, Centrale limietstelling; Toepassingen 1. Centrale limietstelling.

2. Betrouwbaarheidsinterval voor het gemiddelde \J

van een populatie met bekende of onbekende vari-antie, gebaseerd op een grote steekproef. 3. Betrouwbaarheidsinterval voor een fractie. 4. Controle-kaarten. 5, Keuring op variabelen. 76 77 77 77 78 79 81 84 85 86 90

(5)

par.

Hoofdstuk IX. Statistische toetsen en betrouwbaar-heidsintervallen

Statistische toetsen.

Terminologie en opzet via een voorbeeld.

Fout van de 2-de soort en het aantal waarnemingen. Samenvatting. pag. 91 91 92 93 1. 1.1. 1. 2. 1. 3. 2. 2. 1. 2.2. 3. 4.

Toets voor het gemiddeldeµ van deelde populatie met bekende of Populatievariantie bekend. Populatievariantie onbekend. Betrouwbaarheidsintervallen.

een normaal

ver-onbekende variantie.93 93

94 96

Een- en tweezijdige statistische toetsen. Ho o f d s t u k X. Toetsen voor ligging

l. u-toets voor een gemiddelde.

1.1. Kritieke gebieden, betrouwbaarheidsintervallen en onderscheidingsvermogen.

1.2. Het aantal waarnemingen dat nodig is om bij een bepaalde alternatieve hypothese een van te voren vastgesteld onderscheidingsvermogen te verkrijgen. 1.3. Het aantal waarnemingen dat nodig is om bij een

vastgestelde betrouwbaarheid een tweezijdig be-grensd betrouwbaarheidsinterval met een

voor-2. 2 .1.

2. 2.

geschreven lengte 6 te verkrijgen. t-toets voor een gemiddelde.

Kritieke gebieden en betrouwbaarheidsintervallen. Het aantal waarnemingen dat nodig is om bij een --- -

-vastgeste-lde--be-t:r-ouwbaa-rheid--een--tweezi-jdig--be=--grensd betrouwbaarheidsinterval met een voor-geschreven lengte 6 te verkrijgen.

3. Tekentoets voor de mediaan. 3.1. Afleiding van de toets,

3.2. Kritieke gebieden en betrouwbaarheidsintervallen. Hoofdstuk XI. Toetsen voor verschil in ligging

96 99 99 100 101 101 101 102 103 103 105 1. Inleiding. 109

2. u-toets voor het verschil in gemiddelden. 109 3. t-toets voor het verschil in gemiddelden. 110

4. Toets van Wilcoxon. lll

5. Gepaarde waarnemingen. 115

Ho o f d s tuk XII. Toetsen voor varianties

l, Toets voor één variantie. 117

2. Toets voor gelijkheid van twee varianties. 119 Appendix.

1. Trekkingen met en zonder teruglegging. 127

2. Steekproefsystemen. 129

3. Gemiddelde en variantie van de hypergeometrische

(6)

Tabellen

pag.

Nomogram van de Poisson-verdeling. 46

Tabel van de standaard-normale verdeling. 51

Betrouwbaarheidsintervallen voor een fractie. 87 /88

Rechter-kritieke waarden van de Student-verdeling. 95

Linker-kritieke waarden van de tekentoets. 104

Linker-kritieke waarden van de toets van Wilcoxon. 113/114 Rechter-kritieke waarden van de Chi-kwadraat-verdeling. 118

Rechter-kritieke waarden van de F-verdeling. 121 t/m 125

(7)

I N L E I D I N G

De naam s t a t i s t i e k is ontstaan uit het verzamelen, weergeven en samenvatten van gegevens die nodig waren om de s t'a at in stand te houden. Tegenwoordig wordt de statistiek beschouwd als een wetenschap die zich bezig houdt met resultaten verkregen door middel van metingen, enquêtes, etc. Deze resultaten worden meestal numeriek gegeven en worden

waarnemingsuitkomsten genoemd.

Men kan in een statistisch onderzoek drie stadia onderscheiden:

a. het waarnemen in de vorm van het v er z a m e 1 e n van de gegevens

aan de hand van een vraagstelling.

b. het verwerk en en pre sent eren van de gegevens. Deze fase staat bekend als de beschrijvende statistiek.

c. het an a 1 y s ere n en int er pr et er en van de gegevens, het-geen behoort tot het terrein van de mathematische statistiek.

In het laatste stadium trekt men conclusies en neemt men beslissingen op grond van de beschikbare gegevens (die we dan steekp17oef noemen)

om-trent een veel grotere hoeveelheid gelijksoortige gegevens (die met

populatie wordt aangeduid). Dit zal door de volgende voorbeelden

toege-licht worden. Voorbeeld 1.

Als uit een partij produkten een steekproef genomen wordt en deze produl<:ten worden op basis van een 15epaalde eigenschap als "goè-d"--of "slecht" gekwalificeerd, dan doen we dat om conclusies te trek-ken over het aantal goede resp. slechte exemplaren in de partij en om te beslissen of deze partij al dan niet voor aflevering

geschikt is. Voorbeeld 2.

Als men gedurende een uur het aantal auto's telt dat een bepaald punt van een weg passeert, zal men geïnteresseerd zijn in het to-tale aantal auto's dat bv. in een jaar langs dat punt komt. De verzameling van alle uurtellingen op dat punt van de weg en in het

jaar waarvoor men dat totaal wil weten, vormt de populatie. Deze populatie bestaat dus uit 24x365=8760 uurtellingen, en hieruit is een steekproef van één uurtelling getrokken.

Voorbeeld 3.

Wanneer op een waarnemingspunt van een weg de snelheid van 300 auto's gemeten wordt, zullen we deze snelheidsmetingen opvatten als een steekproef van 300 stuks uit een populatie, bestaande uit de verzameling van alle autosnelheden op dat punt gedurende een bepaalde tijdsperiode.

(8)

Voorbeeld 4.

Als de weerstand van een stuk koperdraad een aantal keren met een apparaat gemeten wordt, zal niet steeds dezel:f;de waarde gevonden worden. Van meting tot meting kunnen allerlei factoren het resul-taat beïnvloeden: het inklemmen van de draad zal niet iedere keer op precies dezelfde wijze gebeuren, er kunnen kleine temperatuur-variaties optreden, het aflezen van het apparaat zal niet elke keer even nauwkeurig zijn, etc. Men maakt dus meetfouten die veroorzaken dat de uitkomsten verschillend zijn. Wij willen nu uit de verkregen meetresultaten - de steekproef - een conclusie trekken over de werkelijke weerstand van de draad. Deze is als het meetinstrument goed geijkt is, te vinden als het gemiddelde van een zeer groot aantal meetuitkomsten. De populatie bestaat hier dus uit de resultaten van alle metingen die men onder gelijkblij-vende omstandigheden aan de draad zou kunnen verrichten.

Uit het bovenstaande blijkt dat een populatie opgevat wordt als een verzameling van getallen. Ook kan een populatie gedefinieerd worden als een verzameling van elementen die voldoen aan een bepaalde omschrijving. Op grond van die omschrijving moet van ieder object kunnen worden vast-gesteld of het al dan niet tot de populatie behoort: zo kan men de po-pulatie van bomen in een bos beschouwen als duidelijk aangegeven wordt wat een boom is. Van ieder element van de populatie kan men een bepaalde ei gen s c hap waarnemen: als eigenschap van een boom kan de hoogte in aanmerking komen, maar evengoed het aantal bladeren als men daarin

geïnterresseerd zou zijn. Wij zullen ons beperken tot kwant i t at ie v e eigenschappen, ook variabelen genoemd. Dat zijn eigenschappen die een numerieke waarde bezitten. Men kan ze onderscheiden in:

a. --conhnue variabelen; grootheden die in principe elke waarde in

een bepaald interval kunnen aannemen. Bijvoorbeeld de hoogte van bomen.

b. discrete variabelen; grootheden waarvoor alleen geïsoleerde waarden

in aanmerking komen. Bijvoorbeeld het aantal bladeren van bomen. Naast kwantitatieve eigenschappen kent men k w a 1 i t at i e v e eigenschap-pen, ook wel attributen genoemd. Bijvoorbeeld godsdienst als eigenschap van personen. Aangezien uitsluitend de eigenschappen van de elementen in de populatie van belang zijn, kan men zonder bezwaar deze eigenschappen zelf als de populatie opvatten, en in die zin is in de voorbeelden een populatie opgevat.

Men gaat dus generaliseren van steekproef naar populatie en uiteraard brengt dat het risico met zich mee dat de getrokken conclusie onjuist is. Dit risico zal omschreven worden met behulp van het begrip kans. In de statistiek zorgt men er voor dat de kans op het trekken van een onjuiste conclusie (een kans ligt al tijd tussen O en 1) k 1 ei n is, waardoor men handelt alsof deze fout niet zal voorkomen. Dergelijke risico's zijn in het dagelijks leven heel normaal, zonder die risico's zou men niet kunnen leven. Toch wordt er wel rekening gehouden met gebeurtenissen die

(9)

een kleine kans bezitten:

a. men verzekert zich tegen dit soort gebeurtenissen indien de gevol-gen bij optreden erg ongunstig zijn.

b. men koopt dit soort gebeurtenissen bij een loterij waarbij de ge-volgen bij optreden gunstig zijn.

(10)
(11)

H O O F D S T U K

BESCHRIJVENDE STATISTIEK

De beschrijvende statistiek houdt zich bezig met het op een beknopte en overzichtelijke manier presenteren van waarnemingsuitkomsten. In de eerste plaats maakt men tabellen en grafieken en in de tweede plaats worden kentallen berekend die betrekking hebben op de algemene ligging en de onderlinge variatie der gegevens.

1. Frequentieverdelingen.

Beschouw een aantal waarnemingsuitkomsten aan een continue variabele. Deze gegevens kunnen overzichtelijk gerangschikt worden door waarnemingen die weinig in grootte van elkaar verschillen,in groepen samen te nemen. Deze groepen worden klassen genoemd. Het aantal gegevens in een klasse

heet frequentie. De som van de frequenties geeft het totale aantal

1vaar-nemingen. Men verkrijgt zodoende een frequentieverdeling die grafisch

kan worden voorgesteld in een histogram. In plaats van het aantal

waar-nemingen in elke klasse kan de fractie - of het percentage - van het totale aantal waarnemingen aangegeven worden dat in een klasse valt. We krijgen dan een 1°elatieve frequentieverdeling. Ook kan bij elke grens

tussen twee klassen aangegeven worden hoe groot het aantal resp. de frac-tie (percentage) waarnemingen is waarvan de waarde lager is dan die klassegrens. Men spreekt van een cumulatieve frequentieverdeling resp.

ee:ri. relatieve .. cumulatieve fre4uentie.11.e.r.de.Ling.

Voorbeeld 1.1.

Van 300 auto's die op een bepaalde dag een zeker punt van een weg passeerden, is de snelheid bepaald. De resultaten zijn als volgt in een frequentieverdeling en een relatieve frequentieverdeling gegeven:

(12)

snelheid in km/uur aantal auto's % f - - - -- + - - - + - - - ~ rel. freq. klasse freq. ! + + -45-49 50-54 55-59 60-64 65-69 70-74 75-79 80-84 85-89 90-94 Totaal 8 6 29 63 60 74 29 14 15 2 300 2,67 2,00 9 ,67 21,00 20,00 24,67 9,67 4 , 6 7 , 1 5,00 0,67 ~ 100,02 1

Uit de klasse-indeling ½lijkt dat de autosnelheden henaald z11n in (dus in feite afgerond ziin on) gehele aantallen km/uur, f)it betekent dat bv. de klasse 45-49 alle snelheden van 44,5 tot 49,5

(de klassegrenzen) bevat, De klassebreedte is dus gelijk aan 5,

Het histogram is:

---

----1---1 20 10 0

~~

l f ) lf) lf) l f ) l f ) l f ) l f ) l f ) lf) " " " " " "

tj- a, tj- O', tj- 0, tj- O', tj- O',

tj-tj- tj- l f ) lf) '-0 '-0 c--- c--- 00 00 0, snelheid

(13)

De cumulatieve frequentieverdeling en de relatieve cumulatieve frequentieverdeling zijn: Snelheid aantal % < 44, 5 0 0,00 < 49,5 8 2,67 < 54,5 14 4,67 < 59,5 43 14,33 < 64 ,5 106 35,33 < 69, 5 166 55,33 < 74, 5 240 80,00 < 79,5 269 89,67 < 84,5 283 94,33 < 89,5 298 99,33 < 94,5 300 100,00

Bij het maken van een frequentieverdeling en een histogram moeten de volgende regels in acht genomen worden:

a. de klassen moeten zo gekozen zijn, dat het voor iedere waarneming duidelijk is tot welke klasse hij behoort. Daarbij dient rekening te worden gehouden met de wijze waarop de waarnemingen eventueel zijn afgerond.

b. het aantal klassen moet niet te groot zijn om niet te veel onbe-langrijke details naar voren te laten komen en anderzijds niet te klein om niet te veel details verloren te laten gaan. Aanbe-volim wordt het aantal klassen ongeveer gelijk te nemen aan de vierkantswortel van het aantal waarnemingen, met dien verstande dat alleen bij een zeer groot aantal waarnemingen meer dan 20 klassen genomen worden en het aantal klassen nooit minder dan 5 bedraagt.

c, bij het tekenen van het histogram moet de oppervlakte van de ko-lommen evenredig zijn met de aantallen waarnemingen die in de betreffende klasse vallen. Alleen als alle klassen even breed zijn, zal dus ook de hoogte van de kolommen evenredig zijn met die aantallen.

Wanneer dt:i waarnerningsuitkomsten betrekking hebben op een discrete vç1.riabele, treden in het bovenstaande zekere wijzigingen op; zie voor-beeld 1. 2.

(14)

Voorbeeld 1.2.

300

----

-De volgende tabel geeft de frequentieverdeling van 1000 ziekte-gevallen naar de duur ervan in een groot bedrijf:

duur van de ziekte frequentie in dagen 1 300 2 200 3 100 4 80 5 t/m 7 150 8 t/m 10 120 11 t/m 20 40 21 t/m 30 10 Totaal 1000

De frequentieverdeling van een discrete variabele wordt grafisch voorgesteld als stakendiagram:

200 -1 0 0 8 0 1 1 50 50 50 1 40 40 40 4 " 4 1 • • • • 1 2 3 4 5 6 7 8 9 10 11 . . . 20 21 . . . 30 fig. 1. 2

2. Kentallen voor ligging. 2.1. Gemiddelden.

Er zijn vele soorten gemiddelden, die gebruikt kunnen worden om de ligging van een reeks waarnemingen door een representatief getal

( k ent a 1 ) aan te duiden. Als we de waarnemingsuitkomsten aangeven met x1, •• , x , dan is een gemiddelde een functie van x1 , , Xn die moet voldoen aaR de volgende drie eisen:

a. hij moet symmetrisch zijn, d.w.z. de waarde van de functie veran-dert niet als de getallen x1 , •• , Xn door een andere volgorde

(15)

vervangen worden. Als men dus drie waarnemingen doet en de getal-len 7, 10 en 12 vindt, moet men hetzelfde gemiddelde krijgen als wanneer men deze zelfde getallen bijv, in de volgorde 10, 7, 12

zou vinden.

b. als x1,,. ,xn dezelfde waarde hebben,moet het gemiddelde ook die waarde hebben.

c. als x 1 , .. ,xn met eenzelfde bedrag vermenigvuldigd worden en als die nieuwe getallen dan in de functie gesubstitueerd worden, moet de nieuwe waarde van de functie door vermenigvuldiging met dat-zelfde bedrag uit de oorspronkelijke waarde gevonden kunnen worden. Er zijn vele functies die aan deze eisen voldoen. De keuze daartussen hangt af van de aard van het cijfermateriaal en van het doel waarvoor men dit materiaal verzameld heeft. Wij noemen:

1) het rekenkundig gemiddelde *)

Deze algemeen bekende grootheid die veel gebruikt zal worden, wordt gegeven door:

1 n X = -

l

Xi

n i=l

2) het meetkundig gemiddelde

3) het harmonisch gemiddelde

4) het kwadratisch gemiddelde

n n

l ~.

i=l l

Voorbeeld 2.1.1.

Gegeven zijn 5 waarnemingen 7; 9; 12; 13; 14. Het rekenkundig gemiddelde is:

7+9+12+13+14

X

=

S

=

11,0 Het meetkundig gemiddelde is:

xg

=

?

7. 9. 12. 13. 14

=

10, 7

*) In plaats van het rekenkundig gemiddelde spreekt men van het "empirische eerste moment". Onder het e mp i r is c h e k - de

1 n k moment wordt verstaan de grootheid

l

Xi ,

(16)

Het harmonisch gemiddelde is:

s

Xh = 1 1 1 1 1 + + + + -7 9 12 13 14 = 10 ,3

Het kwadratisch gemiddelde is:

11, 3

Voorbeeld 2.1.2.

Iemand rijdt met een auto een afstand van 2a km. Daarvan wordt a km gereden met een snelheid van s 1 km/u en de andere a km met een snelheid van s 2 km/u. Hij heeft in totaal dus een tijd nodig gehad van

a a

- + - uren

S1 S2

en zijn gemiddelde snelheid was 2a + a S2 1 2 1 km/u. + -S2

Deze gemiddelde snelheid is dus het harmonisch gemiddelde van de afzonderlijke snelheden. Het harmonisch gemiddelde moet voor het gemiddelde van snelheden altijd gebruikt worden als het gaat om het gemiddelde van snelheden over gelijke afstanden. Als het ge-middelde van snelheden gedurende gelijke tijdsperioden gezocht - --1vord-t----,---moet-men-het-rekenkund-i-g-gemi-dde-l-de-geb-ru-i-ken---:--a-l-s-b-u-ren

met een snelheid van s 1 km/u en buren met een snelheid van s 2 km/u wordt gereden, is de afgelegde afstand

bs1 + bs2 km

en de gemiddelde snelheid gedurende deze 2b uren dus s i + 22 km/u.

2

Opmerking. In het vervolg wordt met "gemiddelde" steeds bedoeld het re-kenkundig gemiddelde.

2.2. De mediaan.

Het is soms zinvol een andere grootheid, nl. de mediaan xm, als kental voor ligging van een reeks waarnemingen te gebruiken. De mediaan is de waarneming, die bij rangschikking naar grootte van alle waarnemingen de middelste plaats inneemt.*) Als het aantal waarnemingen even is, wordt het gemiddelde van de twee middelste waarnemingen genomen. De mediaan maakt wat minder efficiënt gebruik van de aanwezige informatie

(17)

dan het gemiddelde, maar is gemakkelijker te bepalen en is minder gevoe-lig voor eventuele in het cijfermateriaal voorkomende uitschieters. Voorbeeld 2.2.1.

Gegeven zijn de waarnemingen: 12; 13; 7; 9; 14.

Naar toenemende grootte gerangschikt wordt de reeks:

7; 9; 12; 13; 14.

De mediaan is dus gelijk aan 12. Voorbeeld 2.2.2.

Gegeven zijn de waarnemingen 12; 12; 13: 9; 7; 14; 5; 4. Naar toenemende grootte gerangschikt:

4; 5; 7; 9; 12; 12; 13; 14. Dus = 9 + 12 = 10 5

xm 2 '

3. Kental voor v a r i a b i l i t e i t .

Onder variabiliteit, ook wel spreiding genoemd, verstaat men het ver-schijnsel dat de afzonderlijke waarnemingsuitkomsten onderling verschillen. Hiervoor heeft men als kental de standaardafwijking s; deze wordt gegeven door: n \ - 2 l Cxi -x) , i ~ 1 -s = n-l

Het kwadraat van de standaardafwijking heet variantie. *)

Voorbeeld 3.1. Van de getallen

12; 13; 9; 7 en 14 is het gemiddelde ll.

De berekening van de standaardafwijking is gegeven in het volgende tabelletje:

*) Onder het e mp i r i s c h e k - de c en tra 1 e moment 1 n k van x1 , . • • • ,xn verstaat men de grootheid -

L

(xi - x)

n i=l n-1 2 •

(18)

i Xi Xi-X - (Xi -X) 2 -1 12 +l 1 2 13 1 +2 4 3 9 -2 4 4 7 1 -4 16 5 14 +3 9 ~ -Totaal 55 0 34 - 55 11 52 = 34 = 8 5 x=- = 5 4 ' s =

18,s

= 2,92

Uiteraard kan de berekening van de standaardafwijking, vooral bij een groot aantal gegevens, nogal wat werk meebrengen; in het bijzonder als het gemiddelde geen geheel getal is zoals in het bovenstaande voorbeeld. Er is echter een berekening mogelijk, waarbij het bepalen van de verschil-len met het gemiddelde vermeden wordt. We kunnen namelijk schrijven:

n n n n n

l

(Xi-x)2 =

l

(XI_-2xix+x2)=

I

xi-2

I

XiX+

l

x2 =

i=l i=l i=l i=l i=l

n n \ 2 - \ -2 = L. Xi - 2x L. Xi + nx i=l i=l . - 1 11 - -Nu--:rs-x=-n-L-X-t,-dus---: = l n n

(.Î

xi) 2 \ - 2 \ 2 -2 \ 2 i=l l (xi - x) = l xi - nx = L Xi

-i=l i=l i=l n

1 n 1 n }

Met andere woorden: s2 n-l .

l

(xi - xl2 = n-l { .

l

xf - nx2

i=l i=l

(,f,·1

_(,!,:·)'

l

1

n-1

We hoeven nu alleen nog maar de som van de kwadraten van de getallen en de som van de getallen zelf te bepalen, en kunnen dan s2 en dus s vlot uitrekenen.

(19)

Voorbeeld 3.2.

Van de getallen 12; 13; 9; 7; 14en6is het gemiddelde 10 1/6. De berekening van de standaardafwijking is in de volgende tabel gegeven: i x· l xZ l 1 12 144 2 13 169 3 9 81 4 7 49 5 14 196 6 6 36 Totaal 61 675 - 61 x=-=10,17 6 675-612 54,83 S2 = 5 6 = = 10,966 5 s = 3,31

4. Vereenvoudigde berekening van gemiddelde en s t and a ar da f w ij k in g.

Dikwijls kan het rekenwerk aanzienlijk vereenvoudigd worden door de getallen x1, .. ,xn te transformeren in getallen z1_J__.__._,_Z_n_tlpor ___ d_e_trans--=-forrnatie

Xi - a

Zi=-b--; i=l, .. ,n; b>ü,

waarbij a en b zo gekozen worden, dat het gemiddelde zen de variantie s~ van de zi's gemakkelijk te berekenen zijn. Daaruit volgen dan het gemiddelde

x

en de varianties} van de Xi's volgens de formules:

n n 'n

I

xi

I

(a+bzi) na + b

I

i=l i=l X= n en n \ - 2 L (Jei - x) 2 l_· =_l _ _ _ _ sx = n-1 Dus sx bsz n i=l n n

I

b2Czi - z)2 i=l n-1 zi a + bz

(20)

Voorbeeld 4.1.

Gegeven zijn 5 waarnemingen

97,7; 98,3; 99,2; 101,5; 102,3.

Voor de berekening van gemiddelde en standaardafwijking worden deze getallen Xi getransformeerd volgens

xi - 99,5 Zi = 0,1 r;.., _ q z · c : .

-'

6 s,c"' b 52

s;

~ b

s;~

i Xi z· l 1 97, 7 -18 2 98,3 -12 3 99,2

-

3 4 101,5 +20 5 102,3 +28 Totaal 499

,o

11 +15

z

= 3; Sz = Jl66:-1

f

x

= 99, 5 +

o,

1 . 3 = 99, 8 Sx = 0, 1 20,l = 2,01 z? l 324 144 9 400 784 T'- 166flé, = 20,1

5. Berekening van de kentallen uit een frequen-tieverdeling.

5.1. Gemiddelde en variantie.

--- ---Soms -s--Eaan de gegevens aileen

in

ae vormvan~e-en~fre-quent±everde-ling---ter beschikking, of is het in verband met het grote aantal waarnemingen gemakkelijker ze voor de berekening van de kentallen in een frequentie-verdeling weer te geven. Dan zijn dus een aantal klassen met de daarbij behorende aantallen waarnemingen gegeven, maar de ligging van cle afZûn-derlijke waarnemingen binnen een klasse is niet bekend of wordt met op-zet veronachtzaamd. Als de klassegrenzen niet al te ver uit elkaar liggen, kunnen

x

en s2 berekend worden door aan te nemen dat alle waarnemingen in een klasse gelijk zijn aan het klassemidden. Als er k klassen zijn, kunnen we deze klassemiddens x'i (i = 1, .. k) noemen en bij elke x'i_ behoren nu dus een aantal, bv. fi waarnemingen. Gemiddelde en variantie worden dan berekend volgens

en 1 x=

-k--l

fi i=l S2 -- k 1 k

l

fi x'i_ i=l k

l

fi - 1 i=l

l

fi(x'.i_ - x)2 i=l

(21)

k

waarin

I fi = n, het totale aantal waarnemingen.

i=l

De getallen x

1

kunnen voor de berekening uiteraard op de in par. 4 gege-ven wijze getransformeerd worden. Een handige keuze voor ais dan het midden van de klasse met de grootste frequentie, terwijl voor b het beste de klassebreedte genomen kan worden.

Voorbeeld 5.1.1.

Van de in voorbeeld 1.1 gegeven frequentieverdeling van 300 auto-snelheden worden gemiddelde en standaardafwijking berekend:

Snelheid in aantal klasse

km/uur auto's middens Zi = q f· z. = x'i - 71 l l x'· klasse freq. l 5..___1c, 45 - 49 8 47 -5 - 40 50 - 54 6 52 -4 - 24 55 - 59 29 57 -3 - 87 60 - 64 63 62 -2 -126 65 - 69 60 67 -1 - 60 70 - 74 74 72 0 0 75 - 79 29 77 1 29 80 - 84 14 82 2 28 85 - 89

~l~

3 45 90 - 94 2 92 4 8 Totaal 300 " -227 ,-t - -- 227 -0,757

-

T-,_ z = - = 2= 300 T,

x

= 72 + 5z = 68,22

-

:::t:_::: Cl +b 2 S2 z = 299 1 (ll21 - 300 0,7572) = 3,18; s = z 1,78 s"" i ( -

i)

S,_ C \fs,,, Sx = 5.sz=8,90 2 = -T1-1 T? -.::1 1,z, - - - -5.2. De mediaan. fi z l ,2 200 96 261 252 60 0 29 56 135 32 ll21Îl '/_ varz=sz: vcu-X,:=

b '::,~

De bepaling van de mediaan van een aantal waarnemingen is behandeld in par. 2.2. De mediaan van een even aantal waarnemingen wordt daarbij in feite verkregen door lineaire interpolatie. Als de waarnemingen in de vorm van een frequentieverdeling gegeven zijn, wordt de mediaan op analoge wijze met behulp van lineaire interpolatie berekend. Zie daartoe het volgende voorbeeld.

(22)

Voorbeeld 5.2.1.

Van de in voorbeeld 1.1 gegeven frequentieverdeling wordt de me-diaan berekend en daartoe gaan we uit van de eveneens in dit voor-beeld gegeven relatieve cumulatieve frequentieverdeling. Hieruit blijkt dat 35, 33 % van de waarnemingen kleiner is dan 64, 5 en 55, 33 % kleiner dan 69, 5. Nemen we aan dat de waarnemingen in een klasse gelijkmatig verdeeld zijn, dan wordt door lineaire inter-polatie gevonden dat 50 (de middelste) van de waarnemingen

kleiner is dan 50 _ 35 33

64,5 + 55 33-35 33 (69,5 - 64,5) = 68,17

J J

Men neemt nu Xm = 68, 17, Dat is een nauwkeuriger berekening van de mediaan dan wanneer men het gemiddelde van de 150-ste en 151-ste waarneming zou nemen, hetgeen neer zou komen op het klassemidden 67.

De relatieve cumulatieve frequentieverdeling is in figuur 5.1 grafisch voorgesteld als relatief cumulatief frequentiepolygoon.

Hierin is bovenstaande methode ter bepaling van de mediaan aan-gegeven. 1 %

pao

J 9 0

1

BO

---

j

70

j

6 0 50 40 30 1 1 1 20 ç::I ro 1 ro1 •ri 1 '"O 1 (1)1

---:::?:::

st,

10 lf) l1) lf) l1) lf) lf) lf) l1) lf) lf) lf) snelheid 0 , 0 , 0 , 0 , 0 , .± .± lf) lf) lO lO t--- t--- ro ro 0 , fig. 5.1

(23)

HOOFDSTUK

II

KANSREKENING

1. Inleiding.

De kansrekening houdt zich bezig met experimenten die h er ha a 1 baar z11n en waarbij vers chi 11 ende uitkomsten kunnen optreden. Hi~rbij wordt onder een experiment verstaan het uitvoeren van een proef volgens een stelsel van ondubbelzinnig omschreven handelingen. Voorbeelden van een experiment zijn het gooien met een munt, het werpen met één of meer dobbelstenen en het trekken van ballen uit een vaas die verschillend gekleurde ballen bevat. Bij éénmalige uitvoering van zo'n experiment is het niet mogelijk met zekerheid te voorspellen wat de uitkomst zal zijn,maar het zal blijken dat wel voorspeld kan worden hoe vaak een be-paalde uitkomst op zal treden als het experiment een groot aantal keren herhaald wordt. We gaan er in dit hoofdstuk van uit dat het aantal mo-gelijke uitkomsten van een experiment eindig is. De verzameling van alle mogelijke uitkomsten heet uitkomstenruimte, deelverzamelingen van de uitkomstenruimte worden gebeurtenissen genoemd.

2. Kansbegrip.

Stel we gooien 10 maal met een munt en tellen hoe vaak de K(op) boven komt. Als dit 2 keer is, zeggen we dat de frequentie van de gebeurtenis "K" gelijk aan 2 is. Het frequentiequotiÈ<nt of ook wel de relatieve

fre-quentie van deze gebeurtenis is dan 0,2.

In het algemeen : __ _ ____ _ _____ _____ ____ _ _ __ _ _ _ ___________________ _ -- Als

1~e

een

experiment n maal uitvoeren en een bepaalde

gebeurte-nis treedt hierbij x maal op, dan is de frequentie van deze ge-beurtenis x en het frequentiequotiënt of de relatieve frequentie x/n.

Als bij 10 keer gooien met de munt de K 2 maal is boven gekomen, geeft dat niet de zekerheid dat bij nogmaals 10 worpen de K weer 2 keer boven zal komen. De frequentie van de gebeurtenis "K" is dus niet voorspelbaar en dat geldt natuurlijk ook voor het frequentiequotiënt van rleze gebeur-tenis. In figuur 2.1 is dat frequentiequotiënt bij een toenemend aan-tal worpen weergegeven.

Deze figuur is een illustratie van wat wordt genoemd de experimentele wet van de grote aantallen:

Het frequentiequotiënt van een gebeurtenis zal, als het aantal experimenten waaruit het gevonden is, groter wordt, zich met steeds kleinere variaties gaan bewegen om een bepaalde vaste waarde.

Uit figuur 2. 1 volgt dat het frequentiequotiënt zich gaat bewegen om de waarde 0,5 hetgeen we uitdrukken door te zeggen dat de kans op de gebeurtenis "K" 0,5 is.

(24)

06- os04 OJ 02 -1 " " ] i"' 1'111 '11111'111111 "1""""'11111111111 ! JO 10 JO /00 Pt}()

]

soo 1000 2000 3000 -1000 3000 ó0,70 ?r.:w &)(l(J 9000 !()(JO() aantal worpen fig. 2. 1

Algemeen kunnen we stellen:

Als de kans op het optreden van een gebeurtenis A gelijk is aan p, houdt dat in, dat het frequentiequotiënt van de gebeurtenis A als het aantal experimenten waaruit het gevonden is, groter wordt, zich met steeds kleinere variaties gaat bewegen om de waarde p. De kans p op een gebeurtenis A, genoteerd als p = Pr{A}, is dus een

getal waarvoor evenals voor het frequentiequotiënt geldt O ~ p ~ 1. In plaats van de "kans op" wordt soms gebruikt "waarschijnlijkheid van". Bovendien. wordt een kans vaak uitgedrukt in procente~ 0, 5 of 50 % •

Zeer bruikbaar is de volgende definitie van een kans:

Als bij een experiment in totaal n verschillende en·even aanneme-lijke uitkomsten mogelijk zijn, en als bij precies a van dien uitkomsten de gebeurtenis A optreedt, dan is de kans op deze ge-beurtenis gelijk aan a/n.

K 01 ·t weg. . k ans -_ aantal gunstige uitkomsten . 'k . k aantal mogelIJ e lnt omsten

Dit is de klassieke kansdefinitie van Laplace (1812).

Voorbeeld 2.1.

a. Bij het gooien met een symmetrisch en homogeen geconstrueerde munt (zuivere munt) onderscheiden we twee mogelijke en even aannemelijke uitkomsten K(op) en M(unt), zodat

Pr{K} = Pr{lv!} =

½,

b. De kans met een zuivere dobbelsteen 6 ogen te gooien is 116,

c. De kans met een zuivere dobbelsteen een even aantal ogen te gooien is

½.

(25)

Voorbeeld 2.2.

Een vaas bevat 3 witte en 7 zwarte ballen. Blindelings wordt er een bal uitgehaald. Wat is de kans om een witte te trekken? Bij dit experiment zijn 10 even aannemelijke uitkomsten mogelijk en in 3 gevallen is het resultaat dat er een witte bal getrokken wordt. Dus is Pr{W} = 0, 3 als IV de gebeurtenis voorstelt dat er een witte bal getrokken wordt.

Voorbeeld 2.3.

We hebben een rode, blauwe en witte kogel en laten deze door iemand die geblindoekt is, op een rij leggen. Wat is de kans op de volgorde R W B?

De mogelijke volgorden zijn RWB, RBW, WRB, WBR, BRW, BWR, zodat Pr{R W B} = 1/6

Voorbeeld 2.4.

Er wordt tweemaal gegooid met een zuivere dobbelsteen. Wat is de kans in totaal 7 ogen te gooien?

In onderstaand schema zijn de mogelijke uitkomsten van dit experi-ment gegeven: ~ ' uitkomst 2e worp 1 2 3 4 5 6 ~l 2 3 4 5 6,

,--i:

0 ;,: / 2 3 4 5 6 ,'

~--

8 <l) .-< 3 / ' 4 5 6 , ' 7, 8 9 ,µ ~ 4 5 6 , '7, 8 9 10 - 0 -' , , -'t;

s

6,, /7 / '8 9 10 11 •rl ;::l 6 ' / :'.7,' 8 9 10 11 12

In totaal dus 36 mogelijke uitkomsten waarvan er 6 "gunstig" zijn, dus de gevraagde kans is 6/36 = 1/6.

3. Rekenregels voor kansen. 3.1. Inleiding.

Laat de uitkomstenruimte van een experiment bestaan uit neven aanne-melijke uitkomsten voorgesteld doorn punten:

_____________ n Punten

B

(26)

Beschouw de gebeurtenissen aangegeven door de gebieden A en B. Laat in gebied A nA punten liggen, in gebied B nB punten, terwijl A en B 11AB punten gemeenschappelijk hebben. Wat is nu de kans op de gebeurtenis A ?

Volgens de definitie van Laplace is Pr{A} = 11A .

11

Evenzo is de kans op de gebeurtenis B gelijk aan Pr{B} = 11B .

11

Stelt "A en B" de gebeurtenis voor dat A en B a 11 eb ei optreden, dan is Pr{A en B} = 11AB ,

11

omdat de gebeurtenis "A en B" optreedt als er een punt gevonden wordt dat zowel in gebied A als in gebied B ligt.

Voorbeeld 3.1.1.

3.2. In

De uitkomstenruimte van een bepaald experiment bestaat uit 100 punten die we kunnen rangschikken in 10 rijen en 10 kolommen. Zij 11A = 28, 11B = 18, en 11AB = 4: zie figuur 3. 2.

' --

·,

~- B 1 ' 1 1 1 ' -,

-

-

' , I I (l-1 1 1 1 1 1 /,__ _) ' - J _; ,··

--

,

r-(_) 1 A )./ ' / fig. 3.2

Op toevallige wijze wordt een punt uit deze figuur gekozen door twee keer met een zuivere 10-kantige dobbelsteen te werpen. De eerste worp geeft dan de rij aan, d&'tweede worp de kolom. Door beide uitkomsten wordt aselect één van de 100 punten aan-gewezen, zodat

Pr{A}

=

0,28; Pr{B}

=

0,18; Pr{A en B}

=

0,04.

De kans dat een gebeurtenis niet optreedt. figuur 3.1 liggen buiten A n-nA punten. De kans een punt buiten A te vinden is dus n - nA -11-, hetgeen genoteerd wordt als

Pr{niet-A} = n-nA 11

(27)

Hieruit volgt de corrrplementregel voor kansen, namelijk

Pr{niet-A} = 1 - Pr{A} In woorden:

De kans dat een gebeurtenis A niet optreedt, is gelijk aan één

verminderd met de kans dat Awel optreedt.

3.3. De kans dat minstens één van twee gebeurtenis-sen optreedt.

In figuur 3.1 liggen nA punten in A en nB punten in B. Dat betekent niet dat er nA + 11B punten in A of in B liggen, aangezien de 11AB pnnten die zowel in A als in B liggen hierin dubbel geteld zijn. Het aantal punten dat in minstens één van beide hetzij in A, hetzij in B, het-zij in allebei ligt, is dan ook nA + nB - DAB· De gebeurtenis dat er een punt gevonden wordt dat in minstens één van beide gebieden ligt, wordt "A of B" genoemd en de kans op deze gebeurtenis is dus

Pr{A of B} =DA+ DB - DAB Pr{A} + Pr{B} - Pr{A en B}. 11

Anders gezegd:

De kans dat minstens één van twee gebeurtenissen A en B optreedt, is Pr{A of B} = Pr{A} + Pr{B} - Pr{A en B}, waarin Pr{A en B} de kans is dat ze beide optreden.

Opmerking 1. De gebeurtenis "A en B" wordt ook genoteerd als AB.

Opmerking 2. De kans dat op zijn minst één van drie gebeurtenissen A, B en C optreedt, is analoog Pr{A of Bof C} = Pr{A} + Pr{B} + Pr{C}-- Pr{AB} Pr{C}-- PdAC} Pr{C}-- Pr{BC} + Pr{ABC}. Een dergelijke formule bePr{C}-- be-staat ook voor de kans op het optreden van minstens één van n gebeurtenissen,

Voorbeeld 3.3.1.

Een partij keramische onderdelen is in zijn geheel gekeurd op mag-netische eigenschappen en dimensies.

De aantallen die wel en niet aan de gestelde criteria voldoen, zijn in het volgende tabelletje gegeven:

Voor magnetische eigenschappen Totaal slecht goed Voor slecht 142 331 473 dimen-goed 1233 5099 6332 sies Totaal 13715 5430 6805 '

Wat is de kans een slecht exemplaar (dus slecht voor minstens één van beide soorten eigenschappen) uit deze partij te halen?

Is Ade gebeurtenis dat het getrokken exemplaar slecht is voor dimensies en B de gebeurtenis dat het getrokken exemplaar slecht is voor magnetische eigenschappen, dan is de gevraagde kans gelijk aan:

} 473 1375 142

Pr{A of B = Pr{A} + Pr{B} - Pr{AB} =

(28)

Er zijn situaties dat de gebeurtenissen A en B niet tegelijkertijd kunnen optreden. In figuur 3.1 is dat duidelijk te maken door gebieden A en B te tekenen zodanig dat ze geen punten gemeenschappelijk hebben. We zeggen dat de gebeurtenissen A en B e 1 kaar u i t s 1 uiten, of wel disjunct zijn. In dat geval geldt de somregel voor kansen:

De kans dat minstens één van twee disjuncte gebeurtenissen A en B optreedt, is gelijk aan

Pr{A of B} = Pr{A} + Pr{B}. Voorbeeld 3.3.2.

De kans om bij één worp met een zuivere dobbelsteen 1 of 2 ogen te gooien is

1 1 1

6

+

6=

3'

3.4. De kans dat twee gebeurtenissen g e l i j k t i j d i g optreden.

Voor beide gebieden A en Bin figuur 3.1 geldt dat - nAB

nAB - nA nA '

Hierin is nAB rle verhouding tussen het aantal punten dat zowel in A als nA

in B ligt en het aantal punten dat in A ligt. Deze verhouding kunnen we als een kans interpreteren, nl. de kans dat we bij toevallige keuze uit de in A liggende punten er één vinden dat ook in B ligt.

Dit drukken we uit door te zeggen:

nAB = Pr{een punt in B te vinden als gegeven is dat het punt in A

nA ligt}.

nAB wordt de voorwaardelijke of conditionele kans op de gebeurtenis B

nA

genoemd en aangeduid als Pr{BJA}.

cond. aantal gunstige uitkomsten Let wel: cond. kans= con . aan a d t 1 mogel1J e lllt omsten · 'k · k Dus nu geldt nAB = DA Pr{B JA} , hetgeen betekent dat

Pr{AB} = Pr{A} Pr{BJA} Met andere woorden:

De kans dat twee gebeurtenissen A en B tegelijkertijd optreden, is Pr{AB}=Pr{A}Pr{BJA},

waarin Pr{BJA} de voorwaardelijke kans op het optreden van Bis, gegeven dat Ais opgetreden.

Voorbeeld 3.4.1.

Er wordt tweemaal geworpen met een zuivere dobbelsteen. Bereken de kans in totaal zeven ogen te gooien onder voorwaarde dat bij

(29)

P1-,f

A/!_1,j 2 ~~ N~

'

~

. f,f

bj -

p,..~[',1

NB N r\e, 29

elk van de twee worpen minstens drie ogen bovenkomt.

Zij Ade gebeurtenis dat bij elke worp minstens drie ogen boven-komt en B de gebeurtenis dat er in totaal 7 ogen gegooid wordt. In voorbeeld 2.4 hebben we gezien dat Pr{B} = 1/6. In het bij dit voorbeeld behorende schema is het met deze gebeurtenis correspon-derende gebied met een stippellijn aangegeven. Het is niet moei-lijk in dit schema ook het gebied dat met de gebeurtenis A over-eenkomt, aan te geven. Dan blijkt:

Voorbeeld 3.4.2.

In een vaas zitten 2 zwarte en 3 witte ballen. Blindelings worden er achter elkaar twee ballen uitgehaald. Wat is de kans dat de eerste zwart en de tweede wit is9

Laat Ade gebeurtenis zijn dat de eerste getrokken bal zwart is, terwijl B de gebeurtenis aangeeft dat de tweede getrokken bal wit is, dan:

Pr{AB} = Pr{A} Pr{B j A}.

Hierin is Pr{A} = 2/5. Pr{BjA} = 3/4, want als een zwarte bal als eerste getrokken is, zijn er nog 1 zwarte en 3 witte ballen over. De gevraagde kans is dus gelijk aan 2/5. 3/4 = 0 ,3.

Opmerking, Voor de kans dat drie gebeurtenissen A, Ben C gelijktijdig optreden, geldt

Pr{ABC}=Pr{A} Pr{BjA} Pr{CjAB}.

----Een-ana-l,oge---fo±'mu-1@-be-st,aa-t-v00r-de-kans-0p-het--gel-i-jkti-jd-ig optreden van n gebeurtenissen. . 1

- f-,..- z.:}.-. ~b",11,,., -::-hce3",=-cl: .. L~ (_'c Hwis ör /:'r, -r:.:,-c C 1·,cell "'0\~o,·~~).

\ r.-\i:.lll'3°,\

P,'(/P",:;,i,J.

Voorbeeld 3.4.3, 1,

~1,.;,

Een partij van 50 produkten bevat 5 slechte exemplaren. Er wordt een aselecte steekproef van 3 stuks genomen, d.w.z.: blindelings worden er achtereenvolgens 3 produkten uitgehaald. Wat is de kans in de steekproef geen enkel slecht exemplaar aan te treffen? Stel Ai de gebeurtenis dat het i-de getrokken exemplaar goed is (i = 1, 2, 3) , Dan wordt gevraagd naar Pr{A 1A2A 3}.

{

1 1

45 44 43

Pr A1A2A3} = Pr{Ai} Pr{A2 Ai} Pr{A3 A1A2} = 50 '49 '48 = 0, 724,

In voorbeeld 2.4 beschouwen we de gebeurtenis B dat er in totaal 7 ogen gegooid wordt en de gebeurtenis C dat de tweede worp minstens 4 ogen oplevert.

Dan is Pr{B Je}= ;cc= 138 =

¼ .

Dus is Pr{BJC}= Pr{B}, d.w.z.: de voorwaardelijke kans dat B optreedt gegeven dat C opgetreden is, is gelijk aan de kans dat B optreedt. Voor de kans dat B optreedt,doet het er dus niets toe of Cal dan niet

(30)

opge-treden is. Evenmin doet het er voor de kans op het opopge-treden van C iets toe of Bal dan niet opgetreden is, want

1

3 1

Pr{C B}=

6

=

2

=Pr{C}.

De gebeurtenissen C en B worden s to c ha s t i s c h onaf ha n k e 1 i j k genoemd, waarbij het woord "stochastisch" vaak weggelaten wordt.

Voor onafhankelijke gebeurtenissen geldt nu de produktregel voor kansen, namelijk

De kans dat twee onafhankelijke gebeurtenissen A en B gelijktijdig optreden, is gelijk aan

Pr{AB} = Pr{A} Pr{B} .

Om aan te tonen dat twee gebeurtenissen A en B onafhankelijk zijn, zou men moeten bewijzen dat Pr{B JA}= Pr{B}. Gezien het feit dat

p {B [A} = Pr{AB}

r Pr{A}

komt dat neer op het bewijzen van Pr{AB} = Pr{A} Pr{B}, terwijl we deze regel juist willen toepassen. De produktregel is dus in het algemeen alleen toepasbaar op gebeurtenissen waarvan de onafhankelijkheid intu-itief duidelijk is; het belangrijkste voorbeeld van stochastische onaf-hankelijkheid wordt gevonden bij herhalingen van experimenten die zoda-nig zijn ingericht dat voorafgaande uitkomsten geen enkele invloed uit-oefenen op latere uitkomsten en omgekeerd.

Voorbeeld 3.4.4.

We gooien twee maal met een zuivere dobbelsteen. De kans dat bij de eerste worp 1 oog en bij de tweede worp 2 ogen bovenkomt is

1/6•1/6;-T/36, omdat.de uitkomst van de tweede worp niet wordt be1nvloed door het resultaat van de eerste worp.

Voorbeeld 3.4.5.

In een vaas zitten 4 witte, 5 rode en 6 zwarte kogels. In een an-dere vaas zitten 5 witte, 6 rode en 7 zwarte kogels. Uit beide vazen wordt blindelings een kogel genomen. Hoe groot is de kans dat ze dezelfde kleur hebben?

De kans uit de eerste vaas een witte kogel te trekken is 4/15.

De kans uit de tweede vaas een witte kogel te trekken is 5/18.

Beide trekkingen zijn onafhankelijk, dus de kans dat beide kogels wit zijn is 4/15•5/18 = 20/270.

De kans dat beide kogels rood zijn is 5/15•6/18 = 30/270

De kans dat beide kogels zwart zijn is 6/15•7/18 = 42/270.

De kans om twee kogels van dezelfde kleur te trekken,is volgens de somregel gelijk aan

20 30 42 92 46

(31)

Voorbeeld 3.4.6.

Er wordt geworpen met een munt waarvan Pr{K} = p (0 < p < 1). Zij Ak de gebeurtenis dat bij de k-de worp de K voor het e e r s t bovenkomt. Volgens de produktregel is dan Pr{Ak} = pqk-1 met q = Pr{M} = 1 - p (k = 1, 2, 3 ... ) .

op grond van de somregel is

co

Pr{A1 of A2 of ... } = kh Pr{Ak} = p(l + q + q2 + . . . ) = l ~ q = 1.

Met andere woorden: met kans 1 is er een worp waarbij de K voor het eerst bovenkomt.

4. Opmerkingen.

4.1. Het kansbegrip.

In het voorgaande is een tweetal mogelijkheden gegeven voor de nume-rieke bepaling van de kans op een bepaalde gebeurtenis. De methode vol-gens de de:fini tie van Laplace heeft als bezwaar het "even aannemelijk" zijn van de mogelijke uitkomsten (eindig in aantal), want hoe maakt men dat uit? 11Even aannemelijk" betekent in dit verband "gelijke kansen

heb-ben". De de fini tie is dus circulair, en daarom eigenlijk onjuist. De methode gebaseerd op de experimentele wet van de grote aantallen komt neer op het bepalen van het frequentiequotiënt van een gebeurtenis op basis van een voldoend groot aantal experimenten, maar hoe wordt "voldoend groot" gespecificeerd?

Deze bezwaren zijn te ondervangen door de kansrekening axiomatisch op te bouwen. We gaan hierop niet in, maar vermelden dat de uit het stelsel axioma Is afgeleide stellingen overeenstemmen_met de_iri_dit_hoofdstuLge~

vonden rekenregels:

4.2. Het rangschikken van elementen.

We beschouwen het aantal manieren waarop n elementen gerangschikt kunnen worden. Iedere rangschikking wordt een permutatie genoemd. Het aantal permutaties zullen we aanduiden met Pn.

Ga er allereerst van uit dat de beschouwde elementen a 11 e ma a 1 v e r s c h i l l e n d zijn, zodat we ze kunnen aangeven met de getallen 1, 2, .. . ,n. Om het aantal permutaties te bepalen, beginnen we met n = 2. Er zijn dan 2 rangschikkingen mogelijk, nl. (1,2) en (2,1). Dus P2 = 2. Voor n = 3 kunnen we uitgaan van de permutaties van 2 elementen. Bij

(1,2) kunnen we een 3 voegen op drie manieren: (3,1,2), (1,3,2) en (1,2,3). Bij (2,1) krijgen we evenzo: (3,2,1), (2,3,1) en (2,1,3). Het aantal

permutaties van 3 elementen is dus P3 = 3P2. Zo voortgaande wordt gevonden dat

P4 =4P3; Ps=SP4; Pn=nPn-l

df

Hieruit volgt dat Pn=n(n- l)(n- 2) ... 3•2•l=n!; het aantal permutaties van n verschillende elementen is dus n!.

(32)

Voorbeeld 4.2.1.

De letters van het woord "getal" kunnen op 5 ! = 120 manieren wor-den gerangschikt.

Stel nu dat niet alle te beschouwen elementen verschillend zijn, dus laat den elementen bestaan uit n1 onderling gelijke, n2 onderling gelijke, etc. Het aantal permutaties is dan gelijk aan

Voorbeeld 4.2.2.

De 5 elementen a,a,b,b,b kunnen rangschikt, namelijk:

aabbb ababb abbab babab babba bbaab Voorbeeld 4,2,3.

S ! 10 . d

op 2 !

3 ! = manieren wor en ge-abbba

bbaba

baabb bbbaa

Het aantal permutaties van de letters van het woord "statistiek" bedraagt

10!

2! 3! 2! = 151200

(33)

HOOFDSTUK

III

STOCHASTISCHE VARIABELEN; POPULATIE EN STEEKPROEF

1. Discrete stochastische variabelen,

Beschouw een experiment dat willekeurig vaak uitgevoerd kan worden, bv, het gooien met de munt van voorbeeld 3,4,6 in het vorige hoofdstuk. Bij iedere proef kan een gebeurtenis A, aangegeven als een "succes", op-treden. Stel dat de kans pop dat succes constant is en dat het experi-ment n maal uitgevoerd wordt zodanig dat de uitkomsten onafhankelijk van elkaar zijn.*) Op grond van de produktregel is de kans op k succes-sen en n - k mislukkingen op een bepaalde wijze gerangschikt gelijk aan

k n-k

p q ; q=l-p; k=O,l, ... ,n.

Deze formule geldt ook voor de kans op k successen en n - k mislukkingen in iedere andere volgorde, We willen nu bepalen de kans op k successen en n - k mislukkingen ongeacht de volgorde waarin zij optreden, Het probleem is dan ook het aantal manieren te bepalen waarop k successen en n - k mislukkingen kunnen worden gerangschikt, Blijkens opmerking 4.2

van hoofdstuk I I is dit aantal gelijk aan n!

k!(n-k)!

hetgeen bekend staat als de binomiaalcoëfficiënt

Volgcms--ae--somr-eg-e1--îsdan de kans öp k successen: k n-k

p q

Voorbeeld 1.1.

( nk)

Bepaal de kans om met een zuivere munt bij drie keer gooien pre-cies twee keer K te krijgen,

In dit geval is: n = 3, p = 0, 5 en k = 2. De gevraagde kans is (;) (0,5)2(0,5)1 =¾,

Laat het symbool x het aantal successen bij dien proeven aangeven, dan kunnen we schrijven dat

{ } ( n) k n-k

Pr ~

=

k

=

k p q (k=O,l, ... ,n).

Deze x is een voorbeeld van een discrete stochastische variabele, en wel

(34)

"disci·eet", omdat slechts gehele waarden van O tot en met n door de variabele x kunnen worden aangenomen;

"stochastisch", omdat de waarden van de variabele x afhangen van het toeval.

Onder een stochastische variabele soms wel toevalsvariabele genoemd -moet men dus verstaan een grootheid waarvan de uitkomst niet met zeker-heid voorspeld kan worden maar waarvan wel de kans op het voorkomen van elke mogelijke uitkomst kan worden bepaald. Hierbij beperken we ons tot uitkomsten in de vorm van getallen, vandaar dat we spreken over "waarden" in het bovenstaande*).

Kortweg: een stochastische variabele is een grootheid (variabele) met een

l<ansverde ling.

De grootheid x die in het voorgaande het aantal successen aangeeft bij n proeven, heêft een binomiale (l<ans)verdeling.

Voorbeeld 1.2.

Laat x voorstellen het aantal ogen dat bovenkomt wanneer er één-maal iet een zuivere dobbelsteen geworpen wordt, dan

Pr{~=k}=¼ voor k=l,2, .. ,6. x heeft een uniforme verdeling,

Voorbeeld 1.3.

z stelt voor het totale aantal ogen dat bovenkomt wanneer er twee-iaal met een zuivere dobbelsteen gegooid wordt, In voorbeeld 2.4 van hoofdstuk II is het schema van mogelijke uitkomsten gegeven - - -- en -We--lezen-hierui_t_af__dat __ ·1 Pr{~= 2} =Pr{~= 12} = 36 Pr { z = 3} = Pr{ z = 11} = 1_ = l__ - - 36 18 6 1 Pr{z=7}=-=-- 36 6

z heeft een driehoel<sverdeling.

Een discrete stochastische variabele~ wordt dus bepaald door 1) mogelijke uitkomsten x1 , x2 , X3, •••

2) Pr{~=xi} voor i=l,2,3, ... , zodanig dat ~Pr{~=xi}=l. 1

*) Gegeven is de definitie van een discrete stochastische variabele, Bij een continue stochastische variabele (zie volgende paragraaf) heeft het geen zin de kans op een bepaalde waarde te beschouwen; in plaats daar-van bepaalt men de kans op een a f g er on d e waarde.

(35)

Bij zo'n stochastische variabele definieert men de volgende begrippen: a. de kansfunctie van x

1

Pr{~= xi} als x= xi p (x) = 0 , elders. b. de veTdelingsfunctie van x (i=l,2,3, ... ).

Pr { ~ ~ x} =

L

Pr { ~ = xi } , ook aangegeven met F(x). X, <x

l =

1::

l

Let wel: F(x) =

l

p(xi). xi~,X

. ! . () ,.

t .

i }, ,; · '( -=

() f 1,

c. het gemiddelde of de verwachting van ~ (ook wel het e e r s t e

moment*)

Ex=~ xi Pr{x = xi}, vaak aangegeven met µx·

- l

-d. de verwachting van een functie g(.) van x

e. de variantie van?:, (of het tweede c e n t r a l e rnoment·H)

Var x = I (xi - µx) 2 Pr{~= xi}, ook aangegeven met CT~. i

CT =

I

Var x heet de standaardafwijking van x.

X

-*) Onder het k-de moment van een discrete stochastische variabele x wordt verstaan

El=I X·k Pr{x=x·}.

- i l - l

**) Onder het k-de centrale moment van een discrete stochastische varia-bele x wordt verstaan

k k

E(x-µ) =I (x· -µ) Pr{~=xi},

(36)

V o or b .e e 1 d 1, 4.

Beschouw de uniforme verdeling van voorbeeld 1.2, dus

1 Pr{~= k} =

6

voor k = 1, 2, . , . , 6, Dan is µx = -1 6 kI=6 1k = 2 6 1 = 3,5 en 02 =l

~

(k - 3 5)2 = 35. X 6 k=l ' 12 De kansfunctie en de verdelingsfunctie van x zijn gegeven in dë figuren 1.1 en 1. 2:

t

F(.x) 0 5 x -• j 1 0 1 0

2. Continue stochastische variabelen.

fig. 1.1

fig. L2

Beschouw de frequentieverdeling van 3ûû autosnelheden zoals behandeld in hoofdstuk I. Laat x voorstellen de snelheid van een auto,

blinde-lings gekozen uit die-300 stuks. De grootheid x is dan op zich niet voor-spelbaar, maar uit de relatieve frequentieverdëling volgt dat bv.

Pr{64, 5 < x < 69, 5} = 20%, etc, Deze x is dus als een stochastische varia-bele te bëschouwen. Het is belangrijk de situatie na te gaan als we ons n i et beperken tot die 300 voertuigen,

We merken allereerst op dat het bij de frequentieverdeling behorende histogram slechts één van de vele histogrammen is die er van het verschijn-sel "snelheden van auto's op dat waarnemingspunt" gemaakt kunnen worden. Teneinde histogrammen, vooral wanneer ze gebaseerd zijn op verschillende aantallen waarnemingen, met elkaar te kunnen vergelijken, kan de opper-vlakte van elk histogram op êên genormeerd worden. Dit betekent dat de hoogte hi van dei-de kolom van zo'n histogram gelijk moet zijn aan

h- = fi 1 n ei '

(37)

waarin ei de breedte van dei-de klasse is, fi de bijbehorende frequen-tie en n = ~ fi ( = 300 in ons geval). Immers de oppervlakte van de i-de

1 kolom is dan

h·c· = fi 1 1 n

(dit is de relatieve frequentie van de desbetreffende klasse), zodat de totale oppervlakte van het histogram gelijk is aan

l

. hici =l_ n .

l

fi = 1.

1 1

Aangezien experimenteel blijkt dat alle histogrammen ongeveer dezelfde gedaante vertonen, ligt het voor de hand het te onderzoeken verschijnsel te beschrijven met een continue kromme f(.). Uiteraard moet ook de oppervlakte onder die kromme één zijn, d.w.z.:

co

J

f(x)dx = 1. -CO

f(.) heet de (kans)dichtheidsfunctie*) van de continue stochastische

variabele~: in dit geval stelt~ de snelheid van een auto op dat

waar-nemingspunt voor, maar het bovenstaande gaat ook op wanneer het waarne-mingsuitkomsten aan een andere continue variabele betreft.

Een dichtheidsfunctie kan dus opgevat worden als een theoretisch histo-gram, hetgeen inhoudt dat de oppervlakte van een kolom met a_::=_x_::=_ b als basis en van boven begrensd door f(x) de theoretische relatiêvefrequen-tie van die klasse weergeeft, dus Pr{a~;~b}.

Grafisch:

a

fig. 2.1

*) Een dichtheidsfunctie moet dus voldoen aan

1) f(x)2:,0, -co<x<co, co 2)

J

f(x)dx = 1. -co <} J fJvi.l;,,

(38)

We definiëren voor een continue stochastische variabele ;smet dichtheids-functie f(.) de volgende begrippen:

0 ~ f"C>::)( 1 F(~) ;,, l OP 0 :.,vt a. b. de verdelingsfunctie van ;:; X F(x)=Pr{~~x}=f f(t)dt. -00

het gemiddelde of de verwachting van ~ (ook wel het e e r s t e

moment *) 00

J

x f(x) dx. 00

c. de veruachting van een functie g(.) van~

00

E g(f) =

J

g(x) f(x) dx.

_oo

d. de variantie van x (of het tweede c e n t r a l e moment**)

- oo

-J

/Sr'°),l:-.c

- i

i•J:eJc.0J

'lê, i.

,,,0-JJc"~)J:t

CT~= Var ~

=_L

(x - JJx) 2f(x) dx .·· . ,,._1- _ )N1.. "'\Ei.' ), CTx = I Var ~ heet de standaardafwijking van ~.

--, Opmerking 1. Uit a volgt dat dF (x) d x = f(x).

Opmerking 2. Eveneens volgt uit a dat Pr{a~~~b} = F(b) - F(a). ···· Opniërk:i:ng ·3·; .. Voor kl·etrrewaa:rdcn-vaffi'Dcge-Mt dat

Pr{x~ ~~ x + l'ix} = f(x) l'ix, en wel omdat f(x)= limF(x+l'ix)-F(x)

l'ix-+O l'ix

f(x) •l'ix wordt het kanselement van~ genoemd.

*) Onder het k-de moment van x verstaat men

k OO k

E;s =

J

x f (x) dx . -00

**) Onder het k-de centrale moment van x wordt verstaan

k OO k

E(x-µ) =f(x-µ)f(x)dx.

(39)

Voorbeeld 2,1.

Een stochastische variabele x heeft de dichtheidsfunctie

{

1 als µ -

½

~ x ~ µ +

½

f (x) =

0, elders

x kan kennelijk geen grotere waarde aannemen dan µ +

½

en geen kleinere danµ -

½,

µ is een parameter.

Duidelijk is dat

J

f(x) dx = 1. _ro 02 X

µ+½

f

xdx = ½{ (µ +

½)

z - (µ -

½)

z}

µ-½

µ+½

J

(x - µ) 2dx

µ-½

1 12· µ, F (x) =

l

O µlLdx als als x - µ + ½ als µ - ½ ~ x ~ µ +

½.

X >

µ+½,

We zeggen dat ~ een uniforme verdeling heeft.

Voorbeeld 2, 2 ,

Een stochastische variabele~ heeft de dichtheidsfunctie

(x-u)2 1 - ~ f(x) = crffrr e 2a Grafisch: f (x)

o

r/7

/ /

,,

fig. 2.2

(40)

µ en 0 2 zijn parameters (0 > O) .

x heeft een normale verdeling, ook wel verdeling van Gauss genoemd. We zullen allereerst bewijzen dat f(.) een dichtheidsfunctie is. Het is duidelijk dat f(.) een niet-negatieve functie is (immers 0 > 0), dus er moet aangetoond worden dat

co

J

f (x) dx = 1. -co 2 Stel daartoe A -

1=

e 2 0 dx,

J

_lex-µ) - 0y 2TI dan A > O. co x-µ

Stel nu ~

0

~ = y, dan dx = 0dy, zodat A Beschouw:

J

1 1 2 4 - e- 2y dy

l2'rr

-co co

J

1 1 2

12n

e- 2 z dz co co

!

J J

0 0

Ga over op de poolcoördinaten y=rsin8 en z = r cos

e.

co J[_ 2 co Dan: A2 =¼J

J

re -ir2 2 dr d8

J

_lr2 re 2 dr 1, hetgeen betekent r=O 8=o 0

We tonen verder aan

co 2 co

J

X - l (L=ll)

J µ

+ 0y 1 2 µx 012'rr e 2 0 dx r2TI' e-2Y dy -co -CO co co

Jk

1 2 0

J

ly2 µ e-2Y dy + ~ - ye- 2 dy

l2'rr

-co -CO co -CO 0

{ J

1 2

J

1 2

}

µ +

/2'rr

ye-2Y dy ye-2Y dy µ, 0 0

Bovendien tonen we aan dat 0~ = 02:

co 2 co 02

J

(x - µ) z _l(x-µ)

J

0 2Y2 -½y2 e 2 0 dx /2TI e dy X 0/2Tr _co _(,() dat A = 1.

(41)

(X)

02 via partiële integratie.

X De verdelingsfunctie F(x) = Pr{?5~x} =

J ~

olzrr 1

-l

- 0 0

ë>i'( ) I':). l•CI\" l°)

lc

2

ict-µ)

e-2 0 dt

Door de uitgevoerde transformatie is dus de integrand (de dichtheids-functie van een normale verdeling met parametersµ en

if)

teruggebracht tot de dichtheidsfunctie van een normale verdeling met gemiddelde Oen standaardafwijking 1, terwijl de groothedenµ en CT alleen nog voorkomen in de bovengrens van de integraal. Dit betekent dat we bij de numerieke bepaling van F(x) kunnen volstaan met de getabelleerde verdelingsfunctie van een normale verdeling met µ = 0 en CT= 1 (de standaard-normale

verde-ling). Immers is ~ standaard-normaal verdeeld, dan F (x) = Pr{l_!~ ~}.

3. Populatie en steekproef,

Zoals in de inleiding al gesteld is, bestaat een populatie uit een in het algemeen groot aantal getallen. Laten we ons eerst beperken tot een populatie met betrekking tot een continue variabele (kortweg: continue populatie). Dan komen er in de populatie geen gelijke getallen voor,

terwijl er bij het waarnemen van die getallen wel gelijken kunnen worden gevonden. Dit is o.a. het geval wanneer men door met in g waarneemt en men dus moet afronden op de kleinste meeteenheid.

De getallen in de populatie kunnen overzichtelijk gegroepeerd worden in een frequentieverdeling en grafisch worden weergegeven in een histo-gram. ___ ln_ __ plaats __ v:an_da-t--h-istogl'am--we-l'k-t---men-nu-met-een--d-ich-the-idsfunct±e--f(,) als mathematisch model voor de relatieve frequentieverdeling van de

getallen in de populatie. Zo'n functie f(.) moet men dus zien als een wiskundige formule die de onbekende relatieve frequentieverdeling van de populatie vastlegt, De verdelingsfunctie F(x) geeft de op deze formule gebaseerde fractie getallen in de populatie aan, die kleiner of gelijk zijn aan x. Stelt het symbool ?5 een blindelings uit de populatie ge-trokken getal voor, dan is ;s te beschouwen als een continue stochas-tische variabele met

df X

Pr{~~x} = F(x) =

f

f(t)dt. -00

Een andere situatie treedt op wanneer er onder de getallen in de po-pulatie gelijken voorkomen in die zin, dat de vers chi 11 ende gètal-len in de populatie zijn x1, x2, ... , xm, terwijl ieder getal Xi een aantal malen, stel fi keer, voorkomt. Denk hierbij bv. aan de denkbeël-dige populatie bestaande uit de uitkomsten van vele worpen met een döbbel-steen (m = 6, Xi = i voor i = 1, 2, .. , 6) . We spreken van een discrete popu-latie.

Laat x het resultaat voorstellen bij êên trekking (de uitkomst wanneer er éénmaal met de dobbelsteen geworpen wordt), dan is

Cytaty

Powiązane dokumenty

Uczymy grać w koszykówkę: taktyka, technika, metodyka nauczania koszykówki w lekcjach wychowania fi zycznego.. 1, Indywidualny i zespołowy

Jeszcze jedną kwestią wartą poruszenia jest kwestia tezy postawionej przez autorów we wstępie, ale na którą nie udało mi się zna- leźć odpowiedzi w tekście.. Teza owa zakłada

Modyfi kacja tego paradygmatu powinna uwzględnić wyniki badań ekonomii behawioralnej, w której kultura jest fundamentalnym elementem otoczenia gospodarczego człowieka.. Taka

Litania  jest  modlitwą  zanurzoną  w  głębokiej  tradycji,  gdyż  wywodzi  się  z  chrześcijańskiej  starożytności,  której  dziedzictwo 

i nie ma czasu, aby zastosować jakikolwiek inny tryb. Aby zamawiający mógł zastosować art. nie narażając się na zarzut naruszenia ustawy, sytuacja, w której się

Niemal wszyscy bada- cze porównują styl i kompozycję ampułek, ukazujących sceny chrystologicz- ne, z fragmentami ampułki przechowywanej w Dumbarton Oaks Collection w Waszyngtonie

Na wzór kościoła, w którym nierzadko odbywają się różnego rodzaju nocne czuwania i wigilie, Biskup Konstantynopola zachęca swoich wier nych również do nocnej

Komisji, którą słusznie i z prawdziwą przyjemnością nazywamy Naszą, bo jej samej i jej trosce zawierzona została tak wielka część najcenniejszego i