• Nie Znaleziono Wyników

Ordening van waarnemingen met behulp van segmentaties en clustermethode in de verkeerskunde

N/A
N/A
Protected

Academic year: 2021

Share "Ordening van waarnemingen met behulp van segmentaties en clustermethode in de verkeerskunde"

Copied!
29
0
0

Pełen tekst

(1)

7"J0799

MEMORANDUM

QRDENING VAN WAARNEMINGEN MET BEHULP VAN SEGMENTATIES EN CLUSTERMETHODE IN DE VERKEERSKUNDE

EVM/OI/84.01

Prof.dr.ir.R. Hamerslag 12 januari 1.984

LABORATORIUM VOOR VERKEERSKUNDE Technische Hogeschool Delft

Afdeling der Civiele Techniek

(2)

790799

LABORATORIUM VOOR VERKEERSKUNDE

Technische Hogeschool Delft

Afdeling der Civiele Techniek

Delft. Nederland

(3)

T.H. Delft

ORDENING VAN WAARNEMINGEN MET BEHULP VAN SEGMENTATIES EN CLUSTERMETHODE IN DE VERKEERSKUNDE

EVM/Ol/84.01

Prof.dr.ir.R. Hamerslag

12

januari

1.984

Bibliotheek TU Delft

Laboratorium voor Verkeers1 \\\\1111111 \111\\ 11

11

1I1

lil

1i1 1 1i1 C 0003149029

Wiskunde en Informatica Afd. der Civiele Techniek

Stevingweg I, 2628 CN Delft Julianalaan

134,

2628 BL Delft

8516

636G

(4)

- 1

-1. Inleiding

Er wordt zeer veel informatie. verzameld en bewaard. Met behulp van computers

kan men deze gegevens ook ter beschikking krijgen. Vooral de informatie die

voor een specifiek probleem gebruikt kan worden is nuttig. Het in relatie tot

een bepaald probleem te gebruiken soort waarnem~ngen noemen we object van

on-derzoek. Deze bijdrage zal zich richten op het ordenen van gegevens. Onjuiste ordening van gegevens kan leiden tot foutieve gevolgtrekkingen (par.3). Het nastreven van homogeniteit van groepen waarnemingen is een eerste vereiste. Er zijn evenwel een groot aantal methoden beschikbaar waarmee de ordening kan geschieden. Deze bijdrage beperkt zich tot segmentatie- en clustertechnieken.

Het aantal mogelijke technieken is zeer groot ~n leidt tot andere

groepsinde-lingen waaruit men verschillende gevolgtrekkingen kan maken (par.4). We zullen met de meest aannemelijke schattingstheorie aantonen, dat de

af-standsmaat waarmee het v.erschil tussen groepen of de homogeniteit van de

groe-pen gemeten kan worden afhankelijk is van de vorm van de verdelingsfunctie van de als object van onderzoek gebruikte waarnemingsuitkomsten. Deze afstandsmaat wordt gebruikt om groepen te vormen. Dit kan geschieden door de individuele waarnemingen bijeen te voegen (clusters) of alle waarnemingen uit te splitsen

in groepen (segmentatie). Met behulp van een voorbeeld zullen we deze methodes bespreken (par.S). Het vormen van groepen geschiedt met behulp van kenmerken

(bijv. geslacht, leeftijd). We zullen laten zien dat sommige kenmerken in de plaats treden van andere kenmerken (par.6) en de consequenties hiervan laten zien.

2. Het object van onderzoek

De relatie tussen de te kiezen waarnemingen en het probleem vormt een onderzoek op zich en zal elders aan de orde worden gesteld. Hier volstaan we ermee op te

merken dat de gegevens ~n het algemeen zullen worden gebruikt voor het besturen

van reële systemen. In de verkeerskunde onderscheidt men verschillende systemen

(auto, openbaar vervoer en fiets), verschillende bestuursorganen (b~leid Vbor

lange termijnbeslissingen, beheer , .. voor. middellange termijn beslissingen en

uitvoering voor korte termijn beslissingen). Het is uiteraard vanzelfsprekend dat men t.a.v. een beleid van het autowegennet ander informatie nodig heeft dan voor regeling van het verkeer op die wegen. Voor beleid ten behoeve van

fietsvoorzieningen is andersoortige informatie nodig ~an voor het beleid t.a.v.

het openbaar vervoer. Soms hebben bedrijfsleven en overheid andere informatie nodig voor hetzelfde probleem.

Voorbeelden van objecten van onderzoek z~Jn verplaatsingen, verplaatsingen per

(5)

_. 2

-vervoerstromen op werkdagen, 1n dal- en spitsperioden per vervoerwijze, ongevallen etc.

Het object van studie kan één of meer dimensies hebben t.b.v. verplaatsingen (één dimensie), verplaatsingen per vervoerW1Jze of verplaatsingen per motief (meer dimensies).

3. Het ordenen van waarnem1ngen

De waarnemingen kan men onderscheiden naar kenmerken die weer verdeeld worden 1n klassen. Er zijn kenmerken die persoonsgebonden zijn (bijv. geslacht met klasse man/vrouw), systeemgebonden (bijv. afstand tot stadion met de klassen

0-500 m, 500-2000 m en meer) en tijdsgebonden {maand, dag). Het is in principe .

.

mogelijk om de dimensie van object van de kenmerken te verwisselen. Bijv.: object van onderzoek: verplaatsingen tijdens dal- en spitsperioden in plaats van object van onderzoek: verplaatsingen met kenmerk periode van de dag met klassen dal- en spitsperioden.

Het aantal dimensies van een tabel 1S gelijk aan het aantal kenmerken. Toename van het aantal kenmerken doet het aantal dimensies toenemen en tevens het aantal cellen van de tabel.

tabel 3.1 kenmerk geslacht inkomen autobeschikbaarheid levensfase

deelname arbeids·proces afstand tot spoorwegstation

aantal klassen 2 6 3 5 ·3 3 . cellen in tabel (cumulatief) 2 2x6=12 3x12=36 36x5=180 3x180=540 3x540=1620

Ieder kenmerk doet het aantal cellen toenemen. Bij een gelijk aantal waarnemingen neemt de cel vulling af en wordt door toevalligheden onregelmatig. Bovendien wordt het zeer moeilijk om de inhoud van de tabel op te nemen door het grote aantal . cellen.

Het aantal kenmerken beperkt men daarom 1n de praktijk tot niet meer dan 3 à 4. De keuze van de kenmerken bepaalt de inhoud van de tabel. Op grond van praktische en theoretische overwegingen wordt bewust of onbewust een keuze gedaan uit moge-lijke kenmerken. Nu eens wordt indeling gemaakt met het kenmerk geslacht, dan weer deelname aan arbeidsproces of levensfase. Anderen onderscheiden de bevol-king op huishoud- of persoonlijk inkomen etc. Mede als gevolg van de toename van

(6)

-3-het computergebruik wordt -3-het mogelijk om met behulp van dezelfde gegevens andere kenmerken te onderscheiden waardoor andere tabellen ontstaan; Een ge-volg is een chaotisch beeld van de werkelijkheid. De verschafte informatie heeft voor het besturen van het systeEm weinig betekenis. Een oordeelkundige ordening echter vermeerdert daarom de waa~de van de verzamelde informatie in hoge mate.

4. Homogeniteit van het object van onderzoek

Als gevolg van het samenvoegen van waarnemingen gaat informatie verloren. Als men bijv. het verplaatsingsgedrag van een gemiddelde groep personen wil

vast-stellen, bevat dit gemiddelde gedrag minder informatie dan het gedrag van

ieder van de personen afzonderlijk. We zullen dit toelichten met een voorbeeld. Stel dat we de vervoerwijzekeuze. van personen zullen onderzoeken die geen auto·

ter beschikking hebben. Deze groep personen bestaat uit huisvrouwen ~n studen-ten. Stel nu dat studenten alleen fietsen en dat huisvrouwen alleen gebruik maken van de bus. Er ontstaat nu tabel 4.1.

Tabel 4. I.

Kenmerk jaar aantal personen fiets bus

studenten 1970 50 50 0 1980 60 60 0 huisvrouwen 1970 50 0 50 1980 40 0 40 totale groep 1970 100 50 50 1980 100 60 40

Als nu studenten en huisvrouwen samengevoegd worden tot één groep, blijkt dat 50% gebruik maakt van de fiets en 50% van de bus.' Dit is wat in~de praktijk veel gebeurt. Men voegt de groepen ~amen en tracht de verschillen te verklaren uit b1jv. systeemvariabelen.

Een gevolg is ook dat veranderingen in de groepssamenstelling grote invloed op het verplaatsingsgedrag van de groep. Dit is in de tabel aangegeven voor het jaar 1980. Het aantal studenten is toegenomen tot 60-en huisvrouwen afgenomen tot 40. De verdeling tussen bus en fiets ondergaat hierdoor een verandering. De verhouding 50/50 wordt 60/40.

Veranderingen in de samenstelling van de groep hebben veel minder grote invloed als het verplaatsingsgedrag homogeen is. Dit is tot uitdrukking gebracht in

(7)

-4-tabel 4.2. De verhouding tusS'en het gebruik van fiets en "bus is hier 20/30

voor werkende vrouwen en de verhouding in het gedrag van werkende mannen is 25/25. Als gevolg van verandering van de groepssamenstelling ondergaat het gedrag

van de gehele groep bijna geen verandering. Tabel 4.2.

Kenmerk aantal personen fiets bus

werkende ]970 50 20 30 vrouwen ]980 60 24 36 werkende 1970 50 25 25 mannen 1980 40 20 20 totale 1970 100 45 55 groep 1980 100 44 56

Het niet juist maken van onderscheid kan leiden tot onjuiste gevolgtrekkingen. Het hier gegeven voorbeeld geeft het aantal verplaatsingen per trein, dat

ge-relateerd is aan inkomen en afstand tot het. station.

Tabel 4.3. Geconstrueerd voorbeeld van verplaatsingen per km naar inkomen en afstand tot station (groepsgrootte tussen haakjes)

Afstand - inkomen

tot station geen laag middel hoog zeer hoog

kcrt

16 (]

0) "7 (1 0) 8(10) 9(0) ] 0(0) middel 3(0) 4( 10) 5( 10) 6 (10) 7(0) lang 0(0) ] (0) 2( 10) 3 (1 0) 4 (10) 6 (10) 5,5(20) 5(30) 4,5(20) 4(10) 7(40) 5 (40) 3(40)

..

Het aantal verplaatsingen neemt toe met het inkomen en af met de afstand tot het station. Personen met hoger inkomen wonen verder van het station. Als men de

verplaatsi~gen bepaald in relatie tot het station en afziet van de invloed van \ :

(8)

5

-het inkomen dan krijgt men de waarden (resp. 7-; 5 ; 3) opgenomen in de laatste kolom. In plaats van een verschil tussen deze afstandsklassen van 3 meet men een verschil va~ 2. De invloed van de afstand tot het station

wordt~rhalve onderschat. Indien men de afstand tot het station verwaarloost, krijgt men resp. 6; 5,5 ; 5 ; 4,5 en 4 weergegeven in de onderste regel. In plaats van een positieve invloed van het inkomen meet men een negatieve in-vloed. Als gevolg van bepaling van gemiddelden gaat informatie verloren. Als het verlies aan informatie groot is t.o.v. overblijvende informatie, ontstaat kans op onjuiste gevolgtrekkingen. Door een juiste samenvoeging kan het maken van onjuiste gevolgtrekkingen worden tegengegaan.

5. Het meten van homogeniteit van waarnemingen

5.1. Tradition~le afstandsmaten

Het nastreven van homogeniteit in de cellen die bij uitspitsingen ontstaan, verdient aanbeveling teneinde de overdraagbaarheid in tijd en plaats te be-vorderen en teneinde de kans op het maken van onjuiste gevolgtrekkingen te verminderen.

Het object van onderzoek dient op dusdanige w~Jze verdeeld te worden in pen dat de keuze van de juiste kenmerken en klasse-indelingen leidt tot groe-pen die homogeen van samenstelling zijn. In deze paragraaf zal nagegaan wor-den op welke wijze men de homogeniteit kan meten.

In de literatuur t.a.v. clusters en segmentatietechnieken gebruikt men maten om onderscheid tussen de groepen te bepalen. Deze maten noemt men afstands-maten (similarity measures of dissimilarity measures). Er is hierover een

zeer uitvoerige literatuur aanwezig. (1)(2)

'We zullen hier volstaan met enkele van de belangrijkste afstandsmaten, die men gebruikt om de homogeniteit van groepen te bepalen. We geven deze formules

·voor persoonskenmerken. Voor systeem- en tijdkenmerken gelden overeenkomstige huishoudkundige formuleringen. Xik d Z;. X· k P ~ P (41.1) d

x·k/N.

x ik ~ ~ (41.2)

D .. is afstandsmaat. Deze wordt gebruikt om de mate van overeenstemming of ~J

de mate van verschil' tussen twee groepen te bepalen. Een zeer bekende afstandsmaat is de "Minkowski" metriek.

(9)

7

-als de kans dat juist de waarde X'

k optreedt onder de voorwaarde dat de

~ p

gemiddelde waarde van de groep X

ik is. De logarithme van de likelihoöd (Lj) als X'k stochastisch onafqankelijk zijn voor alle p en alle k is

1. P

L.

~ (42.2)

De hoogste waarde van de likelihood geeft de beste aanpass~ng tussen het indi-vidueel gedrag en het groepsgedrag. De kleinste waarde van de likelihood vindt men als de groep wordt ondergebracht in één groep. In deze groep is de heterogeniteit het grootste. Iedere uitsplitsing van deze groep zal een toe-name van de likelihood geven. De mate van toetoe-name wordt bepaald door de ge-bruikte kenmerken bij de uitsplitsing. We zullen nu de afstandsmaat defini-eren; de toename van de likelihood die ontstaat als een groep B wordt

uitge-o splitst in twee deelgroepen B. en B., is:

~ J

D ••

~J L. ~ + L. - L J 0 (42.3)

waarbij L , L. en L. de waarde van de likelihood van de groepen B , B. resp.

o ~ J 0 ~

B .. Als nu de kansdichtheidsfunctie voor de waarnemingsuitkomsten, die als J

object van onderzoek gebruikt zijn, bekend is kan de afstandsmaat bepaald worden. We zullen hier de afstandsmaat bepalen voor

normale verdeling met een constante variantie - poissonverdeling

alternatieve verdeling.

4.2.2. Normale verdeling met constante variantie (sk2)

De normale verdeling gebruikt men a1s het object van onderzoek positieve en . negatieve waarnemingsuitkomsten kan hebben. In het algemeen kan men de

ver-deling ook toepassen als de gemiddelde waarde in voldoende mate (d.w.z. zeer significant) van nul afwijkt. De log van de

kansdichtheidsfunctie P'

k (zie 3.2) heeft de gedaante

~ p

P' k ~ p

De loglikelihood ~s volgens (42.2) voor groep B.

~

L.

~ - ) 2 2 2 N; ln(sk2/~)- -~ (~X - N. x )/2s oL k p ~ ' k " i k P ~ k

(42.4)

(42.5)

(10)

- 8·

-Bij samenvoegen van B. en B. tot een n~euwe groep geldt

~ J

N = N. + N.

o ~ J (42.6)

en verder dat

X

okp

=

Xikp als pcB en Xokp

=

Xjkp als pCB. J (42.7) . Voor deze groep B geldt overeenkomstigeformule als voor B ..

o ~

Substitutie van (42.6) en (42.7) ~n (42.7) geeft

L =(N.+N.)

In(s/2~)-1

+

-

l:O:

o .~ J k pcB. ~ 2 2 X' k +

L

X' k ~ P J P PEB. J (42.8)

Als gevolg van uitsplitsing neemt de likelihood volgens (42.3) toe met

D •• ~J L.+L.-L ~ J 0 2 =

l:

{N. (x. k) k ~ ~ . (42.9)

De hier afgeleide afstandsmaat stemt grotendeels overeen met die door Ward (~) en met die welke in de automatic interaction detection methode (AID) (Z) wordt toegepast. Het verschil met de daar gebruikte methode is dat in formule (42.9) het object van onderzoek hier k dimensies heeft.

4.2.3. De poissonverdeling

De poissonverdeling past men toe als er uitsluitend niet-negatieve waarnemings-uitkomsten kunnen voorkomen. Vooral als de gemiddelde waarde X

ik klein is, het-geen in de verkeerskunde vaak zo is, is dit een belangrijk voordeel. Bij grotere gemiddelde waarden nadert de verdeling tot een normale verdeling. De wiskundige gedaante van de logarithme van een po~sson verdeelde kansdichtheidsfunctie is

In P'k ~ P X'~ k p In

x'

~ k - x'~ k - In (X. ~p 'k!) . De loglikelihood is l: l:

k P

(42.10) pCB. (42.11) ~

(11)

- 9

of na substitutie (41.1) en (41.2)

L.

~ l:

k

Overeenkomstige formules gelden voor

L.

en

L .

J 0

(42.12)

Een uitsplitsing in twee groepen geeft een toename van de likelihood. De afstandsmaat wordt D ..

=

L. + L. - L Nu ~s met P.E: ~ ~J ~ J 0 B. ~ l:

P.+P.

~ J en P.E: J B. J X okp l:

P.

~ X' k ~

P

+ l:

P.

J X' k J p D .. l: {X ik In xik - xik + Xjk In xjk - xjk -~J k (X ik + Xjk) In Xok + xik + xjk} en volgens (41.2)

De functie is niet gedefiniëerd voor Xik

lim X In X·k/N.

=

0 ik ~ ~ definiëren we X'k In X.k/N.

=

0 ~ ~ ~ als N.> 0 ~ als X ik

=

0 O. Echter omdat

De hier afgeleide functie ~s toegepast door Hamerslag

(2),

(!Q).

(42.13)

(42.14)

(42.15)

(12)

- 10

--4.2.4. Alternatieve verdeling

De alternatieve verdeling is alleen gedefnieerd voor de waarden nul en één. Een voorbeeld van een alternatieve verdeling is het persoonlijk autobezit. Men heeft de persoonlijke beschikking over een auto of niet. De wiskundige

gedaante van een alternatieve verdelin~ l.S

Prob (X'k 1

I x

ik)

x

ik en l. p Prob (X' k

=

0

Ix

ik) 1

-

x

ik; l. p met )l;ik L: X' k IN. --p l. P l.

We leiden de afstandsmaat af voor

X.

>

O.

l.k

De loglikelihood voor N. personen die behoren tot de groep B. l.S

l. l. L. l.

=

L: k

N.

ln x. l. l.k k L: N. l. ln (x.k/N.) l. l.

Voor L. en L gelden overeenkomstige formules.

J 0 De afstandsmaat D .. = L. + L. - L l.J l. J 0 of na substitutie D .. L: [Ni ln (x.k/N.) + N. ln (X IN.)-l.J k l. l. J j.k J - (N. l. + N.) ln J (X'l. k + Xjk) / (N. l. + Nj)]

Deze afstandsmaat behoort dus bij een alternatieve verdeling als X

ik> O. Voor het geval dat X

ik

=

0 wel voorkomt, gebruikt men als afstandsmaat de verandering in de likelihood in plaats van de verandering in de loglikelihood.

4.3. Samenvatting meest aannemelijke homogeniteitsmaten

In het vorige hoofdstuk bleek het nodig om als object van onderzoek de waarnemin-gen op dusdanige wijze in groepen in te delen dat de celinhoud homogeen is. In dit hoofdstuk is opgemerkt dat dit kan geschieden met de likelihood schattings-theorie. Toename van de loglikelihood bij uitsplitsing of afname van de likelihood bij samenvoeging levert een afstandsmaat op die consistent is met de

(13)

schattings-- I I

-theorie. Iedere kansdichtheidsfunctie leidt tot een eigen afstandsmaat. Er z1Jn afstandsmaten berekend voor normale, poisson en alternatieve verdelin-gen. Een normaal verdeelde kansdichtheidsfunctie geeft een functie die

over-eenstemt met de afstandsfuncties gebruikt door Ward (~) en die welke in de

"automatic interaction method" wordt gebruikt. De afstandsfuncties die gebruikt worden in de Minskowski metriek zijn niet uit genoemde kansdichtheidsfuncties af te leiden. De poissonverdeling en alternatieve verdelingsfuncties geven af-standsmaten die we niet in literatuuroverzichten hebben aangetroffen.

5. Het samenstellen van groepen

5.1. Clusteren en segmenteren

In de vor1ge paragraaf is de W1Jze behandeld waarop met behulp van de

afstands-maat (D . . ) het verschil kan worden bepaald tussen twee groepen

waarneminsgsuit-1J

komste~ die als object van studie zijn gekozen. In deze paragraaf zullen we

na-gaan op welke wijze de waarnemingen in groepen kunnen worden ingedeeld. Het probleem is het bepalen van optimale waarde van de likelihood functie bij een gegeven aantal duidelijk herkenbare (benoembare) groepen. Stel dat het object van onderzoek N waarnemingsuitkomsten bevat en dat hieruit Z groepen moeten wor-den samengesteld. Het aantal mogelijke combinaties is afhankelijk van N en Z en in het algemeen zeer groot. Het doorrekenen van alle mogelijke combinaties van groepen is praktisch onmogelijk. Men heeft daarom een aantal benaderingen toege-past die we hieronder zullen bespreken.

Clusteren houdt in dat men waarnemingen samenvoegt tot groepen. Indien men achter-eenvolgens telkens twee groepen waarnemingen bij elkaar voegt noemt men dit

hiërarchische clustering. Deze werkwijze houdt in dat tussen alle afzonderlijke

waarnemingen de afstand moet worden bepaald, dus bij N waarnemingen N(N-I)/2.

Men voegt daarom de waarnemingsuitkomsten à priori bij elkaar en gebruikt deze

groepen bij verdere. clustering.

Segmentatie houdt in dat men uitgaat van één groep waarin alle waarnemingsuit-komsten die als object van onderzoek zijn gekozen zijn opgenomen. Deze groep

splitst men in deelgroepen, die op hun beurt wederom worden uitgesplitst.

In de hiervolgende paragraaf zullen we een methode behandelen die voor afzonder-lijke kenmerken clustert en vervolgens segmenteert voor het kenmerk dat de

grootste bijdrage geeft in de toename van het verschil.

Clusteren en segmenteren hebben voor- en nadelen. Een voordeel van clusteren is dat het onderscheid tussen de groepen beter' mogelijk is en dat als gevolg

(14)

daar-- 12daar--

12-van hoge waarde 12-van loglikelihoodfuncties. Een nadeel is evenwel dat hierbij groepen bij elkaar gevoegd worden die in het geheel niet bij elkaar horen. Bijv. kunnen personen met een geheel verschillende persoonskenmerken tot een groep bij elkaar gevoegd worden als ze toevallig hetzelfde verplaatsingsgedrag hebben.

tabel 5.1. Voorbeeld van clustering (streeppu~tlijn)-ep. segmentatie (streeplijn) VERPLAATS INGEN PER PERSOON

inkomèn ~fstand

ot station . laag midden hoog zeer hoog

I I

·

·

~ort 4 I 5 6 I 7

·

- . - .. - . - . - . - . - &. -a-.-e_I_._._

.

·

tniddellang 3 4 I 5 6 ._..J. ... ~.-.-.-.-.-

. .

-.

f--- ---

---~-

---

f---~---.-

.

.

-

..

---.-.-

"1

I I ~ang 2

3 I I 4 " I 5 I I

·

-.-..

-.-.---.---.---'----,

I I ~eer lang 1 2 • I 3 4 '1 I

·

I I I

In tabel 5.1 Z1Jn de groepen aangegeven die door clustering ontstaan met een punt-treeplijn. De indeling is gemaakt door ,de groepen met 1 en 2, 3 en 4, 5 en 6,7 verplaatsingen bij elkaar te nemen. De groepen zijn homogeen t.a.v. verplaatsings-kenmerken. Clustering zal daarom een hoge waarde van de likelihoodfunctie geven, bij een gegeven aantal groepen. De gebruikte kenmerken zijn evenwel heterogeen. In het hier gepresenteerde voorbeeld komen in de groep met 3 en 4 verplaatsingen gemaakt door personen met laag, middel, hoo~ en zeer hoog inkomen, die wonen korte, middellange, lange en zeer lange afstand van het station. In het algemeen

leidt clustering tot groepen die minder goed benoembaar zijn. Of e.e.a. accep-tabel is zal in sterke mate afhangen van het specifieke onderzoek.

De methode van Ward (§) is een voorbeeld van een cluster methode. In Nederland 1S een clustermethode o.a. recentelijk nog toegepast door Wissen, Smit en Golob

(11).

In de tabel is een segmentatie aangegeven 1n 4 groepen (streeplijn). Bijv. in de groep met laag en midden inkomen die kort tot middellang van' het station woont

(linksboven) maken 3, 4 en 5 verplaatsingen. De homogeniteit is derhalve minder dan bij de clustering. De kenmerken van de g~oepen zijn echter veel meer homo-geen. In het algemeen leveren segmentatie methoden groepen op die beter benoem-baar zijn dan clustering methoden. Voorbeelden van segmentatie methode is de AID methode

(Z)

met als eerste toepassing in de verkeerskunde in Nederland Bont et al (l~); Ten aanZ1en van automatische en niet-automatische segmentatie geldt dat in het algemeen automatische segmentatie tot minder overzichtelijke groeps-indeling leidt dan niet-automatische sementaties.

(15)

--

..

In segmentatie en cluster methoden gebruikt men de afstandsmaat op verschillende

wijzen. We beperken. ons tot het aangeven van meest principiële verschillen.

Een eerste groep van algorithmen laat de eenmaal berekende afstandsmaten onveranderd. Bij clustering bepaalt men de afstand tussen waarnemings-uitkomst en meest nabije waarnemingswaarnemings-uitkomst ook als deze reeds in een cluster is opgenomen. Deze methode noemt men "nearest neighbour". Bij een uitsplitsing neemt men de grootste afstand op ("farest neighbour"). Deze

methode van clustering of segmentering past minder goed bij 'de theorie

over meest aannemelijke ordening van waarnemingen.

Een tweede groep van algorithmen bepaalt afstanden tussen zwaartepunten/ gemiddelden van clusters. Deze worden gewijzigd bij een samenvoeging of een uitsplitsing. Een van deze methoden wordt met "centroid analyse" aan-geduid. Deze methode past wel in theorie van meest aannemelijke schatter.

Een bezwaar van deze methode is dat karakteristieken van kleine groepen ·

verloren gaan. Dit is mogelijk een bezwaar als men zou mogen verwachten dat juist deze groep in een toekomstige periode sterk zou kunnen toenemen (bijv. inkomen, personen zonder werk, volwassenen uit één-ouder-huishoudingen,etc.). Om aan dit bezwaar tegemoet te komen gebruikt men i.p.v. zwaartepunt de

mediaan. Deze laatste methode is niet consistent met de theorie over de meest aannemlijke schatter.

/

5.2. Bevolkingsgroepen met een homogene mobiliteit

5.2.1. Object van onderzoek

In deze paragraaf zal een voorbeeld gegeven worden van een segmentatie methode die per kenmerk de klassen clustert. Deze studie is deel van het onderzoek dat zich richt op het energiegebruik in het verkeer (15). Het energiegebruik is on-geveer evenredig met het aantal verplaatsingskilometers gemaakt door

autobestuur-ders en door openbaar vervoerpassagiers • Het aan.tal verplaatsingsk.ilomet~rs per

- -

--

. ---

-vervoerwij~e is tevens de som van. het product ~an weglengte en intensiteitën.

Het aanta(·vë-rpl.äatsingskilometers van autobestuurders is . derhalv~ tevens een .

indicatie van de gemiddelde intensiteit op het wegennet. Als maat voor de mobiliteit is het aantal verplaatsingskilometers gekozen, onderscheiden naar

autobestuurders, autopassagiers, treinreizigers, bUJreizigers en fietsers +

lopers. Als gegevensbestand' zijn gebruikt de waarnemingen van het onderzoek

verplaatsingsgedrag van het CBS van 1978 (~). Het onderzoek omvatte ruim

600.000 verplaatsingskilometers (fig. 5.1.). Deze waarnemingen zijn als object van studie gebruikt.

(16)

Gehele bevolking ' -23553 Personen - 14

-Perwn~ 0 10 20 KM.! VERVOERPRESTATIE VAN 10.000 +----'"--:--1

5.000

O-+--~--"'"

Fietsen· en Voet~~9!'"!.:

figuur

5.1

.

Verplaatsingskilometers per dag. Deze figuur geeft de verplaat~

singskilometers van autobestuurders, autopassagiers, trein en bus,. tram en metro-passagiers en fietsers+lopers weer. De verplaatsingskilometers zijn evenredig met het oppervlak. De horizontale as ~eeft de gemiddelde lengte en de verticale as de grootte van de groep.

5.2.3. De afstandsmaat

Het object van onderzoek bevat uitsluitend niet-negatieve waarnemingen. Boven-dien is de spreiding in de groepen groot. Een normale verdeling is daarom minder juist. Beter is te veronderstelle? dat de kansverdeling van de waar-nemingsuitkomsten poissonverdeeld is. Als afstandsmaat is derhalve gebruikt:

D •• 1J = k

r

met Ni en N

j het aantal personen en Xik met vervoerwijze k in resp. groep B. en

1

5.2.3. De kenmerken en klassen

(42.18)

en X

jk resp. het aantal kilometers B ••

J

Teneinde de bevolking te verdelen in groepen Z1Jn veertien kenmerken gebruikt, ieder verdeeld in een aantal klassen (tussen haakjes)

(17)

- 15

-leeftijd (~), geslacht (2), burgerlijke staat (3) nationaliteit (2), plaats in het huishouden (5),

aanwezigheid van kinderen (4), autobeschikbaarheid (3)

deelname aan het arbeidsproces (3), persoonlijk inkomen (6),

inkomen van huishouden (6), inkomen van huishouden per volwassene (6) opleiding (6), urbanisatiegraad (9), spoorwegstation in woonplaats (3)

5.2.4. Clustering en segmentatie

Voor ieder kenmerk afzonderlijk is de afstand tussen de klassen bepaald. De klassen met de kleinste afstanden zijn samengevoegd tot een nieuwe groep.

Voor deze nieuwe groep is het aantal personen (N.) en het aantal verplaatsingskms

~

per vervoerwijze (X

ik) bepaald waarna de afstand van de nieuwe groep tot overige groepen is berekend. Een nieuwe samenvoeging vindt plaats, etc. Een en ander is herhaald totdat alle groepen zijn samengevoegd. Op deze wijze ont-staat dus een zgn. hiërarchische clustering. Iedere samenvoeging laat de waarde van de likelihood dalen. Deze is voor de genoemde kenmerken opgenomen

in tabel 5.2. Voor de totale samenvoeging en voor de samenvoeging van de laatste twee groepen.

Autobeschikbaarheid geeft de hoogste waarde, gevolgd door netto persoonlijk inkomen en plaats in het huishouden. Een verrassende uitkomst is dat het per-soonlijk inkomen een veel grotere toename van de likelihood geeft dan het in-komen in het huishouden dat tot dusverre veel gebruikt is. Eveneens is belang-rijk dat urbanisatiegraad slechts ~ig invloed heeft en derhalve als onder-scheidingskenmerk weinig zin heeft. Dit is in tegenstelling met hetgeen veel-al wordt aangenomen.

De segmentatie vindt nu plaats t.a.v. het kenmerk autobeschikbaarheid. Er zijn de volgende mogelijkheden

uitsplitsen in twee klassen uitsplitsen ~n alle klassen

De eerste methode levert de grootste waarde van de toename van de likelihood op en derhalve meer homogene groepen. Deze is toegepast o.a. bij de groep perso-nen zonder auto. Een uitsplitsing in meer of in alle klassen verdient aanbeve-ling als dit meer overzichtelijke indeaanbeve-lingen geeft. Dit is geschied bij de groep personen die wel een auto ter beschikking heeft.

Bij de clustering van de klassen van de kenmerken ontstaan soms merkwaardige combinaties. Dit doet zich voor voor kenmerken die lagere waarden van D .. bij

~J

de uitsplitsing geven. Als er onlogische combinaties voorkomen bij het kenmerk met de hoogste waarde van D .. kan men verder heter niet doorgaan met segmentatie.

(18)

- 16

-Tabel 5.2 .. - Toename log likelihoodfunctie bij uitsplitsing in 1000 tallen

kenmerk aantal alle klassen

klassen van het kenmerk

Autobeschikbaarheid .3 201 Persoonlijk netto-inkomen 6 105 Plaats in huishouding Leeftijd Geslacht Opleiding Werken Burgerlijke staat Inkomen huishouding Inkomen huishouding/ volwassene Leeftijd kinderen Urbanisatiegraad Maand waarneming NS-station in woongemeente Nationaliteit 5 101 6 80 2 74 6 51 3 49 3 30 6

14

6

13

6 10 9 8 12 6 3 5 2 0,02 uitsplitsing in 2 klassen 178 74 80 53 74 25 49

26

8 12 2 4 2 4 0,02

(19)

23553 Personen - -17 -Jeugd 12·18 j.

~

Gilcn auto beschikbaar (NAB)

~

Met kinderen tot 18 j. '

~

~r~~~eNAB

/ '

t::=::J

7

Zonder kinderen of met

d '

~b:deren

ouder dan 12 j.

Met kinderen tot 12 j.

Alleen lager onderwijs

Auto soms

s====

beschikbaar (SAB) /

~ Gehuwde Zonder kinderen of met kinderen ~ vrouwen " " ouder dan 12 j.

~nn_

"'6

~

Overigen SAB

--Auto beschikbaar (AB)

Netto ~oonlijk inkomen minder dan f

10.0CXl.-,

f 10.000 - 20.0CXl + onbekend

bi

!

L

'.20.000-'.30.000

~ hl?

~

~

..

~f~.30~.000~_-~f~.4O~.0CXl~

____ _ es Meer dan f. 40.000

Person~ 0 10 20'KM.,I VERVOERPRESTAT,IE VAN

10.000 - I - - - - ' - - - - l 5.000

o

-+-_---. __ ....J 150.000 K Bus· en Tra~~i~ Fietsers· en Voet~!:~'!:

Figuur 5.2,. Bevolkingsgroepen met een hO!pogene vervoersprestatie (zie ook tabei 4.2.)

(20)

-18-!

Tabel 5.3. - Bevolkingsgroepen met homogene vervoersprestatie

groep kilometers per persoon per dag

aantal auto auto trein bus lopers totaal

personen bestuur- passa- passa- pas.sa- fietsers

ders giers giers giers

Jeugd 12-18 jaar 3184 0,1 6,0

l,S

2,1 9,0 18,7

NAB

Gehuwde vrouwen NAB met kinderen

jonger dan 18 jaar 2152 0,3 8,4 0,7 1,2 3,1 13,8

Gehuwde vrouwen NAB zonder kinderen

jonger dan 18 jaar 2164 0,2 . 10,3 2,0 2,0 2,4 17,0

Overige NAB

lager onderwij s 1885 0,7 5,5 0,6 1,9 3,3 12,0

Overige NAB meer

dan lager onderwijs 3794 4,7 6,5 4,8 3,3 5,5 24,8

SAB

Gehuwde vrouwen SAB kinderen jonger dan

12 jaar 1374 7,3 9.,6 0,2 0,3 2,1 19,5

Gehuwde vrouwen SAB kinderen ouder dan

12 jaar 966 9,1 15,1 1,4 1,0 2,1 28,7

Overige SAB 462 13 ,4 9,2 3,2 1,7 4,9 32,4

AB

Persoonlij k netto-inkomen minder dan

f

10.000 701 21,1 8,4 0,6 0,4 1,2 31,8

f

10.000

f

20.000 .+ onbekend 2904 27,4 3,9 0,7 0,6 2,5 35,1

f

20.000

- f

30.000 2289 32,4 4,1 1,1 0,7 2,9 41,2

f

30.000

- f

40.000 801· 38,7 3,2 3,1 0,4 2,2 47,7

f

40.000 en meer 875 46,8 2,7 4,5 1,3 1,8 57,0 Totaal 23553 12,1 6,7 1,9 1,6 4,0 26,3

(21)

-

19-Figuur 5.2 geeft het overzicht van de gevormde groepen. Deze hebben de volgende eigenschappen:

De jeugd van 12-18 jaar ,(30% van de bevolking). De prestatie ~s 19,7 kmI persoon/dag. De belangrijkste vervoerwijzen zijn de goedkope pariculiere vervoerwijzen (fiets, bromfiets, lopen) en autopassagiers.

Personen ouder dan 18 jaar zonder auto ~n het huishouden (14% van de bevol-king) te verdelen in huisvrouwen (12,6 km/persoon/dag) en overigen (16,5 km/ persoon/dag). De belangrijkste vervoerwijzen zijn het openbaar vervoer (re,sp. 4,4 km/dag en 5,6 km/persoon/dag) en meerijders (resp 4,4 km/persoon/dag en 4,8 km/persoon/dag).

Personen ouder dan 18 jaar zonder rijbewijs in huishoudens met een auto (15% van de bevolking) te verdelen in huisvrouwen (18,2 km/persoon/dag) en overigen 23,7 km/persoon/dag. Deze groep onderscheidt zich van vorigen door een grotere prestatie. Er wordt meer dan tweemaal zoveel meegereden en het openbaar vervoer wordt minder door huisvrouwen gebruikt.

Personen met een rijbewijs met een auto ~n het huishouden, die niet persoon-lijk over een personenauto kunnen beschikken (SAB-groep) (1]% van de bevol-king). Deze groep maakt 25,7 km/persoon/dag. Een groot onderscheid is er ~n verplaatsingsgedrag tussen huisvrouwen (23,4 km/persoon/dag) en overigen

(37,6 km/persoon/dag).

De' belangrijkste vervoerwijzen zijn autobestuurders gevolgd door autopassa-giers, tesamen 80% van de totale prestatie.

Personen met een rijbewijs in het huishouden met een auto, die een auto ter persoonlijke beschikking hebben (de AB-groep) (29% van de bevolking). Deze groep maakt 38,9 km/persoon/dag, waarvan 3/4 deel als autobestuurder en ]/4 deel met overige vervoerwijzen.

Er is binnen deze groep nogal verschil in het v'erplaatsingsgedrag~ NaartÎlate het netto persoonlijk inkomen toeneemt, neemt het aantal verplaatsin'gskilometers toe. In de hoogste inkomensgroepen worden bijna 2x zoveel verplaatsingskilome-ters gemaakt als in groepen met geen of met een laag persoonlijk inkomen. Deze grotere prestatie wordt geleverd door de autobestuurders en treinreizigers. In groepen met hogere inkomens wordt echter minder meegereden dan in groepen met lagere inkomens.

(22)

- 20

-5.2.5. De stabiliteit van de groepen in de tijd

De prestatie is 19,7 km/persoon/dag. De belangrijkste vervoerwijzen z~Jn de goedkope particuliere. In hoofdstuk 3 is opgemerkt dat homogene groepen in tijd rede~ijk constant zullen zijn. Teneinde dit na te gaan z~Jn voor de jaren 1979 t/m 1982 ongeveer overeenloomstige groepen gemaakt. De groepen hlijken in belangrijke mate van elkaar te verschillen. De verschillen tussen de groepen van de verschillende jaren is evenwel gering.

In het ~lgemeen blijkt de veronderstelling dat homogene groepen ~n tijd con-stant zijn redelijk is.

6. Afhankelijkheid van kenmerken

6.1. Het bepalen van afhankelijke kenmerken

Verschillen in het gedrag kunnen door verschillende kenmerken worden aange-toond. Dit is als volgt te zien. Als men bijv. uitsplitst op het kenmerk huisvrouw/geen huisvrouw, dan mag men verwachten dat men eveneens verschillen krijgt als men het geslacht(man of vrouw) als kenmerk gebruikt. Tevens mag men verwachten dat als men eenmaal op man/vrouw heeft uitgesplitst het kenmerk wel/geen huisvrouw minder belangrijk ~ordt.

Het gedrag ·beschreven met kenmerken en klassen ~s niet onafhankelijk. De the-orie van meest aannemelijke schatter biedt mogelijkheid om inzicht in de af-hankelijkheid te krijgen (l~)en (lZ). Uit de mathematische statistiek is bel~end

dat als A en B twee stochastisch onafhankel.ijke gebeurtenissen zijn dat dan geldt dat

Prob (AAB)

=

prob (A) • Prob (B) of

In Prob (AAB) = In Prob (A) + In Prob (B)

Stel nu dat de loglikelihood wordt uigesplitst over kenmerken m gelijk aan L en als uitgesplitst wordt over kenmerk n gelijk is aan L • Als nu wordt

m n

uitgesplitst over m en n dan wordt de likelihood L •

mn

Als nu -2 (L - L - L ) < G2dan zijn m en nonafhankelijk. G volgt dan uit

mn m n

de tabel van Chi-kwadraad verdelingen. Uit deze vergelijking volgt dat twee kenmerken wel afhankelijk i~n als

L - L < L - G 2/2

mn m -n

In tabel 6.1 ~s de toename van de likelihood opgenomen van het voorbeeld dat

~n de vorige paragraaf is behandeld. In kolom (2) is de likelihood gegeven als de groep wordt uitgesplitst in deelgroepen. We noemen Lm de likelihood

(23)

CAR-AVAILABLE figuur 5.3. 20A

-f~<>'~F"""""'"

.

NO PERSONAL INCOME ~

...

INCOME: 0-8000 INCOME: :17000-24000 INCOME: 24000-38000 INCOME: ~ 3~000

Verplaatsingskilometers per vervoerSW1Jze van personen met een auto in de jaren

1979, 1980,

(24)

NOT CAR-AVAILABLE - 20B

-::::::::::::::::

...

~

... .

...

~ttm~m

...

:=:=:=:=:=:=::::-figuur 5.4 Verplaatsingskilometers per vervoerwijze van niet-auto-beschikbare personen in de jaren 1979, 1980, 1981'en 19a2 ACE : ~ 1 7 YEARS . HOUSEWIFE CAR IN.HOUSEHOLD NON-HOUSEWIFE CAR IN HOUSEHOLD . HOUSEWIFE NO CAR IN HOUSEHOLD NON-HOUSEWIFE . NO CAR IN HOUSEWHOLD

(25)

Toena.e in lo.likelihood bij le,.entatie .i~ lub,roepen in duizendtallen

)(ellllerk .. Aantal Totaal Totaal JfAB '.

U .. - Jeu.d KAB SAB AB Sub-· Ge- ~e-

Sub-aen 'totaal huw· dIe to· de tul vrou wen (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Auto beschikbaarheid 3 201 0 0 0 0 0 0 0 0' Persoonlijk inkomen 6 105 0,4 9,1 1,7 12,0 23,2 1,3 6,7 8,0 Plaats in huil-houding 5 101 0,2 18,8 2,7 7,8 29,5 0 5,6 5,6 Leeftijd 6 80 0 15,2 1,7 3,~ 20,1 l,S 13,5 15,0 Geslacht 2 74 O,S 11,6 2,5 6,5 21,1 0 3,4 3,4 Opleiding 6 51 0,8 18,3 1,4 7,7 28,2 1,6 14,2 15,8 Werken 3 49 0,7 8,7 1,0 2,3 12,7 0,8 5,1 5,9

Burgelijke Staat 3 30 0,1 12,4 1,7 O,S 14,7 0,2 6,5 6,7 Inkomen huishouding 6 14 0,4 4,6 1,7 4,4 11,1 1,0 4,3 5,3 Inkomen huishouding per 1 volwsssene 6 .. 13 0,6 1,4 0,6 3,6 6,2 1,2 0,9 2,1 Leeftijd kinderen 6 10 0,2 1,9 1,9 1,1 5,1 1,6 2,1 3,7 r-~ -Urbanisatiegraad 9 8 1,4 5,3 1,1 3,5 11,8 2,1 4,7 6.8 KS-station in woongemeente 3 5 0,9 2,7 0,2 2,1 5,9 O,S 2,5 3,0 Nationaliteit 2 0 0,2 0,2 0,0 0,1 O,S 0,0 0,3 0,3 • - - - ---_._.--- - --- ---SAB AB

Ge- Ove- Sub-

!

1 2 3 4 5

~uw- dIe totaal ~e ~rou-~en (11) (12) (13) 14) (15) (16) (17) (18) 0 0 0 0 0 0 0 0 1,2 1,1 2,3 0 0,6 0 0 0 0 O,S O,S 2,0 1,7 1,6 0,7 0,5 1,0 0,7 1,7 1,3 2,3 1,9 1,9 1,0 0 O,S O,S 1,4 1,3 0,7 0,1 0,3 0,7 0,6 1,3 1,4 2,5 1,8 0,6 3,2 0,7 0,7 1,4 0,3 0,6 0,4 0,4 0,7 0,1 0,4 O,S 1,7 0,4 0,4 0,8 0,3 1,2 0,7 1,9 0,7 1,9 0,9 0,4 0,6 0,9 0,1 1,0 0,4 0,8 0,4 1,1 0,4 2,0 0,2 2,2 0,8 1,0 0,9 O,S 0,9 0;9 1,1 2,0 1,0 2,7 2,2 1,7 1,8 0,3 0,1 0,4 0,3 1,0 1,0 0,8 O,S 0,1 0,1 0,2 0,2 0,1 0,1 0,3 0,1 Sub-totaal (19) 0 0,6 6,5 8,4 3,8 9,5 2,4 3,6 4,5 3,1 . 4,1 9,4 3,6 0,8 Tot .. l AB + SAB + NAB + jeugd (20) 0 10,7 12,7 25,1 8,2 27,4 10,4 10,9 9,8 6,8 10,2 20,1 7,9 l,S - ---- - ---- - -- -- -ft lil CT' ~ I-' 0\ N

(26)

- 22

-voor uitsplitsing over 'autobeschikbaarheid (L m

=

201000) en L de In likelihood n

als wordt uitgeplitst over de andere kenmerken.

In kolom (7) is de som van ~e kolommen (3) tlm (6) gegeven. Deze stemt overeen

met L - L . Voor autobeschikbaarheid ~s uiteraard L - L

=

o. we

geven

mn m mn m

hieronder - ~n tabel 6.2 de waarde voor L en voor L - L •

n mn m tabel 6.2 kenmerk L L -L n mn n autobeschikbaarheid 201000 0 persoonlijk inkomen 105000 -23200 plaats in huishouden 101000 29500 leeftijd 80000 20109 urbanisatiegraad- 8000 11800 NS-station 3000 5900

Er is dus afhankelijkheid tussen auto beschikbaarheid en persoonlijk inkomen, plaats in het huishouden, leeftijd etc. en niet tussen autobeschikbaarheid

en urbanisatiegraad en NS-station in de ,gemeente.

In tabel 6.3 geven we de likelihood voor uitsplitsing over de groep autobeschik-baren (resp. kolom 6 en kolom 19)

tabel 6.3 kenmerk L L - L n mn n plaats in huishouden 7800 6500 leeftijd 3200 8400 geslacht 6500 3800 opleiding 7700 9500' werken 2300 2400 burgerlijke staat 500 3600 inkomen huishouden 4400 4500

inkomen huishouden Ivolwassene 3600 3100

leeftijd kinderen 1100 4100

urbanisatiegraad 3500 9400

NS-station 5900 3600

(27)

-

23-M.u.v. NS-station en geslacht Z1Jn faktoren min of meer onafhankelijk van het

persoonlijk inkomen in deze groep.

6.2. De gevolgen van afhankelijkheid

Als het object van onderzoek beschreven kan worden door kenmerken die stochastisch afhankelijk van elkaar zijn is er geen uitspraak mogelijk over de invloed van ieder van deze kenmerken afzonderlijk. Dit wordt een probleem als het ene kenmerk

in de tijd wel en het andere kenmerk in de tijd niet verandert. Er is een zeker

verband tussen persoonlijk inkomen en opleiding. Het verplaatsingsgedrag is der-halve te verklaren zowel uit het inkomen als uit opleiding. Het inkomen verandert in de tijd meer en leent zich daarom beter om veranderingen te voorspellen. Boven-dien leert de theorie van het consumentengedrag dat het inkomen een belangrijke invloedsgrootheid moet Z1Jn.

Teneinde na te gaan of de keuze van kenmerken de juiste is, zal men een valida~ie

moeten toepassen. Deze houdt in dat men onderzoekt de mate waarin het

verplaatsings-gedrag in tijd en plaats stabiel is. Dit houdt in dat. een model wordt

gespecifi-ceerd, dat de verschillen in verplaatsingsgedrag tussen de groepen kan verklaren. Indien men dit model gebruikt om ontwikkelingen te voorspellen, krijgt men een tijdreeks. Als deze tijdreeks goed overeenstemt met de ontwikkeling die in werkelijkheid heeft plaatsgevonden is dit een aanwijzing dat men de juiste ken-merken gebruikt.

7. Slotopmerking

Er wordt zeer veel informatie verzameld en bewaard. Als gevolg van de toename van het aantal computers kunnen deze gegevens op eenvoudige wijze worden geordend. Vaak worden uit dezelfde waarnemingen verschillende gevolgtrekkingen gemaakt. Het inzicht in werkelijkheid wordt daardoor eerder vergroot dan verkleind. Het verdient aanbeveling groepen op dusdanige wijze te ordenen, dat deze in tijd en plaats constant zijn. De homogeniteit kan worden bepaald met behulp van af-standsmaten. Het is mogelijk met de theorie van meest aannemelijk schatter de

meest aannemelijke afstandsmaten te bepalen. Deze zijn een functie van de*

kans-dichtheidsfunctie van de waarnemingen die als object van onderzoek wordt gekre-gen. Slechts een beperkt aantal in de praktijk gebruikte afstandsmaten voldoen aan deze eis. Afstandsmaten behoren bij poisson-verdeling en bij de alternatieve verdeling worden niet in bekende overzichten van clusterliteratuur aangetroffen. Het samenstellen van groepen geschiedt met cluster- én segmentatiemethoden. Slechts een beperkt aantal methoden is consistent met de theorie van de meest aannemelijke schatter. Clusteren leidt tot meer homogene groepen dan segmentatie. Doordat

bij clustering nogal eens groepen met geheel verschillende kenmerken bij elkaar gevoegd worden, zijn de eigenschappen van deze groepen minder benoembaar dan bij de segmentatiemethoden. Met behulp van de theorie van de meest aannemelijke

(28)

-

24-schatter kan inzicht verkregen worden ~n de stochastische afhankelijkheid

van de kenmerken. Vergelijking van de ontwikkeling trends met de werkelijke ontwikkeling geeft beter inzicht in de juiste verklarende kenmerken.

(29)

24

-LITERATUUR

I . EVERITT, B.S. (1979) . U~resolved problems ~n cluster analyses, Biometrices 35,

169-181.

2 . DUBES, R. and A.K.JAIN (1981). Cluster methodologies ~n exploratory data

analyses. MSF Grant E N C 11936AOI

3 . MEURS, A.van (1978). Cluster analyse. Geografische Instituut. RU Utrecht. 4 • TCHAOUSSOCLOU, C. en G.GEURSEN (1975). Multivariate analyse methoden en

reclameplanning. Adformatie 16 en 18.

5 . NIEMULLER (1977). Hierarchische cluster analyse. Technisch Centrum der

sociale wetenschappen. VU Amsterdam.

6 . SUPERNAC, J.(1976). Travel demand models for polisch cities. PTRC summer anual meeting Warwiek.

7 • AID automatic interaction method.

8 . WARD, J.M.(1963).Application of a hierarchical grouping procedure to a problem of grouping people. Educ and Psychot Measurement 23 pp. 69-82.

9 . HAMERSLAG, R.(1980). Afstandsmaat voor de samenstelling van probleemgerichte homogene bevolkingsgroepen. In:PHL Bovy et al red. Colloquium vervoersplanolo-gisch speurwerk. Delft.

ID. HAMERSLAG,R,(1982). Bevolkingsgroepen met een homogene vervoersprestatie per

aut·o, openbaar vervoer en fiets. Verkeerskunde 33, nr. 12, pp. 633:"637.

11. WISSEN, L.van ,H.SMIT en T.F.GOLOB (1983). Determination of differences among household mobility patterns. Tenth Transportation Planning research colloquium. Andvoort.

1.2. BONT,J.G.A.M.de en E.J.H.N.READTS en G.C.J.STEVENS.1977. Het verplaatsingsgedrag

van kantoorpersoneel. Verkeerskunde 1977. nr.5 pag.222-227.

13. NVI (1983). Maatschappelijke ontwikkeingen en mobiliteit. Nederlands vervoers-wetenschappelijk Instituut, Rijswijk. Projectbureau IVVS, Den Haag.

14. CBS (1981). De mobiliteit van de Nederlandse bevolking in 1978.· Centraal Bureau

voor statistiek. Staatsuitgeverij, Den Haag.

IS. HAMERSLAG, R. (1983). Mobiliteit -in een:veranderende samenleving. Nederlands

nr. 7, april 1983.

16. REYNOLDS, H.T. (1977). The analysis of cross-classification. The free press, New York, London.

17. BISHOP, Y.M.M.(1975) en S.E.FIENBERG en P.W.HOLLAND. Discrete multivariate analyse. MIT Press Cambridge, NA 1975.

Cytaty

Powiązane dokumenty

In so doing, we were seizing the opportunity to respond to the concerns voiced by our Russian colleagues during a conference previously held in Cracow at Ignatianum on the 27ᵗʰ and

Figure E.9 – Pre-peak phase cycle 14 (negative displacement) – ground floor: Diagonal crack on the east wall at the ground floor (13_C14-GF-W).. Figure E.12 – Post-peak phase

In the study group of 32 patients with psoriasis vulga- ris, the highest percentage of patients with concomitant hypertension or metabolic syndrome can be observed; relatively

Wiąże się to z tym, że zawodnicy z formacji młyna biegają częściej na krótkie dystanse, a zaraz po takim biegu wymaga się od nich wykazania się swoją mocą i siłą podczas

Funkcję taką może pełnić również hol wielofunkcyjny, do którego wchodzić się będzie z czytelni umieszczonej w pałacu oraz za pomocą schodów zewnętrznych. W narożniku

Dyskusja po referacie Piotra Bilińskiego &#34;Działalność Piotra Moszyńskiego w Towarzystwie Naukowym Krakowskim&#34;. Prace Komisji Historii Nauki Polskiej Akademii Umiejętności

Znalezione na dnie kanału fragmenty naczyń terra sigillata oraz cegła ze stemplem Legio I Italica Gordiana pozwalają przypuszczać, że kanał powstał najpóźniej

definicje legalne 14 (np. definicje trybu autono- micznego, technologii autonomicznej, autonomicznego pojazdu testowego, kie- rowcy autonomicznego pojazdu testowego, kierowcy,