ROBOTICKÝ FOTBAL. Fakulta informačních technologií ČVUT v Praze Katedra aplikované matematiky Vedoucí: doc. RNDr. Pavel Surynek, Ph.D. 13.

(1)

(2)

(3)

Bakal´ aˇrsk´ a pr´ ace

LOK ´ ALN´ I KOORDINACE A PL ´ ANOV ´ AN´ I PRO

ROBOTICK ´ Y FOTBAL

Tom´ aˇ s Valenta

Fakulta informaˇcn´ıch technologi´ı ˇCVUT v Praze Katedra aplikovan´e matematiky

Vedouc´ı: doc. RNDr. Pavel Surynek, Ph.D.

13. kvˇetna 2021

(4)

ˇCeské vysoké uˇcen´ı technické v Praze Fakulta informaˇcn´ıch technologi´ı

Tato práce vznikla jako ˇskoln´ı d´ılo na ˇCeském vysokém uˇcen´ı technickém v Praze, Fakultˇe informaˇcn´ıch technologi´ı. Práce je chránˇena právn´ımi pˇredpisy a mezinárodn´ımi úmluvami o právu autorském a právech souvisej´ıc´ıch s právem autorským. K jej´ımu uˇzit´ı, s výjimkou bez uplatnˇených zákonných licenc´ı nad rámec oprávnˇen´ı uvedených v Prohláˇsen´ı, je nezbytný souhlas autora.

Odkaz na tuto práci: Tomáˇs Valenta. Lokáln´ı koordinace a plánován´ı pro robotický fotbal. Bakaláˇrská práce. ˇCeské vysoké uˇcen´ı technické v Praze, Fakulta informaˇcn´ıch technologi´ı, 2021.

(5)

Obsah

Podˇekov´an´ı vii

Prohl´aˇsen´ı viii

Abstrakt ix

Seznam zkratek x

1 Uvod´ 1

1.1 C´ıle pr´ace . . . 2

2 Teoretická východiska práce 3 2.1 Multiagentn´ı systémy . . . 3

2.1.1 Agent . . . 3

2.2 Druhy uˇcen´ı . . . 8

2.3 Rozhodovac´ı stromy . . . 8

2.3.1 Algoritmy pro konstrukci strom˚u . . . 9

2.3.2 Robotick´y fotbal . . . 12

2.4 Reˇserˇse existuj´ıc´ıch ˇreˇsen´ı . . . 14

3 Vlastn´ı n´avrh 17 3.1 Prostˇred´ı . . . 17

3.1.1 M´ıˇc . . . 18

3.2 Agent . . . 19

3.2.1 Akce . . . 20

3.3 Simulace spojit´eho ˇcasu . . . 20

3.4 Implementace rozhodovac´ıch strom˚u . . . 21

3.5 Hled´an´ı cest . . . 23

3.5.1 Rychlostn´ı optimalizace . . . 24

4 Z´ısk´an´ı dat a experimenty 25 4.1 Popis testovan´e skupiny . . . 25

4.2 Z´ısk´an´ı dat . . . 26

4.3 Experimenty . . . 26

4.4 V´ysledky . . . 31

5 Z´avˇer 33

iii

(6)

iv Obsah

A Pouˇzit´y Engine 35

Obsah pˇriloˇzen´eho m´edia 39

(7)

Seznam obr´ azk˚ u

2.1 Architektura reflexn´ıho agenta [3] . . . 5

2.2 Architektura Modelovˇe zaloˇzen´eho agenta [3] . . . 6

2.3 Agent na z´akladˇe c´ıle [3] . . . 7

2.4 Prospˇeˇsnˇe zaloˇzen´y agent [3] . . . 7

2.5 Sch´ema rozhodovac´ıho stromu . . . 9

2.6 Ukázka rozhodovac´ıch strom˚u pˇred a po proˇrezáván´ı [8] . . . 11

2.7 Humanoid liga v roce 2019 [9] . . . 12

2.8 Standart platform liga v roce 2019 [9] a NAO komunikaˇcn´ı robot [10] . . . 13

2.9 Middle Size Teams liga v roce 2019 [9] . . . 13

2.10 Small Teams liga v roce 2019 [9] . . . 14

2.11 OpenAI - Emergent Tool - senzory agent˚u [11] . . . 15

2.12 Porovn´an´ı RoboCupu z rok˚u 1998 [14] a 2019 [15] . . . 15

3.1 Diagram vnitˇrn´ıho n´avrhu agenta . . . 20

3.2 Proces vkládán´ı nové akce do fronty . . . 21

4.1 Ukázka situaci ze SW prototypu vyuˇzitého k z´ıskán´ı dat . . . 25

4.2 Prvn´ı experiment: Stˇrely na br´anu . . . 27

4.3 Pˇresnost hr´aˇce v z´avislosti na hloubce rozhodovac´ıho stromu . . . 27

4.4 Úspˇeˇsnost gólmana v závislosti na hloubce rozhod. stromu . . . 28

4.5 Druhý experiment: Klasická hra se tˇremi hráˇci . . . 28

4.6 Vývoj skóre: data fotbalisté . . . 29

4.7 Pohyb agent˚u a m´ıˇce: data fotbalist´e . . . 29

4.8 Vývoj skóre: data nefotbalisté . . . 30

4.9 Sch´ema ruˇcnˇe vytvoˇren´eho rozhodovac´ıho stromu . . . 30

4.10 V´yvoj sk´ore . . . 30

4.11 Pohyb agent˚u . . . 31

v

(8)

Seznam tabulek

3.1 PEAS agenta . . . 19

4.1 Struktura dat . . . 26

Seznam v´ ypis˚ u k´ odu

3.1 Abstraktn´ı tˇr´ıda vrcholu v rozhodovac´ım stromu . . . 21

3.2 Abstraktn´ı tˇr´ıda vrcholu v rozhodovac´ım stromu . . . 22

3.3 Implementace vniˇrn´ıho vrcholu . . . 22

3.4 Implementace listu . . . 22

3.5 Funkce pro pr˚uchod rozhodovac´ım stromem . . . 22

vi

(9)

Chtˇel bych podˇekovat pˇredevˇs´ım doc. RNDr. Pavlu Surynkovi, Ph.D.

za veden´ı této práce, trpˇelivost a hlavnˇe za jeho cenné rady. Dále bych chtˇel podˇekovat své pˇr´ıtelkyni Kláˇre a rodinˇe za podporu pˇri psan´ı této práce. Nakonec mé d´ıky patˇr´ı vˇsem osobám, d´ıky kterým se podaˇrilo sesb´ırat d˚uleˇzitá data.

vii

(10)

Prohl´ aˇ sen´ı

Prohlaˇsuji, ˇze jsem pˇredloˇzenou práci vypracoval samostatnˇe a ˇze jsem uvedl veˇskeré pouˇzité informaˇcn´ı zdroje v souladu s Metodickým pokynem o dodrˇzován´ı etických princip˚u pˇri pˇr´ıpravˇe vysokoˇskolských závˇereˇcných prac´ı. Beru na vˇedom´ı, ˇze se na moji práci vztahuj´ı práva a povin- nosti vyplývaj´ıc´ı ze zákona ˇc. 121/2000 Sb., autorského zákona, ve znˇen´ı pozdˇejˇs´ıch pˇredpis˚u, zejména skuteˇcnost, ˇze ˇCeské vysoké uˇcen´ı technické v Praze má právo na uzavˇren´ı licenˇcn´ı smlouvy o uˇzit´ı této práce jako ˇskoln´ıho d´ıla podle § 60 odst. 1 citovaného zákona.

V Praze dne 12. kvˇetna 2021 . . . .

viii

(11)

Abstrakt

Pˇredmˇetem této práce je prozkoumán´ı relevantn´ıch technik návrhu lokáln´ıho ˇr´ızen´ı agent˚u s moˇznost´ı aplikace v robotickém fotbale. Jako vnitˇrn´ı mechanismus agent˚u jsou pouˇzity rozhodovac´ı stromy a k jejich konstrukci je vyuˇzit algoritmus ID3. Dále je vytvoˇren softwarový prototyp a z nˇeho jsou sesb´ıraná relevantn´ı data ze simulac´ı jednoduchých situac´ı. Nakonec jsou vytvoˇren´ı agenti testováni v r˚uzných simulac´ıch. Výsledky jsou poté srovnány s jinými pˇr´ıstupy.

Kl´ıˇcová slova robotický fotbal, multiagentn´ı systém, lokáln´ı ˇr´ızen´ı, rozhodovac´ı stromy, su- pervizované uˇcen´ı, C#, Unity3D

Abstract

The goal of this thesis is examine relevant techniques of design local agent coordination with the possibility of application in robotic football. Decision trees are used for inner mechanism of agents and for their construction we are using the ID3 algorithm. Furthermore, software prototype is created and relevant data are gathered from simulations of simple situations. Finally, the created agents are tested in various simulations. Their results are compared with other approaches.

Keywords robotic football, multiagent system, local coordination, decision trees, supervised learning, C#, Unity3D

ix

(12)

Seznam zkratek

AI Umˇel´a inteligence BFS Breadth-first search

CART Classification And Regression Trees DFS Depth-first search

FIFA F´ed´eration Internationale de Football Association FIFO First-in, First-out

FIRA Federation of InternationalRobot-soccer Association ID3 Iterative Dichotomiser 3

MAE Mean Absolute Error

MarL Ö Multi-Agent Reinforcement Learning in Malm Ö MAS Multiagentn´ı systém

MSE Mean Squared Error

PEAS Performance, Environment, Actuators, Sensors

x

(13)

Kapitola 1

Uvod ´

Robotický fotbal je jedno z velmi prob´ıraných praktických témat na poli umˇelé inteligence (dále jen AI). Neoficiálnˇe se ˇrad´ı se mezi sporty a organizuje ho FIRA (Federation of International Robot-soccer Association, ˇcesky Mezinárodn´ı federace roboticko-fotbalové asociace). Od roku 1997 se po celém svˇetˇe organizuje akce jménem RoboCup, kde týmy soutˇeˇz´ı v r˚uzných kategori´ıch (simulace, reáln´ı roboti). Poprvé se zúˇcastnilo pˇres 40 tým˚u a akci sledovalo pˇres 5 000 divák˚u.

Minulý rok se kv˚uli pandemii COVID-19 RoboCup pˇresunul do online prostˇred´ı a pˇr´ıtomni byli jen domác´ı úˇcastn´ıci z Japonska.

Práce se zabývá návrhem lokáln´ıho ˇr´ızen´ı agent˚u s aplikac´ı v robotickém fotbale. Existuje celá ˇrada metod, jak k tomuto problému pˇristoupit. Multiagentn´ı systémy a jejich fungován´ı jsou známy jiˇz nˇekolik let, ale jejich vyuˇz´ıván´ı v praxi je stále vˇetˇs´ı. Vnitˇrn´ı mechanismus agent˚u je realizován pomoc´ı rozhodovac´ıch strom˚u.

Tématem této práce je vytvoˇren´ı a uˇcen´ı agent˚u, kteˇr´ı budou schopni úˇcinkovat v simulaci robotického fotbalu. Vnitˇrn´ı mechanismus agenta – rozhodovac´ı strom – je zkonstruován z dat z´ıskaných odehrán´ım jednoduchých situac´ı reálnými hráˇci. Tito agenti budou podléhat experiment˚um proti r˚uzným agent˚um (tým˚um agent˚u) s jiným vnitˇrn´ım mechanismem. Data budou sb´ırána od dvou skupin lid´ı. Prvn´ı skupina bude sloˇzena z hráˇc˚u fotbalu a druhá nikoliv.

Motivac´ı k výbˇeru tématu byl pˇreváˇznˇe vlastn´ı zájem o hlubˇs´ı prozkoumán´ı tématu robo- tického fotbalu a umˇelé inteligence obecnˇe. K motivaci pˇrispˇel i prvn´ı ryze online RoboCup poˇrádaný v Japonsku, kde se ˇreˇs´ı pouze ˇr´ızen´ı jednotlivých hráˇc˚u a odpadá ˇreˇsen´ı problém˚u s hardwarem.

V prvn´ı ˇcásti bude ˇctenáˇr seznámen se základn´ımi teoretickými poznatky o vyuˇz´ıvaných technikách ˇr´ızen´ı agent˚u, rozhodovac´ımi stromy a reˇserˇs´ı existuj´ıc´ıch ˇreˇsen´ı. Také se zde dozv´ı základn´ı pravidla fotbalu, resp. robotického fotbalu. V dalˇs´ı ˇcásti se práce zabývá konkrétn´ı implemetac´ı simulace a seznámen´ım s úpravou (relaxac´ı) pravidel. V posledn´ı ˇcásti se práce zaob´ırá z´ıskán´ım dat, vybrán´ım vhodných pˇr´ıznak˚u a následnˇe experimenty s nauˇcenými agenty.

1

(14)

2 Kapitola 1. Uvod´

1.1 C´ıle pr´ ace

C´ılem pr´ace je navrhnout vlastn´ı nebo modifikovat existuj´ıc´ı techniku lok´aln´ıho ˇr´ızen´ı agent˚u.

Tento návrh poté implementovat formou softwarového prototypu a experimentálnˇe ovˇeˇrit fun- gován´ı tohoto návrhu.

C´ılem teoretické ˇcásti práce je seznámit se s inteligentn´ımi agenty a jejich zapojen´ı do multiagentn´ıho systému. Dalˇs´ım c´ılem je prozkoumat algoritmy konstrukce a uˇcen´ı rozhodovac´ıch strom˚u. Posledn´ım c´ılem této ˇcásti je provést reˇserˇsi jiˇz existuj´ıc´ıch ˇreˇsen´ı nebo ˇreˇsen´ı podobných tomuto problému.

C´ılem praktické ˇcásti práce je implementovat simulaci robotického fotbalu, která bude m´ıt interaktivn´ı a autonomn´ıˇcást. Z interaktivn´ıˇcásti bude moˇznost z´ıskat data z právˇe prob´ıhané simulace a ze z´ıskaných dat vytvoˇrit pˇr´ıznaky vhodné pro konstrukci rozhodovac´ıch strom˚u. Tato konstrukce bude prob´ıhat v autonomn´ı ˇcásti, kde bude zároveˇn moˇznost pozorovat simulace agent˚u pˇri hˇre proti sobˇe. Posledn´ım c´ılem je provádˇet experimenty nad z´ıskanými daty s vy- branými metodami a algoritmy. C´ılem této práce nen´ı vytvoˇren´ı realistické simulace robotického fotbalu ani konstrukce fyzických agent˚u – robot˚u.

(15)

Kapitola 2

Teoretick´ a v´ ychodiska pr´ ace

V této kapitole se budeme zabývat teoretickými východisky práce a vymezen´ım pouˇz´ıvaných pojm˚u. Také si ukáˇzeme existuj´ıc´ı ˇreˇsen´ı problém˚u podobných naˇsemu. Pop´ıˇseme základn´ı problematiku multiagetn´ıch systém˚u i agenty samotné. Ukáˇzeme moˇzné pˇr´ıstupy a metody k ˇr´ızen´ı agent˚u. Dále se budeme zabývat definic´ı rozhodovac´ıch strom˚u, r˚uzných algoritm˚u k jejich uˇcen´ıa konstrukci. Posléze ukáˇzeme existuj´ıc´ıˇreˇsen´ızabývaj´ıc´ıse robotickým fotbalem ˇci ˇr´ızen´ım multiagentn´ıho systému pomoc´ı rozhodovac´ıch strom˚u.

Problém koordinace v robotickém fotbalu se dá pˇrevést na problém Multiagentn´ıho systému v nepˇrátelském prostˇred´ı.

2.1 Multiagentn´ı syst´ emy

Multiagentn´ı systémy jsou zkoumány uˇz od roku 1980 a vˇetˇs´ıho zájmu se dostalo v polovinˇe 90.

let minulého stolet´ı.[1] Za t´ımto zájmem a popularizac´ı tématu stoj´ı rozvoj internetu, kdy se pˇredpokládalo, ˇze agenti jsou vhodné softwarové paradigma pˇri vyuˇzit´ı v obrovských otevˇrených distribuovaných systémech.

Brown a Shoham za multiagentn´ı systém povaˇzuj´ı”systémy obsahuj´ıc´ı v´ıce autonomn´ıch entit (agent˚u) s r˚uznými zájmy, informacemi nebo oboj´ım.“ [2, pˇreklad vlastn´ı] Autoˇri doplˇnuj´ı, ˇze se nejedná o pˇresnou definici multiagentn´ıho systému, kv˚uli spoustˇe nekonzistentn´ıch odpovˇed´ı na tuto otázku. Podle Wooldridge jsou MAS ”systémy sestavené z v´ıcero interaktivn´ıch a poˇc´ıtac´ıch element˚u, známých jako agenti.“ [1, pˇreklad vlastn´ı]

2.1.1 Agent

Definic samostatného agenta existuje spousta, ale vˇsechny se up´ınaj´ı stejným smˇerem. Russell a Norvig se zamˇeˇruj´ı na situován´ı do urˇcitého prostˇred´ı.

IDefinice 2.1.

”Agent je cokoliv, co dokáˇze vn´ımat prostˇred´ı pˇres svoje senzory a na základˇe tˇechto informac´ı vykonávat akce v tomto prostˇred´ı pomoc´ı dostupných prostˇredk˚u.“ [3, pˇreklad

3

(16)

4 Kapitola 2. Teoretická východiska práce

vlastn´ı]

Wooldridge pˇridává definici agenta dalˇs´ı rozmˇer, a to vztah mezi agentem a jeho designérem.

I Definice 2.2.

”Agent je poˇc´ıtaˇcový systém, který je situován do nˇejakého prostˇred´ı a je schopný autonomn´ıch akc´ı v tomto prostˇred´ı za úˇcelem dosaˇzen´ı úkol˚u a c´ıl˚u, které jsou urˇceny jeho tv˚urcem.“ [1, pˇreklad vlastn´ı]

Autoˇri pak doplˇnuj´ı, ˇze agent je schopen pouze ovlivˇnovat prostˇred´ı a nedokáˇze ho plnˇe ˇr´ıdit. Mus´ı být pak pˇripraven na moˇznost selhán´ı. K tomu jeˇstˇe reálné prostˇred´ı nen´ı vˇzdy deterministické, s ˇc´ımˇz se také mus´ıpoˇc´ıtat. Russel a Norvig rozliˇsuj´ır˚uzné vlastnosti prostˇred´ı[3]:

Pˇr´ıstupné vs. nepˇr´ıstupné – Pˇr´ıstupné prostˇred´ı je takové, o kterém dokáˇze agent aktuálnˇe, kompletnˇe a pˇresnˇe zjistit informace. Prostˇred´ı reálného svˇeta jsou sp´ıˇse nepˇr´ıstupná.

Deterministické vs. nedeterministické – V deterministickém prostˇred´ı maj´ı vˇsechny akce jasnˇe daný a garantovaný efekt. Narozd´ıl od nedeterministického, kde máme jakousi nejistotu o stavu, který bude výsledkem akce.

Statické vs. dynamické – Statické prostˇred´ınen´ımˇenˇeno niˇc´ım jiným neˇz pomoc´ıakc´ıagent˚u.

V praxi se ovˇsem v´ıce setkáváme s dynamickým prostˇred´ım, které je ovlivˇnováno jinými procesy (fyzické jevy, poruchy atd.).

Diskrétn´ı vs. spojité – V diskrétn´ım prostˇred´ı je pevný a koneˇcný poˇcet akc´ı a vjem˚u (napˇr.

pohyb na mˇr´ıˇzce rozmˇer˚u: n ∗ n | n ∈ N ∧ n je koneˇcn´e).

Známé vs. neznámé – Známé prostˇred´ı je (jak z pohledu agenta, tak z pohledu designéra agenta) takové, kde jsou známé urˇcité zákonitosti. V neznámém prostˇred´ı se mus´ı agent zorientovat a pˇrij´ıt na fungován´ı tohoto prostˇred´ı. Pˇr´ıkladem neznámého prostˇred´ı by mohlo být ˇr´ızen´ı auta v ciz´ı zemi bez navigace. Toto prostˇred´ı je pˇr´ıstupné (vid´ıme silnici, znaˇcky, ostatn´ı auta), ale mus´ıme pˇrij´ıt na jeho fungován´ı (na jaké stranˇe se jezd´ı, kam vede silnice).

Kaˇzdý agent by mˇel splˇnovat následuj´ıc´ı vlastnosti a mˇel by být:

Autonomn´ı – Agent k dosaˇzen´ı vlastn´ıho c´ılu nepotˇrebuje z´asah nebo veden´ı od uˇzivatele.

Nem´ame nad n´ım ˇz´adnou pˇr´ımou kontrolu.

Reaktivn´ı – Agent interaguje s okol´ım a reaguje na jeho pˇr´ıpadn´e zmˇeny.

Proaktivn´ı – Agent se pokouˇs´ı dosáhnout svých c´ıl˚u. Nen´ı ˇr´ızen událostmi, ale pˇreb´ırá inici- ativu.

Spoleˇcenský – Agent interaguje s ostatn´ımi agenty skrze spolupráci (pracován´ı spolu jako tým, za dosaˇzen´ı stejného c´ıle, napˇr. v naˇsem pˇr´ıkladˇe dát co nejv´ıce gól˚u a zároveˇn jich co nejménˇe dostat), koordinaci (ˇr´ızen´ı vzájemných závislost´ı mezi akcemi v´ıcero agent˚u) a vyjednáván´ı (schopnost dosáhnout dohody ve vˇecech spoleˇcného zájmu).

(17)

2.1. Multiagentn´ı syst´emy 5

”Práce umˇel´e inteligence je designovat program agenta, kter´y implementuje agentn´ı funkci – mapován´ı vjem˚u na akce.“[3, pˇreklad vlastn´ı] Tento program funguje na nˇejakém fyzickém zaˇr´ızen´ı se senzory a aktuátory, coˇz nazýváme architekturou a plat´ı [3]:

agent= architektura + program

Programy agenta maj´ı stejnou strukturu (vstup ze senzor˚u, výstup z aktuátor˚u) a podle Russela a Norviga rozliˇsujeme 4 základn´ı druhy program˚u – agent˚u:

Jednoduch´ y reflexn´ı agent

Nejjednoduˇsˇs´ı druh agenta. Na základˇe souˇcasných vjem˚u vol´ı akci, pˇritom ignoruje veˇskerou historii vjem˚u. Na obrázku 2.1 a v kódu 1 m˚uˇzeme vidˇet abstraktn´ı strukturu programu. Nejdˇr´ıve mus´ıme z´ıskat nynˇejˇs´ı stav z vjemu ze senzor˚u (napˇr. vypoˇc´ıtat pozici na základˇe obrazu z kamery). Následnˇe mus´ıme naj´ıt pravidlo, které odpov´ıdá nynˇejˇs´ımu stavu a nakonec vrátit akci nalezeného pravidla. Seznam pravidel je pˇredem znám a je ˇcistˇe koncepˇcn´ı. ”Implementace m˚uˇze být triviáln´ı stejnˇe jako napˇr´ıklad soubor logických hradel implementuj´ıc´ı boolovský obvod.“[3, pˇreklad vlastn´ı] Tento typ agent˚u je velmi jednoduchý, ale jeho inteligence je velmi omezená.

”Jednoduchý reflexn´ı agent bude fungovat, kdyˇz na základˇe aktuáln´ıch vjem˚u m˚uˇze být správnˇe rozhodnuto – to je jen tehdy, kdyˇz je prostˇred´ı kompletnˇe pˇr´ıstupné.“[3, pˇreklad vlastn´ı]

Jeden z vˇetˇs´ıch problém˚u nastává pˇri zacyklen´ı v programu (agent ˇceká na uˇcitý vstup, který nemus´ı nastat). ˇReˇsen´ım m˚uˇze být ˇcásteˇcná randomizace výstupu, která m˚uˇze být v´ıce prospˇeˇsná v multiagentn´ıch systémech, neˇz v situaci s jedn´ım agentem.[3]

Obr´azek 2.1 Architektura reflexn´ıho agenta [3]

(18)

Algoritmus 1:Jednoduch´y reflexn´ı agent Vstup:vjem ze senzor˚u, pravidla V´ystup: akce

stav = intepretaceVstupu(vjem) pravidlo = najdiPravidlo(stav,pravidla) akce = pravidlo.akce

returnakce

Modelovˇ e zaloˇ zen´ y reflexn´ı agent

”Nejefektivnˇejˇs´ı cesta, jak zvládnout ˇcásteˇcnou pˇr´ıstupnost, je pamatovat si ˇcást prostˇred´ı, která je pro agenta nepˇr´ıstupná.“[3, pˇreklad vlastn´ı] To znamená, ˇze agent si mus´ı udrˇzovat vnitˇrn´ı stav na základˇe historie vstup˚u. Dále se agent chová stejnˇe jako reflexn´ı. K aktualizaci vnitˇrn´ıho stavu potˇrebujeme dvˇe informace. Prvn´ı je informace o chován´ı prostˇred´ı nezávisle na agentovi a druhá je, jak agent svými akcemi m˚uˇze toto prostˇred´ı zmˇenit. Tyto informace o prostˇred´ı nazýváme modelem, proto mluv´ıme o Modelovˇe zaloˇzeném reflexn´ım agentovi.

Obr´azek 2.2Architektura Modelovˇe zaloˇzen´eho agenta [3]

Algoritmus 2:Modelovˇe zaloˇzen´y reflexn´ı agent

Vstup:vjem ze senzor˚u, pravidla, model, pˇredchoz´ı akce V´ystup: akce

stav = aktualizaceStavu(vjem,pravidla,model,pˇredchoz´ı akce) pravidlo = najdiPravidlo(stav,pravidla)

akce = pravidlo.akce returnakce

Agent na z´ akladˇ e c´ıle

”Vˇedˇet informace o nynˇejˇs´ım stavu prostˇred´ı nen´ı obˇcas dost ke spr´avn´emu rozhodnut´ı.“ [3,

(19)

2.1. Multiagentn´ı syst´emy 7

pˇreklad vlastn´ı] Obˇcas je d˚uleˇzité znát informace, které popisuj´ı c´ıle agenta. Program agenta pak kombinuje tyto informace s modelem (stejný jako v modelovˇe zaloˇzeném agentovi) a na základˇe této kombinace vyb´ırá akci. Narozd´ıl od reflexn´ıho agenta je lépe flexibiln´ı a nen´ı problém definovat nové c´ıle (v reflexn´ım agentovi mus´ıme pˇrepisovat celá pravidla, pokud chceme nový c´ıl).

Obr´azek 2.3 Agent na z´akladˇe c´ıle [3]

Obr´azek 2.4 Prospˇeˇsnˇe zaloˇzen´y agent [3]

Prospˇ eˇ snˇ e zaloˇ zen´ y agent

”C´ıle samotné nejsou dostateˇcné pro kvalitn´ı chován´ı v mnoha prostˇred´ı“[3, pˇreklad vlastn´ı].

Obˇcas existuj´ı rychlejˇs´ı, levnˇejˇs´ı a kvalitnˇejˇs´ı zp˚usoby, jak c´ıle splnit. C´ıle jsou bud’ splnˇeny nebo nesplnˇeny, a proto potˇrebujeme funkci, která nám bude mˇeˇrit kvalitu stavu po proveden´ı nˇejaké

(20)

akce. Agent si pak vybere tu akci, kter´a byla vyhodnocena touto funkc´ı jako nejprospˇeˇsnˇejˇs´ı.

Tito agenti si lépe porad´ı s ˇcásteˇcnˇe pˇr´ıstupným a nedeterministickým prostˇred´ım.

Vnitˇrn´ı mechanismus agenta m˚uˇze být implementován mnoha zp˚usoby. ”Kaˇzdý mechanismus má stejnou kostru: na vstupu berou data ze senzor˚u a na výstupu vracej´ı akce do pohon˚u.“[3, pˇreklad vlastn´ı] M˚uˇzeme napˇr´ıklad vyuˇz´ıt koneˇcné automaty, kde mus´ıme vstupy pˇrevést na abecedu a koncové stavy budou reprezentovat akce. Mezi dalˇs´ı metody m˚uˇzeme zaˇradit plné konvoluˇcn´ı s´ıtˇe a reprezentace akc´ı pomoc´ı obrázk˚u [4]. V naˇsem pˇr´ıpadˇe bude vnitˇrn´ı mechanismus reprezentován rozhodovac´ım stromem.

2.2 Druhy uˇ cen´ı

Jedna z d˚uleˇzitých ˇcinnost´ı na poli umˇelé inteligence je uˇcen´ı, kdy se zlepˇsuje vlastn´ı výkon k dosaˇzen´ı lepˇs´ıch budouc´ıch výsledk˚u. Uˇcen´ı se pohybuje od triviáln´ıch aˇz po komplexn´ı metody.

Podle Russella a Norviga se uˇcen´ı dˇel´ı na tˇri, resp. ˇctyˇri kategorie: [3]

Nesupervizované uˇcen´ı – Uˇcen´ı bez jakékoliv odezvy od ”uˇcitele“ – autor mus´ı v datech sám naj´ıt nˇejaké závislosti.

Posilovan´e uˇcen´ı – Uˇcen´ı pomoc´ı odmˇen nebo trest˚u.

Supervizované uˇcen´ı– Uˇcen´ıpomoc´ıukázkových vstup˚u neznámé funkce f a jim odpov´ıdaj´ıc´ıch výstup˚u. Z tˇechto dvojic pak hledáme funkci aproximuj´ıc´ı f.

Semi-supervizované uˇcen´ı – Kompromis mezi supervizovaným a nesupervizovaným uˇcen´ım. V praxi nemáme vˇzdy pravdivé výstupy k ukázkovým vstup˚um. Zohledˇnuje systematické chyby, kde jejich odhalen´ı je problém nesupervizovaného uˇcen´ı.

2.3 Rozhodovac´ı stromy

IDefinice 2.3.

”Rozhodovac´ı strom reprezentuje funkci, která jako vstup oˇcekává vektor pˇr´ıznak˚u a vrac´ı jednu hodnotu – rozhodnut´ı“[3, pˇreklad vlastn´ı]

Vstupy i výstupy této funkce mohou být:

Diskrétn´ı – nabývá spoˇcetnˇe mnoha hodnot. Napˇr´ıklad: {0, 1}¹, {x ∈ N | x < 10}, poˇcet obyvatel.

Spojité – nabývá nespoˇcetnˇe mnoha hodnot. Napˇr´ıklad: h0, 1), R, výˇska nebo váha ˇclovˇeka.

Celý rozhodovac´ıstrom bychom mohli graficky znázornit pomoc´ıstromové struktury (viz. obrázek 2.5), nejˇcastˇeji binárn´ıho stromu. V bˇeˇzném ˇzivotˇe m˚uˇzeme rozhodovac´ı stromy pˇrirovnat k r˚uzným manuál˚um. Skládá se z:

Koˇrene – Uzel bez ˇz´adn´eho pˇredka. Vˇzdy bude vnitˇrn´ım vrcholem.

1Pˇri binárn´ım výstupu m˚uˇzeme mluvit o Boolovské klasifikaci.

(21)

2.3. Rozhodovac´ı stromy 9

Vnitˇrn´ıch vrchol˚u – Uzly testuj´ıc´ı pˇr´ıznaky podle pˇredem daných podm´ınek. Jejich následn´ıci mohou být vnitˇrn´ı vrcholy nebo listy.

List˚u – Uzly obsahuj´ıc´ı výstup (rozhodnut´ı). Nemaj´ı ˇzádné následn´ıky.

Jako stromy známé z teorie graf˚u maj´ı stejnˇe definovanou hloubku, která se pouˇz´ıvá jako jeden z hyperparametr˚u pˇri jeho konstrukci.

zone < value

x

2

< value

x

3

< value

D

1

D

2

x

4

< value

... ...

x

1

> value

D

5

D

2

true

true true

true

false

false false

Obr´azek 2.5 Sch´ema rozhodovac´ıho stromu

Pˇri diskrétn´ım, resp. spojitém výstupu m˚uˇzeme mluvit o klasifikaci, resp. regresi.

2.3.1 Algoritmy pro konstrukci strom˚ u

Konstrukce rozhodovac´ıch strom˚u je jedn´ım z pˇr´ıklad˚u supervizovaného uˇcen´ı. K tomu potˇrebujeme trénovac´ı data, která se skládaj´ı z matice pˇr´ıznak˚u a vektoru vysvˇetlované promˇenné.

2.3.1.1 Hyperparametry

Hyperparametry modelu jsou takové parametry, které se pouˇz´ıvaj´ı pˇri konstrukci stromu. Urˇcuj´ı pouˇz´ıvané metriky a hodnoty podm´ınek vˇetven´ı, resp. vytváˇren´ı list˚u. Hledán´ı nejoptimálnˇejˇs´ıch hodnot se nazývá ladˇen´ı hyperparametr˚ua jedná se o systematické zkouˇsen´ı r˚uzných kombinac´ı hodnot a vyhodnocován´ı výsledk˚u modelu. Mezi základn´ı hyperparametry patˇr´ı [5]:

Kritérium – Funkce, která mˇeˇr´ı kvalitu rozdˇelen´ı pˇr´ıznak˚u. Nejˇcastˇejˇs´ı jsou Gini index nebo Entropie. V´ıce v 2.3.1.2. Tato funkce se pak pouˇzije pˇri výpoˇctu informaˇcn´ıho zisku.

Maximáln´ı hloubka – Maximáln´ı hloubka rozhodovac´ıho stromu. V kaˇzdém úplném binárn´ım stromˇe s hloubkou h je pˇresnˇe 2^h−1. Kdybychom mˇeli h pˇr´ıznak˚u², tak poˇcet vˇsech moˇznách kombinac´ı je také 2^h−1, ˇc´ımˇz by strom ”degradoval“ na slovn´ık. D´ıky tomuto hyperparametru m˚uˇzeme této ”degradaci“ pˇredej´ıt.

2Opˇet pro jednoduchost uvaˇzujeme bin´arn´ı klasifikaci.

(22)

V´aha pˇr´ıznak˚u – Slouˇz´ı k v´aˇzen´ı d˚uleˇzitosti pˇr´ıznaku.

Minim´aln´ı poˇcet v´ysledk˚u v listu – Pokud pˇri konstrukci stromu nen´ı dostatek pˇr´ıznak˚u, vytvoˇr´ı se list.

2.3.1.2 Pouˇ z´ıvan´ e metriky

Pro algoritmy pro konstrukci strom˚u potˇrebujeme nˇejakým zp˚usobem mˇeˇrit, jak urˇcitý pˇr´ıznak rozdˇel´ı vektor vysvˇetlované promˇenné. Hledáme tedy funkci, která je nezáporná, maximáln´ı pro stejné poˇcty výsledk˚u a nulová pro vektor se stejnou promˇennou [6]. M˚uˇzeme pouˇz´ıt odhad Entropiena základˇe dat [6]:

Entropie(D) = H(D) = −

k−1

X

i=0

pilog(pi),

kde D je mnoˇzina dat, pi je pomˇer poˇctu i v D a plat´ı P^k−1_i=0 p_i= 1.

Jelikoˇz chceme vybrat pˇr´ıznak, kter´y nejv´ıce sn´ıˇz´ı neuspoˇr´adanost, vyuˇzijeme informaˇcn´ı zisk[6]:

Inf ormacniZisk(D, Xi) = IG(D) = H(D) −

k−1

X

j=0

tjH(Dj), kde Dj je podmnoˇzina D pro kter´e Xi= j, tj je pod´ıl poˇctu prvk˚u v Dj a D.

Dalˇs´ı metrikou je tzv. Gini index, která udává m´ıru toho, ˇze novˇe pˇridaný prvek bude ˇspatnˇe klasifikován. Pˇresný výpoˇcet je [6]:

GiniIndex(D) = GI(D) =

k−1

X

i=0

pi(1 − pi)

Gini index m˚uˇzeme vyuˇzit pˇri v´ypoˇctu informaˇcn´ıho zisku, kdy jen ve vzorci nahrad´ıme (D) za GI(D).

Jako posledn´ı uvád´ıme dvˇe podobné metriky a to MSE = Mean Squared Error a MAE = Mean Absolute Error. Obˇe metriky mˇeˇr´ı, jak moc se liˇs´ı hodnoty od stˇredn´ı hodnoty. Podobnˇe jako u ostatn´ıch metrik pracujeme vlastnˇe s odhadem tˇechto dvou veliˇcin a jejich výpoˇcty jsou [6]:

M SE(Y) = 1 N

N −1

X

i=0

(Yi− Y)²

M AE(Y) = 1 N

N −1

X

i=0

|Yi− Y |

2.3.1.3 ID3

”ID3 (Iterative Dichotomiser 3) byl vyvinut v roce 1986 Rossem Quinlanem. Algoritmus vytvoˇr´ı

(23)

rozhodovac´ı strom pomoc´ı hladového pˇr´ıstupu.“[7, pˇreklad vlastn´ı] Na vstupu se oˇcekávaj´ı kate- gorická (diskrétn´ı) data.

Nev´yhody:

Pˇreuˇcen´ı pˇri mal´ych datasetech.

Neporad´ı si se spojit´ymi daty a chybˇej´ıc´ımi hodnotami.

Algoritmus 3:Iterative Dichotomiser 3

Vstup:Matice pˇr´ıznak˚u, vektor vysvˇetlované promˇenné Výstup:Rozhodovac´ı strom

if ˇz´adn´a data then returnfail list

else if ∀ pˇr´ıklady maj´ı stejný v´ysledek then returnlist, který vrac´ı výsledek klasifikace else if je splnˇena podm´ınka hyperparametru then

returnlist, kter´y vrac´ı v´ysledek klasifikace else

A ← pˇr´ıznak nejl´epe rozdˇeluj´ıc´ı vektor v´ysledk˚u;

r, l = split(A,X,y);

lev´y syn ← ID3(rX,rY);

prav´y syn ← ID3(lX,lY);

end

2.3.1.4 C4.5, C5.0

Jedná se o vylepˇseného nástupce ID3, který uˇz dokáˇze pracovat i se spojitými daty i chybˇej´ıc´ımi hodnotami. Od svého pˇredch˚udce se liˇs´ı technikou proˇrezáván´ı, pˇri které po konstrukci stromu procház´ı a odstraˇnuje zbyteˇcné vˇetve. Tato technika nám pom˚uˇze proti pˇreuˇcen´ı stromu. Existuj´ı dva druhy proˇrezáván´ı, a to pre-proˇrezáván´ı (pˇri zjiˇstˇen´ı nespolehlivé informace pˇrestaneme dále rozv´ıjet souˇcasnou vˇetev) a post-proˇrezáván´ı (nejdˇr´ıve se zkonstruuje strom a zbyteˇcné ˇcásti se odstran´ı). [8]

Obrázek 2.6 Ukázka rozhodovac´ıch strom˚u pˇred a po proˇrezáván´ı [8]

Algoritmus C4.5 nakonec jeˇstˇe dokáˇze pˇrevést celý rozhodovac´ı strom na pravidla. [8]

(24)

C5.0 je Quinlanova posledn´ı verze algoritmu, která vyuˇz´ıvá ménˇe pamˇeti, generuje menˇs´ı pravidla, ale je i pˇresnˇejˇs´ı neˇz C4.5[7].

2.3.1.5 CART

CART nebo-li Classification And Regression Trees je velice podobný algoritmu C4.5. Narozd´ıl od nˇej ale um´ı pracovat se spojitou vysvˇetlovanou promˇenou (tj. regrese). ”CART konstruuje binárn´ı stromy pomoc´ı prahových hodnot, které pˇrináˇsej´ı nejvˇetˇs´ı zisk informac´ı v kaˇzdém uzlu.“ [7, pˇreklad vlastn´ı]

2.3.2 Robotick´ y fotbal

Fotbal (anglicky football) patˇr´ı do kolektivn´ıch m´ıˇcových sport˚u ve kterém proti sobˇe hraj´ı dvˇe druˇzstva. Zároveˇn se také ˇrad´ı mezi nejpopulárnˇejˇs´ı sporty. Ve kaˇzdém ze 2 druˇzstev hraje 11 hráˇc˚u (10 v poli a 1 v bránˇe) a jejich c´ılem je vstˇrelit v´ıce gól˚u neˇz soupeˇr. Gólem se ro- zum´ı pˇrechod m´ıˇce pˇres brankovou ˇcáru celým jeho objemem. Hraje se na obdéln´ıkovém hˇriˇsti, nejˇcastˇeji na travnatém povrchu. Hˇriˇstˇe je ohraniˇceno tzv. outovou ˇcárou, za kterou se m´ıˇc nesm´ı dostat (následuje vhazován´ı). Hráˇci ke hˇre vyuˇz´ıvaj´ı zejména nohy, ale mohou pouˇz´ıvat veˇskeré tˇelo, kromˇe rukou. To vˇsak neplat´ı u brankáˇre, který m˚uˇze v bl´ızkosti své branky hrát i rukama.

V robotickém fotbalu jsou pak lidˇst´ıhráˇci nahrazeni roboty, kteˇr´ıjsou adekvátnˇe konstruováni.

Neslouˇz´ı jen k zábavˇe³, ale sp´ıˇse pro výzkum kooperativn´ıch robot˚u a multiagentn´ıch systém˚u v dynamickém a nepˇrátelském prostˇred´ı. Organizace RoboCup v rámci svých kaˇzdoroˇcn´ıch akc´ı RoboCupSoccer poˇrádá ligy nebo turnaje v nˇekolika kategori´ıch [9]:

Humanoid – Tato kategorie se dál dˇel´ı na dalˇs´ı tˇri podkategorie, a to na základˇe výˇsky robot˚u.

Roboti zde chod´ı na vlastn´ıch nohách a svým vzhledem pˇripom´ınaj´ı ˇclovˇeka. Zat´ım sice nedokáˇz´ı udrˇzet rovnováhu stejnˇe jako ˇclovˇek, ale jejich kopán´ı, týmové strategie a rozpoznán´ı ostatn´ıch robot˚u a hˇriˇstˇe se kaˇzdý rok zlepˇsuj´ı. ”Oˇcekává se, ˇze liga humanoid˚u podstatnˇe pˇrispˇeje k vývoji d˚uleˇzitých technologi´ı pro budouc´ı vývoj humanoid˚u.“ [9]

Obr´azek 2.7Humanoid liga v roce 2019 [9]

3Narozd´ıl od ryze lidsk´eho fotbalu.

(25)

Standart platform – V této kategorii vˇsichni úˇcastn´ıci soutˇeˇz´ı se stejnými modely robot˚u, konkrétnˇe pouˇz´ıvaj´ı NAO komunikaˇcn´ıho robota (viz. 2.8). Vˇsichni tedy maj´ı stejné hard- warové podm´ınky. ”Robot NAO má omezené pohybové schopnosti, protoˇze nebyl designovaný pro robortický fotbal. Roboti spolu komunikuj´ı a kaˇzdý pak hraje pomoc´ı svých autonomn´ıch rozhodnut´ı.“ [9]

Obr´azek 2.8 Standart platform liga v roce 2019 [9] a NAO komunikaˇcn´ı robot [10]

Middle Size Teams – Dva týmy po pˇeti autonomn´ıch robotech, kteˇr´ı jsou vysoc´ı do 80 cm, soutˇeˇz´ı v robotickém fotbalu na hˇriˇsti ze zeleného koberce o maximáln´ı rozmˇerech 14 ∗ 22 m.

”Middle Size Teams ligové hry pouˇz´ıvaj´ı stejnˇe velký balon velikosti 5, jako se pouˇz´ıvá v lidském fotbalu a jeho barva je specifikována vˇzdy pˇred soutˇeˇz´ı.“ [9]

Obr´azek 2.9 Middle Size Teams liga v roce 2019 [9]

Small Size Teams – Hry se odehrávaj´ı mezi dvˇema týmy po osmi robotech. Pr˚umˇer robota nesm´ı být vˇetˇs´ı neˇz 18 cm a mus´ı být niˇzˇs´ı neˇz 15 cm. Hraje se na menˇs´ım hˇriˇsti neˇz v kategorii Middle Size Teams, a to konrétnˇe na koberci velikosti 12 ∗ 9 m. Jako m´ıˇc se zde pouˇz´ıvá oranˇzový golfový m´ıˇcek. Kamery nejsou um´ıstˇeny na robotech, ale nad celým hˇriˇstˇem a informace z nich jsou pos´ılány vˇsem robot˚um. Nejatraktivnˇejˇs´ı vˇec´ı jsou zde rychlé pohyby a kooperace mezi agenty. ”Tato kategorie je doporuˇcena pro fanouˇsky lidského fotbalu.“ [9]

(26)

Obr´azek 2.10Small Teams liga v roce 2019 [9]

Simulation – Zápasy nejsou hrané mezi skuteˇcnými roboty, ale v simulaci na serveru Soccer- Server[9]. Hraje zde jedenáct hráˇc˚u pouˇz´ıvaj´ıc´ı virtuáln´ı senzory, které kaˇzdému hráˇci dávaj´ı informace o prostˇred´ı (situace okolo hráˇce, pozice m´ıˇce). D´ıky absenci hardwaru a problém˚u s n´ım spojených zde m˚uˇzeme pozorovat sofistikované strategie.

Ostatn´ı – RoboCup nepoˇrádá jen soutˇeˇze v robotickém fotbalu, ale i v jiných odvˇetv´ıch spo- jených s robotickou. Jedn´ım z nich je soutˇeˇz v zachraˇnován´ı obˇet´ı pomoc´ı robot˚u nebo v simulaci. Nakonec se také soutˇeˇz´ı ve vyuˇzit´ı robot˚u v pr˚umyslu nebo v logistice. [9]

2.4 Reˇ serˇ se existuj´ıc´ıch ˇ reˇ sen´ı

Multiagentn´ı syst´ emy

Existuje spousta aplikac´ı multiagetn´ıch systém˚u, ale jen malá ˇcást z nich vyuˇz´ıvá rozhodovac´ı stromy pro ˇr´ızen´ı agent˚u. Velká ˇcást aplikac´ı totiˇz vyuˇz´ıvá neuronové s´ıtˇe.

OpenAI - Emergent Tool – Tento projekt pozoruje uˇcen´ı jednotlivých agent˚u ve známé hˇre

”na schovávanou“. Jedná se o problém multiagentn´ı koordinace v prostˇred´ı s nepˇr´ıtelem s lokáln´ım ˇr´ızen´ım agent˚u. Nacházej´ı se zde dva týmy (Hledan´ı a Hledaˇci), kde kaˇzdý má jiný c´ıl a jinou odmˇenovou funkci. Hledan´ı maj´ı za úkol se schovat pˇred Hledaˇci. Pˇred zaˇcátkem kola mohou vyuˇz´ıt prostˇred´ı nebo pohybovat s urˇcitými pˇredmˇety. Hledaˇci jsou zpoˇcátku na urˇcitou dobu nehybn´ı a poté se mohou pohybovat po m´ıstnosti a pohybovat s neuzamknutými pˇredmˇety. V ˇsesti fáz´ıch simulace se jednotlivé týmy vˇzdy nauˇc´ı porazit nepˇrátele d´ıky tomu, ˇze se nauˇc´ı nové taktiky. K dostateˇcnému nauˇcen´ı agent˚u bylo potˇreba provést ˇrádovˇe 10¹⁰ simulac´ı. [11]

(27)

2.4. Reˇserˇse existuj´ıc´ıch ˇreˇsen´ı 15

Obr´azek 2.11OpenAI - Emergent Tool - senzory agent˚u [11]

Project Malmo a MarL Ö – Projekt Malmo je platforma postavena nad obl´ıbenou hrou Mi- necraft a je designována k základn´ımu výzkumu AI. ”Vize projektu Malmo je umoˇznˇen´ı AI technologi´ım spolupráci s lidmi“. [12, pˇreklad vlastn´ı] Nad t´ımto frameworkem byl vytvoˇren projekt MarL Ö (Multi-Agent Reinforcement Learning in Malm Ö). Ve hˇre specifikuje r˚uzné

úkoly a vyuˇz´ıvá MAS a posilované uˇcen´ı k jejich ˇreˇsen´ı. Jedná se napˇr´ıklad o:

Hledán´ı pokladu – Jeden agent hledá nebo nese poklad a ostatn´ı brán´ı tým pˇred nepˇráteli Soutˇeˇz ve stavˇen´ı – Agenti spolupracuj´ı pˇri stavˇen´ı urˇcitého objektu a rychlejˇs´ı agenti dostávaj´ı vˇetˇs´ı odmˇeny

Nahánˇen´ı zv´ıˇrat – Agenti mus´ı spolupracovat k úspˇeˇsnému chycen´ı zv´ıˇrete (Tento úkol byl vyuˇzit v soutˇeˇzi Malmo Collaborative AI Challenge)

Tento projekt je Open Source. [13]

Robotick´ y fotbal

Existuj´ıc´ı ˇreˇsen´ı, zab´yvaj´ıc´ı se robotick´ym fotbalem, m˚uˇzeme rozdˇelit na dvˇe katogorie:

Simulace a teoretické – Na základˇe znalost´ı informatiky, aplikované matematiky a umˇelé inteligence jsou vytvoˇreny programy, které pouze simuluj´ı hru. Neˇreˇs´ı se zde fyzická stránka robota.

Praktické – Z´ıskané zkuˇsenosti z teoretických poznatk˚u a simulac´ı se uplatˇnuj´ı pˇri sestavován´ı a návrhu skuteˇcných robotických hráˇc˚u. M˚uˇzeme se zde setkat s ovlivˇnován´ım výsledk˚u d´ıky fyzikáln´ım vlastnostem prostˇred´ı a r˚uznými nedeterministickými nedokonalostmi, které se tˇeˇzko simuluj´ı.

Obr´azek 2.12Porovn´an´ı RoboCupu z rok˚u 1998 [14] a 2019 [15]

(28)

RoboCup –”Myˇslenka robotického fotbalu byla poprvé zm´ınˇena profesorem Alanem Mackworthem (Univerzita Britské Kolumbie, Kanada) v práci jménem On Seeing Robots a publikována v roce 1993 knize Computer Vision: System, Theory, and Applications“. [16, pˇreklad vlastn´ı]

Za ménˇe neˇz 5 let v roce 1997 byl uspoˇrádán prvn´ı RoboCup turnaj a konference. ”Zúˇcastnilo se pˇres 40 tým˚u a pˇriˇslo pˇres 5 000 divák˚u“.[16, pˇreklad vlastn´ı] Od té doby jsou poˇrádány pravidelné akce zabývaj´ıc´ı se robotickým fotbalem z praktického hlediska ⁴. V pr˚ubˇehu let ˇc´ım dál v´ıce roboti vypadaj´ı”lidˇstˇeji“. Tento vývoj m˚uˇzeme vidˇet na obrázku 2.12. Spoleˇcným c´ılem poté je v roce 2050 sestaven´ı plnˇe autonomn´ıho týmu robot˚u a podle oficiáln´ıch FIFA pravidel porazit posledn´ıho výherce Mistrovstv´ı svˇeta ve fotbale. [2, pˇreklad vlastn´ı]

4V roce 2020 se kv˚uli pandemii COVID-19 uskuteˇcnily pouze online soutˇeˇze v simulac´ıch.

(29)

Kapitola 3

Vlastn´ı n´ avrh

V této kapitole se budeme zabývat vlastn´ı implementac´ı softwarového prototypu v jazyce C#. Ukáˇzeme zde popis prostˇred´ı a konkrétn´ı návrh agent˚u. Také v této kapitole pop´ıˇseme relaxovaná pravidla robotického fotbalu a ukáˇzeme rozd´ıly mezi t´ımto prototypem a reálným svˇetem.

3.1 Prostˇ red´ı

Celé prostˇred´ı je realizováno pomoc´ı 2D mˇr´ıˇzky. Agenti se po mˇr´ıˇzce mohou pohybovat do osmi smˇer˚u (tj. i diagonálnˇe). Diagonáln´ı pohyb je samozˇrejmˇe pomalejˇs´ı kv˚uli zachován´ı základn´ıch fyzikáln´ıch vlastnost´ı svˇeta. Vzhledem k Russelovi a Norvigovi[3] m˚uˇzeme toto prostˇred´ı klasifi- kovat jako:

Pˇr´ıstupné – Agent dokáˇze kompletnˇe a jednotnˇe zjistit informace o prostˇred´ı. V´ı, na jak velkém hˇriˇsti se hraje, kde je brána protihráˇce a v´ı, kam nesm´ı. Tyto informace agent nezjist´ı sice hned, ale trvá mu to minimum ˇcasu (pouze staˇc´ı z´ıskat data ze senzor˚u).

Deterministické – Narozd´ıl od reálného fotbalu je toto prostˇred´ı deterministické. Nep˚usob´ı na nˇej ˇzádné vnˇejˇs´ı fyzikáln´ı jevy a vˇsechny akce zde maj´ı jasný a garantovaný efekt.

Statické – Pouze akce agenta dokáˇz´ı zmˇenit prostˇred´ı. Bez agent˚u je prostˇred´ı nemˇenné.

Diskrétn´ı/spojité – Na prvn´ı pohled se zdá toto prostˇred´ı diskrétn´ı. Na mˇr´ıˇzce m∗n s k akcemi existuje koneˇcný poˇcet akc´ı. Neurˇcitost v klasifikaci prostˇred´ı nám pˇridává spojitý ˇcas. Pokud nepovaˇzujeme stejné akce, akorát provedené v jiném ˇcase, za totoˇzné pak je prostˇred´ı spojité.

Pokud uvaˇzujeme opak, prostˇred´ı je diskr´etn´ı.

Známé – Z pohledu agenta i designéra je prostˇred´ı známé. Známe rozmˇery hˇriˇstˇe (aspoˇn pomˇer), poˇcet hráˇc˚u i poˇcet protihráˇc˚u.

Protˇred´ı je rozmˇerovˇe podobné reálnému fotbalovému hˇriˇsti a je rozdˇeleno do 7 zón: Brána, pokutové územ´ı, obranné pásmo, stˇredn´ı pásmo, útoˇcné pásmo, soupeˇrovo pokutové územ´ı a

17

(30)

18 Kapitola 3. Vlastn´ı n´avrh

soupeˇreva brána. Kromˇe stˇredn´ıho pásma jsou ostatn´ı k sobˇe zrcadlovˇe symetrické a kaˇzdý tým je má uspoˇrádané naopak. Celé hˇriˇstˇe je pak ohraniˇceno outovou ˇcárou, na které se jeˇstˇe m˚uˇze hrát. Kdyby mˇel m´ıˇc pˇrekroˇcit outovou ˇcáru, zastav´ı se. Vhazován´ı po odehrán´ı mimo hˇriˇstˇe tedy nen´ı v tomto prototypu implementováno.

3.1.1 M´ıˇ c

M´ıˇc jako takový sám o sobˇe nem˚uˇze provádˇet ˇzádné akce. Pouze agenti za pomoc´ı svých akc´ı mohou m´ıˇc ovládat. M´ıˇc m˚uˇze agent vz´ıt a pohybovat se s n´ım, nebo ho m˚uˇze odkopnout na urˇcitou pozici s urˇcitou silou. Bˇehem stˇrely m´ıˇc ztrác´ı na rychlosti a m˚uˇze se i zastavit pˇred c´ılem.

K urˇcen´ı trajektorie m´ıˇce jsme pouˇzili Bresenham Line-Drawing algoritmus[17]. Algoritmus se sice pouˇz´ıvá pro vykreslován´ı pˇr´ımek v pixelovém rastru, ale diskretizace trajektorie m´ıˇce je podobný problém, jelikoˇz se v naˇsem prototypu m´ıˇc pohybuje jenom po pˇr´ımce.

”Pokud omez´ıme rutinu kreslen´ı ˇcar tak, aby pˇri vykreslován´ı vˇzdy zvyˇsovala x, je zˇrejmé, ˇze po vykreslen´ı bodu na(x, y má rutina výraznˇe omezený rozsah moˇznost´ı, kam m˚uˇze um´ıstit dalˇs´ı bod: bud’ na(x + 1, y) nebo (x + 1, y + 1).“[17] Nejdˇr´ıv si definujme chybu , která ˇr´ıká, o kolik se reálná y souˇradnice liˇs´ı od vykreslené. Chyba se tedy pohybuje v intervalu −0.5 < < 0.5 . Pˇri pohybu z x do x + 1 zvyˇsujeme reálnou hodnotu y o sklon pˇr´ımky m. Vykresl´ıme¹ pixel na souˇradnic´ıch (x + 1, y) pokud rozd´ıl mezi novou hodnotou a y je menˇs´ı neˇz 0.5.

y+ + m < y + 0.5

Jinak vykresl´ıme (x+1, y +1). Poté budeme muset pˇrepoˇc´ıtat . Tento postup vyuˇz´ıvá desetinná ˇc´ısla, ale po jednoduchém vynásoben´ı podm´ınky výˇse 2 a zmˇenou x m˚uˇzeme vyuˇz´ıvat jen celá ˇc´ısla.

+ m < 0.5

+ ∆y/∆x < 0.5 2 ∗ ∗ ∆x + 2 ∗ ∆y < ∆y

Následuj´ıc´ı pseudokód 4 ukazuje vykreslován´ı pˇr´ımky v prvn´ım oktantu a pouze za pomoc´ı celých ˇc´ısel.

I Vˇeta 3.1. Bresenham˚uv algoritmus je koneˇcný a jeho ˇcasová sloˇzitost je O(n) vzhledem k délce n výsledné pˇr´ımky p.

D˚ukaz. Algoritmus na vstupu z´ıská dva body a iteruje pˇres souˇradnice x, resp. y, od jednoho bodu k druhému s konstantn´ı velikost´ı kroku = 1. Jelikoˇz jsou oba vstupn´ı body um´ıstˇené v nˇejakém prostoru, rozd´ıl jejich souˇradnic x, resp. y, mus´ı být koneˇcný. Z toho vyplývá ˇcasová

sloˇzitost úmˇerná délce výsledné pˇr´ımky.

Pro vykreslen´ıpˇr´ımky v jin´ych oktantech staˇc´ıpatˇriˇcnˇe prohodit x a y souˇradnice nebo podm´ınku vyn´asobit zmˇenou y.

1Ve skuteˇcnosti pixely nevykreslujeme, ale ukládáme do pole, které vytvoˇr´ı trajektorii m´ıˇce.

(31)

3.2. Agent 19

Algoritmus 4:Bresenham˚uv algoritmus [17]

Vstup:(x1, y₁)(x2, y₂) V´ystup:Pˇr´ımka p

1 dx = x2− x₁

2 dy = y2− y₁

3 y = y1 4 eps = 0

5 p = []

6 forall x ← x1; x ≤ x2 do

7 p.append((x,y))

8 eps += dy

9 if eps ≥ dx then

10 y++

11 eps − = dx

12 end

13 end

14 returnp

3.2 Agent

”Pˇri n´avrhu agenta mus´ıme jako prvn´ı specifikovat probl´em, co nejv´ıce to jde.“[3, pˇreklad vlastn´ı]

Problém m˚uˇzeme popsat pomoc´ı PEAS (Performance, Environment, Actuators, Sensors, ˇcesky Výkon, Prostˇred´ı, Aktuátory, Senzory)[3].

Tabulka 3.1 PEAS agenta

Typ Agenta Mˇeˇren´ı v´ykonu Prostˇred´ı Aktu´atory Senzory

Robotick´y fotbalista

Fotbalov´e hˇriˇstˇe (mˇr´ıˇzka)

Vstˇrelen´e g´oly M´ıˇc Nohy k pohybu Kamera

Min inkasovaných gól˚u Spoluhráˇci Nohy k odkopnut´ı m´ıˇce Protihráˇci

Pˇr´ıstup˚u k návrhu agent˚u existuje celá ˇrada. K naˇsim potˇrebám poslouˇz´ı nejlépe reflexn´ı agent, který reaguje na aktuáln´ı podnˇety a neuvaˇzuje jejich historii (coˇz se v reálném fotbalu nehod´ı – hráˇci se uˇc´ı z chyb). Specifický návrh je vidˇet na obrázku 3.1. Diagram popisuje princip vnitˇrn´ıho fungován´ı agenta: Nejdˇr´ıve agent svými senzory z´ıská informace o prostˇred´ı. Tyto informace jsou pak pˇredány jako vstup rozhodovac´ımu stromu, který byl pˇredem zkonstruován z trénovac´ıch dat. Strom je vlastnˇe funkce f(x), která vrac´ı rozhodnut´ı – v naˇsem pˇr´ıpadˇe akci.

Tato akce se pˇredá ke zpracován´ı aktuátor˚um agenta a provede se. Akce m˚uˇze²ovlivnit prostˇred´ı, a to jen svoji aktuáln´ı pozici nebo pozici m´ıˇce.

2Kdyˇz agent provede akci kopnut´ı m´ıˇce, ale m´ıˇc nem´a, tak neovlivn´ı prostˇred´ı.

(32)

Obr´azek 3.1Diagram vnitˇrn´ıho n´avrhu agenta

3.2.1 Akce

Agent m˚uˇze pomoc´ı svých aktuátor˚u vykonávat akce a t´ım ovlivˇnovat prostˇred´ı. Vˇsechny jeho akce se daj´ı rozdˇelit na dvˇe kategorie:

Pohyb

Základn´ı akce agenta. Umoˇzˇnuje mu pohybovat se do osmi smˇer˚u. M˚uˇze se pohybovat na urˇcitou pozici nebo do urˇcité zóny. K nalezen´ı cesty je vyuˇz´ıván algoritmus A* upravený pro hledán´ı cesty v mˇen´ıc´ım se prostˇred´ı (ostatn´ı agenti).

Pr´ ace s m´ıˇ cem

Agent m˚uˇze m´ıˇc vystˇrelit urˇcitou silou na jemu urˇcenou pozici, jemu urˇcené zóny nebo nˇekterému z jeho spoluhráˇc˚u. Také m˚uˇze m´ıˇc vz´ıt a pohybovat se s n´ım.

Senzory

Tento agent má jediný senzor, a to kameru, ze které vypoˇc´ıtává veˇskeré informace. Dokáˇze z nich z´ıskat polohu spoluhráˇc˚u, protihráˇc˚u i m´ıˇce. Senzor byl vybrán kv˚uli korespondenci s reálným fotbalem, kde hráˇci z´ıskávaj´ı nejv´ıce informac´ı zrakem. V realitˇe sice hráˇci vn´ımaj´ı i pomoc´ı sluchu a hmatu, ale pro tuto simulaci tyto senzory neuvaˇzujeme.

3.3 Simulace spojit´ eho ˇ casu

V diskr´etn´ım modelu ˇcasu robot potˇrebuje jednu jednotku ˇcasu k pohybu na sousedn´ı pole.[2]

Jelikoˇz chceme pracovat s r˚uznými rychlostmi hráˇc˚u a m´ıˇce, mus´ıme vyuˇz´ıt model spojitého ˇcasu.

K jeho simulaci vyuˇzijeme modifikovanou datovou strukturu prioritn´ı fronta (d´ale jen fronta).

(33)

3.4. Implementace rozhodovac´ıch strom˚u 21

V´ypis k´odu 3.1 Abstraktn´ı tˇr´ıda vrcholu v rozhodovac´ım stromu p u b l i c c l a s s C A c t i o n {

A c t i o n a c t i o n ; f l o a t p r i o r i t y ; }

IDefinice 3.2. Fronta je abstraktn´ı datová struktura, která ukládá prvky. Prvky z n´ı vystupuj´ı v poˇrad´ı, ve kterém pˇriˇsly (typ FIFO = First-In, First-Out, ˇcesky Prvn´ı dovnitˇr, prvn´ı ven). Z prioritn´ı fronty vystupuj´ı nejdˇr´ıve prvky s nejvyˇsˇs´ı prioritou z´ıskané na základˇe prioritn´ı funkce.

[3, pˇreklad vlastn´ı]

Do fronty budeme vkl´adat struktury reprezentuj´ıc´ı akce (k´od 3.1):

Fronta, narozd´ıl od klasické definice, bude zpracovávat nejdˇr´ıve prvky s nejniˇzˇs´ı prioritou, která reprezentuje ˇcas vykonán´ı akce. Agenti pˇri pokusu proveden´ı nˇejaké akce, mus´ı ”vznést poˇzadavek“ této frontˇe (pomoc´ı struktury CAction, kde priority je doba trván´ı akce). Ta si mus´ı udrˇzovat hodnotu právˇe zpracovávaného ˇcasu a tu pˇriˇcte k prioritˇe pˇr´ıchoz´ı struktury. Následnˇe tuto strukturu vhodnˇe um´ıst´ı do své pamˇeti (celý proces lze vidˇet na obrázku 3.2).

Obrázek 3.2 Proces vkládán´ı nové akce do fronty

Fronta tedy postupnˇe zpracov´av´a poˇzadavky a pˇri jejich vyjmut´ı provede definovanou akci.

Agent tedy provede akci a zároveˇn vnese nový poˇzadavek frontˇe. Máme tedy zajiˇstˇeno pracován´ı s r˚uznými délkami trván´ı jednotlivých akc´ı a t´ım z´ıskáváme simulaci spojitého ˇcasu.

Problém m˚uˇze nastat, kdyˇz se ve frontˇe budou nacházet dvˇe akce se stejnou prioritou. V nˇekterých scénaˇr´ıch by mohlo zásadnˇe záleˇzet na poˇrad´ı proveden´ı tˇechto kolizn´ıch akc´ı, ale v naˇsem pˇr´ıpadˇe provedeme dˇr´ıv akci, která do fronty pˇriˇsla jako prvn´ı.

3.4 Implementace rozhodovac´ıch strom˚ u

Rozhodovac´ıstrom se skládá z koˇrene, vniˇrn´ıch vrchol˚u a list˚u. Pro vˇsechny tyto uzly si vytvoˇr´ıme abstraktn´ı tˇr´ıdu, ze které budou dˇedit. Spoleˇcné atributy tedy jsou (viz. 3.2) hloubka uzlu (jak daleko od koˇrene se nacház´ı) a rozliˇsovac´ı flag, jestli se jedná o vnitˇrn´ı uzel.

(34)

V´ypis k´odu 3.2 Abstraktn´ı tˇr´ıda vrcholu v rozhodovac´ım stromu p u b l i c a b s t r a c t c l a s s D e c i s i o n T r e e N o d e {

p r o t e c t e d b o o l i s I n n e r ; p u b l i c int d e p t h ;

}

Vnitˇrn´ı vrchol (viz. 3.3) si mus´ı udrˇzovat informace o svých synech, které jsou typu Decisi- onTreeNode, takˇze se m˚uˇze jednat o vnitˇrn´ı vrchol nebo list. Dále pak mus´ı m´ıt specifikovanou hodnotu, která se bude porovnávat se z´ıskanými daty od agenta pˇri pr˚uchodu stromem (3.5).

Vnitˇrn´ı vrcholy mus´ı m´ıt definované oba syny, jinak m˚uˇzeme pˇri pr˚uchodu narazit na chybu (kaˇzdý pr˚uchod stromem mus´ı vracet akci, ale kdyˇz nen´ı definovaný jeden syn, m˚uˇze nastat situace, kdy nemáme moˇznost vrátit akci).

V´ypis k´odu 3.3 Implementace vniˇrn´ıho vrcholu p u b l i c c l a s s I n n e r N o d e : D e c i s i o n T r e e N o d e {

p u b l i c D e c i s i o n T r e e N o d e t r u e S o n ; p u b l i c D e c i s i o n T r e e N o d e f a l s e S o n ; p u b l i c f l o a t v a l u e ;

p u b l i c b o o l C h e c k ( f l o a t t o C h e c k ) = > t o C h e c k > v a l u e ; }

Listy narozd´ıl od vnitˇrn´ıch vrcho˚u uˇz nemohou m´ıt ˇzádné potomky. Obsahuj´ı pouze urˇcitou akci agenta (struktura CAction), kterou pˇri pr˚uchodu stromem (zde pr˚uchod konˇc´ı, viz. 3.5) pˇredá frontˇe simuluj´ıc´ı spojitý ˇcas. Listy maj´ı jeˇstˇe pomocnou metodu k z´ıskán´ı jména akce, která ale nen´ı pro funkˇcnost d˚uleˇzitá, pouˇz´ıvá se jen pˇri vizualizaci rozhodovac´ıho stromu.

V´ypis k´odu 3.4 Implementace listu

p u b l i c c l a s s L e a f N o d e : D e c i s i o n T r e e N o d e { p r i v a t e C A c t i o n _ c A c t i o n ;

p u b l i c v o i d E x e c u t e () = > _ c A c t i o n . C o m m i t ();

}

Pˇri spuˇstˇen´ı programu nebo po vykonán´ı nˇejaké akce se opˇet procház´ı rozhodovac´ı strom agenta. Nejdˇr´ıve mus´ıme z´ıskat data z jeho senzor˚u. Poté zaˇcneme procházet strom od koˇrene.

Pokud se jedná o vnitˇrn´ı vrchol, porovnáme urˇcitý pˇr´ıznak ze z´ıskaných dat s hodnotou vrcholu.

Porovnán´ı prob´ıhá pouze pomoc´ı operátoru >. Pˇri pouˇzit´ı inverzn´ıho operátoru se pouze prohod´ı synové vˇsech vnitˇrn´ıch uzl˚u, takˇze nen´ı potˇreba implementovat pouˇzit´ı libovolného operátoru.

V´ypis k´odu 3.5 Funkce pro pr˚uchod rozhodovac´ım stromem p u b l i c v o i d P r o c e e d (){

R e q u e s t D a t a (); // Get d a t a f r o m a g e n t D e c i s i o n T r e e N o d e n o d e = _ r o o t ;

w h i l e ( t r u e ) {

(35)

3.5. Hled´an´ı cest 23

if (! n o d e . I s I n n e r ()) {

L e a f N o d e n = ( L e a f N o d e ) n o d e ;

n . E x e c u t e (); // E x e c u t e L e a f N o d e a c t i o n = > Add to T i m e Q u e u e b r e a k ;

} e l s e {

I n n e r N o d e n = ( I n n e r N o d e ) n o d e ; // C o m p a r e d a t a and N o d e v a l u e

// C h o o s e c o r r e c t son ( t r u e S o n / f a l s e S o n ) if ( n . C h e c k ( _ d a t a [ n . i n d e x T o C h e c k ]))

n o d e = n . t r u e S o n ; e l s e

n o d e = n . f a l s e S o n ;

} } }

3.5 Hled´ an´ı cest

Agenti ke svému pohybu do urˇcitého m´ısta potˇrebuj´ı nˇejaký algoritmus k nalezen´ı cesty. Existuje ˇrada tˇehchto algoritm˚u napˇr.: BFS, DFS, Greedy Search, A*, Dijkstra, atd. Ne vˇsechny algoritmy dokáˇzou naj´ıt nejkratˇs´ı cestu (DFS, Greedy Search) nebo potˇrebuj´ı v´ıce dostupných prostˇredk˚u neˇz je skuteˇcnˇe potˇreba. Pro náˇs pˇr´ıpad jsme zvolili A*, a to hlavnˇe kv˚uli naˇsemu prostˇred´ı, coˇz je m ∗ n mˇr´ıˇzka. Princip fungován´ı A* m˚uˇzeme nejlépe popsat na ukázan´ı rozd´ıl˚u mezi n´ım a Greedy Searchem. Nejprve ale mus´ıme definovat pojem heuristika a zm´ınit nˇekteré vlastnosti, protoˇze se v obou algoritmech vyuˇz´ıvá. Také uvaˇzujme, ˇze cestu hledáme v prostoru X a prvky x ∈ X jsou nˇejaké pozice, mezi kterými m˚uˇzeme mˇeˇrit vzdálenost funkc´ı d(x1, x2).

IDefinice 3.3 (Heuristika). ”Heuristika h(x) je (v kontextu hledán´ı nejkratˇs´ıch cest) odhado- vaná cena (délka) nejlevnˇejˇs´ı (nejkratˇs´ı) cesty z urˇcené pozice do c´ıle.“ [3, pˇreklad vlastn´ı]

Pro popis vlastnost´ı si definujeme optimáln´ı heuristiku h^∗(x), která vrac´ı skuteˇcnou cenu (vzdálenost) od pozice k c´ıli. Tato heuristika sice existuje, ale vypoˇc´ıtat jde pouze hrubou silou, tud´ıˇz se to výpoˇcetnˇe nevyplat´ı. Lepˇs´ı heuristiku neˇz h^∗(x) nelze sestavit.

I Definice 3.4 (Pˇr´ıpustnost heuristiky). ”Pˇr´ıpustná heuristika je taková, která nikdy nenad- hodnot´ı cenu (vzdálenost) do c´ıle.“[3, pˇreklad vlastn´ı] Formálnˇe:

∀x ∈ X : h(x) ≤ h^∗(x)

Pˇr´ıpustné heuristiky jsou nˇekdy taky oznaˇcovány jako optimistické.

IDefinice 3.5 (Konzistence (Monotónnost) heuristiky). ”Heuristika je konzistetn´ı, jestliˇze pro kaˇzdou pozici x a kaˇzdého jeho souseda x’ je odhadovaná cena (vzdálenost) do c´ıle z x nen´ı vˇetˇs´ı

(36)

neˇz reálná cena (vzdálenost) z x do x’ plus odhadovaná cena (vzdálenost) do c´ıle z x’.“[3, pˇreklad vlastn´ı] Formálnˇe:

∀x, x⁰∈ X : h(x) − d(x, x⁰) ≤ h(x⁰)

IVˇeta 3.6. Algoritmus A* je koneˇcný a s monotónn´ı heuristikou je jeho výstupem optimáln´ı cesta.

D˚ukaz. Algoritmus iteruje pˇres mnoˇzinu open, dokud nen´ı prázdná. Pˇri kaˇzdé iteraci odstran´ıme jeden prvek x a do open vloˇz´ıme jeho sousedy, kteˇr´ı nejsou v mnoˇzinˇe closed. Nakonec x vloˇz´ıme do mnoˇziny closed =⇒ ˇzádný prvek nebude v mnoˇzinˇe open v´ıckrát, neˇz jednou a jelikoˇz je poˇcet prvk˚u koneˇcný, algoritmus se zastav´ı. D˚ukaz optimality viz [3, s. 95]

Algoritmus 5:A*

Vstup:start, target V´ystup: Nejkratˇs´ı cesta

1 open ← new HashSet()

2 closed ← new HashSet()

3 open.Insert(start)

4 while !open.Empty() do

5 x ← open.ExtractMin()

6 if x == target then

7 returnReconstructPath(x)

8 end

9 forall y ∈ x.Neighbors() ∧ y /∈ closed do

10 temp d ← GetDistance(x,y) + x.gCost

11 if y /∈ open ∨ temp d < y.gCost then

12 y.prev = x

13 y.gCost = temp d

14 y.fCost = y.gCost + GetDistance(start,y)

15 if y /∈ open then

16 open.Insert(y)

17 end

18 end

19 closed.Insert(x)

20 end

Algoritmus mus´ıme modifikovat kv˚uli hledán´ı cesty v prostˇred´ı s v´ıce agenty [18]. V podm´ınce v 5 na 11. ˇrádce staˇc´ı pˇr´ıdat ke konjunkci kontrolu obsazenosti pozice. To znamená upravit podm´ınku následovnˇe: if((y /∈ open ∨ temp d < y.gCost) ∧ y.Empty())

3.5.1 Rychlostn´ı optimalizace

Funkce pro hledán´ı cesty se mus´ı volat pˇred kaˇzdým provedeným pohybem. Nejv´ıce ˇcasu (O(n)) se pak spotˇrebuje na hledán´ı minima na ˇrádku 5. Mus´ıme tedy vybrat novou a vhodnou strukturu pro mnoˇzninu open. Takovouto strukturou je minimáln´ı binárn´ı halda. ˇCasová sloˇzitost ˇrádku 5 se tedy zmˇen´ı na O(log n). Touto optimalizac´ı vˇsak zaplat´ıme zpomalen´ım vkládán´ım do open na ˇrádku 16, z O(1) na O(log n).

(37)

Kapitola 4

Z´ısk´ an´ı dat a experimenty

V této kapitole se budeme zabývat z´ıskáván´ım potˇrebných dat (testován´ım) k supervi- zovanému uˇcen´ı, konkrétnˇe pro konstrukci rozhodovac´ıch strom˚u. Pop´ıˇseme zde rozdˇelen´ı

úˇcastn´ık˚u, postup z´ıskán´ı dat a jejich strukturu. Nakonec, na základˇe tˇechto dat, budeme provádˇet experimenty se vzniklými agenty.

Vzhledem ke specifiˇcnosti tématu a netriviálnosti z´ıskán´ı dat jsme nezvolili hromadné a ano- nymn´ı testován´ı. Softwarový prototyp nemá webovou verzi a t´ım se testován´ı zt´ıˇzilo. Testován´ı tedy bylo uskuteˇcnˇeno kontaktnˇe nebo online s dozorem s menˇs´ım poˇctem lid´ı.

Obrázek 4.1 Ukázka situaci ze SW prototypu vyuˇzitého k z´ıskán´ı dat

4.1 Popis testovan´ e skupiny

Celého testován´ı se zúˇcastnilo 12 lid´ı. Vzhledem k tématu práce se nab´ızelo prozkoumat rozd´ıl mezi daty aktivn´ıch hráˇc˚u fotbalu (dále jen fotbalisté) a lid´ı nehraj´ıc´ıch fotbal (dále jen nefot- balisté). Skupinu tak tvoˇr´ı 6 fotbalist˚u a 6 nefotbalist˚u. Testován´ı napˇr´ıˇc skupinami se nijak neliˇsilo, bylo úplnˇe totoˇzné.

25

(38)

26 Kapitola 4. Z´ısk´an´ı dat a experimenty

4.2 Z´ısk´ an´ı dat

K z´ıskán´ı dat nám poslouˇzily pˇredem nadefinované a jednoduché situace. Na kaˇzdou roli agenta pˇripadaj´ı 2-4 situace. Uˇzivatel ovládá jednoho agenta podle instrukc´ı, které jsou dopˇredu známy.

Pˇri kaˇzdém vstupu od uˇzivatele se do souboru uloˇzila data ze senzoru ovládaného agenta. Kaˇzdá akce se ale jednoduˇse nedá pˇrevést na ˇc´ıslo. Nejdˇr´ıve mus´ıme podle typu vstupu analyzovat danou akci. To znamená ˇze napˇr. pˇri zmáˇcknut´ı ˇsipek v´ıme, ˇze se jedná o pohyb, ale mus´ıme ho bl´ıˇze specifikovat (m˚uˇze se jednat o pohyb k m´ıˇci, nebo pohyb do urˇcité zóny hˇriˇstˇe). To samé plat´ı o vstupu z myˇsi, kdy se jedná o akci s m´ıˇcem.

Tabulka 4.1 Struktura dat

Jméno pˇr´ıznaku Datový typ Ukázka dat

role enum - {0, 1, 2, 3} 1

hasBall bool - {0, 1} 0

agentX int 15

agentY int 17

closestEnemyDistance float 10.63

closestEnemyX int 10

closestEnemyY int 3

enemyHasBall bool - {0, 1} 0

enemyDistanceToBall float 3

zone enum - {0 . . . 7} 5

enemyDistanceToClosestPlayer float 10.63

enemyDistanceToSecondPlayer float 5

enemyWithBallDistance float 2.15 ∗ 10⁹

V urˇcitých situac´ıch nen´ı moˇzné urˇcité pˇr´ıznaky zjistit nebo dopoˇc´ıtat. Napˇr´ıklad kdyˇz pro- tihráˇc nemá m´ıˇc, nelze zjistit jeho vzdálenost s m´ıˇcem. Nebo v urˇcitých situac´ıch nejsou spo- luhráˇci k dispozici, tud´ıˇz opˇet nem˚uˇzeme zjistit jejich vzdálenosti. Aby nedocházelo k problém˚um s chybˇej´ıc´ımi daty, neznámým pˇr´ıznak˚um pˇriˇrad´ıme vˇzdy maximáln´ı hodnotu 32 bitového celého ˇc´ısla = 2.15 ∗ 10⁹

4.3 Experimenty

V experimentáln´ı ˇcásti práce budeme porovnávat týmy sestavené z r˚uzných typ˚u agent˚u a to z:

Syntetických agent˚u – Agenti, kteˇr´ı nejsou ˇr´ızeni rozhodovac´ım stromem, ale jejich chován´ı je pevnˇe naprogramované v kódu.

Natrénovaných agent˚u – Agenti jsou ˇr´ızeni rozhodovac´ım stromem, který je automaticky zkonstruovaný ze z´ıskaných dat pomoc´ı algoritmu ID3. Tuto kategorii jeˇstˇe m˚uˇzeme rozdˇelit na dalˇs´ı tˇri, kde budeme strom konstruovat na základˇe dat pouze od fotbalist˚u, nefotbalist˚u a z obou skupin dohromady.

(39)

4.3. Experimenty 27

Ruˇcnˇe vytvoˇren´ych agent˚u – Agenti jsou sice ˇr´ızeni rozhodovac´ım stromem, ale ruˇcnˇe vy- tvoˇren´ym.

V experimentech budeme nejdˇr´ıve testovat jednoduchou situaci, a to stˇrelu na brank´aˇre.

Poté otestujeme hru s celým týmem. Pˇri testován´ı stˇrelby budeme sledovat závislost maximáln´ı hloubky rozhodovac´ıho stromu na úspˇeˇsnost a pˇri testován´ı hry s celým týmem budeme testovat agenty s pouze jednou, pˇredem urˇcenou, maximáln´ı hloubkou stromu.

Stˇ rely na br´ anu

Prvn´ı experimentem je testován´ı úspˇeˇsnosti stˇrelby. Tuto situaci (viz. Obrázek 4.2) m˚uˇzeme pˇrirovnat k reálnému fotbalu a to konkrétnˇe k pokutovým kop˚um (penaltám).

Obr´azek 4.2 Prvn´ı experiment: Stˇrely na br´anu

Golman vs. ´ utoˇ cn´ık

Nejdˇr´ıve otestujeme pˇresnost agenta s zkonstruovaným stromem ze vˇsech dat. Pˇresnost budeme testovat s r˚uznými maximáln´ımi hloubkami rozhodovac´ıho stromu. Jak vid´ıme z grafu 4.3, ma- ximáln´ı hloubka stromu nemá na stˇrelbu vliv. Pˇresnost je n´ızká jen v krajn´ıch hodnotách. Pˇri hloubce stromu rovné 9 je pˇresnost 4%, kdy se jedná o náhodný ˇsum, protoˇze se agent pokouˇsel nahrát spoluhráˇci a obˇcas se podaˇrilo dát gól.

Obrázek 4.3 Pˇresnost hráˇce v závislosti na hloubce rozhodovac´ıho stromu