• Nie Znaleziono Wyników

U c z e n ie si

N/A
N/A
Protected

Academic year: 2021

Share "U c z e n ie si"

Copied!
9
0
0

Pełen tekst

(1)

U c z e n ie si

֒

e z e w z m o c n ie n ie m

Wwieludziedzinachtrudnojestsformu lowa´cprecyzyjnefunkcjeoceny, pozwalaj֒aceagentowioceni´cskuteczno´s´c,lubpoprawno´s´cjegoakcji, zwyj֒atkiemgdyosi֒agnieonstandocelowy.Zak ladamy,˙zewstaniedocelowym agentzza lo˙zeniazawszeotrzymujeobiektywn֒aocen֒eswoichdzia la´n,zwan֒a nagrod ֒alubwzmocnieniem.Wygodniejestsformu lowa´czadanieagenta wtakispos´ob,abymusia lonsamnauczy´csi ֒etakdzia la´c,abymaksymalizowa´c t ֒enagrod ֒e(wzmocnienie).Nazywamytozagadnieniemuczeniasi ֒eze wzmocnieniem(reinforcementlearning,RL). Jesttozadanietrudne.Wog´olnymprzypadkuagentmo˙zeniemie´cpe lnej informacjioswoim´srodowisku,jakr´ownie˙zprecyzyjnego(albo˙zadnego)opisu swoichdzia la´niichskutk´ow.Jegosytuacj ֒emo˙znarozumie´cjakojednoze sformu lowa´npe lnegozadaniasztucznejinteligencji.Agentzostajeumieszczony w´srodowisku,kt´oregoniezna,imusisi֒enauczy´cskuteczniewnimdzia la´c,aby maksymalizowa´cpewnekryterium,dost֒epnemuwpostaciwzmocnie´n. B֒edziemyrozwa˙zaliprobabilistycznymodelskutk´owakcjiagenta.M´owi֒ac dok ladniej,b ֒edziemyzak ladali,˙zepodstawowezagadnieniejestdyskretnym procesemMarkowa(MDP),jednakagentnieznajegoparametr´ow. Uczeniesi֒ezewzmocnieniemwst֒ep1 Uczeniesi֒ezewzmocnieniemwst֒ep2

P a sy w n e u c z e n ie si

֒

e z e w z m o c n ie n ie m

Napocz֒atekrozwa˙zymyuczeniesi ֒epasywne,gdziezak ladamy,˙zepolityka agentaπ(s)jestzg´oryustalona.Agentniepodejmuje˙zadnychdecyzji,musi robi´ctocodyktujemupolityka,awynikijegoakcjis֒aprobabilistyczne.Jednak mo˙zeobserwowa´ccosi֒edzieje,czyliwiedojakichstan´owdocieraijakie otrzymujewnichnagrody.Pami ֒etajmyjednak,˙zenagrodyotrzymywane wstanachnieterminalnychnies ֒adlaagentaistotnymkryterium—liczysi ֒e tylkosumanagr´odotrzymanychnadrodzedostanuterminalnego,zwana wzmocnieniem. Zadaniemagentajestnauczeniesi֒ewarto´sciu˙zyteczno´scistan´owUπ(s), obliczanychzgodniezr´ownaniem: Uπ (s)=E" X t=0γt R(st)# Wrozpatrywanymtuprzyk ladowymzagadnieniu4x3b ֒edziemyprzyjmowa´c γ=1. Uczeniesi֒ezewzmocnieniempasywne3

Pr z e b ie g i u c z

֒

a c e

Przypomnijmyrozwa˙zanywcze´sniejprzyk ladagentaw´swiecie4×3: 1234+ 1 − 12 13 123

1

2

3 1

+ 1 4

0.611

0.812 0.655

0.762

0.918 0.705

0.660

0.868 0.388 Agentwykonujeprzebiegiucz ֒ace(ang.trials)wkt´orychwykonujeakcje zgodnezposiadan ֒apolityk ֒a,a˙zdoosi ֒agni ֒eciastanuterminalnego.Wka˙zdym krokuotrzymujeperceptwskazuj ֒acyzar´ownobie˙z ֒acystan,jakinagrod ֒e. Przyk ladoweprzebiegi: (1,1)0.04(1,2)0.04(1,3)0.04(1,2)0.04(1,3)0.04(2,3)0.04(3,3)0.04(4,3) +

1 (1,1)0.04(1,2)0.04(1,3)0.04(2,3)0.04(3,3)0.04(3,2)0.04(3,3)0.04(4,3) +

1 (1,1)0.04(2,1)0.04(3,1)0.04(3,2)0.04(4,2)1 Uczeniesi֒ezewzmocnieniempasywne4

(2)

Ob li c z a n ie u ˙zy te c z n o ´s c i m e to d

֒

a b e z p o ´s re d n i

֒

a

Celemdzia laniaagentajestobliczenieu˙zyteczno´scistan´owUπ (s)zwi֒azanych zposiadan֒apolityk֒aπ(s).U˙zyteczno´scistan´owzdefiniowanes֒ajakowarto´sci oczekiwanesumynagr´od(dyskontowanych)otrzymanychprzezagenta startuj ֒acegozdanegostanu,iporuszaj ֒acegosi ֒ezgodniezeswoj ֒apolityk ֒a: Uπ (s)=E" X t=0γt R(st)# Agentmo˙zenauczy´csi֒eu˙zyteczno´sciobliczaj֒actzw.nagrod ֒epozosta l ֒a (reward-to-go)wka˙zdymstanie.Nakoniecprzebieguagentobliczanagrod֒e pozosta l֒awstanieko´ncowymjakonagrod֒eotrzyman֒awtymstanie.Nast֒epnie, cofaj֒acsi֒ewzd lu˙zswojejdrogi,obliczanagrodypozosta ledlawcze´sniejszych stan´owjakosumynagr´odotrzymanychnako´ncowymodcinkuprzebiegu. Naprzyk lad,dlaprzebiegu: (1,1)0.04(1,2)0.04(1,3)0.04(1,2)0.04(1,3)0.04(2,3)0.04(3,3)0.04(4,3) +

1 otrzymujemyRtg(4,3)=1,Rtg(3,3)=0.96,Rtg(2,3)=0.92,Rtg(1,3)= 0.88,Rtg(1,2)=0.84,Rtg(1,3)=0.80,Rtg(1,2)=0.76,Rtg(1,1)=0.72 Uczeniesi֒ezewzmocnieniempasywne5 Posiadaj֒acwielepr´obek(przebieg´ow)agentmo˙zeprzezprosteu´srednianie okre´sli´ckolejneprzybli˙zeniawarto´scioczekiwaneju˙zyteczno´scistan´ow,kt´ore wniesko´nczono´scizbiegaj֒asi֒edow la´sciwychwarto´scioczekiwanych. Topodej´sciejestpoprawne,leczniezbytefektywne—wymagadu˙zejliczby przebieg´ow.Przedstawionametodaokre´slaniau˙zyteczno´sci,stosuj֒acproste u´srednianieu˙zyteczno´scistan´ow,pomijawa˙zn֒aw lasno´s´cproces´owMarkowa, tzn.,˙zeu˙zyteczno´scistan´ows֒azwi֒azanezu˙zyteczno´sciamistan´ows֒asiednich. (1,1)0.04(1,2)0.04(1,3)0.04(1,2)0.04(1,3)0.04(2,3)0.04(3,3)0.04(4,3) +

1 (1,1)0.04(1,2)0.04(1,3)0.04(2,3)0.04(3,3)0.04(3,2)0.04(3,3)0.04(4,3) +

1 (1,1)0.04(2,1)0.04(3,1)0.04(3,2)0.04(4,2)1 Naprzyk lad,wdrugimprzebieguzpowy˙zszegoprzyk ladualgorytmokre´sla u˙zyteczno´s´cstanu(3,2)jakopozosta l֒anagrod֒eztegoprzebiegu,ignoruj֒ac fakt,˙zekolejnymstanemwtymprzebiegujeststan(3,3),kt´orymawysok֒a (iju˙zznan֒a)u˙zyteczno´s´c.R´ownanieBellmanapozwalazwi֒aza´cu˙zyteczno´sci nast֒epuj֒acychposobiestan´ow,lecztopodej´scieniepotrafiichwykorzysta´c. Uczeniesi֒ezewzmocnieniempasywne6

A d a p ta c y jn e p ro g ra m o w a n ie d y n a m ic z n e

Adaptacyjnymprogramowaniemdynamicznym(ADP)nazywamyproces podobnydoprogramowaniadynamicznegowpo l֒aczeniuzuczeniemsi֒emodelu ´srodowiska,czylifunkcjiprzej´s´cstan´ow,ifunkcjinagrody.Polegaonona zliczaniuprzej´s´codparystan-akcjadonast֒epnejakcji.Przebiegiucz֒ace dostarczaj ֒anamseriiucz ֒acejtakichprzej´s´c.Agentmo˙zeokre´sla´cich prawdopodobie´nstwajakoichcz ֒estotliwo´sciwyst ֒epuj ֒acewprzebiegach. Naprzyk lad,wpodanychwcze´sniejprzebiegach,wstanie(1,3)trzyrazy wykonanazosta laakcja(Right),poczymdwarazywynikowymstanem by l(2,3).Zatemagentpowinienokre´sli´cP((2,3)|(1,3),Right)=2 3. (1,1)0.04(1,2)0.04(1,3)0.04(1,2)0.04(1,3)0.04(2,3)0.04(3,3)0.04(4,3) +

1 (1,1)0.04(1,2)0.04(1,3)0.04(2,3)0.04(3,3)0.04(3,2)0.04(3,3)0.04(4,3) +

1 (1,1)0.04(2,1)0.04(3,1)0.04(3,2)0.04(4,2)1 Powykonaniuka˙zdegokrokuagentaktualizujeu˙zyteczno´scistan´owrozwi֒azuj֒ac r´ownanieBellmana(uproszczone)jednymzw la´sciwychalgorytm´ow.R´ownanie jestuproszczone,poniewa˙zznamytylkorozk ladyskutk´owakcjinale˙z ֒acychdo polityki,iniemo˙zemyoblicza´cnajlepszejakcjiwka˙zdymstanie.Poniewa˙z chcemyobliczy´cUπtobierzemyw la´snieteakcje. Uczeniesi֒ezewzmocnieniemmetodaADP7

A d a p ta c y jn e p ro g ra m o w a n ie d y n a m ic z n e — a lg o ry tm

Uczeniesi֒ezewzmocnieniemmetodaADP8

(3)

A d a p ta c y jn e p ro g ra m o w a n ie d y n a m ic z n e — e fe k ty w n o ´s´ c

AlgorytmADPaktualizujewarto´sciu˙zyteczno´scinajlepiejjaktojestmo˙zliwe, istanowiwtymwzgl ֒edziestandarddopor´owna´ndlainnychalgorytm´ow. Jednakproceduraobliczaniau˙zyteczno´sciprzezrozwi֒azywanieuk ladur´owna´n (liniowych)mo˙zeby´cniewykonalnadlawieluzmiennych(np.1050 r´owna´n z1050 niewiadomymidlagrybackgammon). 0

0.2

0.4

0.6

0.81 020406080100

Utility estimates

Number of trials

(1,1)

(1,3) (3,2)

(3,3)(4,3) 0

0.1

0.2

0.3

0.4

0.5

0.6 020406080100

RMS error in utility

Number of trials Powy˙zszewykresyilustruj֒azbie˙zno´s´cdlaprzyk ladowegouczeniaw´srodowisku 4×3.Nale˙zydoda´c,˙zewtymprzyk ladzieprzebiegko´ncz ֒acysi ֒ew ”z lym” stanieterminalnympojawiasi ֒eporazpierwszywprzebiegu78-ym,coskutkuje skokow֒aaktualizacj֒aniekt´orychu˙zyteczno´sci. Uczeniesi֒ezewzmocnieniemmetodaADP9 Uczeniesi֒ezewzmocnieniemmetodaADP10

M e to d a r´o ˙zn ic c z a so w y c h

Zamiastka˙zdorazoworozwi ֒azywa´cpe lenuk ladr´owna´nzewzgl ֒edunawarto´sci u˙zyteczno´sci,mo˙znaaktualizowa´ctewarto´sciaktualnieobserwowanymi warto´sciamiwzmocnie´n.Takfunkcjonuj֒acyalgorytmnazywasi֒emetod֒ar´o˙znic czasowychTD(temporaldifferencelearning): Uπ (s)←Uπ (s)+α(R(s)+γUπ (s )−Uπ (s)) Wtymprzypadkuaktualizujemyu˙zyteczno´s´cpoprawk֒aobliczan֒anapodstawie jednegozaobserwowanegoprzej´sciastan´ow,aniewarto´scioczekiwanej wszystkichprzej´s´c.Dlategote˙zpoprawk֒e—r´o˙znic֒epomi֒edzyu˙zyteczno´sci֒a ruchuau˙zyteczno´sci֒astanu—bierzemyzredukowan֒awsp´o lczynnikiemα<1. Powodujetowprowadzaniema lychpoprawekpoka˙zdymruchu.Jednocze´snie poprawkazmierzadozeragdyu˙zyteczno´s´cstanuzr´ownujesi ֒ezdyskontowan ֒a u˙zyteczno´sci ֒aruchu. Zauwa˙zmy,˙zetametodaniewymagaposiadaniamodelu´srodowiskaP(s|s,a), anisamagonieoblicza. Uczeniesi֒ezewzmocnieniemmetodaTD11

M e to d a r´o ˙zn ic c z a so w y c h — a lg o ry tm

Uczeniesi֒ezewzmocnieniemmetodaTD12

(4)

Z b ie ˙zn o ´s´ c m e to d y r´o ˙zn ic c z a so w y c h

Istniejezwi֒azekipodobie´nstwopomi֒edzyalgorytmamiADPiTD.Oileten drugidokonujetylkolokalnychzmianwwarto´sciachu˙zyteczno´sci,toich´srednie warto´scizbiegaj ֒asi ֒edotychsamychwarto´scicodlaalgorytmuADP. Wprzypadkuuczeniawielomaprzyk ladamiprzej´s´c,cz֒estotliwo´sciwyst֒epowania stan´owzgadzaj֒asi֒ezrozk lademprawdopodobie´nstwichwyst֒epowaniaimo˙zna wykaza´c,˙zewarto´sciu˙zyteczno´scib֒ed֒asi֒ezbiega´cdopoprawnychwynik´ow. Wtymceluparametruczeniasi ֒eαpowinienzmniejsza´csi ֒ewrazze zwi֒ekszaniemsi֒eliczbyprzetworzonychprzebieg´ow.Dok ladniej,warto´scitego parametrupowinnyspe lnia´czale˙zno´s´c: X n=1α(n)=∞ orazjednocze´snie: X n=1α2 (n)<∞ Uczeniesi֒ezewzmocnieniemmetodaTD13 Zbie˙zno´s´cprzyk ladowegoprocesuuczeniadla´srodowiska4×3: 0

0.2

0.4

0.6

0.81 0100200300400500

Utility estimates

Number of trials

(1,1)

(1,3) (2,1)

(3,3)(4,3) 0

0.1

0.2

0.3

0.4

0.5

0.6 020406080100

RMS error in utility

Number of trials Uczeniesi֒ezewzmocnieniemmetodaTD14

A k ty w n e u c z e n ie si

֒

e z e w z m o c n ie n ie m

Copowinienzrobi´cagent,kt´orynieposiadaustalonejpolityki,albokt´ory chcia lbyokre´sli´cpolityk ֒eoptymaln ֒a? Najpierwpowinienwyznaczy´ckompletnymodelprzej´s´cdlawszystkichakcji. Przedstawionywy˙zejalgorytmADPdajet֒emo˙zliwo´s´c.Nast֒epnienale˙zy wyznaczy´cpolityk֒eoptymaln֒a,spe lniaj֒ac֒aponi˙zszer´ownanieBellmana,jak wzwyk lymproblemiedecyzyjnymMarkowa: U(s)=R(s)+γmax a

X sP(s |s,a)U(s ) Agentmo˙zetozrobi´calgorytmemiteracjiwarto´scilubiteracjipolityki. Nast֒epnie,maj֒acwyznaczon֒aoptymaln֒apolityk֒edladanego´srodowiska,mo˙ze spokojnieprzej´s´cdojejrealizacji. Aleczypowinientakzrobi´c? Uczeniesi֒ezewzmocnieniemaktywne15 0

0.51

1.52 050100150200250300350400450500

RMS error, policy loss

Number of trials

RMS error Policy loss 123

1

2

3 1

+1 4 Wykrespolewejpokazujewynikuczeniasi ֒ewpewnymeksperymencie.Agent znalaz lbezpo´sredni֒adrog֒edorozwi֒azania[+1]wprzebiegunr39,leczby lato drogagorsza,wzd lu˙zstan´ow:(2,1),(3,1),(3,2),(3,3).Zdeterminowa lajednak przyj֒et֒aprzezagentapolityk֒eoptymaln֒apoprawej.Okazujesi֒e,˙zejestto sytuacjatypowa,agentzrzadkatylkoznajdujeoptymaln֒apolityk֒epreferuj֒ac֒a drog ֒ag´orn ֒a:(1,2),(1,3),(2,3),(3,3). Uczeniesi֒ezewzmocnieniemaktywne16

(5)

E k sp lo ra c ja

Niestety,je´sliagentnienauczysi֒epoprawnegomodelu´srodowiskawswoich pocz ֒atkowychprzebiegach,tob ֒edzienast ֒epniegenerowa lprzebiegizgodnie zpolityk ֒aoptymaln ֒adlapewnegomodelu,kt´oramo˙zenieby´cglobalnie optymalnadladanego´srodowiska. Pojawiasi֒etukompromispomi֒edzyeksploatacj ֒aposiadanejwiedzy aeksploracj ֒a´srodowiska.Agentniemo˙zezbytszybkozadowoli´csi֒e wyuczonymmodelem´srodowiska,iobliczon֒adlaniegooptymaln֒astrategi֒a. Powinienpr´obowa´cr´o˙znychmo˙zliwo´sci. Cowi֒ecej,musiwielokrotniepr´obowa´cwszystkichakcjiwewszystkichstanach, je´slichceunikn֒a´cmo˙zliwo´sci,˙zeprzypadkowapechowaseriauniemo˙zliwimu odkryciejakiego´sszczeg´olniedobregoruchu.Jednakwko´ncumusir´ownie˙z zacz֒a´cporusza´csi֒ezgodniezpolityk֒aoptymaln֒a,abydostroi´cj֒ado specyficznychdlaniej´scie˙zek. Uczeniesi֒ezewzmocnieniemeksploracja17

P o li ty k a e k sp lo ra c ji

Abypo l֒aczy´cskuteczn֒aeksploracj֒e´swiatazeksploatacj֒aposiadanejwiedzy agentpowinienposiada´cpolityk ֒eeksploracji.Maonazagwarantowa´c,˙ze agentb֒edzieonwstaniepozna´cwszystkieswojemo˙zliweakcjewstopniu wystarczaj֒acymdoobliczeniaswojejglobalnieoptymalnejpolitykidladanego ´srodowiska. Prost ֒apolityk ֒aeksploracjimog lobyby´cwykonywanieprzypadkowychakcjiwe wszystkichstanach,zpewnymustalonymprawdopodobie´nstwem, awpozosta lychprzypadkachwykonywanieakcjiuwa˙zanychzaoptymalne. Jesttopodej´sciepoprawne,leczwolnozbie˙zne.Lepiejby lobypreferowa´c eksploracj ֒eniezbytdobrzejeszczepoznanychparstan-akcja,jednocze´snie unikaj ֒aceksploracjiparznanychju˙zjakoniezbytkorzystne. Uczeniesi֒ezewzmocnieniemeksploracja18

F u n k c ja e k sp lo ra c ji

Sensown֒apolityk֒eeksploracjimo˙znazbudowa´cwprowadzaj֒acoptymistyczne oszacowaniau˙zyteczno´sciU+ (s): U+ (s)←R(s)+γmax af X sP(s |s,a)U+ (s ),N(a,s)

! gdzieN(a,s)jestliczb֒awcze´sniejdokonanychwybor´owakcjiawstanies, natomiastf(u,n)jestfunkcj ֒aeksploracji,wywa˙zaj ֒ac ֒apreferencjedlazysku (du˙zychwarto´sciu)iciekawo´sci(ma lychwarto´scin). Oczywi´sciefunkcjaeksploracjifpowinnaby´crosn ֒acazewzgl ֒edunau imalej֒acazewzgl֒edunan.Prostymprzyk lademfunkcjifmo˙zeby´c: f(u,n)= R+je´slin<Ne uwprzeciwnymwypadku gdzieR+oznaczaoptymistyczneoszacowanienajlepszejnagrodymo˙zliwejdo otrzymaniawkt´orymkolwiekzestan´ow,aNejestminimaln ֒aliczb ֒apr´obka˙zdej parystan-akcja,jak֒aagentb֒edziesi֒estara lwykona´c. Uczeniesi֒ezewzmocnieniemeksploracja19 Fakt,˙zewewzorzenaaktualizacj֒eU+ poprawejstroniewyst֒epujer´ownie˙zU+ jestistotny.Poniewa˙zstanyiakcjewok´o lstanupocz ֒atkowegob ֒ed ֒a wykonywanewielerazy,gdybyagentzastosowa lnieoptymistyczneobliczanie u˙zyteczno´sci,m´og lbyzacz ֒a´cunika´ctychstan´ow,iwkonsekwencjizniech ֒eci´csi ֒e dowypuszczaniasi֒e ”dalej”.U˙zyciewarto´sciU+oznacza,˙zeoptymistyczne warto´scigenerowanedlanowoeksplorowanychregion´owb֒ed֒apropagowane wstecz,dzi֒ekiczemuakcjeprowadz֒acedonieznanychjeszczeregion´owb֒ed֒a szacowanewysoko,itymsamympreferowane. Uczeniesi֒ezewzmocnieniemeksploracja20

(6)

0.6

0.81

1.2

1.4

1.6

1.82

2.2 020406080100

Utility estimates

Number of trials

(1,1) (1,2) (1,3) (2,3) (3,2) (3,3) (4,3) 0

0.2

0.4

0.6

0.81

1.2

1.4 020406080100

RMS error, policy loss

Number of trials

RMS error Policy loss Nalewymwykresiewida´cprzebieguczeniasi ֒eagentazeksploracj ֒a.Polityka bliskaoptymalnejzosta laosi ֒agni ֒etapo18przebiegach.Zauwa˙zmy,˙zewarto´sci u˙zyteczno´scizbiegaj֒asi֒ewolniej(RMSerror)ni˙zzostajewyznaczonaoptymalna polityka(policyloss). Uczeniesi֒ezewzmocnieniemeksploracja21

A k ty w n e u c z e n ie si

֒

e r´o ˙zn ic c z a so w y c h

Metod֒er´o˙znicczasowychmo˙znar´ownie˙zzastosowa´cdouczeniasi֒eaktywnego. Agentmo˙zenieposiada´custalonejpolityki,inadaloblicza´cu˙zyteczno´sci stan´owwykorzystuj֒actensamwz´orcowprzypadkupasywnym: Uπ (s)←Uπ (s)+α(R(s)+γUπ (s )−Uπ (s)) Dzi֒ekiobliczanymu˙zyteczno´sciomagentmo˙zewyznacza´cw la´sciweakcje wka˙zdymstaniekorzystaj ֒aczu˙zyteczno´scistan´ows ֒asiednich.Mo˙znawykaza´c, ˙zeaktywnyagentTDosi ֒agnietesamewynikowewarto´sciu˙zyteczno´scico aktywnyagentADP. Uczeniesi֒ezewzmocnieniemTD-learning22

M e to d a Q- le a rn in g

Alternatywn֒adopoprzedniegowzorumetod֒auczeniasi֒er´o˙znicczasowychjest metodaQ-learning,kt´orazamiastu˙zyteczno´sciuczysi ֒ereprezentacji akcja-warto´s´cwpostacifunkcjiQ(s,a).Tafunkcjawyra˙zawarto´s´cwykonania akcjiawstanies,ijestzwi ֒azanazu˙zyteczno´sciamistan´owwzorem: U(s)=max aQ(s,a) Docelowewarto´sciQspe lniaj ֒ar´ownanie: Q(s,a)=R(s)+γX sP(s |s,a)max aQ(s ,a ) Powy˙zszywz´orm´og lbyby´cwykorzystywanywprocesieiteracyjnymjakowz´or doaktualizacjiwarto´sciQ.Wymaga lobytojednakjednoczesnegouczeniasi ֒e warto´sciQimodeluwpostacifunkcjiP,kt´orawyst ֒epujewewzorze. Uczeniesi֒ezewzmocnieniemQ-learning23

Q- le a rn in g — a k tu a li z a c ja m e to d

֒

a r´o ˙zn ic c z a so w y c h

Mo˙zliwajestr´ownie˙zaktualizacjalokalnafunkcjiQb֒ed֒acawariantemmetody r´o˙znicczasowychiwyra˙zonaponi˙zszymwzoremaktualizacyjnym,obliczanym ilekro´cakcjaajestwykonywanawstaniesprowadz֒acdostanuwynikowegos : Q(s,a)←Q(s,a)+α(R(s)+γmax aQ(s ,a )−Q(s,a)) AlgorytmQ-learningzmetod֒ar´o˙znicczasowychzbiegasi֒edorozwi֒azania znaczniewolniejni˙zalgorytmADP,poniewa˙zniewymuszaobliczeniape lnej sp´ojno´scimodelu(kt´oregonietworzy). Uczeniesi֒ezewzmocnieniemQ-learning24

(7)

P e ln y a lg o ry tm Q- le a rn in g z e k sp lo ra c j

֒

a

Wog´olno´sciaktywnyagentucz֒acysi֒emetod֒aQ-learningwymagazastosowania eksploracjitaksamojakwprzypadkumetodyADP.St֒adwalgorytmie wyst֒epujefunkcjaeksploracjifitablicacz֒esto´sciwyst֒epowaniaakcjiN.Przy zastosowaniuprostszejpolitykieksploracji(np.wykonywanieokre´slonejproporcji ruch´owlosowych)tablicaNmo˙zenieby´cpotrzebna. Uczeniesi֒ezewzmocnieniemQ-learning25

S A RS A — S ta te -A c ti o n -Re w a rd -S ta te -A c ti o n

IstniejepewienwariantalgorytmuQ-learningzaktualizacj֒ametod֒ar´o˙znic czasowychzwanySARSA(State-Action-Reward-State-Action): Q(s,a)←Q(s,a)+α(R(s)+γQ(s ,a )−Q(s,a)) WSARSAaktualizacjabierzepoduwag֒epi֒e´cczynnik´ow:s,a,r,s ,a .Oile algorytmQ-learningaktualizujenapodstawienajlepszejakcjiwybranejdlastanu osi ֒agni ֒etegoprzezakcj ֒ea,SARSAbierzepoduwag ֒etojakaakcjazosta la wrzeczywisto´sciwybrana.Zatemnp.dlazach lannegoagentarealizuj ֒acego wy l֒acznieeksploatacj֒etedwiemetodyby lybyidentyczne. Jednakwprzypadkuuczeniasi֒ezeksploracj֒ar´o˙znicajestistotna.Metoda Q-learningjestmetod֒auczeniasi֒epozapolityk֒a(off-policy),obliczaj֒ac֒a najlepszemo˙zliwewarto´sciQ,niezale˙znieodtegogdzieprowadzinas realizowanapolityka.NatomiastSARSAjestmetod ֒awpolityce(on-policy), odpowiedni֒adlaagentaporuszaj֒acegosi֒ezgodniezposiadan֒apolityk֒a. Uczeniesi֒ezewzmocnieniemSARSA26

Q-learningjestbardziejelastycznymalgorytmem,poniewa˙zpozwalaagentowi uczy´csi֒ew la´sciwegozachowaniasi֒enawetje´sliwykonujeonaktualniepolityk֒e niezgodn ֒azwyuczanymiwzorcami.NatomiastSARSAjestbardziejrealistyczna, poniewa˙znaprzyk lad,gdybyagentniem´og lw100%kontrolowa´cswojej polityki,tolepiejmuuczy´csi ֒ewzorc´owzgodnychztymcorzeczywi´scieb ֒edzie si֒eznimdzia lo,zamiastuczy´csi֒ezgodnieznajlepszymidlaagentawzorcami. Zar´ownoQ-learningjakiSARSAs ֒awstanienauczy´csi ֒eoptymalnejpolitykidla przyk ladowego´srodowiska4x3,jednakwolniejni˙zADP(wsensieliczbyiteracji). Wynikatozfaktu,˙zelokalnepoprawkiniewymuszaj֒asp´ojno´scica lejfunkcjiQ. Por´ownuj֒actemetodymo˙znaspojrze´cszerzejizada´csobiepytanie,czy lepszympodej´sciemjestuczeniesi ֒emodelu´srodowiskaifunkcjiu˙zyteczno´sci, czybezpo´sredniewyznaczanieodwzorowaniastan´owdoakcjibezogl ֒adaniasi ֒e namodel´srodowiska. Jesttowrzeczywisto´scijednozfundamentalnychpyta´njakbudowa´csztuczn֒a inteligencj ֒e.Przezwielelatpocz ֒atkowegorozwojutejdziedzinywiedzy dominowa lparadygmatsystem´owopartychnawiedzy(knowledge-based), postuluj֒acychkonieczno´s´cbudowymodelideklaratywnych.Fakt,˙zepowstaj֒a metodybezmodelowetakiejakQ-learningsugeruje,˙zeby´cmo˙zeby loto niepotrzebne.Jednakdlaniekt´orychbardziejz lo˙zonychzagadnie´npodej´scie zmodelemsprawdzasi֒elepiej,zatemkwestiapozostajenierozstrzygni֒eta. Uczeniesi֒ezewzmocnieniemSARSA27 Uczeniesi֒ezewzmocnieniemSARSA28

(8)

U o g ´o ln ia n ie w u c z e n iu si

֒

e z e w z m o c n ie n ie m

Om´owionepowy˙zejalgorytmyuczeniasi֒ezewzmocnieniemzak ladaj֒ajawn֒a reprezentacj ֒efunkcjiU(s)lubQ(s)tak ֒ajaknp.reprezentacjatablicowa.Mo˙ze toby´cpraktycznetylkodopewnejwielko´scizagadnienia. Naprzyk lad,dlazagadnie´nobardzodu˙zejliczbiestan´ow(np.≫1020dlagier takichjakszachylubbackgammon),trudnowyobrazi´csobiewykonanie wystarczaj֒acejliczbyprzebieg´owucz֒acychabyodwiedzi´cka˙zdystanwielerazy. Koniecznejestzastosowaniejakiej´smetodygeneralizacji(uog´olniania),kt´ora pozwoli labygenerowa´cskuteczn ֒apolityk ֒enapodstawiema lejcz ֒e´sci przebadanejprzestrzenistan´ow. Uczeniesi֒ezewzmocnieniemuog´olnianie29 Uczeniesi֒ezewzmocnieniemuog´olnianie30

A p ro k sy m a c ja fu n k c ji

Jedn ֒aztakichmetodjestaproksymacjafunkcji,polegaj ֒acanazapisie badanejfunkcji(np.U)wpostacinietablicowej,np.wyra˙zeniujejjak ֒a´sformu l ֒a sko´nczon ֒a.Podobniejakwkonstrukcjifunkcjiheurystycznych,mo˙zna zastosowa´cliniow֒akombinacj֒ejakich´scechstanu(zwanychr´ownie˙zatrybutami stanu):

ˆ U+..+)(sffθ)θ(s(sf)θ=)(s.+nnθ2112 tozy lbysiewekspraw´o lczynnik´owuciemaenAlgorytuczenimsiezewzmocni ֒֒ ˆ Ucjbyfunkyaocentak<>,θ..,.,θθ=θn21θ

przybli˙za lamo˙zliwiedobrze rzeczywist֒afunkcj֒eu˙zyteczno´scistan´ow. Podej´scietonazywasi֒eaproksymacj֒afunkcji,poniewa˙zniemapewno´sci,˙ze rzeczywist ֒afunkcj ֒eocenydasi ֒ewyrazi´ctegotypuformu l ֒a.Jakkolwiekwydaje si ֒ew ֒atpliwebynp.optymaln ֒apolityk ֒edlagrywszachyda losi ֒ewyrazi´cfunkcj ֒a zkilkunastomawsp´o lczynnikami,tojestzupe lniemo˙zliwebyosi֒agn֒a´cwten spos´obdobrypoziomgry. Uczeniesi֒ezewzmocnieniemaproksymacjafunkcji31 Istot֒apodej´sciajestjednaknieprzybli˙zeniemniejsz֒aliczb֒awsp´o lczynnik´ow funkcji,kt´orawrzeczywisto´sciby´cmo˙zewymagaichwielokrotniewi֒ecej,ale uog´olnianie,czyligenerowaniepolitykidlawszystkichstan´ownapodstawie analizyma lejichcz֒e´sci. Np.weksperymentachprzeprowadzonychzgr ֒abackgammon,uda losi ֒enauczy´c graczapoziomugrypor´ownywalnegozludzkiminapodstawiepr´ob analizuj֒acychjedenna1012stan´ow. Oczywi´scie,sukcesuczeniasi֒ezewzmocnieniemwtakichprzypadkachzale˙zy odtrafnegowybraniafunkcjiaproksymuj֒acej.Je´sli˙zadnakombinacjawybranych cechniemo˙zeda´cdobrejstrategiigry,to˙zadnametodauczeniajejnie wygeneruje.Zkolei,wybraniebardzorozbudowanejfunkcjizdu˙z ֒aliczb ֒acech iwsp´o lczynnik´owzwi֒ekszaszansenasukces,alekosztemwolniejszejzbie˙zno´sci izarazemwolniejszegoprocesuuczenia. Uczeniesi֒ezewzmocnieniemaproksymacjafunkcji32

(9)

K o re k ta p a ra m e tr ´o w fu n k c ji

Abyumo˙zliwi´cuczeniesi֒enabie˙z֒aco(on-linelearning)niezb֒ednajestjaka´s metodakorektyparametr´ownapodstawiewarto´sciwzmocnie´notrzymywanych poka˙zdymprzebiegu(albopoka˙zdymkroku). Naprzyk lad,je´sliuj(s)jestwarto´sci ֒apozosta lejnagrodydlastanuswj-tym przebieguucz֒acym,tob l֒adaproksymacjifunkcjiu˙zyteczno´scimo˙znaoblicza´c jako: Ej=(ˆ Uθ(s)−uj(s))2 2 Dynamikazmianytegob l ֒eduzewzgl ֒edunaparametrθijestokre´slonajako ∂Ej/∂θi,zatemabyskorygowa´ctenparametrwkierunkuzmniejszeniab l ֒edu, w la´sciw ֒aformu l ֒anapoprawk ֒ejest: θi←θi−α∂Ej(s) ∂θii+α(uj(s)−ˆ Uθ(s))∂ˆ Uθ(s) ∂θi Powy˙zszywz´orzwanyjestregu l ֒aWidrow’a-Hoff’aalboregu l ֒adelta. Uczeniesi֒ezewzmocnieniemaproksymacjafunkcji33

Pr z y k la d

Naprzyk lad,dla´srodowiska4x3funkcjau˙zyteczno´scistan´owmog labyby´c aproksymowanaliniow ֒akombinacj ֒awsp´o lrz ֒ednych:

ˆ Uθ(x,y)=θy+θx+θ210 dazrateazeedz:baltdezga lgurezneodprkiwraopPne֒֒֒ ˆ U(u))(s−(s)α+θ←θj0θ0 ˆ U(sx(s−)))(uα+θ←θj1θ1 ˆ Uθ(sθ←+α(uy(s)−))2θj2 0.=<0.5,0.2,y1>otrzymujem,θ><,θk lyjmujacprzyadPowoθ=θrz120֒ ˆ UiuipowJeonanoprzebieguuczaceg´slyk8.zy0.pocatkoweprzbl)i˙z=,1ie(1enθ֒֒ yscztkiewsp´o lθynnikiθ,,θwsztolic.liby´s72mynpuzyob(1,1)=0.201j uyb ldlastany l(1,1).Oczywi´scie,obadszneejzoa lybyobni˙zosto08α,cozmni0.֒ ˆ Uto(s),costisg´otauolniania.cjajenkiefuwtespos´obzmnni labysieca laθ֒֒ proksymakccjafunji3aemieniecnozmwzesiieenczU4֒

Z a st o so w a n ie r´o ˙zn ic c z a so w y c h

Mo˙znar´ownie˙zrealizowa´cpoprawkimetod֒ar´o˙znicczasowych. θi←θi+α[R(s)+γˆ Uθ(s )−ˆ Uθ(s)]∂ˆ Uθ(s) ∂θi θi←θi+α[R(s)+γmax a

ˆ Qˆ Q(s,a)−(s,a)]θθ

ˆ Q(s,a)θ ∂θi aproksymncjafukcji3aiemiencnozmwzeesiieenczU5֒

Cytaty

Powiązane dokumenty

- numer, datę i miejsce zebrania oraz numery podjętych uchwał, - stwierdzenie prawomocności zebrania, tzw.. Protokoły numeruje się cyframi arabskimi, zaczynając i kończąc

sprawdzenia poprawności działania urządzen w roznych trybach pracy, sprawdzen ie działan ia urządzeń sterujących,. pomiar parametrow

W przypadku oferty wspólnego nabycia prawa własności w razie niestawienia się któregokolwiek z Nabywców do podpisania umowy przedwstępnej lub umowy przenoszącej

Etap ten jest dosyć skomplikowany, ponieważ wymaga bardzo szczegółowej analizy konkretnego procesu spedycyjnego pod względem ryzyka związanego z innymi zdarzeniami;.. - pom

udając się na łow iska M orza Północnego w pełnej gotowości technicznej.. potrzeb rem

Na przełomie grudnia i stycznia mieszkańcy Dziećkowic będą mogli się podłączyć do kanalizacji.. Cena za odprow adzenie ścieków do miejskiej kanalizacji ma być

T proletariackie, aby mogły one 'v 5Wym zwartym szyku wcielić bojo- rewolucyjne tradycje i cele klasy Robotniczej, jako całości.. W przeciwstawieniu do innych

Kolosalna stołówka rwlect