U c z e n ie si
֒e z e w z m o c n ie n ie m
Wwieludziedzinachtrudnojestsformu lowa´cprecyzyjnefunkcjeoceny, pozwalaj֒aceagentowioceni´cskuteczno´s´c,lubpoprawno´s´cjegoakcji, zwyj֒atkiemgdyosi֒agnieonstandocelowy.Zak ladamy,˙zewstaniedocelowym agentzza lo˙zeniazawszeotrzymujeobiektywn֒aocen֒eswoichdzia la´n,zwan֒a nagrod ֒alubwzmocnieniem.Wygodniejestsformu lowa´czadanieagenta wtakispos´ob,abymusia lonsamnauczy´csi ֒etakdzia la´c,abymaksymalizowa´c t ֒enagrod ֒e(wzmocnienie).Nazywamytozagadnieniemuczeniasi ֒eze wzmocnieniem(reinforcementlearning,RL). Jesttozadanietrudne.Wog´olnymprzypadkuagentmo˙zeniemie´cpe lnej informacjioswoim´srodowisku,jakr´ownie˙zprecyzyjnego(albo˙zadnego)opisu swoichdzia la´niichskutk´ow.Jegosytuacj ֒emo˙znarozumie´cjakojednoze sformu lowa´npe lnegozadaniasztucznejinteligencji.Agentzostajeumieszczony w´srodowisku,kt´oregoniezna,imusisi֒enauczy´cskuteczniewnimdzia la´c,aby maksymalizowa´cpewnekryterium,dost֒epnemuwpostaciwzmocnie´n. B֒edziemyrozwa˙zaliprobabilistycznymodelskutk´owakcjiagenta.M´owi֒ac dok ladniej,b ֒edziemyzak ladali,˙zepodstawowezagadnieniejestdyskretnym procesemMarkowa(MDP),jednakagentnieznajegoparametr´ow. Uczeniesi֒ezewzmocnieniem—wst֒ep1 Uczeniesi֒ezewzmocnieniem—wst֒ep2P a sy w n e u c z e n ie si
֒e z e w z m o c n ie n ie m
Napocz֒atekrozwa˙zymyuczeniesi ֒epasywne,gdziezak ladamy,˙zepolityka agentaπ(s)jestzg´oryustalona.Agentniepodejmuje˙zadnychdecyzji,musi robi´ctocodyktujemupolityka,awynikijegoakcjis֒aprobabilistyczne.Jednak mo˙zeobserwowa´ccosi֒edzieje,czyliwiedojakichstan´owdocieraijakie otrzymujewnichnagrody.Pami ֒etajmyjednak,˙zenagrodyotrzymywane wstanachnieterminalnychnies ֒adlaagentaistotnymkryterium—liczysi ֒e tylkosumanagr´odotrzymanychnadrodzedostanuterminalnego,zwana wzmocnieniem. Zadaniemagentajestnauczeniesi֒ewarto´sciu˙zyteczno´scistan´owUπ(s), obliczanychzgodniezr´ownaniem: Uπ (s)=E" ∞X t=0γt R(st)# Wrozpatrywanymtuprzyk ladowymzagadnieniu4x3b ֒edziemyprzyjmowa´c γ=1. Uczeniesi֒ezewzmocnieniem—pasywne3Pr z e b ie g i u c z
֒a c e
Przypomnijmyrozwa˙zanywcze´sniejprzyk ladagentaw´swiecie4×3: 1234+ 1 − 12 13 1231
2
3 –1
+ 1 4
0.611
0.812 0.655
0.762
0.918 0.705
0.660
0.868 0.388 Agentwykonujeprzebiegiucz ֒ace(ang.trials)wkt´orychwykonujeakcje zgodnezposiadan ֒apolityk ֒a,a˙zdoosi ֒agni ֒eciastanuterminalnego.Wka˙zdym krokuotrzymujeperceptwskazuj ֒acyzar´ownobie˙z ֒acystan,jakinagrod ֒e. Przyk ladoweprzebiegi: (1,1)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(2,3)−0.04❀(3,3)−0.04❀(4,3) +
1 (1,1)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(2,3)−0.04❀(3,3)−0.04❀(3,2)−0.04❀(3,3)−0.04❀(4,3) +
1 (1,1)−0.04❀(2,1)−0.04❀(3,1)−0.04❀(3,2)−0.04❀(4,2)−1 Uczeniesi֒ezewzmocnieniem—pasywne4
Ob li c z a n ie u ˙zy te c z n o ´s c i m e to d
֒a b e z p o ´s re d n i
֒a
Celemdzia laniaagentajestobliczenieu˙zyteczno´scistan´owUπ (s)zwi֒azanych zposiadan֒apolityk֒aπ(s).U˙zyteczno´scistan´owzdefiniowanes֒ajakowarto´sci oczekiwanesumynagr´od(dyskontowanych)otrzymanychprzezagenta startuj ֒acegozdanegostanu,iporuszaj ֒acegosi ֒ezgodniezeswoj ֒apolityk ֒a: Uπ (s)=E" ∞X t=0γt R(st)# Agentmo˙zenauczy´csi֒eu˙zyteczno´sciobliczaj֒actzw.nagrod ֒epozosta l ֒a (reward-to-go)wka˙zdymstanie.Nakoniecprzebieguagentobliczanagrod֒e pozosta l֒awstanieko´ncowymjakonagrod֒eotrzyman֒awtymstanie.Nast֒epnie, cofaj֒acsi֒ewzd lu˙zswojejdrogi,obliczanagrodypozosta ledlawcze´sniejszych stan´owjakosumynagr´odotrzymanychnako´ncowymodcinkuprzebiegu. Naprzyk lad,dlaprzebiegu: (1,1)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(2,3)−0.04❀(3,3)−0.04❀(4,3) +1 otrzymujemyRtg(4,3)=1,Rtg(3,3)=0.96,Rtg(2,3)=0.92,Rtg(1,3)= 0.88,Rtg(1,2)=0.84,Rtg(1,3)=0.80,Rtg(1,2)=0.76,Rtg(1,1)=0.72 Uczeniesi֒ezewzmocnieniem—pasywne5 Posiadaj֒acwielepr´obek(przebieg´ow)agentmo˙zeprzezprosteu´srednianie okre´sli´ckolejneprzybli˙zeniawarto´scioczekiwaneju˙zyteczno´scistan´ow,kt´ore wniesko´nczono´scizbiegaj֒asi֒edow la´sciwychwarto´scioczekiwanych. Topodej´sciejestpoprawne,leczniezbytefektywne—wymagadu˙zejliczby przebieg´ow.Przedstawionametodaokre´slaniau˙zyteczno´sci,stosuj֒acproste u´srednianieu˙zyteczno´scistan´ow,pomijawa˙zn֒aw lasno´s´cproces´owMarkowa, tzn.,˙zeu˙zyteczno´scistan´ows֒azwi֒azanezu˙zyteczno´sciamistan´ows֒asiednich. (1,1)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(2,3)−0.04❀(3,3)−0.04❀(4,3) +
1 (1,1)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(2,3)−0.04❀(3,3)−0.04❀(3,2)−0.04❀(3,3)−0.04❀(4,3) +
1 (1,1)−0.04❀(2,1)−0.04❀(3,1)−0.04❀(3,2)−0.04❀(4,2)−1 Naprzyk lad,wdrugimprzebieguzpowy˙zszegoprzyk ladualgorytmokre´sla u˙zyteczno´s´cstanu(3,2)jakopozosta l֒anagrod֒eztegoprzebiegu,ignoruj֒ac fakt,˙zekolejnymstanemwtymprzebiegujeststan(3,3),kt´orymawysok֒a (iju˙zznan֒a)u˙zyteczno´s´c.R´ownanieBellmanapozwalazwi֒aza´cu˙zyteczno´sci nast֒epuj֒acychposobiestan´ow,lecztopodej´scieniepotrafiichwykorzysta´c. Uczeniesi֒ezewzmocnieniem—pasywne6
A d a p ta c y jn e p ro g ra m o w a n ie d y n a m ic z n e
Adaptacyjnymprogramowaniemdynamicznym(ADP)nazywamyproces podobnydoprogramowaniadynamicznegowpo l֒aczeniuzuczeniemsi֒emodelu ´srodowiska,czylifunkcjiprzej´s´cstan´ow,ifunkcjinagrody.Polegaonona zliczaniuprzej´s´codparystan-akcjadonast֒epnejakcji.Przebiegiucz֒ace dostarczaj ֒anamseriiucz ֒acejtakichprzej´s´c.Agentmo˙zeokre´sla´cich prawdopodobie´nstwajakoichcz ֒estotliwo´sciwyst ֒epuj ֒acewprzebiegach. Naprzyk lad,wpodanychwcze´sniejprzebiegach,wstanie(1,3)trzyrazy wykonanazosta laakcja→(Right),poczymdwarazywynikowymstanem by l(2,3).Zatemagentpowinienokre´sli´cP((2,3)|(1,3),Right)=2 3. (1,1)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(2,3)−0.04❀(3,3)−0.04❀(4,3) +1 (1,1)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(2,3)−0.04❀(3,3)−0.04❀(3,2)−0.04❀(3,3)−0.04❀(4,3) +
1 (1,1)−0.04❀(2,1)−0.04❀(3,1)−0.04❀(3,2)−0.04❀(4,2)−1 Powykonaniuka˙zdegokrokuagentaktualizujeu˙zyteczno´scistan´owrozwi֒azuj֒ac r´ownanieBellmana(uproszczone)jednymzw la´sciwychalgorytm´ow.R´ownanie jestuproszczone,poniewa˙zznamytylkorozk ladyskutk´owakcjinale˙z ֒acychdo polityki,iniemo˙zemyoblicza´cnajlepszejakcjiwka˙zdymstanie.Poniewa˙z chcemyobliczy´cUπtobierzemyw la´snieteakcje. Uczeniesi֒ezewzmocnieniem—metodaADP7
A d a p ta c y jn e p ro g ra m o w a n ie d y n a m ic z n e — a lg o ry tm
Uczeniesi֒ezewzmocnieniem—metodaADP8A d a p ta c y jn e p ro g ra m o w a n ie d y n a m ic z n e — e fe k ty w n o ´s´ c
AlgorytmADPaktualizujewarto´sciu˙zyteczno´scinajlepiejjaktojestmo˙zliwe, istanowiwtymwzgl ֒edziestandarddopor´owna´ndlainnychalgorytm´ow. Jednakproceduraobliczaniau˙zyteczno´sciprzezrozwi֒azywanieuk ladur´owna´n (liniowych)mo˙zeby´cniewykonalnadlawieluzmiennych(np.1050 r´owna´n z1050 niewiadomymidlagrybackgammon). 00.2
0.4
0.6
0.81 020406080100
Utility estimates
Number of trials
(1,1)
(1,3) (3,2)
(3,3)(4,3) 0
0.1
0.2
0.3
0.4
0.5
0.6 020406080100
RMS error in utility
Number of trials Powy˙zszewykresyilustruj֒azbie˙zno´s´cdlaprzyk ladowegouczeniaw´srodowisku 4×3.Nale˙zydoda´c,˙zewtymprzyk ladzieprzebiegko´ncz ֒acysi ֒ew ”z lym” stanieterminalnympojawiasi ֒eporazpierwszywprzebiegu78-ym,coskutkuje skokow֒aaktualizacj֒aniekt´orychu˙zyteczno´sci. Uczeniesi֒ezewzmocnieniem—metodaADP9 Uczeniesi֒ezewzmocnieniem—metodaADP10
M e to d a r´o ˙zn ic c z a so w y c h
Zamiastka˙zdorazoworozwi ֒azywa´cpe lenuk ladr´owna´nzewzgl ֒edunawarto´sci u˙zyteczno´sci,mo˙znaaktualizowa´ctewarto´sciaktualnieobserwowanymi warto´sciamiwzmocnie´n.Takfunkcjonuj֒acyalgorytmnazywasi֒emetod֒ar´o˙znic czasowychTD(temporaldifferencelearning): Uπ (s)←Uπ (s)+α(R(s)+γUπ (s′ )−Uπ (s)) Wtymprzypadkuaktualizujemyu˙zyteczno´s´cpoprawk֒aobliczan֒anapodstawie jednegozaobserwowanegoprzej´sciastan´ow,aniewarto´scioczekiwanej wszystkichprzej´s´c.Dlategote˙zpoprawk֒e—r´o˙znic֒epomi֒edzyu˙zyteczno´sci֒a ruchuau˙zyteczno´sci֒astanu—bierzemyzredukowan֒awsp´o lczynnikiemα<1. Powodujetowprowadzaniema lychpoprawekpoka˙zdymruchu.Jednocze´snie poprawkazmierzadozeragdyu˙zyteczno´s´cstanuzr´ownujesi ֒ezdyskontowan ֒a u˙zyteczno´sci ֒aruchu. Zauwa˙zmy,˙zetametodaniewymagaposiadaniamodelu´srodowiskaP(s′|s,a), anisamagonieoblicza. Uczeniesi֒ezewzmocnieniem—metodaTD11M e to d a r´o ˙zn ic c z a so w y c h — a lg o ry tm
Uczeniesi֒ezewzmocnieniem—metodaTD12Z b ie ˙zn o ´s´ c m e to d y r´o ˙zn ic c z a so w y c h
Istniejezwi֒azekipodobie´nstwopomi֒edzyalgorytmamiADPiTD.Oileten drugidokonujetylkolokalnychzmianwwarto´sciachu˙zyteczno´sci,toich´srednie warto´scizbiegaj ֒asi ֒edotychsamychwarto´scicodlaalgorytmuADP. Wprzypadkuuczeniawielomaprzyk ladamiprzej´s´c,cz֒estotliwo´sciwyst֒epowania stan´owzgadzaj֒asi֒ezrozk lademprawdopodobie´nstwichwyst֒epowaniaimo˙zna wykaza´c,˙zewarto´sciu˙zyteczno´scib֒ed֒asi֒ezbiega´cdopoprawnychwynik´ow. Wtymceluparametruczeniasi ֒eαpowinienzmniejsza´csi ֒ewrazze zwi֒ekszaniemsi֒eliczbyprzetworzonychprzebieg´ow.Dok ladniej,warto´scitego parametrupowinnyspe lnia´czale˙zno´s´c: ∞X n=1α(n)=∞ orazjednocze´snie: ∞X n=1α2 (n)<∞ Uczeniesi֒ezewzmocnieniem—metodaTD13 Zbie˙zno´s´cprzyk ladowegoprocesuuczeniadla´srodowiska4×3: 00.2
0.4
0.6
0.81 0100200300400500
Utility estimates
Number of trials
(1,1)
(1,3) (2,1)
(3,3)(4,3) 0
0.1
0.2
0.3
0.4
0.5
0.6 020406080100
RMS error in utility
Number of trials Uczeniesi֒ezewzmocnieniem—metodaTD14
A k ty w n e u c z e n ie si
֒e z e w z m o c n ie n ie m
Copowinienzrobi´cagent,kt´orynieposiadaustalonejpolityki,albokt´ory chcia lbyokre´sli´cpolityk ֒eoptymaln ֒a? Najpierwpowinienwyznaczy´ckompletnymodelprzej´s´cdlawszystkichakcji. Przedstawionywy˙zejalgorytmADPdajet֒emo˙zliwo´s´c.Nast֒epnienale˙zy wyznaczy´cpolityk֒eoptymaln֒a,spe lniaj֒ac֒aponi˙zszer´ownanieBellmana,jak wzwyk lymproblemiedecyzyjnymMarkowa: U(s)=R(s)+γmax aX s′P(s′ |s,a)U(s′ ) Agentmo˙zetozrobi´calgorytmemiteracjiwarto´scilubiteracjipolityki. Nast֒epnie,maj֒acwyznaczon֒aoptymaln֒apolityk֒edladanego´srodowiska,mo˙ze spokojnieprzej´s´cdojejrealizacji. Aleczypowinientakzrobi´c? Uczeniesi֒ezewzmocnieniem—aktywne15 0
0.51
1.52 050100150200250300350400450500
RMS error, policy loss
Number of trials
RMS error Policy loss 123
1
2
3 –1
+1 4 Wykrespolewejpokazujewynikuczeniasi ֒ewpewnymeksperymencie.Agent znalaz lbezpo´sredni֒adrog֒edorozwi֒azania[+1]wprzebiegunr39,leczby lato drogagorsza,wzd lu˙zstan´ow:(2,1),(3,1),(3,2),(3,3).Zdeterminowa lajednak przyj֒et֒aprzezagentapolityk֒eoptymaln֒apoprawej.Okazujesi֒e,˙zejestto sytuacjatypowa,agentzrzadkatylkoznajdujeoptymaln֒apolityk֒epreferuj֒ac֒a drog ֒ag´orn ֒a:(1,2),(1,3),(2,3),(3,3). Uczeniesi֒ezewzmocnieniem—aktywne16
E k sp lo ra c ja
Niestety,je´sliagentnienauczysi֒epoprawnegomodelu´srodowiskawswoich pocz ֒atkowychprzebiegach,tob ֒edzienast ֒epniegenerowa lprzebiegizgodnie zpolityk ֒aoptymaln ֒adlapewnegomodelu,kt´oramo˙zenieby´cglobalnie optymalnadladanego´srodowiska. Pojawiasi֒etukompromispomi֒edzyeksploatacj ֒aposiadanejwiedzy aeksploracj ֒a´srodowiska.Agentniemo˙zezbytszybkozadowoli´csi֒e wyuczonymmodelem´srodowiska,iobliczon֒adlaniegooptymaln֒astrategi֒a. Powinienpr´obowa´cr´o˙znychmo˙zliwo´sci. Cowi֒ecej,musiwielokrotniepr´obowa´cwszystkichakcjiwewszystkichstanach, je´slichceunikn֒a´cmo˙zliwo´sci,˙zeprzypadkowapechowaseriauniemo˙zliwimu odkryciejakiego´sszczeg´olniedobregoruchu.Jednakwko´ncumusir´ownie˙z zacz֒a´cporusza´csi֒ezgodniezpolityk֒aoptymaln֒a,abydostroi´cj֒ado specyficznychdlaniej´scie˙zek. Uczeniesi֒ezewzmocnieniem—eksploracja17P o li ty k a e k sp lo ra c ji
Abypo l֒aczy´cskuteczn֒aeksploracj֒e´swiatazeksploatacj֒aposiadanejwiedzy agentpowinienposiada´cpolityk ֒eeksploracji.Maonazagwarantowa´c,˙ze agentb֒edzieonwstaniepozna´cwszystkieswojemo˙zliweakcjewstopniu wystarczaj֒acymdoobliczeniaswojejglobalnieoptymalnejpolitykidladanego ´srodowiska. Prost ֒apolityk ֒aeksploracjimog lobyby´cwykonywanieprzypadkowychakcjiwe wszystkichstanach,zpewnymustalonymprawdopodobie´nstwem, awpozosta lychprzypadkachwykonywanieakcjiuwa˙zanychzaoptymalne. Jesttopodej´sciepoprawne,leczwolnozbie˙zne.Lepiejby lobypreferowa´c eksploracj ֒eniezbytdobrzejeszczepoznanychparstan-akcja,jednocze´snie unikaj ֒aceksploracjiparznanychju˙zjakoniezbytkorzystne. Uczeniesi֒ezewzmocnieniem—eksploracja18F u n k c ja e k sp lo ra c ji
Sensown֒apolityk֒eeksploracjimo˙znazbudowa´cwprowadzaj֒acoptymistyczne oszacowaniau˙zyteczno´sciU+ (s): U+ (s)←R(s)+γmax af X s′P(s′ |s,a)U+ (s′ ),N(a,s)! gdzieN(a,s)jestliczb֒awcze´sniejdokonanychwybor´owakcjiawstanies, natomiastf(u,n)jestfunkcj ֒aeksploracji,wywa˙zaj ֒ac ֒apreferencjedlazysku (du˙zychwarto´sciu)iciekawo´sci(ma lychwarto´scin). Oczywi´sciefunkcjaeksploracjifpowinnaby´crosn ֒acazewzgl ֒edunau imalej֒acazewzgl֒edunan.Prostymprzyk lademfunkcjifmo˙zeby´c: f(u,n)= R+je´slin<Ne uwprzeciwnymwypadku gdzieR+oznaczaoptymistyczneoszacowanienajlepszejnagrodymo˙zliwejdo otrzymaniawkt´orymkolwiekzestan´ow,aNejestminimaln ֒aliczb ֒apr´obka˙zdej parystan-akcja,jak֒aagentb֒edziesi֒estara lwykona´c. Uczeniesi֒ezewzmocnieniem—eksploracja19 Fakt,˙zewewzorzenaaktualizacj֒eU+ poprawejstroniewyst֒epujer´ownie˙zU+ jestistotny.Poniewa˙zstanyiakcjewok´o lstanupocz ֒atkowegob ֒ed ֒a wykonywanewielerazy,gdybyagentzastosowa lnieoptymistyczneobliczanie u˙zyteczno´sci,m´og lbyzacz ֒a´cunika´ctychstan´ow,iwkonsekwencjizniech ֒eci´csi ֒e dowypuszczaniasi֒e ”dalej”.U˙zyciewarto´sciU+oznacza,˙zeoptymistyczne warto´scigenerowanedlanowoeksplorowanychregion´owb֒ed֒apropagowane wstecz,dzi֒ekiczemuakcjeprowadz֒acedonieznanychjeszczeregion´owb֒ed֒a szacowanewysoko,itymsamympreferowane. Uczeniesi֒ezewzmocnieniem—eksploracja20
0.6
0.81
1.2
1.4
1.6
1.82
2.2 020406080100
Utility estimates
Number of trials
(1,1) (1,2) (1,3) (2,3) (3,2) (3,3) (4,3) 0
0.2
0.4
0.6
0.81
1.2
1.4 020406080100
RMS error, policy loss
Number of trials
RMS error Policy loss Nalewymwykresiewida´cprzebieguczeniasi ֒eagentazeksploracj ֒a.Polityka bliskaoptymalnejzosta laosi ֒agni ֒etapo18przebiegach.Zauwa˙zmy,˙zewarto´sci u˙zyteczno´scizbiegaj֒asi֒ewolniej(RMSerror)ni˙zzostajewyznaczonaoptymalna polityka(policyloss). Uczeniesi֒ezewzmocnieniem—eksploracja21
A k ty w n e u c z e n ie si
֒e r´o ˙zn ic c z a so w y c h
Metod֒er´o˙znicczasowychmo˙znar´ownie˙zzastosowa´cdouczeniasi֒eaktywnego. Agentmo˙zenieposiada´custalonejpolityki,inadaloblicza´cu˙zyteczno´sci stan´owwykorzystuj֒actensamwz´orcowprzypadkupasywnym: Uπ (s)←Uπ (s)+α(R(s)+γUπ (s′ )−Uπ (s)) Dzi֒ekiobliczanymu˙zyteczno´sciomagentmo˙zewyznacza´cw la´sciweakcje wka˙zdymstaniekorzystaj ֒aczu˙zyteczno´scistan´ows ֒asiednich.Mo˙znawykaza´c, ˙zeaktywnyagentTDosi ֒agnietesamewynikowewarto´sciu˙zyteczno´scico aktywnyagentADP. Uczeniesi֒ezewzmocnieniem—TD-learning22M e to d a Q- le a rn in g
Alternatywn֒adopoprzedniegowzorumetod֒auczeniasi֒er´o˙znicczasowychjest metodaQ-learning,kt´orazamiastu˙zyteczno´sciuczysi ֒ereprezentacji akcja-warto´s´cwpostacifunkcjiQ(s,a).Tafunkcjawyra˙zawarto´s´cwykonania akcjiawstanies,ijestzwi ֒azanazu˙zyteczno´sciamistan´owwzorem: U(s)=max aQ(s,a) Docelowewarto´sciQspe lniaj ֒ar´ownanie: Q(s,a)=R(s)+γX s′P(s′ |s,a)max a′Q(s′ ,a′ ) Powy˙zszywz´orm´og lbyby´cwykorzystywanywprocesieiteracyjnymjakowz´or doaktualizacjiwarto´sciQ.Wymaga lobytojednakjednoczesnegouczeniasi ֒e warto´sciQimodeluwpostacifunkcjiP,kt´orawyst ֒epujewewzorze. Uczeniesi֒ezewzmocnieniem—Q-learning23Q- le a rn in g — a k tu a li z a c ja m e to d
֒a r´o ˙zn ic c z a so w y c h
Mo˙zliwajestr´ownie˙zaktualizacjalokalnafunkcjiQb֒ed֒acawariantemmetody r´o˙znicczasowychiwyra˙zonaponi˙zszymwzoremaktualizacyjnym,obliczanym ilekro´cakcjaajestwykonywanawstaniesprowadz֒acdostanuwynikowegos′ : Q(s,a)←Q(s,a)+α(R(s)+γmax a′Q(s′ ,a′ )−Q(s,a)) AlgorytmQ-learningzmetod֒ar´o˙znicczasowychzbiegasi֒edorozwi֒azania znaczniewolniejni˙zalgorytmADP,poniewa˙zniewymuszaobliczeniape lnej sp´ojno´scimodelu(kt´oregonietworzy). Uczeniesi֒ezewzmocnieniem—Q-learning24P e ln y a lg o ry tm Q- le a rn in g z e k sp lo ra c j
֒a
Wog´olno´sciaktywnyagentucz֒acysi֒emetod֒aQ-learningwymagazastosowania eksploracjitaksamojakwprzypadkumetodyADP.St֒adwalgorytmie wyst֒epujefunkcjaeksploracjifitablicacz֒esto´sciwyst֒epowaniaakcjiN.Przy zastosowaniuprostszejpolitykieksploracji(np.wykonywanieokre´slonejproporcji ruch´owlosowych)tablicaNmo˙zenieby´cpotrzebna. Uczeniesi֒ezewzmocnieniem—Q-learning25S A RS A — S ta te -A c ti o n -Re w a rd -S ta te -A c ti o n
IstniejepewienwariantalgorytmuQ-learningzaktualizacj֒ametod֒ar´o˙znic czasowychzwanySARSA(State-Action-Reward-State-Action): Q(s,a)←Q(s,a)+α(R(s)+γQ(s′ ,a′ )−Q(s,a)) WSARSAaktualizacjabierzepoduwag֒epi֒e´cczynnik´ow:s,a,r,s′ ,a′ .Oile algorytmQ-learningaktualizujenapodstawienajlepszejakcjiwybranejdlastanu osi ֒agni ֒etegoprzezakcj ֒ea,SARSAbierzepoduwag ֒etojakaakcjazosta la wrzeczywisto´sciwybrana.Zatemnp.dlazach lannegoagentarealizuj ֒acego wy l֒acznieeksploatacj֒etedwiemetodyby lybyidentyczne. Jednakwprzypadkuuczeniasi֒ezeksploracj֒ar´o˙znicajestistotna.Metoda Q-learningjestmetod֒auczeniasi֒epozapolityk֒a(off-policy),obliczaj֒ac֒a najlepszemo˙zliwewarto´sciQ,niezale˙znieodtegogdzieprowadzinas realizowanapolityka.NatomiastSARSAjestmetod ֒awpolityce(on-policy), odpowiedni֒adlaagentaporuszaj֒acegosi֒ezgodniezposiadan֒apolityk֒a. Uczeniesi֒ezewzmocnieniem—SARSA26Q-learningjestbardziejelastycznymalgorytmem,poniewa˙zpozwalaagentowi uczy´csi֒ew la´sciwegozachowaniasi֒enawetje´sliwykonujeonaktualniepolityk֒e niezgodn ֒azwyuczanymiwzorcami.NatomiastSARSAjestbardziejrealistyczna, poniewa˙znaprzyk lad,gdybyagentniem´og lw100%kontrolowa´cswojej polityki,tolepiejmuuczy´csi ֒ewzorc´owzgodnychztymcorzeczywi´scieb ֒edzie si֒eznimdzia lo,zamiastuczy´csi֒ezgodnieznajlepszymidlaagentawzorcami. Zar´ownoQ-learningjakiSARSAs ֒awstanienauczy´csi ֒eoptymalnejpolitykidla przyk ladowego´srodowiska4x3,jednakwolniejni˙zADP(wsensieliczbyiteracji). Wynikatozfaktu,˙zelokalnepoprawkiniewymuszaj֒asp´ojno´scica lejfunkcjiQ. Por´ownuj֒actemetodymo˙znaspojrze´cszerzejizada´csobiepytanie,czy lepszympodej´sciemjestuczeniesi ֒emodelu´srodowiskaifunkcjiu˙zyteczno´sci, czybezpo´sredniewyznaczanieodwzorowaniastan´owdoakcjibezogl ֒adaniasi ֒e namodel´srodowiska. Jesttowrzeczywisto´scijednozfundamentalnychpyta´njakbudowa´csztuczn֒a inteligencj ֒e.Przezwielelatpocz ֒atkowegorozwojutejdziedzinywiedzy dominowa lparadygmatsystem´owopartychnawiedzy(knowledge-based), postuluj֒acychkonieczno´s´cbudowymodelideklaratywnych.Fakt,˙zepowstaj֒a metodybezmodelowetakiejakQ-learningsugeruje,˙zeby´cmo˙zeby loto niepotrzebne.Jednakdlaniekt´orychbardziejz lo˙zonychzagadnie´npodej´scie zmodelemsprawdzasi֒elepiej,zatemkwestiapozostajenierozstrzygni֒eta. Uczeniesi֒ezewzmocnieniem—SARSA27 Uczeniesi֒ezewzmocnieniem—SARSA28
U o g ´o ln ia n ie w u c z e n iu si
֒e z e w z m o c n ie n ie m
Om´owionepowy˙zejalgorytmyuczeniasi֒ezewzmocnieniemzak ladaj֒ajawn֒a reprezentacj ֒efunkcjiU(s)lubQ(s)tak ֒ajaknp.reprezentacjatablicowa.Mo˙ze toby´cpraktycznetylkodopewnejwielko´scizagadnienia. Naprzyk lad,dlazagadnie´nobardzodu˙zejliczbiestan´ow(np.≫1020dlagier takichjakszachylubbackgammon),trudnowyobrazi´csobiewykonanie wystarczaj֒acejliczbyprzebieg´owucz֒acychabyodwiedzi´cka˙zdystanwielerazy. Koniecznejestzastosowaniejakiej´smetodygeneralizacji(uog´olniania),kt´ora pozwoli labygenerowa´cskuteczn ֒apolityk ֒enapodstawiema lejcz ֒e´sci przebadanejprzestrzenistan´ow. Uczeniesi֒ezewzmocnieniem—uog´olnianie29 Uczeniesi֒ezewzmocnieniem—uog´olnianie30A p ro k sy m a c ja fu n k c ji
Jedn ֒aztakichmetodjestaproksymacjafunkcji,polegaj ֒acanazapisie badanejfunkcji(np.U)wpostacinietablicowej,np.wyra˙zeniujejjak ֒a´sformu l ֒a sko´nczon ֒a.Podobniejakwkonstrukcjifunkcjiheurystycznych,mo˙zna zastosowa´cliniow֒akombinacj֒ejakich´scechstanu(zwanychr´ownie˙zatrybutami stanu):ˆ U+..+)(sffθ)θ(s(sf)θ=)(s.+nnθ2112 tozy lbysiewekspraw´o lczynnik´owuciemaenAlgorytuczenimsiezewzmocni ֒֒ ˆ Ucjbyfunkyaocentak<>,θ..,.,θθ=θn21θ
przybli˙za lamo˙zliwiedobrze rzeczywist֒afunkcj֒eu˙zyteczno´scistan´ow. Podej´scietonazywasi֒eaproksymacj֒afunkcji,poniewa˙zniemapewno´sci,˙ze rzeczywist ֒afunkcj ֒eocenydasi ֒ewyrazi´ctegotypuformu l ֒a.Jakkolwiekwydaje si ֒ew ֒atpliwebynp.optymaln ֒apolityk ֒edlagrywszachyda losi ֒ewyrazi´cfunkcj ֒a zkilkunastomawsp´o lczynnikami,tojestzupe lniemo˙zliwebyosi֒agn֒a´cwten spos´obdobrypoziomgry. Uczeniesi֒ezewzmocnieniem—aproksymacjafunkcji31 Istot֒apodej´sciajestjednaknieprzybli˙zeniemniejsz֒aliczb֒awsp´o lczynnik´ow funkcji,kt´orawrzeczywisto´sciby´cmo˙zewymagaichwielokrotniewi֒ecej,ale uog´olnianie,czyligenerowaniepolitykidlawszystkichstan´ownapodstawie analizyma lejichcz֒e´sci. Np.weksperymentachprzeprowadzonychzgr ֒abackgammon,uda losi ֒enauczy´c graczapoziomugrypor´ownywalnegozludzkiminapodstawiepr´ob analizuj֒acychjedenna1012stan´ow. Oczywi´scie,sukcesuczeniasi֒ezewzmocnieniemwtakichprzypadkachzale˙zy odtrafnegowybraniafunkcjiaproksymuj֒acej.Je´sli˙zadnakombinacjawybranych cechniemo˙zeda´cdobrejstrategiigry,to˙zadnametodauczeniajejnie wygeneruje.Zkolei,wybraniebardzorozbudowanejfunkcjizdu˙z ֒aliczb ֒acech iwsp´o lczynnik´owzwi֒ekszaszansenasukces,alekosztemwolniejszejzbie˙zno´sci izarazemwolniejszegoprocesuuczenia. Uczeniesi֒ezewzmocnieniem—aproksymacjafunkcji32
K o re k ta p a ra m e tr ´o w fu n k c ji
Abyumo˙zliwi´cuczeniesi֒enabie˙z֒aco(on-linelearning)niezb֒ednajestjaka´s metodakorektyparametr´ownapodstawiewarto´sciwzmocnie´notrzymywanych poka˙zdymprzebiegu(albopoka˙zdymkroku). Naprzyk lad,je´sliuj(s)jestwarto´sci ֒apozosta lejnagrodydlastanuswj-tym przebieguucz֒acym,tob l֒adaproksymacjifunkcjiu˙zyteczno´scimo˙znaoblicza´c jako: Ej=(ˆ Uθ(s)−uj(s))2 2 Dynamikazmianytegob l ֒eduzewzgl ֒edunaparametrθijestokre´slonajako ∂Ej/∂θi,zatemabyskorygowa´ctenparametrwkierunkuzmniejszeniab l ֒edu, w la´sciw ֒aformu l ֒anapoprawk ֒ejest: θi←θi−α∂Ej(s) ∂θi=θi+α(uj(s)−ˆ Uθ(s))∂ˆ Uθ(s) ∂θi Powy˙zszywz´orzwanyjestregu l ֒aWidrow’a-Hoff’aalboregu l ֒adelta. Uczeniesi֒ezewzmocnieniem—aproksymacjafunkcji33Pr z y k la d
Naprzyk lad,dla´srodowiska4x3funkcjau˙zyteczno´scistan´owmog labyby´c aproksymowanaliniow ֒akombinacj ֒awsp´o lrz ֒ednych:ˆ Uθ(x,y)=θy+θx+θ210 dazrateazeedz:baltdezga lgurezneodprkiwraopPne֒֒֒ ˆ U(u))(s−(s)α+θ←θj0θ0 ˆ U(sx(s−)))(uα+θ←θj1θ1 ˆ Uθ(sθ←+α(uy(s)−))2θj2 0.=<0.5,0.2,y1>otrzymujem,θ><,θk lyjmujacprzyadPowoθ=θrz120֒ ˆ UiuipowJeonanoprzebieguuczaceg´slyk8.zy0.pocatkoweprzbl)i˙z=,1ie(1enθ֒֒ yscztkiewsp´o lθynnikiθ,,θwsztolic.liby´s72mynpuzyob(1,1)=0.201j uyb ldlastany l(1,1).Oczywi´scie,obadszneejzoa lybyobni˙zosto08α,cozmni0.֒ ˆ Uto(s),costisg´otauolniania.cjajenkiefuwtespos´obzmnni labysieca laθ֒֒ proksymakccjafunji3—aemieniecnozmwzesiieenczU4֒
Z a st o so w a n ie r´o ˙zn ic c z a so w y c h
Mo˙znar´ownie˙zrealizowa´cpoprawkimetod֒ar´o˙znicczasowych. θi←θi+α[R(s)+γˆ Uθ(s′ )−ˆ Uθ(s)]∂ˆ Uθ(s) ∂θi θi←θi+α[R(s)+γmax a′∂′′ˆ Qˆ Q(s,a)−(s,a)]θθ
ˆ Q(s,a)θ ∂θi aproksymncjafu—kcji3aiemiencnozmwzeesiieenczU5֒