U c z e n ie si

(1)

U c z e n ie si

֒

e z e w z m o c n ie n ie m

Wwieludziedzinachtrudnojestsformu lowaćprecyzyjnefunkcjeoceny, pozwalaj֒aceagentowiocenićskuteczno´sć,lubpoprawno´sćjegoakcji, zwyj֒atkiemgdyosi֒agnieonstandocelowy.Zak ladamy,˙zewstaniedocelowym agentzza lo˙zeniazawszeotrzymujeobiektywn֒aocen֒eswoichdzia lań,zwan֒a nagrod ֒alubwzmocnieniem.Wygodniejestsformu lowaćzadanieagenta wtakisposób,abymusia lonsamnauczyćsi ֒etakdzia lać,abymaksymalizować t ֒enagrod ֒e(wzmocnienie).Nazywamytozagadnieniemuczeniasi ֒eze wzmocnieniem(reinforcementlearning,RL). Jesttozadanietrudne.Wogólnymprzypadkuagentmo˙zeniemiećpe lnej informacjioswoim´srodowisku,jakrównie˙zprecyzyjnego(albo˙zadnego)opisu swoichdzia lańiichskutków.Jegosytuacj ֒emo˙znarozumiećjakojednoze sformu lowańpe lnegozadaniasztucznejinteligencji.Agentzostajeumieszczony w´srodowisku,któregoniezna,imusisi֒enauczyćskuteczniewnimdzia lać,aby maksymalizowaćpewnekryterium,dost֒epnemuwpostaciwzmocnień. B֒edziemyrozwa˙zaliprobabilistycznymodelskutkówakcjiagenta.Mówi֒ac dok ladniej,b ֒edziemyzak ladali,˙zepodstawowezagadnieniejestdyskretnym procesemMarkowa(MDP),jednakagentnieznajegoparametrów. Uczeniesi֒ezewzmocnieniem—wst֒ep1 Uczeniesi֒ezewzmocnieniem—wst֒ep2

P a sy w n e u c z e n ie si

֒

e z e w z m o c n ie n ie m

Napocz֒atekrozwa˙zymyuczeniesi ֒epasywne,gdziezak ladamy,˙zepolityka agentaπ(s)jestzgóryustalona.Agentniepodejmuje˙zadnychdecyzji,musi robićtocodyktujemupolityka,awynikijegoakcjis֒aprobabilistyczne.Jednak mo˙zeobserwowaćcosi֒edzieje,czyliwiedojakichstanówdocieraijakie otrzymujewnichnagrody.Pami ֒etajmyjednak,˙zenagrodyotrzymywane wstanachnieterminalnychnies ֒adlaagentaistotnymkryterium—liczysi ֒e tylkosumanagródotrzymanychnadrodzedostanuterminalnego,zwana wzmocnieniem. Zadaniemagentajestnauczeniesi֒ewarto´sciu˙zyteczno´scistanówUπ(s), obliczanychzgodniezrównaniem: Uπ (s)=E" ∞X t=0γt R(st)# Wrozpatrywanymtuprzyk ladowymzagadnieniu4x3b ֒edziemyprzyjmować γ=1. Uczeniesi֒ezewzmocnieniem—pasywne3

Pr z e b ie g i u c z

֒

a c e

Przypomnijmyrozwa˙zanywcze´sniejprzyk ladagentaw´swiecie4×3: 1234+ 1 − 12 13 123

1

2

3 –1

+ 1 4

0.611

0.812 0.655

0.762

0.918 0.705

0.660

0.868 0.388 Agentwykonujeprzebiegiucz ֒ace(ang.trials)wkt´orychwykonujeakcje zgodnezposiadan ֒apolityk ֒a,a˙zdoosi ֒agni ֒eciastanuterminalnego.Wka˙zdym krokuotrzymujeperceptwskazuj ֒acyzar´ownobie˙z ֒acystan,jakinagrod ֒e. Przyk ladoweprzebiegi: (1,1)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(2,3)−0.04❀(3,3)−0.04❀(4,3) +

1 (1,1)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(2,3)−0.04❀(3,3)−0.04❀(3,2)−0.04❀(3,3)−0.04❀(4,3) +

1 (1,1)−0.04❀(2,1)−0.04❀(3,1)−0.04❀(3,2)−0.04❀(4,2)−1 Uczeniesi֒ezewzmocnieniem—pasywne4

(2)

Ob li c z a n ie u ˙zy te c z n o ´s c i m e to d

֒

a b e z p o ´s re d n i

֒

a

Celemdzia laniaagentajestobliczenieu˙zyteczno´scistanówUπ (s)zwi֒azanych zposiadan֒apolityk֒aπ(s).U˙zyteczno´scistanówzdefiniowanes֒ajakowarto´sci oczekiwanesumynagród(dyskontowanych)otrzymanychprzezagenta startuj ֒acegozdanegostanu,iporuszaj ֒acegosi ֒ezgodniezeswoj ֒apolityk ֒a: Uπ (s)=E" ∞X t=0γt R(st)# Agentmo˙zenauczyćsi֒eu˙zyteczno´sciobliczaj֒actzw.nagrod ֒epozosta l ֒a (reward-to-go)wka˙zdymstanie.Nakoniecprzebieguagentobliczanagrod֒e pozosta l֒awstaniekońcowymjakonagrod֒eotrzyman֒awtymstanie.Nast֒epnie, cofaj֒acsi֒ewzd lu˙zswojejdrogi,obliczanagrodypozosta ledlawcze´sniejszych stanówjakosumynagródotrzymanychnakońcowymodcinkuprzebiegu. Naprzyk lad,dlaprzebiegu: (1,1)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(2,3)−0.04❀(3,3)−0.04❀(4,3) +

1 otrzymujemyRtg(4,3)=1,Rtg(3,3)=0.96,Rtg(2,3)=0.92,Rtg(1,3)= 0.88,Rtg(1,2)=0.84,Rtg(1,3)=0.80,Rtg(1,2)=0.76,Rtg(1,1)=0.72 Uczeniesi֒ezewzmocnieniem—pasywne5 Posiadaj֒acwielepróbek(przebiegów)agentmo˙zeprzezprosteu´srednianie okre´slićkolejneprzybli˙zeniawarto´scioczekiwaneju˙zyteczno´scistanów,które wnieskończono´scizbiegaj֒asi֒edow la´sciwychwarto´scioczekiwanych. Topodej´sciejestpoprawne,leczniezbytefektywne—wymagadu˙zejliczby przebiegów.Przedstawionametodaokre´slaniau˙zyteczno´sci,stosuj֒acproste u´srednianieu˙zyteczno´scistanów,pomijawa˙zn֒aw lasno´sćprocesówMarkowa, tzn.,˙zeu˙zyteczno´scistanóws֒azwi֒azanezu˙zyteczno´sciamistanóws֒asiednich. (1,1)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(2,3)−0.04❀(3,3)−0.04❀(4,3) +

1 (1,1)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(2,3)−0.04❀(3,3)−0.04❀(3,2)−0.04❀(3,3)−0.04❀(4,3) +

1 (1,1)−0.04❀(2,1)−0.04❀(3,1)−0.04❀(3,2)−0.04❀(4,2)−1 Naprzyk lad,wdrugimprzebieguzpowy˙zszegoprzyk ladualgorytmokre´sla u˙zyteczno´sćstanu(3,2)jakopozosta l֒anagrod֒eztegoprzebiegu,ignoruj֒ac fakt,˙zekolejnymstanemwtymprzebiegujeststan(3,3),którymawysok֒a (iju˙zznan֒a)u˙zyteczno´sć.RównanieBellmanapozwalazwi֒azaću˙zyteczno´sci nast֒epuj֒acychposobiestanów,lecztopodej´scieniepotrafiichwykorzystać. Uczeniesi֒ezewzmocnieniem—pasywne6

A d a p ta c y jn e p ro g ra m o w a n ie d y n a m ic z n e

Adaptacyjnymprogramowaniemdynamicznym(ADP)nazywamyproces podobnydoprogramowaniadynamicznegowpo l֒aczeniuzuczeniemsi֒emodelu ´srodowiska,czylifunkcjiprzej´sćstanów,ifunkcjinagrody.Polegaonona zliczaniuprzej´sćodparystan-akcjadonast֒epnejakcji.Przebiegiucz֒ace dostarczaj ֒anamseriiucz ֒acejtakichprzej´sć.Agentmo˙zeokre´slaćich prawdopodobieństwajakoichcz ֒estotliwo´sciwyst ֒epuj ֒acewprzebiegach. Naprzyk lad,wpodanychwcze´sniejprzebiegach,wstanie(1,3)trzyrazy wykonanazosta laakcja→(Right),poczymdwarazywynikowymstanem by l(2,3).Zatemagentpowinienokre´slićP((2,3)|(1,3),Right)=2 3. (1,1)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(2,3)−0.04❀(3,3)−0.04❀(4,3) +

1 (1,1)−0.04❀(1,2)−0.04❀(1,3)−0.04❀(2,3)−0.04❀(3,3)−0.04❀(3,2)−0.04❀(3,3)−0.04❀(4,3) +

1 (1,1)−0.04❀(2,1)−0.04❀(3,1)−0.04❀(3,2)−0.04❀(4,2)−1 Powykonaniuka˙zdegokrokuagentaktualizujeu˙zyteczno´scistanówrozwi֒azuj֒ac równanieBellmana(uproszczone)jednymzw la´sciwychalgorytmów.Równanie jestuproszczone,poniewa˙zznamytylkorozk ladyskutkówakcjinale˙z ֒acychdo polityki,iniemo˙zemyobliczaćnajlepszejakcjiwka˙zdymstanie.Poniewa˙z chcemyobliczyćUπtobierzemyw la´snieteakcje. Uczeniesi֒ezewzmocnieniem—metodaADP7

A d a p ta c y jn e p ro g ra m o w a n ie d y n a m ic z n e — a lg o ry tm

Uczeniesi֒ezewzmocnieniem—metodaADP8

(3)

A d a p ta c y jn e p ro g ra m o w a n ie d y n a m ic z n e — e fe k ty w n o ´s´ c

AlgorytmADPaktualizujewarto´sciu˙zyteczno´scinajlepiejjaktojestmo˙zliwe, istanowiwtymwzgl ֒edziestandarddoporównańdlainnychalgorytmów. Jednakproceduraobliczaniau˙zyteczno´sciprzezrozwi֒azywanieuk ladurównań (liniowych)mo˙zebyćniewykonalnadlawieluzmiennych(np.1050 równań z1050 niewiadomymidlagrybackgammon). 0

0.2

0.4

0.6

0.81 020406080100

Utility estimates

Number of trials

(1,1)

(1,3) (3,2)

(3,3)(4,3) 0

0.1

0.2

0.3

0.4

0.5

0.6 020406080100

RMS error in utility

Number of trials Powy˙zszewykresyilustruj֒azbie˙zno´sćdlaprzyk ladowegouczeniaw´srodowisku 4×3.Nale˙zydodać,˙zewtymprzyk ladzieprzebiegkończ ֒acysi ֒ew ”z lym” stanieterminalnympojawiasi ֒eporazpierwszywprzebiegu78-ym,coskutkuje skokow֒aaktualizacj֒aniektórychu˙zyteczno´sci. Uczeniesi֒ezewzmocnieniem—metodaADP9 Uczeniesi֒ezewzmocnieniem—metodaADP10

M e to d a r´o ˙zn ic c z a so w y c h

Zamiastka˙zdorazoworozwi ֒azywaćpe lenuk ladrównańzewzgl ֒edunawarto´sci u˙zyteczno´sci,mo˙znaaktualizowaćtewarto´sciaktualnieobserwowanymi warto´sciamiwzmocnień.Takfunkcjonuj֒acyalgorytmnazywasi֒emetod֒aró˙znic czasowychTD(temporaldifferencelearning): Uπ (s)←Uπ (s)+α(R(s)+γUπ (s′ )−Uπ (s)) Wtymprzypadkuaktualizujemyu˙zyteczno´sćpoprawk֒aobliczan֒anapodstawie jednegozaobserwowanegoprzej´sciastanów,aniewarto´scioczekiwanej wszystkichprzej´sć.Dlategote˙zpoprawk֒e—ró˙znic֒epomi֒edzyu˙zyteczno´sci֒a ruchuau˙zyteczno´sci֒astanu—bierzemyzredukowan֒awspó lczynnikiemα<1. Powodujetowprowadzaniema lychpoprawekpoka˙zdymruchu.Jednocze´snie poprawkazmierzadozeragdyu˙zyteczno´sćstanuzrównujesi ֒ezdyskontowan ֒a u˙zyteczno´sci ֒aruchu. Zauwa˙zmy,˙zetametodaniewymagaposiadaniamodelu´srodowiskaP(s′|s,a), anisamagonieoblicza. Uczeniesi֒ezewzmocnieniem—metodaTD11

M e to d a r´o ˙zn ic c z a so w y c h — a lg o ry tm

Uczeniesi֒ezewzmocnieniem—metodaTD12

(4)

Z b ie ˙zn o ´s´ c m e to d y r´o ˙zn ic c z a so w y c h

Istniejezwi֒azekipodobieństwopomi֒edzyalgorytmamiADPiTD.Oileten drugidokonujetylkolokalnychzmianwwarto´sciachu˙zyteczno´sci,toich´srednie warto´scizbiegaj ֒asi ֒edotychsamychwarto´scicodlaalgorytmuADP. Wprzypadkuuczeniawielomaprzyk ladamiprzej´sć,cz֒estotliwo´sciwyst֒epowania stanówzgadzaj֒asi֒ezrozk lademprawdopodobieństwichwyst֒epowaniaimo˙zna wykazać,˙zewarto´sciu˙zyteczno´scib֒ed֒asi֒ezbiegaćdopoprawnychwyników. Wtymceluparametruczeniasi ֒eαpowinienzmniejszaćsi ֒ewrazze zwi֒ekszaniemsi֒eliczbyprzetworzonychprzebiegów.Dok ladniej,warto´scitego parametrupowinnyspe lniaćzale˙zno´sć: ∞X n=1α(n)=∞ orazjednocze´snie: ∞X n=1α2 (n)<∞ Uczeniesi֒ezewzmocnieniem—metodaTD13 Zbie˙zno´sćprzyk ladowegoprocesuuczeniadla´srodowiska4×3: 0

0.2

0.4

0.6

0.81 0100200300400500

Utility estimates

Number of trials

(1,1)

(1,3) (2,1)

(3,3)(4,3) 0

0.1

0.2

0.3

0.4

0.5

0.6 020406080100

RMS error in utility

Number of trials Uczeniesi֒ezewzmocnieniem—metodaTD14

A k ty w n e u c z e n ie si

֒

e z e w z m o c n ie n ie m

Copowinienzrobićagent,którynieposiadaustalonejpolityki,alboktóry chcia lbyokre´slićpolityk ֒eoptymaln ֒a? Najpierwpowinienwyznaczyćkompletnymodelprzej´sćdlawszystkichakcji. Przedstawionywy˙zejalgorytmADPdajet֒emo˙zliwo´sć.Nast֒epnienale˙zy wyznaczyćpolityk֒eoptymaln֒a,spe lniaj֒ac֒aponi˙zszerównanieBellmana,jak wzwyk lymproblemiedecyzyjnymMarkowa: U(s)=R(s)+γmax a

X s′P(s′ |s,a)U(s′ ) Agentmo˙zetozrobićalgorytmemiteracjiwarto´scilubiteracjipolityki. Nast֒epnie,maj֒acwyznaczon֒aoptymaln֒apolityk֒edladanego´srodowiska,mo˙ze spokojnieprzej´sćdojejrealizacji. Aleczypowinientakzrobić? Uczeniesi֒ezewzmocnieniem—aktywne15 0

0.51

1.52 050100150200250300350400450500

RMS error, policy loss

Number of trials

RMS error Policy loss 123

1

2

3 –1

+1 4 Wykrespolewejpokazujewynikuczeniasi ֒ewpewnymeksperymencie.Agent znalaz lbezpo´sredni֒adrog֒edorozwi֒azania[+1]wprzebiegunr39,leczby lato drogagorsza,wzd lu˙zstan´ow:(2,1),(3,1),(3,2),(3,3).Zdeterminowa lajednak przyj֒et֒aprzezagentapolityk֒eoptymaln֒apoprawej.Okazujesi֒e,˙zejestto sytuacjatypowa,agentzrzadkatylkoznajdujeoptymaln֒apolityk֒epreferuj֒ac֒a drog ֒ag´orn ֒a:(1,2),(1,3),(2,3),(3,3). Uczeniesi֒ezewzmocnieniem—aktywne16

(5)

E k sp lo ra c ja

Niestety,je´sliagentnienauczysi֒epoprawnegomodelu´srodowiskawswoich pocz ֒atkowychprzebiegach,tob ֒edzienast ֒epniegenerowa lprzebiegizgodnie zpolityk ֒aoptymaln ֒adlapewnegomodelu,któramo˙zeniebyćglobalnie optymalnadladanego´srodowiska. Pojawiasi֒etukompromispomi֒edzyeksploatacj ֒aposiadanejwiedzy aeksploracj ֒a´srodowiska.Agentniemo˙zezbytszybkozadowolićsi֒e wyuczonymmodelem´srodowiska,iobliczon֒adlaniegooptymaln֒astrategi֒a. Powinienpróbowaćró˙znychmo˙zliwo´sci. Cowi֒ecej,musiwielokrotniepróbowaćwszystkichakcjiwewszystkichstanach, je´slichceunikn֒aćmo˙zliwo´sci,˙zeprzypadkowapechowaseriauniemo˙zliwimu odkryciejakiego´sszczególniedobregoruchu.Jednakwkońcumusirównie˙z zacz֒aćporuszaćsi֒ezgodniezpolityk֒aoptymaln֒a,abydostroićj֒ado specyficznychdlaniej´scie˙zek. Uczeniesi֒ezewzmocnieniem—eksploracja17

P o li ty k a e k sp lo ra c ji

Abypo l֒aczyćskuteczn֒aeksploracj֒e´swiatazeksploatacj֒aposiadanejwiedzy agentpowinienposiadaćpolityk ֒eeksploracji.Maonazagwarantować,˙ze agentb֒edzieonwstaniepoznaćwszystkieswojemo˙zliweakcjewstopniu wystarczaj֒acymdoobliczeniaswojejglobalnieoptymalnejpolitykidladanego ´srodowiska. Prost ֒apolityk ֒aeksploracjimog lobybyćwykonywanieprzypadkowychakcjiwe wszystkichstanach,zpewnymustalonymprawdopodobieństwem, awpozosta lychprzypadkachwykonywanieakcjiuwa˙zanychzaoptymalne. Jesttopodej´sciepoprawne,leczwolnozbie˙zne.Lepiejby lobypreferować eksploracj ֒eniezbytdobrzejeszczepoznanychparstan-akcja,jednocze´snie unikaj ֒aceksploracjiparznanychju˙zjakoniezbytkorzystne. Uczeniesi֒ezewzmocnieniem—eksploracja18

F u n k c ja e k sp lo ra c ji

Sensown֒apolityk֒eeksploracjimo˙znazbudowa´cwprowadzaj֒acoptymistyczne oszacowaniau˙zyteczno´sciU+ (s): U+ (s)←R(s)+γmax af X s′P(s′ |s,a)U+ (s′ ),N(a,s)

! gdzieN(a,s)jestliczb֒awcze´sniejdokonanychwyborówakcjiawstanies, natomiastf(u,n)jestfunkcj ֒aeksploracji,wywa˙zaj ֒ac ֒apreferencjedlazysku (du˙zychwarto´sciu)iciekawo´sci(ma lychwarto´scin). Oczywi´sciefunkcjaeksploracjifpowinnabyćrosn ֒acazewzgl ֒edunau imalej֒acazewzgl֒edunan.Prostymprzyk lademfunkcjifmo˙zebyć: f(u,n)= R+je´slin<Ne uwprzeciwnymwypadku gdzieR+oznaczaoptymistyczneoszacowanienajlepszejnagrodymo˙zliwejdo otrzymaniawktórymkolwiekzestanów,aNejestminimaln ֒aliczb ֒apróbka˙zdej parystan-akcja,jak֒aagentb֒edziesi֒estara lwykonać. Uczeniesi֒ezewzmocnieniem—eksploracja19 Fakt,˙zewewzorzenaaktualizacj֒eU+ poprawejstroniewyst֒epujerównie˙zU+ jestistotny.Poniewa˙zstanyiakcjewokó lstanupocz ֒atkowegob ֒ed ֒a wykonywanewielerazy,gdybyagentzastosowa lnieoptymistyczneobliczanie u˙zyteczno´sci,móg lbyzacz ֒aćunikaćtychstanów,iwkonsekwencjizniech ֒ecićsi ֒e dowypuszczaniasi֒e ”dalej”.U˙zyciewarto´sciU+oznacza,˙zeoptymistyczne warto´scigenerowanedlanowoeksplorowanychregionówb֒ed֒apropagowane wstecz,dzi֒ekiczemuakcjeprowadz֒acedonieznanychjeszczeregionówb֒ed֒a szacowanewysoko,itymsamympreferowane. Uczeniesi֒ezewzmocnieniem—eksploracja20

(6)

0.6

0.81

1.2

1.4

1.6

1.82

2.2 020406080100

Utility estimates

Number of trials

(1,1) (1,2) (1,3) (2,3) (3,2) (3,3) (4,3) 0

0.2

0.4

0.6

0.81

1.2

1.4 020406080100

RMS error, policy loss

Number of trials

RMS error Policy loss Nalewymwykresiewida´cprzebieguczeniasi ֒eagentazeksploracj ֒a.Polityka bliskaoptymalnejzosta laosi ֒agni ֒etapo18przebiegach.Zauwa˙zmy,˙zewarto´sci u˙zyteczno´scizbiegaj֒asi֒ewolniej(RMSerror)ni˙zzostajewyznaczonaoptymalna polityka(policyloss). Uczeniesi֒ezewzmocnieniem—eksploracja21

A k ty w n e u c z e n ie si

֒

e r´o ˙zn ic c z a so w y c h

Metod֒eró˙znicczasowychmo˙znarównie˙zzastosowaćdouczeniasi֒eaktywnego. Agentmo˙zenieposiadaćustalonejpolityki,inadalobliczaću˙zyteczno´sci stanówwykorzystuj֒actensamwzórcowprzypadkupasywnym: Uπ (s)←Uπ (s)+α(R(s)+γUπ (s′ )−Uπ (s)) Dzi֒ekiobliczanymu˙zyteczno´sciomagentmo˙zewyznaczaćw la´sciweakcje wka˙zdymstaniekorzystaj ֒aczu˙zyteczno´scistanóws ֒asiednich.Mo˙znawykazać, ˙zeaktywnyagentTDosi ֒agnietesamewynikowewarto´sciu˙zyteczno´scico aktywnyagentADP. Uczeniesi֒ezewzmocnieniem—TD-learning22

M e to d a Q- le a rn in g

Alternatywn֒adopoprzedniegowzorumetod֒auczeniasi֒eró˙znicczasowychjest metodaQ-learning,którazamiastu˙zyteczno´sciuczysi ֒ereprezentacji akcja-warto´sćwpostacifunkcjiQ(s,a).Tafunkcjawyra˙zawarto´sćwykonania akcjiawstanies,ijestzwi ֒azanazu˙zyteczno´sciamistanówwzorem: U(s)=max aQ(s,a) Docelowewarto´sciQspe lniaj ֒arównanie: Q(s,a)=R(s)+γX s′P(s′ |s,a)max a′Q(s′ ,a′ ) Powy˙zszywzórmóg lbybyćwykorzystywanywprocesieiteracyjnymjakowzór doaktualizacjiwarto´sciQ.Wymaga lobytojednakjednoczesnegouczeniasi ֒e warto´sciQimodeluwpostacifunkcjiP,którawyst ֒epujewewzorze. Uczeniesi֒ezewzmocnieniem—Q-learning23

Q- le a rn in g — a k tu a li z a c ja m e to d

֒

a r´o ˙zn ic c z a so w y c h

Mo˙zliwajestrównie˙zaktualizacjalokalnafunkcjiQb֒ed֒acawariantemmetody ró˙znicczasowychiwyra˙zonaponi˙zszymwzoremaktualizacyjnym,obliczanym ilekroćakcjaajestwykonywanawstaniesprowadz֒acdostanuwynikowegos′ : Q(s,a)←Q(s,a)+α(R(s)+γmax a′Q(s′ ,a′ )−Q(s,a)) AlgorytmQ-learningzmetod֒aró˙znicczasowychzbiegasi֒edorozwi֒azania znaczniewolniejni˙zalgorytmADP,poniewa˙zniewymuszaobliczeniape lnej spójno´scimodelu(któregonietworzy). Uczeniesi֒ezewzmocnieniem—Q-learning24

(7)

P e ln y a lg o ry tm Q- le a rn in g z e k sp lo ra c j

֒

a

Wogólno´sciaktywnyagentucz֒acysi֒emetod֒aQ-learningwymagazastosowania eksploracjitaksamojakwprzypadkumetodyADP.St֒adwalgorytmie wyst֒epujefunkcjaeksploracjifitablicacz֒esto´sciwyst֒epowaniaakcjiN.Przy zastosowaniuprostszejpolitykieksploracji(np.wykonywanieokre´slonejproporcji ruchówlosowych)tablicaNmo˙zeniebyćpotrzebna. Uczeniesi֒ezewzmocnieniem—Q-learning25

S A RS A — S ta te -A c ti o n -Re w a rd -S ta te -A c ti o n

IstniejepewienwariantalgorytmuQ-learningzaktualizacj֒ametod֒aró˙znic czasowychzwanySARSA(State-Action-Reward-State-Action): Q(s,a)←Q(s,a)+α(R(s)+γQ(s′ ,a′ )−Q(s,a)) WSARSAaktualizacjabierzepoduwag֒epi֒ećczynników:s,a,r,s′ ,a′ .Oile algorytmQ-learningaktualizujenapodstawienajlepszejakcjiwybranejdlastanu osi ֒agni ֒etegoprzezakcj ֒ea,SARSAbierzepoduwag ֒etojakaakcjazosta la wrzeczywisto´sciwybrana.Zatemnp.dlazach lannegoagentarealizuj ֒acego wy l֒acznieeksploatacj֒etedwiemetodyby lybyidentyczne. Jednakwprzypadkuuczeniasi֒ezeksploracj֒aró˙znicajestistotna.Metoda Q-learningjestmetod֒auczeniasi֒epozapolityk֒a(off-policy),obliczaj֒ac֒a najlepszemo˙zliwewarto´sciQ,niezale˙znieodtegogdzieprowadzinas realizowanapolityka.NatomiastSARSAjestmetod ֒awpolityce(on-policy), odpowiedni֒adlaagentaporuszaj֒acegosi֒ezgodniezposiadan֒apolityk֒a. Uczeniesi֒ezewzmocnieniem—SARSA26

Q-learningjestbardziejelastycznymalgorytmem,poniewa˙zpozwalaagentowi uczyćsi֒ew la´sciwegozachowaniasi֒enawetje´sliwykonujeonaktualniepolityk֒e niezgodn ֒azwyuczanymiwzorcami.NatomiastSARSAjestbardziejrealistyczna, poniewa˙znaprzyk lad,gdybyagentniemóg lw100%kontrolowaćswojej polityki,tolepiejmuuczyćsi ֒ewzorcówzgodnychztymcorzeczywi´scieb ֒edzie si֒eznimdzia lo,zamiastuczyćsi֒ezgodnieznajlepszymidlaagentawzorcami. ZarównoQ-learningjakiSARSAs ֒awstanienauczyćsi ֒eoptymalnejpolitykidla przyk ladowego´srodowiska4x3,jednakwolniejni˙zADP(wsensieliczbyiteracji). Wynikatozfaktu,˙zelokalnepoprawkiniewymuszaj֒aspójno´scica lejfunkcjiQ. Porównuj֒actemetodymo˙znaspojrzećszerzejizadaćsobiepytanie,czy lepszympodej´sciemjestuczeniesi ֒emodelu´srodowiskaifunkcjiu˙zyteczno´sci, czybezpo´sredniewyznaczanieodwzorowaniastanówdoakcjibezogl ֒adaniasi ֒e namodel´srodowiska. Jesttowrzeczywisto´scijednozfundamentalnychpytańjakbudowaćsztuczn֒a inteligencj ֒e.Przezwielelatpocz ֒atkowegorozwojutejdziedzinywiedzy dominowa lparadygmatsystemówopartychnawiedzy(knowledge-based), postuluj֒acychkonieczno´sćbudowymodelideklaratywnych.Fakt,˙zepowstaj֒a metodybezmodelowetakiejakQ-learningsugeruje,˙zebyćmo˙zeby loto niepotrzebne.Jednakdlaniektórychbardziejz lo˙zonychzagadnieńpodej´scie zmodelemsprawdzasi֒elepiej,zatemkwestiapozostajenierozstrzygni֒eta. Uczeniesi֒ezewzmocnieniem—SARSA27 Uczeniesi֒ezewzmocnieniem—SARSA28

(8)

U o g ´o ln ia n ie w u c z e n iu si

֒

e z e w z m o c n ie n ie m

Omówionepowy˙zejalgorytmyuczeniasi֒ezewzmocnieniemzak ladaj֒ajawn֒a reprezentacj ֒efunkcjiU(s)lubQ(s)tak ֒ajaknp.reprezentacjatablicowa.Mo˙ze tobyćpraktycznetylkodopewnejwielko´scizagadnienia. Naprzyk lad,dlazagadnieńobardzodu˙zejliczbiestanów(np.≫1020dlagier takichjakszachylubbackgammon),trudnowyobrazićsobiewykonanie wystarczaj֒acejliczbyprzebiegówucz֒acychabyodwiedzićka˙zdystanwielerazy. Koniecznejestzastosowaniejakiej´smetodygeneralizacji(uogólniania),która pozwoli labygenerowaćskuteczn ֒apolityk ֒enapodstawiema lejcz ֒e´sci przebadanejprzestrzenistanów. Uczeniesi֒ezewzmocnieniem—uogólnianie29 Uczeniesi֒ezewzmocnieniem—uogólnianie30

A p ro k sy m a c ja fu n k c ji

Jedn ֒aztakichmetodjestaproksymacjafunkcji,polegaj ֒acanazapisie badanejfunkcji(np.U)wpostacinietablicowej,np.wyra˙zeniujejjak ֒a´sformu l ֒a skończon ֒a.Podobniejakwkonstrukcjifunkcjiheurystycznych,mo˙zna zastosowaćliniow֒akombinacj֒ejakich´scechstanu(zwanychrównie˙zatrybutami stanu):

ˆ U+..+)(sffθ)θ(s(sf)θ=)(s.+nn^θ2112 tozy lbysiewekspraw´o lczynnik´owuciemaenAlgorytuczenimsiezewzmocni ֒֒ ˆ Ucjbyfunkyaocentak<>,θ..,.,θθ=θn21^θ

przybli˙za lamo˙zliwiedobrze rzeczywist֒afunkcj֒eu˙zyteczno´scistanów. Podej´scietonazywasi֒eaproksymacj֒afunkcji,poniewa˙zniemapewno´sci,˙ze rzeczywist ֒afunkcj ֒eocenydasi ֒ewyrazićtegotypuformu l ֒a.Jakkolwiekwydaje si ֒ew ֒atpliwebynp.optymaln ֒apolityk ֒edlagrywszachyda losi ֒ewyrazićfunkcj ֒a zkilkunastomawspó lczynnikami,tojestzupe lniemo˙zliwebyosi֒agn֒aćwten sposóbdobrypoziomgry. Uczeniesi֒ezewzmocnieniem—aproksymacjafunkcji31 Istot֒apodej´sciajestjednaknieprzybli˙zeniemniejsz֒aliczb֒awspó lczynników funkcji,którawrzeczywisto´scibyćmo˙zewymagaichwielokrotniewi֒ecej,ale uogólnianie,czyligenerowaniepolitykidlawszystkichstanównapodstawie analizyma lejichcz֒e´sci. Np.weksperymentachprzeprowadzonychzgr ֒abackgammon,uda losi ֒enauczyć graczapoziomugryporównywalnegozludzkiminapodstawieprób analizuj֒acychjedenna1012stanów. Oczywi´scie,sukcesuczeniasi֒ezewzmocnieniemwtakichprzypadkachzale˙zy odtrafnegowybraniafunkcjiaproksymuj֒acej.Je´sli˙zadnakombinacjawybranych cechniemo˙zedaćdobrejstrategiigry,to˙zadnametodauczeniajejnie wygeneruje.Zkolei,wybraniebardzorozbudowanejfunkcjizdu˙z ֒aliczb ֒acech iwspó lczynnikówzwi֒ekszaszansenasukces,alekosztemwolniejszejzbie˙zno´sci izarazemwolniejszegoprocesuuczenia. Uczeniesi֒ezewzmocnieniem—aproksymacjafunkcji32

(9)

K o re k ta p a ra m e tr ´o w fu n k c ji

Abyumo˙zliwićuczeniesi֒enabie˙z֒aco(on-linelearning)niezb֒ednajestjaka´s metodakorektyparametrównapodstawiewarto´sciwzmocnieńotrzymywanych poka˙zdymprzebiegu(albopoka˙zdymkroku). Naprzyk lad,je´sliuj(s)jestwarto´sci ֒apozosta lejnagrodydlastanuswj-tym przebieguucz֒acym,tob l֒adaproksymacjifunkcjiu˙zyteczno´scimo˙znaobliczać jako: Ej=(ˆ U^θ(s)−uj(s))2 2 Dynamikazmianytegob l ֒eduzewzgl ֒edunaparametrθijestokre´slonajako ∂Ej/∂θi,zatemabyskorygowaćtenparametrwkierunkuzmniejszeniab l ֒edu, w la´sciw ֒aformu l ֒anapoprawk ֒ejest: θi←θi−α∂Ej(s) ∂θi=θi+α(uj(s)−ˆ U^θ(s))∂ˆ U^θ(s) ∂θi Powy˙zszywzórzwanyjestregu l ֒aWidrow’a-Hoff’aalboregu l ֒adelta. Uczeniesi֒ezewzmocnieniem—aproksymacjafunkcji33

Pr z y k la d

Naprzyk lad,dla´srodowiska4x3funkcjau˙zyteczno´scistanówmog labybyć aproksymowanaliniow ֒akombinacj ֒awspó lrz ֒ednych:

ˆ Uθ(x,y)=θy+θx+^θ210 dazrateazeedz:baltdezga lgurezneodprkiwraopPne֒֒֒ ˆ U(u))(s−(s)α+θ←θj0^θ0 ˆ U(sx(s−)))(uα+θ←θj1^θ1 ˆ Uθ(sθ←+α(uy(s)−))2^θj2 0.=<0.5,0.2,y1>otrzymujem,θ><,θk lyjmujacprzyadPowoθ=θrz120֒ ˆ UiuipowJeonanoprzebieguuczaceg´slyk8.zy0.pocatkoweprzbl)i˙z=,1ie(1en^θ֒֒ yscztkiewspó lθynnikiθ,,θwsztolic.liby´s72mynpuzyob(1,1)=0.201j uyb ldlastany l(1,1).Oczywi´scie,obadszneejzoa lybyobni˙zosto08α,cozmni0.֒ ˆ Uto(s),costisgótauolniania.cjajenkiefuwtesposóbzmnni labysieca la^θ֒֒ proksymakccjafunji3—aemieniecnozmwzesiieenczU4֒

Z a st o so w a n ie r´o ˙zn ic c z a so w y c h

Mo˙znarównie˙zrealizowaćpoprawkimetod֒aró˙znicczasowych. θi←θi+α[R(s)+γˆ U^θ(s′ )−ˆ U^θ(s)]∂ˆ U^θ(s) ∂θi θi←θi+α[R(s)+γmax a′

∂′′ˆ Qˆ Q(s,a)−(s,a)]^θ^θ

ˆ Q(s,a)^θ ∂θi aproksymncjafu—kcji3aiemiencnozmwzeesiieenczU5֒