P o li ty k a a g e n ta

(1)

S e k w e n cy jn e p ro b le m y d e cy zy jn e

Wsekwencyjnychproblemachdecyzyjnychużytecznośćdziałańagentanie zależyodpojedynczejdecyzji,wyrażonejstanem,doktóregotadecyzja doprowadziłabyagenta,aleraczejodcałejsekwencjijegoakcji. PRZYKŁAD:agentznajdujesięwpolu start,imożeporuszaćsięwewszystkich kierunkachmiędzykratkami.Jego działalnośćkończysięgdyosiągniejedno zpól(4,2)lub(4,3),zwynikiem zaznaczonymwtychpolach. 1234+ 1 − 12 13 START Gdybyzagadnieniebyłowpełnideterministyczne—itymsamymwiedzaagenta ojegopołożeniupełna—toproblemsprowadzałbysiędoplanowaniadziałań.Na przykład,dlapowyższegozagadnieniaprzykładowegodobrymrozwiązaniembyłby następującyplandziałań:U-U-R-R-R.Alerówniedobrybyłbyplan:R-R-U-U-R.Jeśli wdodatkupojedynczeakcjenicniekosztują(czyliliczysiętylkostankońcowy),to równiedobryjestnawetplan:R-R-R-L-L-L-U-U-R-R-R,iwieleinnych. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne1

N ie p e w n o ść e fe k tó w d zi a ła ń a g e n ta

Jednakpouwzględnieniuniepewności,wynikdziałańagentajestzgodnyzjego intencjątylkozpewnymprawdopodobieństwem.Naprzykład,możemyprzyjąć,że akcjaU(Up)przenosiagentanapożądanąpozycję„wgórę”zprawdopodobieństwem 0.8,natomiastzprawdopodobieństwem0.1wykonujeruchwlewo,ipodobnie wprawo.Pewnejesttylko,żeagentniepójdziewkierunkuprzeciwnymdo zamierzonego.Abyuprościćanalizęprzyjmijmydodatkowo,żeobecnośćściannie zmieniategorozkładuprawdopodobieństwa,atylkospowodujeniewykonanieżadnego ruchu,gdyby„wypadło”ruszyćsięwścianę. 0.8 0.10.1 Wtejsytuacjimożemyobliczaćwartościoczekiwanesekwencjiruchówagenta.Ogólnie agentniemożemiećpewności,żepowykonaniudowolnejzpowyższychsekwencji znajdziesięwpożądanymstanieterminalnym. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne2

P o li ty k a a g e n ta

Wodróżnieniuodalgorytmówplanowaniadziałań,agentpowinienwypracowaćswoją strategięniewpostacikonkretnejsekwencjidziałań,leczwpostacipolityki,czyli schematuwyznaczającegoakcje,którepowinnybyćpodjętedlakażdegokonkretnego stanu,gdybyagentwnimsięznalazł. Możnaokreślićoptymalnąpolitykędla zagadnieniaprzykładowego.Zauważmy,że wpunkcie(3,2)politykanakazujeagentowi próbowaćruchuwlewo,copozornieniema sensu,alepozwalaagentowiustrzecsięprzed wylądowaniemwniepożądanymstanie(4,2). Podobnasytuacjajestwstanie(4,1). 1234+ 1 − 12 13 Takapolitykawynikaoczywiściezdomyślnegoprzyjęciazerowegokoszturuchów. Gdybywynikagentazależałnietylkoodstanukońcowegoalerównieżodliczby wykonanychruchów,wtedynieopłacałobymusięstosowaćtakkonserwatywnej polityki. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne3

U w zg lę d n ie n ie k o sz tó w ru ch u

Przyjęcieniezerowegokoszturuchu,pomniejszawynikuzyskanywstanachkońcowych osumarycznykosztwszystkichruchów.Oczywiściewpływatonakształtoptymalnej politykiagenta. Naprzykład,diagramprzedstawiaoptymalną politykęuwzględniającąkosztyruchu wwysokości1/25jednostki.Zauważmy,że wstanach(4,1)i(3,2)politykadyktujeteraz ruchbezpośredniowkierunkustanu(4,3), pomimoryzyka.Jednakwpunktach(2,1) i(3,1)nadalzalecanyjestruchokrężny. 1234+ 1 − 12 13 Formalnie,kosztyruchówwprowadzasięwpostacifunkcjinagrodydlastanów R(s)=−0.04,wtymprzypadkunagrodyowartościujemnej,czylikary.Sumanagród dlasekwencjistanówwyznaczaużytecznośćtejsekwencji. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne4

(2)

P ro b le m y d e cy zy jn e M ar k o w a

Obliczaniepolitykiwpostacikompletnegoodwzorowaniastanówdozbioruakcji nazywanejestproblememdecyzyjnymMarkowa(MDP)jeśli prawdopodobieństwaprzejśćwynikającezpodejmowanychakcjizależątylkood bieżącegostanu,anienp.odhistorii.Mówimywtedy,żeproblemposiadawłasność Markowa. Formalnie,problemdecyzyjnyMarkowajestokreślonyprzez: •zbiórstanówzestanempoczątkowyms0 •zbiórakcjiActions(s)możliwychwstanies •modelprzejśćP(s′ |s,a) •funkcjęnagrodyR(s)(możliwerównież:R(s,a),R(s,a,s′ )) RozwiązaniemMDPjestpolitykaπ(s)przyporządkowującakażdemustanowiruch. Zauważmy,żewwarunkachniepewności,każdepodjęciedziałaniaprzezagentazgodne zpewnąpolitykąmożeskończyćsięinnąścieżkądziałań,iinnymwynikiem. Optymalnąpolitykąπ∗ (s)nazywamypolitykęosiągającąnajwyższąoczekiwaną użyteczność. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne5

W p ły w fu n k cj i n a g ro d y n a p o li ty k ę a g e n ta

Zmienianiewartościnagrodydlastanówpowodujezmianęoptymalnejpolitykidla zagadnienia.Przybardzodużychnegatywnychnagrodach(wysokichkarach)zalecane jestjaknajszybszepodążaniedostanukońcowego,obojętniektórego.Przyzbliżaniu sięnagrodydozerapowracapierwotna„rozrzutna”polityka. − 1+ 1 r = [−0.4278 : −0.0850] − 1+ 1 r = [−0.0480 : −0.0274]

− 1

+ 1 r = [−0.0218 : 0.0000]

− 1

+ 1 r = [− : −1.6284]

8

1234

+ 1 − 12 1

3 Wprzypadkudodatnichwartościnagrodyagentowiprzestajesięopłacaćwogóle zmierzaćwkierunkurozwiązania.Działanieprzynosizyski,więcnależydziałać,anie kończyć,zatemagentunikastanówterminalnych. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne6

P ro b le m h o ry zo n tu

WproblemachMDPstanynieposiadająużyteczności,zwyjątkiemstanówkońcowych. Możemyjednakmówićoużytecznościsekwencji(historii)stanówUh([s0,s1,...,sn]), jeśliodpowiadaonazastosowanejsekwencjiakcji,iprowadzidostanukońcowego.Jest onawtedyrównauzyskanemuwynikowikońcowemu. Poprzedniozdeﬁniowaliśmyoptymalnąpolitykęnapodstawieoczekiwanejużyteczności sekwencjistanów.Jednakwyznaczenieoptymalnejpolitykizależyodistotnejkwestii: czymamydodyspozycjinieskończonyhoryzontczasowy,czyteżhoryzont ograniczonydojakiejśskończonejliczbykroków?Wtymdrugimprzypadkukonkretna wartośćhoryzontumożewpływaćnakształtpolitykioptymalnej.Wtakich przypadkachmówimy,żeoptymalnapolitykajestniestacjonarna.Dlaproblemówz nieskończonymhoryzontempolitykaoptymalnajeststacjonarna. Obliczanieoptymalnejpolitykiprzyskończonychhoryzontachjesttrudniejsze,inarazie będziemyrozważalizagadnieniazhoryzontemnieskończonym. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne7

D ys k o n to w a n ie

Jakpokazujerozważanywcześniejprzykład,nieskończonesekwencjeakcjimogąsię zdarzać,anawetmogąstanowićoptymalnąpolitykęagenta.Rozważanie nieskończonych,albochoćbybardzodługich,sekwencjijestczasamikonieczne,np.gdy zagadnienienieposiadastanówterminalnych,albogdyagentmożeichnieosiągnąć. Jednaktakieobliczeniasąkłopotliwe,ponieważsumynagródosiągająwtedy nieskończonewartości,któretrudnojestporównywać. Jakojednozrozwiązańtegoproblemustosujesiętechnikęzwanądyskontowaniem (discounting)polegającąnaefektywnymzmniejszeniuwkładuprzyszłychnagróddo użytecznościzapomocąwspółczynnika0<γ<1.UżytecznośćsekwencjistanówH deﬁniujemyjakoU(H)=

P iγiRi,czyli: Uh([s0,s1,...,sn])=R(s0)+γR(s1)+γ2 R(s2)+...+γn R(sn) Dlaγ<1iR≤Rmaxtakzeﬁniowaneużytecznościsązawszeskończone. Technikadyskontowaniamaswojeintuicyjneuzasadnieniewwieludziedzinachżycia. Odzwierciedlaonamniejszeznaczenienagródwodległejprzyszłości.Podobnie, wekonomiistosujesiędyskontowaniewoceniewartościinwestycji. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne8

(3)

P o li ty k i w ła śc iw e i u śr e d n ia n ie

Wprzypadkunieskończonychsekwencjiruchówistniejąjeszczeinnemożliwepodejścia pozadyskontowaniem.Naprzykład,jakoużytecznośćsekwencjimożnaprzyjąć średniąnagrodęobliczanąnajedenkrok. Zkolei,jeślizagadnienieposiadastanyterminalne,tomożliwejestwyznaczenie polityki,któragwarantujedoprowadzenieagentadojednegoztychstanów.Wtedy rozważanieużytecznościsekwencjinieskończonychniewchodziwgrę.Polityki gwarantującedoprowadzeniaagentadoktóregośzestanówterminalnychnazywamy politykamiwłaściwymi. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne9

W ła sn o śc i u ży te cz n o śc i se k w e n cj i st a n ó w

Funkcjęużytecznościsekwencjistanównazywamyseparowalnąjeśli: U([s0,s1,...,sn])=f(s0,U([s1,...,sn])) Zauważmy,żedlanaszegoprzykładowegozagadnienia4×3funkcjaużytecznościjest separowalna,ponieważmożnająobliczaćzwzoru: Uh([s0,s1,...,sn])=R(s0)+R(s1)+···+R(sn) Mówimy,żefunkcjaużytecznościsekwencjistanówjestaddytywna,gdyposiada następującąwłasność: Uh([s0,s1,...,sn])=R(s0)+Uh([s1,...,sn]) Okazujesię,żewwieluzagadnieniachpraktycznychfunkcjeużytecznościsą addytywne.Naprzykład,rozważającfunkcjekosztuwzagadnieniachprzeszukiwania, domyślniezakładaliśmy,żesąoneaddytywne.Addytywnośćoznaczałatam,że poniesionekosztypoprostusięsumują. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne10

O b li cz a n ie o p ty m a ln e j p o li ty k i — u ży te cz n o śc i st a n ó w

Dowyznaczaniapolitykioptymalnejprzydałybysięużytecznościstanów(np.takiejak nadiagramiepolewej,jednakniepytajmynarazieskądsięwzięły).Moglibyśmywtedy posłużyćsięzasadąMEU(maksymalnejoczekiwanejużyteczności),idlakażdego stanuwyznaczyćruch,którymaksymalizujeoczekiwanąużyteczność. 1234+ 1 − 12 13 0.7620.660 0.7050.6550.611

0.812 0.388

0.8680.918 1234

+ 1 − 12 1

3 JednakwzagadnieniachMDPstanyjakotakieniemająobiektywnychużyteczności! „Użyteczność”stanuzależyodpolitykiagenta,odtegocozamierzaonwdanym staniezrobić.Jednocześniepolitykaagentazależyod„użyteczności”stanów. Użytecznośćstanówmożnawięcwprowadzićnapodstawiepolityki. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne11

U ży te cz n o śc i st a n ó w

Użytecznośćstanuzewzględunadanąpolitykęmożnazdeﬁniowaćjakowartość oczekiwanąnagróduzyskanychprzezdziałaniezaczynającesięwtymstanie: Uπ (s)=E

 ∞X t=0γt R(st)

  PrzezStoznaczamytuzmiennąlosowąoznaczającąstanwjakimagentznajdziesięw krokutpowystartowaniuzestanusirealizowaniupolitykiπ. Okazujesię,żepomimoiżteoretyczniepolitykaoptymalnaπ∗ =argmax πUπ (s)zależy odwyborustanupoczątkowego,todlaprocesówdecyzyjnychposiadającychwłasność Markowa,dlanieskończonychsekwencjiiprzyzastosowaniudyskontowania,niematej zależności.Politykaoptymalnawyznaczającadrogęagentajesttakasamaniezależnie odpunktustartowego. JakoużytecznośćstanówU(s)będziemywięcprzyjmowaćtakwłaśnieokreśloną użytecznośćtegostanuzewzględunapolitykęoptymalnąUπ∗ (s). Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne12

(4)

P ro g ra m o w a n ie d yn a m ic zn e

Optymalnąpolitykęπ∗jakofunkcjęokreślonąnazbiorzestanówmożnazwiązać zfunkcjąużytecznościstanów(jeszczenieznaną): π∗ (s)=argmax a

X s′P(s′ |s,a)U(s′ ) gdzieP(s′ |s,a)jestprawdopodobieństwem,żeagentosiągniestans′ jeśliznajdziesię wstaniesizastosujeakcjęa. Ponieważużytecznośćstanuchcemyokreślićjakowartośćoczekiwanądyskontowanej sumynagródsekwencjistanów,zatemmożnajązwiązaćzużytecznościamistanów sąsiednichnastępującymrównaniem(Bellman1957): U(s)=R(s)+γmax a

X s′P(s′ |s,a)U(s′ ) Dlanstanówuzyskujemywtedynrównań—niestetynieliniowychzewzględuna obecnośćoperatoramax—znniewiadomymi.Rozwiązywanietegorównania nazywanejestprogramowaniemdynamicznym. Podejmowaniezłożonychdecyzji—iteracjawartości13

n -k ro k o w e p ro b le m y d e cy zy jn e

Gdybywjakimśzagadnieniustanykońcowebyłyosiąganezeznanymiużytecznościami podokładnienkrokach,wtedymożmazrównaniaBellmananajpierwwyznaczyć użytecznościstanówwkrokun−1,potemwkrokun−2,itd.,ażdostanu początkowego.Zagadnienietegotypunazywanejestn-krokowymproblemem decyzyjnym,iznalezieniejegorozwiązaniajeststosunkowoproste. Niestety,wwiększościzagadnieńpraktycznychniemożemyzakładaćstałej,n-krokowej sekwencjikroków,np.zewzględunapojawianiesiępętli. Podejmowaniezłożonychdecyzji—iteracjawartości14

A lg o ry tm it e ra cj i w ar to śc i

Dlazagadnień,którychniemożnaprzedstawićwpostacipowyższegon-krokowego problemudecyzyjnego,możnaobliczyćprzybliżonewartościużytecznościstanów wprocesieiteracyjnymzwanymiteracjąwartości: Ut+1(s)=R(s)+γmaxa

X s′P(s′ |s,a)Ut(s′ ) Wkroku(t=0)przyjmujemydowolnewartościużytecznościwszystkichstanów,iw kolejnychkrokachalgorytmuobliczamykolejneichprzybliżenia. Algorytmmożnazatrzymaćporównująckolejnewartościużytecznościstanów, ioszacowującwtensposóbbłąd.Optymalnapolitykamożebyćwyznaczonaprzez przybliżonewartościużyteczności,nawetprzedichzbiegnięciemsię. Podejmowaniezłożonychdecyzji—iteracjawartości15

A lg o ry tm it e ra cj i w ar to śc i — p rz yk ła d

-1

-0.5

00.5

1 051015202530

Utility estimates

Number of iterations

(4,3) (3,3) (2,3) (1,1) (3,1) (4,1) (4,2) Podejmowaniezłożonychdecyzji—iteracjawartości16

(5)

Z b ie żn o ść a lg o ry tm u it e ra cj i w ar to śc i

Wrozważanymprzykładzieproceduraiteracjiwartościprzykładniezbiegłasięwe wszystkichstanach.Pytaniejednakczymożnaliczyć,żetakbędziezawsze? Okazujesię,żetak.Algorytmiteracjiwartościzawszedoprowadzidoosiągnięcia ustalonychwartościużytecznościstanów,któresąjedynymrozwiązaniemrównania Bellmana.Możnaokreślićliczbęiteracjialgorytmuniezbędnądoosiągnięciadowolnie określonegobłęduǫ,gdzieRmaxjestgórnymograniczeniemwartościnagrody: N=⌈log(2Rmax/ǫ(1−γ))/log(1/γ)⌉ Podejmowaniezłożonychdecyzji—iteracjawartości17

Z b ie żn o ść a lg o ry tm u it e ra cj i w ar to śc i — u w a g i

•Wpraktycewalgorytmieiteracjiwartościmożnastosowaćkryteriumstopu: ||Ui+1−Ui||<ǫ(1−γ)/γ •Wpraktyceoptymalnąpolitykęalgorytmwyznaczaistotniewcześniej,niżwartości użytecznościustabilizująsięzmałymibłędami. •Nrośniewnieograniczonysposób,gdyγzbliżasiedojedynki.Możnaprzyspieszyć zbieżnośćzmniejszającγ,aletooznaczaskróceniehoryzontuagentaizaniedbanie efektówdługofalowych. •Dlaγ=1jeśliwzagadnieniuistniejąstanyterminalne,możnawyprowadzić podobnedopowyższychkryteriazbieżnościibłędów. Podejmowaniezłożonychdecyzji—iteracjawartości18

A lg o ry tm it e ra cj i p o li ty k i

Ponieważczęstooptymalnapolitykajestwzględnienieczułanakonkretnewartości funkcjiużyteczności,możnająobliczaćinnymprocesemiteracyjnym,zwanymiteracją polityki.Polegaonanawyborzedowolnejpolitykipoczątkowejπ0,anastępnie cyklicznym,naprzemiennym,obliczaniukolejnychprzybliżeńuaktualnionych użyteczności,zgodniezponiższymwzorem: Ut+1(s)=R(s)+γ^X s′P(s′ |s,πt(s))Ut+1(s′ ) orazuaktualnionejpolityki,zgodniezwzorem: πt+1(s)=argmax a

X s′P(s′ |s,a)Ut(s′ ) Wpowyższychwzorachπt(s)oznaczaakcjęwyznaczonąprzezaktualnąpolitykęπtdla stanus.Zauważmy,żepierwszywzórgenerujeukładrównańliniowych,któremożna rozwiązaćdokładniezewzględunaUt+1(sątodokładnewartościużytecznościdla aktualnejprzybliżonejpolityki)wczasieO(n3 ). Podejmowaniezłożonychdecyzji—iteracjapolityki19

A lg o ry tm it e ra cj i p o li ty k i (c d .)

Algorytmiteracjipolitykizatrzymujesię,gdykrokaktualizacjipolitykinicjużnie zmienia.Ponieważdlaskończonejprzestrzeniistniejeskończonaliczbapolityk,zatem algorytmnapewnozatrzymasię. Dlamałychprzestrzenistanów(nwO(n3))powyższaprocedurajestczęsto najefektywniejsza.JednakdlawiększychprzestrzeniczynnikO(n3 )powodujeznaczne spowolnienieprocesu.Możnawtedystosowaćzmodyﬁkowanąiteracjępolityki polegającąnaiteracyjnejaktualizacjiwartościużyteczności—zamiastich każdorazowegodokładnegowyznaczania—zwykorzystaniemuproszczonejaktualizacji Bellmanazgodniezwzorem: Ut+1(s)=R(s)+γ^X s′P(s′ |s,πt(s))Ut(s′ ) WporównaniuzoryginalnymrównaniemBellmanapominiętetuzostałoobliczanie optymalnejakcji,ponieważtutajakcjewyznaczaaktualnapolityka.Tymsamym obliczenietojestprostsze,imożnawykonaćkilkakrokówtakichaktualizacjiprzed kolejnymkrokiemiteracjipolityki(czyliaktualizacjąpolityki). Podejmowaniezłożonychdecyzji—iteracjapolityki20

(6)

B ra k p e w n e j in fo rm a cj i o st a n ie — P O M D P

Wogólnymprzypadkuagentmożeniebyćwstaniestwierdzićwjakimstanieznalazł siępowykonaniuakcji,araczejmożetostwierdzićzpewnymprawdopodobieństwem. Takiezagadnienianazywamyczęściowoobserwowalnymiproblemami decyzyjnymiMarkowa(POMDP).Wtychproblemachagentmusiobliczać oczekiwanąużytecznośćswoichakcjibiorącpoduwagęróżnemożliweichwyniki,jak równieżróżnemożliwenoweinformacje(nadalniekompletne),któremożeuzyskać, wzależnościodtegowjakimstaniesięznajdzie. Rozwiązanieproblemudecyzyjnegomożnaotrzymaćobliczającrozkład prawdopodobieństwapowszystkichmożliwychstanach,wktórychagentmożesię potencjalnieznajdować,uwzględniającniepewnąinformacjęootoczeniujakąudałomu sięzgromadzić.Jednakwogólnymprzypadkuobliczenietojestutrudnionezewzględu nafakt,żepodjęciedanejakcjispowodujeotrzymanieprzezagentajakichśnowych informacji,któremogązmienićjegoposiadanąwiedzęwsposóbtrudnydo uwzględnienia.Praktycznieagentmusibraćpoduwagęnoweinformacje,jakiemoże otrzymać,narównizestanami,doktórychmożetraﬁć.Pojawiasiętuponownie kwestiawartościinformacjirozważanawcześniej. Podejmowaniezłożonychdecyzji—częściowoobserwowalneMDP21

P O M D P — fo rm a li za cj a

ZagadnieniePOMDPjestzdeﬁniowaneprzeznastępująceelementy: •zbiórstanów,jednakbezstanupoczątkowegos0, •zbiórakcjiActions(s)możliwychwstanies, •funkcjęprzejść:P(s′|s,a)—rozkładprawdopodobieństwprzejściadostanus′po wykonaniuakcjiawstanies, •funkcjanagrody:R(s), •modelczujników:P(e|s)—rozkładprawdopodobieństwuzyskaniaobserwacjie (evidence),częściowobłędnej,wstanies, •początkowystanprzekonań:b0. WzagadnieniachPOMDPbrakjestzałożeniaoznajomościstanupoczątkowego. Zamiasttego,wprowadzasięstanprzekonańagentab(s)(beliefstate),któryjest rozkłademprawdopodobieństw,żeagentjestwpewnymstanies.Wchwili początkowejznamyjedyniepoczątkowystanprzekonańb0. Zadaniemjestobliczeniepolityki,generującejsekwencjęruchówomaksymalnej użyteczności.Oczywiście,wtrakciewykonywaniatejsekwencjiagentbędziezmieniał swójstanprzekonań,takzewzględunaotrzymywanewichwynikuobserwacje,jak inaskuteksamegowykonywaniaakcji. Podejmowaniezłożonychdecyzji—częściowoobserwowalneMDP22

P O M D P — p rz yk ła d

Rozważmyponownieprzykładagentawśrodowisku4x3, jednaktymrazemagentniewiewjakimstaniepoczątkowym sięznajduje,imusiprzyjąćrówneprawdopodobieństwo1 9 znajdowaniasięwkażdymznieterminalnychstanów. Jakamożebyćterazoptymalnapolityka? Rysunkiponiżejprzedstawiająkolejnerozkładyprawdopodobieństwpołożeniaagenta powykonaniuprzezniegokolejnopopięciuruchów:wlewo,wgórę,iwprawo.Jestto politykaniezwykleostrożnaikonserwatywna,alerozrzutna.Jakkolwiekagent zprawdopodobieństwem0.775znajdziesięw„dobrym”stanieterminalnym,to oczekiwanaużytecznośćtejsekwencjiwynositylko0.08. Podejmowaniezłożonychdecyzji—częściowoobserwowalneMDP23 Podejmowaniezłożonychdecyzji—częściowoobserwowalneMDP24

(7)

R o zw ią zy w a n ie p ro b le m ó w P O M D P

KluczemdorozwiązaniaPOMPDjestzrozumienie,żewybóroptymalnejakcjizależy tylkoodaktualnegostanuprzekonańagenta.Ponieważagentnieznaswojegostanu (itaknaprawdęnigdygoniepozna),zatemjegooptymalnapolitykamusibyć odwzorowaniemπ∗(b)stanówprzekonańnaakcje. Kolejnestanyprzekonańmożemyobliczaćwedługwzoru: b′ (s′ )=αP(e|s′ )^X sP(s′ |s,a)b(s) gdzieP(e|s′)określaprawdopodobieństwootrzymaniaobserwacjiewstanies′,aα jestpomocnicząstałąnormalizującąsumęstanówprzekonańdo1. CyklroboczyagentaPOMDP,zakładając,żeobliczyłonswojąkompletnąoptymalną politykęπ∗ (b),jestwięcnastępujący: 1.Dlabieżącegostanuprzekonańb,wykonajakcjęπ∗ (b). 2.Odbierzobserwacjęe. 3.Przejdźdostanuprzekonańb′ (s′ ),ipotwórzcykl. Podejmowaniezłożonychdecyzji—częściowoobserwowalneMDP25

P rz e st rz e ń st a n ó w p rz e k o n a ń

PonieważmodelMDPuwzględniarozkładyprawdopodobieństw,ipozwala rozwiązywaćtakiezagadnienia,problemyPOMDPmożnaprzekształcaćna równoważneproblemyMDPokreślonewprzestrzeniprzekonań.Wtejprzestrzeni operujemynarozkładzieprawdopodobieństwosiągnięciaprzezagentazbioruprzekonań b′gdyobecnieposiadaonzbiórprzekonańbiwykonaakcjęa.Dlazagadnieniaon stanach,bsąn-elementowymiwektoramiowartościachrzeczywistych. Zauważmy,żeprzestrzeństanówprzekonań,doktórejzaprowadziłonasrozważanie zagadnieńPOMDP,jestprzestrzeniąciągłą,wodróżnieniuodoryginalnego zagadnienia.Ponadtotypowojesttoprzestrzeńwielowymiarowa.Naprzykład,dla świata4×3zpoprzedniegoprzykładu,bedzietoprzestrzeń11-wymiarowa. Przedstawionewcześniejalgorytmyiteracjiwartościiiteracjipolitykinienadająsiędo rozwiązywaniatakichzagadnień.Ichrozwiązywaniejestogólniebardzotrudne obliczeniowo(PSPACE-trudne). Podejmowaniezłożonychdecyzji—częściowoobserwowalneMDP26

P rz e k sz ta łc e n ie P O M D P d o M D P

P(e|a,b)=

X s′P(e|a,s′ ,b)P(s′ |a,b) =

X s′P(e|s′ )P(s′ |a,b) =

X s′P(e|s′ )

X sP(s′ |s,a)b(s) P(b′ |b,a)=P(b′ |a,b)=

X eP(b′ |e,a,b)P(e|a,b) =

X eP(b′ |e,a,b)

X s′P(e|s′ )

X sP(s′ |s,a)b(s) gdzie P(b′ |e,a,b)=

      

1gdyb′ (s′ )=αP(e|s′ )

P sP(s′ |s,a)b(s) 0wprzeciwnymwypadku Podejmowaniezłożonychdecyzji—częściowoobserwowalneMDP27 Powyższerównaniemożnatraktowaćjakodeﬁnicjęmodeluprzejśćdlaprzestrzeni stanówprzekonań.Pozostajejeszczeprzedeﬁniowaćfunkcjęnagrody: ρ(b)=

X sb(s)R(s) iwszystkiepowyżejzdeﬁniowaneelementyskładająsięnacałkowicieobserwowalny procesMarkowa(MDP)naprzestrzenistanówprzekonań. Możnaudowodnić,żeoptymalnapolitykaπ∗(b)dlategoMDPjestjednocześnie optymalnąpolitykądlaoryginalnegozagadnieniaPOMDP. Podejmowaniezłożonychdecyzji—częściowoobserwowalneMDP28

(8)

O b li cz a n ie o p ty m a ln e j p o li ty k i P O M D P

Schematalgorytmu:deﬁniujemypolitykęπ(b)dlaregionówprzestrzeniprzekonań, gdziedlajednegoregionupolitykawyznaczajednąakcję.Następnieprocesiteracyjny podobnydoalgorytmówiteracjiwartościczyiteracjipolitykiaktualizujegranice regionów,imożewprowadzaćnoweregiony. Obliczonatymalgorytmemoptymalnapolitykaagentadlapowyższegoprzykładudaje następującąsekwencjęakcji: [L,U,U,R,U,U,(R,U,U)*] (cykliczniepowtarzającasięnieskończonasekwencjaR-U-Ujestkoniecznazewzględu naniepewnośćosiągnięciastanuterminalnego).Agentosiągniepożądanystan docelowyzprawdopodobieństwem0.866,aoczekiwanawartośćużytecznościtego rozwiązaniawynosi0.38,czyliistotnielepiejniżdlapierwotniezaproponowanejnaiwnej polityki(0.08). Podejmowaniezłożonychdecyzji—częściowoobserwowalneMDP29