S e k w e n cy jn e p ro b le m y d e cy zy jn e
Wsekwencyjnychproblemachdecyzyjnychużytecznośćdziałańagentanie zależyodpojedynczejdecyzji,wyrażonejstanem,doktóregotadecyzja doprowadziłabyagenta,aleraczejodcałejsekwencjijegoakcji. PRZYKŁAD:agentznajdujesięwpolu start,imożeporuszaćsięwewszystkich kierunkachmiędzykratkami.Jego działalnośćkończysięgdyosiągniejedno zpól(4,2)lub(4,3),zwynikiem zaznaczonymwtychpolach. 1234+ 1 − 12 13 START Gdybyzagadnieniebyłowpełnideterministyczne—itymsamymwiedzaagenta ojegopołożeniupełna—toproblemsprowadzałbysiędoplanowaniadziałań.Na przykład,dlapowyższegozagadnieniaprzykładowegodobrymrozwiązaniembyłby następującyplandziałań:U-U-R-R-R.Alerówniedobrybyłbyplan:R-R-U-U-R.Jeśli wdodatkupojedynczeakcjenicniekosztują(czyliliczysiętylkostankońcowy),to równiedobryjestnawetplan:R-R-R-L-L-L-U-U-R-R-R,iwieleinnych. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne1N ie p e w n o ść e fe k tó w d zi a ła ń a g e n ta
Jednakpouwzględnieniuniepewności,wynikdziałańagentajestzgodnyzjego intencjątylkozpewnymprawdopodobieństwem.Naprzykład,możemyprzyjąć,że akcjaU(Up)przenosiagentanapożądanąpozycję„wgórę”zprawdopodobieństwem 0.8,natomiastzprawdopodobieństwem0.1wykonujeruchwlewo,ipodobnie wprawo.Pewnejesttylko,żeagentniepójdziewkierunkuprzeciwnymdo zamierzonego.Abyuprościćanalizęprzyjmijmydodatkowo,żeobecnośćściannie zmieniategorozkładuprawdopodobieństwa,atylkospowodujeniewykonanieżadnego ruchu,gdyby„wypadło”ruszyćsięwścianę. 0.8 0.10.1 Wtejsytuacjimożemyobliczaćwartościoczekiwanesekwencjiruchówagenta.Ogólnie agentniemożemiećpewności,żepowykonaniudowolnejzpowyższychsekwencji znajdziesięwpożądanymstanieterminalnym. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne2P o li ty k a a g e n ta
Wodróżnieniuodalgorytmówplanowaniadziałań,agentpowinienwypracowaćswoją strategięniewpostacikonkretnejsekwencjidziałań,leczwpostacipolityki,czyli schematuwyznaczającegoakcje,którepowinnybyćpodjętedlakażdegokonkretnego stanu,gdybyagentwnimsięznalazł. Możnaokreślićoptymalnąpolitykędla zagadnieniaprzykładowego.Zauważmy,że wpunkcie(3,2)politykanakazujeagentowi próbowaćruchuwlewo,copozornieniema sensu,alepozwalaagentowiustrzecsięprzed wylądowaniemwniepożądanymstanie(4,2). Podobnasytuacjajestwstanie(4,1). 1234+ 1 − 12 13 Takapolitykawynikaoczywiściezdomyślnegoprzyjęciazerowegokoszturuchów. Gdybywynikagentazależałnietylkoodstanukońcowegoalerównieżodliczby wykonanychruchów,wtedynieopłacałobymusięstosowaćtakkonserwatywnej polityki. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne3U w zg lę d n ie n ie k o sz tó w ru ch u
Przyjęcieniezerowegokoszturuchu,pomniejszawynikuzyskanywstanachkońcowych osumarycznykosztwszystkichruchów.Oczywiściewpływatonakształtoptymalnej politykiagenta. Naprzykład,diagramprzedstawiaoptymalną politykęuwzględniającąkosztyruchu wwysokości1/25jednostki.Zauważmy,że wstanach(4,1)i(3,2)politykadyktujeteraz ruchbezpośredniowkierunkustanu(4,3), pomimoryzyka.Jednakwpunktach(2,1) i(3,1)nadalzalecanyjestruchokrężny. 1234+ 1 − 12 13 Formalnie,kosztyruchówwprowadzasięwpostacifunkcjinagrodydlastanów R(s)=−0.04,wtymprzypadkunagrodyowartościujemnej,czylikary.Sumanagród dlasekwencjistanówwyznaczaużytecznośćtejsekwencji. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne4P ro b le m y d e cy zy jn e M ar k o w a
Obliczaniepolitykiwpostacikompletnegoodwzorowaniastanówdozbioruakcji nazywanejestproblememdecyzyjnymMarkowa(MDP)jeśli prawdopodobieństwaprzejśćwynikającezpodejmowanychakcjizależątylkood bieżącegostanu,anienp.odhistorii.Mówimywtedy,żeproblemposiadawłasność Markowa. Formalnie,problemdecyzyjnyMarkowajestokreślonyprzez: •zbiórstanówzestanempoczątkowyms0 •zbiórakcjiActions(s)możliwychwstanies •modelprzejśćP(s′ |s,a) •funkcjęnagrodyR(s)(możliwerównież:R(s,a),R(s,a,s′ )) RozwiązaniemMDPjestpolitykaπ(s)przyporządkowującakażdemustanowiruch. Zauważmy,żewwarunkachniepewności,każdepodjęciedziałaniaprzezagentazgodne zpewnąpolitykąmożeskończyćsięinnąścieżkądziałań,iinnymwynikiem. Optymalnąpolitykąπ∗ (s)nazywamypolitykęosiągającąnajwyższąoczekiwaną użyteczność. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne5W p ły w fu n k cj i n a g ro d y n a p o li ty k ę a g e n ta
Zmienianiewartościnagrodydlastanówpowodujezmianęoptymalnejpolitykidla zagadnienia.Przybardzodużychnegatywnychnagrodach(wysokichkarach)zalecane jestjaknajszybszepodążaniedostanukońcowego,obojętniektórego.Przyzbliżaniu sięnagrodydozerapowracapierwotna„rozrzutna”polityka. − 1+ 1 r = [−0.4278 : −0.0850] − 1+ 1 r = [−0.0480 : −0.0274]− 1
+ 1 r = [−0.0218 : 0.0000]
− 1
+ 1 r = [− : −1.6284]
8
1234
+ 1 − 12 1
3 Wprzypadkudodatnichwartościnagrodyagentowiprzestajesięopłacaćwogóle zmierzaćwkierunkurozwiązania.Działanieprzynosizyski,więcnależydziałać,anie kończyć,zatemagentunikastanówterminalnych. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne6
P ro b le m h o ry zo n tu
WproblemachMDPstanynieposiadająużyteczności,zwyjątkiemstanówkońcowych. Możemyjednakmówićoużytecznościsekwencji(historii)stanówUh([s0,s1,...,sn]), jeśliodpowiadaonazastosowanejsekwencjiakcji,iprowadzidostanukońcowego.Jest onawtedyrównauzyskanemuwynikowikońcowemu. Poprzedniozdefiniowaliśmyoptymalnąpolitykęnapodstawieoczekiwanejużyteczności sekwencjistanów.Jednakwyznaczenieoptymalnejpolitykizależyodistotnejkwestii: czymamydodyspozycjinieskończonyhoryzontczasowy,czyteżhoryzont ograniczonydojakiejśskończonejliczbykroków?Wtymdrugimprzypadkukonkretna wartośćhoryzontumożewpływaćnakształtpolitykioptymalnej.Wtakich przypadkachmówimy,żeoptymalnapolitykajestniestacjonarna.Dlaproblemówz nieskończonymhoryzontempolitykaoptymalnajeststacjonarna. Obliczanieoptymalnejpolitykiprzyskończonychhoryzontachjesttrudniejsze,inarazie będziemyrozważalizagadnieniazhoryzontemnieskończonym. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne7D ys k o n to w a n ie
Jakpokazujerozważanywcześniejprzykład,nieskończonesekwencjeakcjimogąsię zdarzać,anawetmogąstanowićoptymalnąpolitykęagenta.Rozważanie nieskończonych,albochoćbybardzodługich,sekwencjijestczasamikonieczne,np.gdy zagadnienienieposiadastanówterminalnych,albogdyagentmożeichnieosiągnąć. Jednaktakieobliczeniasąkłopotliwe,ponieważsumynagródosiągająwtedy nieskończonewartości,któretrudnojestporównywać. Jakojednozrozwiązańtegoproblemustosujesiętechnikęzwanądyskontowaniem (discounting)polegającąnaefektywnymzmniejszeniuwkładuprzyszłychnagróddo użytecznościzapomocąwspółczynnika0<γ<1.UżytecznośćsekwencjistanówH definiujemyjakoU(H)=P iγiRi,czyli: Uh([s0,s1,...,sn])=R(s0)+γR(s1)+γ2 R(s2)+...+γn R(sn) Dlaγ<1iR≤Rmaxtakzefiniowaneużytecznościsązawszeskończone. Technikadyskontowaniamaswojeintuicyjneuzasadnieniewwieludziedzinachżycia. Odzwierciedlaonamniejszeznaczenienagródwodległejprzyszłości.Podobnie, wekonomiistosujesiędyskontowaniewoceniewartościinwestycji. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne8
P o li ty k i w ła śc iw e i u śr e d n ia n ie
Wprzypadkunieskończonychsekwencjiruchówistniejąjeszczeinnemożliwepodejścia pozadyskontowaniem.Naprzykład,jakoużytecznośćsekwencjimożnaprzyjąć średniąnagrodęobliczanąnajedenkrok. Zkolei,jeślizagadnienieposiadastanyterminalne,tomożliwejestwyznaczenie polityki,któragwarantujedoprowadzenieagentadojednegoztychstanów.Wtedy rozważanieużytecznościsekwencjinieskończonychniewchodziwgrę.Polityki gwarantującedoprowadzeniaagentadoktóregośzestanówterminalnychnazywamy politykamiwłaściwymi. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne9W ła sn o śc i u ży te cz n o śc i se k w e n cj i st a n ó w
Funkcjęużytecznościsekwencjistanównazywamyseparowalnąjeśli: U([s0,s1,...,sn])=f(s0,U([s1,...,sn])) Zauważmy,żedlanaszegoprzykładowegozagadnienia4×3funkcjaużytecznościjest separowalna,ponieważmożnająobliczaćzwzoru: Uh([s0,s1,...,sn])=R(s0)+R(s1)+···+R(sn) Mówimy,żefunkcjaużytecznościsekwencjistanówjestaddytywna,gdyposiada następującąwłasność: Uh([s0,s1,...,sn])=R(s0)+Uh([s1,...,sn]) Okazujesię,żewwieluzagadnieniachpraktycznychfunkcjeużytecznościsą addytywne.Naprzykład,rozważającfunkcjekosztuwzagadnieniachprzeszukiwania, domyślniezakładaliśmy,żesąoneaddytywne.Addytywnośćoznaczałatam,że poniesionekosztypoprostusięsumują. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne10O b li cz a n ie o p ty m a ln e j p o li ty k i — u ży te cz n o śc i st a n ó w
Dowyznaczaniapolitykioptymalnejprzydałybysięużytecznościstanów(np.takiejak nadiagramiepolewej,jednakniepytajmynarazieskądsięwzięły).Moglibyśmywtedy posłużyćsięzasadąMEU(maksymalnejoczekiwanejużyteczności),idlakażdego stanuwyznaczyćruch,którymaksymalizujeoczekiwanąużyteczność. 1234+ 1 − 12 13 0.7620.660 0.7050.6550.6110.812 0.388
0.8680.918 1234
+ 1 − 12 1
3 JednakwzagadnieniachMDPstanyjakotakieniemająobiektywnychużyteczności! „Użyteczność”stanuzależyodpolitykiagenta,odtegocozamierzaonwdanym staniezrobić.Jednocześniepolitykaagentazależyod„użyteczności”stanów. Użytecznośćstanówmożnawięcwprowadzićnapodstawiepolityki. Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne11
U ży te cz n o śc i st a n ó w
Użytecznośćstanuzewzględunadanąpolitykęmożnazdefiniowaćjakowartość oczekiwanąnagróduzyskanychprzezdziałaniezaczynającesięwtymstanie: Uπ (s)=E ∞X t=0γt R(st)
PrzezStoznaczamytuzmiennąlosowąoznaczającąstanwjakimagentznajdziesięw krokutpowystartowaniuzestanusirealizowaniupolitykiπ. Okazujesię,żepomimoiżteoretyczniepolitykaoptymalnaπ∗ =argmax πUπ (s)zależy odwyborustanupoczątkowego,todlaprocesówdecyzyjnychposiadającychwłasność Markowa,dlanieskończonychsekwencjiiprzyzastosowaniudyskontowania,niematej zależności.Politykaoptymalnawyznaczającadrogęagentajesttakasamaniezależnie odpunktustartowego. JakoużytecznośćstanówU(s)będziemywięcprzyjmowaćtakwłaśnieokreśloną użytecznośćtegostanuzewzględunapolitykęoptymalnąUπ∗ (s). Podejmowaniezłożonychdecyzji—sekwencyjneproblemydecyzyjne12
P ro g ra m o w a n ie d yn a m ic zn e
Optymalnąpolitykęπ∗jakofunkcjęokreślonąnazbiorzestanówmożnazwiązać zfunkcjąużytecznościstanów(jeszczenieznaną): π∗ (s)=argmax aX s′P(s′ |s,a)U(s′ ) gdzieP(s′ |s,a)jestprawdopodobieństwem,żeagentosiągniestans′ jeśliznajdziesię wstaniesizastosujeakcjęa. Ponieważużytecznośćstanuchcemyokreślićjakowartośćoczekiwanądyskontowanej sumynagródsekwencjistanów,zatemmożnajązwiązaćzużytecznościamistanów sąsiednichnastępującymrównaniem(Bellman1957): U(s)=R(s)+γmax a
X s′P(s′ |s,a)U(s′ ) Dlanstanówuzyskujemywtedynrównań—niestetynieliniowychzewzględuna obecnośćoperatoramax—znniewiadomymi.Rozwiązywanietegorównania nazywanejestprogramowaniemdynamicznym. Podejmowaniezłożonychdecyzji—iteracjawartości13
n -k ro k o w e p ro b le m y d e cy zy jn e
Gdybywjakimśzagadnieniustanykońcowebyłyosiąganezeznanymiużytecznościami podokładnienkrokach,wtedymożmazrównaniaBellmananajpierwwyznaczyć użytecznościstanówwkrokun−1,potemwkrokun−2,itd.,ażdostanu początkowego.Zagadnienietegotypunazywanejestn-krokowymproblemem decyzyjnym,iznalezieniejegorozwiązaniajeststosunkowoproste. Niestety,wwiększościzagadnieńpraktycznychniemożemyzakładaćstałej,n-krokowej sekwencjikroków,np.zewzględunapojawianiesiępętli. Podejmowaniezłożonychdecyzji—iteracjawartości14A lg o ry tm it e ra cj i w ar to śc i
Dlazagadnień,którychniemożnaprzedstawićwpostacipowyższegon-krokowego problemudecyzyjnego,możnaobliczyćprzybliżonewartościużytecznościstanów wprocesieiteracyjnymzwanymiteracjąwartości: Ut+1(s)=R(s)+γmaxaX s′P(s′ |s,a)Ut(s′ ) Wkroku(t=0)przyjmujemydowolnewartościużytecznościwszystkichstanów,iw kolejnychkrokachalgorytmuobliczamykolejneichprzybliżenia. Algorytmmożnazatrzymaćporównująckolejnewartościużytecznościstanów, ioszacowującwtensposóbbłąd.Optymalnapolitykamożebyćwyznaczonaprzez przybliżonewartościużyteczności,nawetprzedichzbiegnięciemsię. Podejmowaniezłożonychdecyzji—iteracjawartości15
A lg o ry tm it e ra cj i w ar to śc i — p rz yk ła d
-1-0.5
00.5
1 051015202530
Utility estimates
Number of iterations
(4,3) (3,3) (2,3) (1,1) (3,1) (4,1) (4,2) Podejmowaniezłożonychdecyzji—iteracjawartości16
Z b ie żn o ść a lg o ry tm u it e ra cj i w ar to śc i
Wrozważanymprzykładzieproceduraiteracjiwartościprzykładniezbiegłasięwe wszystkichstanach.Pytaniejednakczymożnaliczyć,żetakbędziezawsze? Okazujesię,żetak.Algorytmiteracjiwartościzawszedoprowadzidoosiągnięcia ustalonychwartościużytecznościstanów,któresąjedynymrozwiązaniemrównania Bellmana.Możnaokreślićliczbęiteracjialgorytmuniezbędnądoosiągnięciadowolnie określonegobłęduǫ,gdzieRmaxjestgórnymograniczeniemwartościnagrody: N=⌈log(2Rmax/ǫ(1−γ))/log(1/γ)⌉ Podejmowaniezłożonychdecyzji—iteracjawartości17Z b ie żn o ść a lg o ry tm u it e ra cj i w ar to śc i — u w a g i
•Wpraktycewalgorytmieiteracjiwartościmożnastosowaćkryteriumstopu: ||Ui+1−Ui||<ǫ(1−γ)/γ •Wpraktyceoptymalnąpolitykęalgorytmwyznaczaistotniewcześniej,niżwartości użytecznościustabilizująsięzmałymibłędami. •Nrośniewnieograniczonysposób,gdyγzbliżasiedojedynki.Możnaprzyspieszyć zbieżnośćzmniejszającγ,aletooznaczaskróceniehoryzontuagentaizaniedbanie efektówdługofalowych. •Dlaγ=1jeśliwzagadnieniuistniejąstanyterminalne,możnawyprowadzić podobnedopowyższychkryteriazbieżnościibłędów. Podejmowaniezłożonychdecyzji—iteracjawartości18A lg o ry tm it e ra cj i p o li ty k i
Ponieważczęstooptymalnapolitykajestwzględnienieczułanakonkretnewartości funkcjiużyteczności,możnająobliczaćinnymprocesemiteracyjnym,zwanymiteracją polityki.Polegaonanawyborzedowolnejpolitykipoczątkowejπ0,anastępnie cyklicznym,naprzemiennym,obliczaniukolejnychprzybliżeńuaktualnionych użyteczności,zgodniezponiższymwzorem: Ut+1(s)=R(s)+γX s′P(s′ |s,πt(s))Ut+1(s′ ) orazuaktualnionejpolityki,zgodniezwzorem: πt+1(s)=argmax aX s′P(s′ |s,a)Ut(s′ ) Wpowyższychwzorachπt(s)oznaczaakcjęwyznaczonąprzezaktualnąpolitykęπtdla stanus.Zauważmy,żepierwszywzórgenerujeukładrównańliniowych,któremożna rozwiązaćdokładniezewzględunaUt+1(sątodokładnewartościużytecznościdla aktualnejprzybliżonejpolityki)wczasieO(n3 ). Podejmowaniezłożonychdecyzji—iteracjapolityki19
A lg o ry tm it e ra cj i p o li ty k i (c d .)
Algorytmiteracjipolitykizatrzymujesię,gdykrokaktualizacjipolitykinicjużnie zmienia.Ponieważdlaskończonejprzestrzeniistniejeskończonaliczbapolityk,zatem algorytmnapewnozatrzymasię. Dlamałychprzestrzenistanów(nwO(n3))powyższaprocedurajestczęsto najefektywniejsza.JednakdlawiększychprzestrzeniczynnikO(n3 )powodujeznaczne spowolnienieprocesu.Możnawtedystosowaćzmodyfikowanąiteracjępolityki polegającąnaiteracyjnejaktualizacjiwartościużyteczności—zamiastich każdorazowegodokładnegowyznaczania—zwykorzystaniemuproszczonejaktualizacji Bellmanazgodniezwzorem: Ut+1(s)=R(s)+γX s′P(s′ |s,πt(s))Ut(s′ ) WporównaniuzoryginalnymrównaniemBellmanapominiętetuzostałoobliczanie optymalnejakcji,ponieważtutajakcjewyznaczaaktualnapolityka.Tymsamym obliczenietojestprostsze,imożnawykonaćkilkakrokówtakichaktualizacjiprzed kolejnymkrokiemiteracjipolityki(czyliaktualizacjąpolityki). Podejmowaniezłożonychdecyzji—iteracjapolityki20B ra k p e w n e j in fo rm a cj i o st a n ie — P O M D P
Wogólnymprzypadkuagentmożeniebyćwstaniestwierdzićwjakimstanieznalazł siępowykonaniuakcji,araczejmożetostwierdzićzpewnymprawdopodobieństwem. Takiezagadnienianazywamyczęściowoobserwowalnymiproblemami decyzyjnymiMarkowa(POMDP).Wtychproblemachagentmusiobliczać oczekiwanąużytecznośćswoichakcjibiorącpoduwagęróżnemożliweichwyniki,jak równieżróżnemożliwenoweinformacje(nadalniekompletne),któremożeuzyskać, wzależnościodtegowjakimstaniesięznajdzie. Rozwiązanieproblemudecyzyjnegomożnaotrzymaćobliczającrozkład prawdopodobieństwapowszystkichmożliwychstanach,wktórychagentmożesię potencjalnieznajdować,uwzględniającniepewnąinformacjęootoczeniujakąudałomu sięzgromadzić.Jednakwogólnymprzypadkuobliczenietojestutrudnionezewzględu nafakt,żepodjęciedanejakcjispowodujeotrzymanieprzezagentajakichśnowych informacji,któremogązmienićjegoposiadanąwiedzęwsposóbtrudnydo uwzględnienia.Praktycznieagentmusibraćpoduwagęnoweinformacje,jakiemoże otrzymać,narównizestanami,doktórychmożetrafić.Pojawiasiętuponownie kwestiawartościinformacjirozważanawcześniej. Podejmowaniezłożonychdecyzji—częściowoobserwowalneMDP21P O M D P — fo rm a li za cj a
ZagadnieniePOMDPjestzdefiniowaneprzeznastępująceelementy: •zbiórstanów,jednakbezstanupoczątkowegos0, •zbiórakcjiActions(s)możliwychwstanies, •funkcjęprzejść:P(s′|s,a)—rozkładprawdopodobieństwprzejściadostanus′po wykonaniuakcjiawstanies, •funkcjanagrody:R(s), •modelczujników:P(e|s)—rozkładprawdopodobieństwuzyskaniaobserwacjie (evidence),częściowobłędnej,wstanies, •początkowystanprzekonań:b0. WzagadnieniachPOMDPbrakjestzałożeniaoznajomościstanupoczątkowego. Zamiasttego,wprowadzasięstanprzekonańagentab(s)(beliefstate),któryjest rozkłademprawdopodobieństw,żeagentjestwpewnymstanies.Wchwili początkowejznamyjedyniepoczątkowystanprzekonańb0. Zadaniemjestobliczeniepolityki,generującejsekwencjęruchówomaksymalnej użyteczności.Oczywiście,wtrakciewykonywaniatejsekwencjiagentbędziezmieniał swójstanprzekonań,takzewzględunaotrzymywanewichwynikuobserwacje,jak inaskuteksamegowykonywaniaakcji. Podejmowaniezłożonychdecyzji—częściowoobserwowalneMDP22P O M D P — p rz yk ła d
Rozważmyponownieprzykładagentawśrodowisku4x3, jednaktymrazemagentniewiewjakimstaniepoczątkowym sięznajduje,imusiprzyjąćrówneprawdopodobieństwo1 9 znajdowaniasięwkażdymznieterminalnychstanów. Jakamożebyćterazoptymalnapolityka? Rysunkiponiżejprzedstawiająkolejnerozkładyprawdopodobieństwpołożeniaagenta powykonaniuprzezniegokolejnopopięciuruchów:wlewo,wgórę,iwprawo.Jestto politykaniezwykleostrożnaikonserwatywna,alerozrzutna.Jakkolwiekagent zprawdopodobieństwem0.775znajdziesięw„dobrym”stanieterminalnym,to oczekiwanaużytecznośćtejsekwencjiwynositylko0.08. Podejmowaniezłożonychdecyzji—częściowoobserwowalneMDP23 Podejmowaniezłożonychdecyzji—częściowoobserwowalneMDP24R o zw ią zy w a n ie p ro b le m ó w P O M D P
KluczemdorozwiązaniaPOMPDjestzrozumienie,żewybóroptymalnejakcjizależy tylkoodaktualnegostanuprzekonańagenta.Ponieważagentnieznaswojegostanu (itaknaprawdęnigdygoniepozna),zatemjegooptymalnapolitykamusibyć odwzorowaniemπ∗(b)stanówprzekonańnaakcje. Kolejnestanyprzekonańmożemyobliczaćwedługwzoru: b′ (s′ )=αP(e|s′ )X sP(s′ |s,a)b(s) gdzieP(e|s′)określaprawdopodobieństwootrzymaniaobserwacjiewstanies′,aα jestpomocnicząstałąnormalizującąsumęstanówprzekonańdo1. CyklroboczyagentaPOMDP,zakładając,żeobliczyłonswojąkompletnąoptymalną politykęπ∗ (b),jestwięcnastępujący: 1.Dlabieżącegostanuprzekonańb,wykonajakcjęπ∗ (b). 2.Odbierzobserwacjęe. 3.Przejdźdostanuprzekonańb′ (s′ ),ipotwórzcykl. Podejmowaniezłożonychdecyzji—częściowoobserwowalneMDP25P rz e st rz e ń st a n ó w p rz e k o n a ń
PonieważmodelMDPuwzględniarozkładyprawdopodobieństw,ipozwala rozwiązywaćtakiezagadnienia,problemyPOMDPmożnaprzekształcaćna równoważneproblemyMDPokreślonewprzestrzeniprzekonań.Wtejprzestrzeni operujemynarozkładzieprawdopodobieństwosiągnięciaprzezagentazbioruprzekonań b′gdyobecnieposiadaonzbiórprzekonańbiwykonaakcjęa.Dlazagadnieniaon stanach,bsąn-elementowymiwektoramiowartościachrzeczywistych. Zauważmy,żeprzestrzeństanówprzekonań,doktórejzaprowadziłonasrozważanie zagadnieńPOMDP,jestprzestrzeniąciągłą,wodróżnieniuodoryginalnego zagadnienia.Ponadtotypowojesttoprzestrzeńwielowymiarowa.Naprzykład,dla świata4×3zpoprzedniegoprzykładu,bedzietoprzestrzeń11-wymiarowa. Przedstawionewcześniejalgorytmyiteracjiwartościiiteracjipolitykinienadająsiędo rozwiązywaniatakichzagadnień.Ichrozwiązywaniejestogólniebardzotrudne obliczeniowo(PSPACE-trudne). Podejmowaniezłożonychdecyzji—częściowoobserwowalneMDP26P rz e k sz ta łc e n ie P O M D P d o M D P
P(e|a,b)=X s′P(e|a,s′ ,b)P(s′ |a,b) =
X s′P(e|s′ )P(s′ |a,b) =
X s′P(e|s′ )
X sP(s′ |s,a)b(s) P(b′ |b,a)=P(b′ |a,b)=
X eP(b′ |e,a,b)P(e|a,b) =
X eP(b′ |e,a,b)
X s′P(e|s′ )
X sP(s′ |s,a)b(s) gdzie P(b′ |e,a,b)=
1gdyb′ (s′ )=αP(e|s′ )
P sP(s′ |s,a)b(s) 0wprzeciwnymwypadku Podejmowaniezłożonychdecyzji—częściowoobserwowalneMDP27 Powyższerównaniemożnatraktowaćjakodefinicjęmodeluprzejśćdlaprzestrzeni stanówprzekonań.Pozostajejeszczeprzedefiniowaćfunkcjęnagrody: ρ(b)=
X sb(s)R(s) iwszystkiepowyżejzdefiniowaneelementyskładająsięnacałkowicieobserwowalny procesMarkowa(MDP)naprzestrzenistanówprzekonań. Możnaudowodnić,żeoptymalnapolitykaπ∗(b)dlategoMDPjestjednocześnie optymalnąpolitykądlaoryginalnegozagadnieniaPOMDP. Podejmowaniezłożonychdecyzji—częściowoobserwowalneMDP28