• Nie Znaleziono Wyników

P o li ty k a a g e n ta

N/A
N/A
Protected

Academic year: 2021

Share "P o li ty k a a g e n ta"

Copied!
8
0
0

Pełen tekst

(1)

S e k w e n cy jn e p ro b le m y d e cy zy jn e

Wsekwencyjnychproblemachdecyzyjnychużytecznośćdziałańagentanie zależyodpojedynczejdecyzji,wyrażonejstanem,doktóregotadecyzja doprowadziłabyagenta,aleraczejodcałejsekwencjijegoakcji. PRZYKŁAD:agentznajdujesięwpolu start,imożeporuszaćsięwewszystkich kierunkachmiędzykratkami.Jego działalnośćkończysięgdyosiągniejedno zpól(4,2)lub(4,3),zwynikiem zaznaczonymwtychpolach. 1234+ 1 − 12 13 START Gdybyzagadnieniebyłowpełnideterministyczne—itymsamymwiedzaagenta ojegopołożeniupełna—toproblemsprowadzałbysiędoplanowaniadziałań.Na przykład,dlapowyższegozagadnieniaprzykładowegodobrymrozwiązaniembyłby następującyplandziałań:U-U-R-R-R.Alerówniedobrybyłbyplan:R-R-U-U-R.Jeśli wdodatkupojedynczeakcjenicniekosztują(czyliliczysiętylkostankońcowy),to równiedobryjestnawetplan:R-R-R-L-L-L-U-U-R-R-R,iwieleinnych. Podejmowanieożonychdecyzjisekwencyjneproblemydecyzyjne1

N ie p e w n o ść e fe k w d zi a ła ń a g e n ta

Jednakpouwzględnieniuniepewności,wynikdziałańagentajestzgodnyzjego intencjątylkozpewnymprawdopodobieństwem.Naprzykład,możemyprzyjąć,że akcjaU(Up)przenosiagentanapożądanąpozycję„wgórę”zprawdopodobieństwem 0.8,natomiastzprawdopodobieństwem0.1wykonujeruchwlewo,ipodobnie wprawo.Pewnejesttylko,żeagentniepójdziewkierunkuprzeciwnymdo zamierzonego.Abyuprościćanalizęprzyjmijmydodatkowo,żeobecnośćściannie zmieniategorozkładuprawdopodobieństwa,atylkospowodujeniewykonanieżadnego ruchu,gdyby„wypadło”ruszyćsięwścianę. 0.8 0.10.1 Wtejsytuacjimożemyobliczaćwartościoczekiwanesekwencjiruchówagenta.Ogólnie agentniemożemiećpewności,żepowykonaniudowolnejzpowyższychsekwencji znajdziesięwpożądanymstanieterminalnym. Podejmowanieożonychdecyzjisekwencyjneproblemydecyzyjne2

P o li ty k a a g e n ta

Wodróżnieniuodalgorytmówplanowaniadziałań,agentpowinienwypracowaćswoją strategięniewpostacikonkretnejsekwencjidziałań,leczwpostacipolityki,czyli schematuwyznaczającegoakcje,którepowinnybyćpodjętedlakażdegokonkretnego stanu,gdybyagentwnimsięznalazł. Możnaokreślićoptymalnąpolitykędla zagadnieniaprzykładowego.Zauważmy,że wpunkcie(3,2)politykanakazujeagentowi próbowaćruchuwlewo,copozornieniema sensu,alepozwalaagentowiustrzecsięprzed wylądowaniemwniepożądanymstanie(4,2). Podobnasytuacjajestwstanie(4,1). 1234+ 1 − 12 13 Takapolitykawynikaoczywiściezdomyślnegoprzyjęciazerowegokoszturuchów. Gdybywynikagentazależałnietylkoodstanukońcowegoalerównieżodliczby wykonanychruchów,wtedynieopłacałobymusięstosowaćtakkonserwatywnej polityki. Podejmowanieożonychdecyzjisekwencyjneproblemydecyzyjne3

U w zg d n ie n ie k o sz w ru ch u

Przyjęcieniezerowegokoszturuchu,pomniejszawynikuzyskanywstanachkońcowych osumarycznykosztwszystkichruchów.Oczywiściewpływatonakształtoptymalnej politykiagenta. Naprzykład,diagramprzedstawiaoptymalną politykęuwzględniającąkosztyruchu wwysokości1/25jednostki.Zauważmy,że wstanach(4,1)i(3,2)politykadyktujeteraz ruchbezpośredniowkierunkustanu(4,3), pomimoryzyka.Jednakwpunktach(2,1) i(3,1)nadalzalecanyjestruchokrężny. 1234+ 1 − 12 13 Formalnie,kosztyruchówwprowadzasięwpostacifunkcjinagrodydlastanów R(s)=−0.04,wtymprzypadkunagrodyowartościujemnej,czylikary.Sumanagród dlasekwencjistanówwyznaczaużytecznośćtejsekwencji. Podejmowanieożonychdecyzjisekwencyjneproblemydecyzyjne4

(2)

P ro b le m y d e cy zy jn e M ar k o w a

Obliczaniepolitykiwpostacikompletnegoodwzorowaniastanówdozbioruakcji nazywanejestproblememdecyzyjnymMarkowa(MDP)jeśli prawdopodobieństwaprzejśćwynikającezpodejmowanychakcjizależątylkood bieżącegostanu,anienp.odhistorii.Mówimywtedy,żeproblemposiadawłasność Markowa. Formalnie,problemdecyzyjnyMarkowajestokreślonyprzez: •zbiórstanówzestanempoczątkowyms0 •zbiórakcjiActions(s)możliwychwstanies •modelprzejśćP(s |s,a) •funkcjęnagrodyR(s)(możliwerównież:R(s,a),R(s,a,s )) RozwiązaniemMDPjestpolitykaπ(s)przyporządkowującakażdemustanowiruch. Zauważmy,żewwarunkachniepewności,każdepodjęciedziałaniaprzezagentazgodne zpewnąpolitykąmożeskończyćsięinnąścieżkądziałań,iinnymwynikiem. Optymalnąpolitykąπ (s)nazywamypolitykęosiągającąnajwyższąoczekiwaną użyteczność. Podejmowanieożonychdecyzjisekwencyjneproblemydecyzyjne5

W p ły w fu n k cj i n a g ro d y n a p o li ty k ę a g e n ta

Zmienianiewartościnagrodydlastanówpowodujezmianęoptymalnejpolitykidla zagadnienia.Przybardzodużychnegatywnychnagrodach(wysokichkarach)zalecane jestjaknajszybszepodążaniedostanukońcowego,obojętniektórego.Przyzbliżaniu sięnagrodydozerapowracapierwotna„rozrzutna”polityka. − 1+ 1 r = [−0.4278 : −0.0850] − 1+ 1 r = [−0.0480 : −0.0274]

− 1

+ 1 r = [−0.0218 : 0.0000]

− 1

+ 1 r = [− : −1.6284]

8

1234

+ 1 − 12 1

3 Wprzypadkudodatnichwartościnagrodyagentowiprzestajesięopłacaćwogóle zmierzaćwkierunkurozwiązania.Działanieprzynosizyski,więcnależydziałać,anie kończyć,zatemagentunikastanówterminalnych. Podejmowanieożonychdecyzjisekwencyjneproblemydecyzyjne6

P ro b le m h o ry zo n tu

WproblemachMDPstanynieposiadająużyteczności,zwyjątkiemstanówkońcowych. Możemyjednakmówićoużytecznościsekwencji(historii)stanówUh([s0,s1,...,sn]), jeśliodpowiadaonazastosowanejsekwencjiakcji,iprowadzidostanukońcowego.Jest onawtedyrównauzyskanemuwynikowikońcowemu. Poprzedniozdefiniowaliśmyoptymalnąpolitykęnapodstawieoczekiwanejużyteczności sekwencjistanów.Jednakwyznaczenieoptymalnejpolitykizależyodistotnejkwestii: czymamydodyspozycjinieskończonyhoryzontczasowy,czyteżhoryzont ograniczonydojakiejśskończonejliczbykroków?Wtymdrugimprzypadkukonkretna wartośćhoryzontumożewpływaćnakształtpolitykioptymalnej.Wtakich przypadkachmówimy,żeoptymalnapolitykajestniestacjonarna.Dlaproblemówz nieskończonymhoryzontempolitykaoptymalnajeststacjonarna. Obliczanieoptymalnejpolitykiprzyskończonychhoryzontachjesttrudniejsze,inarazie będziemyrozważalizagadnieniazhoryzontemnieskończonym. Podejmowanieożonychdecyzjisekwencyjneproblemydecyzyjne7

D ys k o n to w a n ie

Jakpokazujerozważanywcześniejprzykład,nieskończonesekwencjeakcjimogąsię zdarzać,anawetmogąstanowićoptymalnąpolitykęagenta.Rozważanie nieskończonych,albochoćbybardzodługich,sekwencjijestczasamikonieczne,np.gdy zagadnienienieposiadastanówterminalnych,albogdyagentmożeichnieosiągnąć. Jednaktakieobliczeniasąkłopotliwe,ponieważsumynagródosiągająwtedy nieskończonewartości,któretrudnojestporównywać. Jakojednozrozwiązańtegoproblemustosujesiętechnikęzwanądyskontowaniem (discounting)polegającąnaefektywnymzmniejszeniuwkładuprzyszłychnagróddo użytecznościzapomocąwspółczynnika0<γ<1.UżytecznośćsekwencjistanówH definiujemyjakoU(H)=

P iγiRi,czyli: Uh([s0,s1,...,sn])=R(s0)+γR(s1)+γ2 R(s2)+...+γn R(sn) Dlaγ<1iRRmaxtakzefiniowaneużytecznościsązawszeskończone. Technikadyskontowaniamaswojeintuicyjneuzasadnieniewwieludziedzinachżycia. Odzwierciedlaonamniejszeznaczenienagródwodległejprzyszłości.Podobnie, wekonomiistosujesiędyskontowaniewoceniewartościinwestycji. Podejmowanieożonychdecyzjisekwencyjneproblemydecyzyjne8

(3)

P o li ty k i w ła śc iw e i u śr e d n ia n ie

Wprzypadkunieskończonychsekwencjiruchówistniejąjeszczeinnemożliwepodejścia pozadyskontowaniem.Naprzykład,jakoużytecznośćsekwencjimożnaprzyjąć średniąnagrodęobliczanąnajedenkrok. Zkolei,jeślizagadnienieposiadastanyterminalne,tomożliwejestwyznaczenie polityki,któragwarantujedoprowadzenieagentadojednegoztychstanów.Wtedy rozważanieużytecznościsekwencjinieskończonychniewchodziwgrę.Polityki gwarantującedoprowadzeniaagentadoktóregośzestanówterminalnychnazywamy politykamiwłaściwymi. Podejmowanieożonychdecyzjisekwencyjneproblemydecyzyjne9

W ła sn o śc i u ży te cz n o śc i se k w e n cj i st a n ó w

Funkcjęużytecznościsekwencjistanównazywamyseparowalnąjeśli: U([s0,s1,...,sn])=f(s0,U([s1,...,sn])) Zauważmy,żedlanaszegoprzykładowegozagadnienia4×3funkcjaużytecznościjest separowalna,ponieważmożnająobliczaćzwzoru: Uh([s0,s1,...,sn])=R(s0)+R(s1)+···+R(sn) Mówimy,żefunkcjaużytecznościsekwencjistanówjestaddytywna,gdyposiada następującąwłasność: Uh([s0,s1,...,sn])=R(s0)+Uh([s1,...,sn]) Okazujesię,żewwieluzagadnieniachpraktycznychfunkcjeużytecznościsą addytywne.Naprzykład,rozważającfunkcjekosztuwzagadnieniachprzeszukiwania, domyślniezakładaliśmy,żesąoneaddytywne.Addytywnośćoznaczałatam,że poniesionekosztypoprostusięsumują. Podejmowanieożonychdecyzjisekwencyjneproblemydecyzyjne10

O b li cz a n ie o p ty m a ln e j p o li ty k i u ży te cz n o śc i st a n ó w

Dowyznaczaniapolitykioptymalnejprzydałybysięużytecznościstanów(np.takiejak nadiagramiepolewej,jednakniepytajmynarazieskądsięwzięły).Moglibyśmywtedy posłużyćsięzasadąMEU(maksymalnejoczekiwanejużyteczności),idlakażdego stanuwyznaczyćruch,którymaksymalizujeoczekiwanąużyteczność. 1234+ 1 − 12 13 0.7620.660 0.7050.6550.611

0.812 0.388

0.8680.918 1234

+ 1 − 12 1

3 JednakwzagadnieniachMDPstanyjakotakieniemająobiektywnychużyteczności! „Użyteczność”stanuzależyodpolitykiagenta,odtegocozamierzaonwdanym staniezrobić.Jednocześniepolitykaagentazależyod„użyteczności”stanów. Użytecznośćstanówmożnawięcwprowadzićnapodstawiepolityki. Podejmowanieożonychdecyzjisekwencyjneproblemydecyzyjne11

U ży te cz n o śc i st a n ó w

Użytecznośćstanuzewzględunadanąpolitykęmożnazdefiniowaćjakowartość oczekiwanąnagróduzyskanychprzezdziałaniezaczynającesięwtymstanie: Uπ (s)=E

X t=0γt R(st)

PrzezStoznaczamytuzmiennąlosowąoznaczającąstanwjakimagentznajdziesięw krokutpowystartowaniuzestanusirealizowaniupolitykiπ. Okazujesię,żepomimoiżteoretyczniepolitykaoptymalnaπ =argmax πUπ (s)zależy odwyborustanupoczątkowego,todlaprocesówdecyzyjnychposiadającychwłasność Markowa,dlanieskończonychsekwencjiiprzyzastosowaniudyskontowania,niematej zależności.Politykaoptymalnawyznaczającadrogęagentajesttakasamaniezależnie odpunktustartowego. JakoużytecznośćstanówU(s)będziemywięcprzyjmowaćtakwłaśnieokreśloną użytecznośćtegostanuzewzględunapolitykęoptymalnąUπ (s). Podejmowanieożonychdecyzjisekwencyjneproblemydecyzyjne12

(4)

P ro g ra m o w a n ie d yn a m ic zn e

Optymalnąpolitykęπjakofunkcjęokreślonąnazbiorzestanówmożnazwiązać zfunkcjąużytecznościstanów(jeszczenieznaną): π (s)=argmax a

X sP(s |s,a)U(s ) gdzieP(s |s,a)jestprawdopodobieństwem,żeagentosiągniestans jeśliznajdziesię wstaniesizastosujeakcjęa. Ponieważużytecznośćstanuchcemyokreślićjakowartośćoczekiwanądyskontowanej sumynagródsekwencjistanów,zatemmożnajązwiązaćzużytecznościamistanów sąsiednichnastępującymrównaniem(Bellman1957): U(s)=R(s)+γmax a

X sP(s |s,a)U(s ) Dlanstanówuzyskujemywtedynrównań—niestetynieliniowychzewzględuna obecnośćoperatoramax—znniewiadomymi.Rozwiązywanietegorównania nazywanejestprogramowaniemdynamicznym. Podejmowanieożonychdecyzjiiteracjawartości13

n -k ro k o w e p ro b le m y d e cy zy jn e

Gdybywjakimśzagadnieniustanykońcowebyłyosiąganezeznanymiużytecznościami podokładnienkrokach,wtedymożmazrównaniaBellmananajpierwwyznaczyć użytecznościstanówwkrokun−1,potemwkrokun−2,itd.,ażdostanu początkowego.Zagadnienietegotypunazywanejestn-krokowymproblemem decyzyjnym,iznalezieniejegorozwiązaniajeststosunkowoproste. Niestety,wwiększościzagadnieńpraktycznychniemożemyzakładaćstałej,n-krokowej sekwencjikroków,np.zewzględunapojawianiesiępętli. Podejmowanieożonychdecyzjiiteracjawartości14

A lg o ry tm it e ra cj i w ar to śc i

Dlazagadnień,którychniemożnaprzedstawićwpostacipowyższegon-krokowego problemudecyzyjnego,możnaobliczyćprzybliżonewartościużytecznościstanów wprocesieiteracyjnymzwanymiteracjąwartości: Ut+1(s)=R(s)+γmaxa

X sP(s |s,a)Ut(s ) Wkroku(t=0)przyjmujemydowolnewartościużytecznościwszystkichstanów,iw kolejnychkrokachalgorytmuobliczamykolejneichprzybliżenia. Algorytmmożnazatrzymaćporównująckolejnewartościużytecznościstanów, ioszacowującwtensposóbbłąd.Optymalnapolitykamożebyćwyznaczonaprzez przybliżonewartościużyteczności,nawetprzedichzbiegnięciemsię. Podejmowanieożonychdecyzjiiteracjawartości15

A lg o ry tm it e ra cj i w ar to śc i p rz yk ła d

-1

-0.5

00.5

1 051015202530

Utility estimates

Number of iterations

(4,3) (3,3) (2,3) (1,1) (3,1) (4,1) (4,2) Podejmowanieożonychdecyzjiiteracjawartości16

(5)

Z b ie żn o ść a lg o ry tm u it e ra cj i w ar to śc i

Wrozważanymprzykładzieproceduraiteracjiwartościprzykładniezbiegłasięwe wszystkichstanach.Pytaniejednakczymożnaliczyć,żetakbędziezawsze? Okazujesię,żetak.Algorytmiteracjiwartościzawszedoprowadzidoosiągnięcia ustalonychwartościużytecznościstanów,któresąjedynymrozwiązaniemrównania Bellmana.Możnaokreślićliczbęiteracjialgorytmuniezbędnądoosiągnięciadowolnie określonegobłęduǫ,gdzieRmaxjestgórnymograniczeniemwartościnagrody: N=⌈log(2Rmax(1−γ))/log(1/γ)⌉ Podejmowanieożonychdecyzjiiteracjawartości17

Z b ie żn o ść a lg o ry tm u it e ra cj i w ar to śc i u w a g i

•Wpraktycewalgorytmieiteracjiwartościmożnastosowaćkryteriumstopu: ||Ui+1Ui||<ǫ(1−γ)/γ •Wpraktyceoptymalnąpolitykęalgorytmwyznaczaistotniewcześniej,niżwartości użytecznościustabilizująsięzmałymibłędami. •Nrośniewnieograniczonysposób,gdyγzbliżasiedojedynki.Możnaprzyspieszyć zbieżnośćzmniejszającγ,aletooznaczaskróceniehoryzontuagentaizaniedbanie efektówdługofalowych. •Dlaγ=1jeśliwzagadnieniuistniejąstanyterminalne,możnawyprowadzić podobnedopowyższychkryteriazbieżnościibłędów. Podejmowanieożonychdecyzjiiteracjawartości18

A lg o ry tm it e ra cj i p o li ty k i

Ponieważczęstooptymalnapolitykajestwzględnienieczułanakonkretnewartości funkcjiużyteczności,możnająobliczaćinnymprocesemiteracyjnym,zwanymiteracją polityki.Polegaonanawyborzedowolnejpolitykipoczątkowejπ0,anastępnie cyklicznym,naprzemiennym,obliczaniukolejnychprzybliżeńuaktualnionych użyteczności,zgodniezponiższymwzorem: Ut+1(s)=R(s)+γX sP(s |s,πt(s))Ut+1(s ) orazuaktualnionejpolityki,zgodniezwzorem: πt+1(s)=argmax a

X sP(s |s,a)Ut(s ) Wpowyższychwzorachπt(s)oznaczaakcjęwyznaczonąprzezaktualnąpolitykęπtdla stanus.Zauważmy,żepierwszywzórgenerujeukładrównańliniowych,któremożna rozwiązaćdokładniezewzględunaUt+1(sątodokładnewartościużytecznościdla aktualnejprzybliżonejpolityki)wczasieO(n3 ). Podejmowanieożonychdecyzjiiteracjapolityki19

A lg o ry tm it e ra cj i p o li ty k i (c d .)

Algorytmiteracjipolitykizatrzymujesię,gdykrokaktualizacjipolitykinicjużnie zmienia.Ponieważdlaskończonejprzestrzeniistniejeskończonaliczbapolityk,zatem algorytmnapewnozatrzymasię. Dlamałychprzestrzenistanów(nwO(n3))powyższaprocedurajestczęsto najefektywniejsza.JednakdlawiększychprzestrzeniczynnikO(n3 )powodujeznaczne spowolnienieprocesu.Możnawtedystosowaćzmodyfikowanąiteracjępolityki polegającąnaiteracyjnejaktualizacjiwartościużyteczności—zamiastich każdorazowegodokładnegowyznaczania—zwykorzystaniemuproszczonejaktualizacji Bellmanazgodniezwzorem: Ut+1(s)=R(s)+γX sP(s |s,πt(s))Ut(s ) WporównaniuzoryginalnymrównaniemBellmanapominiętetuzostałoobliczanie optymalnejakcji,ponieważtutajakcjewyznaczaaktualnapolityka.Tymsamym obliczenietojestprostsze,imożnawykonaćkilkakrokówtakichaktualizacjiprzed kolejnymkrokiemiteracjipolityki(czyliaktualizacjąpolityki). Podejmowanieożonychdecyzjiiteracjapolityki20

(6)

B ra k p e w n e j in fo rm a cj i o st a n ie P O M D P

Wogólnymprzypadkuagentmożeniebyćwstaniestwierdzićwjakimstanieznalazł siępowykonaniuakcji,araczejmożetostwierdzićzpewnymprawdopodobieństwem. Takiezagadnienianazywamyczęściowoobserwowalnymiproblemami decyzyjnymiMarkowa(POMDP).Wtychproblemachagentmusiobliczać oczekiwanąużytecznośćswoichakcjibiorącpoduwagęróżnemożliweichwyniki,jak równieżróżnemożliwenoweinformacje(nadalniekompletne),któremożeuzyskać, wzależnościodtegowjakimstaniesięznajdzie. Rozwiązanieproblemudecyzyjnegomożnaotrzymaćobliczającrozkład prawdopodobieństwapowszystkichmożliwychstanach,wktórychagentmożesię potencjalnieznajdować,uwzględniającniepewnąinformacjęootoczeniujakąudałomu sięzgromadzić.Jednakwogólnymprzypadkuobliczenietojestutrudnionezewzględu nafakt,żepodjęciedanejakcjispowodujeotrzymanieprzezagentajakichśnowych informacji,któremogązmienićjegoposiadanąwiedzęwsposóbtrudnydo uwzględnienia.Praktycznieagentmusibraćpoduwagęnoweinformacje,jakiemoże otrzymać,narównizestanami,doktórychmożetrafić.Pojawiasiętuponownie kwestiawartościinformacjirozważanawcześniej. PodejmowanieożonychdecyzjiczęściowoobserwowalneMDP21

P O M D P fo rm a li za cj a

ZagadnieniePOMDPjestzdefiniowaneprzeznastępująceelementy: •zbiórstanów,jednakbezstanupoczątkowegos0, •zbiórakcjiActions(s)możliwychwstanies, •funkcjęprzejść:P(s|s,a)—rozkładprawdopodobieństwprzejściadostanuspo wykonaniuakcjiawstanies, •funkcjanagrody:R(s), •modelczujników:P(e|s)—rozkładprawdopodobieństwuzyskaniaobserwacjie (evidence),częściowobłędnej,wstanies, •początkowystanprzekonań:b0. WzagadnieniachPOMDPbrakjestzałożeniaoznajomościstanupoczątkowego. Zamiasttego,wprowadzasięstanprzekonańagentab(s)(beliefstate),któryjest rozkłademprawdopodobieństw,żeagentjestwpewnymstanies.Wchwili początkowejznamyjedyniepoczątkowystanprzekonańb0. Zadaniemjestobliczeniepolityki,generującejsekwencjęruchówomaksymalnej użyteczności.Oczywiście,wtrakciewykonywaniatejsekwencjiagentbędziezmieniał swójstanprzekonań,takzewzględunaotrzymywanewichwynikuobserwacje,jak inaskuteksamegowykonywaniaakcji. PodejmowanieożonychdecyzjiczęściowoobserwowalneMDP22

P O M D P p rz yk ła d

Rozważmyponownieprzykładagentawśrodowisku4x3, jednaktymrazemagentniewiewjakimstaniepoczątkowym sięznajduje,imusiprzyjąćrówneprawdopodobieństwo1 9 znajdowaniasięwkażdymznieterminalnychstanów. Jakamożebyćterazoptymalnapolityka? Rysunkiponiżejprzedstawiająkolejnerozkładyprawdopodobieństwpołożeniaagenta powykonaniuprzezniegokolejnopopięciuruchów:wlewo,wgórę,iwprawo.Jestto politykaniezwykleostrożnaikonserwatywna,alerozrzutna.Jakkolwiekagent zprawdopodobieństwem0.775znajdziesięw„dobrym”stanieterminalnym,to oczekiwanaużytecznośćtejsekwencjiwynositylko0.08. PodejmowanieożonychdecyzjiczęściowoobserwowalneMDP23 PodejmowanieożonychdecyzjiczęściowoobserwowalneMDP24

(7)

R o zw zy w a n ie p ro b le m ó w P O M D P

KluczemdorozwiązaniaPOMPDjestzrozumienie,żewybóroptymalnejakcjizależy tylkoodaktualnegostanuprzekonańagenta.Ponieważagentnieznaswojegostanu (itaknaprawdęnigdygoniepozna),zatemjegooptymalnapolitykamusibyć odwzorowaniemπ(b)stanówprzekonańnaakcje. Kolejnestanyprzekonańmożemyobliczaćwedługwzoru: b (s )=αP(e|s )X sP(s |s,a)b(s) gdzieP(e|s)określaprawdopodobieństwootrzymaniaobserwacjiewstanies,aα jestpomocnicząstałąnormalizującąsumęstanówprzekonańdo1. CyklroboczyagentaPOMDP,zakładając,żeobliczyłonswojąkompletnąoptymalną politykęπ (b),jestwięcnastępujący: 1.Dlabieżącegostanuprzekonańb,wykonajakcjęπ (b). 2.Odbierzobserwacjęe. 3.Przejdźdostanuprzekonańb (s ),ipotwórzcykl. PodejmowanieożonychdecyzjiczęściowoobserwowalneMDP25

P rz e st rz e ń st a n ó w p rz e k o n a ń

PonieważmodelMDPuwzględniarozkładyprawdopodobieństw,ipozwala rozwiązywaćtakiezagadnienia,problemyPOMDPmożnaprzekształcaćna równoważneproblemyMDPokreślonewprzestrzeniprzekonań.Wtejprzestrzeni operujemynarozkładzieprawdopodobieństwosiągnięciaprzezagentazbioruprzekonań bgdyobecnieposiadaonzbiórprzekonańbiwykonaakcjęa.Dlazagadnieniaon stanach,bn-elementowymiwektoramiowartościachrzeczywistych. Zauważmy,żeprzestrzeństanówprzekonań,doktórejzaprowadziłonasrozważanie zagadnieńPOMDP,jestprzestrzeniąciągłą,wodróżnieniuodoryginalnego zagadnienia.Ponadtotypowojesttoprzestrzeńwielowymiarowa.Naprzykład,dla świata4×3zpoprzedniegoprzykładu,bedzietoprzestrzeń11-wymiarowa. Przedstawionewcześniejalgorytmyiteracjiwartościiiteracjipolitykinienadająsiędo rozwiązywaniatakichzagadnień.Ichrozwiązywaniejestogólniebardzotrudne obliczeniowo(PSPACE-trudne). PodejmowanieożonychdecyzjiczęściowoobserwowalneMDP26

P rz e k sz ta łc e n ie P O M D P d o M D P

P(e|a,b)=

X sP(e|a,s ,b)P(s |a,b) =

X sP(e|s )P(s |a,b) =

X sP(e|s )

X sP(s |s,a)b(s) P(b |b,a)=P(b |a,b)=

X eP(b |e,a,b)P(e|a,b) =

X eP(b |e,a,b)

X sP(e|s )

X sP(s |s,a)b(s) gdzie P(b |e,a,b)=

     

1gdyb (s )=αP(e|s )

P sP(s |s,a)b(s) 0wprzeciwnymwypadku PodejmowanieożonychdecyzjiczęściowoobserwowalneMDP27 Powyższerównaniemożnatraktowaćjakodefinicjęmodeluprzejśćdlaprzestrzeni stanówprzekonań.Pozostajejeszczeprzedefiniowaćfunkcjęnagrody: ρ(b)=

X sb(s)R(s) iwszystkiepowyżejzdefiniowaneelementyskładająsięnacałkowicieobserwowalny procesMarkowa(MDP)naprzestrzenistanówprzekonań. Możnaudowodnić,żeoptymalnapolitykaπ(b)dlategoMDPjestjednocześnie optymalnąpolitykądlaoryginalnegozagadnieniaPOMDP. PodejmowanieożonychdecyzjiczęściowoobserwowalneMDP28

(8)

O b li cz a n ie o p ty m a ln e j p o li ty k i P O M D P

Schematalgorytmu:definiujemypolitykęπ(b)dlaregionówprzestrzeniprzekonań, gdziedlajednegoregionupolitykawyznaczajednąakcję.Następnieprocesiteracyjny podobnydoalgorytmówiteracjiwartościczyiteracjipolitykiaktualizujegranice regionów,imożewprowadzaćnoweregiony. Obliczonatymalgorytmemoptymalnapolitykaagentadlapowyższegoprzykładudaje następującąsekwencjęakcji: [L,U,U,R,U,U,(R,U,U)*] (cykliczniepowtarzającasięnieskończonasekwencjaR-U-Ujestkoniecznazewzględu naniepewnośćosiągnięciastanuterminalnego).Agentosiągniepożądanystan docelowyzprawdopodobieństwem0.866,aoczekiwanawartośćużytecznościtego rozwiązaniawynosi0.38,czyliistotnielepiejniżdlapierwotniezaproponowanejnaiwnej polityki(0.08). PodejmowanieożonychdecyzjiczęściowoobserwowalneMDP29

Cytaty

Powiązane dokumenty

- dotację w wysokości 12.230,00 zł w ramach Programu Wieloletniego „Narodowy Program Rozwoju Czytelnictwa” z Biblioteki Narodowej - Zakup nowości wydawniczych do Bibliotek

Ist eine innovative Therapie für Menschen, deren Hauptproblem eine mangelnde Spannkraft der Haut ist.. Die Wirkungen der Behandlung umfassen die Verbesserung des Gesichtsovals

Sprawdźmy jak ono się czuje z tym wynikiem, może dla niego jest on wystarczający(niech będzie wtedy też taki i dla

Dotacja celowa na realizację zadania inwestycyjnego &#34;Cyfryzacja Sali kinowej Kina &#34;Mewa&#34; w Budzyniu. Dotacja celowa na realizację zadania inwestycyjnego

realizacja obligatoryjnych zobowiązań (ZUS, podatki, kredyty). Szczegóły dotyczące kryteriów oceny precyzuje Ankieta Konkursowa. Kapituła w każdej edycji Konkursu określa

Oświadczam, że projekt przebudowy drogi powiatowej w miejscowości Aleksandrów gmina Jakubów został sporządzony zgodnie z obowiązującymi przepisami oraz

aleksandra.dabrowska@ifj.edu.pl za potwierdzeniem otrzymania e-maila.. Pliki ofert złożonych drogą elektroniczną będą otwarte w tym samym terminie co oferty złożone pisemnie

Zarazem uwzględnia się również w takim podejściu silne nastawienie unifikacyjne. Tym samym chodzi o wywołanie paradygmatu metodologicznego w naukach prawnych opartego