Utility estimatesRMS error in utility

(1)

Uczenie si

e ze wzmocnieniem

֒

W wielu dziedzinach trudno jest sformu lowa´c precyzyjne funkcje oceny, pozwalaj

ace agentowi ocenić skuteczno´sć, lub poprawno´sć jego akcji,֒

z wyj

atkiem gdy osi֒

agnie on stan docelowy. Zak ladamy, ˙ze w stanie docelowym֒

agent z za lo˙zenia zawsze otrzymuje obiektywn

a֒ ocen

e֒ swoich dzia la´n, zwan a֒

nagrod

a֒ lub wzmocnieniem. Wygodnie jest sformu lować zadanie agenta w taki sposób, aby musia l on sam nauczyć si

e֒ tak dzia la´c, aby maksymalizowa´c te֒ nagrod

e֒ (wzmocnienie). Nazywamy to zagadnieniem uczenia si

e ze֒

wzmocnieniem (reinforcement learning, RL).

Jest to zadanie trudne. W og´olnym przypadku agent mo˙ze nie mie´c pe lnej

informacji o swoim ´srodowisku, jak równie˙z precyzyjnego (albo ˙zadnego) opisu swoich dzia lań i ich skutków. Jego sytuacj

e֒ mo˙zna rozumie´c jako jedno ze

sformu lowa´n pe lnego zadania sztucznej inteligencji. Agent zostaje umieszczony w ´srodowisku, kt´orego nie zna, i musi si

e֒ nauczyć skutecznie w nim dzia lać, aby maksymalizować pewne kryterium, dost

epne mu w postaci wzmocnie´n.֒

Bedziemy rozwa˙zali probabilistyczny model skutk´ow akcji agenta. M´owi֒

ac֒

dok ladniej, b

edziemy zak ladali, ˙ze podstawowe zagadnienie jest dyskretnym֒

procesem Markowa (MDP), jednak agent nie zna jego parametr´ow.

Uczenie si

e ze wzmocnieniem — wst֒

ep֒ 1

(2)

Uczenie si

e ze wzmocnieniem — wst֒

ep֒ 2

(3)

Pasywne uczenie si

e ze wzmocnieniem

֒ Na pocz

atek rozwa˙zymy uczenie si֒

e pasywne, gdzie zak ladamy, ˙ze polityka֒

agenta π(s) jest z g´ory ustalona. Agent nie podejmuje ˙zadnych decyzji, musi robi´c to co dyktuje mu polityka, a wyniki jego akcji s

a֒ probabilistyczne. Jednak mo˙ze obserwowa´c co si

e֒ dzieje, czyli wie do jakich stan´ow dociera i jakie otrzymuje w nich nagrody. Pami

etajmy jednak, ˙ze nagrody otrzymywane֒

w stanach nieterminalnych nie s

a֒ dla agenta istotnym kryterium — liczy si e֒

tylko suma nagr´od otrzymanych na drodze do stanu terminalnego, zwana wzmocnieniem.

Zadaniem agenta jest nauczenie si

e֒ warto´sci u˙zyteczno´sci stan´ow U^π(s), obliczanych zgodnie z r´ownaniem:

U^π(s) = E

" _∞ X

t=0

γ^tR(st)

#

W rozpatrywanym tu przyk ladowym zagadnieniu 4x3 b

edziemy przyjmowa´c֒

γ = 1.

Uczenie si

e ze wzmocnieniem — pasywne֒ 3

(4)

Przebiegi ucz

ace

֒

Przypomnijmy rozwa˙zany wcze´sniej przyk lad agenta w ´swiecie 4 × 3:

1 2 3 4

+ 1

2 − 1

1 3

1 2 3

–1 + 1

4 0.611

0.812

0.655 0.762

0.918

0.705

0.660 0.868

0.388

Agent wykonuje przebiegi ucz

ace֒ (ang. trials) w kt´orych wykonuje akcje zgodne z posiadan

a֒ polityk

a, a˙z do osi֒

agni֒

ecia stanu terminalnego. W ka˙zdym֒

kroku otrzymuje percept wskazuj

acy zar´owno bie˙z֒

acy stan, jak i nagrod֒

e.֒

Przyk ladowe przebiegi:

(1, 1)−0.04 ❀ (1, 2)−0.04 ❀ (1, 3)−0.04 ❀ (1, 2)−0.04 ❀ (1, 3)−0.04 ❀ (2, 3)−0.04 ❀ (3, 3)−0.04 ❀ (4, 3)+1 (1, 1)−0.04 ❀ (1, 2)−0.04 ❀ (1, 3)−0.04 ❀ (2, 3)−0.04 ❀ (3, 3)−0.04 ❀ (3, 2)−0.04 ❀ (3, 3)−0.04 ❀ (4, 3)+1 (1, 1)−0.04 ❀ (2, 1)−0.04 ❀ (3, 1)−0.04 ❀ (3, 2)−0.04 ❀ (4, 2)−1

Uczenie si

(5)

Obliczanie u˙zyteczno´ sci metod

a bezpo´

֒

sredni a

֒ Celem dzia lania agenta jest obliczenie u˙zyteczno´sci stan´ow U^π(s) zwi

azanych֒

z posiadan

a֒ polityk

a֒ π(s). U˙zyteczno´sci stan´ow zdeﬁniowane s

a֒ jako warto´sci oczekiwane sumy nagr´od (dyskontowanych) otrzymanych przez agenta

startuj

acego z danego stanu, i poruszaj֒

acego si֒

e֒ zgodnie ze swoj

a֒ polityk a:֒

U^π(s) = E

" ∞

X

t=0

γ^tR(s_t)

#

Agent mo˙ze nauczy´c si

e֒ u˙zyteczno´sci obliczaj

ac tzw. nagrod֒

e pozosta l֒

a֒

(reward-to-go) w ka˙zdym stanie. Na koniec przebiegu agent oblicza nagrod e֒

pozosta l

a֒ w stanie ko´ncowym jako nagrod

e֒ otrzyman

a֒ w tym stanie. Nast

epnie,֒

cofaj

ac si֒

e֒ wzd lu˙z swojej drogi, oblicza nagrody pozosta le dla wcze´sniejszych stanów jako sumy nagród otrzymanych na końcowym odcinku przebiegu.

Na przyk lad, dla przebiegu:

(1, 1)−0.04 ❀ (1, 2)−0.04 ❀ (1, 3)−0.04 ❀ (1, 2)−0.04 ❀ (1, 3)−0.04 ❀ (2, 3)−0.04 ❀ (3, 3)−0.04 ❀ (4, 3)+1

otrzymujemy R_tg(4, 3) = 1, R_tg(3, 3) = 0.96, R_tg(2, 3) = 0.92, R_tg(1, 3) = 0.88, Rtg(1, 2) = 0.84, Rtg(1, 3) = 0.80, Rtg(1, 2) = 0.76, Rtg(1, 1) = 0.72

Uczenie si

(6)

Posiadaj

ac wiele pr´obek (przebieg´ow) agent mo˙ze przez proste u´srednianie֒

okre´slić kolejne przybli˙zenia warto´sci oczekiwanej u˙zyteczno´sci stanów, które w nieskończono´sci zbiegaj

a֒ si

e֒ do w la´sciwych warto´sci oczekiwanych.

To podej´scie jest poprawne, lecz niezbyt efektywne — wymaga du˙zej liczby przebieg´ow. Przedstawiona metoda okre´slania u˙zyteczno´sci, stosuj

ac proste֒

u´srednianie u˙zyteczno´sci stan´ow, pomija wa˙zn

a֒ w lasno´sć procesów Markowa, tzn., ˙ze u˙zyteczno´sci stanów s

a֒ zwi

azane z u˙zyteczno´sciami stan´ow s֒

asiednich.֒

(1, 1)−0.04 ❀ (1, 2)−0.04 ❀ (1, 3)−0.04 ❀ (1, 2)−0.04 ❀ (1, 3)−0.04 ❀ (2, 3)−0.04 ❀ (3, 3)−0.04 ❀ (4, 3)+1 (1, 1)−0.04 ❀ (1, 2)−0.04 ❀ (1, 3)−0.04 ❀ (2, 3)−0.04 ❀ (3, 3)−0.04 ❀ (3, 2)−0.04 ❀ (3, 3)−0.04 ❀ (4, 3)+1 (1, 1)−0.04 ❀ (2, 1)−0.04 ❀ (3, 1)−0.04 ❀ (3, 2)−0.04 ❀ (4, 2)−1

Na przyk lad, w drugim przebiegu z powy˙zszego przyk ladu algorytm okre´sla u˙zyteczno´s´c stanu (3,2) jako pozosta l

a֒ nagrod

e֒ z tego przebiegu, ignoruj ac֒

fakt, ˙ze kolejnym stanem w tym przebiegu jest stan (3,3), kt´ory ma wysok a֒

(i ju˙z znan

a) u˙zyteczno´s´c. R´ownanie Bellmana pozwala zwi֒

aza´c u˙zyteczno´sci֒

nastepuj֒

acych po sobie stanów, lecz to podej´scie nie potrafi ich wykorzystać.֒

Uczenie si

(7)

Adaptacyjne programowanie dynamiczne

Adaptacyjnym programowaniem dynamicznym (ADP) nazywamy proces podobny do programowania dynamicznego w po l

aczeniu z uczeniem si֒

e֒ modelu

´srodowiska, czyli funkcji przej´sć stanów, i funkcji nagrody. Polega ono na zliczaniu przej´sć od pary stan-akcja do nast

epnej akcji. Przebiegi ucz֒

ace֒

dostarczaj

a֒ nam serii ucz

acej takich przej´s´c. Agent mo˙ze okre´sla´c ich֒

prawdopodobie´nstwa jako ich cz

estotliwo´sci wyst֒

epuj֒

ace w przebiegach.֒

Na przyk lad, w podanych wcze´sniej przebiegach, w stanie (1,3) trzy razy

wykonana zosta la akcja ^→ (Right), po czym dwa razy wynikowym stanem by l (2,3). Zatem agent powinien okre´sli´c P ((2, 3)|(1, 3), Right) = ²₃.

(1, 1)−0.04 ❀ (1, 2)−0.04 ❀ (1, 3)−0.04 ❀ (1, 2)−0.04 ❀ (1, 3)−0.04 ❀ (2, 3)−0.04 ❀ (3, 3)−0.04 ❀ (4, 3)+1 (1, 1)−0.04 ❀ (1, 2)−0.04 ❀ (1, 3)−0.04 ❀ (2, 3)−0.04 ❀ (3, 3)−0.04 ❀ (3, 2)−0.04 ❀ (3, 3)−0.04 ❀ (4, 3)+1 (1, 1)−0.04 ❀ (2, 1)−0.04 ❀ (3, 1)−0.04 ❀ (3, 2)−0.04 ❀ (4, 2)−1

Po wykonaniu ka˙zdego kroku agent aktualizuje u˙zyteczno´sci stan´ow rozwi azuj֒

ac֒

równanie Bellmana (uproszczone) jednym z w la´sciwych algorytmów. Równanie jest uproszczone, poniewa˙z znamy tylko rozk lady skutków akcji nale˙z

acych do֒

polityki, i nie mo˙zemy oblicza´c najlepszej akcji w ka˙zdym stanie. Poniewa˙z chcemy obliczy´c U^π to bierzemy w la´snie te akcje.

Uczenie si

e ze wzmocnieniem — metoda ADP֒ 7

(8)

Adaptacyjne programowanie dynamiczne — algorytm

Uczenie si

(9)

Adaptacyjne programowanie dynamiczne — efektywno´ s´ c

Algorytm ADP aktualizuje warto´sci u˙zyteczno´sci najlepiej jak to jest mo˙zliwe, i stanowi w tym wzgl

edzie standard do porównań dla innych algorytmów.֒

Jednak procedura obliczania u˙zyteczno´sci przez rozwi

azywanie uk ladu r´owna´n֒

(liniowych) mo˙ze być niewykonalna dla wielu zmiennych (np. 10⁵⁰ równań z 10⁵⁰ niewiadomymi dla gry backgammon).

0 0.2 0.4 0.6 0.8 1

0 20 40 60 80 100

Utility estimates

Number of trials

(1,1) (1,3) (3,2) (3,3) (4,3)

0 0.1 0.2 0.3 0.4 0.5 0.6

0 20 40 60 80 100

RMS error in utility

Number of trials

Powy˙zsze wykresy ilustruj

a֒ zbie˙zno´sć dla przyk ladowego uczenia w ´srodowisku 4 × 3. Nale˙zy dodać, ˙ze w tym przyk ladzie przebieg kończ

acy si֒

e֒ w

”z lym”

stanie terminalnym pojawia si

e֒ po raz pierwszy w przebiegu 78-ym, co skutkuje skokow

a֒ aktualizacj

a֒ niekt´orych u˙zyteczno´sci.

Uczenie si

(10)

Uczenie si

(11)

Metoda r´ o˙znic czasowych

Zamiast ka˙zdorazowo rozwi

azywać pe len uk lad równań ze wzgl֒

edu na warto´sci֒

u˙zyteczno´sci, mo˙zna aktualizowa´c te warto´sci aktualnie obserwowanymi warto´sciami wzmocnie´n. Tak funkcjonuj

acy algorytm nazywa si֒

e֒ metod

a r´֒ o˙znic czasowych TD (temporal difference learning):

U^π(s) ← U^π(s) + α(R(s) + γU^π(s^′) − U^π(s)) W tym przypadku aktualizujemy u˙zyteczno´s´c poprawk

a֒ obliczan

a֒ na podstawie jednego zaobserwowanego przej´scia stan´ow, a nie warto´sci oczekiwanej

wszystkich przej´s´c. Dlatego te˙z poprawk

e֒ — r´o˙znic

e֒ pomi

edzy u˙zyteczno´sci֒

a֒

ruchu a u˙zyteczno´sci

a֒ stanu — bierzemy zredukowan

a֒ wsp´o lczynnikiem α < 1.

Powoduje to wprowadzanie ma lych poprawek po ka˙zdym ruchu. Jednocze´snie poprawka zmierza do zera gdy u˙zyteczno´s´c stanu zr´ownuje si

e֒ z dyskontowan a֒

u˙zyteczno´sci

a֒ ruchu.

Zauwa˙zmy, ˙ze ta metoda nie wymaga posiadania modelu ´srodowiska P (s^′|s, a), ani sama go nie oblicza.

Uczenie si

e ze wzmocnieniem — metoda TD֒ 11

(12)

Metoda r´ o˙znic czasowych — algorytm

Uczenie si

(13)

Zbie˙zno´ s´ c metody r´ o˙znic czasowych

Istnieje zwi

azek i podobie´nstwo pomi֒

edzy algorytmami ADP i TD. O ile ten֒

drugi dokonuje tylko lokalnych zmian w warto´sciach u˙zyteczno´sci, to ich ´srednie warto´sci zbiegaj

a֒ si

e֒ do tych samych warto´sci co dla algorytmu ADP.

W przypadku uczenia wieloma przyk ladami przej´s´c, cz

estotliwo´sci wyst֒

epowania֒

stan´ow zgadzaj a֒ si

e֒ z rozk ladem prawdopodobie´nstw ich wyst

epowania i mo˙zna֒

wykaza´c, ˙ze warto´sci u˙zyteczno´sci b ed֒

a֒ si

e֒ zbiega´c do poprawnych wynik´ow.

W tym celu parametr uczenia si

e֒ α powinien zmniejsza´c si

e֒ wraz ze zwiekszaniem si֒

e֒ liczby przetworzonych przebiegów. Dok ladniej, warto´sci tego parametru powinny spe lniać zale˙zno´sć:

∞

X

n=1

α(n) = ∞ oraz jednocze´snie:

∞

X

n=1

α²(n) < ∞

Uczenie si

(14)

Zbie˙zno´s´c przyk ladowego procesu uczenia dla ´srodowiska 4 × 3:

0 0.2 0.4 0.6 0.8 1

0 100 200 300 400 500

Utility estimates

Number of trials

(1,1) (1,3) (2,1) (3,3) (4,3)

0 0.1 0.2 0.3 0.4 0.5 0.6

0 20 40 60 80 100

RMS error in utility

Number of trials

Uczenie si

(15)

Aktywne uczenie si

e ze wzmocnieniem

֒

Co powinien zrobić agent, który nie posiada ustalonej polityki, albo który chcia lby okre´slić polityk

e֒ optymaln a?֒

Najpierw powinien wyznaczy´c kompletny model przej´s´c dla wszystkich akcji.

Przedstawiony wy˙zej algorytm ADP daje t

e֒ mo˙zliwo´s´c. Nast

epnie nale˙zy֒

wyznaczy´c polityk

e֒ optymaln

a, spe lniaj֒

ac֒

a֒ poni˙zsze r´ownanie Bellmana, jak w zwyk lym problemie decyzyjnym Markowa:

U (s) = R(s) + γ max

a

X

s^′

P (s^′|s, a)U (s^′)

Agent mo˙ze to zrobi´c algorytmem iteracji warto´sci lub iteracji polityki.

Nastepnie, maj֒

ac wyznaczon֒

a֒ optymaln

a֒ polityk

e֒ dla danego ´srodowiska, mo˙ze spokojnie przej´s´c do jej realizacji.

Ale czy powinien tak zrobi´c?

Uczenie si

e ze wzmocnieniem — aktywne֒ 15

(16)

0 0.5 1 1.5 2

0 50 100 150 200 250 300 350 400 450 500

RMS error, policy loss

Number of trials RMS error Policy loss

1 2 3

–1 +1

4

Wykres po lewej pokazuje wynik uczenia si

e֒ w pewnym eksperymencie. Agent znalaz l bezpo´sredni

a֒ drog

e֒ do rozwi

azania [+1] w przebiegu nr 39, lecz by la to֒

droga gorsza, wzd lu˙z stan´ow: (2,1), (3,1), (3,2), (3,3). Zdeterminowa la jednak przyj

et֒

a֒ przez agenta polityk

e֒ optymaln

a֒ po prawej. Okazuje si

e, ˙ze jest to֒

sytuacja typowa, agent z rzadka tylko znajduje optymaln

a֒ polityk

e֒ preferuj ac֒

a֒

droga֒ g´orn

a: (1,2), (1,3), (2,3), (3,3).֒

Uczenie si

e ze wzmocnieniem — aktywne֒ 16

(17)

Eksploracja

Niestety, je´sli agent nie nauczy si

e֒ poprawnego modelu ´srodowiska w swoich poczatkowych przebiegach, to b֒

edzie nast֒

epnie generowa l przebiegi zgodnie֒

z polityk

a֒ optymaln

a֒ dla pewnego modelu, kt´ora mo˙ze nie by´c globalnie optymalna dla danego ´srodowiska.

Pojawia si

e֒ tu kompromis pomi

edzy eksploatacj֒

a֒ posiadanej wiedzy a eksploracj

a֒ ´srodowiska. Agent nie mo˙ze zbyt szybko zadowoli´c si e֒

wyuczonym modelem ´srodowiska, i obliczon

a֒ dla niego optymaln

a֒ strategi a.֒

Powinien próbować ró˙znych mo˙zliwo´sci.

Co wi

ecej, musi wielokrotnie pr´obowa´c wszystkich akcji we wszystkich stanach,֒

je´sli chce unikn

ać֒ mo˙zliwo´sci, ˙ze przypadkowa pechowa seria uniemo˙zliwi mu odkrycie jakiego´s szczególnie dobrego ruchu. Jednak w końcu musi równie˙z zaczać֒ poruszać si

e֒ zgodnie z polityk

a֒ optymaln

a, aby dostroi´c j֒

a֒ do specyﬁcznych dla niej ´scie˙zek.

Uczenie si

e ze wzmocnieniem — eksploracja֒ 17

(18)

Polityka eksploracji

Aby po l

aczy´c skuteczn֒

a֒ eksploracj

e ´s֒ wiata z eksploatacj

a֒ posiadanej wiedzy agent powinien posiada´c polityk

e eksploracji. Ma ona zagwarantowa´c, ˙ze֒

agent b

edzie on w stanie pozna´c wszystkie swoje mo˙zliwe akcje w stopniu֒

wystarczaj

acym do obliczenia swojej globalnie optymalnej polityki dla danego֒

´srodowiska.

Prost

a֒ polityk

a֒ eksploracji mog loby by´c wykonywanie przypadkowych akcji we wszystkich stanach, z pewnym ustalonym prawdopodobie´nstwem,

a w pozosta lych przypadkach wykonywanie akcji uwa˙zanych za optymalne.

Jest to podej´scie poprawne, lecz wolno zbie˙zne. Lepiej by loby preferowa´c eksploracj

e֒ niezbyt dobrze jeszcze poznanych par stan-akcja, jednocze´snie unikaj

ac eksploracji par znanych ju˙z jako niezbyt korzystne.֒

Uczenie si

(19)

Funkcja eksploracji

Sensown

a֒ polityk

e֒ eksploracji mo˙zna zbudowa´c wprowadzaj

ac optymistyczne֒

oszacowania u˙zyteczno´sci U⁺(s):

U⁺(s) ← R(s) + γ max

a f X

s^′

P (s^′|s, a)U⁺(s^′), N (a, s)

!

gdzie N (a, s) jest liczb

a֒ wcze´sniej dokonanych wybor´ow akcji a w stanie s, natomiast f (u, n) jest funkcj

a eksploracji, wywa˙zaj֒

ac֒

a֒ preferencje dla zysku (du˙zych warto´sci u) i ciekawo´sci (ma lych warto´sci n).

Oczywi´scie funkcja eksploracji f powinna by´c rosn

aca ze wzgl֒

edu na u֒

i malej

aca ze wzgl֒

edu na n. Prostym przyk ladem funkcji f mo˙ze by´c:֒

f (u, n) =

R⁺ je´sli n < Ne

u w przeciwnym wypadku

gdzie R⁺ oznacza optymistyczne oszacowanie najlepszej nagrody mo˙zliwej do otrzymania w kt´orymkolwiek ze stan´ow, a N_e jest minimaln

a֒ liczb

a֒ pr´ob ka˙zdej pary stan-akcja, jak

a֒ agent b

edzie si֒

e֒ stara l wykona´c.

Uczenie si

(20)

Fakt, ˙ze we wzorze na aktualizacj

e֒ U⁺ po prawej stronie wyst

epuje r´ownie˙z U֒ ⁺

jest istotny. Poniewa˙z stany i akcje wok´o l stanu pocz

atkowego b֒

ed֒

a֒

wykonywane wiele razy, gdyby agent zastosowa l nieoptymistyczne obliczanie u˙zyteczno´sci, m´og lby zacz

ać֒ unikać tych stanów, i w konsekwencji zniech

eci´c si֒

e֒

do wypuszczania si e֒

”dalej”. U˙zycie warto´sci U⁺ oznacza, ˙ze optymistyczne warto´sci generowane dla nowo eksplorowanych region´ow b

ed֒

a֒ propagowane wstecz, dzi

eki czemu akcje prowadz֒

ace do nieznanych jeszcze region´ow b֒

ed֒

a֒

szacowane wysoko, i tym samym preferowane.

Uczenie si

(21)

0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2

0 20 40 60 80 100

Utility estimates

Number of trials (1,1) (1,2) (1,3) (2,3) (3,2) (3,3) (4,3)

0 0.2 0.4 0.6 0.8 1 1.2 1.4

0 20 40 60 80 100

RMS error, policy loss

Number of trials RMS error Policy loss

Na lewym wykresie wida´c przebieg uczenia si

e֒ agenta z eksploracj

a. Polityka֒

bliska optymalnej zosta la osi agni֒

eta po 18 przebiegach. Zauwa˙zmy, ˙ze warto´sci֒

u˙zyteczno´sci zbiegaj a֒ si

e֒ wolniej (RMS error) ni˙z zostaje wyznaczona optymalna polityka (policy loss).

Uczenie si

(22)

Aktywne uczenie si

e r´

֒

o˙znic czasowych

Metod

e֒ ró˙znic czasowych mo˙zna równie˙z zastosować do uczenia si

e֒ aktywnego.

Agent mo˙ze nie posiadać ustalonej polityki, i nadal obliczać u˙zyteczno´sci stanów wykorzystuj

ac ten sam wz´or co w przypadku pasywnym:֒

U^π(s) ← U^π(s) + α(R(s) + γU^π(s^′) − U^π(s))

Dzieki obliczanym u˙zyteczno´sciom agent mo˙ze wyznacza´c w la´sciwe akcje֒

w ka˙zdym stanie korzystaj

ac z u˙zyteczno´sci stan´ow s֒

asiednich. Mo˙zna wykaza´c,֒

˙ze aktywny agent TD osi

agnie te same wynikowe warto´sci u˙zyteczno´sci co֒

aktywny agent ADP.

Uczenie si

e ze wzmocnieniem — TD-learning֒ 22

(23)

Metoda Q-learning

Alternatywn

a֒ do poprzedniego wzoru metod

a֒ uczenia si

e֒ r´o˙znic czasowych jest metoda Q-learning, kt´ora zamiast u˙zyteczno´sci uczy si

e֒ reprezentacji

akcja-warto´s´c w postaci funkcji Q(s, a). Ta funkcja wyra˙za warto´s´c wykonania akcji a w stanie s, i jest zwi

azana z u˙zyteczno´sciami stan´ow wzorem:֒

U (s) = max

a Q(s, a) Docelowe warto´sci Q spe lniaj

a֒ r´ownanie:

Q(s, a) = R(s) + γ X

s^′

P (s^′|s, a) max

a^′ Q(s^′, a^′)

Powy˙zszy wzór móg lby być wykorzystywany w procesie iteracyjnym jako wzór do aktualizacji warto´sci Q. Wymaga loby to jednak jednoczesnego uczenia si

e֒

warto´sci Q i modelu w postaci funkcji P , kt´ora wyst

epuje we wzorze.֒

Uczenie si

e ze wzmocnieniem — Q-learning֒ 23

(24)

Q-learning — aktualizacja metod

a r´

֒

o˙znic czasowych

Mo˙zliwa jest r´ownie˙z aktualizacja lokalna funkcji Q b ed֒

aca wariantem metody֒

r´o˙znic czasowych i wyra˙zona poni˙zszym wzorem aktualizacyjnym, obliczanym ilekro´c akcja a jest wykonywana w stanie s prowadz

ac do stanu wynikowego s֒ ^′: Q(s, a) ← Q(s, a) + α(R(s) + γ max

a^′ Q(s^′, a^′) − Q(s, a)) Algorytm Q-learning z metod

a֒ r´o˙znic czasowych zbiega si

e֒ do rozwi

azania֒

znacznie wolniej ni˙z algorytm ADP, poniewa˙z nie wymusza obliczenia pe lnej sp´ojno´sci modelu (kt´orego nie tworzy).

Uczenie si

(25)

Pe lny algorytm Q-learning z eksploracj a

֒

W og´olno´sci aktywny agent ucz

acy si֒

e֒ metod

a֒ Q-learning wymaga zastosowania eksploracji tak samo jak w przypadku metody ADP. St

ad w algorytmie֒

wystepuje funkcja eksploracji f i tablica cz֒

esto´sci wyst֒

epowania akcji N . Przy֒

zastosowaniu prostszej polityki eksploracji (np. wykonywanie okre´slonej proporcji ruch´ow losowych) tablica N mo˙ze nie by´c potrzebna.

Uczenie si

(26)

SARSA — State-Action-Reward-State-Action

Istnieje pewien wariant algorytmu Q-learning z aktualizacj

a֒ metod

a֒ r´o˙znic czasowych zwany SARSA (State-Action-Reward-State-Action):

Q(s, a) ← Q(s, a) + α(R(s) + γQ(s^′, a^′) − Q(s, a)) W SARSA aktualizacja bierze pod uwag

e֒ pi

e´c֒ czynnik´ow: s, a, r, s^′, a^′. O ile algorytm Q-learning aktualizuje na podstawie najlepszej akcji wybranej dla stanu osiagni֒

etego przez akcj֒

e֒ a, SARSA bierze pod uwag

e֒ to jaka akcja zosta la w rzeczywisto´sci wybrana. Zatem np. dla zach lannego agenta realizuj

acego֒

wy lacznie eksploatacj֒

e֒ te dwie metody by lyby identyczne.

Jednak w przypadku uczenia si

e֒ z eksploracj

a֒ r´o˙znica jest istotna. Metoda Q-learning jest metod

a֒ uczenia si

e poza polityk֒

a֒ (off-policy), obliczaj ac֒

a֒

najlepsze mo˙zliwe warto´sci Q, niezale˙znie od tego gdzie prowadzi nas realizowana polityka. Natomiast SARSA jest metod

a w polityce֒ (on-policy), odpowiedni

a֒ dla agenta poruszaj

acego si֒

e֒ zgodnie z posiadan

a֒ polityk a.֒

Uczenie si

e ze wzmocnieniem — SARSA֒ 26

(27)

Q-learning jest bardziej elastycznym algorytmem, poniewa˙z pozwala agentowi uczy´c si

e֒ w la´sciwego zachowania si

e֒ nawet je´sli wykonuje on aktualnie polityk e֒

niezgodn

a֒ z wyuczanymi wzorcami. Natomiast SARSA jest bardziej realistyczna, poniewa˙z na przyk lad, gdyby agent nie m´og l w 100% kontrolowa´c swojej

polityki, to lepiej mu uczy´c si

e֒ wzorc´ow zgodnych z tym co rzeczywi´scie b

edzie֒

sie֒ z nim dzia lo, zamiast uczy´c si

e֒ zgodnie z najlepszymi dla agenta wzorcami.

Zar´owno Q-learning jak i SARSA s

a֒ w stanie nauczy´c si

e֒ optymalnej polityki dla przyk ladowego ´srodowiska 4x3, jednak wolniej ni˙z ADP (w sensie liczby iteracji).

Wynika to z faktu, ˙ze lokalne poprawki nie wymuszaj

a֒ sp´ojno´sci ca lej funkcji Q.

Por´ownuj

ac te metody mo˙zna spojrze´c szerzej i zada´c sobie pytanie, czy֒

lepszym podej´sciem jest uczenie si

e֒ modelu ´srodowiska i funkcji u˙zyteczno´sci, czy bezpo´srednie wyznaczanie odwzorowania stan´ow do akcji bez ogl

adania si֒

e֒

na model ´srodowiska.

Jest to w rzeczywisto´sci jedno z fundamentalnych pyta´n jak budowa´c sztuczn a֒

inteligencj

e. Przez wiele lat pocz֒

atkowego rozwoju tej dziedziny wiedzy֒

dominowa l paradygmat system´ow opartych na wiedzy (knowledge-based), postuluj

acych konieczno´s´c budowy modeli deklaratywnych. Fakt, ˙ze powstaj֒

a֒

metody bezmodelowe takie jak Q-learning sugeruje, ˙ze być mo˙ze by lo to niepotrzebne. Jednak dla niektórych bardziej z lo˙zonych zagadnień podej´scie z modelem sprawdza si

e֒ lepiej, zatem kwestia pozostaje nierozstrzygni eta.֒

Uczenie si

(28)

Uczenie si

(29)

Uog´ olnianie w uczeniu si

e ze wzmocnieniem

֒ Om´owione powy˙zej algorytmy uczenia si

e֒ ze wzmocnieniem zak ladaj

a֒ jawn a֒

reprezentacj

e֒ funkcji U (s) lub Q(s) tak

a֒ jak np. reprezentacja tablicowa. Mo˙ze to by´c praktyczne tylko do pewnej wielko´sci zagadnienia.

Na przyk lad, dla zagadnień o bardzo du˙zej liczbie stanów (np. ≫ 10²⁰ dla gier takich jak szachy lub backgammon), trudno wyobrazić sobie wykonanie

wystarczaj

acej liczby przebieg´ow ucz֒

acych aby odwiedzi´c ka˙zdy stan wiele razy.֒

Konieczne jest zastosowanie jakiej´s metody generalizacji (uogólniania), która pozwoli laby generować skuteczn

a֒ polityk

e֒ na podstawie ma lej cz e´s֒ ci przebadanej przestrzeni stan´ow.

Uczenie si

e ze wzmocnieniem — uog´֒ olnianie 29

(30)

Uczenie si

e ze wzmocnieniem — uog´֒ olnianie 30

(31)

Aproksymacja funkcji

Jedna֒ z takich metod jest aproksymacja funkcji, polegaj

aca na zapisie֒

badanej funkcji (np. U ) w postaci nietablicowej, np. wyra˙zeniu jej jak

a´s֒ formu l a֒

sko´nczon

a. Podobnie jak w konstrukcji funkcji heurystycznych, mo˙zna֒

zastosowa´c liniow

a֒ kombinacj

e֒ jakich´s cech stanu (zwanych r´ownie˙z atrybutami stanu):

Uˆ_θ(s) = θ₁f₁(s) + θ₂f₂(s) + ... + θ_nf_n(s)

Algorytm uczenia si

e֒ ze wzmocnieniem uczy lby si

e֒ wektora wspó lczynników θ =< θ₁, θ₂, ..., θ_n > tak by funkcja oceny Û_θ przybli˙za la mo˙zliwie dobrze rzeczywist

a֒ funkcj

e֒ u˙zyteczno´sci stan´ow.

Podej´scie to nazywa si

e֒ aproksymacj

a֒ funkcji, poniewa˙z nie ma pewno´sci, ˙ze rzeczywist

a֒ funkcj

e֒ oceny da si

e֒ wyrazi´c tego typu formu l

a. Jakkolwiek wydaje֒

sie֒ w

atpliwe by np. optymaln֒

a֒ polityk

e֒ dla gry w szachy da lo si

e֒ wyrazi´c funkcj a֒

z kilkunastoma wsp´o lczynnikami, to jest zupe lnie mo˙zliwe by osi agn֒

a´c֒ w ten spos´ob dobry poziom gry.

Uczenie si

e ze wzmocnieniem — aproksymacja funkcji֒ 31

(32)

Istot

a֒ podej´scia jest jednak nie przybli˙zenie mniejsz

a֒ liczb

a֒ wspó lczynników funkcji, która w rzeczywisto´sci być mo˙ze wymaga ich wielokrotnie wi

ecej, ale֒

uog´olnianie, czyli generowanie polityki dla wszystkich stan´ow na podstawie analizy ma lej ich cz

e´s֒ ci.

Np. w eksperymentach przeprowadzonych z gr

a֒ backgammon, uda lo si

e֒ nauczyć gracza poziomu gry porównywalnego z ludzkimi na podstawie prób

analizuj

acych jeden na 10֒ ¹² stan´ow.

Oczywi´scie, sukces uczenia si

e֒ ze wzmocnieniem w takich przypadkach zale˙zy od trafnego wybrania funkcji aproksymuj

acej. Je´sli ˙zadna kombinacja wybranych֒

cech nie mo˙ze da´c dobrej strategii gry, to ˙zadna metoda uczenia jej nie wygeneruje. Z kolei, wybranie bardzo rozbudowanej funkcji z du˙z

a֒ liczb

a֒ cech i wsp´o lczynnik´ow zwi

eksza szanse na sukces, ale kosztem wolniejszej zbie˙zno´sci֒

i zarazem wolniejszego procesu uczenia.

Uczenie si

(33)

Korekta parametr´ ow funkcji

Aby umo˙zliwi´c uczenie si

e֒ na bie˙z

aco (on-line learning) niezb֒

edna jest jaka´s֒

metoda korekty parametr´ow na podstawie warto´sci wzmocnie´n otrzymywanych po ka˙zdym przebiegu (albo po ka˙zdym kroku).

Na przyk lad, je´sli uj(s) jest warto´sci

a֒ pozosta lej nagrody dla stanu s w j-tym przebiegu ucz

acym, to b l֒

ad aproksymacji funkcji u˙zyteczno´sci mo˙zna oblicza´c֒

jako:

E_j = ( ˆU_θ(s) − u_j(s))² 2

Dynamika zmiany tego b l

edu ze wzgl֒

edu na parametr θ֒ _i jest okre´slona jako

∂E_j/∂θ_i, zatem aby skorygowa´c ten parametr w kierunku zmniejszenia b l

edu,֒

w la´sciw

a֒ formu l

a֒ na poprawk

e֒ jest:

θ_i ← θ_i − α∂E_j(s)

∂θ_i = θ_i + α(u_j(s) − ˆU_θ(s))∂ ˆU_θ(s)

∂θ_i Powy˙zszy wz´or zwany jest regu l

a Widrow’a-Hoﬀ’a֒ albo regu l

a delta.֒

Uczenie si

(34)

Przyk lad

Na przyk lad, dla ´srodowiska 4x3 funkcja u˙zyteczno´sci stan´ow mog laby by´c aproksymowana liniow

a֒ kombinacj

a֒ wsp´o lrz

ednych:֒

Uˆθ(x, y) = θ₀ + θ₁x + θ₂y Poprawki zgodne z regu l

a֒ delta b ed֒

a֒ teraz dane przez:

θ₀ ← θ₀ + α(uj(s) − Ûθ(s)) θ₁ ← θ₁ + α(u_j(s) − Û_θ(s))x θ₂ ← θ₂ + α(u_j(s) − Û_θ(s))y

Przyjmuj

ac przyk ladowo θ =< θ֒ ₀, θ₁, θ₂ >=< 0.5, 0.2, 0.1 > otrzymujemy poczatkowe przybli˙zenie ˆ֒ U_θ(1, 1) = 0.8. Je´sli po wykonaniu przebiegu ucz

acego֒

obliczyliby´smy np. u_j(1, 1) = 0.72 to wszystkie wsp´o lczynniki θ₀, θ₁, θ₂ zosta lyby obni˙zone o 0.08α, co zmniejszy loby b l

ad dla stanu (1,1). Oczywi´scie,֒

w ten spos´ob zmieni laby si

e֒ ca la funkcja ˆUθ(s), co jest istot

a֒ uog´olniania.

Uczenie si

(35)

Zastosowanie r´ o˙znic czasowych

Mo˙zna r´ownie˙z realizowa´c poprawki metod

a֒ r´o˙znic czasowych.

θ_i ← θ_i + α[R(s) + γ Û_θ(s^′) − Û_θ(s)]∂ Û_θ(s)

∂θ_i

θ_i ← θ_i + α[R(s) + γ max

a^′

Qˆ_θ(s^′, a^′) − ˆQ_θ(s, a)]∂ ˆQ_θ(s, a)

∂θi

Uczenie si

(36)

Materia ly

David Silver: Kurs uczenia ze wzmocnieniem (2015, University College London):

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

Uczenie si