Wykład 14 – Uczenie ze wzmocnieniem (II)

(1)

Trochę teorii Algorytm Q-learning Podsumowanie

Podstawy uczenia maszynowego

Jarosław Miszczak Mateusz Ostaszewski

Wojciech Masarczyk

(2)

Trochę teorii Algorytm Q-learning Podsumowanie

1 Trochę teorii

Szybkie przypomnienie Procesy decyzyjne Markowa Funkcje wartościujące Równania Bellmana

2 Algorytm Q-learning

Eksploracja

Q-learning we Frozen Lake

(3)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie Procesy decyzyjne Markowa Funkcje wartościujące Równania Bellmana

(4)

Trochę teorii

Szybkie przypomnienie

Procesy decyzyjne Markowa Funkcje wartościujące Równania Bellmana

Trochę teorii

Ogólny mechanizm działania agenta w zadaniu uczenie ze wzmocnieniem jest prosty.

Agent w chwili t znajduje się w stanie st, który reprezentuje jego wiedzę

na temat środowiska. Agent

wykonuje akcję at. Po wykonanej

akcji, stan zmienia się na st+1.

Agent otrzymuje również numeryczną nagrodę rt. agent środowisko stan, nagro da s t_, r t ak cja at

(5)

Trochę teorii

Ogólny mechanizm działania agenta w zadaniu uczenie ze wzmocnieniem jest prosty. Agent w chwili t znajduje się w stanie st, który reprezentuje jego wiedzę

na temat środowiska.

Agent

(6)

Trochę teorii

na temat środowiska. Agent wykonuje akcję at.

Po wykonanej akcji, stan zmienia się na st+1.

(7)

Trochę teorii

(8)

Trochę teorii

Agent otrzymuje również

numeryczną nagrodę r . agent środowisko stan, nagro da s t_, r t ak cja at

(9)

Trochę teorii

(10)

Trochę teorii

Procesy decyzyjne Markowa

Funkcje wartościujące Równania Bellmana

Trochę teorii

Prawie wszystkie problemy uczenia się ze wzmocnieniem mogą zostać opisane modelem matematycznym zwanym Proces

Decyzyjnym Markowa (ang. Markov Decision Processes MDP).

Wszystkie atrybuty środowiska w MDP mają własność Markowa,

P(st+1, rt|s0, a0, . . . , st, at) = P(st+1, rt|st, at).

Oznacza to, że przyszłość procesu zależy tylko od aktualnej obserwacji.

(11)

Trochę teorii

(12)

Trochę teorii

(13)

Trochę teorii

(14)

Trochę teorii

Procesem Decyzyjnym Markowa nazywamy piątkę (S, A, P, R, p0)

gdzie:

S jest przestrzenią stanów, A jest przestrzenią akcji,

P : S × A → [0, 1] jest funkcją przejścia (rozkładem warunkowych prawdopodobieństw pomiędzy stanami), R : S × A → R jest funkcją nagrody, gdzie rt= R(st, at),

(15)

Trochę teorii

gdzie:

S jest przestrzenią stanów,

A jest przestrzenią akcji,

(16)

Trochę teorii

gdzie:

(17)

Trochę teorii

gdzie:

P : S × A → [0, 1] jest funkcją przejścia (rozkładem warunkowych prawdopodobieństw pomiędzy stanami),

R : S × A → R jest funkcją nagrody, gdzie rt= R(st, at),

(18)

Trochę teorii

gdzie:

(19)

Trochę teorii

gdzie:

(20)

Trochę teorii

Szybkie przypomnienie Procesy decyzyjne Markowa

Funkcje wartościujące

Równania Bellmana

Trochę teorii

Ocena stanu względem konkretnej strategii dokonywana jest poprzez funkcję stan-wartość,

Vπ(s) = Eτ ∼π[R(τ )|s0 = s].

Podobnie definiujemy funkcję akcja-wartość

Qπ(s, a) = Eτ ∼π[R(τ )|s0 = s, a0= a].

Korzystając z rozkładu prawdopodobieństwa opisującego możliwe akcje, można powiązać powyższe funkcje

Vπ(s) = X

a∈A

Qπ(s, a)π(a|s),

(21)

Trochę teorii

Równania Bellmana

Trochę teorii

Vπ(s) = Eτ ∼π[R(τ )|s0 = s].

Qπ(s, a) = Eτ ∼π[R(τ )|s0 = s, a0= a].

Vπ(s) = X

a∈A

Qπ(s, a)π(a|s),

(22)

Trochę teorii

Równania Bellmana

Trochę teorii

Vπ(s) = Eτ ∼π[R(τ )|s0 = s].

Qπ(s, a) = Eτ ∼π[R(τ )|s0 = s, a0= a].

(23)

Trochę teorii

Równania Bellmana

Trochę teorii

Optymalna funkcja wartościująca daje maksymalny zwrot V∗(s) = max π V π_(s), Q∗(s, a) = max π Q π_{(s, a).}

Optymalna strategia daje optymalne funkcje wartościujące Vπ∗(s) = V∗(s),

(24)

Trochę teorii

Równania Bellmana

Trochę teorii

Co nam to daje?

Powyższe równania służą do precyzyjnego opisu procesu oceny aktualnej strategi znajdując się w konkretnym stanie V (s), lub chcąc wykonać konkretną akcję w danym stanie Q(s, a). Wykorzystując metody programowania dynamicznego możemy dokonać aproksymacji tych funkcji.

Bazując na takiej aproksymacji zbudujemy przykładowy algorytmy uczenia się ze wzmocnieniem.

(25)

Trochę teorii

Równania Bellmana

Trochę teorii

Co nam to daje?

Powyższe równania służą do precyzyjnego opisu procesu oceny aktualnej strategi znajdując się w konkretnym stanie V (s), lub chcąc wykonać konkretną akcję w danym stanie Q(s, a).

Wykorzystując metody programowania dynamicznego możemy dokonać aproksymacji tych funkcji.

(26)

Trochę teorii

Równania Bellmana

Trochę teorii

Co nam to daje?

(27)

Trochę teorii

Równania Bellmana

Trochę teorii

Co nam to daje?

(28)

Trochę teorii

Szybkie przypomnienie Procesy decyzyjne Markowa Funkcje wartościujące

Równania Bellmana

Trochę teorii

Równania Bellmana

Dowolny proces decyzyjny Markowa ma zagwarantowane istnienie deterministycznej strategii optymalnej.

Wyznaczenie tej strategii jest możliwe za pomocą równań

Bellmana.

Równania te dekomponują funkcje na natychmiastową nagrodę oraz zdyskontowane przyszłe nagrody.

Dla funkcji akcja-wartość mamy

Qπ(s, a) = R(s, a) + γ X

s′_∈S

(29)

Trochę teorii

Równania Bellmana

Trochę teorii

Równania Bellmana

Bellmana.

Qπ(s, a) = R(s, a) + γ X

s′_∈S

(30)

Trochę teorii

Równania Bellmana

Trochę teorii

Równania Bellmana

Bellmana.

Qπ(s, a) = R(s, a) + γ X

s′_∈S

(31)

Trochę teorii

Równania Bellmana

Trochę teorii

Równania Bellmana

Bellmana.

Qπ(s, a) = R(s, a) + γ X

s′_∈S

(32)

Trochę teorii

Równania Bellmana

Trochę teorii

Równania Bellmana

Dla dowolnego stanu s ∈ S, prawdziwe jest następujące równanie optymalności Bellmana V∗(s) = max a∈A[R(s, a) + γ X s′_∈S P(s′|s, a)V∗(s′)],

oraz dla dowolnej akcji a ∈ A

Q∗(s)(s, a) = R(s, a) + γ X

s′_∈S

P(s′|s, a) max

a′_∈AQ

(33)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na

równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.

Zainicjuj losowo stan s.

Dopóki nie jest osiągnięty stan końcowy

Wybierz akcję a na podstawie Q-tabelki. Wylicz nagrodę r . Przejdź do stanu s′ Aktualizuję Q-tabelkę Q(s, a) = Q(s, a) + α(r + γ max a Q(s ′_{, a) − Q(s, a))}

Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.

(34)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

(35)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

(36)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

Dopóki nie jest osiągnięty stan końcowy Wybierz akcję a na podstawie Q-tabelki.

Wylicz nagrodę r . Przejdź do stanu s′ Aktualizuję Q-tabelkę Q(s, a) = Q(s, a) + α(r + γ max a Q(s ′_{, a) − Q(s, a))}

(37)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

Dopóki nie jest osiągnięty stan końcowy Wybierz akcję a na podstawie Q-tabelki. Wylicz nagrodę r . Przejdź do stanu s′ Aktualizuję Q-tabelkę Q(s, a) = Q(s, a) + α(r + γ max a Q(s ′_{, a) − Q(s, a))}

(38)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

(39)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

(40)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

Eksploracja

Dla algorytmu Q-learning (i uczenie ze wzmocnieniem) kluczowym aspektem jest eksploracja.

W algorytmie Q-learning musimy wybrać akcję na podstawie Q funkcji.

Jeżeli aktualna aproksymacja Q funkcji dokądś nas

zaprowadzi, to dalej nie wiemy, czy nie istnieje inna, lepsza droga.

Dlatego wprowadza się pewien czynnik prowokujący do wybrania innej akcji niż sugeruje nam algorytm RL, czyli w tym przypadku arg maxaQ(st, a).

(41)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

Eksploracja

Dlatego wprowadza się pewien czynnik prowokujący do wybrania innej akcji niż sugeruje nam algorytm RL, czyli w tym przypadku arg maxaQ(st, a).

(42)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

Eksploracja

Dlatego wprowadza się pewien czynnik prowokujący do wybrania innej akcji niż sugeruje nam algorytm RL, czyli w

(43)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

Przykład

Skrypt frozen-lake-demo.py wizualizujący proces tworzenia się Q-tabelki.

Przeanalizujemy kilka przykładowych uruchomień wizualizacji. Poniższe przykłady będą dotyczyły tworzenia Q-tabelki z γ = 0.5.

(44)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

Przykład

Przeanalizujemy kilka przykładowych uruchomień wizualizacji. Poniższe przykłady będą dotyczyły tworzenia Q-tabelki z γ = 0.5.

(45)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

Zaczynamy z tabelką, której wszystkie wartości wynoszą zero.

Wszystkie krawędzie (przejścia między stanami) mają wartość zero.

(46)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

(47)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

(48)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

Po pewnym czasie, agent na skutek losowych kroków przechodzi z pozycji (3, 2) na pozycję (3, 3).

W ten sposób dostaje nagrodę 1.

Fakt ten odnotowany zostaje w Q-tabelce i pojawia się mocno czerwona krawędź pomiędzy tymi pozycjami.

(49)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

(50)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

(51)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

(52)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

Po kolejnych iteracjach pojawia się więcej krawędzi.

Ilustruje to cechę tej metody – ścieżka, którą ma podążać agent tworzy się od punktu

docelowegoG, i dąży do

punktu startowego S.

Po pewnym czasie, wartości Q-tabelki się ustalają.

Im dalej od pozycji Gtym

Q-funkcja przyjmuje mniejsze wartości.

(53)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

Po kolejnych iteracjach pojawia się więcej krawędzi. Ilustruje to cechę tej metody – ścieżka, którą ma podążać agent tworzy się od punktu

(54)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

(55)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

(56)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

(57)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

Przykład

(58)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Algorytm Q-learning

Przykład

(59)

Trochę teorii Algorytm Q-learning

Podsumowanie

Zadanie uczenia ze wzmocnieniem może być opisane jako proces decyzyjny Markowa.

Wyliczenie funkcji wartościujących jest możliwe dzięki równaniom Bellmana.

Najprostszym algorytmem RL jest Q-learning. Do znalezienia optymymalnej strategii konieczna jest eksploracja.

Dla realnych problemów atakowanych za pomocą RL

wykorzystuje się głębokie sieci neuronowe, które aproksymują wartości Q tabelki.

(60)

Podsumowanie

(61)

Podsumowanie

Najprostszym algorytmem RL jest Q-learning.

Do znalezienia optymymalnej strategii konieczna jest eksploracja.

(62)

Podsumowanie

(63)

Podsumowanie

(64)

Podsumowanie