• Nie Znaleziono Wyników

Wykład 14 – Uczenie ze wzmocnieniem (II)

N/A
N/A
Protected

Academic year: 2021

Share "Wykład 14 – Uczenie ze wzmocnieniem (II)"

Copied!
64
0
0

Pełen tekst

(1)

Trochę teorii Algorytm Q-learning Podsumowanie

Podstawy uczenia maszynowego

Wykład 14 – Uczenie ze wzmocnieniem (II)

Jarosław Miszczak Mateusz Ostaszewski

Wojciech Masarczyk

(2)

Trochę teorii Algorytm Q-learning Podsumowanie

1 Trochę teorii

Szybkie przypomnienie Procesy decyzyjne Markowa Funkcje wartościujące Równania Bellmana

2 Algorytm Q-learning

Eksploracja

Q-learning we Frozen Lake

(3)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie Procesy decyzyjne Markowa Funkcje wartościujące Równania Bellmana

(4)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie

Procesy decyzyjne Markowa Funkcje wartościujące Równania Bellmana

Trochę teorii

Szybkie przypomnienie

Ogólny mechanizm działania agenta w zadaniu uczenie ze wzmocnieniem jest prosty.

Agent w chwili t znajduje się w stanie st, który reprezentuje jego wiedzę

na temat środowiska. Agent

wykonuje akcję at. Po wykonanej

akcji, stan zmienia się na st+1.

Agent otrzymuje również numeryczną nagrodę rt. agent środowisko stan, nagro da s t, r t ak cja at

(5)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie

Procesy decyzyjne Markowa Funkcje wartościujące Równania Bellmana

Trochę teorii

Szybkie przypomnienie

Ogólny mechanizm działania agenta w zadaniu uczenie ze wzmocnieniem jest prosty. Agent w chwili t znajduje się w stanie st, który reprezentuje jego wiedzę

na temat środowiska.

Agent

wykonuje akcję at. Po wykonanej

akcji, stan zmienia się na st+1.

Agent otrzymuje również numeryczną nagrodę rt. agent środowisko stan, nagro da s t, r t ak cja at

(6)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie

Procesy decyzyjne Markowa Funkcje wartościujące Równania Bellmana

Trochę teorii

Szybkie przypomnienie

Ogólny mechanizm działania agenta w zadaniu uczenie ze wzmocnieniem jest prosty. Agent w chwili t znajduje się w stanie st, który reprezentuje jego wiedzę

na temat środowiska. Agent wykonuje akcję at.

Po wykonanej akcji, stan zmienia się na st+1.

Agent otrzymuje również numeryczną nagrodę rt. agent środowisko stan, nagro da s t, r t ak cja at

(7)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie

Procesy decyzyjne Markowa Funkcje wartościujące Równania Bellmana

Trochę teorii

Szybkie przypomnienie

Ogólny mechanizm działania agenta w zadaniu uczenie ze wzmocnieniem jest prosty. Agent w chwili t znajduje się w stanie st, który reprezentuje jego wiedzę

na temat środowiska. Agent

wykonuje akcję at. Po wykonanej

akcji, stan zmienia się na st+1.

Agent otrzymuje również numeryczną nagrodę rt. agent środowisko stan, nagro da s t, r t ak cja at

(8)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie

Procesy decyzyjne Markowa Funkcje wartościujące Równania Bellmana

Trochę teorii

Szybkie przypomnienie

Ogólny mechanizm działania agenta w zadaniu uczenie ze wzmocnieniem jest prosty. Agent w chwili t znajduje się w stanie st, który reprezentuje jego wiedzę

na temat środowiska. Agent

wykonuje akcję at. Po wykonanej

akcji, stan zmienia się na st+1.

Agent otrzymuje również

numeryczną nagrodę r . agent środowisko stan, nagro da s t, r t ak cja at

(9)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie

Procesy decyzyjne Markowa Funkcje wartościujące Równania Bellmana

Trochę teorii

Szybkie przypomnienie

Ogólny mechanizm działania agenta w zadaniu uczenie ze wzmocnieniem jest prosty. Agent w chwili t znajduje się w stanie st, który reprezentuje jego wiedzę

na temat środowiska. Agent

wykonuje akcję at. Po wykonanej

akcji, stan zmienia się na st+1.

Agent otrzymuje również numeryczną nagrodę rt. agent środowisko stan, nagro da s t, r t ak cja at

(10)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie

Procesy decyzyjne Markowa

Funkcje wartościujące Równania Bellmana

Trochę teorii

Procesy decyzyjne Markowa

Prawie wszystkie problemy uczenia się ze wzmocnieniem mogą zostać opisane modelem matematycznym zwanym Proces

Decyzyjnym Markowa (ang. Markov Decision Processes MDP).

Wszystkie atrybuty środowiska w MDP mają własność Markowa,

P(st+1, rt|s0, a0, . . . , st, at) = P(st+1, rt|st, at).

Oznacza to, że przyszłość procesu zależy tylko od aktualnej obserwacji.

(11)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie

Procesy decyzyjne Markowa

Funkcje wartościujące Równania Bellmana

Trochę teorii

Procesy decyzyjne Markowa

Prawie wszystkie problemy uczenia się ze wzmocnieniem mogą zostać opisane modelem matematycznym zwanym Proces

Decyzyjnym Markowa (ang. Markov Decision Processes MDP).

Wszystkie atrybuty środowiska w MDP mają własność Markowa,

P(st+1, rt|s0, a0, . . . , st, at) = P(st+1, rt|st, at).

Oznacza to, że przyszłość procesu zależy tylko od aktualnej obserwacji.

(12)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie

Procesy decyzyjne Markowa

Funkcje wartościujące Równania Bellmana

Trochę teorii

Procesy decyzyjne Markowa

Prawie wszystkie problemy uczenia się ze wzmocnieniem mogą zostać opisane modelem matematycznym zwanym Proces

Decyzyjnym Markowa (ang. Markov Decision Processes MDP).

Wszystkie atrybuty środowiska w MDP mają własność Markowa,

P(st+1, rt|s0, a0, . . . , st, at) = P(st+1, rt|st, at).

Oznacza to, że przyszłość procesu zależy tylko od aktualnej obserwacji.

(13)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie

Procesy decyzyjne Markowa

Funkcje wartościujące Równania Bellmana

Trochę teorii

Procesy decyzyjne Markowa

Prawie wszystkie problemy uczenia się ze wzmocnieniem mogą zostać opisane modelem matematycznym zwanym Proces

Decyzyjnym Markowa (ang. Markov Decision Processes MDP).

Wszystkie atrybuty środowiska w MDP mają własność Markowa,

P(st+1, rt|s0, a0, . . . , st, at) = P(st+1, rt|st, at).

Oznacza to, że przyszłość procesu zależy tylko od aktualnej obserwacji.

(14)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie

Procesy decyzyjne Markowa

Funkcje wartościujące Równania Bellmana

Trochę teorii

Procesy decyzyjne Markowa

Procesem Decyzyjnym Markowa nazywamy piątkę (S, A, P, R, p0)

gdzie:

S jest przestrzenią stanów, A jest przestrzenią akcji,

P : S × A → [0, 1] jest funkcją przejścia (rozkładem warunkowych prawdopodobieństw pomiędzy stanami), R : S × A → R jest funkcją nagrody, gdzie rt= R(st, at),

(15)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie

Procesy decyzyjne Markowa

Funkcje wartościujące Równania Bellmana

Trochę teorii

Procesy decyzyjne Markowa

Procesem Decyzyjnym Markowa nazywamy piątkę (S, A, P, R, p0)

gdzie:

S jest przestrzenią stanów,

A jest przestrzenią akcji,

P : S × A → [0, 1] jest funkcją przejścia (rozkładem warunkowych prawdopodobieństw pomiędzy stanami), R : S × A → R jest funkcją nagrody, gdzie rt= R(st, at),

(16)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie

Procesy decyzyjne Markowa

Funkcje wartościujące Równania Bellmana

Trochę teorii

Procesy decyzyjne Markowa

Procesem Decyzyjnym Markowa nazywamy piątkę (S, A, P, R, p0)

gdzie:

S jest przestrzenią stanów, A jest przestrzenią akcji,

P : S × A → [0, 1] jest funkcją przejścia (rozkładem warunkowych prawdopodobieństw pomiędzy stanami), R : S × A → R jest funkcją nagrody, gdzie rt= R(st, at),

(17)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie

Procesy decyzyjne Markowa

Funkcje wartościujące Równania Bellmana

Trochę teorii

Procesy decyzyjne Markowa

Procesem Decyzyjnym Markowa nazywamy piątkę (S, A, P, R, p0)

gdzie:

S jest przestrzenią stanów, A jest przestrzenią akcji,

P : S × A → [0, 1] jest funkcją przejścia (rozkładem warunkowych prawdopodobieństw pomiędzy stanami),

R : S × A → R jest funkcją nagrody, gdzie rt= R(st, at),

(18)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie

Procesy decyzyjne Markowa

Funkcje wartościujące Równania Bellmana

Trochę teorii

Procesy decyzyjne Markowa

Procesem Decyzyjnym Markowa nazywamy piątkę (S, A, P, R, p0)

gdzie:

S jest przestrzenią stanów, A jest przestrzenią akcji,

P : S × A → [0, 1] jest funkcją przejścia (rozkładem warunkowych prawdopodobieństw pomiędzy stanami), R : S × A → R jest funkcją nagrody, gdzie rt= R(st, at),

(19)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie

Procesy decyzyjne Markowa

Funkcje wartościujące Równania Bellmana

Trochę teorii

Procesy decyzyjne Markowa

Procesem Decyzyjnym Markowa nazywamy piątkę (S, A, P, R, p0)

gdzie:

S jest przestrzenią stanów, A jest przestrzenią akcji,

P : S × A → [0, 1] jest funkcją przejścia (rozkładem warunkowych prawdopodobieństw pomiędzy stanami), R : S × A → R jest funkcją nagrody, gdzie rt= R(st, at),

(20)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie Procesy decyzyjne Markowa

Funkcje wartościujące

Równania Bellmana

Trochę teorii

Funkcje wartościujące

Ocena stanu względem konkretnej strategii dokonywana jest poprzez funkcję stan-wartość,

Vπ(s) = Eτ ∼π[R(τ )|s0 = s].

Podobnie definiujemy funkcję akcja-wartość

Qπ(s, a) = Eτ ∼π[R(τ )|s0 = s, a0= a].

Korzystając z rozkładu prawdopodobieństwa opisującego możliwe akcje, można powiązać powyższe funkcje

Vπ(s) = X

a∈A

Qπ(s, a)π(a|s),

(21)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie Procesy decyzyjne Markowa

Funkcje wartościujące

Równania Bellmana

Trochę teorii

Funkcje wartościujące

Ocena stanu względem konkretnej strategii dokonywana jest poprzez funkcję stan-wartość,

Vπ(s) = Eτ ∼π[R(τ )|s0 = s].

Podobnie definiujemy funkcję akcja-wartość

Qπ(s, a) = Eτ ∼π[R(τ )|s0 = s, a0= a].

Korzystając z rozkładu prawdopodobieństwa opisującego możliwe akcje, można powiązać powyższe funkcje

Vπ(s) = X

a∈A

Qπ(s, a)π(a|s),

(22)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie Procesy decyzyjne Markowa

Funkcje wartościujące

Równania Bellmana

Trochę teorii

Funkcje wartościujące

Ocena stanu względem konkretnej strategii dokonywana jest poprzez funkcję stan-wartość,

Vπ(s) = Eτ ∼π[R(τ )|s0 = s].

Podobnie definiujemy funkcję akcja-wartość

Qπ(s, a) = Eτ ∼π[R(τ )|s0 = s, a0= a].

Korzystając z rozkładu prawdopodobieństwa opisującego możliwe akcje, można powiązać powyższe funkcje

(23)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie Procesy decyzyjne Markowa

Funkcje wartościujące

Równania Bellmana

Trochę teorii

Funkcje wartościujące

Optymalna funkcja wartościująca daje maksymalny zwrot V(s) = max π V π(s), Q∗(s, a) = max π Q π(s, a).

Optymalna strategia daje optymalne funkcje wartościujące Vπ∗(s) = V∗(s),

(24)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie Procesy decyzyjne Markowa

Funkcje wartościujące

Równania Bellmana

Trochę teorii

Funkcje wartościujące

Co nam to daje?

Powyższe równania służą do precyzyjnego opisu procesu oceny aktualnej strategi znajdując się w konkretnym stanie V (s), lub chcąc wykonać konkretną akcję w danym stanie Q(s, a). Wykorzystując metody programowania dynamicznego możemy dokonać aproksymacji tych funkcji.

Bazując na takiej aproksymacji zbudujemy przykładowy algorytmy uczenia się ze wzmocnieniem.

(25)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie Procesy decyzyjne Markowa

Funkcje wartościujące

Równania Bellmana

Trochę teorii

Funkcje wartościujące

Co nam to daje?

Powyższe równania służą do precyzyjnego opisu procesu oceny aktualnej strategi znajdując się w konkretnym stanie V (s), lub chcąc wykonać konkretną akcję w danym stanie Q(s, a).

Wykorzystując metody programowania dynamicznego możemy dokonać aproksymacji tych funkcji.

Bazując na takiej aproksymacji zbudujemy przykładowy algorytmy uczenia się ze wzmocnieniem.

(26)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie Procesy decyzyjne Markowa

Funkcje wartościujące

Równania Bellmana

Trochę teorii

Funkcje wartościujące

Co nam to daje?

Powyższe równania służą do precyzyjnego opisu procesu oceny aktualnej strategi znajdując się w konkretnym stanie V (s), lub chcąc wykonać konkretną akcję w danym stanie Q(s, a). Wykorzystując metody programowania dynamicznego możemy dokonać aproksymacji tych funkcji.

Bazując na takiej aproksymacji zbudujemy przykładowy algorytmy uczenia się ze wzmocnieniem.

(27)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie Procesy decyzyjne Markowa

Funkcje wartościujące

Równania Bellmana

Trochę teorii

Funkcje wartościujące

Co nam to daje?

Powyższe równania służą do precyzyjnego opisu procesu oceny aktualnej strategi znajdując się w konkretnym stanie V (s), lub chcąc wykonać konkretną akcję w danym stanie Q(s, a). Wykorzystując metody programowania dynamicznego możemy dokonać aproksymacji tych funkcji.

Bazując na takiej aproksymacji zbudujemy przykładowy algorytmy uczenia się ze wzmocnieniem.

(28)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie Procesy decyzyjne Markowa Funkcje wartościujące

Równania Bellmana

Trochę teorii

Równania Bellmana

Dowolny proces decyzyjny Markowa ma zagwarantowane istnienie deterministycznej strategii optymalnej.

Wyznaczenie tej strategii jest możliwe za pomocą równań

Bellmana.

Równania te dekomponują funkcje na natychmiastową nagrodę oraz zdyskontowane przyszłe nagrody.

Dla funkcji akcja-wartość mamy

Qπ(s, a) = R(s, a) + γ X

s∈S

(29)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie Procesy decyzyjne Markowa Funkcje wartościujące

Równania Bellmana

Trochę teorii

Równania Bellmana

Dowolny proces decyzyjny Markowa ma zagwarantowane istnienie deterministycznej strategii optymalnej.

Wyznaczenie tej strategii jest możliwe za pomocą równań

Bellmana.

Równania te dekomponują funkcje na natychmiastową nagrodę oraz zdyskontowane przyszłe nagrody.

Dla funkcji akcja-wartość mamy

Qπ(s, a) = R(s, a) + γ X

s∈S

(30)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie Procesy decyzyjne Markowa Funkcje wartościujące

Równania Bellmana

Trochę teorii

Równania Bellmana

Dowolny proces decyzyjny Markowa ma zagwarantowane istnienie deterministycznej strategii optymalnej.

Wyznaczenie tej strategii jest możliwe za pomocą równań

Bellmana.

Równania te dekomponują funkcje na natychmiastową nagrodę oraz zdyskontowane przyszłe nagrody.

Dla funkcji akcja-wartość mamy

Qπ(s, a) = R(s, a) + γ X

s∈S

(31)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie Procesy decyzyjne Markowa Funkcje wartościujące

Równania Bellmana

Trochę teorii

Równania Bellmana

Dowolny proces decyzyjny Markowa ma zagwarantowane istnienie deterministycznej strategii optymalnej.

Wyznaczenie tej strategii jest możliwe za pomocą równań

Bellmana.

Równania te dekomponują funkcje na natychmiastową nagrodę oraz zdyskontowane przyszłe nagrody.

Dla funkcji akcja-wartość mamy

Qπ(s, a) = R(s, a) + γ X

s∈S

(32)

Trochę teorii

Algorytm Q-learning Podsumowanie

Szybkie przypomnienie Procesy decyzyjne Markowa Funkcje wartościujące

Równania Bellmana

Trochę teorii

Równania Bellmana

Dla dowolnego stanu s ∈ S, prawdziwe jest następujące równanie optymalności Bellmana V(s) = max a∈A[R(s, a) + γ X s∈S P(s′|s, a)V∗(s′)],

oraz dla dowolnej akcji a ∈ A

Q∗(s)(s, a) = R(s, a) + γ X

s∈S

P(s′|s, a) max

a∈AQ

(33)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na

równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.

Zainicjuj losowo stan s.

Dopóki nie jest osiągnięty stan końcowy

Wybierz akcję a na podstawie Q-tabelki. Wylicz nagrodę r . Przejdź do stanu s Aktualizuję Q-tabelkę Q(s, a) = Q(s, a) + α(r + γ max a Q(s , a) − Q(s, a))

Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.

(34)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na

równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.

Zainicjuj losowo stan s.

Dopóki nie jest osiągnięty stan końcowy

Wybierz akcję a na podstawie Q-tabelki. Wylicz nagrodę r . Przejdź do stanu s Aktualizuję Q-tabelkę Q(s, a) = Q(s, a) + α(r + γ max a Q(s , a) − Q(s, a))

Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.

(35)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na

równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.

Zainicjuj losowo stan s.

Dopóki nie jest osiągnięty stan końcowy

Wybierz akcję a na podstawie Q-tabelki. Wylicz nagrodę r . Przejdź do stanu s Aktualizuję Q-tabelkę Q(s, a) = Q(s, a) + α(r + γ max a Q(s , a) − Q(s, a))

Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.

(36)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na

równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.

Zainicjuj losowo stan s.

Dopóki nie jest osiągnięty stan końcowy Wybierz akcję a na podstawie Q-tabelki.

Wylicz nagrodę r . Przejdź do stanu s Aktualizuję Q-tabelkę Q(s, a) = Q(s, a) + α(r + γ max a Q(s , a) − Q(s, a))

Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.

(37)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na

równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.

Zainicjuj losowo stan s.

Dopóki nie jest osiągnięty stan końcowy Wybierz akcję a na podstawie Q-tabelki. Wylicz nagrodę r . Przejdź do stanu s Aktualizuję Q-tabelkę Q(s, a) = Q(s, a) + α(r + γ max a Q(s , a) − Q(s, a))

Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.

(38)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na

równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.

Zainicjuj losowo stan s.

Dopóki nie jest osiągnięty stan końcowy Wybierz akcję a na podstawie Q-tabelki. Wylicz nagrodę r . Przejdź do stanu s Aktualizuję Q-tabelkę Q(s, a) = Q(s, a) + α(r + γ max a Q(s , a) − Q(s, a))

Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.

(39)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na

równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.

Zainicjuj losowo stan s.

Dopóki nie jest osiągnięty stan końcowy Wybierz akcję a na podstawie Q-tabelki. Wylicz nagrodę r . Przejdź do stanu s Aktualizuję Q-tabelkę Q(s, a) = Q(s, a) + α(r + γ max a Q(s , a) − Q(s, a))

(40)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Eksploracja

Dla algorytmu Q-learning (i uczenie ze wzmocnieniem) kluczowym aspektem jest eksploracja.

W algorytmie Q-learning musimy wybrać akcję na podstawie Q funkcji.

Jeżeli aktualna aproksymacja Q funkcji dokądś nas

zaprowadzi, to dalej nie wiemy, czy nie istnieje inna, lepsza droga.

Dlatego wprowadza się pewien czynnik prowokujący do wybrania innej akcji niż sugeruje nam algorytm RL, czyli w tym przypadku arg maxaQ(st, a).

(41)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Eksploracja

Dla algorytmu Q-learning (i uczenie ze wzmocnieniem) kluczowym aspektem jest eksploracja.

W algorytmie Q-learning musimy wybrać akcję na podstawie Q funkcji.

Jeżeli aktualna aproksymacja Q funkcji dokądś nas

zaprowadzi, to dalej nie wiemy, czy nie istnieje inna, lepsza droga.

Dlatego wprowadza się pewien czynnik prowokujący do wybrania innej akcji niż sugeruje nam algorytm RL, czyli w tym przypadku arg maxaQ(st, a).

(42)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Eksploracja

Dla algorytmu Q-learning (i uczenie ze wzmocnieniem) kluczowym aspektem jest eksploracja.

W algorytmie Q-learning musimy wybrać akcję na podstawie Q funkcji.

Jeżeli aktualna aproksymacja Q funkcji dokądś nas

zaprowadzi, to dalej nie wiemy, czy nie istnieje inna, lepsza droga.

Dlatego wprowadza się pewien czynnik prowokujący do wybrania innej akcji niż sugeruje nam algorytm RL, czyli w

(43)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Przykład

Skrypt frozen-lake-demo.py wizualizujący proces tworzenia się Q-tabelki.

Przeanalizujemy kilka przykładowych uruchomień wizualizacji. Poniższe przykłady będą dotyczyły tworzenia Q-tabelki z γ = 0.5.

(44)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Przykład

Skrypt frozen-lake-demo.py wizualizujący proces tworzenia się Q-tabelki.

Przeanalizujemy kilka przykładowych uruchomień wizualizacji. Poniższe przykłady będą dotyczyły tworzenia Q-tabelki z γ = 0.5.

(45)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Zaczynamy z tabelką, której wszystkie wartości wynoszą zero.

Wszystkie krawędzie (przejścia między stanami) mają wartość zero.

(46)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Zaczynamy z tabelką, której wszystkie wartości wynoszą zero.

Wszystkie krawędzie (przejścia między stanami) mają wartość zero.

(47)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Zaczynamy z tabelką, której wszystkie wartości wynoszą zero.

Wszystkie krawędzie (przejścia między stanami) mają wartość zero.

(48)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Po pewnym czasie, agent na skutek losowych kroków przechodzi z pozycji (3, 2) na pozycję (3, 3).

W ten sposób dostaje nagrodę 1.

Fakt ten odnotowany zostaje w Q-tabelce i pojawia się mocno czerwona krawędź pomiędzy tymi pozycjami.

(49)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Po pewnym czasie, agent na skutek losowych kroków przechodzi z pozycji (3, 2) na pozycję (3, 3).

W ten sposób dostaje nagrodę 1.

Fakt ten odnotowany zostaje w Q-tabelce i pojawia się mocno czerwona krawędź pomiędzy tymi pozycjami.

(50)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Po pewnym czasie, agent na skutek losowych kroków przechodzi z pozycji (3, 2) na pozycję (3, 3).

W ten sposób dostaje nagrodę 1.

Fakt ten odnotowany zostaje w Q-tabelce i pojawia się mocno czerwona krawędź pomiędzy tymi pozycjami.

(51)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Po pewnym czasie, agent na skutek losowych kroków przechodzi z pozycji (3, 2) na pozycję (3, 3).

W ten sposób dostaje nagrodę 1.

Fakt ten odnotowany zostaje w Q-tabelce i pojawia się mocno czerwona krawędź pomiędzy tymi pozycjami.

(52)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Po kolejnych iteracjach pojawia się więcej krawędzi.

Ilustruje to cechę tej metody – ścieżka, którą ma podążać agent tworzy się od punktu

docelowegoG, i dąży do

punktu startowego S.

Po pewnym czasie, wartości Q-tabelki się ustalają.

Im dalej od pozycji Gtym

Q-funkcja przyjmuje mniejsze wartości.

(53)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Po kolejnych iteracjach pojawia się więcej krawędzi. Ilustruje to cechę tej metody – ścieżka, którą ma podążać agent tworzy się od punktu

docelowegoG, i dąży do

punktu startowego S.

Po pewnym czasie, wartości Q-tabelki się ustalają.

Im dalej od pozycji Gtym

Q-funkcja przyjmuje mniejsze wartości.

(54)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Po kolejnych iteracjach pojawia się więcej krawędzi. Ilustruje to cechę tej metody – ścieżka, którą ma podążać agent tworzy się od punktu

docelowegoG, i dąży do

punktu startowego S.

Po pewnym czasie, wartości Q-tabelki się ustalają.

Im dalej od pozycji Gtym

Q-funkcja przyjmuje mniejsze wartości.

(55)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Po kolejnych iteracjach pojawia się więcej krawędzi. Ilustruje to cechę tej metody – ścieżka, którą ma podążać agent tworzy się od punktu

docelowegoG, i dąży do

punktu startowego S.

Po pewnym czasie, wartości Q-tabelki się ustalają.

Im dalej od pozycji Gtym

(56)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

(57)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Przykład

Skrypt frozen-lake-demo.py wizualizujący proces tworzenia się Q-tabelki.

(58)

Trochę teorii

Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Przykład

Skrypt frozen-lake-demo.py wizualizujący proces tworzenia się Q-tabelki.

(59)

Trochę teorii Algorytm Q-learning

Podsumowanie

Podsumowanie

Zadanie uczenia ze wzmocnieniem może być opisane jako proces decyzyjny Markowa.

Wyliczenie funkcji wartościujących jest możliwe dzięki równaniom Bellmana.

Najprostszym algorytmem RL jest Q-learning. Do znalezienia optymymalnej strategii konieczna jest eksploracja.

Dla realnych problemów atakowanych za pomocą RL

wykorzystuje się głębokie sieci neuronowe, które aproksymują wartości Q tabelki.

(60)

Trochę teorii Algorytm Q-learning

Podsumowanie

Podsumowanie

Zadanie uczenia ze wzmocnieniem może być opisane jako proces decyzyjny Markowa.

Wyliczenie funkcji wartościujących jest możliwe dzięki równaniom Bellmana.

Najprostszym algorytmem RL jest Q-learning. Do znalezienia optymymalnej strategii konieczna jest eksploracja.

Dla realnych problemów atakowanych za pomocą RL

wykorzystuje się głębokie sieci neuronowe, które aproksymują wartości Q tabelki.

(61)

Trochę teorii Algorytm Q-learning

Podsumowanie

Podsumowanie

Zadanie uczenia ze wzmocnieniem może być opisane jako proces decyzyjny Markowa.

Wyliczenie funkcji wartościujących jest możliwe dzięki równaniom Bellmana.

Najprostszym algorytmem RL jest Q-learning.

Do znalezienia optymymalnej strategii konieczna jest eksploracja.

Dla realnych problemów atakowanych za pomocą RL

wykorzystuje się głębokie sieci neuronowe, które aproksymują wartości Q tabelki.

(62)

Trochę teorii Algorytm Q-learning

Podsumowanie

Podsumowanie

Zadanie uczenia ze wzmocnieniem może być opisane jako proces decyzyjny Markowa.

Wyliczenie funkcji wartościujących jest możliwe dzięki równaniom Bellmana.

Najprostszym algorytmem RL jest Q-learning. Do znalezienia optymymalnej strategii konieczna jest eksploracja.

Dla realnych problemów atakowanych za pomocą RL

wykorzystuje się głębokie sieci neuronowe, które aproksymują wartości Q tabelki.

(63)

Trochę teorii Algorytm Q-learning

Podsumowanie

Podsumowanie

Zadanie uczenia ze wzmocnieniem może być opisane jako proces decyzyjny Markowa.

Wyliczenie funkcji wartościujących jest możliwe dzięki równaniom Bellmana.

Najprostszym algorytmem RL jest Q-learning. Do znalezienia optymymalnej strategii konieczna jest eksploracja.

Dla realnych problemów atakowanych za pomocą RL

wykorzystuje się głębokie sieci neuronowe, które aproksymują wartości Q tabelki.

(64)

Trochę teorii Algorytm Q-learning

Podsumowanie

Podsumowanie

Cytaty

Powiązane dokumenty

| istnieją elementy odpowiednio przeciwny oraz odwrotny (dla niezerowej liczby) Ponadto mnożenie jest rozdzielne względem dodawania.. Liczby zespolone jako

• Ostatnim krokiem jest zamiana miejscami elementów tablicy: pierwszego i poprzedzającego wskazywany przez zmienną granica – chcemy, aby element osiowy był

Herskovits, A Bayesian Method for Induction of Probailistic Networks from Data, Machoine Learning, 9, pp. Nielsen, Bayesian Networks and Decision Graphs,

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake Wprowadzenie Zarys modelu Stan.. Stan s ∈ S jest kompletnym

[Kur08] Kuratowski, K., Rachunek ró˙zniczkowy i całkowy.. Funkcje jednej

Karol Kołodziej Instytut Fizyki Uniwersytet Śląski,

Funkcja

wicieli Sojuszu Północnoatlantyckiego w dniu 12 września 2001 r. po raz pierwszy odwołano się do klauzuli wzajemnego bezpieczeństwa zawartej w artykule 5. siły powietrzne