Trochę teorii Algorytm Q-learning Podsumowanie
Podstawy uczenia maszynowego
Wykład 14 – Uczenie ze wzmocnieniem (II)Jarosław Miszczak Mateusz Ostaszewski
Wojciech Masarczyk
Trochę teorii Algorytm Q-learning Podsumowanie
1 Trochę teorii
Szybkie przypomnienie Procesy decyzyjne Markowa Funkcje wartościujące Równania Bellmana
2 Algorytm Q-learning
Eksploracja
Q-learning we Frozen Lake
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie Procesy decyzyjne Markowa Funkcje wartościujące Równania Bellmana
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie
Procesy decyzyjne Markowa Funkcje wartościujące Równania Bellmana
Trochę teorii
Szybkie przypomnienie
Ogólny mechanizm działania agenta w zadaniu uczenie ze wzmocnieniem jest prosty.
Agent w chwili t znajduje się w stanie st, który reprezentuje jego wiedzę
na temat środowiska. Agent
wykonuje akcję at. Po wykonanej
akcji, stan zmienia się na st+1.
Agent otrzymuje również numeryczną nagrodę rt. agent środowisko stan, nagro da s t, r t ak cja at
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie
Procesy decyzyjne Markowa Funkcje wartościujące Równania Bellmana
Trochę teorii
Szybkie przypomnienie
Ogólny mechanizm działania agenta w zadaniu uczenie ze wzmocnieniem jest prosty. Agent w chwili t znajduje się w stanie st, który reprezentuje jego wiedzę
na temat środowiska.
Agent
wykonuje akcję at. Po wykonanej
akcji, stan zmienia się na st+1.
Agent otrzymuje również numeryczną nagrodę rt. agent środowisko stan, nagro da s t, r t ak cja at
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie
Procesy decyzyjne Markowa Funkcje wartościujące Równania Bellmana
Trochę teorii
Szybkie przypomnienie
Ogólny mechanizm działania agenta w zadaniu uczenie ze wzmocnieniem jest prosty. Agent w chwili t znajduje się w stanie st, który reprezentuje jego wiedzę
na temat środowiska. Agent wykonuje akcję at.
Po wykonanej akcji, stan zmienia się na st+1.
Agent otrzymuje również numeryczną nagrodę rt. agent środowisko stan, nagro da s t, r t ak cja at
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie
Procesy decyzyjne Markowa Funkcje wartościujące Równania Bellmana
Trochę teorii
Szybkie przypomnienie
Ogólny mechanizm działania agenta w zadaniu uczenie ze wzmocnieniem jest prosty. Agent w chwili t znajduje się w stanie st, który reprezentuje jego wiedzę
na temat środowiska. Agent
wykonuje akcję at. Po wykonanej
akcji, stan zmienia się na st+1.
Agent otrzymuje również numeryczną nagrodę rt. agent środowisko stan, nagro da s t, r t ak cja at
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie
Procesy decyzyjne Markowa Funkcje wartościujące Równania Bellmana
Trochę teorii
Szybkie przypomnienie
Ogólny mechanizm działania agenta w zadaniu uczenie ze wzmocnieniem jest prosty. Agent w chwili t znajduje się w stanie st, który reprezentuje jego wiedzę
na temat środowiska. Agent
wykonuje akcję at. Po wykonanej
akcji, stan zmienia się na st+1.
Agent otrzymuje również
numeryczną nagrodę r . agent środowisko stan, nagro da s t, r t ak cja at
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie
Procesy decyzyjne Markowa Funkcje wartościujące Równania Bellmana
Trochę teorii
Szybkie przypomnienie
Ogólny mechanizm działania agenta w zadaniu uczenie ze wzmocnieniem jest prosty. Agent w chwili t znajduje się w stanie st, który reprezentuje jego wiedzę
na temat środowiska. Agent
wykonuje akcję at. Po wykonanej
akcji, stan zmienia się na st+1.
Agent otrzymuje również numeryczną nagrodę rt. agent środowisko stan, nagro da s t, r t ak cja at
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie
Procesy decyzyjne Markowa
Funkcje wartościujące Równania Bellmana
Trochę teorii
Procesy decyzyjne Markowa
Prawie wszystkie problemy uczenia się ze wzmocnieniem mogą zostać opisane modelem matematycznym zwanym Proces
Decyzyjnym Markowa (ang. Markov Decision Processes MDP).
Wszystkie atrybuty środowiska w MDP mają własność Markowa,
P(st+1, rt|s0, a0, . . . , st, at) = P(st+1, rt|st, at).
Oznacza to, że przyszłość procesu zależy tylko od aktualnej obserwacji.
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie
Procesy decyzyjne Markowa
Funkcje wartościujące Równania Bellmana
Trochę teorii
Procesy decyzyjne Markowa
Prawie wszystkie problemy uczenia się ze wzmocnieniem mogą zostać opisane modelem matematycznym zwanym Proces
Decyzyjnym Markowa (ang. Markov Decision Processes MDP).
Wszystkie atrybuty środowiska w MDP mają własność Markowa,
P(st+1, rt|s0, a0, . . . , st, at) = P(st+1, rt|st, at).
Oznacza to, że przyszłość procesu zależy tylko od aktualnej obserwacji.
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie
Procesy decyzyjne Markowa
Funkcje wartościujące Równania Bellmana
Trochę teorii
Procesy decyzyjne Markowa
Prawie wszystkie problemy uczenia się ze wzmocnieniem mogą zostać opisane modelem matematycznym zwanym Proces
Decyzyjnym Markowa (ang. Markov Decision Processes MDP).
Wszystkie atrybuty środowiska w MDP mają własność Markowa,
P(st+1, rt|s0, a0, . . . , st, at) = P(st+1, rt|st, at).
Oznacza to, że przyszłość procesu zależy tylko od aktualnej obserwacji.
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie
Procesy decyzyjne Markowa
Funkcje wartościujące Równania Bellmana
Trochę teorii
Procesy decyzyjne Markowa
Prawie wszystkie problemy uczenia się ze wzmocnieniem mogą zostać opisane modelem matematycznym zwanym Proces
Decyzyjnym Markowa (ang. Markov Decision Processes MDP).
Wszystkie atrybuty środowiska w MDP mają własność Markowa,
P(st+1, rt|s0, a0, . . . , st, at) = P(st+1, rt|st, at).
Oznacza to, że przyszłość procesu zależy tylko od aktualnej obserwacji.
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie
Procesy decyzyjne Markowa
Funkcje wartościujące Równania Bellmana
Trochę teorii
Procesy decyzyjne Markowa
Procesem Decyzyjnym Markowa nazywamy piątkę (S, A, P, R, p0)
gdzie:
S jest przestrzenią stanów, A jest przestrzenią akcji,
P : S × A → [0, 1] jest funkcją przejścia (rozkładem warunkowych prawdopodobieństw pomiędzy stanami), R : S × A → R jest funkcją nagrody, gdzie rt= R(st, at),
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie
Procesy decyzyjne Markowa
Funkcje wartościujące Równania Bellmana
Trochę teorii
Procesy decyzyjne Markowa
Procesem Decyzyjnym Markowa nazywamy piątkę (S, A, P, R, p0)
gdzie:
S jest przestrzenią stanów,
A jest przestrzenią akcji,
P : S × A → [0, 1] jest funkcją przejścia (rozkładem warunkowych prawdopodobieństw pomiędzy stanami), R : S × A → R jest funkcją nagrody, gdzie rt= R(st, at),
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie
Procesy decyzyjne Markowa
Funkcje wartościujące Równania Bellmana
Trochę teorii
Procesy decyzyjne Markowa
Procesem Decyzyjnym Markowa nazywamy piątkę (S, A, P, R, p0)
gdzie:
S jest przestrzenią stanów, A jest przestrzenią akcji,
P : S × A → [0, 1] jest funkcją przejścia (rozkładem warunkowych prawdopodobieństw pomiędzy stanami), R : S × A → R jest funkcją nagrody, gdzie rt= R(st, at),
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie
Procesy decyzyjne Markowa
Funkcje wartościujące Równania Bellmana
Trochę teorii
Procesy decyzyjne Markowa
Procesem Decyzyjnym Markowa nazywamy piątkę (S, A, P, R, p0)
gdzie:
S jest przestrzenią stanów, A jest przestrzenią akcji,
P : S × A → [0, 1] jest funkcją przejścia (rozkładem warunkowych prawdopodobieństw pomiędzy stanami),
R : S × A → R jest funkcją nagrody, gdzie rt= R(st, at),
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie
Procesy decyzyjne Markowa
Funkcje wartościujące Równania Bellmana
Trochę teorii
Procesy decyzyjne Markowa
Procesem Decyzyjnym Markowa nazywamy piątkę (S, A, P, R, p0)
gdzie:
S jest przestrzenią stanów, A jest przestrzenią akcji,
P : S × A → [0, 1] jest funkcją przejścia (rozkładem warunkowych prawdopodobieństw pomiędzy stanami), R : S × A → R jest funkcją nagrody, gdzie rt= R(st, at),
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie
Procesy decyzyjne Markowa
Funkcje wartościujące Równania Bellmana
Trochę teorii
Procesy decyzyjne Markowa
Procesem Decyzyjnym Markowa nazywamy piątkę (S, A, P, R, p0)
gdzie:
S jest przestrzenią stanów, A jest przestrzenią akcji,
P : S × A → [0, 1] jest funkcją przejścia (rozkładem warunkowych prawdopodobieństw pomiędzy stanami), R : S × A → R jest funkcją nagrody, gdzie rt= R(st, at),
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie Procesy decyzyjne Markowa
Funkcje wartościujące
Równania Bellmana
Trochę teorii
Funkcje wartościujące
Ocena stanu względem konkretnej strategii dokonywana jest poprzez funkcję stan-wartość,
Vπ(s) = Eτ ∼π[R(τ )|s0 = s].
Podobnie definiujemy funkcję akcja-wartość
Qπ(s, a) = Eτ ∼π[R(τ )|s0 = s, a0= a].
Korzystając z rozkładu prawdopodobieństwa opisującego możliwe akcje, można powiązać powyższe funkcje
Vπ(s) = X
a∈A
Qπ(s, a)π(a|s),
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie Procesy decyzyjne Markowa
Funkcje wartościujące
Równania Bellmana
Trochę teorii
Funkcje wartościujące
Ocena stanu względem konkretnej strategii dokonywana jest poprzez funkcję stan-wartość,
Vπ(s) = Eτ ∼π[R(τ )|s0 = s].
Podobnie definiujemy funkcję akcja-wartość
Qπ(s, a) = Eτ ∼π[R(τ )|s0 = s, a0= a].
Korzystając z rozkładu prawdopodobieństwa opisującego możliwe akcje, można powiązać powyższe funkcje
Vπ(s) = X
a∈A
Qπ(s, a)π(a|s),
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie Procesy decyzyjne Markowa
Funkcje wartościujące
Równania Bellmana
Trochę teorii
Funkcje wartościujące
Ocena stanu względem konkretnej strategii dokonywana jest poprzez funkcję stan-wartość,
Vπ(s) = Eτ ∼π[R(τ )|s0 = s].
Podobnie definiujemy funkcję akcja-wartość
Qπ(s, a) = Eτ ∼π[R(τ )|s0 = s, a0= a].
Korzystając z rozkładu prawdopodobieństwa opisującego możliwe akcje, można powiązać powyższe funkcje
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie Procesy decyzyjne Markowa
Funkcje wartościujące
Równania Bellmana
Trochę teorii
Funkcje wartościujące
Optymalna funkcja wartościująca daje maksymalny zwrot V∗(s) = max π V π(s), Q∗(s, a) = max π Q π(s, a).
Optymalna strategia daje optymalne funkcje wartościujące Vπ∗(s) = V∗(s),
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie Procesy decyzyjne Markowa
Funkcje wartościujące
Równania Bellmana
Trochę teorii
Funkcje wartościujące
Co nam to daje?
Powyższe równania służą do precyzyjnego opisu procesu oceny aktualnej strategi znajdując się w konkretnym stanie V (s), lub chcąc wykonać konkretną akcję w danym stanie Q(s, a). Wykorzystując metody programowania dynamicznego możemy dokonać aproksymacji tych funkcji.
Bazując na takiej aproksymacji zbudujemy przykładowy algorytmy uczenia się ze wzmocnieniem.
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie Procesy decyzyjne Markowa
Funkcje wartościujące
Równania Bellmana
Trochę teorii
Funkcje wartościujące
Co nam to daje?
Powyższe równania służą do precyzyjnego opisu procesu oceny aktualnej strategi znajdując się w konkretnym stanie V (s), lub chcąc wykonać konkretną akcję w danym stanie Q(s, a).
Wykorzystując metody programowania dynamicznego możemy dokonać aproksymacji tych funkcji.
Bazując na takiej aproksymacji zbudujemy przykładowy algorytmy uczenia się ze wzmocnieniem.
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie Procesy decyzyjne Markowa
Funkcje wartościujące
Równania Bellmana
Trochę teorii
Funkcje wartościujące
Co nam to daje?
Powyższe równania służą do precyzyjnego opisu procesu oceny aktualnej strategi znajdując się w konkretnym stanie V (s), lub chcąc wykonać konkretną akcję w danym stanie Q(s, a). Wykorzystując metody programowania dynamicznego możemy dokonać aproksymacji tych funkcji.
Bazując na takiej aproksymacji zbudujemy przykładowy algorytmy uczenia się ze wzmocnieniem.
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie Procesy decyzyjne Markowa
Funkcje wartościujące
Równania Bellmana
Trochę teorii
Funkcje wartościujące
Co nam to daje?
Powyższe równania służą do precyzyjnego opisu procesu oceny aktualnej strategi znajdując się w konkretnym stanie V (s), lub chcąc wykonać konkretną akcję w danym stanie Q(s, a). Wykorzystując metody programowania dynamicznego możemy dokonać aproksymacji tych funkcji.
Bazując na takiej aproksymacji zbudujemy przykładowy algorytmy uczenia się ze wzmocnieniem.
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie Procesy decyzyjne Markowa Funkcje wartościujące
Równania Bellmana
Trochę teorii
Równania Bellmana
Dowolny proces decyzyjny Markowa ma zagwarantowane istnienie deterministycznej strategii optymalnej.
Wyznaczenie tej strategii jest możliwe za pomocą równań
Bellmana.
Równania te dekomponują funkcje na natychmiastową nagrodę oraz zdyskontowane przyszłe nagrody.
Dla funkcji akcja-wartość mamy
Qπ(s, a) = R(s, a) + γ X
s′∈S
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie Procesy decyzyjne Markowa Funkcje wartościujące
Równania Bellmana
Trochę teorii
Równania Bellmana
Dowolny proces decyzyjny Markowa ma zagwarantowane istnienie deterministycznej strategii optymalnej.
Wyznaczenie tej strategii jest możliwe za pomocą równań
Bellmana.
Równania te dekomponują funkcje na natychmiastową nagrodę oraz zdyskontowane przyszłe nagrody.
Dla funkcji akcja-wartość mamy
Qπ(s, a) = R(s, a) + γ X
s′∈S
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie Procesy decyzyjne Markowa Funkcje wartościujące
Równania Bellmana
Trochę teorii
Równania Bellmana
Dowolny proces decyzyjny Markowa ma zagwarantowane istnienie deterministycznej strategii optymalnej.
Wyznaczenie tej strategii jest możliwe za pomocą równań
Bellmana.
Równania te dekomponują funkcje na natychmiastową nagrodę oraz zdyskontowane przyszłe nagrody.
Dla funkcji akcja-wartość mamy
Qπ(s, a) = R(s, a) + γ X
s′∈S
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie Procesy decyzyjne Markowa Funkcje wartościujące
Równania Bellmana
Trochę teorii
Równania Bellmana
Dowolny proces decyzyjny Markowa ma zagwarantowane istnienie deterministycznej strategii optymalnej.
Wyznaczenie tej strategii jest możliwe za pomocą równań
Bellmana.
Równania te dekomponują funkcje na natychmiastową nagrodę oraz zdyskontowane przyszłe nagrody.
Dla funkcji akcja-wartość mamy
Qπ(s, a) = R(s, a) + γ X
s′∈S
Trochę teorii
Algorytm Q-learning Podsumowanie
Szybkie przypomnienie Procesy decyzyjne Markowa Funkcje wartościujące
Równania Bellmana
Trochę teorii
Równania Bellmana
Dla dowolnego stanu s ∈ S, prawdziwe jest następujące równanie optymalności Bellmana V∗(s) = max a∈A[R(s, a) + γ X s′∈S P(s′|s, a)V∗(s′)],
oraz dla dowolnej akcji a ∈ A
Q∗(s)(s, a) = R(s, a) + γ X
s′∈S
P(s′|s, a) max
a′∈AQ
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na
równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.
Zainicjuj losowo stan s.
Dopóki nie jest osiągnięty stan końcowy
Wybierz akcję a na podstawie Q-tabelki. Wylicz nagrodę r . Przejdź do stanu s′ Aktualizuję Q-tabelkę Q(s, a) = Q(s, a) + α(r + γ max a Q(s ′, a) − Q(s, a))
Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na
równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.
Zainicjuj losowo stan s.
Dopóki nie jest osiągnięty stan końcowy
Wybierz akcję a na podstawie Q-tabelki. Wylicz nagrodę r . Przejdź do stanu s′ Aktualizuję Q-tabelkę Q(s, a) = Q(s, a) + α(r + γ max a Q(s ′, a) − Q(s, a))
Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na
równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.
Zainicjuj losowo stan s.
Dopóki nie jest osiągnięty stan końcowy
Wybierz akcję a na podstawie Q-tabelki. Wylicz nagrodę r . Przejdź do stanu s′ Aktualizuję Q-tabelkę Q(s, a) = Q(s, a) + α(r + γ max a Q(s ′, a) − Q(s, a))
Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na
równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.
Zainicjuj losowo stan s.
Dopóki nie jest osiągnięty stan końcowy Wybierz akcję a na podstawie Q-tabelki.
Wylicz nagrodę r . Przejdź do stanu s′ Aktualizuję Q-tabelkę Q(s, a) = Q(s, a) + α(r + γ max a Q(s ′, a) − Q(s, a))
Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na
równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.
Zainicjuj losowo stan s.
Dopóki nie jest osiągnięty stan końcowy Wybierz akcję a na podstawie Q-tabelki. Wylicz nagrodę r . Przejdź do stanu s′ Aktualizuję Q-tabelkę Q(s, a) = Q(s, a) + α(r + γ max a Q(s ′, a) − Q(s, a))
Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na
równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.
Zainicjuj losowo stan s.
Dopóki nie jest osiągnięty stan końcowy Wybierz akcję a na podstawie Q-tabelki. Wylicz nagrodę r . Przejdź do stanu s′ Aktualizuję Q-tabelkę Q(s, a) = Q(s, a) + α(r + γ max a Q(s ′, a) − Q(s, a))
Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na
równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.
Zainicjuj losowo stan s.
Dopóki nie jest osiągnięty stan końcowy Wybierz akcję a na podstawie Q-tabelki. Wylicz nagrodę r . Przejdź do stanu s′ Aktualizuję Q-tabelkę Q(s, a) = Q(s, a) + α(r + γ max a Q(s ′, a) − Q(s, a))
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Eksploracja
Dla algorytmu Q-learning (i uczenie ze wzmocnieniem) kluczowym aspektem jest eksploracja.
W algorytmie Q-learning musimy wybrać akcję na podstawie Q funkcji.
Jeżeli aktualna aproksymacja Q funkcji dokądś nas
zaprowadzi, to dalej nie wiemy, czy nie istnieje inna, lepsza droga.
Dlatego wprowadza się pewien czynnik prowokujący do wybrania innej akcji niż sugeruje nam algorytm RL, czyli w tym przypadku arg maxaQ(st, a).
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Eksploracja
Dla algorytmu Q-learning (i uczenie ze wzmocnieniem) kluczowym aspektem jest eksploracja.
W algorytmie Q-learning musimy wybrać akcję na podstawie Q funkcji.
Jeżeli aktualna aproksymacja Q funkcji dokądś nas
zaprowadzi, to dalej nie wiemy, czy nie istnieje inna, lepsza droga.
Dlatego wprowadza się pewien czynnik prowokujący do wybrania innej akcji niż sugeruje nam algorytm RL, czyli w tym przypadku arg maxaQ(st, a).
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Eksploracja
Dla algorytmu Q-learning (i uczenie ze wzmocnieniem) kluczowym aspektem jest eksploracja.
W algorytmie Q-learning musimy wybrać akcję na podstawie Q funkcji.
Jeżeli aktualna aproksymacja Q funkcji dokądś nas
zaprowadzi, to dalej nie wiemy, czy nie istnieje inna, lepsza droga.
Dlatego wprowadza się pewien czynnik prowokujący do wybrania innej akcji niż sugeruje nam algorytm RL, czyli w
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Przykład
Skrypt frozen-lake-demo.py wizualizujący proces tworzenia się Q-tabelki.
Przeanalizujemy kilka przykładowych uruchomień wizualizacji. Poniższe przykłady będą dotyczyły tworzenia Q-tabelki z γ = 0.5.
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Przykład
Skrypt frozen-lake-demo.py wizualizujący proces tworzenia się Q-tabelki.
Przeanalizujemy kilka przykładowych uruchomień wizualizacji. Poniższe przykłady będą dotyczyły tworzenia Q-tabelki z γ = 0.5.
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Zaczynamy z tabelką, której wszystkie wartości wynoszą zero.
Wszystkie krawędzie (przejścia między stanami) mają wartość zero.
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Zaczynamy z tabelką, której wszystkie wartości wynoszą zero.
Wszystkie krawędzie (przejścia między stanami) mają wartość zero.
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Zaczynamy z tabelką, której wszystkie wartości wynoszą zero.
Wszystkie krawędzie (przejścia między stanami) mają wartość zero.
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Po pewnym czasie, agent na skutek losowych kroków przechodzi z pozycji (3, 2) na pozycję (3, 3).
W ten sposób dostaje nagrodę 1.
Fakt ten odnotowany zostaje w Q-tabelce i pojawia się mocno czerwona krawędź pomiędzy tymi pozycjami.
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Po pewnym czasie, agent na skutek losowych kroków przechodzi z pozycji (3, 2) na pozycję (3, 3).
W ten sposób dostaje nagrodę 1.
Fakt ten odnotowany zostaje w Q-tabelce i pojawia się mocno czerwona krawędź pomiędzy tymi pozycjami.
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Po pewnym czasie, agent na skutek losowych kroków przechodzi z pozycji (3, 2) na pozycję (3, 3).
W ten sposób dostaje nagrodę 1.
Fakt ten odnotowany zostaje w Q-tabelce i pojawia się mocno czerwona krawędź pomiędzy tymi pozycjami.
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Po pewnym czasie, agent na skutek losowych kroków przechodzi z pozycji (3, 2) na pozycję (3, 3).
W ten sposób dostaje nagrodę 1.
Fakt ten odnotowany zostaje w Q-tabelce i pojawia się mocno czerwona krawędź pomiędzy tymi pozycjami.
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Po kolejnych iteracjach pojawia się więcej krawędzi.
Ilustruje to cechę tej metody – ścieżka, którą ma podążać agent tworzy się od punktu
docelowegoG, i dąży do
punktu startowego S.
Po pewnym czasie, wartości Q-tabelki się ustalają.
Im dalej od pozycji Gtym
Q-funkcja przyjmuje mniejsze wartości.
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Po kolejnych iteracjach pojawia się więcej krawędzi. Ilustruje to cechę tej metody – ścieżka, którą ma podążać agent tworzy się od punktu
docelowegoG, i dąży do
punktu startowego S.
Po pewnym czasie, wartości Q-tabelki się ustalają.
Im dalej od pozycji Gtym
Q-funkcja przyjmuje mniejsze wartości.
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Po kolejnych iteracjach pojawia się więcej krawędzi. Ilustruje to cechę tej metody – ścieżka, którą ma podążać agent tworzy się od punktu
docelowegoG, i dąży do
punktu startowego S.
Po pewnym czasie, wartości Q-tabelki się ustalają.
Im dalej od pozycji Gtym
Q-funkcja przyjmuje mniejsze wartości.
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Po kolejnych iteracjach pojawia się więcej krawędzi. Ilustruje to cechę tej metody – ścieżka, którą ma podążać agent tworzy się od punktu
docelowegoG, i dąży do
punktu startowego S.
Po pewnym czasie, wartości Q-tabelki się ustalają.
Im dalej od pozycji Gtym
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Przykład
Skrypt frozen-lake-demo.py wizualizujący proces tworzenia się Q-tabelki.
Trochę teorii
Algorytm Q-learning
Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Przykład
Skrypt frozen-lake-demo.py wizualizujący proces tworzenia się Q-tabelki.
Trochę teorii Algorytm Q-learning
Podsumowanie
Podsumowanie
Zadanie uczenia ze wzmocnieniem może być opisane jako proces decyzyjny Markowa.
Wyliczenie funkcji wartościujących jest możliwe dzięki równaniom Bellmana.
Najprostszym algorytmem RL jest Q-learning. Do znalezienia optymymalnej strategii konieczna jest eksploracja.
Dla realnych problemów atakowanych za pomocą RL
wykorzystuje się głębokie sieci neuronowe, które aproksymują wartości Q tabelki.
Trochę teorii Algorytm Q-learning
Podsumowanie
Podsumowanie
Zadanie uczenia ze wzmocnieniem może być opisane jako proces decyzyjny Markowa.
Wyliczenie funkcji wartościujących jest możliwe dzięki równaniom Bellmana.
Najprostszym algorytmem RL jest Q-learning. Do znalezienia optymymalnej strategii konieczna jest eksploracja.
Dla realnych problemów atakowanych za pomocą RL
wykorzystuje się głębokie sieci neuronowe, które aproksymują wartości Q tabelki.
Trochę teorii Algorytm Q-learning
Podsumowanie
Podsumowanie
Zadanie uczenia ze wzmocnieniem może być opisane jako proces decyzyjny Markowa.
Wyliczenie funkcji wartościujących jest możliwe dzięki równaniom Bellmana.
Najprostszym algorytmem RL jest Q-learning.
Do znalezienia optymymalnej strategii konieczna jest eksploracja.
Dla realnych problemów atakowanych za pomocą RL
wykorzystuje się głębokie sieci neuronowe, które aproksymują wartości Q tabelki.
Trochę teorii Algorytm Q-learning
Podsumowanie
Podsumowanie
Zadanie uczenia ze wzmocnieniem może być opisane jako proces decyzyjny Markowa.
Wyliczenie funkcji wartościujących jest możliwe dzięki równaniom Bellmana.
Najprostszym algorytmem RL jest Q-learning. Do znalezienia optymymalnej strategii konieczna jest eksploracja.
Dla realnych problemów atakowanych za pomocą RL
wykorzystuje się głębokie sieci neuronowe, które aproksymują wartości Q tabelki.
Trochę teorii Algorytm Q-learning
Podsumowanie
Podsumowanie
Zadanie uczenia ze wzmocnieniem może być opisane jako proces decyzyjny Markowa.
Wyliczenie funkcji wartościujących jest możliwe dzięki równaniom Bellmana.
Najprostszym algorytmem RL jest Q-learning. Do znalezienia optymymalnej strategii konieczna jest eksploracja.
Dla realnych problemów atakowanych za pomocą RL
wykorzystuje się głębokie sieci neuronowe, które aproksymują wartości Q tabelki.
Trochę teorii Algorytm Q-learning
Podsumowanie