Algorytm Q-learning

Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na

równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.

Zainicjuj losowo stan s.

Dopóki nie jest osiągnięty stan końcowy

Wybierz akcję a na podstawie Q-tabelki. Wylicz nagrodę r .

Przejdź do stanu s^′ Aktualizuję Q-tabelkę

Q(s, a) = Q(s, a) + α(r + γ max

a Q(s^′, a) − Q(s, a))

Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.

Trochę teorii Algorytm Q-learning Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na

równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.

Zainicjuj losowo stan s.

Dopóki nie jest osiągnięty stan końcowy

Wybierz akcję a na podstawie Q-tabelki. Wylicz nagrodę r .

Przejdź do stanu s^′ Aktualizuję Q-tabelkę

Q(s, a) = Q(s, a) + α(r + γ max

a Q(s^′, a) − Q(s, a))

Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.

Trochę teorii Algorytm Q-learning Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na

równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.

Zainicjuj losowo stan s.

Dopóki nie jest osiągnięty stan końcowy

Wybierz akcję a na podstawie Q-tabelki. Wylicz nagrodę r .

Przejdź do stanu s^′ Aktualizuję Q-tabelkę

Q(s, a) = Q(s, a) + α(r + γ max

a Q(s^′, a) − Q(s, a))

Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.

Trochę teorii Algorytm Q-learning Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na

równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.

Zainicjuj losowo stan s.

Dopóki nie jest osiągnięty stan końcowy Wybierz akcję a na podstawie Q-tabelki.

Wylicz nagrodę r . Przejdź do stanu s^′ Aktualizuję Q-tabelkę

Q(s, a) = Q(s, a) + α(r + γ max

a Q(s^′, a) − Q(s, a))

Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.

Trochę teorii Algorytm Q-learning Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na

równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.

Zainicjuj losowo stan s.

Dopóki nie jest osiągnięty stan końcowy Wybierz akcję a na podstawie Q-tabelki.

Wylicz nagrodę r .

Przejdź do stanu s^′ Aktualizuję Q-tabelkę

Q(s, a) = Q(s, a) + α(r + γ max

a Q(s^′, a) − Q(s, a))

Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.

Trochę teorii Algorytm Q-learning Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na

równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.

Zainicjuj losowo stan s.

Dopóki nie jest osiągnięty stan końcowy Wybierz akcję a na podstawie Q-tabelki.

Wylicz nagrodę r . Przejdź do stanu s^′ Aktualizuję Q-tabelkę

Q(s, a) = Q(s, a) + α(r + γ max

a Q(s^′, a) − Q(s, a))

Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.

Trochę teorii Algorytm Q-learning Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na

równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.

Zainicjuj losowo stan s.

Dopóki nie jest osiągnięty stan końcowy Wybierz akcję a na podstawie Q-tabelki.

Wylicz nagrodę r . Przejdź do stanu s^′ Aktualizuję Q-tabelkę

Q(s, a) = Q(s, a) + α(r + γ max

a Q(s^′, a) − Q(s, a))

Trochę teorii Algorytm Q-learning Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Eksploracja

Dla algorytmu Q-learning (i uczenie ze wzmocnieniem) kluczowym aspektem jest eksploracja.

W algorytmie Q-learning musimy wybrać akcję na podstawie Q funkcji.

Jeżeli aktualna aproksymacja Q funkcji dokądś nas

zaprowadzi, to dalej nie wiemy, czy nie istnieje inna, lepsza droga.

Dlatego wprowadza się pewien czynnik prowokujący do wybrania innej akcji niż sugeruje nam algorytm RL, czyli w tym przypadku arg maxaQ(st, a).

Trochę teorii Algorytm Q-learning Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Eksploracja

Dla algorytmu Q-learning (i uczenie ze wzmocnieniem) kluczowym aspektem jest eksploracja.

W algorytmie Q-learning musimy wybrać akcję na podstawie Q funkcji.

Jeżeli aktualna aproksymacja Q funkcji dokądś nas

zaprowadzi, to dalej nie wiemy, czy nie istnieje inna, lepsza droga.

Dlatego wprowadza się pewien czynnik prowokujący do wybrania innej akcji niż sugeruje nam algorytm RL, czyli w tym przypadku arg maxaQ(st, a).

Trochę teorii Algorytm Q-learning Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Eksploracja

Dla algorytmu Q-learning (i uczenie ze wzmocnieniem) kluczowym aspektem jest eksploracja.

W algorytmie Q-learning musimy wybrać akcję na podstawie Q funkcji.

Jeżeli aktualna aproksymacja Q funkcji dokądś nas

zaprowadzi, to dalej nie wiemy, czy nie istnieje inna, lepsza droga.

Dlatego wprowadza się pewien czynnik prowokujący do wybrania innej akcji niż sugeruje nam algorytm RL, czyli w

Trochę teorii Algorytm Q-learning Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Przykład

Skrypt frozen-lake-demo.py wizualizujący proces tworzenia się Q-tabelki.

Przeanalizujemy kilka przykładowych uruchomień wizualizacji. Poniższe przykłady będą dotyczyły tworzenia Q-tabelki z γ = 0.5.

Trochę teorii Algorytm Q-learning Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Przykład

Skrypt frozen-lake-demo.py wizualizujący proces tworzenia się Q-tabelki.

Przeanalizujemy kilka przykładowych uruchomień wizualizacji.

Poniższe przykłady będą dotyczyły tworzenia Q-tabelki z γ = 0.5.

Trochę teorii Algorytm Q-learning Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Zaczynamy z tabelką, której wszystkie wartości wynoszą zero.

Wszystkie krawędzie (przejścia między stanami) mają wartość zero.

Trochę teorii Algorytm Q-learning Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Zaczynamy z tabelką, której wszystkie wartości wynoszą zero.

Wszystkie krawędzie (przejścia między stanami) mają wartość zero.

Trochę teorii Algorytm Q-learning Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Po kolejnych iteracjach pojawia się więcej krawędzi.

Ilustruje to cechę tej metody – ścieżka, którą ma podążać agent tworzy się od punktu docelowegoG, i dąży do punktu startowego S. Po pewnym czasie, wartości Q-tabelki się ustalają. Im dalej od pozycji Gtym Q-funkcja przyjmuje mniejsze wartości.

Trochę teorii Algorytm Q-learning Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Ciekawą sytuacją jest końcowy efekt dla przypadku gdy γ = 1.

Trochę teorii Algorytm Q-learning Podsumowanie

Eksploracja

Q-learning we Frozen Lake

Algorytm Q-learning

Przykład

Skrypt frozen-lake-demo.py wizualizujący proces tworzenia się Q-tabelki.

Możemy też przeanalizować uruchomienie z innymi planszami.

Trochę teorii Algorytm Q-learning Podsumowanie

Eksploracja

Zadanie uczenia ze wzmocnieniem może być opisane jako proces decyzyjny Markowa.

Wyliczenie funkcji wartościujących jest możliwe dzięki równaniom Bellmana.

Najprostszym algorytmem RL jest Q-learning.

Do znalezienia optymymalnej strategii konieczna jest eksploracja.

Dla realnych problemów atakowanych za pomocą RL

wykorzystuje się głębokie sieci neuronowe, które aproksymują wartości Q tabelki.

Trochę teorii Algorytm Q-learning Podsumowanie

Podsumowanie

Zadanie uczenia ze wzmocnieniem może być opisane jako proces decyzyjny Markowa.

Wyliczenie funkcji wartościujących jest możliwe dzięki równaniom Bellmana.

Najprostszym algorytmem RL jest Q-learning.

Do znalezienia optymymalnej strategii konieczna jest eksploracja.

Dla realnych problemów atakowanych za pomocą RL

wykorzystuje się głębokie sieci neuronowe, które aproksymują wartości Q tabelki.

Trochę teorii Algorytm Q-learning Podsumowanie

Podsumowanie

Zadanie uczenia ze wzmocnieniem może być opisane jako proces decyzyjny Markowa.

Wyliczenie funkcji wartościujących jest możliwe dzięki równaniom Bellmana.

Najprostszym algorytmem RL jest Q-learning.

Do znalezienia optymymalnej strategii konieczna jest eksploracja.

Dla realnych problemów atakowanych za pomocą RL

wykorzystuje się głębokie sieci neuronowe, które aproksymują wartości Q tabelki.

Trochę teorii Algorytm Q-learning Podsumowanie

Podsumowanie

Następny wykład: Uczenie maszynowe i mechanika kwantowa.

W dokumencie Wykład 14 – Uczenie ze wzmocnieniem (II) (Stron 33-64)