Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na
równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.
Zainicjuj losowo stan s.
Dopóki nie jest osiągnięty stan końcowy
Wybierz akcję a na podstawie Q-tabelki. Wylicz nagrodę r .
Przejdź do stanu s′ Aktualizuję Q-tabelkę
Q(s, a) = Q(s, a) + α(r + γ max
a Q(s′, a) − Q(s, a))
Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na
równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.
Zainicjuj losowo stan s.
Dopóki nie jest osiągnięty stan końcowy
Wybierz akcję a na podstawie Q-tabelki. Wylicz nagrodę r .
Przejdź do stanu s′ Aktualizuję Q-tabelkę
Q(s, a) = Q(s, a) + α(r + γ max
a Q(s′, a) − Q(s, a))
Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na
równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.
Zainicjuj losowo stan s.
Dopóki nie jest osiągnięty stan końcowy
Wybierz akcję a na podstawie Q-tabelki. Wylicz nagrodę r .
Przejdź do stanu s′ Aktualizuję Q-tabelkę
Q(s, a) = Q(s, a) + α(r + γ max
a Q(s′, a) − Q(s, a))
Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na
równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.
Zainicjuj losowo stan s.
Dopóki nie jest osiągnięty stan końcowy Wybierz akcję a na podstawie Q-tabelki.
Wylicz nagrodę r . Przejdź do stanu s′ Aktualizuję Q-tabelkę
Q(s, a) = Q(s, a) + α(r + γ max
a Q(s′, a) − Q(s, a))
Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na
równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.
Zainicjuj losowo stan s.
Dopóki nie jest osiągnięty stan końcowy Wybierz akcję a na podstawie Q-tabelki.
Wylicz nagrodę r .
Przejdź do stanu s′ Aktualizuję Q-tabelkę
Q(s, a) = Q(s, a) + α(r + γ max
a Q(s′, a) − Q(s, a))
Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na
równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.
Zainicjuj losowo stan s.
Dopóki nie jest osiągnięty stan końcowy Wybierz akcję a na podstawie Q-tabelki.
Wylicz nagrodę r . Przejdź do stanu s′ Aktualizuję Q-tabelkę
Q(s, a) = Q(s, a) + α(r + γ max
a Q(s′, a) − Q(s, a))
Współczynnik α skaluje wielkość kroku z jaką aktualizujemy dany rekord Q-tabelki.
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Podstawowa wersja algorytmu Q-learning opiera się na konstrukcji tabelki, która przechowuje wartości Q(s, a). Bazując na
równaniach Bellmana aktualizujemy rekordy tabelki aż do osiągnięcia warunku stopu.
Zainicjuj losowo stan s.
Dopóki nie jest osiągnięty stan końcowy Wybierz akcję a na podstawie Q-tabelki.
Wylicz nagrodę r . Przejdź do stanu s′ Aktualizuję Q-tabelkę
Q(s, a) = Q(s, a) + α(r + γ max
a Q(s′, a) − Q(s, a))
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Eksploracja
Dla algorytmu Q-learning (i uczenie ze wzmocnieniem) kluczowym aspektem jest eksploracja.
W algorytmie Q-learning musimy wybrać akcję na podstawie Q funkcji.
Jeżeli aktualna aproksymacja Q funkcji dokądś nas
zaprowadzi, to dalej nie wiemy, czy nie istnieje inna, lepsza droga.
Dlatego wprowadza się pewien czynnik prowokujący do wybrania innej akcji niż sugeruje nam algorytm RL, czyli w tym przypadku arg maxaQ(st, a).
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Eksploracja
Dla algorytmu Q-learning (i uczenie ze wzmocnieniem) kluczowym aspektem jest eksploracja.
W algorytmie Q-learning musimy wybrać akcję na podstawie Q funkcji.
Jeżeli aktualna aproksymacja Q funkcji dokądś nas
zaprowadzi, to dalej nie wiemy, czy nie istnieje inna, lepsza droga.
Dlatego wprowadza się pewien czynnik prowokujący do wybrania innej akcji niż sugeruje nam algorytm RL, czyli w tym przypadku arg maxaQ(st, a).
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Eksploracja
Dla algorytmu Q-learning (i uczenie ze wzmocnieniem) kluczowym aspektem jest eksploracja.
W algorytmie Q-learning musimy wybrać akcję na podstawie Q funkcji.
Jeżeli aktualna aproksymacja Q funkcji dokądś nas
zaprowadzi, to dalej nie wiemy, czy nie istnieje inna, lepsza droga.
Dlatego wprowadza się pewien czynnik prowokujący do wybrania innej akcji niż sugeruje nam algorytm RL, czyli w
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Przykład
Skrypt frozen-lake-demo.py wizualizujący proces tworzenia się Q-tabelki.
Przeanalizujemy kilka przykładowych uruchomień wizualizacji. Poniższe przykłady będą dotyczyły tworzenia Q-tabelki z γ = 0.5.
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Przykład
Skrypt frozen-lake-demo.py wizualizujący proces tworzenia się Q-tabelki.
Przeanalizujemy kilka przykładowych uruchomień wizualizacji.
Poniższe przykłady będą dotyczyły tworzenia Q-tabelki z γ = 0.5.
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Zaczynamy z tabelką, której wszystkie wartości wynoszą zero.
Wszystkie krawędzie (przejścia między stanami) mają wartość zero.
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Zaczynamy z tabelką, której wszystkie wartości wynoszą zero.
Wszystkie krawędzie (przejścia między stanami) mają wartość zero.
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Zaczynamy z tabelką, której wszystkie wartości wynoszą zero.
Wszystkie krawędzie (przejścia między stanami) mają wartość zero.
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Po pewnym czasie, agent na skutek losowych kroków przechodzi z pozycji (3, 2) na pozycję (3, 3).
W ten sposób dostaje nagrodę 1.
Fakt ten odnotowany zostaje w Q-tabelce i pojawia się mocno czerwona krawędź pomiędzy tymi pozycjami.
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Po pewnym czasie, agent na skutek losowych kroków przechodzi z pozycji (3, 2) na pozycję (3, 3).
W ten sposób dostaje nagrodę 1.
Fakt ten odnotowany zostaje w Q-tabelce i pojawia się mocno czerwona krawędź pomiędzy tymi pozycjami.
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Po pewnym czasie, agent na skutek losowych kroków przechodzi z pozycji (3, 2) na pozycję (3, 3).
W ten sposób dostaje nagrodę 1.
Fakt ten odnotowany zostaje w Q-tabelce i pojawia się mocno czerwona krawędź pomiędzy tymi pozycjami.
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Po pewnym czasie, agent na skutek losowych kroków przechodzi z pozycji (3, 2) na pozycję (3, 3).
W ten sposób dostaje nagrodę 1.
Fakt ten odnotowany zostaje w Q-tabelce i pojawia się mocno czerwona krawędź pomiędzy tymi pozycjami.
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Po kolejnych iteracjach pojawia się więcej krawędzi.
Ilustruje to cechę tej metody – ścieżka, którą ma podążać agent tworzy się od punktu docelowegoG, i dąży do punktu startowego S. Po pewnym czasie, wartości Q-tabelki się ustalają. Im dalej od pozycji Gtym Q-funkcja przyjmuje mniejsze wartości.
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Po kolejnych iteracjach pojawia się więcej krawędzi.
Ilustruje to cechę tej metody – ścieżka, którą ma podążać agent tworzy się od punktu docelowegoG, i dąży do punktu startowego S.
Po pewnym czasie, wartości Q-tabelki się ustalają. Im dalej od pozycji Gtym Q-funkcja przyjmuje mniejsze wartości.
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Po kolejnych iteracjach pojawia się więcej krawędzi.
Ilustruje to cechę tej metody – ścieżka, którą ma podążać agent tworzy się od punktu docelowegoG, i dąży do punktu startowego S.
Po pewnym czasie, wartości Q-tabelki się ustalają.
Im dalej od pozycji Gtym Q-funkcja przyjmuje mniejsze wartości.
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Po kolejnych iteracjach pojawia się więcej krawędzi.
Ilustruje to cechę tej metody – ścieżka, którą ma podążać agent tworzy się od punktu docelowegoG, i dąży do punktu startowego S.
Po pewnym czasie, wartości Q-tabelki się ustalają.
Im dalej od pozycji Gtym Q-funkcja przyjmuje
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Ciekawą sytuacją jest końcowy efekt dla przypadku gdy γ = 1.
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Przykład
Skrypt frozen-lake-demo.py wizualizujący proces tworzenia się Q-tabelki.
Możemy też przeanalizować uruchomienie z innymi planszami.
Trochę teorii Algorytm Q-learning Podsumowanie
Eksploracja
Q-learning we Frozen Lake
Algorytm Q-learning
Przykład
Skrypt frozen-lake-demo.py wizualizujący proces tworzenia się Q-tabelki.
Możemy też przeanalizować uruchomienie z innymi planszami.
Trochę teorii Algorytm Q-learning Podsumowanie
Podsumowanie
Zadanie uczenia ze wzmocnieniem może być opisane jako proces decyzyjny Markowa.
Wyliczenie funkcji wartościujących jest możliwe dzięki równaniom Bellmana.
Najprostszym algorytmem RL jest Q-learning. Do znalezienia optymymalnej strategii konieczna jest eksploracja.
Dla realnych problemów atakowanych za pomocą RL
wykorzystuje się głębokie sieci neuronowe, które aproksymują wartości Q tabelki.
Trochę teorii Algorytm Q-learning Podsumowanie
Podsumowanie
Zadanie uczenia ze wzmocnieniem może być opisane jako proces decyzyjny Markowa.
Wyliczenie funkcji wartościujących jest możliwe dzięki równaniom Bellmana.
Najprostszym algorytmem RL jest Q-learning. Do znalezienia optymymalnej strategii konieczna jest eksploracja.
Dla realnych problemów atakowanych za pomocą RL
wykorzystuje się głębokie sieci neuronowe, które aproksymują wartości Q tabelki.
Trochę teorii Algorytm Q-learning Podsumowanie
Podsumowanie
Zadanie uczenia ze wzmocnieniem może być opisane jako proces decyzyjny Markowa.
Wyliczenie funkcji wartościujących jest możliwe dzięki równaniom Bellmana.
Najprostszym algorytmem RL jest Q-learning.
Do znalezienia optymymalnej strategii konieczna jest eksploracja.
Dla realnych problemów atakowanych za pomocą RL
wykorzystuje się głębokie sieci neuronowe, które aproksymują wartości Q tabelki.
Trochę teorii Algorytm Q-learning Podsumowanie
Podsumowanie
Zadanie uczenia ze wzmocnieniem może być opisane jako proces decyzyjny Markowa.
Wyliczenie funkcji wartościujących jest możliwe dzięki równaniom Bellmana.
Najprostszym algorytmem RL jest Q-learning.
Do znalezienia optymymalnej strategii konieczna jest eksploracja.
Dla realnych problemów atakowanych za pomocą RL
wykorzystuje się głębokie sieci neuronowe, które aproksymują wartości Q tabelki.
Trochę teorii Algorytm Q-learning Podsumowanie
Podsumowanie
Zadanie uczenia ze wzmocnieniem może być opisane jako proces decyzyjny Markowa.
Wyliczenie funkcji wartościujących jest możliwe dzięki równaniom Bellmana.
Najprostszym algorytmem RL jest Q-learning.
Do znalezienia optymymalnej strategii konieczna jest eksploracja.
Dla realnych problemów atakowanych za pomocą RL
wykorzystuje się głębokie sieci neuronowe, które aproksymują wartości Q tabelki.
Trochę teorii Algorytm Q-learning Podsumowanie
Podsumowanie
Następny wykład: Uczenie maszynowe i mechanika kwantowa.