Wprowadzenie Uczenie agenta Podsumowanie
Podstawy uczenia maszynowego
Wykład 13 – Uczenie ze wzmocnieniem (I)Jarosław Miszczak Mateusz Ostaszewski
Wojciech Masarczyk
09/06/2021
Wprowadzenie Uczenie agenta Podsumowanie 1 Wprowadzenie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake 2 Uczenie agenta Zwrot z rozgrywki Strategia – Cel 3 Podsumowanie Materiały dodatkowe
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
3 / 33Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędówUczenie się ze wzmocnieniem (ang. reinforcement learning – RL) to
paradygmat uczenia maszynowego w którym uczenie odbywa się na zasadzie oceny przez środowisko działań podjętych przez agenta.
Interakcja ma na celu nauczyć agenta rozwiązywać problemy poprzez wyciągnie wniosków na podstawie odpowiedzi dawanej przez środowisko.
Uczenie się ze wzmocnieniem to próba sformalizowania idei, uczenia się na zasadzie prób i błędów.
System kar (lub nagród) przyznawanych agentowi za jego działanie powinien być zbudowany tak, że agent zaniecha działania lub będzie je powtarzał w przyszłości.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędówUczenie się ze wzmocnieniem (ang. reinforcement learning – RL) to
paradygmat uczenia maszynowego w którym uczenie odbywa się na zasadzie oceny przez środowisko działań podjętych przez agenta.
Interakcja ma na celu nauczyć agenta rozwiązywać problemy poprzez wyciągnie wniosków na podstawie odpowiedzi dawanej przez środowisko.
Uczenie się ze wzmocnieniem to próba sformalizowania idei, uczenia się na zasadzie prób i błędów.
System kar (lub nagród) przyznawanych agentowi za jego działanie powinien być zbudowany tak, że agent zaniecha działania lub będzie je powtarzał w przyszłości.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędówUczenie się ze wzmocnieniem (ang. reinforcement learning – RL) to
paradygmat uczenia maszynowego w którym uczenie odbywa się na zasadzie oceny przez środowisko działań podjętych przez agenta.
Interakcja ma na celu nauczyć agenta rozwiązywać problemy poprzez wyciągnie wniosków na podstawie odpowiedzi dawanej przez środowisko.
Uczenie się ze wzmocnieniem to próba sformalizowania idei, uczenia się na zasadzie prób i błędów.
System kar (lub nagród) przyznawanych agentowi za jego działanie powinien być zbudowany tak, że agent zaniecha działania lub będzie je powtarzał w przyszłości.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędówUczenie się ze wzmocnieniem (ang. reinforcement learning – RL) to
paradygmat uczenia maszynowego w którym uczenie odbywa się na zasadzie oceny przez środowisko działań podjętych przez agenta.
Interakcja ma na celu nauczyć agenta rozwiązywać problemy poprzez wyciągnie wniosków na podstawie odpowiedzi dawanej przez środowisko.
Uczenie się ze wzmocnieniem to próba sformalizowania idei, uczenia się na zasadzie prób i błędów.
System kar (lub nagród) przyznawanych agentowi za jego działanie powinien być zbudowany tak, że agent zaniecha działania lub będzie je powtarzał w przyszłości.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędówOgólny schemat mechanizmu działania agenta jest prosty.
Agent w chwili t znajduje się w stanie st, który reprezentuje jego
wiedzę na temat środowiska. Agent wykonuje akcję at. Po
wykonanej akcji, stan zmienia się na st+1. Agent otrzymuje również
numeryczną nagrodę rt. agent środowisko stan, nagro da s t, r t ak cja at
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędówOgólny schemat mechanizmu działania agenta jest prosty. Agent w chwili t znajduje się w stanie st, który reprezentuje jego
wiedzę na temat środowiska.
Agent wykonuje akcję at. Po
wykonanej akcji, stan zmienia się na st+1. Agent otrzymuje również
numeryczną nagrodę rt. agent środowisko stan, nagro da s t, r t ak cja at 5 / 33
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędówOgólny schemat mechanizmu działania agenta jest prosty. Agent w chwili t znajduje się w stanie st, który reprezentuje jego
wiedzę na temat środowiska. Agent wykonuje akcję at.
Po wykonanej akcji, stan zmienia się na st+1. Agent otrzymuje również
numeryczną nagrodę rt. agent środowisko stan, nagro da s t, r t ak cja at
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędówOgólny schemat mechanizmu działania agenta jest prosty. Agent w chwili t znajduje się w stanie st, który reprezentuje jego
wiedzę na temat środowiska. Agent wykonuje akcję at. Po
wykonanej akcji, stan zmienia się na st+1.
Agent otrzymuje również numeryczną nagrodę rt. agent środowisko stan, nagro da s t, r t ak cja at 5 / 33
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędówOgólny schemat mechanizmu działania agenta jest prosty. Agent w chwili t znajduje się w stanie st, który reprezentuje jego
wiedzę na temat środowiska. Agent wykonuje akcję at. Po
wykonanej akcji, stan zmienia się na st+1. Agent otrzymuje również
numeryczną nagrodę rt. agent środowisko stan, nagro da s t, r t ak cja at
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędów PrzykładProstym przykładem, jest robot mający dotrzeć do pewnego punktu docelowego.
Agentem jest robot, który jako stan otrzymuje odczyt z sensorów.
Akcja polega na uruchomieniu odpowiednich silniczków dzięki
którym robot wykonuje ruch w danym kierunku. W każdym kroku agent otrzymuje nagrodę
0 jeżeli nie dotarł do celu,
1 w przypadku gdy dotrze do punktu docelowego.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędów PrzykładProstym przykładem, jest robot mający dotrzeć do pewnego punktu docelowego.
Agentem jest robot, który jako stan otrzymuje odczyt z sensorów.
Akcja polega na uruchomieniu odpowiednich silniczków dzięki
którym robot wykonuje ruch w danym kierunku. W każdym kroku agent otrzymuje nagrodę
0 jeżeli nie dotarł do celu,
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędów PrzykładProstym przykładem, jest robot mający dotrzeć do pewnego punktu docelowego.
Agentem jest robot, który jako stan otrzymuje odczyt z sensorów.
Akcja polega na uruchomieniu odpowiednich silniczków dzięki
którym robot wykonuje ruch w danym kierunku.
W każdym kroku agent otrzymuje nagrodę
0 jeżeli nie dotarł do celu,
1 w przypadku gdy dotrze do punktu docelowego.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędów PrzykładProstym przykładem, jest robot mający dotrzeć do pewnego punktu docelowego.
Agentem jest robot, który jako stan otrzymuje odczyt z sensorów.
Akcja polega na uruchomieniu odpowiednich silniczków dzięki
którym robot wykonuje ruch w danym kierunku. W każdym kroku agent otrzymuje nagrodę
0 jeżeli nie dotarł do celu,
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędów PrzykładProstym przykładem, jest robot mający dotrzeć do pewnego punktu docelowego.
Agentem jest robot, który jako stan otrzymuje odczyt z sensorów.
Akcja polega na uruchomieniu odpowiednich silniczków dzięki
którym robot wykonuje ruch w danym kierunku. W każdym kroku agent otrzymuje nagrodę
0 jeżeli nie dotarł do celu,
1 w przypadku gdy dotrze do punktu docelowego.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędów PrzykładProstym przykładem, jest robot mający dotrzeć do pewnego punktu docelowego.
Agentem jest robot, który jako stan otrzymuje odczyt z sensorów.
Akcja polega na uruchomieniu odpowiednich silniczków dzięki
którym robot wykonuje ruch w danym kierunku. W każdym kroku agent otrzymuje nagrodę
0 jeżeli nie dotarł do celu,
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędówPrzykładowymi problemami, w których można użyć uczenia się ze wzmocnieniem są
Utrzymanie odwróconego wahadła (Cart-Pole).
Sterowanie robotem: uczenie humanoida chodzenia, uczenie robota gry w piłkę nożną.
Tworzenie programów dla rozgrywania gier: Go (AlphaGo), StarCraft, gry Atari.
Rozwiązywanie problemów optymalizacyjnych.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędówPrzykładowymi problemami, w których można użyć uczenia się ze wzmocnieniem są
Utrzymanie odwróconego wahadła (Cart-Pole).
Sterowanie robotem: uczenie humanoida chodzenia, uczenie robota gry w piłkę nożną.
Tworzenie programów dla rozgrywania gier: Go (AlphaGo), StarCraft, gry Atari.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędówPrzykładowymi problemami, w których można użyć uczenia się ze wzmocnieniem są
Utrzymanie odwróconego wahadła (Cart-Pole).
Sterowanie robotem: uczenie humanoida chodzenia, uczenie robota gry w piłkę nożną.
Tworzenie programów dla rozgrywania gier: Go (AlphaGo), StarCraft, gry Atari.
Rozwiązywanie problemów optymalizacyjnych.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędówPrzykładowymi problemami, w których można użyć uczenia się ze wzmocnieniem są
Utrzymanie odwróconego wahadła (Cart-Pole).
Sterowanie robotem: uczenie humanoida chodzenia, uczenie robota gry w piłkę nożną.
Tworzenie programów dla rozgrywania gier: Go (AlphaGo), StarCraft, gry Atari.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędówPrzykładowymi problemami, w których można użyć uczenia się ze wzmocnieniem są
Utrzymanie odwróconego wahadła (Cart-Pole).
Sterowanie robotem: uczenie humanoida chodzenia, uczenie robota gry w piłkę nożną.
Tworzenie programów dla rozgrywania gier: Go (AlphaGo), StarCraft, gry Atari.
Rozwiązywanie problemów optymalizacyjnych.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędówRL może działać w różnych scenariuszach.
Agent wykonuje serię akcji, tylko po to by osiągnąć konkretny stan końcowy, jak np. przejście labiryntu.
Agent ma za zadanie wykonywać akcje po to by jak najdłużej zostać w grze Cart-Pole).
Zadaniem agenta jest zebranie punktów (Pac-Man). Maksymalizacja zysku
Wszystkie te scenariusze można opisać wspólnym celem – maksymalizacją łącznego zysku wynikającego z otrzymywanych nagród.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędówRL może działać w różnych scenariuszach.
Agent wykonuje serię akcji, tylko po to by osiągnąć konkretny stan końcowy, jak np. przejście labiryntu.
Agent ma za zadanie wykonywać akcje po to by jak najdłużej zostać w grze Cart-Pole).
Zadaniem agenta jest zebranie punktów (Pac-Man). Maksymalizacja zysku
Wszystkie te scenariusze można opisać wspólnym celem – maksymalizacją łącznego zysku wynikającego z otrzymywanych nagród.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędówRL może działać w różnych scenariuszach.
Agent wykonuje serię akcji, tylko po to by osiągnąć konkretny stan końcowy, jak np. przejście labiryntu.
Agent ma za zadanie wykonywać akcje po to by jak najdłużej zostać w grze Cart-Pole).
Zadaniem agenta jest zebranie punktów (Pac-Man). Maksymalizacja zysku
Wszystkie te scenariusze można opisać wspólnym celem – maksymalizacją łącznego zysku wynikającego z otrzymywanych nagród.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędówRL może działać w różnych scenariuszach.
Agent wykonuje serię akcji, tylko po to by osiągnąć konkretny stan końcowy, jak np. przejście labiryntu.
Agent ma za zadanie wykonywać akcje po to by jak najdłużej zostać w grze Cart-Pole).
Zadaniem agenta jest zebranie punktów (Pac-Man).
Maksymalizacja zysku
Wszystkie te scenariusze można opisać wspólnym celem – maksymalizacją łącznego zysku wynikającego z otrzymywanych nagród.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Uczenia metodą prób i błędówRL może działać w różnych scenariuszach.
Agent wykonuje serię akcji, tylko po to by osiągnąć konkretny stan końcowy, jak np. przejście labiryntu.
Agent ma za zadanie wykonywać akcje po to by jak najdłużej zostać w grze Cart-Pole).
Zadaniem agenta jest zebranie punktów (Pac-Man). Maksymalizacja zysku
Wszystkie te scenariusze można opisać wspólnym celem – maksymalizacją łącznego zysku wynikającego z otrzymywanych nagród.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Zarys modeluPodstawowymi pojęciami które pojawiają się we wszystkich scenariuszach uczenia ze wzmocnieniem są
stan, akcja, i nagroda.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Zarys modeluPodstawowymi pojęciami które pojawiają się we wszystkich scenariuszach uczenia ze wzmocnieniem są
stan,
akcja, i nagroda.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Zarys modeluPodstawowymi pojęciami które pojawiają się we wszystkich scenariuszach uczenia ze wzmocnieniem są
stan, akcja,
i nagroda.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Zarys modeluPodstawowymi pojęciami które pojawiają się we wszystkich scenariuszach uczenia ze wzmocnieniem są
stan, akcja, i nagroda.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Zarys modelu StanStan s ∈ S jest kompletnym opisem świata.
Dla odróżnienia wyróżniamy również obserwacje będące częściowym opisem
stanu. Stany i obserwacje są po prostu wektorami lub macierzami,
np. macierz pikseli będąca zrzutem ekranu z gry.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Zarys modelu StanStan s ∈ S jest kompletnym opisem świata. Dla odróżnienia wyróżniamy również obserwacje będące częściowym opisem
stanu.
Stany i obserwacje są po prostu wektorami lub macierzami, np. macierz pikseli będąca zrzutem ekranu z gry.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Zarys modelu StanStan s ∈ S jest kompletnym opisem świata. Dla odróżnienia wyróżniamy również obserwacje będące częściowym opisem
stanu. Stany i obserwacje są po prostu wektorami lub macierzami,
np. macierz pikseli będąca zrzutem ekranu z gry.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Zarys modelu AkcjaAkcja a ∈ A jest atrybutem przekazywanym do środowiska i powodującym zmianę stanu.
Postać akcji jest związana ze środowiskiem. Akcje dzielimy ma dyskretne i ciągłe, co ma wpływ
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Zarys modelu AkcjaAkcja a ∈ A jest atrybutem przekazywanym do środowiska i powodującym zmianę stanu. Postać akcji jest związana ze
środowiskiem.
Akcje dzielimy ma dyskretne i ciągłe, co ma wpływ na zakres stosowalności algorytmów uczenia ze wzmocnieniem.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Zarys modelu AkcjaAkcja a ∈ A jest atrybutem przekazywanym do środowiska i powodującym zmianę stanu. Postać akcji jest związana ze
środowiskiem. Akcje dzielimy ma dyskretne i ciągłe, co ma wpływ
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Zarys modelu NagrodaNagroda r ∈ R jest związana ze wzmocnieniem, które wyrażą odpowiedź środowiska na wykonaną akcję.
Nagroda jest informacją zwrotną i jest motorem napędowym całego procesu uczenia. Nagrody nie muszą być tylko dodatnie – karanie
może usprawnić proces uczenia.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Zarys modelu NagrodaNagroda r ∈ R jest związana ze wzmocnieniem, które wyrażą odpowiedź środowiska na wykonaną akcję. Nagroda jest
informacją zwrotną i jest motorem napędowym całego procesu uczenia.
Nagrody nie muszą być tylko dodatnie – karanie może usprawnić proces uczenia.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Zarys modelu NagrodaNagroda r ∈ R jest związana ze wzmocnieniem, które wyrażą odpowiedź środowiska na wykonaną akcję. Nagroda jest
informacją zwrotną i jest motorem napędowym całego procesu uczenia. Nagrody nie muszą być tylko dodatnie – karanie
może usprawnić proces uczenia.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Zarys modelu Obserwacja vs. stanRóżnicę między stanem a obserwacją dobrze obrazują gry RTS jak np. StarCraft.
Środowisko jest opisane przez mapę, której gracz nie widzi w całości. W takim przypadku jednym z zadań agenta jest wysyłać zwiadowców, by dowiedzieć się co robi przeciwnik. Innym przykładem są niektóre gry Atari, gdzie pojedyncze zdjęcie z gry gubi informację na temat ruchu. Możemy wówczas użyć kilku kolejnych zdjęć, aby dostać lepsze przybliżenie faktycznego stanu środowiska.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Zarys modelu Obserwacja vs. stanRóżnicę między stanem a obserwacją dobrze obrazują gry RTS jak np. StarCraft. Środowisko jest opisane przez mapę, której gracz nie widzi w całości.
W takim przypadku jednym z zadań agenta jest wysyłać zwiadowców, by dowiedzieć się co robi przeciwnik. Innym przykładem są niektóre gry Atari, gdzie pojedyncze zdjęcie z gry gubi informację na temat ruchu. Możemy wówczas użyć kilku kolejnych zdjęć, aby dostać lepsze przybliżenie faktycznego stanu środowiska.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Zarys modelu Obserwacja vs. stanRóżnicę między stanem a obserwacją dobrze obrazują gry RTS jak np. StarCraft. Środowisko jest opisane przez mapę, której gracz nie widzi w całości. W takim przypadku jednym z zadań agenta jest wysyłać zwiadowców, by dowiedzieć się co robi przeciwnik.
Innym przykładem są niektóre gry Atari, gdzie pojedyncze zdjęcie z gry gubi informację na temat ruchu. Możemy wówczas użyć kilku kolejnych zdjęć, aby dostać lepsze przybliżenie faktycznego stanu środowiska.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Zarys modelu Obserwacja vs. stanRóżnicę między stanem a obserwacją dobrze obrazują gry RTS jak np. StarCraft. Środowisko jest opisane przez mapę, której gracz nie widzi w całości. W takim przypadku jednym z zadań agenta jest wysyłać zwiadowców, by dowiedzieć się co robi przeciwnik. Innym przykładem są niektóre gry Atari, gdzie pojedyncze zdjęcie z gry gubi informację na temat ruchu.
Możemy wówczas użyć kilku kolejnych zdjęć, aby dostać lepsze przybliżenie faktycznego stanu środowiska.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Zarys modelu Obserwacja vs. stanRóżnicę między stanem a obserwacją dobrze obrazują gry RTS jak np. StarCraft. Środowisko jest opisane przez mapę, której gracz nie widzi w całości. W takim przypadku jednym z zadań agenta jest wysyłać zwiadowców, by dowiedzieć się co robi przeciwnik. Innym przykładem są niektóre gry Atari, gdzie pojedyncze zdjęcie z gry gubi informację na temat ruchu. Możemy wówczas użyć kilku kolejnych zdjęć, aby dostać lepsze przybliżenie faktycznego stanu środowiska.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Z formalnego punktu widzenia, każdy z powyższych atrybutów może być zmienna losową.
Zmiana stanu s pod wpływem akcji a nie musi być deterministyczna, tj. rozpatrywany model może zakładać pewien rozkład prawdopodobieństwa przejścia P(s0, r |s, a),
opisujący przejścia do stanu s0 otrzymania nagrody r .
Z tego rozkładu można uzyskać prawdopodobieństwo przejścia do stanu P(s0|s, a) =P
r ∈RP(s0, r |s, a) oraz oczekiwaną
nagrodę R(s, a) =P
r ∈R,s0∈SrP(s0, r |s, a).
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Z formalnego punktu widzenia, każdy z powyższych atrybutów może być zmienna losową.
Zmiana stanu s pod wpływem akcji a nie musi być deterministyczna, tj. rozpatrywany model może zakładać pewien rozkład prawdopodobieństwa przejścia P(s0, r |s, a),
opisujący przejścia do stanu s0 otrzymania nagrody r .
Z tego rozkładu można uzyskać prawdopodobieństwo przejścia do stanu P(s0|s, a) =P
r ∈RP(s0, r |s, a) oraz oczekiwaną
nagrodę R(s, a) =P
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Z formalnego punktu widzenia, każdy z powyższych atrybutów może być zmienna losową.
Zmiana stanu s pod wpływem akcji a nie musi być deterministyczna, tj. rozpatrywany model może zakładać pewien rozkład prawdopodobieństwa przejścia P(s0, r |s, a),
opisujący przejścia do stanu s0 otrzymania nagrody r .
Z tego rozkładu można uzyskać prawdopodobieństwo przejścia do stanu P(s0|s, a) =P
r ∈RP(s0, r |s, a) oraz oczekiwaną
nagrodę R(s, a) =P
r ∈R,s0∈SrP(s0, r |s, a).
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Z formalnego punktu widzenia, każdy z powyższych atrybutów może być zmienna losową.
Zmiana stanu s pod wpływem akcji a nie musi być deterministyczna, tj. rozpatrywany model może zakładać pewien rozkład prawdopodobieństwa przejścia P(s0, r |s, a),
opisujący przejścia do stanu s0 otrzymania nagrody r .
Z tego rozkładu można uzyskać prawdopodobieństwo przejścia do stanu P(s0|s, a) =P
r ∈RP(s0, r |s, a) oraz oczekiwaną
nagrodę R(s, a) =P
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Różnorodność w sposobie nagradzania, wiąże się ze stopniem skomplikowania, danego środowiska.
Niektóre problemy, mają bezpośrednio zdefiniowaną nagrodę, jak np. optymalizacja kombinatoryczna.
W innych przypadkach, warto poświęcić trochę uwagi projektowaniu systemu nagród (o ile mamy taką możliwość). W przypadku zadania z labiryntem, możne byc korzystne dawanie ujemnej nagrody w każdym kroku, aby agent znalazł wyjście możliwie jak najszybciej.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Różnorodność w sposobie nagradzania, wiąże się ze stopniem skomplikowania, danego środowiska.
Niektóre problemy, mają bezpośrednio zdefiniowaną nagrodę, jak np. optymalizacja kombinatoryczna.
W innych przypadkach, warto poświęcić trochę uwagi projektowaniu systemu nagród (o ile mamy taką możliwość). W przypadku zadania z labiryntem, możne byc korzystne dawanie ujemnej nagrody w każdym kroku, aby agent znalazł wyjście możliwie jak najszybciej.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Różnorodność w sposobie nagradzania, wiąże się ze stopniem skomplikowania, danego środowiska.
Niektóre problemy, mają bezpośrednio zdefiniowaną nagrodę, jak np. optymalizacja kombinatoryczna.
W innych przypadkach, warto poświęcić trochę uwagi projektowaniu systemu nagród (o ile mamy taką możliwość).
W przypadku zadania z labiryntem, możne byc korzystne dawanie ujemnej nagrody w każdym kroku, aby agent znalazł wyjście możliwie jak najszybciej.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Różnorodność w sposobie nagradzania, wiąże się ze stopniem skomplikowania, danego środowiska.
Niektóre problemy, mają bezpośrednio zdefiniowaną nagrodę, jak np. optymalizacja kombinatoryczna.
W innych przypadkach, warto poświęcić trochę uwagi projektowaniu systemu nagród (o ile mamy taką możliwość). W przypadku zadania z labiryntem, możne byc korzystne dawanie ujemnej nagrody w każdym kroku, aby agent znalazł wyjście możliwie jak najszybciej.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Przykład – Frozen-LakeJednym z prostszych przykładów jest gra Frozen-Lake.
Gra opisana jest na planszy 4 × 4 na której są pola oznaczające dziury w lodzie lub twardy lód.
Przykładowa plansza wygląda następująco:
S F F F
F H F H
F F F H
H F F G
S – punkt startowy (bezpiecznie),
F – zamrożona powierzchnia (bezpiecznie), H – dziura (przegrana, koniec gry),
G – cel (wygrana, koniec gry).
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Przykład – Frozen-LakeJednym z prostszych przykładów jest gra Frozen-Lake.
Gra opisana jest na planszy 4 × 4 na której są pola oznaczające dziury w lodzie lub twardy lód.
Przykładowa plansza wygląda następująco:
S F F F
F H F H
F F F H
H F F G
S – punkt startowy (bezpiecznie),
F – zamrożona powierzchnia (bezpiecznie), H – dziura (przegrana, koniec gry),
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Przykład – Frozen-LakeJednym z prostszych przykładów jest gra Frozen-Lake.
Gra opisana jest na planszy 4 × 4 na której są pola oznaczające dziury w lodzie lub twardy lód. Przykładowa plansza wygląda następująco:
S F F F
F H F H
F F F H
H F F G
S – punkt startowy (bezpiecznie),
F – zamrożona powierzchnia (bezpiecznie), H – dziura (przegrana, koniec gry),
G – cel (wygrana, koniec gry).
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Przykład – Frozen-LakeJednym z prostszych przykładów jest gra Frozen-Lake.
Gra opisana jest na planszy 4 × 4 na której są pola oznaczające dziury w lodzie lub twardy lód. Przykładowa plansza wygląda następująco:
S F F F
F H F H
F F F H
H F F G
S – punkt startowy (bezpiecznie),
F – zamrożona powierzchnia (bezpiecznie), H – dziura (przegrana, koniec gry),
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Przykład – Frozen-Lake S F F F F H F H F F F H H F F GFrozen-Lake – zasady gry
Agent startuje z lewej górnej pozycji S.
Jego zadaniem jest dojść do pozycji G.
Zbiór akcji to
A = {←, →, ↑, ↓}.
W każdym stanie dostaje nagrodę 0, prócz pozycji G, gdzie dostaje nagrodę 1. Gra dobiega końca w dwóch przypadkach, gdy gracz osiąga pozycję H lubG.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Przykład – Frozen-Lake S F F F F H F H F F F H H F F GFrozen-Lake – zasady gry
Agent startuje z lewej górnej pozycji S.
Jego zadaniem jest dojść do pozycji G.
Zbiór akcji to
A = {←, →, ↑, ↓}.
W każdym stanie dostaje nagrodę 0, prócz pozycji G, gdzie dostaje nagrodę 1. Gra dobiega końca w dwóch przypadkach, gdy gracz osiąga pozycję H lubG.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Przykład – Frozen-Lake S F F F F H F H F F F H H F F GFrozen-Lake – zasady gry
Agent startuje z lewej górnej pozycji S.
Jego zadaniem jest dojść do pozycji G.
Zbiór akcji to
A = {←, →, ↑, ↓}.
W każdym stanie dostaje nagrodę 0, prócz pozycji G, gdzie dostaje nagrodę 1. Gra dobiega końca w dwóch przypadkach, gdy gracz osiąga pozycję H lubG.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Przykład – Frozen-Lake S F F F F H F H F F F H H F F GFrozen-Lake – zasady gry
Agent startuje z lewej górnej pozycji S.
Jego zadaniem jest dojść do pozycji G.
Zbiór akcji to
A = {←, →, ↑, ↓}.
W każdym stanie dostaje nagrodę 0, prócz pozycji G, gdzie dostaje nagrodę 1. Gra dobiega końca w dwóch przypadkach, gdy gracz osiąga pozycję H lubG.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Przykład – Frozen-Lake S F F F F H F H F F F H H F F GFrozen-Lake – zasady gry
Agent startuje z lewej górnej pozycji S.
Jego zadaniem jest dojść do pozycji G.
Zbiór akcji to
A = {←, →, ↑, ↓}.
W każdym stanie dostaje nagrodę 0, prócz pozycji G, gdzie dostaje nagrodę 1.
Gra dobiega końca w dwóch przypadkach, gdy gracz osiąga pozycję H lubG.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Przykład – Frozen-Lake S F F F F H F H F F F H H F F GFrozen-Lake – zasady gry
Agent startuje z lewej górnej pozycji S.
Jego zadaniem jest dojść do pozycji G.
Zbiór akcji to
A = {←, →, ↑, ↓}.
W każdym stanie dostaje nagrodę 0, prócz pozycji G, gdzie dostaje nagrodę 1. Gra dobiega końca w dwóch przypadkach, gdy gracz
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Przykład – Frozen-LakeStany oznaczamy jako parę współrzędnych, gdzie pozycjaS
znajduje się w stanie (0, 0), aGznajduje się w stanie (3, 3). Przykładowa wygrywająca trajektoria to τ0= [(0, 0), ↓, (0, 1), ↓
, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), →, (3, 3)].
System nagradzania w tej grze nie daje dużo informacji. Z punktu widzenia nagrody, nie odróżniamy dziury od bezpiecznej tafli lodu. Stochastyczny Frozen-Lake
Istnieje wersja środowiska Frozen-Lake gdzie lód po którym
stąpamy jest śliski. Wówczas, z pewnym prawdopodobieństwem nie zmienimy stanu zgodnie z wykonaną akcją, lecz przechodzimy do innego sąsiadującego stanu.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Przykład – Frozen-LakeStany oznaczamy jako parę współrzędnych, gdzie pozycjaS
znajduje się w stanie (0, 0), aGznajduje się w stanie (3, 3). Przykładowa wygrywająca trajektoria to τ0= [(0, 0), ↓, (0, 1), ↓
, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), →, (3, 3)].
System nagradzania w tej grze nie daje dużo informacji. Z punktu widzenia nagrody, nie odróżniamy dziury od bezpiecznej tafli lodu.
Stochastyczny Frozen-Lake
Istnieje wersja środowiska Frozen-Lake gdzie lód po którym
stąpamy jest śliski. Wówczas, z pewnym prawdopodobieństwem nie zmienimy stanu zgodnie z wykonaną akcją, lecz przechodzimy do innego sąsiadującego stanu.
Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake
Wprowadzenie
Przykład – Frozen-LakeStany oznaczamy jako parę współrzędnych, gdzie pozycjaS
znajduje się w stanie (0, 0), aGznajduje się w stanie (3, 3). Przykładowa wygrywająca trajektoria to τ0= [(0, 0), ↓, (0, 1), ↓
, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), →, (3, 3)].
System nagradzania w tej grze nie daje dużo informacji. Z punktu widzenia nagrody, nie odróżniamy dziury od bezpiecznej tafli lodu. Stochastyczny Frozen-Lake
Istnieje wersja środowiska Frozen-Lake gdzie lód po którym
stąpamy jest śliski. Wówczas, z pewnym prawdopodobieństwem nie zmienimy stanu zgodnie z wykonaną akcją, lecz przechodzimy do innego sąsiadującego stanu.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywkiW jaki sposób określić cel agenta?
Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.
Agent zbiera informacje wykonując akcie i otrzymując nagrody.
Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.
W założeniu RL ma prowadzić do automatycznego
wypracowania strategii bez
konieczności posiadania wiedzy o strategii prowadzącej do celu.
agent środowisko stan, nagro da s t, r t ak cja at 20 / 33
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywkiW jaki sposób określić cel agenta? Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.
Agent zbiera informacje wykonując akcie i otrzymując nagrody.
Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.
W założeniu RL ma prowadzić do automatycznego
wypracowania strategii bez
konieczności posiadania wiedzy o strategii prowadzącej do celu.
agent środowisko stan, nagro da s t, r t ak cja at
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywkiW jaki sposób określić cel agenta? Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.
Agent zbiera informacje wykonując akcie i otrzymując nagrody.
Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.
W założeniu RL ma prowadzić do automatycznego
wypracowania strategii bez
konieczności posiadania wiedzy o strategii prowadzącej do celu.
agent środowisko stan, nagro da s t, r t ak cja at 20 / 33
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywkiW jaki sposób określić cel agenta? Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.
Agent zbiera informacje wykonując akcie i otrzymując nagrody.
Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.
W założeniu RL ma prowadzić do automatycznego
wypracowania strategii bez
konieczności posiadania wiedzy o strategii prowadzącej do celu.
agent środowisko stan, nagro da s t, r t ak cja at
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywkiW jaki sposób określić cel agenta? Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.
Agent zbiera informacje wykonując akcie i otrzymując nagrody.
Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.
W założeniu RL ma prowadzić do automatycznego
wypracowania strategii bez
konieczności posiadania wiedzy o strategii prowadzącej do celu.
agent środowisko stan, nagro da s t, r t ak cja at 20 / 33
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywkiW jaki sposób określić cel agenta?
Celem agenta jest maksymalizacja pewnego kryterium jakości zdefiniowanego przez nagrody otrzymywane w wyniku
wykonywanych akcji.
W zachłannym podejściu takim kryterium byłoby po prostu zbieranie możliwie maksymalnej nagrody w każdym kroku. Nie zawsze musi to być opłacalne – czasem warto wykonać akcję, która nie daje zysku. Np. w szachach czasem lepiej poświęcić jakieś bierki, aby (w dłuższej perspektywie) zbić króla przeciwnika.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywkiW jaki sposób określić cel agenta?
Celem agenta jest maksymalizacja pewnego kryterium jakości zdefiniowanego przez nagrody otrzymywane w wyniku
wykonywanych akcji.
W zachłannym podejściu takim kryterium byłoby po prostu zbieranie możliwie maksymalnej nagrody w każdym kroku. Nie zawsze musi to być opłacalne – czasem warto wykonać akcję, która nie daje zysku. Np. w szachach czasem lepiej poświęcić jakieś bierki, aby (w dłuższej perspektywie) zbić króla przeciwnika.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywkiW jaki sposób określić cel agenta?
Celem agenta jest maksymalizacja pewnego kryterium jakości zdefiniowanego przez nagrody otrzymywane w wyniku
wykonywanych akcji.
W zachłannym podejściu takim kryterium byłoby po prostu zbieranie możliwie maksymalnej nagrody w każdym kroku.
Nie zawsze musi to być opłacalne – czasem warto wykonać akcję, która nie daje zysku. Np. w szachach czasem lepiej poświęcić jakieś bierki, aby (w dłuższej perspektywie) zbić króla przeciwnika.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywkiW jaki sposób określić cel agenta?
Celem agenta jest maksymalizacja pewnego kryterium jakości zdefiniowanego przez nagrody otrzymywane w wyniku
wykonywanych akcji.
W zachłannym podejściu takim kryterium byłoby po prostu zbieranie możliwie maksymalnej nagrody w każdym kroku. Nie zawsze musi to być opłacalne – czasem warto wykonać akcję, która nie daje zysku. Np. w szachach czasem lepiej poświęcić jakieś bierki, aby (w dłuższej perspektywie) zbić króla przeciwnika.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywkiDo określenia celu agenta powszechnie używanym kryterium jest
zdyskontowany zwrot lub zdyskontowana kumulatywna nagroda
danej trajektorii R(τ ) = ∞ X t=0 γtrt,
gdzie γ ∈ [0, 1] nazywamy współczynnikiem zdyskontowania (gdzie 00= 1).
∞
Powyższa suma zakończona jest w nieskończoności. W praktyce każdy program musi się kiedyś skończyć.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywkiDo określenia celu agenta powszechnie używanym kryterium jest
zdyskontowany zwrot lub zdyskontowana kumulatywna nagroda
danej trajektorii R(τ ) = ∞ X t=0 γtrt,
gdzie γ ∈ [0, 1] nazywamy współczynnikiem zdyskontowania (gdzie 00= 1).
∞
Powyższa suma zakończona jest w nieskończoności. W praktyce każdy program musi się kiedyś skończyć.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki Trajektorie Pojęcie trajektorii τ = (s0, a0, a1, s1, . . .),opisuje konkretną sekwencję (stan, akcja), która kończy się w pewnym stanie terminalnym.
Konkretna trajektoria odpowiada realizacji pojedynczego epizodu, np. jednej rozgrywce partii szachów, jednemu przejściu przez planszę Frozen-Lake.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki Trajektorie Pojęcie trajektorii τ = (s0, a0, a1, s1, . . .),opisuje konkretną sekwencję (stan, akcja), która kończy się w pewnym stanie terminalnym.
Konkretna trajektoria odpowiada realizacji pojedynczego epizodu, np. jednej rozgrywce partii szachów, jednemu przejściu przez planszę Frozen-Lake.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki Horyzont zwrotu R(τ ) = ∞ X t=0 γtrt,Parametr γ określa długość horyzontu zwrotu.
Im γ bliżej zera, tym bardziej agent postępuje zachłannie. Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.
Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki Horyzont zwrotu R(τ ) = ∞ X t=0 γtrt,Parametr γ określa długość horyzontu zwrotu.
Im γ bliżej zera, tym bardziej agent postępuje zachłannie. Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.
Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki Horyzont zwrotu R(τ ) = ∞ X t=0 γtrt,Parametr γ określa długość horyzontu zwrotu.
Im γ bliżej zera, tym bardziej agent postępuje zachłannie.
Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.
Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki Horyzont zwrotu R(τ ) = ∞ X t=0 γtrt,Parametr γ określa długość horyzontu zwrotu.
Im γ bliżej zera, tym bardziej agent postępuje zachłannie. Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.
Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki Horyzont zwrotu R(τ ) = ∞ X t=0 γtrt,Parametr γ określa długość horyzontu zwrotu.
Im γ bliżej zera, tym bardziej agent postępuje zachłannie. Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.
Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki – Przykład dla Frozen-Lake
Jak to działa dla Frozen-Lake?
Zachłanne podejście (γ = 0) w przypadku gry Frozen-Lake, mogłoby nigdy nie nauczyć agenta bezpiecznej trasy. Zwiększając wartość współczynnika zdyskontowania, agent może odróżnić trajektorię, która kończy się w stanie G, od trajektorii kończącej się w stanie H.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki – Przykład dla Frozen-Lake
Jak to działa dla Frozen-Lake?
Zachłanne podejście (γ = 0) w przypadku gry Frozen-Lake, mogłoby nigdy nie nauczyć agenta bezpiecznej trasy.
Zwiększając wartość współczynnika zdyskontowania, agent może odróżnić trajektorię, która kończy się w stanie G, od trajektorii kończącej się w stanie H.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki – Przykład dla Frozen-Lake
Jak to działa dla Frozen-Lake?
Zachłanne podejście (γ = 0) w przypadku gry Frozen-Lake, mogłoby nigdy nie nauczyć agenta bezpiecznej trasy. Zwiększając wartość współczynnika zdyskontowania, agent może odróżnić trajektorię, która kończy się w stanie G, od trajektorii kończącej się w stanie H.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki – Przykład dla Frozen-Lake
Porównajmy jak działają dwie trajektorie z różnym γ
τ0 = [(0, 0), ↓, (0, 1), ↓, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), →
, (3, 3)]
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki – Przykład dla Frozen-Lake
Porównajmy jak działają dwie trajektorie z różnym γ
τ0 = [(0, 0), ↓, (0, 1), ↓, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), → , (3, 3)] τ00= [(0, 0), ↓, (1, 0), →, (1, 1)]. Wówczas jeżeli γ = 0, to R(τ0) = 5 X t=0 0trt = 0, R(τ00) = 1 X t=0 0trt = 0. 26 / 33
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki – Przykład dla Frozen-Lake
Porównajmy jak działają dwie trajektorie z różnym γ
τ0 = [(0, 0), ↓, (0, 1), ↓, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), → , (3, 3)] τ00= [(0, 0), ↓, (1, 0), →, (1, 1)]. Wówczas jeżeli γ = 0.9, to R(τ0) = 5 X t=0 0.9trt = 0.95 = 0.59, R(τ00) = 1 X t=0 0.9trt = 0.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Strategia – Cel StrategiaZadaniem agenta jest nauczenie się strategii, czyli funkcji
π(s) = a, na podstawie której wybiera on akcje, maksymalizujące
zdyskontowany zwrot.
Strategia stochastyczna
Nic nie stoi na przeszkodzie, aby strategia również była stochastyczna a ∼ π(·|s).
Na przykład robot-odkurzacz może przemieszczać się w nieregularny sposób i w dalszym ciągu istnieje szansa, że wykona swoje zadanie.
Trajektoria może być traktowana jako konkretna realizacja strategii.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Strategia – Cel StrategiaZadaniem agenta jest nauczenie się strategii, czyli funkcji
π(s) = a, na podstawie której wybiera on akcje, maksymalizujące
zdyskontowany zwrot. Strategia stochastyczna
Nic nie stoi na przeszkodzie, aby strategia również była stochastyczna a ∼ π(·|s).
Na przykład robot-odkurzacz może przemieszczać się w nieregularny sposób i w dalszym ciągu istnieje szansa, że wykona swoje zadanie.
Trajektoria może być traktowana jako konkretna realizacja strategii.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Strategia – Cel StrategiaZadaniem agenta jest nauczenie się strategii, czyli funkcji
π(s) = a, na podstawie której wybiera on akcje, maksymalizujące
zdyskontowany zwrot. Strategia stochastyczna
Nic nie stoi na przeszkodzie, aby strategia również była stochastyczna a ∼ π(·|s). Na przykład robot-odkurzacz może przemieszczać się w nieregularny sposób i w dalszym ciągu istnieje szansa, że wykona swoje zadanie.
Trajektoria może być traktowana jako konkretna realizacja strategii.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Strategia – Cel StrategiaZadaniem agenta jest nauczenie się strategii, czyli funkcji
π(s) = a, na podstawie której wybiera on akcje, maksymalizujące
zdyskontowany zwrot. Strategia stochastyczna
Nic nie stoi na przeszkodzie, aby strategia również była stochastyczna a ∼ π(·|s). Na przykład robot-odkurzacz może przemieszczać się w nieregularny sposób i w dalszym ciągu istnieje szansa, że wykona swoje zadanie.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Strategia – CelJak znaleźć strategię?
Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).
Natomiast zadaniem uczenia się ze wzmocnieniem jest
znalezienie strategii.
Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu
Eτ ∼π[R(τ )].
Co prowadzi nas do formalnej postaci problemu
π∗ = arg max
π Eτ ∼π[R(τ )],
gdzie π∗ nazywamy optymalną strategią.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Strategia – CelJak znaleźć strategię?
Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).
Natomiast zadaniem uczenia się ze wzmocnieniem jest
znalezienie strategii.
Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu
Eτ ∼π[R(τ )].
Co prowadzi nas do formalnej postaci problemu
π∗ = arg max
π Eτ ∼π[R(τ )],
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Strategia – CelJak znaleźć strategię?
Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).
Natomiast zadaniem uczenia się ze wzmocnieniem jest
znalezienie strategii.
Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu
Eτ ∼π[R(τ )].
Co prowadzi nas do formalnej postaci problemu
π∗ = arg max
π Eτ ∼π[R(τ )],
gdzie π∗ nazywamy optymalną strategią.
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Strategia – CelJak znaleźć strategię?
Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).
Natomiast zadaniem uczenia się ze wzmocnieniem jest
znalezienie strategii.
Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu
Eτ ∼π[R(τ )].
Co prowadzi nas do formalnej postaci problemu
π∗ = arg max
π Eτ ∼π[R(τ )],
Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Strategia – CelJak znaleźć strategię?
Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).
Natomiast zadaniem uczenia się ze wzmocnieniem jest
znalezienie strategii.
Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu
Eτ ∼π[R(τ )].
Co prowadzi nas do formalnej postaci problemu
π∗ = arg max
π Eτ ∼π[R(τ )],
gdzie π∗ nazywamy optymalną strategią.
Wprowadzenie Uczenie agenta Podsumowanie
Materiały dodatkowe
Wprowadzenie Uczenie agenta Podsumowanie
Materiały dodatkowe
Podsumowanie
If intelligence is a cake, the bulk of the cake is unsupervised learning, the icing on the cake is supervised learning, and the cherry on the cake is reinforcement learning (RL).
Yann LeCun, Facebook AI Chief, NIPS 2016
Wprowadzenie Uczenie agenta Podsumowanie Materiały dodatkowe
Podsumowanie
Do zapamiętania:Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.
Bazuje on na uczeniu się z doświadczenia, co jest
umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.
Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.
Celem RL jest wypracowanie strategii bez posiadania przykładów.
Wprowadzenie Uczenie agenta Podsumowanie Materiały dodatkowe
Podsumowanie
Do zapamiętania:Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.
Bazuje on na uczeniu się z doświadczenia, co jest
umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.
Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.
Celem RL jest wypracowanie strategii bez posiadania przykładów.
Do oceny strategii służy zdyskontowany zwrot.
Wprowadzenie Uczenie agenta Podsumowanie Materiały dodatkowe
Podsumowanie
Do zapamiętania:Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.
Bazuje on na uczeniu się z doświadczenia, co jest
umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.
Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.
Celem RL jest wypracowanie strategii bez posiadania przykładów.
Wprowadzenie Uczenie agenta Podsumowanie Materiały dodatkowe
Podsumowanie
Do zapamiętania:Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.
Bazuje on na uczeniu się z doświadczenia, co jest
umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.
Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.
Celem RL jest wypracowanie strategii bez posiadania przykładów.
Do oceny strategii służy zdyskontowany zwrot.
Wprowadzenie Uczenie agenta Podsumowanie Materiały dodatkowe
Podsumowanie
Do zapamiętania:Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.
Bazuje on na uczeniu się z doświadczenia, co jest
umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.
Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.
Celem RL jest wypracowanie strategii bez posiadania przykładów.
Wprowadzenie Uczenie agenta Podsumowanie
Materiały dodatkowe
Podsumowanie
AlphaGo - The Movie — Full Documentary, https://youtu.be/WXuK6gekU1Y
An introduction to Reinforcement Learning na Arxiv Insights, https://youtu.be/JgvyzIkgxF0
MIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL), https://youtu.be/zR11FLZ-O9M
Wprowadzenie Uczenie agenta Podsumowanie
Materiały dodatkowe
Podsumowanie
Następny wykład: Uczenie ze wzmocnieniem (II).