• Nie Znaleziono Wyników

Wykład 13 – Uczenie ze wzmocnieniem (I)

N/A
N/A
Protected

Academic year: 2021

Share "Wykład 13 – Uczenie ze wzmocnieniem (I)"

Copied!
110
0
0

Pełen tekst

(1)

Wprowadzenie Uczenie agenta Podsumowanie

Podstawy uczenia maszynowego

Wykład 13 – Uczenie ze wzmocnieniem (I)

Jarosław Miszczak Mateusz Ostaszewski

Wojciech Masarczyk

09/06/2021

(2)

Wprowadzenie Uczenie agenta Podsumowanie 1 Wprowadzenie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake 2 Uczenie agenta Zwrot z rozgrywki Strategia – Cel 3 Podsumowanie Materiały dodatkowe

(3)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

3 / 33

(4)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów

Uczenie się ze wzmocnieniem (ang. reinforcement learning – RL) to

paradygmat uczenia maszynowego w którym uczenie odbywa się na zasadzie oceny przez środowisko działań podjętych przez agenta.

Interakcja ma na celu nauczyć agenta rozwiązywać problemy poprzez wyciągnie wniosków na podstawie odpowiedzi dawanej przez środowisko.

Uczenie się ze wzmocnieniem to próba sformalizowania idei, uczenia się na zasadzie prób i błędów.

System kar (lub nagród) przyznawanych agentowi za jego działanie powinien być zbudowany tak, że agent zaniecha działania lub będzie je powtarzał w przyszłości.

(5)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów

Uczenie się ze wzmocnieniem (ang. reinforcement learning – RL) to

paradygmat uczenia maszynowego w którym uczenie odbywa się na zasadzie oceny przez środowisko działań podjętych przez agenta.

Interakcja ma na celu nauczyć agenta rozwiązywać problemy poprzez wyciągnie wniosków na podstawie odpowiedzi dawanej przez środowisko.

Uczenie się ze wzmocnieniem to próba sformalizowania idei, uczenia się na zasadzie prób i błędów.

System kar (lub nagród) przyznawanych agentowi za jego działanie powinien być zbudowany tak, że agent zaniecha działania lub będzie je powtarzał w przyszłości.

(6)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów

Uczenie się ze wzmocnieniem (ang. reinforcement learning – RL) to

paradygmat uczenia maszynowego w którym uczenie odbywa się na zasadzie oceny przez środowisko działań podjętych przez agenta.

Interakcja ma na celu nauczyć agenta rozwiązywać problemy poprzez wyciągnie wniosków na podstawie odpowiedzi dawanej przez środowisko.

Uczenie się ze wzmocnieniem to próba sformalizowania idei, uczenia się na zasadzie prób i błędów.

System kar (lub nagród) przyznawanych agentowi za jego działanie powinien być zbudowany tak, że agent zaniecha działania lub będzie je powtarzał w przyszłości.

(7)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów

Uczenie się ze wzmocnieniem (ang. reinforcement learning – RL) to

paradygmat uczenia maszynowego w którym uczenie odbywa się na zasadzie oceny przez środowisko działań podjętych przez agenta.

Interakcja ma na celu nauczyć agenta rozwiązywać problemy poprzez wyciągnie wniosków na podstawie odpowiedzi dawanej przez środowisko.

Uczenie się ze wzmocnieniem to próba sformalizowania idei, uczenia się na zasadzie prób i błędów.

System kar (lub nagród) przyznawanych agentowi za jego działanie powinien być zbudowany tak, że agent zaniecha działania lub będzie je powtarzał w przyszłości.

(8)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów

Ogólny schemat mechanizmu działania agenta jest prosty.

Agent w chwili t znajduje się w stanie st, który reprezentuje jego

wiedzę na temat środowiska. Agent wykonuje akcję at. Po

wykonanej akcji, stan zmienia się na st+1. Agent otrzymuje również

numeryczną nagrodę rt. agent środowisko stan, nagro da s t, r t ak cja at

(9)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów

Ogólny schemat mechanizmu działania agenta jest prosty. Agent w chwili t znajduje się w stanie st, który reprezentuje jego

wiedzę na temat środowiska.

Agent wykonuje akcję at. Po

wykonanej akcji, stan zmienia się na st+1. Agent otrzymuje również

numeryczną nagrodę rt. agent środowisko stan, nagro da s t, r t ak cja at 5 / 33

(10)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów

Ogólny schemat mechanizmu działania agenta jest prosty. Agent w chwili t znajduje się w stanie st, który reprezentuje jego

wiedzę na temat środowiska. Agent wykonuje akcję at.

Po wykonanej akcji, stan zmienia się na st+1. Agent otrzymuje również

numeryczną nagrodę rt. agent środowisko stan, nagro da s t, r t ak cja at

(11)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów

Ogólny schemat mechanizmu działania agenta jest prosty. Agent w chwili t znajduje się w stanie st, który reprezentuje jego

wiedzę na temat środowiska. Agent wykonuje akcję at. Po

wykonanej akcji, stan zmienia się na st+1.

Agent otrzymuje również numeryczną nagrodę rt. agent środowisko stan, nagro da s t, r t ak cja at 5 / 33

(12)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów

Ogólny schemat mechanizmu działania agenta jest prosty. Agent w chwili t znajduje się w stanie st, który reprezentuje jego

wiedzę na temat środowiska. Agent wykonuje akcję at. Po

wykonanej akcji, stan zmienia się na st+1. Agent otrzymuje również

numeryczną nagrodę rt. agent środowisko stan, nagro da s t, r t ak cja at

(13)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów Przykład

Prostym przykładem, jest robot mający dotrzeć do pewnego punktu docelowego.

Agentem jest robot, który jako stan otrzymuje odczyt z sensorów.

Akcja polega na uruchomieniu odpowiednich silniczków dzięki

którym robot wykonuje ruch w danym kierunku. W każdym kroku agent otrzymuje nagrodę

0 jeżeli nie dotarł do celu,

1 w przypadku gdy dotrze do punktu docelowego.

(14)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów Przykład

Prostym przykładem, jest robot mający dotrzeć do pewnego punktu docelowego.

Agentem jest robot, który jako stan otrzymuje odczyt z sensorów.

Akcja polega na uruchomieniu odpowiednich silniczków dzięki

którym robot wykonuje ruch w danym kierunku. W każdym kroku agent otrzymuje nagrodę

0 jeżeli nie dotarł do celu,

(15)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów Przykład

Prostym przykładem, jest robot mający dotrzeć do pewnego punktu docelowego.

Agentem jest robot, który jako stan otrzymuje odczyt z sensorów.

Akcja polega na uruchomieniu odpowiednich silniczków dzięki

którym robot wykonuje ruch w danym kierunku.

W każdym kroku agent otrzymuje nagrodę

0 jeżeli nie dotarł do celu,

1 w przypadku gdy dotrze do punktu docelowego.

(16)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów Przykład

Prostym przykładem, jest robot mający dotrzeć do pewnego punktu docelowego.

Agentem jest robot, który jako stan otrzymuje odczyt z sensorów.

Akcja polega na uruchomieniu odpowiednich silniczków dzięki

którym robot wykonuje ruch w danym kierunku. W każdym kroku agent otrzymuje nagrodę

0 jeżeli nie dotarł do celu,

(17)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów Przykład

Prostym przykładem, jest robot mający dotrzeć do pewnego punktu docelowego.

Agentem jest robot, który jako stan otrzymuje odczyt z sensorów.

Akcja polega na uruchomieniu odpowiednich silniczków dzięki

którym robot wykonuje ruch w danym kierunku. W każdym kroku agent otrzymuje nagrodę

0 jeżeli nie dotarł do celu,

1 w przypadku gdy dotrze do punktu docelowego.

(18)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów Przykład

Prostym przykładem, jest robot mający dotrzeć do pewnego punktu docelowego.

Agentem jest robot, który jako stan otrzymuje odczyt z sensorów.

Akcja polega na uruchomieniu odpowiednich silniczków dzięki

którym robot wykonuje ruch w danym kierunku. W każdym kroku agent otrzymuje nagrodę

0 jeżeli nie dotarł do celu,

(19)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów

Przykładowymi problemami, w których można użyć uczenia się ze wzmocnieniem są

Utrzymanie odwróconego wahadła (Cart-Pole).

Sterowanie robotem: uczenie humanoida chodzenia, uczenie robota gry w piłkę nożną.

Tworzenie programów dla rozgrywania gier: Go (AlphaGo), StarCraft, gry Atari.

Rozwiązywanie problemów optymalizacyjnych.

(20)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów

Przykładowymi problemami, w których można użyć uczenia się ze wzmocnieniem są

Utrzymanie odwróconego wahadła (Cart-Pole).

Sterowanie robotem: uczenie humanoida chodzenia, uczenie robota gry w piłkę nożną.

Tworzenie programów dla rozgrywania gier: Go (AlphaGo), StarCraft, gry Atari.

(21)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów

Przykładowymi problemami, w których można użyć uczenia się ze wzmocnieniem są

Utrzymanie odwróconego wahadła (Cart-Pole).

Sterowanie robotem: uczenie humanoida chodzenia, uczenie robota gry w piłkę nożną.

Tworzenie programów dla rozgrywania gier: Go (AlphaGo), StarCraft, gry Atari.

Rozwiązywanie problemów optymalizacyjnych.

(22)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów

Przykładowymi problemami, w których można użyć uczenia się ze wzmocnieniem są

Utrzymanie odwróconego wahadła (Cart-Pole).

Sterowanie robotem: uczenie humanoida chodzenia, uczenie robota gry w piłkę nożną.

Tworzenie programów dla rozgrywania gier: Go (AlphaGo), StarCraft, gry Atari.

(23)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów

Przykładowymi problemami, w których można użyć uczenia się ze wzmocnieniem są

Utrzymanie odwróconego wahadła (Cart-Pole).

Sterowanie robotem: uczenie humanoida chodzenia, uczenie robota gry w piłkę nożną.

Tworzenie programów dla rozgrywania gier: Go (AlphaGo), StarCraft, gry Atari.

Rozwiązywanie problemów optymalizacyjnych.

(24)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów

RL może działać w różnych scenariuszach.

Agent wykonuje serię akcji, tylko po to by osiągnąć konkretny stan końcowy, jak np. przejście labiryntu.

Agent ma za zadanie wykonywać akcje po to by jak najdłużej zostać w grze Cart-Pole).

Zadaniem agenta jest zebranie punktów (Pac-Man). Maksymalizacja zysku

Wszystkie te scenariusze można opisać wspólnym celem – maksymalizacją łącznego zysku wynikającego z otrzymywanych nagród.

(25)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów

RL może działać w różnych scenariuszach.

Agent wykonuje serię akcji, tylko po to by osiągnąć konkretny stan końcowy, jak np. przejście labiryntu.

Agent ma za zadanie wykonywać akcje po to by jak najdłużej zostać w grze Cart-Pole).

Zadaniem agenta jest zebranie punktów (Pac-Man). Maksymalizacja zysku

Wszystkie te scenariusze można opisać wspólnym celem – maksymalizacją łącznego zysku wynikającego z otrzymywanych nagród.

(26)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów

RL może działać w różnych scenariuszach.

Agent wykonuje serię akcji, tylko po to by osiągnąć konkretny stan końcowy, jak np. przejście labiryntu.

Agent ma za zadanie wykonywać akcje po to by jak najdłużej zostać w grze Cart-Pole).

Zadaniem agenta jest zebranie punktów (Pac-Man). Maksymalizacja zysku

Wszystkie te scenariusze można opisać wspólnym celem – maksymalizacją łącznego zysku wynikającego z otrzymywanych nagród.

(27)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów

RL może działać w różnych scenariuszach.

Agent wykonuje serię akcji, tylko po to by osiągnąć konkretny stan końcowy, jak np. przejście labiryntu.

Agent ma za zadanie wykonywać akcje po to by jak najdłużej zostać w grze Cart-Pole).

Zadaniem agenta jest zebranie punktów (Pac-Man).

Maksymalizacja zysku

Wszystkie te scenariusze można opisać wspólnym celem – maksymalizacją łącznego zysku wynikającego z otrzymywanych nagród.

(28)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Uczenia metodą prób i błędów

RL może działać w różnych scenariuszach.

Agent wykonuje serię akcji, tylko po to by osiągnąć konkretny stan końcowy, jak np. przejście labiryntu.

Agent ma za zadanie wykonywać akcje po to by jak najdłużej zostać w grze Cart-Pole).

Zadaniem agenta jest zebranie punktów (Pac-Man). Maksymalizacja zysku

Wszystkie te scenariusze można opisać wspólnym celem – maksymalizacją łącznego zysku wynikającego z otrzymywanych nagród.

(29)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Zarys modelu

Podstawowymi pojęciami które pojawiają się we wszystkich scenariuszach uczenia ze wzmocnieniem są

stan, akcja, i nagroda.

(30)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Zarys modelu

Podstawowymi pojęciami które pojawiają się we wszystkich scenariuszach uczenia ze wzmocnieniem są

stan,

akcja, i nagroda.

(31)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Zarys modelu

Podstawowymi pojęciami które pojawiają się we wszystkich scenariuszach uczenia ze wzmocnieniem są

stan, akcja,

i nagroda.

(32)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Zarys modelu

Podstawowymi pojęciami które pojawiają się we wszystkich scenariuszach uczenia ze wzmocnieniem są

stan, akcja, i nagroda.

(33)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Zarys modelu Stan

Stan s ∈ S jest kompletnym opisem świata.

Dla odróżnienia wyróżniamy również obserwacje będące częściowym opisem

stanu. Stany i obserwacje są po prostu wektorami lub macierzami,

np. macierz pikseli będąca zrzutem ekranu z gry.

(34)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Zarys modelu Stan

Stan s ∈ S jest kompletnym opisem świata. Dla odróżnienia wyróżniamy również obserwacje będące częściowym opisem

stanu.

Stany i obserwacje są po prostu wektorami lub macierzami, np. macierz pikseli będąca zrzutem ekranu z gry.

(35)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Zarys modelu Stan

Stan s ∈ S jest kompletnym opisem świata. Dla odróżnienia wyróżniamy również obserwacje będące częściowym opisem

stanu. Stany i obserwacje są po prostu wektorami lub macierzami,

np. macierz pikseli będąca zrzutem ekranu z gry.

(36)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Zarys modelu Akcja

Akcja a ∈ A jest atrybutem przekazywanym do środowiska i powodującym zmianę stanu.

Postać akcji jest związana ze środowiskiem. Akcje dzielimy ma dyskretne i ciągłe, co ma wpływ

(37)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Zarys modelu Akcja

Akcja a ∈ A jest atrybutem przekazywanym do środowiska i powodującym zmianę stanu. Postać akcji jest związana ze

środowiskiem.

Akcje dzielimy ma dyskretne i ciągłe, co ma wpływ na zakres stosowalności algorytmów uczenia ze wzmocnieniem.

(38)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Zarys modelu Akcja

Akcja a ∈ A jest atrybutem przekazywanym do środowiska i powodującym zmianę stanu. Postać akcji jest związana ze

środowiskiem. Akcje dzielimy ma dyskretne i ciągłe, co ma wpływ

(39)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Zarys modelu Nagroda

Nagroda r ∈ R jest związana ze wzmocnieniem, które wyrażą odpowiedź środowiska na wykonaną akcję.

Nagroda jest informacją zwrotną i jest motorem napędowym całego procesu uczenia. Nagrody nie muszą być tylko dodatnie – karanie

może usprawnić proces uczenia.

(40)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Zarys modelu Nagroda

Nagroda r ∈ R jest związana ze wzmocnieniem, które wyrażą odpowiedź środowiska na wykonaną akcję. Nagroda jest

informacją zwrotną i jest motorem napędowym całego procesu uczenia.

Nagrody nie muszą być tylko dodatnie – karanie może usprawnić proces uczenia.

(41)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Zarys modelu Nagroda

Nagroda r ∈ R jest związana ze wzmocnieniem, które wyrażą odpowiedź środowiska na wykonaną akcję. Nagroda jest

informacją zwrotną i jest motorem napędowym całego procesu uczenia. Nagrody nie muszą być tylko dodatnie – karanie

może usprawnić proces uczenia.

(42)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Zarys modelu Obserwacja vs. stan

Różnicę między stanem a obserwacją dobrze obrazują gry RTS jak np. StarCraft.

Środowisko jest opisane przez mapę, której gracz nie widzi w całości. W takim przypadku jednym z zadań agenta jest wysyłać zwiadowców, by dowiedzieć się co robi przeciwnik. Innym przykładem są niektóre gry Atari, gdzie pojedyncze zdjęcie z gry gubi informację na temat ruchu. Możemy wówczas użyć kilku kolejnych zdjęć, aby dostać lepsze przybliżenie faktycznego stanu środowiska.

(43)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Zarys modelu Obserwacja vs. stan

Różnicę między stanem a obserwacją dobrze obrazują gry RTS jak np. StarCraft. Środowisko jest opisane przez mapę, której gracz nie widzi w całości.

W takim przypadku jednym z zadań agenta jest wysyłać zwiadowców, by dowiedzieć się co robi przeciwnik. Innym przykładem są niektóre gry Atari, gdzie pojedyncze zdjęcie z gry gubi informację na temat ruchu. Możemy wówczas użyć kilku kolejnych zdjęć, aby dostać lepsze przybliżenie faktycznego stanu środowiska.

(44)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Zarys modelu Obserwacja vs. stan

Różnicę między stanem a obserwacją dobrze obrazują gry RTS jak np. StarCraft. Środowisko jest opisane przez mapę, której gracz nie widzi w całości. W takim przypadku jednym z zadań agenta jest wysyłać zwiadowców, by dowiedzieć się co robi przeciwnik.

Innym przykładem są niektóre gry Atari, gdzie pojedyncze zdjęcie z gry gubi informację na temat ruchu. Możemy wówczas użyć kilku kolejnych zdjęć, aby dostać lepsze przybliżenie faktycznego stanu środowiska.

(45)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Zarys modelu Obserwacja vs. stan

Różnicę między stanem a obserwacją dobrze obrazują gry RTS jak np. StarCraft. Środowisko jest opisane przez mapę, której gracz nie widzi w całości. W takim przypadku jednym z zadań agenta jest wysyłać zwiadowców, by dowiedzieć się co robi przeciwnik. Innym przykładem są niektóre gry Atari, gdzie pojedyncze zdjęcie z gry gubi informację na temat ruchu.

Możemy wówczas użyć kilku kolejnych zdjęć, aby dostać lepsze przybliżenie faktycznego stanu środowiska.

(46)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Zarys modelu Obserwacja vs. stan

Różnicę między stanem a obserwacją dobrze obrazują gry RTS jak np. StarCraft. Środowisko jest opisane przez mapę, której gracz nie widzi w całości. W takim przypadku jednym z zadań agenta jest wysyłać zwiadowców, by dowiedzieć się co robi przeciwnik. Innym przykładem są niektóre gry Atari, gdzie pojedyncze zdjęcie z gry gubi informację na temat ruchu. Możemy wówczas użyć kilku kolejnych zdjęć, aby dostać lepsze przybliżenie faktycznego stanu środowiska.

(47)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Z formalnego punktu widzenia, każdy z powyższych atrybutów może być zmienna losową.

Zmiana stanu s pod wpływem akcji a nie musi być deterministyczna, tj. rozpatrywany model może zakładać pewien rozkład prawdopodobieństwa przejścia P(s0, r |s, a),

opisujący przejścia do stanu s0 otrzymania nagrody r .

Z tego rozkładu można uzyskać prawdopodobieństwo przejścia do stanu P(s0|s, a) =P

r ∈RP(s0, r |s, a) oraz oczekiwaną

nagrodę R(s, a) =P

r ∈R,s0∈SrP(s0, r |s, a).

(48)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Z formalnego punktu widzenia, każdy z powyższych atrybutów może być zmienna losową.

Zmiana stanu s pod wpływem akcji a nie musi być deterministyczna, tj. rozpatrywany model może zakładać pewien rozkład prawdopodobieństwa przejścia P(s0, r |s, a),

opisujący przejścia do stanu s0 otrzymania nagrody r .

Z tego rozkładu można uzyskać prawdopodobieństwo przejścia do stanu P(s0|s, a) =P

r ∈RP(s0, r |s, a) oraz oczekiwaną

nagrodę R(s, a) =P

(49)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Z formalnego punktu widzenia, każdy z powyższych atrybutów może być zmienna losową.

Zmiana stanu s pod wpływem akcji a nie musi być deterministyczna, tj. rozpatrywany model może zakładać pewien rozkład prawdopodobieństwa przejścia P(s0, r |s, a),

opisujący przejścia do stanu s0 otrzymania nagrody r .

Z tego rozkładu można uzyskać prawdopodobieństwo przejścia do stanu P(s0|s, a) =P

r ∈RP(s0, r |s, a) oraz oczekiwaną

nagrodę R(s, a) =P

r ∈R,s0∈SrP(s0, r |s, a).

(50)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Z formalnego punktu widzenia, każdy z powyższych atrybutów może być zmienna losową.

Zmiana stanu s pod wpływem akcji a nie musi być deterministyczna, tj. rozpatrywany model może zakładać pewien rozkład prawdopodobieństwa przejścia P(s0, r |s, a),

opisujący przejścia do stanu s0 otrzymania nagrody r .

Z tego rozkładu można uzyskać prawdopodobieństwo przejścia do stanu P(s0|s, a) =P

r ∈RP(s0, r |s, a) oraz oczekiwaną

nagrodę R(s, a) =P

(51)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Różnorodność w sposobie nagradzania, wiąże się ze stopniem skomplikowania, danego środowiska.

Niektóre problemy, mają bezpośrednio zdefiniowaną nagrodę, jak np. optymalizacja kombinatoryczna.

W innych przypadkach, warto poświęcić trochę uwagi projektowaniu systemu nagród (o ile mamy taką możliwość). W przypadku zadania z labiryntem, możne byc korzystne dawanie ujemnej nagrody w każdym kroku, aby agent znalazł wyjście możliwie jak najszybciej.

(52)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Różnorodność w sposobie nagradzania, wiąże się ze stopniem skomplikowania, danego środowiska.

Niektóre problemy, mają bezpośrednio zdefiniowaną nagrodę, jak np. optymalizacja kombinatoryczna.

W innych przypadkach, warto poświęcić trochę uwagi projektowaniu systemu nagród (o ile mamy taką możliwość). W przypadku zadania z labiryntem, możne byc korzystne dawanie ujemnej nagrody w każdym kroku, aby agent znalazł wyjście możliwie jak najszybciej.

(53)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Różnorodność w sposobie nagradzania, wiąże się ze stopniem skomplikowania, danego środowiska.

Niektóre problemy, mają bezpośrednio zdefiniowaną nagrodę, jak np. optymalizacja kombinatoryczna.

W innych przypadkach, warto poświęcić trochę uwagi projektowaniu systemu nagród (o ile mamy taką możliwość).

W przypadku zadania z labiryntem, możne byc korzystne dawanie ujemnej nagrody w każdym kroku, aby agent znalazł wyjście możliwie jak najszybciej.

(54)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Różnorodność w sposobie nagradzania, wiąże się ze stopniem skomplikowania, danego środowiska.

Niektóre problemy, mają bezpośrednio zdefiniowaną nagrodę, jak np. optymalizacja kombinatoryczna.

W innych przypadkach, warto poświęcić trochę uwagi projektowaniu systemu nagród (o ile mamy taką możliwość). W przypadku zadania z labiryntem, możne byc korzystne dawanie ujemnej nagrody w każdym kroku, aby agent znalazł wyjście możliwie jak najszybciej.

(55)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Przykład – Frozen-Lake

Jednym z prostszych przykładów jest gra Frozen-Lake.

Gra opisana jest na planszy 4 × 4 na której są pola oznaczające dziury w lodzie lub twardy lód.

Przykładowa plansza wygląda następująco:

S F F F

F H F H

F F F H

H F F G

S – punkt startowy (bezpiecznie),

F – zamrożona powierzchnia (bezpiecznie), H – dziura (przegrana, koniec gry),

G – cel (wygrana, koniec gry).

(56)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Przykład – Frozen-Lake

Jednym z prostszych przykładów jest gra Frozen-Lake.

Gra opisana jest na planszy 4 × 4 na której są pola oznaczające dziury w lodzie lub twardy lód.

Przykładowa plansza wygląda następująco:

S F F F

F H F H

F F F H

H F F G

S – punkt startowy (bezpiecznie),

F – zamrożona powierzchnia (bezpiecznie), H – dziura (przegrana, koniec gry),

(57)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Przykład – Frozen-Lake

Jednym z prostszych przykładów jest gra Frozen-Lake.

Gra opisana jest na planszy 4 × 4 na której są pola oznaczające dziury w lodzie lub twardy lód. Przykładowa plansza wygląda następująco:

S F F F

F H F H

F F F H

H F F G

S – punkt startowy (bezpiecznie),

F – zamrożona powierzchnia (bezpiecznie), H – dziura (przegrana, koniec gry),

G – cel (wygrana, koniec gry).

(58)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Przykład – Frozen-Lake

Jednym z prostszych przykładów jest gra Frozen-Lake.

Gra opisana jest na planszy 4 × 4 na której są pola oznaczające dziury w lodzie lub twardy lód. Przykładowa plansza wygląda następująco:

S F F F

F H F H

F F F H

H F F G

S – punkt startowy (bezpiecznie),

F – zamrożona powierzchnia (bezpiecznie), H – dziura (przegrana, koniec gry),

(59)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Przykład – Frozen-Lake S F F F F H F H F F F H H F F G

Frozen-Lake – zasady gry

Agent startuje z lewej górnej pozycji S.

Jego zadaniem jest dojść do pozycji G.

Zbiór akcji to

A = {←, →, ↑, ↓}.

W każdym stanie dostaje nagrodę 0, prócz pozycji G, gdzie dostaje nagrodę 1. Gra dobiega końca w dwóch przypadkach, gdy gracz osiąga pozycję H lubG.

(60)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Przykład – Frozen-Lake S F F F F H F H F F F H H F F G

Frozen-Lake – zasady gry

Agent startuje z lewej górnej pozycji S.

Jego zadaniem jest dojść do pozycji G.

Zbiór akcji to

A = {←, →, ↑, ↓}.

W każdym stanie dostaje nagrodę 0, prócz pozycji G, gdzie dostaje nagrodę 1. Gra dobiega końca w dwóch przypadkach, gdy gracz osiąga pozycję H lubG.

(61)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Przykład – Frozen-Lake S F F F F H F H F F F H H F F G

Frozen-Lake – zasady gry

Agent startuje z lewej górnej pozycji S.

Jego zadaniem jest dojść do pozycji G.

Zbiór akcji to

A = {←, →, ↑, ↓}.

W każdym stanie dostaje nagrodę 0, prócz pozycji G, gdzie dostaje nagrodę 1. Gra dobiega końca w dwóch przypadkach, gdy gracz osiąga pozycję H lubG.

(62)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Przykład – Frozen-Lake S F F F F H F H F F F H H F F G

Frozen-Lake – zasady gry

Agent startuje z lewej górnej pozycji S.

Jego zadaniem jest dojść do pozycji G.

Zbiór akcji to

A = {←, →, ↑, ↓}.

W każdym stanie dostaje nagrodę 0, prócz pozycji G, gdzie dostaje nagrodę 1. Gra dobiega końca w dwóch przypadkach, gdy gracz osiąga pozycję H lubG.

(63)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Przykład – Frozen-Lake S F F F F H F H F F F H H F F G

Frozen-Lake – zasady gry

Agent startuje z lewej górnej pozycji S.

Jego zadaniem jest dojść do pozycji G.

Zbiór akcji to

A = {←, →, ↑, ↓}.

W każdym stanie dostaje nagrodę 0, prócz pozycji G, gdzie dostaje nagrodę 1.

Gra dobiega końca w dwóch przypadkach, gdy gracz osiąga pozycję H lubG.

(64)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Przykład – Frozen-Lake S F F F F H F H F F F H H F F G

Frozen-Lake – zasady gry

Agent startuje z lewej górnej pozycji S.

Jego zadaniem jest dojść do pozycji G.

Zbiór akcji to

A = {←, →, ↑, ↓}.

W każdym stanie dostaje nagrodę 0, prócz pozycji G, gdzie dostaje nagrodę 1. Gra dobiega końca w dwóch przypadkach, gdy gracz

(65)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Przykład – Frozen-Lake

Stany oznaczamy jako parę współrzędnych, gdzie pozycjaS

znajduje się w stanie (0, 0), aGznajduje się w stanie (3, 3). Przykładowa wygrywająca trajektoria to τ0= [(0, 0), ↓, (0, 1), ↓

, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), →, (3, 3)].

System nagradzania w tej grze nie daje dużo informacji. Z punktu widzenia nagrody, nie odróżniamy dziury od bezpiecznej tafli lodu. Stochastyczny Frozen-Lake

Istnieje wersja środowiska Frozen-Lake gdzie lód po którym

stąpamy jest śliski. Wówczas, z pewnym prawdopodobieństwem nie zmienimy stanu zgodnie z wykonaną akcją, lecz przechodzimy do innego sąsiadującego stanu.

(66)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Przykład – Frozen-Lake

Stany oznaczamy jako parę współrzędnych, gdzie pozycjaS

znajduje się w stanie (0, 0), aGznajduje się w stanie (3, 3). Przykładowa wygrywająca trajektoria to τ0= [(0, 0), ↓, (0, 1), ↓

, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), →, (3, 3)].

System nagradzania w tej grze nie daje dużo informacji. Z punktu widzenia nagrody, nie odróżniamy dziury od bezpiecznej tafli lodu.

Stochastyczny Frozen-Lake

Istnieje wersja środowiska Frozen-Lake gdzie lód po którym

stąpamy jest śliski. Wówczas, z pewnym prawdopodobieństwem nie zmienimy stanu zgodnie z wykonaną akcją, lecz przechodzimy do innego sąsiadującego stanu.

(67)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

Przykład – Frozen-Lake

Stany oznaczamy jako parę współrzędnych, gdzie pozycjaS

znajduje się w stanie (0, 0), aGznajduje się w stanie (3, 3). Przykładowa wygrywająca trajektoria to τ0= [(0, 0), ↓, (0, 1), ↓

, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), →, (3, 3)].

System nagradzania w tej grze nie daje dużo informacji. Z punktu widzenia nagrody, nie odróżniamy dziury od bezpiecznej tafli lodu. Stochastyczny Frozen-Lake

Istnieje wersja środowiska Frozen-Lake gdzie lód po którym

stąpamy jest śliski. Wówczas, z pewnym prawdopodobieństwem nie zmienimy stanu zgodnie z wykonaną akcją, lecz przechodzimy do innego sąsiadującego stanu.

(68)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

(69)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

W jaki sposób określić cel agenta?

Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.

Agent zbiera informacje wykonując akcie i otrzymując nagrody.

Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.

W założeniu RL ma prowadzić do automatycznego

wypracowania strategii bez

konieczności posiadania wiedzy o strategii prowadzącej do celu.

agent środowisko stan, nagro da s t, r t ak cja at 20 / 33

(70)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

W jaki sposób określić cel agenta? Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.

Agent zbiera informacje wykonując akcie i otrzymując nagrody.

Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.

W założeniu RL ma prowadzić do automatycznego

wypracowania strategii bez

konieczności posiadania wiedzy o strategii prowadzącej do celu.

agent środowisko stan, nagro da s t, r t ak cja at

(71)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

W jaki sposób określić cel agenta? Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.

Agent zbiera informacje wykonując akcie i otrzymując nagrody.

Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.

W założeniu RL ma prowadzić do automatycznego

wypracowania strategii bez

konieczności posiadania wiedzy o strategii prowadzącej do celu.

agent środowisko stan, nagro da s t, r t ak cja at 20 / 33

(72)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

W jaki sposób określić cel agenta? Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.

Agent zbiera informacje wykonując akcie i otrzymując nagrody.

Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.

W założeniu RL ma prowadzić do automatycznego

wypracowania strategii bez

konieczności posiadania wiedzy o strategii prowadzącej do celu.

agent środowisko stan, nagro da s t, r t ak cja at

(73)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

W jaki sposób określić cel agenta? Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.

Agent zbiera informacje wykonując akcie i otrzymując nagrody.

Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.

W założeniu RL ma prowadzić do automatycznego

wypracowania strategii bez

konieczności posiadania wiedzy o strategii prowadzącej do celu.

agent środowisko stan, nagro da s t, r t ak cja at 20 / 33

(74)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

W jaki sposób określić cel agenta?

Celem agenta jest maksymalizacja pewnego kryterium jakości zdefiniowanego przez nagrody otrzymywane w wyniku

wykonywanych akcji.

W zachłannym podejściu takim kryterium byłoby po prostu zbieranie możliwie maksymalnej nagrody w każdym kroku. Nie zawsze musi to być opłacalne – czasem warto wykonać akcję, która nie daje zysku. Np. w szachach czasem lepiej poświęcić jakieś bierki, aby (w dłuższej perspektywie) zbić króla przeciwnika.

(75)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

W jaki sposób określić cel agenta?

Celem agenta jest maksymalizacja pewnego kryterium jakości zdefiniowanego przez nagrody otrzymywane w wyniku

wykonywanych akcji.

W zachłannym podejściu takim kryterium byłoby po prostu zbieranie możliwie maksymalnej nagrody w każdym kroku. Nie zawsze musi to być opłacalne – czasem warto wykonać akcję, która nie daje zysku. Np. w szachach czasem lepiej poświęcić jakieś bierki, aby (w dłuższej perspektywie) zbić króla przeciwnika.

(76)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

W jaki sposób określić cel agenta?

Celem agenta jest maksymalizacja pewnego kryterium jakości zdefiniowanego przez nagrody otrzymywane w wyniku

wykonywanych akcji.

W zachłannym podejściu takim kryterium byłoby po prostu zbieranie możliwie maksymalnej nagrody w każdym kroku.

Nie zawsze musi to być opłacalne – czasem warto wykonać akcję, która nie daje zysku. Np. w szachach czasem lepiej poświęcić jakieś bierki, aby (w dłuższej perspektywie) zbić króla przeciwnika.

(77)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

W jaki sposób określić cel agenta?

Celem agenta jest maksymalizacja pewnego kryterium jakości zdefiniowanego przez nagrody otrzymywane w wyniku

wykonywanych akcji.

W zachłannym podejściu takim kryterium byłoby po prostu zbieranie możliwie maksymalnej nagrody w każdym kroku. Nie zawsze musi to być opłacalne – czasem warto wykonać akcję, która nie daje zysku. Np. w szachach czasem lepiej poświęcić jakieś bierki, aby (w dłuższej perspektywie) zbić króla przeciwnika.

(78)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

Do określenia celu agenta powszechnie używanym kryterium jest

zdyskontowany zwrot lub zdyskontowana kumulatywna nagroda

danej trajektorii R(τ ) = X t=0 γtrt,

gdzie γ ∈ [0, 1] nazywamy współczynnikiem zdyskontowania (gdzie 00= 1).

Powyższa suma zakończona jest w nieskończoności. W praktyce każdy program musi się kiedyś skończyć.

(79)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

Do określenia celu agenta powszechnie używanym kryterium jest

zdyskontowany zwrot lub zdyskontowana kumulatywna nagroda

danej trajektorii R(τ ) = X t=0 γtrt,

gdzie γ ∈ [0, 1] nazywamy współczynnikiem zdyskontowania (gdzie 00= 1).

Powyższa suma zakończona jest w nieskończoności. W praktyce każdy program musi się kiedyś skończyć.

(80)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki Trajektorie Pojęcie trajektorii τ = (s0, a0, a1, s1, . . .),

opisuje konkretną sekwencję (stan, akcja), która kończy się w pewnym stanie terminalnym.

Konkretna trajektoria odpowiada realizacji pojedynczego epizodu, np. jednej rozgrywce partii szachów, jednemu przejściu przez planszę Frozen-Lake.

(81)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki Trajektorie Pojęcie trajektorii τ = (s0, a0, a1, s1, . . .),

opisuje konkretną sekwencję (stan, akcja), która kończy się w pewnym stanie terminalnym.

Konkretna trajektoria odpowiada realizacji pojedynczego epizodu, np. jednej rozgrywce partii szachów, jednemu przejściu przez planszę Frozen-Lake.

(82)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki Horyzont zwrotu R(τ ) = X t=0 γtrt,

Parametr γ określa długość horyzontu zwrotu.

Im γ bliżej zera, tym bardziej agent postępuje zachłannie. Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.

Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.

(83)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki Horyzont zwrotu R(τ ) = X t=0 γtrt,

Parametr γ określa długość horyzontu zwrotu.

Im γ bliżej zera, tym bardziej agent postępuje zachłannie. Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.

Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.

(84)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki Horyzont zwrotu R(τ ) = X t=0 γtrt,

Parametr γ określa długość horyzontu zwrotu.

Im γ bliżej zera, tym bardziej agent postępuje zachłannie.

Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.

Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.

(85)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki Horyzont zwrotu R(τ ) = X t=0 γtrt,

Parametr γ określa długość horyzontu zwrotu.

Im γ bliżej zera, tym bardziej agent postępuje zachłannie. Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.

Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.

(86)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki Horyzont zwrotu R(τ ) = X t=0 γtrt,

Parametr γ określa długość horyzontu zwrotu.

Im γ bliżej zera, tym bardziej agent postępuje zachłannie. Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.

Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.

(87)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki – Przykład dla Frozen-Lake

Jak to działa dla Frozen-Lake?

Zachłanne podejście (γ = 0) w przypadku gry Frozen-Lake, mogłoby nigdy nie nauczyć agenta bezpiecznej trasy. Zwiększając wartość współczynnika zdyskontowania, agent może odróżnić trajektorię, która kończy się w stanie G, od trajektorii kończącej się w stanie H.

(88)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki – Przykład dla Frozen-Lake

Jak to działa dla Frozen-Lake?

Zachłanne podejście (γ = 0) w przypadku gry Frozen-Lake, mogłoby nigdy nie nauczyć agenta bezpiecznej trasy.

Zwiększając wartość współczynnika zdyskontowania, agent może odróżnić trajektorię, która kończy się w stanie G, od trajektorii kończącej się w stanie H.

(89)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki – Przykład dla Frozen-Lake

Jak to działa dla Frozen-Lake?

Zachłanne podejście (γ = 0) w przypadku gry Frozen-Lake, mogłoby nigdy nie nauczyć agenta bezpiecznej trasy. Zwiększając wartość współczynnika zdyskontowania, agent może odróżnić trajektorię, która kończy się w stanie G, od trajektorii kończącej się w stanie H.

(90)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki – Przykład dla Frozen-Lake

Porównajmy jak działają dwie trajektorie z różnym γ

τ0 = [(0, 0), ↓, (0, 1), ↓, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), →

, (3, 3)]

(91)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki – Przykład dla Frozen-Lake

Porównajmy jak działają dwie trajektorie z różnym γ

τ0 = [(0, 0), ↓, (0, 1), ↓, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), → , (3, 3)] τ00= [(0, 0), ↓, (1, 0), →, (1, 1)]. Wówczas jeżeli γ = 0, to R(τ0) = 5 X t=0 0trt = 0, R(τ00) = 1 X t=0 0trt = 0. 26 / 33

(92)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki – Przykład dla Frozen-Lake

Porównajmy jak działają dwie trajektorie z różnym γ

τ0 = [(0, 0), ↓, (0, 1), ↓, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), → , (3, 3)] τ00= [(0, 0), ↓, (1, 0), →, (1, 1)]. Wówczas jeżeli γ = 0.9, to R(τ0) = 5 X t=0 0.9trt = 0.95 = 0.59, R(τ00) = 1 X t=0 0.9trt = 0.

(93)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Strategia – Cel Strategia

Zadaniem agenta jest nauczenie się strategii, czyli funkcji

π(s) = a, na podstawie której wybiera on akcje, maksymalizujące

zdyskontowany zwrot.

Strategia stochastyczna

Nic nie stoi na przeszkodzie, aby strategia również była stochastyczna a ∼ π(·|s).

Na przykład robot-odkurzacz może przemieszczać się w nieregularny sposób i w dalszym ciągu istnieje szansa, że wykona swoje zadanie.

Trajektoria może być traktowana jako konkretna realizacja strategii.

(94)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Strategia – Cel Strategia

Zadaniem agenta jest nauczenie się strategii, czyli funkcji

π(s) = a, na podstawie której wybiera on akcje, maksymalizujące

zdyskontowany zwrot. Strategia stochastyczna

Nic nie stoi na przeszkodzie, aby strategia również była stochastyczna a ∼ π(·|s).

Na przykład robot-odkurzacz może przemieszczać się w nieregularny sposób i w dalszym ciągu istnieje szansa, że wykona swoje zadanie.

Trajektoria może być traktowana jako konkretna realizacja strategii.

(95)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Strategia – Cel Strategia

Zadaniem agenta jest nauczenie się strategii, czyli funkcji

π(s) = a, na podstawie której wybiera on akcje, maksymalizujące

zdyskontowany zwrot. Strategia stochastyczna

Nic nie stoi na przeszkodzie, aby strategia również była stochastyczna a ∼ π(·|s). Na przykład robot-odkurzacz może przemieszczać się w nieregularny sposób i w dalszym ciągu istnieje szansa, że wykona swoje zadanie.

Trajektoria może być traktowana jako konkretna realizacja strategii.

(96)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Strategia – Cel Strategia

Zadaniem agenta jest nauczenie się strategii, czyli funkcji

π(s) = a, na podstawie której wybiera on akcje, maksymalizujące

zdyskontowany zwrot. Strategia stochastyczna

Nic nie stoi na przeszkodzie, aby strategia również była stochastyczna a ∼ π(·|s). Na przykład robot-odkurzacz może przemieszczać się w nieregularny sposób i w dalszym ciągu istnieje szansa, że wykona swoje zadanie.

(97)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Strategia – Cel

Jak znaleźć strategię?

Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).

Natomiast zadaniem uczenia się ze wzmocnieniem jest

znalezienie strategii.

Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu

Eτ ∼π[R(τ )].

Co prowadzi nas do formalnej postaci problemu

π∗ = arg max

π Eτ ∼π[R(τ )],

gdzie π∗ nazywamy optymalną strategią.

(98)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Strategia – Cel

Jak znaleźć strategię?

Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).

Natomiast zadaniem uczenia się ze wzmocnieniem jest

znalezienie strategii.

Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu

Eτ ∼π[R(τ )].

Co prowadzi nas do formalnej postaci problemu

π∗ = arg max

π Eτ ∼π[R(τ )],

(99)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Strategia – Cel

Jak znaleźć strategię?

Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).

Natomiast zadaniem uczenia się ze wzmocnieniem jest

znalezienie strategii.

Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu

Eτ ∼π[R(τ )].

Co prowadzi nas do formalnej postaci problemu

π∗ = arg max

π Eτ ∼π[R(τ )],

gdzie π∗ nazywamy optymalną strategią.

(100)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Strategia – Cel

Jak znaleźć strategię?

Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).

Natomiast zadaniem uczenia się ze wzmocnieniem jest

znalezienie strategii.

Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu

Eτ ∼π[R(τ )].

Co prowadzi nas do formalnej postaci problemu

π∗ = arg max

π Eτ ∼π[R(τ )],

(101)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Strategia – Cel

Jak znaleźć strategię?

Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).

Natomiast zadaniem uczenia się ze wzmocnieniem jest

znalezienie strategii.

Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu

Eτ ∼π[R(τ )].

Co prowadzi nas do formalnej postaci problemu

π∗ = arg max

π Eτ ∼π[R(τ )],

gdzie π∗ nazywamy optymalną strategią.

(102)

Wprowadzenie Uczenie agenta Podsumowanie

Materiały dodatkowe

(103)

Wprowadzenie Uczenie agenta Podsumowanie

Materiały dodatkowe

Podsumowanie

If intelligence is a cake, the bulk of the cake is unsupervised learning, the icing on the cake is supervised learning, and the cherry on the cake is reinforcement learning (RL).

Yann LeCun, Facebook AI Chief, NIPS 2016

(104)

Wprowadzenie Uczenie agenta Podsumowanie Materiały dodatkowe

Podsumowanie

Do zapamiętania:

Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.

Bazuje on na uczeniu się z doświadczenia, co jest

umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.

Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.

Celem RL jest wypracowanie strategii bez posiadania przykładów.

(105)

Wprowadzenie Uczenie agenta Podsumowanie Materiały dodatkowe

Podsumowanie

Do zapamiętania:

Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.

Bazuje on na uczeniu się z doświadczenia, co jest

umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.

Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.

Celem RL jest wypracowanie strategii bez posiadania przykładów.

Do oceny strategii służy zdyskontowany zwrot.

(106)

Wprowadzenie Uczenie agenta Podsumowanie Materiały dodatkowe

Podsumowanie

Do zapamiętania:

Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.

Bazuje on na uczeniu się z doświadczenia, co jest

umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.

Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.

Celem RL jest wypracowanie strategii bez posiadania przykładów.

(107)

Wprowadzenie Uczenie agenta Podsumowanie Materiały dodatkowe

Podsumowanie

Do zapamiętania:

Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.

Bazuje on na uczeniu się z doświadczenia, co jest

umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.

Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.

Celem RL jest wypracowanie strategii bez posiadania przykładów.

Do oceny strategii służy zdyskontowany zwrot.

(108)

Wprowadzenie Uczenie agenta Podsumowanie Materiały dodatkowe

Podsumowanie

Do zapamiętania:

Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.

Bazuje on na uczeniu się z doświadczenia, co jest

umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.

Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.

Celem RL jest wypracowanie strategii bez posiadania przykładów.

(109)

Wprowadzenie Uczenie agenta Podsumowanie

Materiały dodatkowe

Podsumowanie

AlphaGo - The Movie — Full Documentary, https://youtu.be/WXuK6gekU1Y

An introduction to Reinforcement Learning na Arxiv Insights, https://youtu.be/JgvyzIkgxF0

MIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL), https://youtu.be/zR11FLZ-O9M

(110)

Wprowadzenie Uczenie agenta Podsumowanie

Materiały dodatkowe

Podsumowanie

Następny wykład: Uczenie ze wzmocnieniem (II).

Cytaty

Powiązane dokumenty

Myczka, Życie i działalność Walentego M ajdańskiego, w: Księga pamiątkowa 50-lecia pracy publicystycznej Walentego Majdańskiego, dz.. Kisielewski,

wicieli Sojuszu Północnoatlantyckiego w dniu 12 września 2001 r. po raz pierwszy odwołano się do klauzuli wzajemnego bezpieczeństwa zawartej w artykule 5. siły powietrzne

Włodzimierz Stawiski Wpływ form organizacyjnych ćwiczeń z technicznych środków nauczania na kształtowanie umiejętności.. manualnych studentów

Hydrothermal alteration of the Meiduk porphyry copper deposit, south of the Kerman Cenozoic magmatic arc and southeast of the central Iranian volcano-plutonic belt has resulted

As a result, dramatic social conflicts, inherent in capitalism, have revived; the welfare state – which we deem a historic compromise that was of service to the main social

In very recent years a new feature has emerged: a green belt may be seen to have a role to play in the regeneration of the urban oore (the inner city); it is argued

W kolejnych rozdziałach swej książki Osbome stara się najpierw nakreślić obraz antycznej przyrody, osadnictwa i wykorzystania natury przez człowieka (mieszczą się

Herskovits, A Bayesian Method for Induction of Probailistic Networks from Data, Machoine Learning, 9, pp. Nielsen, Bayesian Networks and Decision Graphs,