Wykład 13 – Uczenie ze wzmocnieniem (I)

(1)

Wprowadzenie Uczenie agenta Podsumowanie

Podstawy uczenia maszynowego

Jarosław Miszczak Mateusz Ostaszewski

Wojciech Masarczyk

09/06/2021

(2)

Wprowadzenie Uczenie agenta Podsumowanie 1 Wprowadzenie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake 2 Uczenie agenta Zwrot z rozgrywki Strategia – Cel 3 Podsumowanie Materiały dodatkowe

(3)

Wprowadzenie Uczenie agenta Podsumowanie Uczenia metodą prób i błędów Zarys modelu Przykład – Frozen-Lake

Wprowadzenie

3 / 33

(4)

Wprowadzenie

Uczenia metodą prób i błędów

Uczenie się ze wzmocnieniem (ang. reinforcement learning – RL) to

paradygmat uczenia maszynowego w którym uczenie odbywa się na zasadzie oceny przez środowisko działań podjętych przez agenta.

Interakcja ma na celu nauczyć agenta rozwiązywać problemy poprzez wyciągnie wniosków na podstawie odpowiedzi dawanej przez środowisko.

Uczenie się ze wzmocnieniem to próba sformalizowania idei, uczenia się na zasadzie prób i błędów.

System kar (lub nagród) przyznawanych agentowi za jego działanie powinien być zbudowany tak, że agent zaniecha działania lub będzie je powtarzał w przyszłości.

(5)

Wprowadzenie

(6)

Wprowadzenie

(7)

Wprowadzenie

(8)

Wprowadzenie

Ogólny schemat mechanizmu działania agenta jest prosty.

Agent w chwili t znajduje się w stanie st, który reprezentuje jego

wiedzę na temat środowiska. Agent wykonuje akcję at. Po

wykonanej akcji, stan zmienia się na st+1. Agent otrzymuje również

numeryczną nagrodę rt. agent środowisko stan, nagro da s t_, r t ak cja at

(9)

Wprowadzenie

Ogólny schemat mechanizmu działania agenta jest prosty. Agent w chwili t znajduje się w stanie st, który reprezentuje jego

wiedzę na temat środowiska.

Agent wykonuje akcję at. Po

numeryczną nagrodę rt. agent środowisko stan, nagro da s t_, r t ak cja at 5 / 33

(10)

Wprowadzenie

wiedzę na temat środowiska. Agent wykonuje akcję at.

Po wykonanej akcji, stan zmienia się na st+1. Agent otrzymuje również

(11)

Wprowadzenie

wykonanej akcji, stan zmienia się na st+1.

Agent otrzymuje również numeryczną nagrodę rt. agent środowisko stan, nagro da s t_, r t ak cja at 5 / 33

(12)

Wprowadzenie

(13)

Wprowadzenie

Uczenia metodą prób i błędów Przykład

Prostym przykładem, jest robot mający dotrzeć do pewnego punktu docelowego.

Agentem jest robot, który jako stan otrzymuje odczyt z sensorów.

Akcja polega na uruchomieniu odpowiednich silniczków dzięki

którym robot wykonuje ruch w danym kierunku. W każdym kroku agent otrzymuje nagrodę

0 jeżeli nie dotarł do celu,

1 w przypadku gdy dotrze do punktu docelowego.

(14)

Wprowadzenie

(15)

Wprowadzenie

którym robot wykonuje ruch w danym kierunku.

W każdym kroku agent otrzymuje nagrodę

(16)

Wprowadzenie

(17)

Wprowadzenie

(18)

Wprowadzenie

(19)

Wprowadzenie

Przykładowymi problemami, w których można użyć uczenia się ze wzmocnieniem są

Utrzymanie odwróconego wahadła (Cart-Pole).

Sterowanie robotem: uczenie humanoida chodzenia, uczenie robota gry w piłkę nożną.

Tworzenie programów dla rozgrywania gier: Go (AlphaGo), StarCraft, gry Atari.

Rozwiązywanie problemów optymalizacyjnych.

(20)

Wprowadzenie

(21)

Wprowadzenie

(22)

Wprowadzenie

(23)

Wprowadzenie

(24)

Wprowadzenie

RL może działać w różnych scenariuszach.

Agent wykonuje serię akcji, tylko po to by osiągnąć konkretny stan końcowy, jak np. przejście labiryntu.

Agent ma za zadanie wykonywać akcje po to by jak najdłużej zostać w grze Cart-Pole).

Zadaniem agenta jest zebranie punktów (Pac-Man). Maksymalizacja zysku

Wszystkie te scenariusze można opisać wspólnym celem – maksymalizacją łącznego zysku wynikającego z otrzymywanych nagród.

(25)

Wprowadzenie

(26)

Wprowadzenie

(27)

Wprowadzenie

Zadaniem agenta jest zebranie punktów (Pac-Man).

Maksymalizacja zysku

(28)

Wprowadzenie

(29)

Wprowadzenie

Zarys modelu

Podstawowymi pojęciami które pojawiają się we wszystkich scenariuszach uczenia ze wzmocnieniem są

stan, akcja, i nagroda.

(30)

Wprowadzenie

Zarys modelu

stan,

akcja, i nagroda.

(31)

Wprowadzenie

Zarys modelu

stan, akcja,

i nagroda.

(32)

Wprowadzenie

Zarys modelu

stan, akcja, i nagroda.

(33)

Wprowadzenie

Zarys modelu Stan

Stan s ∈ S jest kompletnym opisem świata.

Dla odróżnienia wyróżniamy również obserwacje będące częściowym opisem

stanu. Stany i obserwacje są po prostu wektorami lub macierzami,

np. macierz pikseli będąca zrzutem ekranu z gry.

(34)

Wprowadzenie

Zarys modelu Stan

Stan s ∈ S jest kompletnym opisem świata. Dla odróżnienia wyróżniamy również obserwacje będące częściowym opisem

stanu.

Stany i obserwacje są po prostu wektorami lub macierzami, np. macierz pikseli będąca zrzutem ekranu z gry.

(35)

Wprowadzenie

Zarys modelu Stan

Stan s ∈ S jest kompletnym opisem świata. Dla odróżnienia wyróżniamy również obserwacje będące częściowym opisem

stanu. Stany i obserwacje są po prostu wektorami lub macierzami,

np. macierz pikseli będąca zrzutem ekranu z gry.

(36)

Wprowadzenie

Zarys modelu Akcja

Akcja a ∈ A jest atrybutem przekazywanym do środowiska i powodującym zmianę stanu.

Postać akcji jest związana ze środowiskiem. Akcje dzielimy ma dyskretne i ciągłe, co ma wpływ

(37)

Wprowadzenie

Zarys modelu Akcja

Akcja a ∈ A jest atrybutem przekazywanym do środowiska i powodującym zmianę stanu. Postać akcji jest związana ze

środowiskiem.

Akcje dzielimy ma dyskretne i ciągłe, co ma wpływ na zakres stosowalności algorytmów uczenia ze wzmocnieniem.

(38)

Wprowadzenie

Zarys modelu Akcja

Akcja a ∈ A jest atrybutem przekazywanym do środowiska i powodującym zmianę stanu. Postać akcji jest związana ze

środowiskiem. Akcje dzielimy ma dyskretne i ciągłe, co ma wpływ

(39)

Wprowadzenie

Zarys modelu Nagroda

Nagroda r ∈ R jest związana ze wzmocnieniem, które wyrażą odpowiedź środowiska na wykonaną akcję.

Nagroda jest informacją zwrotną i jest motorem napędowym całego procesu uczenia. Nagrody nie muszą być tylko dodatnie – karanie

może usprawnić proces uczenia.

(40)

Wprowadzenie

Nagroda r ∈ R jest związana ze wzmocnieniem, które wyrażą odpowiedź środowiska na wykonaną akcję. Nagroda jest

informacją zwrotną i jest motorem napędowym całego procesu uczenia.

Nagrody nie muszą być tylko dodatnie – karanie może usprawnić proces uczenia.

(41)

Wprowadzenie

Nagroda r ∈ R jest związana ze wzmocnieniem, które wyrażą odpowiedź środowiska na wykonaną akcję. Nagroda jest

informacją zwrotną i jest motorem napędowym całego procesu uczenia. Nagrody nie muszą być tylko dodatnie – karanie

może usprawnić proces uczenia.

(42)

Wprowadzenie

Zarys modelu Obserwacja vs. stan

Różnicę między stanem a obserwacją dobrze obrazują gry RTS jak np. StarCraft.

Środowisko jest opisane przez mapę, której gracz nie widzi w całości. W takim przypadku jednym z zadań agenta jest wysyłać zwiadowców, by dowiedzieć się co robi przeciwnik. Innym przykładem są niektóre gry Atari, gdzie pojedyncze zdjęcie z gry gubi informację na temat ruchu. Możemy wówczas użyć kilku kolejnych zdjęć, aby dostać lepsze przybliżenie faktycznego stanu środowiska.

(43)

Wprowadzenie

Różnicę między stanem a obserwacją dobrze obrazują gry RTS jak np. StarCraft. Środowisko jest opisane przez mapę, której gracz nie widzi w całości.

W takim przypadku jednym z zadań agenta jest wysyłać zwiadowców, by dowiedzieć się co robi przeciwnik. Innym przykładem są niektóre gry Atari, gdzie pojedyncze zdjęcie z gry gubi informację na temat ruchu. Możemy wówczas użyć kilku kolejnych zdjęć, aby dostać lepsze przybliżenie faktycznego stanu środowiska.

(44)

Wprowadzenie

Różnicę między stanem a obserwacją dobrze obrazują gry RTS jak np. StarCraft. Środowisko jest opisane przez mapę, której gracz nie widzi w całości. W takim przypadku jednym z zadań agenta jest wysyłać zwiadowców, by dowiedzieć się co robi przeciwnik.

Innym przykładem są niektóre gry Atari, gdzie pojedyncze zdjęcie z gry gubi informację na temat ruchu. Możemy wówczas użyć kilku kolejnych zdjęć, aby dostać lepsze przybliżenie faktycznego stanu środowiska.

(45)

Wprowadzenie

Różnicę między stanem a obserwacją dobrze obrazują gry RTS jak np. StarCraft. Środowisko jest opisane przez mapę, której gracz nie widzi w całości. W takim przypadku jednym z zadań agenta jest wysyłać zwiadowców, by dowiedzieć się co robi przeciwnik. Innym przykładem są niektóre gry Atari, gdzie pojedyncze zdjęcie z gry gubi informację na temat ruchu.

Możemy wówczas użyć kilku kolejnych zdjęć, aby dostać lepsze przybliżenie faktycznego stanu środowiska.

(46)

Wprowadzenie

Różnicę między stanem a obserwacją dobrze obrazują gry RTS jak np. StarCraft. Środowisko jest opisane przez mapę, której gracz nie widzi w całości. W takim przypadku jednym z zadań agenta jest wysyłać zwiadowców, by dowiedzieć się co robi przeciwnik. Innym przykładem są niektóre gry Atari, gdzie pojedyncze zdjęcie z gry gubi informację na temat ruchu. Możemy wówczas użyć kilku kolejnych zdjęć, aby dostać lepsze przybliżenie faktycznego stanu środowiska.

(47)

Wprowadzenie

Z formalnego punktu widzenia, każdy z powyższych atrybutów może być zmienna losową.

Zmiana stanu s pod wpływem akcji a nie musi być deterministyczna, tj. rozpatrywany model może zakładać pewien rozkład prawdopodobieństwa przejścia P(s0, r |s, a),

opisujący przejścia do stanu s0 otrzymania nagrody r .

Z tego rozkładu można uzyskać prawdopodobieństwo przejścia do stanu P(s0|s, a) =P

r ∈RP(s0, r |s, a) oraz oczekiwaną

nagrodę R(s, a) =P

r ∈R,s0_∈SrP(s0, r |s, a).

(48)

Wprowadzenie

(49)

Wprowadzenie

r ∈R,s0_∈SrP(s0, r |s, a).

(50)

Wprowadzenie

(51)

Wprowadzenie

Różnorodność w sposobie nagradzania, wiąże się ze stopniem skomplikowania, danego środowiska.

Niektóre problemy, mają bezpośrednio zdefiniowaną nagrodę, jak np. optymalizacja kombinatoryczna.

W innych przypadkach, warto poświęcić trochę uwagi projektowaniu systemu nagród (o ile mamy taką możliwość). W przypadku zadania z labiryntem, możne byc korzystne dawanie ujemnej nagrody w każdym kroku, aby agent znalazł wyjście możliwie jak najszybciej.

(52)

Wprowadzenie

(53)

Wprowadzenie

W innych przypadkach, warto poświęcić trochę uwagi projektowaniu systemu nagród (o ile mamy taką możliwość).

W przypadku zadania z labiryntem, możne byc korzystne dawanie ujemnej nagrody w każdym kroku, aby agent znalazł wyjście możliwie jak najszybciej.

(54)

Wprowadzenie

(55)

Wprowadzenie

Przykład – Frozen-Lake

Jednym z prostszych przykładów jest gra Frozen-Lake.

Gra opisana jest na planszy 4 × 4 na której są pola oznaczające dziury w lodzie lub twardy lód.

Przykładowa plansza wygląda następująco:

S F F F

F H F H

F F F H

H F F G

S – punkt startowy (bezpiecznie),

F – zamrożona powierzchnia (bezpiecznie), H – dziura (przegrana, koniec gry),

G – cel (wygrana, koniec gry).

(56)

Wprowadzenie

Gra opisana jest na planszy 4 × 4 na której są pola oznaczające dziury w lodzie lub twardy lód.

Przykładowa plansza wygląda następująco:

S F F F

F H F H

F F F H

H F F G

(57)

Wprowadzenie

Gra opisana jest na planszy 4 × 4 na której są pola oznaczające dziury w lodzie lub twardy lód. Przykładowa plansza wygląda następująco:

S F F F

F H F H

F F F H

H F F G

G – cel (wygrana, koniec gry).

(58)

Wprowadzenie

Gra opisana jest na planszy 4 × 4 na której są pola oznaczające dziury w lodzie lub twardy lód. Przykładowa plansza wygląda następująco:

S F F F

F H F H

F F F H

H F F G

(59)

Wprowadzenie

Przykład – Frozen-Lake S F F F F H F H F F F H H F F G

Frozen-Lake – zasady gry

Agent startuje z lewej górnej pozycji S.

Jego zadaniem jest dojść do pozycji G.

Zbiór akcji to

A = {←, →, ↑, ↓}.

W każdym stanie dostaje nagrodę 0, prócz pozycji G, gdzie dostaje nagrodę 1. Gra dobiega końca w dwóch przypadkach, gdy gracz osiąga pozycję H lubG.

(60)

Wprowadzenie

Zbiór akcji to

A = {←, →, ↑, ↓}.

(61)

Wprowadzenie

Zbiór akcji to

A = {←, →, ↑, ↓}.

(62)

Wprowadzenie

Zbiór akcji to

A = {←, →, ↑, ↓}.

(63)

Wprowadzenie

Zbiór akcji to

A = {←, →, ↑, ↓}.

W każdym stanie dostaje nagrodę 0, prócz pozycji G, gdzie dostaje nagrodę 1.

Gra dobiega końca w dwóch przypadkach, gdy gracz osiąga pozycję H lubG.

(64)

Wprowadzenie

Zbiór akcji to

A = {←, →, ↑, ↓}.

W każdym stanie dostaje nagrodę 0, prócz pozycji G, gdzie dostaje nagrodę 1. Gra dobiega końca w dwóch przypadkach, gdy gracz

(65)

Wprowadzenie

Stany oznaczamy jako parę współrzędnych, gdzie pozycjaS

znajduje się w stanie (0, 0), aGznajduje się w stanie (3, 3). Przykładowa wygrywająca trajektoria to τ0= [(0, 0), ↓, (0, 1), ↓

, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), →, (3, 3)].

System nagradzania w tej grze nie daje dużo informacji. Z punktu widzenia nagrody, nie odróżniamy dziury od bezpiecznej tafli lodu. Stochastyczny Frozen-Lake

Istnieje wersja środowiska Frozen-Lake gdzie lód po którym

stąpamy jest śliski. Wówczas, z pewnym prawdopodobieństwem nie zmienimy stanu zgodnie z wykonaną akcją, lecz przechodzimy do innego sąsiadującego stanu.

(66)

Wprowadzenie

, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), →, (3, 3)].

System nagradzania w tej grze nie daje dużo informacji. Z punktu widzenia nagrody, nie odróżniamy dziury od bezpiecznej tafli lodu.

Stochastyczny Frozen-Lake

(67)

Wprowadzenie

, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), →, (3, 3)].

System nagradzania w tej grze nie daje dużo informacji. Z punktu widzenia nagrody, nie odróżniamy dziury od bezpiecznej tafli lodu. Stochastyczny Frozen-Lake

(68)

Wprowadzenie Uczenie agenta Podsumowanie Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

(69)

Uczenie agenta

Zwrot z rozgrywki

W jaki sposób określić cel agenta?

Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.

Agent zbiera informacje wykonując akcie i otrzymując nagrody.

Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.

W założeniu RL ma prowadzić do automatycznego

wypracowania strategii bez

konieczności posiadania wiedzy o strategii prowadzącej do celu.

agent środowisko stan, nagro da s t_, r t ak cja at 20 / 33

(70)

Uczenie agenta

Zwrot z rozgrywki

W jaki sposób określić cel agenta? Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.

agent środowisko stan, nagro da s t_, r t ak cja at

(71)

Uczenie agenta

Zwrot z rozgrywki

(72)

Uczenie agenta

Zwrot z rozgrywki

agent środowisko stan, nagro da s t_, r t ak cja at

(73)

Uczenie agenta

Zwrot z rozgrywki

(74)

Uczenie agenta

Zwrot z rozgrywki

Celem agenta jest maksymalizacja pewnego kryterium jakości zdefiniowanego przez nagrody otrzymywane w wyniku

wykonywanych akcji.

W zachłannym podejściu takim kryterium byłoby po prostu zbieranie możliwie maksymalnej nagrody w każdym kroku. Nie zawsze musi to być opłacalne – czasem warto wykonać akcję, która nie daje zysku. Np. w szachach czasem lepiej poświęcić jakieś bierki, aby (w dłuższej perspektywie) zbić króla przeciwnika.

(75)

Uczenie agenta

Zwrot z rozgrywki

wykonywanych akcji.

(76)

Uczenie agenta

Zwrot z rozgrywki

wykonywanych akcji.

W zachłannym podejściu takim kryterium byłoby po prostu zbieranie możliwie maksymalnej nagrody w każdym kroku.

Nie zawsze musi to być opłacalne – czasem warto wykonać akcję, która nie daje zysku. Np. w szachach czasem lepiej poświęcić jakieś bierki, aby (w dłuższej perspektywie) zbić króla przeciwnika.

(77)

Uczenie agenta

Zwrot z rozgrywki

wykonywanych akcji.

(78)

Uczenie agenta

Zwrot z rozgrywki

Do określenia celu agenta powszechnie używanym kryterium jest

zdyskontowany zwrot lub zdyskontowana kumulatywna nagroda

danej trajektorii R(τ ) = ∞ X t=0 γtrt,

gdzie γ ∈ [0, 1] nazywamy współczynnikiem zdyskontowania (gdzie 00= 1).

∞

Powyższa suma zakończona jest w nieskończoności. W praktyce każdy program musi się kiedyś skończyć.

(79)

Uczenie agenta

Zwrot z rozgrywki

Do określenia celu agenta powszechnie używanym kryterium jest

zdyskontowany zwrot lub zdyskontowana kumulatywna nagroda

danej trajektorii R(τ ) = ∞ X t=0 γtrt,

gdzie γ ∈ [0, 1] nazywamy współczynnikiem zdyskontowania (gdzie 00= 1).

∞

Powyższa suma zakończona jest w nieskończoności. W praktyce każdy program musi się kiedyś skończyć.

(80)

Uczenie agenta

Zwrot z rozgrywki Trajektorie Pojęcie trajektorii τ = (s0, a0, a1, s1, . . .),

opisuje konkretną sekwencję (stan, akcja), która kończy się w pewnym stanie terminalnym.

Konkretna trajektoria odpowiada realizacji pojedynczego epizodu, np. jednej rozgrywce partii szachów, jednemu przejściu przez planszę Frozen-Lake.

(81)

Uczenie agenta

Zwrot z rozgrywki Trajektorie Pojęcie trajektorii τ = (s0, a0, a1, s1, . . .),

opisuje konkretną sekwencję (stan, akcja), która kończy się w pewnym stanie terminalnym.

Konkretna trajektoria odpowiada realizacji pojedynczego epizodu, np. jednej rozgrywce partii szachów, jednemu przejściu przez planszę Frozen-Lake.

(82)

Uczenie agenta

Zwrot z rozgrywki Horyzont zwrotu R(τ ) = ∞ X t=0 γtrt,

Parametr γ określa długość horyzontu zwrotu.

Im γ bliżej zera, tym bardziej agent postępuje zachłannie. Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.

Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.

(83)

Uczenie agenta

(84)

Uczenie agenta

Im γ bliżej zera, tym bardziej agent postępuje zachłannie.

Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.

(85)

Uczenie agenta

(86)

Uczenie agenta

(87)

Uczenie agenta

Zwrot z rozgrywki – Przykład dla Frozen-Lake

Jak to działa dla Frozen-Lake?

Zachłanne podejście (γ = 0) w przypadku gry Frozen-Lake, mogłoby nigdy nie nauczyć agenta bezpiecznej trasy. Zwiększając wartość współczynnika zdyskontowania, agent może odróżnić trajektorię, która kończy się w stanie G, od trajektorii kończącej się w stanie H.

(88)

Uczenie agenta

Zachłanne podejście (γ = 0) w przypadku gry Frozen-Lake, mogłoby nigdy nie nauczyć agenta bezpiecznej trasy.

Zwiększając wartość współczynnika zdyskontowania, agent może odróżnić trajektorię, która kończy się w stanie G, od trajektorii kończącej się w stanie H.

(89)

Uczenie agenta

Zachłanne podejście (γ = 0) w przypadku gry Frozen-Lake, mogłoby nigdy nie nauczyć agenta bezpiecznej trasy. Zwiększając wartość współczynnika zdyskontowania, agent może odróżnić trajektorię, która kończy się w stanie G, od trajektorii kończącej się w stanie H.

(90)

Uczenie agenta

Porównajmy jak działają dwie trajektorie z różnym γ

τ0 = [(0, 0), ↓, (0, 1), ↓, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), →

, (3, 3)]

(91)

Uczenie agenta

τ0 = [(0, 0), ↓, (0, 1), ↓, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), → , (3, 3)] τ00= [(0, 0), ↓, (1, 0), →, (1, 1)]. Wówczas jeżeli γ = 0, to R(τ0) = 5 X t=0 0trt = 0, R(τ00) = 1 X t=0 0trt = 0. 26 / 33

(92)

Uczenie agenta

τ0 = [(0, 0), ↓, (0, 1), ↓, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), → , (3, 3)] τ00= [(0, 0), ↓, (1, 0), →, (1, 1)]. Wówczas jeżeli γ = 0.9, to R(τ0) = 5 X t=0 0.9trt = 0.95 = 0.59, R(τ00) = 1 X t=0 0.9trt = 0.

(93)

Uczenie agenta

Strategia – Cel Strategia

Zadaniem agenta jest nauczenie się strategii, czyli funkcji

π(s) = a, na podstawie której wybiera on akcje, maksymalizujące

zdyskontowany zwrot.

Strategia stochastyczna

Nic nie stoi na przeszkodzie, aby strategia również była stochastyczna a ∼ π(·|s).

Na przykład robot-odkurzacz może przemieszczać się w nieregularny sposób i w dalszym ciągu istnieje szansa, że wykona swoje zadanie.

Trajektoria może być traktowana jako konkretna realizacja strategii.

(94)

Uczenie agenta

zdyskontowany zwrot. Strategia stochastyczna

Nic nie stoi na przeszkodzie, aby strategia również była stochastyczna a ∼ π(·|s).

Na przykład robot-odkurzacz może przemieszczać się w nieregularny sposób i w dalszym ciągu istnieje szansa, że wykona swoje zadanie.

(95)

Uczenie agenta

Nic nie stoi na przeszkodzie, aby strategia również była stochastyczna a ∼ π(·|s). Na przykład robot-odkurzacz może przemieszczać się w nieregularny sposób i w dalszym ciągu istnieje szansa, że wykona swoje zadanie.

(96)

Uczenie agenta

Nic nie stoi na przeszkodzie, aby strategia również była stochastyczna a ∼ π(·|s). Na przykład robot-odkurzacz może przemieszczać się w nieregularny sposób i w dalszym ciągu istnieje szansa, że wykona swoje zadanie.

(97)

Uczenie agenta

Strategia – Cel

Jak znaleźć strategię?

Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).

Natomiast zadaniem uczenia się ze wzmocnieniem jest

znalezienie strategii.

Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu

Eτ ∼π[R(τ )].

Co prowadzi nas do formalnej postaci problemu

π∗ = arg max

π Eτ ∼π[R(τ )],

gdzie π∗ nazywamy optymalną strategią.

(98)

Uczenie agenta

Strategia – Cel

Eτ ∼π[R(τ )].

π∗ = arg max

(99)

Uczenie agenta

Strategia – Cel

Eτ ∼π[R(τ )].

π∗ = arg max

(100)

Uczenie agenta

Strategia – Cel

Eτ ∼π[R(τ )].

π∗ = arg max

(101)

Uczenie agenta

Strategia – Cel

Eτ ∼π[R(τ )].

π∗ = arg max

(102)

Materiały dodatkowe

(103)

Podsumowanie

If intelligence is a cake, the bulk of the cake is unsupervised learning, the icing on the cake is supervised learning, and the cherry on the cake is reinforcement learning (RL).

Yann LeCun, Facebook AI Chief, NIPS 2016

(104)

Wprowadzenie Uczenie agenta Podsumowanie Materiały dodatkowe

Podsumowanie

Do zapamiętania:

Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.

Bazuje on na uczeniu się z doświadczenia, co jest

umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.

Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.

Celem RL jest wypracowanie strategii bez posiadania przykładów.

(105)

Podsumowanie

Do zapamiętania:

Do oceny strategii służy zdyskontowany zwrot.

(106)

Podsumowanie

Do zapamiętania:

(107)

Podsumowanie

Do zapamiętania:

Do oceny strategii służy zdyskontowany zwrot.

(108)

Podsumowanie

Do zapamiętania:

(109)

Podsumowanie

AlphaGo - The Movie — Full Documentary, https://youtu.be/WXuK6gekU1Y

An introduction to Reinforcement Learning na Arxiv Insights, https://youtu.be/JgvyzIkgxF0

MIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL), https://youtu.be/zR11FLZ-O9M

(110)

Podsumowanie

Następny wykład: Uczenie ze wzmocnieniem (II).