Uczenie agenta

Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

W jaki sposób określić cel agenta?

Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.

Agent zbiera informacje wykonując akcie i otrzymując nagrody.

Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.

W założeniu RL ma prowadzić do automatycznego

wypracowania strategii bez konieczności posiadania wiedzy o strategii prowadzącej do celu.

agent

środowisko

stan,nagrodast,rt

akcjaat

20 / 33

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

W jaki sposób określić cel agenta?

Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.

Agent zbiera informacje wykonując akcie i otrzymując nagrody.

Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.

W założeniu RL ma prowadzić do automatycznego

wypracowania strategii bez konieczności posiadania wiedzy o strategii prowadzącej do celu.

agent

środowisko

stan,nagrodast,rt

akcjaat

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

W jaki sposób określić cel agenta?

Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.

Agent zbiera informacje wykonując akcie i otrzymując nagrody.

Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.

W założeniu RL ma prowadzić do automatycznego

wypracowania strategii bez konieczności posiadania wiedzy o strategii prowadzącej do celu.

agent

środowisko

stan,nagrodast,rt

akcjaat

20 / 33

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

W jaki sposób określić cel agenta?

Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.

Agent zbiera informacje wykonując akcie i otrzymując nagrody.

Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.

W założeniu RL ma prowadzić do automatycznego

wypracowania strategii bez konieczności posiadania wiedzy o strategii prowadzącej do celu.

agent

środowisko

stan,nagrodast,rt

akcjaat

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

W jaki sposób określić cel agenta?

Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.

Agent zbiera informacje wykonując akcie i otrzymując nagrody.

Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.

W założeniu RL ma prowadzić do automatycznego

wypracowania strategii bez konieczności posiadania wiedzy o strategii prowadzącej do celu.

agent

środowisko

stan,nagrodast,rt

akcjaat

20 / 33

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

W jaki sposób określić cel agenta?

Celem agenta jest maksymalizacja pewnego kryterium jakości zdefiniowanego przez nagrody otrzymywane w wyniku

wykonywanych akcji.

W zachłannym podejściu takim kryterium byłoby po prostu zbieranie możliwie maksymalnej nagrody w każdym kroku. Nie zawsze musi to być opłacalne – czasem warto wykonać akcję, która nie daje zysku. Np. w szachach czasem lepiej poświęcić jakieś bierki, aby (w dłuższej perspektywie) zbić króla przeciwnika.

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

W jaki sposób określić cel agenta?

Celem agenta jest maksymalizacja pewnego kryterium jakości zdefiniowanego przez nagrody otrzymywane w wyniku

wykonywanych akcji.

21 / 33

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

W jaki sposób określić cel agenta?

Celem agenta jest maksymalizacja pewnego kryterium jakości zdefiniowanego przez nagrody otrzymywane w wyniku

wykonywanych akcji.

W zachłannym podejściu takim kryterium byłoby po prostu zbieranie możliwie maksymalnej nagrody w każdym kroku.

Nie zawsze musi to być opłacalne – czasem warto wykonać akcję, która nie daje zysku. Np. w szachach czasem lepiej poświęcić jakieś bierki, aby (w dłuższej perspektywie) zbić króla przeciwnika.

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

W jaki sposób określić cel agenta?

Celem agenta jest maksymalizacja pewnego kryterium jakości zdefiniowanego przez nagrody otrzymywane w wyniku

wykonywanych akcji.

W zachłannym podejściu takim kryterium byłoby po prostu zbieranie możliwie maksymalnej nagrody w każdym kroku.

21 / 33

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

Do określenia celu agenta powszechnie używanym kryterium jest zdyskontowany zwrot lub zdyskontowana kumulatywna nagroda danej trajektorii

R(τ ) =

∞

t=0

γ^trt,

gdzie γ ∈ [0, 1] nazywamy współczynnikiem zdyskontowania (gdzie 0⁰= 1).

∞

Powyższa suma zakończona jest w nieskończoności. W praktyce każdy program musi się kiedyś skończyć.

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

Do określenia celu agenta powszechnie używanym kryterium jest zdyskontowany zwrot lub zdyskontowana kumulatywna nagroda danej trajektorii

R(τ ) =

∞

t=0

γ^trt,

gdzie γ ∈ [0, 1] nazywamy współczynnikiem zdyskontowania (gdzie 0⁰= 1).

∞

Powyższa suma zakończona jest w nieskończoności. W praktyce każdy program musi się kiedyś skończyć.

22 / 33

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

Trajektorie Pojęcie trajektorii

τ = (s₀, a₀, a₁, s₁, . . .),

opisuje konkretną sekwencję (stan, akcja), która kończy się w pewnym stanie terminalnym.

Konkretna trajektoria odpowiada realizacji pojedynczego epizodu, np. jednej rozgrywce partii szachów, jednemu przejściu przez planszę Frozen-Lake.

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

Trajektorie Pojęcie trajektorii

τ = (s₀, a₀, a₁, s₁, . . .),

opisuje konkretną sekwencję (stan, akcja), która kończy się w pewnym stanie terminalnym.

Konkretna trajektoria odpowiada realizacji pojedynczego epizodu, np. jednej rozgrywce partii szachów, jednemu przejściu przez planszę Frozen-Lake.

23 / 33

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

Horyzont zwrotu

R(τ ) =

∞

t=0

γ^trt,

Parametr γ określa długość horyzontu zwrotu.

Im γ bliżej zera, tym bardziej agent postępuje zachłannie. Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.

Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

Horyzont zwrotu

R(τ ) =

∞

t=0

γ^trt,

Parametr γ określa długość horyzontu zwrotu.

Im γ bliżej zera, tym bardziej agent postępuje zachłannie. Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.

Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.

24 / 33

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

Horyzont zwrotu

R(τ ) =

∞

t=0

γ^trt,

Parametr γ określa długość horyzontu zwrotu.

Im γ bliżej zera, tym bardziej agent postępuje zachłannie.

Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.

Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

Horyzont zwrotu

R(τ ) =

∞

t=0

γ^trt,

Parametr γ określa długość horyzontu zwrotu.

Im γ bliżej zera, tym bardziej agent postępuje zachłannie.

Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.

Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.

24 / 33

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki

Horyzont zwrotu

R(τ ) =

∞

t=0

γ^trt,

Parametr γ określa długość horyzontu zwrotu.

Im γ bliżej zera, tym bardziej agent postępuje zachłannie.

Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.

Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki – Przykład dla Frozen-Lake

Jak to działa dla Frozen-Lake?

Zachłanne podejście (γ = 0) w przypadku gry Frozen-Lake, mogłoby nigdy nie nauczyć agenta bezpiecznej trasy. Zwiększając wartość współczynnika zdyskontowania, agent może odróżnić trajektorię, która kończy się w stanie G, od trajektorii kończącej się w stanie H.

25 / 33

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki – Przykład dla Frozen-Lake

Jak to działa dla Frozen-Lake?

Zachłanne podejście (γ = 0) w przypadku gry Frozen-Lake, mogłoby nigdy nie nauczyć agenta bezpiecznej trasy.

Zwiększając wartość współczynnika zdyskontowania, agent może odróżnić trajektorię, która kończy się w stanie G, od trajektorii kończącej się w stanie H.

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki – Przykład dla Frozen-Lake

Jak to działa dla Frozen-Lake?

Zachłanne podejście (γ = 0) w przypadku gry Frozen-Lake, mogłoby nigdy nie nauczyć agenta bezpiecznej trasy.

Zwiększając wartość współczynnika zdyskontowania, agent może odróżnić trajektorię, która kończy się w stanie G, od trajektorii kończącej się w stanie H.

25 / 33

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki – Przykład dla Frozen-Lake

Porównajmy jak działają dwie trajektorie z różnym γ

τ⁰ = [(0, 0), ↓, (0, 1), ↓, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), → , (3, 3)]

τ⁰⁰= [(0, 0), ↓, (1, 0), →, (1, 1)].

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki – Przykład dla Frozen-Lake

Porównajmy jak działają dwie trajektorie z różnym γ

τ⁰ = [(0, 0), ↓, (0, 1), ↓, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), →

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Zwrot z rozgrywki – Przykład dla Frozen-Lake

Porównajmy jak działają dwie trajektorie z różnym γ

τ⁰ = [(0, 0), ↓, (0, 1), ↓, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), →

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Strategia – Cel

Strategia

Zadaniem agenta jest nauczenie się strategii, czyli funkcji

π(s) = a, na podstawie której wybiera on akcje, maksymalizujące zdyskontowany zwrot.

Strategia stochastyczna

Nic nie stoi na przeszkodzie, aby strategia również była stochastyczna a ∼ π(·|s).

Na przykład robot-odkurzacz może przemieszczać się w nieregularny sposób i w dalszym ciągu istnieje szansa, że wykona swoje zadanie.

Trajektoria może być traktowana jako konkretna realizacja strategii.

27 / 33

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Strategia – Cel

Strategia

Zadaniem agenta jest nauczenie się strategii, czyli funkcji

π(s) = a, na podstawie której wybiera on akcje, maksymalizujące zdyskontowany zwrot.

Strategia stochastyczna

Nic nie stoi na przeszkodzie, aby strategia również była stochastyczna a ∼ π(·|s).

Na przykład robot-odkurzacz może przemieszczać się w nieregularny sposób i w dalszym ciągu istnieje szansa, że wykona swoje zadanie.

Trajektoria może być traktowana jako konkretna realizacja strategii.

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Strategia – Cel

Strategia

Zadaniem agenta jest nauczenie się strategii, czyli funkcji

π(s) = a, na podstawie której wybiera on akcje, maksymalizujące zdyskontowany zwrot.

Strategia stochastyczna

Nic nie stoi na przeszkodzie, aby strategia również była stochastyczna a ∼ π(·|s). Na przykład robot-odkurzacz może przemieszczać się w nieregularny sposób i w dalszym ciągu istnieje szansa, że wykona swoje zadanie.

Trajektoria może być traktowana jako konkretna realizacja strategii.

27 / 33

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Strategia – Cel

Strategia

Zadaniem agenta jest nauczenie się strategii, czyli funkcji

π(s) = a, na podstawie której wybiera on akcje, maksymalizujące zdyskontowany zwrot.

Strategia stochastyczna

Trajektoria może być traktowana jako konkretna realizacja

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Strategia – Cel

Jak znaleźć strategię?

Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).

Natomiast zadaniem uczenia się ze wzmocnieniem jest znalezienie strategii.

Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu

E_{τ ∼π}[R(τ )].

Co prowadzi nas do formalnej postaci problemu π^∗ = arg max

π Eτ ∼π[R(τ )], gdzie π^∗ nazywamy optymalną strategią.

28 / 33

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Strategia – Cel

Jak znaleźć strategię?

Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).

Natomiast zadaniem uczenia się ze wzmocnieniem jest znalezienie strategii.

Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu

E_{τ ∼π}[R(τ )].

Co prowadzi nas do formalnej postaci problemu π^∗ = arg max

π Eτ ∼π[R(τ )], gdzie π^∗ nazywamy optymalną strategią.

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Strategia – Cel

Jak znaleźć strategię?

Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).

Natomiast zadaniem uczenia się ze wzmocnieniem jest znalezienie strategii.

Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu

E_{τ ∼π}[R(τ )].

Co prowadzi nas do formalnej postaci problemu π^∗ = arg max

π Eτ ∼π[R(τ )], gdzie π^∗ nazywamy optymalną strategią.

28 / 33

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Strategia – Cel

Jak znaleźć strategię?

Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).

Natomiast zadaniem uczenia się ze wzmocnieniem jest znalezienie strategii.

Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu

E_{τ ∼π}[R(τ )].

Co prowadzi nas do formalnej postaci problemu π^∗ = arg max

π Eτ ∼π[R(τ )], gdzie π^∗ nazywamy optymalną strategią.

Wprowadzenie Uczenie agenta Podsumowanie

Zwrot z rozgrywki Strategia – Cel

Uczenie agenta

Strategia – Cel

Jak znaleźć strategię?

Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).

Natomiast zadaniem uczenia się ze wzmocnieniem jest znalezienie strategii.

Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu

E_{τ ∼π}[R(τ )].

Co prowadzi nas do formalnej postaci problemu π^∗ = arg max

π Eτ ∼π[R(τ )], gdzie π^∗ nazywamy optymalną strategią.

28 / 33

Wprowadzenie Uczenie agenta Podsumowanie

Materiały dodatkowe

Podsumowanie

Wprowadzenie Uczenie agenta Podsumowanie

Materiały dodatkowe

Podsumowanie

If intelligence is a cake, the bulk of the cake is unsupervised learning, the icing on the cake is supervised learning, and the cherry on the cake is reinforcement learning (RL).

Yann LeCun, Facebook AI Chief, NIPS 2016

30 / 33

Wprowadzenie Uczenie agenta Podsumowanie

Materiały dodatkowe

Podsumowanie

Do zapamiętania:

Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.

Bazuje on na uczeniu się z doświadczenia, co jest

umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.

Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.

Celem RL jest wypracowanie strategii bez posiadania przykładów.

Do oceny strategii służy zdyskontowany zwrot.

Wprowadzenie Uczenie agenta Podsumowanie

Materiały dodatkowe

Podsumowanie

Do zapamiętania:

Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.

Bazuje on na uczeniu się z doświadczenia, co jest

umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.

Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.

Celem RL jest wypracowanie strategii bez posiadania przykładów.

Do oceny strategii służy zdyskontowany zwrot.

31 / 33

Wprowadzenie Uczenie agenta Podsumowanie

Materiały dodatkowe

Podsumowanie

Do zapamiętania:

Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.

Bazuje on na uczeniu się z doświadczenia, co jest

umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.

Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.

Celem RL jest wypracowanie strategii bez posiadania przykładów.

Do oceny strategii służy zdyskontowany zwrot.

Wprowadzenie Uczenie agenta Podsumowanie

Materiały dodatkowe

Podsumowanie

Do zapamiętania:

Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.

Bazuje on na uczeniu się z doświadczenia, co jest

umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.

Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.

Celem RL jest wypracowanie strategii bez posiadania przykładów.

Do oceny strategii służy zdyskontowany zwrot.

31 / 33

Wprowadzenie Uczenie agenta Podsumowanie

Materiały dodatkowe

Podsumowanie

Do zapamiętania:

Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.

Bazuje on na uczeniu się z doświadczenia, co jest

umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.

Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.

Celem RL jest wypracowanie strategii bez posiadania przykładów.

Do oceny strategii służy zdyskontowany zwrot.

Wprowadzenie Uczenie agenta Podsumowanie

Materiały dodatkowe

Podsumowanie

AlphaGo - The Movie — Full Documentary, https://youtu.be/WXuK6gekU1Y

An introduction to Reinforcement Learning na Arxiv Insights, https://youtu.be/JgvyzIkgxF0

MIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL), https://youtu.be/zR11FLZ-O9M

32 / 33

Wprowadzenie Uczenie agenta Podsumowanie

Materiały dodatkowe

Podsumowanie

Następny wykład: Uczenie ze wzmocnieniem (II).

Następny+1 wykład: Uczenie maszynowe i mechanika kwantowa.

W dokumencie Wykład 13 – Uczenie ze wzmocnieniem (I) (Stron 68-110)