Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki
W jaki sposób określić cel agenta?
Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.
Agent zbiera informacje wykonując akcie i otrzymując nagrody.
Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.
W założeniu RL ma prowadzić do automatycznego
wypracowania strategii bez konieczności posiadania wiedzy o strategii prowadzącej do celu.
agent
środowisko
stan,nagrodast,rt
akcjaat
20 / 33
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki
W jaki sposób określić cel agenta?
Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.
Agent zbiera informacje wykonując akcie i otrzymując nagrody.
Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.
W założeniu RL ma prowadzić do automatycznego
wypracowania strategii bez konieczności posiadania wiedzy o strategii prowadzącej do celu.
agent
środowisko
stan,nagrodast,rt
akcjaat
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki
W jaki sposób określić cel agenta?
Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.
Agent zbiera informacje wykonując akcie i otrzymując nagrody.
Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.
W założeniu RL ma prowadzić do automatycznego
wypracowania strategii bez konieczności posiadania wiedzy o strategii prowadzącej do celu.
agent
środowisko
stan,nagrodast,rt
akcjaat
20 / 33
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki
W jaki sposób określić cel agenta?
Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.
Agent zbiera informacje wykonując akcie i otrzymując nagrody.
Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.
W założeniu RL ma prowadzić do automatycznego
wypracowania strategii bez konieczności posiadania wiedzy o strategii prowadzącej do celu.
agent
środowisko
stan,nagrodast,rt
akcjaat
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki
W jaki sposób określić cel agenta?
Informacje posiadane przez agenta są zbierane w trakcie kolejnych epizodów.
Agent zbiera informacje wykonując akcie i otrzymując nagrody.
Nie ma on informacji o tym czy jego sekwencja doprowadzi do wygranej.
W założeniu RL ma prowadzić do automatycznego
wypracowania strategii bez konieczności posiadania wiedzy o strategii prowadzącej do celu.
agent
środowisko
stan,nagrodast,rt
akcjaat
20 / 33
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki
W jaki sposób określić cel agenta?
Celem agenta jest maksymalizacja pewnego kryterium jakości zdefiniowanego przez nagrody otrzymywane w wyniku
wykonywanych akcji.
W zachłannym podejściu takim kryterium byłoby po prostu zbieranie możliwie maksymalnej nagrody w każdym kroku. Nie zawsze musi to być opłacalne – czasem warto wykonać akcję, która nie daje zysku. Np. w szachach czasem lepiej poświęcić jakieś bierki, aby (w dłuższej perspektywie) zbić króla przeciwnika.
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki
W jaki sposób określić cel agenta?
Celem agenta jest maksymalizacja pewnego kryterium jakości zdefiniowanego przez nagrody otrzymywane w wyniku
wykonywanych akcji.
W zachłannym podejściu takim kryterium byłoby po prostu zbieranie możliwie maksymalnej nagrody w każdym kroku. Nie zawsze musi to być opłacalne – czasem warto wykonać akcję, która nie daje zysku. Np. w szachach czasem lepiej poświęcić jakieś bierki, aby (w dłuższej perspektywie) zbić króla przeciwnika.
21 / 33
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki
W jaki sposób określić cel agenta?
Celem agenta jest maksymalizacja pewnego kryterium jakości zdefiniowanego przez nagrody otrzymywane w wyniku
wykonywanych akcji.
W zachłannym podejściu takim kryterium byłoby po prostu zbieranie możliwie maksymalnej nagrody w każdym kroku.
Nie zawsze musi to być opłacalne – czasem warto wykonać akcję, która nie daje zysku. Np. w szachach czasem lepiej poświęcić jakieś bierki, aby (w dłuższej perspektywie) zbić króla przeciwnika.
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki
W jaki sposób określić cel agenta?
Celem agenta jest maksymalizacja pewnego kryterium jakości zdefiniowanego przez nagrody otrzymywane w wyniku
wykonywanych akcji.
W zachłannym podejściu takim kryterium byłoby po prostu zbieranie możliwie maksymalnej nagrody w każdym kroku.
Nie zawsze musi to być opłacalne – czasem warto wykonać akcję, która nie daje zysku. Np. w szachach czasem lepiej poświęcić jakieś bierki, aby (w dłuższej perspektywie) zbić króla przeciwnika.
21 / 33
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki
Do określenia celu agenta powszechnie używanym kryterium jest zdyskontowany zwrot lub zdyskontowana kumulatywna nagroda danej trajektorii
R(τ ) =
∞
X
t=0
γtrt,
gdzie γ ∈ [0, 1] nazywamy współczynnikiem zdyskontowania (gdzie 00= 1).
∞
Powyższa suma zakończona jest w nieskończoności. W praktyce każdy program musi się kiedyś skończyć.
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki
Do określenia celu agenta powszechnie używanym kryterium jest zdyskontowany zwrot lub zdyskontowana kumulatywna nagroda danej trajektorii
R(τ ) =
∞
X
t=0
γtrt,
gdzie γ ∈ [0, 1] nazywamy współczynnikiem zdyskontowania (gdzie 00= 1).
∞
Powyższa suma zakończona jest w nieskończoności. W praktyce każdy program musi się kiedyś skończyć.
22 / 33
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki
Trajektorie Pojęcie trajektorii
τ = (s0, a0, a1, s1, . . .),
opisuje konkretną sekwencję (stan, akcja), która kończy się w pewnym stanie terminalnym.
Konkretna trajektoria odpowiada realizacji pojedynczego epizodu, np. jednej rozgrywce partii szachów, jednemu przejściu przez planszę Frozen-Lake.
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki
Trajektorie Pojęcie trajektorii
τ = (s0, a0, a1, s1, . . .),
opisuje konkretną sekwencję (stan, akcja), która kończy się w pewnym stanie terminalnym.
Konkretna trajektoria odpowiada realizacji pojedynczego epizodu, np. jednej rozgrywce partii szachów, jednemu przejściu przez planszę Frozen-Lake.
23 / 33
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki
Horyzont zwrotu
R(τ ) =
∞
X
t=0
γtrt,
Parametr γ określa długość horyzontu zwrotu.
Im γ bliżej zera, tym bardziej agent postępuje zachłannie. Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.
Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki
Horyzont zwrotu
R(τ ) =
∞
X
t=0
γtrt,
Parametr γ określa długość horyzontu zwrotu.
Im γ bliżej zera, tym bardziej agent postępuje zachłannie. Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.
Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.
24 / 33
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki
Horyzont zwrotu
R(τ ) =
∞
X
t=0
γtrt,
Parametr γ określa długość horyzontu zwrotu.
Im γ bliżej zera, tym bardziej agent postępuje zachłannie.
Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.
Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki
Horyzont zwrotu
R(τ ) =
∞
X
t=0
γtrt,
Parametr γ określa długość horyzontu zwrotu.
Im γ bliżej zera, tym bardziej agent postępuje zachłannie.
Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.
Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.
24 / 33
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki
Horyzont zwrotu
R(τ ) =
∞
X
t=0
γtrt,
Parametr γ określa długość horyzontu zwrotu.
Im γ bliżej zera, tym bardziej agent postępuje zachłannie.
Im bliżej jedynki, tym bardziej nagrody z przyszłości stają się ważne.
Przypadek graniczny oznacza, że dowolna nagroda z przyszłości jest tak samo ważna jak ta, którą dostaniemy w tym kroku.
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki – Przykład dla Frozen-Lake
Jak to działa dla Frozen-Lake?
Zachłanne podejście (γ = 0) w przypadku gry Frozen-Lake, mogłoby nigdy nie nauczyć agenta bezpiecznej trasy. Zwiększając wartość współczynnika zdyskontowania, agent może odróżnić trajektorię, która kończy się w stanie G, od trajektorii kończącej się w stanie H.
25 / 33
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki – Przykład dla Frozen-Lake
Jak to działa dla Frozen-Lake?
Zachłanne podejście (γ = 0) w przypadku gry Frozen-Lake, mogłoby nigdy nie nauczyć agenta bezpiecznej trasy.
Zwiększając wartość współczynnika zdyskontowania, agent może odróżnić trajektorię, która kończy się w stanie G, od trajektorii kończącej się w stanie H.
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki – Przykład dla Frozen-Lake
Jak to działa dla Frozen-Lake?
Zachłanne podejście (γ = 0) w przypadku gry Frozen-Lake, mogłoby nigdy nie nauczyć agenta bezpiecznej trasy.
Zwiększając wartość współczynnika zdyskontowania, agent może odróżnić trajektorię, która kończy się w stanie G, od trajektorii kończącej się w stanie H.
25 / 33
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki – Przykład dla Frozen-Lake
Porównajmy jak działają dwie trajektorie z różnym γ
τ0 = [(0, 0), ↓, (0, 1), ↓, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), → , (3, 3)]
τ00= [(0, 0), ↓, (1, 0), →, (1, 1)].
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki – Przykład dla Frozen-Lake
Porównajmy jak działają dwie trajektorie z różnym γ
τ0 = [(0, 0), ↓, (0, 1), ↓, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), →
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Zwrot z rozgrywki – Przykład dla Frozen-Lake
Porównajmy jak działają dwie trajektorie z różnym γ
τ0 = [(0, 0), ↓, (0, 1), ↓, (0, 2), →, (1, 2), ↓, (1, 3), →, (2, 3), →
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Strategia – Cel
Strategia
Zadaniem agenta jest nauczenie się strategii, czyli funkcji
π(s) = a, na podstawie której wybiera on akcje, maksymalizujące zdyskontowany zwrot.
Strategia stochastyczna
Nic nie stoi na przeszkodzie, aby strategia również była stochastyczna a ∼ π(·|s).
Na przykład robot-odkurzacz może przemieszczać się w nieregularny sposób i w dalszym ciągu istnieje szansa, że wykona swoje zadanie.
Trajektoria może być traktowana jako konkretna realizacja strategii.
27 / 33
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Strategia – Cel
Strategia
Zadaniem agenta jest nauczenie się strategii, czyli funkcji
π(s) = a, na podstawie której wybiera on akcje, maksymalizujące zdyskontowany zwrot.
Strategia stochastyczna
Nic nie stoi na przeszkodzie, aby strategia również była stochastyczna a ∼ π(·|s).
Na przykład robot-odkurzacz może przemieszczać się w nieregularny sposób i w dalszym ciągu istnieje szansa, że wykona swoje zadanie.
Trajektoria może być traktowana jako konkretna realizacja strategii.
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Strategia – Cel
Strategia
Zadaniem agenta jest nauczenie się strategii, czyli funkcji
π(s) = a, na podstawie której wybiera on akcje, maksymalizujące zdyskontowany zwrot.
Strategia stochastyczna
Nic nie stoi na przeszkodzie, aby strategia również była stochastyczna a ∼ π(·|s). Na przykład robot-odkurzacz może przemieszczać się w nieregularny sposób i w dalszym ciągu istnieje szansa, że wykona swoje zadanie.
Trajektoria może być traktowana jako konkretna realizacja strategii.
27 / 33
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Strategia – Cel
Strategia
Zadaniem agenta jest nauczenie się strategii, czyli funkcji
π(s) = a, na podstawie której wybiera on akcje, maksymalizujące zdyskontowany zwrot.
Strategia stochastyczna
Nic nie stoi na przeszkodzie, aby strategia również była stochastyczna a ∼ π(·|s). Na przykład robot-odkurzacz może przemieszczać się w nieregularny sposób i w dalszym ciągu istnieje szansa, że wykona swoje zadanie.
Trajektoria może być traktowana jako konkretna realizacja
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Strategia – Cel
Jak znaleźć strategię?
Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).
Natomiast zadaniem uczenia się ze wzmocnieniem jest znalezienie strategii.
Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu
Eτ ∼π[R(τ )].
Co prowadzi nas do formalnej postaci problemu π∗ = arg max
π Eτ ∼π[R(τ )], gdzie π∗ nazywamy optymalną strategią.
28 / 33
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Strategia – Cel
Jak znaleźć strategię?
Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).
Natomiast zadaniem uczenia się ze wzmocnieniem jest znalezienie strategii.
Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu
Eτ ∼π[R(τ )].
Co prowadzi nas do formalnej postaci problemu π∗ = arg max
π Eτ ∼π[R(τ )], gdzie π∗ nazywamy optymalną strategią.
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Strategia – Cel
Jak znaleźć strategię?
Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).
Natomiast zadaniem uczenia się ze wzmocnieniem jest znalezienie strategii.
Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu
Eτ ∼π[R(τ )].
Co prowadzi nas do formalnej postaci problemu π∗ = arg max
π Eτ ∼π[R(τ )], gdzie π∗ nazywamy optymalną strategią.
28 / 33
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Strategia – Cel
Jak znaleźć strategię?
Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).
Natomiast zadaniem uczenia się ze wzmocnieniem jest znalezienie strategii.
Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu
Eτ ∼π[R(τ )].
Co prowadzi nas do formalnej postaci problemu π∗ = arg max
π Eτ ∼π[R(τ )], gdzie π∗ nazywamy optymalną strategią.
Wprowadzenie Uczenie agenta Podsumowanie
Zwrot z rozgrywki Strategia – Cel
Uczenie agenta
Strategia – Cel
Jak znaleźć strategię?
Zdyskontowany zwrot jest dobrym sposobem oceny konkretnej trajektorii (czyli konkretnej realizacji strategii).
Natomiast zadaniem uczenia się ze wzmocnieniem jest znalezienie strategii.
Znajdowanie strategii można opisać jako optymalizację oczekiwanego zwrotu
Eτ ∼π[R(τ )].
Co prowadzi nas do formalnej postaci problemu π∗ = arg max
π Eτ ∼π[R(τ )], gdzie π∗ nazywamy optymalną strategią.
28 / 33
Wprowadzenie Uczenie agenta Podsumowanie
Materiały dodatkowe
Podsumowanie
Wprowadzenie Uczenie agenta Podsumowanie
Materiały dodatkowe
Podsumowanie
If intelligence is a cake, the bulk of the cake is unsupervised learning, the icing on the cake is supervised learning, and the cherry on the cake is reinforcement learning (RL).
Yann LeCun, Facebook AI Chief, NIPS 2016
30 / 33
Wprowadzenie Uczenie agenta Podsumowanie
Materiały dodatkowe
Podsumowanie
Do zapamiętania:
Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.
Bazuje on na uczeniu się z doświadczenia, co jest
umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.
Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.
Celem RL jest wypracowanie strategii bez posiadania przykładów.
Do oceny strategii służy zdyskontowany zwrot.
Wprowadzenie Uczenie agenta Podsumowanie
Materiały dodatkowe
Podsumowanie
Do zapamiętania:
Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.
Bazuje on na uczeniu się z doświadczenia, co jest
umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.
Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.
Celem RL jest wypracowanie strategii bez posiadania przykładów.
Do oceny strategii służy zdyskontowany zwrot.
31 / 33
Wprowadzenie Uczenie agenta Podsumowanie
Materiały dodatkowe
Podsumowanie
Do zapamiętania:
Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.
Bazuje on na uczeniu się z doświadczenia, co jest
umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.
Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.
Celem RL jest wypracowanie strategii bez posiadania przykładów.
Do oceny strategii służy zdyskontowany zwrot.
Wprowadzenie Uczenie agenta Podsumowanie
Materiały dodatkowe
Podsumowanie
Do zapamiętania:
Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.
Bazuje on na uczeniu się z doświadczenia, co jest
umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.
Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.
Celem RL jest wypracowanie strategii bez posiadania przykładów.
Do oceny strategii służy zdyskontowany zwrot.
31 / 33
Wprowadzenie Uczenie agenta Podsumowanie
Materiały dodatkowe
Podsumowanie
Do zapamiętania:
Uczenie ze wzmocnieniem to trzeci – obok uczenia nadzorowanego i uczenie nienadzorowanego – paradygmat uczenia maszynowego.
Bazuje on na uczeniu się z doświadczenia, co jest
umotywowane sposobem uczenia się zwierząt. Nadaje się do opisu szerokiego zakresu sytuacji.
Podstawowe pojęcia wspólne dla algorytmów z tego zakresu to stan, akcja i nagroda.
Celem RL jest wypracowanie strategii bez posiadania przykładów.
Do oceny strategii służy zdyskontowany zwrot.
Wprowadzenie Uczenie agenta Podsumowanie
Materiały dodatkowe
Podsumowanie
AlphaGo - The Movie — Full Documentary, https://youtu.be/WXuK6gekU1Y
An introduction to Reinforcement Learning na Arxiv Insights, https://youtu.be/JgvyzIkgxF0
MIT 6.S091: Introduction to Deep Reinforcement Learning (Deep RL), https://youtu.be/zR11FLZ-O9M
32 / 33
Wprowadzenie Uczenie agenta Podsumowanie
Materiały dodatkowe
Podsumowanie
Następny wykład: Uczenie ze wzmocnieniem (II).
Następny+1 wykład: Uczenie maszynowe i mechanika kwantowa.