Zastosowanie algorytmów uczenia przez wzmacnianie w układzie wyznaczania trajektorii zadanej manewrującego statku

(1)

ZASTOSOWANIE ALGORYTMÓW UCZENIA

PRZEZ WZMACNIANIE W UKŁADZIE WYZNACZANIA

TRAJEKTORII ZADANEJ MANEWRUJĄCEGO STATKU

Artykuł przedstawia koncepcję autonomicznego generowania trajektorii zadanej w elektronawigacyj-nym układzie sterowania ruchem statku. Trajektoria ta wyznaczana jest na podstawie informacji o docelowej pozycji statku, dostarczonej przez operatora oraz sytuacji nawigacyjnej, określanej poprzez zestaw urządzeń elektronawigacyjnych. Działanie układu opiera się na wykorzystaniu algo-rytmów uczenia przez wzmacnianie. W artykule przedstawiono zasady działania tych algoalgo-rytmów zarówno w wersji dyskretnej, jak i ciągłej – z aproksymacją przestrzeni stanu. Wyznaczana trajekto-ria może być realizowana w autopilocie okrętowym wyposażonym w wielowymiarowy, nieliniowy regulator kursu i położenia.

Słowa kluczowe: autopilot okrętowy, generowanie trajektorii, LSPI: least-squares policy iteration, regulator wielowymiarowy, sterowanie ruchem statku, uczenie przez wzmacnianie.

WSTĘP

Nowoczesne układy elektronawigacyjne statku zawierają coraz więcej ele-mentów, które zwiększają ich autonomię względem operatora. Początkowo autopi-lot okrętowy zastąpił sternika, a radar zmniejszył liczbę niezbędnych marynarzy wachtowych. Później autopiloty wykorzystujące paradygmaty sterowania adapta-cyjnego, optymalnego czy odpornego wyeliminowały potrzebę nastrajania nastaw regulatora autopilota przez oficera wachtowego. Kolejnym krokiem było zastoso-wanie układów oceny sytuacji nawigacyjnej za pomocą systemów antykolizyjnych. Współcześnie wszystkie te elementy wraz z satelitarnymi układami określania po-zycji, systemem identyfikacji AIS, mapą elektroniczną, nowoczesnymi urządze-niami elektronawigacyjnymi łączy się w system mostka zintegrowanego – IBS (ang. Integrated Bridge System) [3]. System ten w dużym stopniu przejmuje z za-kresu czynności nawigatora wiele rutynowych procedur, sytuując go w roli nadzo-rującego i podejmującego kluczowe decyzje [8].

Jednym z elementów IBS, dla którego wciąż poszukuje się nowych, skutecz-nych rozwiązań, jest wyznaczanie trajektorii zadanej (sekwencji manewrów) statku podczas manewrowania z niewielkimi prędkościami w porcie i podczas cumowa-nia. Błędy operatora podczas tej fazy sterowania ruchem statku są częstą przyczyną

(2)

wypadków morskich. Coraz większe zainteresowanie budzi również możliwość eksploatacji w pełni autonomicznych jednostek pływających – ASF (ang. Autono-mous Surface Vehicle), dla których taki układ jest niezbędny.

Niniejszy artykuł przedstawia próbę zastosowania paradygmatu uczenia przez wzmacnianie RL (ang. Reinforcement Learning) do rozwiązania przedstawionego wyżej zagadnienia1. Dotychczasowe nieliczne próby aplikacji tychże algorytmów do sterowania ruchem statku dotyczyły sterowania poza obszarami portowymi [7, 14].

W dalszej części omówiono formalne podstawy matematyczne algorytmów RL oraz ich najbardziej popularne odmiany. Przedyskutowano wady i zalety wy-branych algorytmów i przedstawiono wyniki badań symulacyjnych wyznaczania sekwencji manewrów modelu statku o trzech stopniach swobody za pomocą algo-rytmów RL.

1. UCZENIE PRZEZ WZMACNIANIE I PROCESY DECYZYJNE MARKOWA Algorytm uczenia przez wzmacnianie jest w dużym uogólnieniu rekurencyjną procedurą zdobywania wiedzy metodą prób i błędów [11]. W kontekście termino-logii stosowanej w teorii sterowania można powiedzieć, iż regulator (agent) wcho-dzi w interakcję z obiektem (procesem, środowiskiem) sterowania za pomocą trzech sygnałów: stanu x, sterowania (akcji) u oraz nagrody (kosztu sterowania) r. W każdym kroku algorytmu regulator obserwuje stan x_k obiektu, a następnie wy-konuje akcję uk, przeprowadzającą obiekt do następnego stanu xk+1. Jednocześnie

regulator otrzymuje sygnał wartościujący wykonaną akcję w postaci nagrody r. Po otrzymaniu nagrody regulator wykonuje kolejny krok algorytmu. Interakcje te przedstawia schematycznie rysunek 1.

stan x akcja u nagroda r Funkcja nagrody Regulator Proces

Rys. 1. Interakcje w procesie uczenia przez wzmacnianie Fig. 1. Interactions in the reinforcement learning process

1_{W polskiej literaturze przedmiotu częściej spotykanym tłumaczeniem terminu angielskiego reinforcement}

learning jest „uczenie ze wzmocnieniem”. Autor skłania się jednak do formy „uczenie przez wzmacnianie”, używanej w nielicznych publikacjach [13], gdyż, jego zdaniem, znacznie lepiej oddaje sens oryginału.

(3)

Zasadniczym celem procesu uczenia jest wypracowanie takiej strategii wybo-ru akcji przez regulator, która będzie maksymalizować sumę nagród (minimalizo-wać koszt sterowania) dla trajektorii prowadzącej do określonego wcześniej stanu docelowego, realizującego cel sterowania.

Łatwo zauważyć, że kluczowym elementem tego algorytmu jest określenie funkcji generowania nagród oraz wyboru akcji. Formalny opis algorytmu opiera się na teorii procesów decyzyjnych Markowa (ang. Markov Decision Process – MDP) [2]. Aby dostosować się do tego wymogu, trzeba wprowadzić czwórkę:

(

X,U, f,ρ

)

(1)

gdzie:

{

x,x , ,xn

}

=

X 1 2… – skończony zbiór stanów,

{

u ,u , ,un

}

=

U 1 2… – skończony zbiór akcji.

Regulator wybiera akcję zgodnie ze swoją strategią h:X →Uokreśloną jako:

( )

k k=h x

u (2)

Zależnośćf :X×U→X jest funkcją przejść stanów określającą stan w następ-nym kroku algorytmu:

(

k k

)

+

k = f x ,u

x ₁ ₍₃₎

W tym samym momencie regulator uzyskuje rzeczywistoliczbową nagrodę, określoną przez wartość funkcji ρ :X×U →R:

(

k k

)

+

k =ρ x ,u

r ₁ ₍₄₎

dla której zakłada się ρ_∞=sup_x,_u

|

ρ

( )

x,u

|

.

Mając na uwadze powyższe definicje, łatwo zauważyć, że znajomość funkcji f i h oraz bieżącego stanu x_k i akcji u_k jest wystarczająca do określenia następnego stanu x_k+1, jak i nagrody r_k. Proces uczenia za pomocą wzmocnienia spełnia zatem warunki wymagane dla procesu decyzyjnego Markowa.

2. UCZENIE W DYSKRETNEJ I CIĄGŁEJ PRZESTRZENI STANÓW Powyżej zdefiniowane pojęcia pozwalają na wyjaśnienie wybranych algoryt-mów uczenia przez wzmacnianie w klasycznej, dyskretnej wersji oraz w wersji rozszerzonej, dla ciągłej przestrzeni stanów.

(4)

2.1. Algorytm uczenia przez wzmacnianie dla dyskretnej przestrzeni stanów Jak już wspomniano wyżej, podstawą działania wszystkich algorytmów RL jest określenie strategii, która będzie maksymalizować długoterminową sumę na-gród otrzymanych podczas pokonywania trajektorii z dowolnego stanu początko-wego x₀. Sumę taką często nazywa się zwrotem (ang. return) i definiuje w postaci:

( )

0

(

( )

)

0 h k k k k= R x =

∑

∞ γ ρ x ,h x (5)

gdzie γ oznacza współczynnik dyskontowania odpowiedzialny za równowagę po-między zbieżnością algorytmu a jego dokładnością.

W praktycznym przypadku powyższa nieskończona suma jest ograniczona do liczby kroków algorytmu dla danej trajektorii.

Formalną reprezentacją strategii w algorytmach uczenia przez wzmacnianie jest funkcja wartości określana dla stanu lub pary stan-akcja. W niniejszych rozwa-żaniach używana będzie ta druga forma, nazywana Q-funkcją, zdefiniowana jako odwzorowanieQh:X×U →R,określające nagrodę za wybranie akcji u w stanie x zgodnie ze strategią h, zsumowaną z wartością zwrotu Rh dla następnego stanu [11]:

( ) ( )

x,u =ρ x,u +γR

(

f

( )

x,u

)

Qh h ₍₆₎

Optymalną funkcją wartości Q* nazywa się najlepszą funkcję (osiągającą największą wartość) dla dowolnej strategii. Natomiast strategię wybierającą dla każdego stanu akcję, przynoszącą największą wartość Q, nazywa się strategią za-chłanną dla Q:

( )

arg max

( )

h

h x ∈ Q x,u (7)

Poszukiwanie optymalnej strategii przeprowadza się zatem, znajdując naj-pierw funkcję Q* maksymalizującą (6), a następnie strategię zachłanną dla tej funkcji według zależności (7).

Jeżeli sterowany proces (rys. 1) jest znany, tzn. jego model jest poprawny i dokładnie określony, można powyższe zagadnienie rozwiązać metodami progra-mowania dynamicznego [2]. W sytuacji odnajdowania trajektorii informacje o pro-cesie (rozległości akwenu, przeszkodach nawigacyjnych, dostępnych torach wod-nych) zbierane są w trakcie interakcji układu ze środowiskiem (patrz pkt 3) [9]. W tej sytuacji optymalna funkcja wartości może być estymowana algorytmem Q-Learning, który jest najpopularniejszą procedurą uczenia przez wzmacnianie. Można go określić jako rekurencyjne równanie w formie:

(

)

(

)

(

)

(

)

1 1 max 1 k+ k k k k k k k+ k k+ k k k u Q x ,u = Q x ,u +α r + γ Q x ,u' Q x ,u ′ ⎡ ₋ ⎤ ⎣ ⎦ (8)

(5)

gdzieα_k∈(0,1] oznacza stałą uczenia. Wyrażenie pomiędzy nawiasami kwadrato-wymi oznacza różnicę czasową, tzn. różnice pomiędzy nową estymatą

(

)

1 max 1

k+ k k+

u

r + γ Q x ,u'

′ optymalnej Q-funkcji dla

(

xk,uk

)

i bieżącą estymatą

(

k k

)

k x ,u

Q . Wraz ze zbliżaniem się liczby kroków algorytmu (8) do nieskończoności wartość Q-funkcji zbliża się do Q* pod łatwymi do spełnienia warunkami określo-nymi w [12].

2.2. Uczenie przez wzmacnianie dla ciągłej przestrzeni stanów

Opisany w poprzednim punkcie algorytm dla dyskretnej przestrzeni stanów posiada kilka ograniczeń. Przede wszystkim poszukiwana funkcja wartości akcji musi być zapisana explicite w tablicy. Dla dużych lub wielowymiarowych prze-strzeni stanu i akcji skonstruowanie takiej tablicy może być bardzo kosztowne lub wręcz niemożliwe. Niektóre procesy wymagają ciągłego sygnału sterującego lub sygnału o bardzo dużej gęstości próbkowania, wówczas zapis tablicowy funkcji staje się całkowicie nieprzydatny. Aby pokonać te niedogodności, wprowadza się zapis funkcji wartości w postaci ciągłej przestrzeni aproksymowanej parametrycz-nie. Algorytm nie przechowuje wówczas olbrzymiego zbioru wartości funkcji, lecz dużo mniejszy zbiór parametrów, na podstawie których wartości te są aproksymo-wane [1, 10].

Rozważmy aproksymator Q-funkcji parametryzowany n-wymiarowym wekto-rem θ. Aproksymator realizuje odwzorowanie F R: n→ℑ, gdzie Rn jest prze-strzenią parametrów, a

ℑ

– przestrzenią Q-funkcji. Każdy wektor parametrów θ stanowi zwięzłą reprezentację odpowiadającej mu aproksymowanej Q-funkcji [5]:

( )

x,u =

[

F

( )

θ

]( )

x,u,

Q (9)

dla której ⎡_⎣F θ

( ) ( )

⎤_⎦ x,u oznacza wartość Q-funkcji wyznaczaną dla pary stan-akcja

( )

x,u .

Zamiast przechowywania poszczególnych wartości funkcji Q dla każdej pary

( )

x,u wystarczy zatem teraz zapisywać n parametrów. Jednakże należy pamiętać, że zbiór Q-funkcji, reprezentowany przez F, jest tylko podzbiorem ℑ dlatego też , obciąża on reprezentację każdej funkcji błędem aproksymacji.

Odwzorowanie F

( )

θ ma zazwyczaj charakter nieliniowy, chociaż w praktycz-nych zastosowaniach spotyka się częściej formę liniową, ze względu na ułatwienia w analizie algorytmów RL. W niniejszych rozważaniach zastosowano aproksyma-tor złożony z n Gaussowskich, znormalizowanych funkcji bazowych (BF)

R → ×

… n:X U

1, φ

φ i n-wymiarowy wektor parametrów θ. Zatem

aproksymowa-ne wartości funkcji mogą być obliczaaproksymowa-ne jako:

( ) ( )

( )

1 n T l l l=

F θ x,u = ϕ x,u θ =ϕ x,u θ

⎡ ⎤

(6)

Niech: 1 1 1 1 1 ( ) ( ) ( ) ( ) ( ) ( ) T 1 1 k 1 T

|X| |U| |X| |U| k |X| |U|

x ,u x ,u x ,u Φ x ,u x ,u x ,u ϕ ϕ ϕ ϕ ϕ ϕ ⎡ ⎤ ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ =_⎢ _{⎥ ⎢}= _⎥ ⎢ ⎥ ⎢_⎣ ⎥_⎦ ⎣ ⎦ L M M O M L (11) Mamy wówczas h h ˆQ =Φθ (12)

Odnosząc powyższe do definicji funkcji wartości (6) i pamiętając, że Qˆh jest rzutem _Qh na przestrzeń Φ, otrzymujemy zależność:

( )

T h T

Φ Φ γPΦ θ = Φ R− (13)

gdzie P jest diagonalną macierzą wag.

Jeżeli podstawimy: A= Φ Φ γ ΦT( − P )oraz b=ΦTR,to wyznaczenie wektora parametrów aproksymatora będzie równoznaczne z rozwiązaniem równania

, b = Aθh _czyli: h 1 θ = A b− ₍₁₄₎

Mając do dyspozycji dane o procesie, zebrane podczas interakcji w postaci

{

( )

}

1

L i i i i _i=

D = x ,u ,r ,x' ,przybliżenie macierzy A i b można wyznaczyć z równań:

(

)

1 1 L ₍ _{) (} ₎ ₍ _{( ))} _T ' ' i i i i i i i= ˆA=_L

_∑

⎡_⎣ϕ x ,u ϕ x ,u −γ x ,h xϕ ⎤_⎦ (15) 1 1 L ₍ ₎ i i i i= ˆb= _L

_∑

ϕ x ,u r (16) Funkcja wart. Qh Strategia h Aktualizacja strategii Aktualizacja wartości Dane z interakcji

Rys. 2. Algorytm iteracji strategii Fig. 2. Policy iteration algorithm

Jeżeli dane z procesu dostarczane są „krok po kroku”, zależności (15) i (16) można stosować również w wersji rekurencyjnej [6].

(7)

Ostatecznie, biorąc pod uwagę powyższe rozważania, można określić algo-rytm uczenia przez wzmacnianie w wersji ciągłej jako rekurencyjną procedurę, w której naprzemiennie wykonuje się dwie operacje (rys. 2):

• na podstawie danych z procesu i zależności (14–16) wyznacza się przybliżenie wektora parametrów θ = A bh ˆ−1ˆ ;

• mając do dyspozycji aproksymację funkcji wartości dla aktualnego wektora parametrów, poszukuje się dla niej strategii zachłannej według reguły analo-gicznej do (7):

( ) arg max ( )T u

h' x = ϕ x,u θ (17)

Algorytm kończy pracę, gdy θ θ' < ε,− przy czym określenie dopuszczalne-go uchybu ε należy do projektanta systemu.

Algorytm ten jest jednym z najpopularniejszych dla uczenia przez wzmacnia-nie dla ciągłej przestrzeni stanów i akcji. Istwzmacnia-nieje kilka jego modyfikacji [6]. Jest powszechnie nazywany od angielskiego akronimu LSPI (Least-Squares Policy Iteration).

3. KONCEPCJA AUTONOMICZNEGO OKREŚLANIA TRAJEKTORII ZADANEJ MANEWRUJĄCEGO STATKU

Jak już wspomniano we wstępie, algorytmy uczenia przez wzmacnianie mogą być wykorzystane do określania trajektorii statku manewrującego na podejściu do portu lub w porcie. Zagadnienie to jest z natury procesem sterowania wielowymia-rowego, gdyż statek porusza się wówczas z niewielkimi prędkościami i efektywne staje się wykorzystanie aktywnych pędników, takich jak np. stery strumieniowe w przeciwieństwie do pasywnej płetwy sterowej. Sygnałami sterowanymi są za-zwyczaj kurs i pozycja statku na akwenie [4].

Koncepcję rozszerzenia systemu sterowania ruchem statku o proponowany blok generatora trajektorii przedstawia rysunek 3. Sygnałem wejściowym do tego modułu byłaby informacja o bieżącej i zadanej (końcowej) pozycji manewrującego statku oraz informacja o bieżącej sytuacji nawigacyjnej. Pozycję docelową statku zadawałby operator, natomiast pozostałe sygnały mogą być uzyskane za pośrednic-twem urządzeń elektronawigacyjnych, takich jak GPS, AIS, mapa elektroniczna czy radar. Wypracowaną trajektorię w postaci sekwencji manewrów dla poszcze-gólnych etapów zadania należałoby podawać na wejście regulatora trajektorii, współpracującego z wielowymiarowym regulatorem wyznaczającym sygnały ste-rujące bezpośrednio do urządzeń wykonawczych (pędników) statku.

(8)

Urządzenia wykonawcze Regulator wielowy-miarowy Regulator trajektorii Urządzenia pomiarowe Generator trajektorii Pozycja mierzona (x, y, ) Zadana pozycja końcowa

(x_z, y_z, _z) Filtracja Odtwarzanie zmiennych u, v, r Trajektoria zadana (sekwencja) + + -x, y, -{x₁, y₁, ₁} {x₂, y₂ ₂} : : {xn, yn n} Sytuacja nawigacyjna (mapa ) ψ ψ ψ , ψ , ψ ψ

Rys. 3. Schemat blokowy rozszerzonego układu sterowania ruchem statku Fig. 3. Block diagram of the augmented ship motion control system

4. WYNIKI BADAŃ ALGORYTMÓW

Algorytmy przedstawione w drugiej części niniejszego artykułu zostały zaim-plementowane w języku MATLAB2.

Rysunek 4 przedstawia wyniki obliczeń dla przypadku przestrzeni dyskretnej. Zastosowany algorytm uczył się trajektorii przejścia pomiędzy dwoma punktami on-line. Uzyskana funkcja wartości, oznaczona kolorem od ciemnoczerwonego do niebieskiego, dość dobrze oddaje charakter zadania polegającego na dotarciu do punktu docelowego.

Jednakże, mimo znacznej liczby epizodów uczenia (25 000), uzyskana strate-gia prowadzi do poprawnego rozwiązania tylko w okolicach pokazanej trajektorii minimalizującej koszt przejścia, choć w zadaniu zastosowano 10% współczynnik wymuszania eksploracji przestrzeni stanu [11]. Szczególnie jest to widoczne po lewej stronie płaszczyzny – dla stanów, które algorytm odwiedzał najrzadziej. Jest to naturalna cecha użytej wersji algorytmu, co umniejsza jednak poziom ogólności rozwiązania. Główną wadą prezentowanego rozwiązania jest znaczny wzrost kosz-tów obliczeń pojawiający się wraz ze wzrostem przestrzeni stanu.

2_{W pracy wykorzystano wybrane pliki biblioteczne z dołączonych do pozycji [1] oraz do [11] dostępnych}

(9)

2 4 6 8 10 12 14 2 4 6 8 10 12 14

Rys. 4. Płaszczyzna funkcji wartości dla dyskretnej przestrzeni stanu (15x15) i uzyskana trajektoria. Zadany punkt początkowy (9,14), końcowy (14,2). Wektory ilustrują uzyskaną strategię. Kolorem granatowym oznaczono przeszkody Fig. 4. Value function for the discrete state space (15x15) and the resulting trajectory.

Starting point (9,14), goal (14,2). Vectors illustrates obtained policy. Obstacles are coloured dark blue

Rysunek 5 przedstawia natomiast wyniki obliczeń dla przypadku ciągłej (aproksymowanej) przestrzeni stanu. Proces uczenia odbywał się off-line dla wielu próbek procesu jednocześnie. Algorytm wykonał tylko 6 iteracji dla zestawu 8000 próbek. Jest to podejście wskazane ze względu na wydajniejsze działanie algoryt-mu aproksymacji. Jak łatwo zauważyć, rozwiązanie podaje poprawną strategię niemal dla dowolnego punktu początkowego na płaszczyźnie. Zastosowanie przy-jętego aproksymatora w postaci sieci 25 funkcji RBF spowodowało „wygładzenie” funkcji wartości wokół przeszkody. Prowadzi to do sytuacji, w której trajektorie omijające przeszkodę nie będą wystarczająco minimalizowały kosztów przejścia. Należy zauważyć, że algorytm ten nie jest tak wrażliwy jak wersja dyskretna na zwiększanie przestrzeni stanu.

(10)

Rys. 5. Płaszczyzna funkcji wartości dla ciągłej przestrzeni stanu 50x50 i zadanego punktu końcowego (40,15). Wektory ilustrują wyznaczoną strategię.

Kolorem czarnym oznaczono przeszkodę

Fig. 5. Value function for the continuous state space (50x50) and the goal point (40,15). Vectors illustrates obtained policy. Obstacle is coloured black

WNIOSKI

Przeprowadzone badania wskazują, że wybrane algorytmy uczenia przez wzmacnianie mogą służyć do wyznaczania trajektorii zadanej manewrującego stat-ku. Algorytm dla dyskretnej, zapisanej w tablicy przestrzeni stanu jest szczególnie wrażliwy na jej wielkość. Dość szybko znajduje rozwiązanie, lecz w wersji uczenia on-line, dla sekwencji przejścia między dwoma punktami, jest ono bardzo niedo-kładne dla stanów oddalonych od znalezionej trajektorii.

Jeśli ruch manewrującego statku ma się odbywać na większym obszarze, to wówczas konieczne wydaje się stosowanie algorytmów dla ciągłej przestrzeni sta-nów. Poprawność rozwiązania, w tym przypadku, w głównej mierze zależy od jakości aproksymatora.

Oba algorytmy wymagają udoskonalenia, pozwalającego na wprowadzenie do przestrzeni stanów kąta kursowego manewrującego statku.

(11)

LITERATURA

1. Busoniu L., Babuska R., De Schutter B., Ernst D., Reinforcement Learning and Dynamic Programming Using Function Approximators, CRC Press, 2010.

2. Cichosz P., Systemy uczące się, Wydawnictwo Naukowo-Techniczne, Warszawa 2000.

3. Gierusz W., Synteza wielowymiarowych układów sterowania precyzyjnego ruchem statku z wyko-rzystaniem wybranych metod projektowania układów odpornych, Wydawnictwo Akademii Mor-skiej w Gdyni, Gdynia 2005.

4. Gierusz W., Nguyen Cong V., Rak A., Maneuvering Control and Trajectory Tracking of Very Large Crude Carrier, Ocean Engineering, Vol. 34, 2007, No. 7.

5. Kudrewicz J., Analiza funkcjonalna dla automatyków i elektroników, Państwowe Wydawnictwo Naukowe, Warszawa 1976.

6. Lagoudakis M.G., Parr R., Least-Squares Policy Iteration, Journal of Machine Learning Research, Vol. 4, 2003.

7. Mitsubori K., Kamio T., Tanaka T., On a Course Determination Based on the Reinforcement Learning in Maneuvering Motion of a Ship with the Tidal Current Effect, International Sympo-sium on Nonlinear Theory and its Applications, Xi’an 2002.

8. Morawski L., Nguyen Cong V., Rak A., Full-Mission Marine Autopilot Based on Fuzzy Logic Techniques, Wydawnictwo Akademii Morskiej w Gdyni, Gdynia 2008.

9. Rak A., Zastosowanie uczenia ze wzmocnieniem w układach sterowania ruchem statku, Zeszyty Naukowe Akademii Morskiej w Gdyni, Gdynia 2009, nr 62.

10. Rak A., Gierusz W., Reinforcement Learning in Discrete and Continuous Domains Applied to Ship Trajectory Generation, Polish Maritime Research, Vol. 19, 2012, No. 74 (S1).

11. Sutton R.S., Barto A.G., Reinforcement Learning: An Introduction, MIT Press, Cambridge, MA 1998.

12. Watkins C.J.C.H., Dayan P., Q-learning, Machine Learning, Vol. 8, 1992, No. 3–4.

13. Wawrzyński P., Systemy adaptacyjne i uczące się, Oficyna Wydawnicza Politechniki Warszaw-skiej, Warszawa 2009 (Preskrypt na prawach rękopisu).

14. Zhipeng S., Chen G., Jianbo S., Reinforcement learning control for ship steering based on general fuzzified CMAC, Proceedings of the 5-th Asian Control Conference, Vol. 3, Melbourne 2005.

APPLICATION OF REINFORCEMENT LEARNING ALGORITHMS IN THE SYSTEM OF REFERENCE TRAJECTORY DETERMINATION

OF THE MANEUVERING SHIP

Summary

The paper presents the concept of autonomous reference trajectory generation unit for the vessel motion control system. Reference trajectory is determined based on the information about the target position of the vessel, provided by the operator and navigational situation determined by the navigational equipment fitted on the vessel. The key data processing concept of the system relies on a reinforcement learning algorithms. The paper presents the principles of selected RL algorithms in both discrete and continuous domains. Trajectory determined in the proposed module can be realized in marine autopilot equipped with a multidimensional, nonlinear controller of the course and position.

Keywords: marine autopilot, reference trajectory generation, LSPI: least-squares policy iteration, multidimensional controller, vessel motion control, reinforcement learning.