Zastosowanie uczenia ze wzmocnieniem w układach sterowania ruchem statku

(1)

ZASTOSOWANIE UCZENIA ZE WZMOCNIENIEM W UKŁADACH

STEROWANIA RUCHEM STATKU

W artykule przedstawiono ideę zastosowania algorytmów uczenia ze wzmocnieniem do wyznaczania trajektorii statku na ograniczonym akwenie, w obecności przeszkód nawigacyjnych. Program sterujący statkiem pełni rolę ucznia, który poprzez dynamiczne interakcje z otoczeniem zdobywa informację wartościującą (wzmocnienie), oceniającą akcje podejmowane przez ten program. Ciąg akcji ma doprowadzić do wykonania zadania zgodnie z obraną strategią decyzyjną. W proponowa-nym rozwiązaniu zadaniem dla ucznia jest znalezienie możliwej do przebycia, bezpiecznej trajektorii ruchu statku mającego wykonać manewry na ograniczonym akwenie.

1. WPROWADZENIE

Zagadnienie automatycznego sterowania statkiem dzieli się zazwyczaj na kilka zadań wykonywanych odrębnie w zależności od etapu podróży, na jakim znajduje się statek. Dla niektórych z tych zadań, jak stabilizacja kursu na otwartym akwenie czy sterowanie wzdłuż trajektorii, zaproponowano kompleksowe i skuteczne metody sterowania [4, 9]. Istnieją jednak zadania, związane przede wszystkim ze sterowaniem jednostkami o nietypowych właściwościach dynamicznych albo z wielowymiarowym sterowaniem precyzyjnym, które nie mają zadowalających rozwiązań lub których rozwiązania można znacząco udoskonalić.

Proces manewrowania na wodach ograniczonych z małą prędkością jest jednym z zadań nastręczających najwięcej trudności w budowie w pełni zautoma-tyzowanego układu sterowania ruchem statku. Trudności te wynikają przede wszystkim z:

 nieliniowości dynamiki statku przejawiających się szczególnie podczas ruchu z niewielkimi prędkościami,

 silnych, nieliniowych sprzężeń pomiędzy urządzeniami wykonawczymi (stery strumieniowe, napęd główny, stery płetwowe),

 silnych zakłóceń środowiskowych, jak porywy wiatru, pływy, prądy, interakcje z dnem i nabrzeżami oraz innymi manewrującymi jednostkami,

 niskiego stosunku mocy urządzeń wykonawczych do całkowitej masy statku – zmniejsza to zakres dopuszczalnych błędów w manewrowaniu oraz nie pozwala na kompensacje zakłóceń o dużej wariancji (uderzenia szkwałów).

(2)

Propozycje rozwiązań sterowania na wodach ograniczonych można znaleźć w pracach [5, 6, 9]. Wykorzystują one zarówno klasyczną teorię sterownia, jak i metody inteligencji obliczeniowej. Wspólną ich cechą jest to, że wielkości zadane, opisane najczęściej w formie sekwencji manewrów przemieszczenia i zmiany prędkości, określane są przez operatora.

Niniejszy artykuł opisuje koncepcję i wyniki wstępnych badań nad zastoso-waniem algorytmów uczenia ze wzmocnieniem (ang. Reinforcement Learning – RL) do generowania trajektorii zadanej. Idee leżące u podstaw tych algorytmów przedstawiono w drugim punkcie artykułu. W punkcie trzecim opisano, jak algo-rytmy RL można dostosować do problemu określania zadanej trajektorii statku. Następnie zaprezentowano wyniki badań symulacyjnych wybranych algorytmów. Artykuł zamykają uwagi końcowe.

2. ALGORYTMY UCZENIA ZE WZMOCNIENIEM

W pewnym uproszczeniu algorytm RL można określić jako uczenie się na podstawie prób i błędów [1]. Uczeń, zwany też agentem, wchodzi w interakcje ze środowiskiem, w którym ma wykonać swoje zadanie. Interakcje te odbywają się zazwyczaj w dyskretnych chwilach czasu t, zwanych krokami. Uczeń obserwuje stan środowiska xt i wykonuje akcję at wybraną zgodnie z przyjętą strategią decyzyjną. Po wykonaniu akcji środowisko zwraca uczniowi rzeczywistoliczbową wartość stanowiącą nagrodę (wzmocnienie) rt. Wartość ta jest miarą oceny działania systemu. Wykonanie akcji może także powodować zmianę stanu środowiska. W przedstawionej konwencji nazw uczenie jest procesem modyfikacji strategii wykorzystywanej podczas wybierania akcji na podstawie kolejnych obserwacji stanów, akcji i nagród. Obserwowane czwórki <xt, at, rt, xt+1>

nazy-wane są doświadczeniem i to właśnie praktyczne realizacje procesu modyfikacji strategii na podstawie doświadczenia wyróżniają poszczególne algorytmy RL.

W niniejszej pracy wykorzystano dwa najlepiej opracowane algorytmy: Q-Learning i SARSA. Jak już wspomniano wyżej, podstawą działania wszystkich algorytmów RL jest modyfikacja strategii. Opisowo można ją określić jako program, który dostarcza uczniowi informacji, jaką akcję należy wykonać w określonym stanie. Zależność pomiędzy stanem st a preferowaną akcją at ma charakter probabilistyczny i jest reprezentowana w postaci funkcji wartości dla określonego stanu lub funkcji wartości akcji. W celu przedstawienia szkicu obydwu algorytmów będziemy posługiwać się funkcją wartości akcji, którą definiuje się dla strategii  jako:

 

s,a E



R s s,a a



Q   t t  t 



(3)

przy czym E{ } oznacza wartość oczekiwaną zdyskontowanej sumy przyszłych nagród Rt,

jakie otrzyma uczeń rozpoczynający działanie w stanie st od akcji at i posługujący się

strategią .

2.1. Algorytm Q-Learning

Jak już sama nazwa wskazuje, algorytm ten uczy się funkcji wartości akcji. Dokładniej rzecz biorąc, uczy się on oszacowania optymalnej funkcji wartości akcji, aby móc wyznaczyć strategię zachłanną (maksymalizującą Qt dla dowolnego

at) względem niej. Można go zapisać w postaci:









1



1, 1





 



, 1 1 t t t t t t t+ t+ t A a t+ t t t t t t+ s ,a =Q s ,a + r + maxQ s a Q s ,a e s ,a Q t     _     (2) przy czym:

 – współczynnik uczenia z przedziału (0,1],

rt+1 – wartość wzmocnienia (nagrody) za wykonanie akcji,

 – współczynnik dyskontowania,

et(st,at) – nazywane śladem aktywności, reprezentuje malejący wykładniczo wpływ akcji,

podjętej w bieżącym kroku t, na algorytm uczenia w kolejnych krokach.

Uważny czytelnik zauważy zapewne, że przedstawiony wyżej paradygmat uczenia jest modyfikacją równania optymalności Bellmana, w którym nieznane wartości oczekiwane zastąpiono znanymi realizacjami odpowiednich zmiennych losowych. Wykazano, że po spełnieniu pewnych formalnych warunków algorytm Q-Learning jest zbieżny do optymalnej funkcji wartości akcji [3].

2.2. Algorytm SARSA

Algorytm ten jest blisko spokrewniony z przedstawionym powyżej. O ile dla Q-Learning reguła modyfikacji funkcji wartości akcji opiera się na wyznaczeniu maksymalnej wartości oczekiwanej wzmocnienia, o tyle w algorytmie SARSA (State, Action, Reward, State, Action) scenariusz przewiduje uwzględnienie w regule aktualizacji funkcji Q wartości akcji, która rzeczywiście została wybrana w stanie st:



t t



t



t t





t+ t



t+ t+

 

t t t



 

t t t



+

t s,a =Q s,a + r + Q s a Q s ,a e s,a

Q 1  1  1, 1  . (3)

Usunięcie maksymalizacji wartości akcji z reguły aktualizacji eliminuje mechanizm, który w algorytmie Q-Learning prowadził w kierunku zbieżności do optymalnej funkcji wartości akcji. W celu uzyskania podobnego efektu w opisy-wanym algorytmie wymaga się, aby posługiwał się on strategią zachłanną względem wyznaczanej funkcji wartości akcji. Oznacza to, że SARSA jest algorytmem zależnym od strategii (on-policy training). Posługuje się on strategią, której się uczy, natomiast Q-Learning jest od strategii niezależny (off-policy

(4)

training). Różnice w działaniu obydwu algorytmów znalazły swe odbicie w

wyni-kach badań symulacyjnych.

3. ALGORYTMY RL W ZADANIU MANEWROWANIA NA AKWENIE OGRANICZONYM

Przedstawione wyżej algorytmy znajdują najczęściej zastosowanie w układach sterowania ruchem statku, według dotychczas istniejących publikacji [2, 7, 8], jako elementy regulatora, którego sygnałem wyjściowym jest kąt wychylenia steru. Niniejsza praca, jak już wspomniano we wprowadzeniu, dotyczy zastosowania algorytmów RL do generowania trajektorii zadanej ruchu statku. Jest to zagad-nienie znacznie słabiej opracowane. Natomiast dla problemu sterowania, również w układach wielowymiarowych, istnieje wiele satysfakcjonujących rozwiązań [5, 6, 9].

Wstępny charakter prezentowanych rozważań wymusza przyjęcie pewnych założeń upraszczających problem generowania trajektorii zadanych.

 Dobrze opracowane, zbieżne algorytmy dostępne są dla procesów dyskretnych. Rozsądne więc wydaje się założenie, że pozycja statku będzie zdyskretyzowana siatką kwadratów o boku równym długości statku [8].

 Z poprzednim założeniem wiąże się zagadnienie wystarczającego stopnia eksploracji przestrzeni stanów, niezbędnego do osiągnięcia optymalnego lub suboptymalnego rozwiązania w procesie uczenia. Ogranicza to stosowanie systemu do niewielkich obszarów („rozsądnej” wielkości przestrzeni stanu), gdyż – zwłaszcza przy tablicowej reprezentacji funkcji wartości – wymagana moc obliczeniowa do rozwiązania problemu w akceptowalnym czasie może przekroczyć rozsądne wartości.

 Statek morski nie jest najczęściej obiektem holonomicznym, system docelowy musi więc włączyć do algorytmu preferencje ruchu wzdłuż osi podłużnej statku. Prezentowane wyniki uwzględniają tylko zmianę pozycji statku.

 Opracowane algorytmy nie uwzględniają przeszkód ruchomych. Proponowane rozwiązanie, w przeciwieństwie do systemów antykolizyjnych, stosowanych na większych akwenach czy na pełnym morzu, ogranicza się do obszarów, na których ruch obiektów jest bardzo powolny. Problem, na obecnym etapie badań, uznaje się zatem za statyczny (lub quasi-statyczny).

Niezbędne jest też ogólne założenie: system powinien działać na podstawie informacji o bieżącej oraz docelowej pozycji statku. Konieczna jest także wiedza (w postaci elektronicznej) o akwenie – o obszarach dostępnych do bezpiecznej żeglugi (tory wodne, strefy rozgraniczenia ruchu etc.) i o warunkach manewro-wania na nich.

(5)

4. WYNIKI BADAŃ SYMULACYJNYCH

Symulacje komputerowe, których wyniki przedstawiono na rysunku 1, przeprowadzono, wykorzystując programy napisane w języku MATLAB. Symulowana przestrzeń stanu ma postać tablicy o wymiarach 10 x 10. Statek może więc znajdować się w jednej ze 100 pozycji. Zadanym stanem początkowym jest

s(9,2), oznaczony na rysunkach symbolem x. Zadany stan końcowy, oznaczony

ciemnym kółkiem, ma indeks s(2,9).

W każdym stanie dopuszczalnych jest 9 akcji: przejście do dowolnej sąsiedniej komórki lub pozostanie w miejscu. Wyjątkiem są stany brzegowe, dla których akcje polegające na opuszczeniu obszaru są zabronione. Z akcją polegającą na przejściu do kolejnego stanu związane jest wzmocnienie („nagroda”) o wartości -1. Przejście do stanu końcowego nagradzane jest wzmocnieniem równym 0. Zdefinio-wano więc klasyczne zadanie „do sukcesu”. Maksymalizacja nagrody

(minima-Q-Learning: trajektoria 2 4 6 8 10 2 4 6 8 10 Q-Learning: strategia 2 4 6 8 10 2 4 6 8 10

Q-Learning: funkcja wartości

2 4 6 8 10 2 4 6 8 10 -12 -10 -8 -6 -4 -2 0 SARSA: trajektoria 2 4 6 8 10 2 4 6 8 10 SARSA: strategia 2 4 6 8 10 2 4 6 8 10

SARSA: funkcja wartości

2 4 6 8 10 2 4 6 8 10 -15 -10 -5 0

(6)

lizacja wartości bezwzględnej sumy ujemnych wzmocnień) zmusza algorytm do poszukiwania jak najkrótszej drogi między stanem początkowym i końcowym. Dodatkowym utrudnieniem jest obszar zabroniony w postaci pięciu stanów na przecięciu wierszy od 4 do 8 i 5. kolumny. Przejście do każdego z tych stanów skutkuje uzyskaniem wzmocnienia o wartości -20.

Rysunek 1 przedstawia funkcje wartości stanów, strategie i trajektorie ostatniego epizodu dla eksperymentu przerwanego po 1000 próbach zakończonych osiągnięciem stanu docelowego. Jak łatwo zauważyć, żaden z algorytmów nie dysponuje jeszcze skuteczną strategią, choć w obu wypadkach funkcja wartości stanu początkowego zbliża się do 10. Jednakże żadna ze strategii nie proponuje przejścia do stanów zabronionych. Algorytm SARSA ma przy tym znacznie silniejszą tendencję do eksploracji przestrzeni stanów, a Q-Learning do eksplo-atacji bieżącej strategii. Na rysunku 2 zaprezentowano te same parametry, lecz dla procesu uczenia trwającego 10 000 epizodów. Wartość stanu początkowego w obu przypadkach jest bardzo bliska 10. Oba algorytmy dysponują już także

optymal-Q-Learning: trajektoria 2 4 6 8 10 2 4 6 8 10 Q-Learning: strategia 2 4 6 8 10 2 4 6 8 10

Q-Learning: funkcja wartości

2 4 6 8 10 2 4 6 8 10 _-15 -10 -5 0 SARSA: trajektoria 2 4 6 8 10 2 4 6 8 10 SARSA: strategia 2 4 6 8 10 2 4 6 8 10

SARSA: funkcja wartości

2 4 6 8 10 2 4 6 8 10 -20 -15 -10 -5 0

(7)

nymi strategiami. Q-Learning preferuje, zgodnie z rachunkiem prawdopodo-bieństwa, omijanie przeszkody „górą”, lecz ma również optymalną strategię omijania jej „dołem” na wypadek, gdyby algorytm uczenia wymusił przejście ze stanu początkowego, na przykład do stanu s(9,3) lub s(10,3). SARSA posługuje się strategią omijającą przeszkodę tylko „dołem”. Strategie „górne”, gdyby zostały wymuszone, są nieoptymalne. Algorytm ten wciąż eksploruje przestrzeń stanów, co widać na przebiegu realizowanej trajektorii. Uczeń ze stanu s(7,7) przeszedł do

s(7,6), choć strategia wskazuje na s(6,8).

5. UWAGI KOŃCOWE

Wyniki przeprowadzonych badań wskazują na to, że algorytm Q-Learning, wyznaczając strategię zachłanną względem funkcji wartości akcji (patrz punkt 2), prowadzi do lepszych rozwiązań w zadaniu generowania trajektorii zadanej. Z drugiej strony, słabsza tendencja do eksploracji przestrzeni stanów może prowadzić do sytuacji, w której algorytm utknie w ekstremum lokalnym i nie odnajdzie strategii optymalnej.

Zasadniczą korzyścią z powstania systemu mogącego wyznaczyć bezpieczną trajektorię zadaną w procesie uczenia się bez nadzoru, dla manewrów na podejściu do portu, w kanale czy w porcie, byłoby znaczne zwiększenie zakresu autonomii systemu sterowania ruchem statku względem operatora. To oznacza zwiększenie odporności na błędy, których źródłem jest człowiek.

Naturalnym kierunkiem przyszłych badań powinny być algorytmy, dla których nie będzie stosować się uproszczeń przestawionych w punkcie 3 tego artykułu.

LITERATURA

1. Barto G. A., Sutton S. R., Reinforcement Learning: An Introduction, MIT Press, Cambridge 1998 (dostępne on-line: http://www.cs.ualberta.ca/~sutton/book/the-book.html).

2. Chatzidimitriou K., CS440 Project: Ship Steering Using Reinforcement Learning, Colorado State University 2004 (dostępne on-line: http://en.scientificcommons.org/ 40636884).

3. Cichosz P., Systemy uczące się, Wydawnictwa Naukowo-Techniczne, Warszawa 2000.

4. Fossen T. I., Marine Control Systems: Guidance, Navigation and Control of Ships, Rigs and

Underwater Vehicles, Marine Cybernetics AS, Trondheim 2002.

5. Gierusz W., Synteza wielowymiarowych układów sterowania precyzyjnego ruchem statku

z wykorzystaniem wybranych metod projektowania układów odpornych, Wydawnictwo Akademii

Morskiej w Gdyni, Gdynia 2005.

6. Gyoungwoo L., Surendan S., Sang-Hyun Kim, Algorithms to control the moving ship during

(8)

7. Łącki M., Reinforcement learning in ship handling, TransNav'07 Symposium, Gdynia 2007. 8. Mitsubori K., Kamio T., Tanaka T., On A Course Determination based on the Reinforcement

Learning in Maneuvering motion of a ship with the tidal current effect, International Symposium

on Nonlinear Theory and its Applications, Xi’an 2002.

9. Morawski L., Nguyen Cong V., Rak A., Full-Mission Marine Autopilot Based on Fuzzy Logic

Techniques, Wydawnictwo Akademii Morskiej w Gdyni, Gdynia 2008.

APPLICATION OF REINFORCEMENT LEARNING TO SHIP MOTION CONTROL SYSTEMS

Summary

The paper presents an idea of reinforcement learning application to reference trajectory generation for the ship maneuvering in the confined waters. The ship controller acts as an agent, which gathers a reinforcement signal evaluating its actions by the interaction with the environment. A series of the actions chosen according to the specified policy should finish with the predefined goal. In the proposed solution the course of actions is defined as consecutive points of safe, executable, reference trajectory of the ship maneuvering in the confined waters.