ALGORYTMY APROKSYMACYJNEGO PROGRAMOWANIA DYNAMICZNEGO W GENEROWANIU I REALIZACJI TRAJEKTORII RUCHU ROBOTA MOBILNEGO PIONEER 2-DX

(1)

ALGORYTMY APROKSYMACYJNEGO PROGRAMOWANIA DYNAMICZNEGO W GENEROWANIU I REALIZACJI

TRAJEKTORII RUCHU ROBOTA MOBILNEGO PIONEER 2-DX

Marcin Szuster

^1a

1Katedra Mechaniki Stosowanej i Robotyki, Politechnika Rzeszowska

amszuster@prz.edu.pl

Streszczenie

W pracy przedstawiono nowe podejście do generowania i realizacji ruchu mobilnego robota kołowego z zastosowaniem algorytmów aproksymacyjnego programowania dynamicznego (APD). Zaproponowano hierarchiczny układ sterowania ruchem robota w nieznanym środowisku ze statycznymi przeszkodami, składający się z warstwy generowania trajektorii oraz warstwy realizacji ruchu. W warstwie generowania trajektorii zrealizowano dwa pod- stawowe zadania: „podążaj do celu”, oraz „omijaj przeszkody”, stosując algorytmy APD w konfiguracji zależnego od sterowania heurystycznego programowania dynamicznego. Wygenerowana trajektoria ruchu jest realizowana przez układ sterowania ruchem nadążnym, w którym zastosowano algorytm dualnego heurystycznego programowania dynamicznego. Weryfikację algorytmu sterowania przeprowadzono z zastosowaniem robota Pioneer 2-DX.

Słowa kluczowe: aproksymacyjne programowanie dynamiczne, mobilny robot kołowy, sieci neuronowe, sterowa- nie behawioralne, sterowanie nadążne.

APPROXIMATE DYNAMIC PROGRAMMING

ALGORITHMS IN GENERATING AND REALISATION OF THE WHEELED MOBILE ROBOT PIONEER 2-DX TRAJECTORY

Summary

In the article a new approach to generating and realisation of the trajectory of the Wheeled Mobile Robot is presented. In this approach Approximate Dynamic Programming (APD) algorithms were used. The hierarchical control system of the WMR movement in the unknown environment with static obstacles was proposed. It con- sists of two layers: the trajectory generating layer and the tracking control layer. In the trajectory generating layer two basic tasks: the goal seeking task and the obstacle avoiding task, were realised. APD algorithms in the Action Dependant Heuristic Dynamic Programming configuration were used. Using the tracking control system the trajectory is realised. In the tracking control system APD algorithm in the Dual Heuristic Dynamic Program- ming configuration was used. Using the WMR Pioneer 2-DX verification of the proposed hierarchical control system was performed.

Keywords: approximate dynamic programming, behavioral control, neural networks, wheeled mobile robot, tracking control.

(2)

1. WSTĘP

Generowanie w czasie rzeczywistym trajektorii ruchu mobilnego robota kołowego (MRK), z jej jednoczesną realizacją, jest złożonym problemem wymagającym zastosowania odpowiednich algorytmów sterowania [1,2,3,4,7,12,13], korzystających z informacji z układu sensorycznego robota. Zazwyczaj problem ten dekompo- nuje się na dwa zadania realizowane przez dedykowane algorytmy, tworzące warstwy układu sterowania, z których jedna pełni rolę nadrzędną w stosunku do drugiej. Warstwa planowania trajektorii ruchu na podstawie informacji o stanie otoczenia robota generuje trajektorię ruchu, która jest realizowana przez warstwę sterowania ruchem nadążnym. Zadaniem tej warstwy jest wygenerowanie sygnałów sterowania silnikami, zapewniających realizację zadanej trajektorii z minimal- nymi wartościami błędów nadążania. Takie podejście do problemu generowania trajektorii jest charakterystyczne dla tzw. metod lokalnych planowania trajektorii, w których proces generowania trajektorii ruchu odbywa się na podstawie ograniczonej wiedzy o stanie otoczenia robota, dostarczanej przez układ sensoryczny. Drugim typem metod generowania trajektorii ruchu MRK są tzw. metody globalne, które umożliwiają wyznaczanie trajektorii ruchu robota na podstawie znajomości mapy otoczenia. W przypadku tych metod proces generowania trajektorii może się odbywać off-line, jednak ich wadą jest brak możliwości zastosowania w zadaniu planowania trajektorii ruchu w nieznanym środowisku. Wady tej pozbawione są metody lokalne, umożliwiające jednocze- sne generowanie i realizację trajektorii, na podstawie informacji z układu sensorycznego. Przykładami takich metod są algorytmy sterowania behawioralnego, których idea wywodzi się z obserwacji świata zwierząt. Polegają one na realizacji elementarnych zadań typu „podążaj do celu” (GS, ang. Goal Seeking), czy „omijaj przeszkody”

(OA, ang. Obstacle Avoiding) przez robot. Pierwsze z zadań polega na wygenerowania sterowania behawioralnego, które umożliwia wyznaczenie zadanych parame- trów ruchu kół MRK, których realizacja powoduje przemieszczenie MRK z położenia początkowego, do zadanego celu we współrzędnych mapy, przy czym lokalizacje przeszkód nie są brane pod uwagę. W zadaniu typu OA, na podstawie pomiarów układu sensorycznego MRK, generowana jest bezkolizyjna trajektoria ruchu robota. Realizując trajektorię MRK, zajmuje środek dostępnej wolnej przestrzeni, przy czym nie jest możliwe zadanie celu ruchu. Realizacja tak skompliko- wanych zadań, jak generowanie trajektorii ruchu, czy realizacja ruchu nadążnego MRK, wymaga zastosowania złożonych metod. Z tego powodu w algorytmach sterowania robotów stosowane są nowoczesne metody sztucz- nej inteligencji (AI, ang. Artificial Intelligence) [2,3,7,13], takie jak algorytmy z logiką rozmytą (FL, ang. Fuzzy Logic System) czy sztuczne sieci neuronowe

(SN, ang. Neural Networks). W ostatnich latach można również zaobserwować wzrost zainteresowania algorytmami aproksymacyjnego programowania dynamicznego (APD, ang. Approximate Dynamic Programming), nazywanymi również algorytmami neuronowego progra- mowania dynamicznego (NPD, ang. Neuro-Dynamic Programming). Ich idea bazuje na programowaniu dynamicznym Bellmana, które w połączeniu z możliwo- ściami aproksymacji nieliniowych przebiegów przez SN z zadaną dokładnością, umożliwiają generowanie sterowania suboptymalnego w procesach on-line.

W prezentowanym w artykule hierarchicznym ukła- dzie sterowania ruchem MRK Pioneer 2-DX zastosowano algorytmy APD. W warstwie generowania trajektorii ruchu, w zadaniach typu GS i OA, zastosowano algorytmy zależnego od sterowania heurystycznego progra- mowania dynamicznego (ADHDP, ang. Action Depen- dant Heuristic Dynamic Programming), w warstwie realizacji ruchu algorytm dualnego heurystycznego programowania dynamicznego (DHP, ang. Dual- Heuristic Dynamic Progrmming).

Wyniki prac prezentowane w artykule stanowią kon- tynuację wcześniejszych prac autora, związanych z algorytmami generowania trajektorii ruchu MRK [9,10,11] oraz układami realizacji ruchu nadążnego [8], w których zastosowano metody AI. Artykuł składa się z następujących części: w części pierwszej zawarto wprowadzenie w tematykę badań, w części drugiej przedstawiono obiekt sterowania, MRK Pioneer 2-DX, część trzecia prezentuje rodzinę algorytmów APD, w części czwartej przedstawiono hierarchiczny układ sterowania ruchem MRK. Części piąta zawiera opis stanowiska laboratoryjnego, kolejna część prezentuje wyniki badań weryfikacyjnych algorytmu sterowania, ostatnia część stanowi podsumowanie artykułu.

2. MOBILNY ROBOT KOŁOWY PIONEER 2-DX

Obiektem sterowania jest MRK Pioneer 2-DX, wy- posażony w dwa koła napędzające oraz samonastawne koło podpierające. Robot wyposażony jest w układ sensoryczny zbudowany z 8 czujników ultradźwiękowych wbudowanych w ramę oraz dodatkowy czujnik laserowy przestrzeni. Ruch robota analizowany jest w płaszczyź- nie xy. MRK Pioneer 2-DX przedstawiono na rys. 1.b, jego schemat w laboratoryjnym torze pomiarowym ze statycznymi przeszkodami przedstawiono na rys. 1.a.

MRK składa się z dwóch kół napędzających 1 i 2, koła samonastawnego 3 oraz ramy 4, na której zamontowano skaner laserowy przestrzeni. Jest to obiekt nieholonomiczny, którego dynamika jest opisana nieli- niowymi równaniami ruchu. W artykule zaproponowano

(3)

hierarchiczny układ sterowania ruchem MRK, w którym warstwa generowania trajektorii realizuje sterowanie behawioralne typu GS lub OA. Zadaniem algorytmu sterowania jest wygenerowanie bezkolizyjnej trajektorii ruchu MRK na podstawie sygnału z układu sensorycz- nego (OA) lub trajektorii do celu G( , ), znajdują- cego się w odległości od punktu A( , ) ramy robota. Z punktem A związano ruchomy układ współ- rzędnych x1y1, gdzie: - kąt pomiędzy prostą pG a osią x, - kąt obrotu ramy MRK, - kąt pomiędzy prostą pG a osią x1 ruchomego układu współrzędnych, , , - odległości do przeszkód zmierzone przez skaner laserowy przed MRK, po prawej i lewej stronie ramy robota, , , - kąty pomiędzy osią i-tego pomiaru i osią ramy MRK, i=1,2,3, - sygnał sterujący j-tego koła, j=1,2, - prędkość kątowa j-tego koła.

Rys. 1. a) Schemat robota mobilnego w laboratoryjnym torze pomiarowym, b) robot Pioneer 2-DX

Korzystając z formalizmu Maggiego [5,6], sformuło- wano dynamiczne równania ruchu MRK Pioneer 2-DX.

Model ciągły dynamiki MRK został dyskretyzowany poprzez stosowanie metody Eulera. Przyjęto wektor

stanu , , w którym wektor

, odpowiada wektorowi prędko- ści kątowych w zapisie ciągłym. Dyskretny model dynamiki MRK przyjęto w postaci układu równań

! " ,

# "$^% &' ( ! )' (

#"$^% *₊ # , ,

(1)

gdzie h – parametr dyskretyzacji czasu, k – indeks kroków iteracji, M – dodatnio określona macierz bez- władności MRK Pioneer 2-DX, – wektor kątów obrotu kół napędzających, &' ( – wektor mo- mentów od sił odśrodkowych i Coriolis’a, )' ( – wektor oporów ruchu, *₊ – wektor zakłóceń o ograni- czonych wartościach, , – wektor sygnałów sterowania.

3. ALGORYTMY APD

Rozwój algorytmów AI umożliwił realizację idei programowania dynamicznego Bellmana w formie algoryt- mów APD [14,15]. Dekompozycja problemu na genero- wanie suboptymalnego prawa sterowania u, realizowane- go przez strukturę aktora, oraz aproksymację funkcji wartości V, realizowaną przez strukturę krytyka, w których zastosowano SN, umożliwia zastosowanie tych algorytmów w sterowaniu on-line obiektami dynamicz- nymi.

Rodzina algorytmów APD, schematycznie przedsta- wiona na rys. 2, obejmuje sześć struktur.

Rys. 2. Schemat rodziny algorytmów adaptacyjnego programowania dynamicznego

Algorytm heurystycznego programowania dynamicznego (HDP, ang. Heuristic Dynamic Programming) jest podstawowym przedstawicielem rodziny algorytmów APD. Składa się z SN aktora, generującej suboptymalne prawo sterowania u, oraz SN krytyka, która aproksymuje funkcję wartości V.

W algorytmie DHP SN aktora również generuje suboptymalne prawo sterowania, natomiast SN krytka aproksymują pochodne funkcji wartości względem stanu obiektu. Powoduje to zwiększenie złożoności struktury krytyka, oraz algorytmu adaptacji wag jego SN, jednocześnie umożliwia osiągnięcie wyższej jakości sterowania. Trzecim algorytmem z grupy podstawowych struktur APD, jest algorytm Globalnego Dualnego Heurystycznego Programowania Dynamicznego (GDHP, ang. Globalised Dual Heuristic Dynamic Programming).

W algorytmie tym struktury aktora i krytyka są zrealizowane w sposób analogiczny jak w HDP, natomiast algorytm adaptacji wag SN krytyka jest

(4)

złożony, gdyż jest połączeniem algorytmów adaptacji wag SN krytyka struktur HDP i DHP. Sprawia to, iż pomimo złożoności struktury krytyka analogicznej jak w algorytmie HDP, i uproszczonej w stosunku do DHP, algorytm GDHP, przez zastosowanie złożonego prawa adaptacji wag SN, zapewnia wysoką jakość realizacji sterowania. Pozostałe struktury rodziny algorytmów APD to wersje zależne od sterowania (AD-, ang. Action Dependant) podstawowych algorytmów, w których sygnał wyjściowy z SN aktora jest jednocześnie sygnałem wejściowym do SN krytyka. Wszystkie algorytmy rodziny APD, z wyjątkiem ADHDP, wymagają znajomości modelu matematycznego sterowanego obiektu w celu wyznaczenia algorytmów adaptacji wag SN aktora i/lub krytyka.

4. HIERARCHICZNY UKŁAD STEROWANIA

W artykule zaprezentowano hierarchiczny układ sterowania ruchem MRK Pioneer 2-DX, który składa się z warstwy generowania trajektorii ruchu, realizującej koncepcję sterowań behawioralnych w zadaniach typu GS i OA, oraz z warstwy realizacji ruchu.

4.1 REALIZACJA RUCHU

Problem realizacji ruchu nadążnego zdefiniowano jako wygenerowanie sygnałów sterowania modułami napędowymi MRK, które zapewnią realizację zadanej trajektorii ruchu ₊ ₊ , ₊ , generowanej w czasie ruchu przez warstwę planowania trajektorii, przy minimalnych wartościach błędów nadążania

- # ₊ ,

- # ₊ , (2)

gdzie ₊ - wektor zadanych kątów obrotu kół, ₊ - wektor zadanych prędkości kątowych. Na podstawie błędów (2) zdefiniowano uogólniony błąd nadążania

. - !Λ_{- ,} (3)

gdzie Λ - stała macierz diagonalna dodatnio określona.

W warstwie tej zastosowano algorytm DHP, zrealizowany z zastosowaniem SN RVFL. Całkowity sygnał sterowania ruchem nadążnym MRK , , składa się z sygnału sterowania generowanego przez strukurę aktor-krytyk DHP , , sygnału sterowania regulatora PD, ,_/0 , dodatkowego sygnału sterowania ,1 , oraz sygnału sterowania nadzorującego ,₂ , o strukturze wynikającej z analizy stabilności zamkniętego układu sterowania, zrealizowanej z zastosowaniem teorii stabilności Lyapunov’a. Całkowity sygnał sterowania ruchem nadążnym przyjęto w formie zależności

, ₃$4#, ! ,₂ # ,_/0 # ,₁ 5, (4)

gdzie

,₂ 62,₂⁷ , ,_/0 80. , ,₁ "Λ_- _# ₊₉ _,

(5)

gdzie 62 – macierz diagonalna, :2 , 1 jeżeli

<= < > ? , w przeciwnym przypadku :2 , 0, ? – dodatnia stała, i=1,2, ₂⁷ - wektor sygnałów sterowania nadzorującego, wyznaczonych stosując analizę sta- bilności układu zamkniętego z zastosowaniem teorii stabilności Lapunov’a, 80 – dodatnio określona macierz diagonalna wzmocnień regulatora PD.

Sygnał sterowania generowanego przez SN RVFL struktury aktora określony jest zależnością

'A , B ( B C'D A (, (6)

gdzie A – wektor wejść do i-tej SN aktora, B – wektor wag warstwy wyjściowej sieci, adaptowanych w czasie ruchu MRK, S(.) – wektor sigmoidlanych bipolarnych funkcji aktywacji neuronów, DA – macierz stałych wag warstwy wejściowej.

Schematycznie warstwę realizacji ruchu MRK przedstawiono na rys. 3.

Rys. 3. Schemat warstwy realizacji ruchu MRK Neuronowy algorytm sterowania ruchem nadążnym został szczegółowo omówiony w [8].

4.2 REALIZACJA ZADANIA TYPU

„PODĄŻAJ DO CELU”

Warstwa planowania trajektorii ruchu MRK w zadaniu typu GS składa się ze struktury generujacej behawioralne sygnały sterowania, zbudowanej z dwóch algorytmów ADHDP oraz regulatora proporcjonalnego P. Generuje sygnały sterowania behawioralnego , E _F , _GH I , gdzie _F - sygnał sterujący zadaną prędkością ruchu punktu A ramy MRK, _GH - sygnał sterujący zadaną prędkością kątową obrotu ramy MRK H . Sygnały sterowania behawioralnego , są wyznaczane na podstawie znajomości położenia i orientacji ramy MRK oraz na podstawie znajomości położenia celu G. W algorytmie sterowania zastosowano innowacyjne podejście do generowania sterowań behawioralnych w nieznanym środowisku,

(5)

z zastosowaniem algorytmów ADHDP, w których nie jest wymagana znajomość modelu matematycznego sterowanego obiektu do syntezy algorytmów adaptacji wag. Zastosowano regulator P, który w początkowym etapie adaptacji wag „wskazuje” algorytmom ADHDP właściwy kierunek przeszukiwania przestrzeni rozwiązań, przez co nie jest konieczne stosowanie metody uczenia typu „prób i błędów”, a generowana trajektoria ruchu już przy pierwszym przebiegu procesu adaptacji wag SN umożliwia realizację założonego zadania.

Zadaniem algorytmów APD jest wygenerowanie suboptymalnego prawa sterowania, które minimalizuje funkcję wartości J'A ,, (, która w przypadku ogólnym jest funkcją stanu obiektu A , oraz sygnału sterowania , , wyrażoną zależnością

J'A , , ( ∑^MNOPL QR'A , , (, (6) gdzie n – ostatni krok skończonego procesu dyskretnego, L – współczynnik dyskontacji przyszłych kar/nagród, 0 S L S 1, QR'A ,, ( - funkcja kosztu w kroku k.

Przyjęto błąd generowania prędkości ruchu T _F oraz kąt między osią ramy MRK, a prostą pG, , w posatci zależności

T _F U' ⁷ ( # V /V⁷,

# , (7)

gdzie f(.) – funkcja sigmoidalna unipolarna, V⁷ - zdefi- niowana maksymalna prędkość punktu A, V - chwi- lowa prędkość punktu A, ⁷ min' (/ [\ – minimalna znormalizowana odległość do przeszkód przed MRK.

Przyjęto funkcje kosztu struktur ADHDP w postaci QR F'T _F , _F ( ^]_^_ FT _F !^]_^` F F , QR FaT _GH , _GH b ^]_^_ _GH !^]_^` _GH _GH , (8) gdzie _F, ` F, _ _GH, ` _GH – dodatnie stałe.

Całkowity sygnał sterowania behawioralnego typu GS, składający się z sygnałów sterowania struktur aktor-krytyk, oraz sygnałów sterowania regulatora P, został przyjęty w postaci

, , ! , / , (9)

gdzie , / 8 T_F , , 8 – stała macierz diagonalna. Na podstawie sygnałów , są generowane zadane prędkości kątowe obrotu kół napędzających MRK zgodnie z zależnością

c ⁺

+ d _efV⁷ H⁷

V⁷ # H⁷ g c ^F

GH d, (10) gdzie r, l1 – wymiary wynikające z geometrii MRK,

H⁷ - maksymalna prędkość kątowa obrotu ramy MRK.

4.3 REALIZACJA ZADANIA TYPU

„OMIJAJ PRZESZKODY”

Warstwa generowania trajektorii w zadaniu typu OA jest zbudowana w sposób analogiczny. Algorytm generowania sygnałów sterowania behawioralnego ,h

bazuje na sygnałach z układu sensorycznego MRK.

Przyjęto błąd generowania prędkości ruchu ThF , oraz błąd zajmowania środka wolnej przestrzeni T_hGH

T_hF U' ⁷ ( # V /V⁷,

T_hGH ⁷ # ⁷ , (11)

gdzie _[ min' ( – minimalna odległość do przeszkód po lewej stronie MRK, _[ min' ( – minimalna odległość do przeszkód po prawej stronie,

7 2 Ea _[ /' _[ ! _[ (b # 0.5I – znormalizowana minimalna odległość do przeszkód po lewej stronie ramy robota, ⁷ 2 Ea [ /' [ !

[ (b # 0.5I - znormalizowana minimalna odległość do przeszkód po prawej stronie MRK.

Przyjęto funkcje kosztu struktur ADHDP oraz cał- kowite sygnały sterowania warstwy generowania trajektorii

w zadaniu typu OA, analogicznie jak w punkcie 4.2.

Schematycznie strukturę warstwy generowania trajektorii w zadaniach typu GS i OA przedstawiono na rys. 4.a) i b) odpowiednio.

Rys. 4. Schemat warstwy generowania trajektorii ruchu MRK w zadaniu typu: a) GS, b) OA.

5. STANOWISKO BADAWCZE

Prezentowany hierarchiczny układ sterowania, reali- zujący zadania typu GS lub OA, przetestowano na stanowisku badawczym składającym się z MRK Pioneer

(6)

2-DX, wyposażonego w skaner laserowy przestrzeni Hokuyo UBG-4LX-F01, układ zasilania oraz komputer PC z kartą kontrolno-pomiarową dSpace DS1102, oraz oprogramowaniem Matlab/Simulink i dSpace Control- Desk. Stanowisko badawcze przedstawiono na rys. 5.

Rys. 5. Schemat stanowiska badawczego

6. WYNIKI BADAŃ

W przedstawionym środowisku testowym przeprowadzono szereg eksperymentów weryfikacyjnych zapro- jektowanego algorytmu generowania trajektorii w zadaniach typu GS i OA. W dalszej części pracy, w celu uproszczenia zapisu zmiennych, w oznaczeniach pomi- nięto symbol k. Podczas eksperymentów wartość para- metru dyskretyzacji czasu wynosiła h=0.01 [s]. Trajekto- rie ruchu w zadaniach typu GS i OA były generowane on-line przez warstwę generowania ruchu i realizowane przez algorytm sterowania ruchem nadążnym.

6.1 REALIZACJA ZADANIA TYPU

„PODĄŻAJ DO CELU”

Zrealizowano zadanie typu GS do celów G1(9.5, 5.0), G₂(9.5, 9.5), G3(0.5, 9.5), G4(0.5, 0.5), G5(9.5, 0.5), przy czym ruch rozpoczynał się w pozycji startowej punktu A ramy MRK S(5.0, 5.0). Trajektoria ruchu była generowana na postawie odległości punktu A ramy MRK do celu G, , oraz orientacji ramy MRK. Tory ruchu MRK do celów zlokalizowanych w poszczególnych punktach mapy otoczenia przedstawiono na rys. 6.

Rys. 6. Mapa otoczenia z torami ruchu MRK Poniżej zostaną przedstawione wyniki eksperymentu, w którym wygenerowana została trajektoria ruchu do punktu G4(0.5, 0.5), w zadaniu typu GS. Na rys. 7.a) przedstawiono przebieg odległości do celu lG, na rys. 7.b)

przebieg wartości kąta ψ , zawartego między osią ramy MRK, a prostą pG.

Rys. 7. Przebieg wartości odległości lG do celu G4, b) przebieg wartości kąta ψ

Odległość do celu jest redukowana w trakcie ruchu MRK, natomiast początkowa wartość kąta wynika z orientacji ramy w pozycji startowej. Wartość kąta jest redukowana w trakcie eksperymentu do wartości bliskiej zeru, co oznacza, że rama MRK porusza się w kierunku celu. Wygenerowanie sygnałów sterowania

F i _GH, których przebiegi przedstawiono odpowiednio na rys. 8.a) i b), umożliwiło realizację zadania typu GS.

Rys. 8. Przebieg wartości sygnału sterowania a) uGv, b) _GH. Sygnały sterowania _F i _GH składają się z sygnałów generowanych przez algorytmy ADHDP oraz regulator P.

(7)

W początkowej fazie ruchu duży wpływ na wartości sygnałów _F i _GH mają sygnały sterowania generowane przez regulator P, ze względu na zastosowanie zerowych wartości początkowych wag SN struktur ADHDP.

Jednak proces adaptacji wag SN powoduje redukcję udziału sygnałów sterowania regulatora P w całkowitych sygnałach sterowania warstwy generowania trajektorii, gdzie dominujacy wpływ przejmują sygnały _F i _GH algorytmów ADHDP. Wartość sygnału sterowania

F 1 powoduje generowanie trajektorii, w której MRK poruszą się z maksymalną zadaną wartością prędkości, dopiero gdy punkt A znajuje się w zadanej odległości do celu, prędkość jest redukowana, następuje etap hamowania i zatrzymanie robota w pobliżu celu.

Wartość sygnału _GH powoduje wygenerowanie takiego przebiegu wartości prędkości kątowej obrotu ramy MRK, aby było możliwe osiągnięcie celu. Na rys. 9.a przedstawiono przebiegi zadanych prędkości kątowych obrotu kół, na rys. 9.b wygenerowane sygnały sterowania ruchem nadążnym MRK, na rys. 9.c przebiegi wartości błędów nadążania koła 2 MRK.

Rys. 9. a) Przebiegi wartości zadanych prędkości kątowych kół, b) sygnały sterowania ruchem nadążnym, c) błędy nadążania

koła 2 MRK

Największe wartości błędów nadążania występują w początkowym okresie ruchu, ze względu na zastosowanie zerowych wartości początkowych wag SN.

6.2 REALIZACJA ZADANIA TYPU

„OMIJAJ PRZESZKODY”

Zrealizowano zadanie typu OA, w którym na podstawie sygnałów z układu sensorycznego MRK warstwa planowania trajektorii wygenerowała bezolizyjną trajktorię ruchu MRK. Tor ruchu MRK pokazano na rys. 10, gdzie szarymi kropkami zaznaczono lokalizacje przeszkód wykrytych przez skaner laserowy.

Rys. 10. Mapa otoczenia z trajektorią ruchu MRK Bezkolizyjna trajektoria ruchu została wygenerowana z zastosowaniem sygnałów sterowania _hF i _hGH, przedstawionych na rys. 11.

Rys. 11. Przebieg wartości sygnału sterowania a) uOv, b) _hGH Składają się one z sygnałów sterowania generowanych przez regulator P oraz sygnałów sterowania algorytmów ADHDP, których wartości mają dominujący udział w całkowitych sygnałach sterowania.

Przebiegi wartości wag SN algorytmu ADHDP, generującego sygnał sterujący uOAv, przedstawiono na rys. 11. Struktury aktora oraz krytyka zostały zrealizowane w formie SN RVFL. Zastosowano zerowe wartości początkowe wag warstw wyjściowych SN, wartości te pozostają ograniczone w trakcie procesu generowania trajektorii ruchu MRK Pioneer 2-DX.

(8)

Rys. 12. Przebieg wartości wag SN a) krytyka, b) aktora, algorytmu ADHDP generującego sygnał sterowania uOAv

7. PODSUMOWANIE

Zaproponowano hierarchiczny układ sterowania ruchem MRK Pioneer 2-DX, składający się z warstwy generowania trajektorii ruchu, oraz warstwy realizacji ruchu. W warstwie generowania trajektorii ruchu zastosowano koncepcję sterowania behawioralnego typu GS i OA. W układzie sterowania zastosowano algorytmy APD w konfiguracji ADHDP oraz DHP, z SN RVFL.

Algorytm umożliwia generowanie i realizację trajektorii ruchu w zadaniu typu GS, z położenia początkowego do celu, oraz w zadaniu typu OA, gdzie generowana jest bezkolizyjna trajektoria ruchu MRK, a cel nie jest sprecyzowany. Zaproponowany algorytm sterowania działa on-line i nie wymaga fazy wstępnego uczenia wag SN. Badania weryfikacyjne przeprowadzono z zastosowanie MRK Pioneer 2-DX, wyposażonego w skaner laserowy przestrzeni Hokuyo UBG-4LX-F01.

Literatura

1. Arkin R. C.: Behavioural-based robotics. Cambridge: MIT Press, 1998.

2. Burghardt A.: Sterowanie behawioralne minirobota kołowego. „PAK” 2004, Vol. 11, p. 26 - 29.

3. Drainkov D., Saffiotti A.: Fuzzy logic techniques for autonomous vehicle navigation. New York: Springer, 2001.

4. Fahimi F.: Autonomous robots: modeling, path planning, and control. New York: Springer, 2009.

5. Giergiel J., Zylski W.: Description of motion of a mobile robot by Maggie’s Equations. „J. Theor. and App.

Mech.” 2005, 3, Vol. 43, p. 511 - 521.

6. Giergiel M., Hendzel Z., Żylski W.: Modelowanie i sterowanie mobilnych robotów kołowych. Warszawa: PWN, 2002.

7. Hendzel Z.: Fuzzy reactive control of wheeled mobile robot. “J. Theor. App. Mech.” 2004, 3, Vol. 42, p. 503 - 517.

8. Hendzel Z., Szuster M.: Discrete model-based adaptive critic designs in wheeled mobile robot control.

L. Rutkowski et al. (Eds.): ICAISC 2010, Part II, „LNCS” 2010, Vol. 6114, p. 264 - 271.

9. Hendzel Z., Szuster M.: Neuronowe programowanie dynamiczne w sterowaniu behawioralnym mobilnym robo- tem kołowym. „Acta Mech. Automatica” 2011, 1, Vol. 5, p. 28 - 36.

10. Hendzel Z., Szuster M.: Neural dynamic programming in reactive navigation of wheeled mobile robot. L.

Rutkowski et al. (Eds.): ICAISC 2012, Part II, „LNCS” 2012, Vol. 7268, p. 450 - 457.

11. Hendzel Z., Szuster M.: Neural sensor-based navigation of wheeled mobile robot in unknown environment.

„PAR” 2013, 1, p. 114 - 120.

12. Maaref H., Barret, C.: Sensor-based navigation of a mobile robot in an indoor environment. „Robot. Auton.

Syst.” 2002, Vol. 38, p. 1 - 18.

13. Millan J.: Reinforcement learning of goal-directed obstacle-avoiding reaction strategies in an autonomous mobile robot. „Robot. Auton. Syst.” 1995, 4, Vol. 15, p. 275 - 299.

14. Powell W.B.: Approximate dynamic programming: solving the curses of dimensionality. Princeton: Willey- Interscience, 2007.

15. Prokhorov D., Wunch D.: Adaptive critic designs. „IEEE Trans. Neural Netw” 1997, Vol. 8, p. 997 - 1007.