ZAGADNIENIA OPTYMALIZACJI PARAMETRÓW WIELOKROTNYCH STROJONYCH TŁUMIKÓW MASOWYCH
MASZYNOWE UCZENIE RUCHU MOBILNEGO ROBOTA KOŁOWEGO
5. WYNIKI EKSPERYMENTU
Weryfikację zaprojektowanego układu sterowania przeprowadzono dla ruchu wybranego punktu mobilnego robota po zadanej trajektorii w postaci pętli, składającej się z pięciu charakterystycznych etapów ruchu [2]:
a) jazdy po torze prostoliniowym, rozruch:
vA∗ = vA
tr
(t − tp) tp¬ t ¬ tr α˙1= ˙α2=v∗A r
β = 0˙
gdzie: tp – czas początkowy ruchu, tr– czas zakończenia rozruchu, b) ruch z ustaloną prędkością, gdy vA=const:
˙
α1= ˙α2= vA
r tr¬ t ¬ t1 β = 0˙ gdzie: t1 – czas ruchu ustalonego,
c) jazdę po torze kołowym o promieniu R, dla:
vA=const, R=0,75 m,
˙ α1= vA
r + h1β˙ α˙2=vA
r − h1β˙ t1¬ t ¬ t2
gdzie: t2 – czas jazdy po torze kołowym,
d) wyjście z łuku z uwzględnieniem okresu przejściowego, następnie jazda po torze pro-stoliniowym ze stałą prędkością (vA=const):
˙
α1= ˙α10−
˙
α10−vA r
1 − e−γt
˙
α2= ˙α20−vA
r − ˙α20
1 − e−γt
t2¬ t ¬ t3 gdzie: t3– czas ruchu ustalonego, γ – stała aproksymacji krzywych przejściowych, ˙α10, ˙α20
– wartości prędkości kątowych kół na początku okresu przejściowego. Wprowadzenie takiej aproksymacji umożliwia realizację ruchu układu z łagodną zmianą takich parametrów jak prędkość i przyspieszenie.
e) hamowanie:
vA∗ = vA−vA
th
(t − t3) t3¬ t ¬ tk α˙1= ˙α2=v∗A r
β = 0˙
gdzie tk – czas końcowy, th– czas hamowania.
W przeprowadzonym eksperymencie przyjęto taką samą długość czasu hamowania oraz rozruchu (tr = th). Maksymalna prędkość liniowa punktu A mobilnego robota wynosi vA = 0.4 [m/s]. Przebiegi zmiennych kątowych, które w czasie eksperymentu posłużyły jako zadana trajektoria ruchu punktu A mobilnego robota dwukołowego, przedstawiono na Rys. 4.
Rysunek 4: a) wartości kątów obrotu własnego kół napędzających α1 oraz α2, b) prędkości kątowe
˙
α1 oraz ˙α2, c) przyspieszenia kątowe ¨α1 i ¨α2, d) tor ruchu punktu A
Przebieg zmiany wartości kątów obrotu własnego kół napędzających α1 oraz α2
przed-( ˙α1oraz ˙α2), natomiast na Rys. 4c pokazano przyspieszenia kątowe ¨α1 i ¨α2odpowiednich kół. Tor ruchu charakterystycznego punktu A mobilnego robota przedstawiono na Rys. 4d.
Weryfikację zaprojektowanego algorytmu sterowania przeprowadzono na mobilnym ro-bocie Pioneer-2DX z wykorzystaniem metody szybkiego prototypowania. Wyniki ekspery-mentu w postaci przebiegów odpowiednich zmiennych przedstawiono na Rys. 5 oraz Rys. 6.
W skład sygnału sterowania całkowitego ruchem mobilnego robota dwukołowego (Rys. 5a) wchodzi sterowanie kompensacyjne generowane przez strukturę aktor – krytyk (Rys. 5b), sterowanie YP D (Rys. 5c), jako sterowanie zdefiniowane w postaci (11), oraz sterowanie nadzorujące uS (Rys. 5d).
Rysunek 5: a) Sterowanie całkowite u1 dla koła 1 oraz u2 dla koła 2, b) sterowanie kompensa-cyjne uRL1 oraz uRL2, c) sterowanie YP D1 oraz YP D2, d) sterowanie nadzorujące uS1 oraz uS2
odpowiednio dla kół 1 i 2
W strukturze dyskretnego ACE–ASE w roli aktora oraz krytyka zastosowano dwuwar-stwowe sieci neuronowe liniowe ze względu na parametry, o 6 neuronach sigmoidalnych dla każdej z sieci, oraz losowym doborze wag warstwy wejściowej. Wynikiem zastosowania SN o zerowych wartościach wag warstwy wyjściowej z sieci w początkowej fazie procesu uczenia jest zmienny udział sterowania kompensacyjnego w sterowaniu całkowitym. Pod-czas początkowego etapu adaptacji wag sieci główną rolę w sterowaniu odgrywa regulator PD, którego udział w sterowaniu całkowitym maleje w miarę postępu procesu uczenia wag sieci neuronowej aktora (ASE).
Na Rys. 6a oraz Rys. 6b przedstawiono błąd nadążania e1dla koła 1 i e2dla koła 2, oraz odpowiednie błędy prędkości nadążania ( ˙e1, ˙e2), wszystkie przebiegi błędów są ograniczone.
Do ilościowej oceny wyników przeprowadzonego eksperymentu zastosowano
następu-Rysunek 6: a) Błąd nadążania e1 = α1− α1d, oraz pochodna błędu nadążania ˙e1 = ˙α1− ˙α1d dla koła 1, b) błąd nadążania e2= α2− α2d, oraz pochodna błędu nadążania ˙e2= ˙α2− ˙α2d dla koła 2 jące wskaźniki jakości:
– maksymalna wartość błędu nadążania emax 1 [rad], emax 2 [rad],
– maksymalna wartość pochodnej błędu nadążania ˙emax 1 [rad/s], ˙emax 2 [rad/s], – pierwiastek sumy kwadratów błędów nadążania e1 i e2, ε1 =
s n
P
k=1
e21k [rad], gdzie k
-indeks oznaczający kolejne kroki iteracyjne, ε2= s n
P
k=1
e22k [rad], – pierwiastek sumy kwadratów pochodnej błędu nadążania
˙ ε1=
v u u t
n
X
k=1
˙e21k [rad/s], ε˙2= v u u t
n
X
k=1
˙e22k [rad/s].
Wartości poszczególnych wskaźników zamieszczono w Tabeli 1.
Tabela 1: Wartości wskaźników jakości dla poszczególnych kół Koło: emax [rad] ˙emax [rad/s] ε [rad] ε [rad/s]˙
1. 0.617 1.306 0.209 0.421
2. 0.642 1.546 0.267 0.433
Przebiegi wartości wag aktora (ASE) oraz krytyka (ACE) przedstawiono na Rys. 7.
Wagi przed rozpoczęciem procesu uczenia są równe zero, natomiast w miarę postępów procesu uczenia pozostają ograniczone. Wagi sieci neuronowej aktora, dla odpowiednich kół, pokazano na Rys. 7.a. i Rys. 7.c., natomiast wagi krytyka przedstawiono na Rys. 7.b.
i Rys. 7.d.
6. WNIOSKI
W artykule zaproponowano dyskretny algorytm sterowania ruchem nadążnym mobilne-go robota dwukołowemobilne-go, wykorzystujący metody uczenia ze wzmocnieniem do kompensacji nieliniowości sterowanego obiektu. Zastosowano strukturę aktora (ASE, w postaci sztucznej sieci neuronowej), do generowania sterowania, oraz krytyka (ACE) do oceny jakości
sterowa-Rysunek 7: a) wagi ASE dla koła 1, b) wagi ASE dla koła 2, c) wagi ACE dla koła 1, d) wagi ACE dla koła 2
robocie dwukołowym Pioneer-2DX. Przeprowadzone badania potwierdziły skuteczność za-projektowanego algorytmu sterowania w realizacji ruchu nadążnego oraz zbieżności błędów nadążania.
Niniejsza praca badawcza została zrealizowana w ramach projektu badawczego Nr 4 T07A 030 29
LITERATURA
[1] J. van Amerongen, Mechatronic design. Mechatronics, 13, 1045–1066, 2003.
[2] M.J. Giergiel, Z. Hendzel, W. Żylski, Modelowanie i sterowanie mobilnych robotów kołowych. PWN Warszawa, 2002.
[3] J. Giergiel, W. Żylski, Description of motion of a mobile robot by Maggie’s equations.
Journal of Theoretical and Applied Mechanics, 43, 511–521, 2005.
[4] Z. Hendzel, Collision free path planning and control of wheeled mobile robot using Kohonen self-organising map. Bull. Polish Acad. Sci. Tech. Sci., 53, 39–47, 2005.
[5] Z. Hendzel, An adaptive critic neural network for motion control of a wheeled mobile robot. Nonlinear Dynamics, 50, 849–855, 2007.
[6] Z. Hendzel, K. Cąkała, Zastosowanie uczenia ze wzmocnieniem w strukturze aktor-krytyk w sterowaniu ruchem nadążnym mobilnego robota kołowego. KMP2007, 2007.
[7] Z. Hendzel, K. Cąkała, Zastosowanie uczenia ze wzmocnieniem w mechatronicznym projektowaniu ruchu mobilnego robota kołowego. Wydawnictwo Instytutu Technologii Eksploatacji – PIB, 2007.
[8] R. Isermann, Information processing for mechatronic systems. Robotics and Autono-mous Systems, 19, 117–134, 1996.
[9] A.J. Koshkouei, A.S.I. Zinober, Sliding mode control of discrete–time systems. Journal of Dynamic Systems, Measurement, and Control, 122, 793–802, 2000.
[10] D.V. Prokhorov, D.C. Wunsch, Adaptive critic designs. IEEE Transactions on Neural Networks, 8, 997–1007, 1997.
[11] R.S. Sutton, A.G. Barto, Reinforcement learning. Cambridge, 1999.
[12] R. Syam, K. Watanabe, K. Izumi, Adaptive actor-critic learning for the control of mobile robots by applying predictive models. Soft Computing, 9, 835–845, 2005.
[13] R. Syam, Biomimetic control methods for nonholonomic mobile robots, Saga Univer-sity, Japan, 2005.
Zeszyty Naukowe Politechniki Rzeszowskiej 258, Mechanika 74 Rzeszów-Bystre, 25-27 września 2008