50
STEROWANIE RUCHEM NADĄŻNYM MOBILNEGO ROBOTA KOŁOWEGO Z ZASTOSOWANIEM UKŁADÓW
NEURONOWO ROZMYTYCH
ORAZ ALGORYTMÓW - NEURONOWEGO PROGRAMOWANIA DYNAMICZNEGO
Zenon Hendzel
1a, Magdalena Muszyńska
1b, Marcin Szuster
1c1
Katedra Mechaniki Stosowanej i Robotyki, Politechnika Rzeszowska e-mail:
azenhen@prz.edu.pl,
bmagdaw@prz.edu.pl,
cmszuster@prz.edu.pl
Streszczenie
W prezentowanym artykule przedstawiono dwie metody sterowania mobilnym robotem kołowym z zastosowaniem nowoczesnych metod sztucznej inteligencji. Pierwsza z nich dotyczy badań nad możliwością zastosowania neuronowo-rozmytego podejścia w sterowaniu ruchem nadążnym, w celu realizacji zadanej trajektorii ruchu, a co się z tym wiąże minimalizacji błędu nadążania. Bazując na strukturze przyjętego modelu mobilnego robota, dokonano syntezy neuronowo-rozmytego algorytmu sterowania w przypadku uczenia zarówno konkluzji jak i przesłanek bazy reguł. Druga metoda dotyczy zastosowania nowoczesnych metod sztucznej inteligencji w postaci algorytmów adaptacyjnego programowania dynamicznego. Przeprowadzono testy numeryczne zaproponowanych algorytmów sterowania, które potwierdziły poprawność przyjętych założeń projektowych dotyczących stabilności i jakości realizacji ruchu. Zaproponowane algorytmy działają on-line, nie wymagają fazy wstępnego uczenia.
TRACKING CONTROL OF THE WHEELED MOBILE ROBOT WITH APPLICATION OF NEURO-FUZZY
AND NEURAL DYNAMIC PROGRAMMING ALGORITHMS
Summary
In the article are presented two methods of the wheeled mobile robot tracking control with application of the modern artificial intelligence algorithms. First of them considers the possibility of application of the neuro-fuzzy algorithms in the tracking control, in order to realize the desired trajectory, what results in minimisation of the tracking errors. On the basis of the assumed wheeled mobile robot’s model structure, the neuro-fuzzy control algorithm was derived, where conclusions and premises of the rules base were adapted. The second method concerns application of the modern artificial intelligence methods, as adaptive dynamic programming algorithms, in the tracking control system. Numerical tests of the proposed control algorithms confirmed correctness of the assumptions made, concerning stability and quality of the tracking. The proposed algorithms work on-line and do not require the preliminary learning.
51
1. WSTĘP
Ze względu na postęp naukowy związany z rozwojem technik mikroprocesorowych, układów wykonawczych i magazynów energii, powstały nowe możliwości zastosowania autonomicznych mobilnych robotów kołowych (MRK) w wielu dziedzinach działalności człowieka. Zadania patrolowe, eksploracja miejsc trudno dostępnych lub niebezpiecznych czy transport materiałów, są coraz częściej realizowane z zastosowaniem MRK. Złożoność realizowanych zadań wiąże się z koniecznością opracowania odpowiednich metod sterowania układami wykonawczymi MRK, umożliwiającymi realizację ruchu wybranego punktu robota po zadanej trajektorii ruchu, tzw. ruchu nadążnego. Z punktu widzenia mechaniki, MRK są obiektami opisanymi nieliniowymi równaniami dynamiki, na które narzucono więzy nieholonomiczne, co utrudnia proces syntezy stabilnego prawa sterowania. Biorąc pod uwagę zmienne warunki pracy MRK, wynikające z ruchu po podłożu o rożnych parametrach, często ze zmiennym obciążeniem, właściwe byłoby zastosowanie metod sterowania umożliwiających uwzględnienie zmian dynamiki sterowanego obiektu. Dlatego w wielu ośrodkach na świecie prowadzone są badania naukowe dotyczące opracowania metod sterowania ruchem nadążnym MRK z zastosowaniem algorytmów adaptujących swoje właściwości do zmiennych warunków pracy sterowanego obiektu. Właściwości takie posiadają metody sztucznej inteligencji, takie jak sztuczne sieci neuronowe (SSN), czy układy neuronowo-rozmyte (UNR).
W prezentowanym artykule do sterowania ruchem nadążnym MRK zastosowano UNR, które stanowią nowe podejście w dziedzinie układów sztucznej inteligencji, łączące cechy SSN, takie jak możliwość adaptacji parametrów, z cechami układów rozmytych, jak np. czytelna interpretacja wiedzy w postaci bazy reguł. W drugim podejściu zaprezentowanym w artykule zastosowano dyskretne algorytmy neuronowego programowania dynamicznego (NPD), zbudowane z dwóch SNN: aktora i krytyka, których idea działania bazuje na klasycznym programowania dynamicznym Bellmana (PDB), a dzięki zastosowaniu SSN umożliwia generowanie suboptymalnego prawa sterowania w przód, w przeciwieństwie do podejścia klasycznego PDB, gdzie sygnały sterowania są generowane od ostatniego kroku procesu do kroku pierwszego.
Prezentowane wyniki badań są kontynuacją wcześniejszych prac autorów, związanych ze sterowaniem ruchem nadążnym MRK z zastosowaniem nowoczesnych metod sztucznej inteligencji, takich jak układy neuronowo-rozmyte [3,4] oraz algorytmy APD [5,6]. Artykuł składa się z
następujących części: w części pierwszej przedstawiono krótkie wprowadzenie do problemu sterowania ruchem nadążnym MRK, część druga zawiera opis modelu MRK, w części trzeciej przedstawiono przykład zastosowania UNR w układzie sterowania ruchem nadążnym, część czwarta zawiera przykład zastosowani algorytmów APD w konfiguracji DHP, w zadaniu sterowania ruchem MRK, w części piątej przedstawiono wyniki testów numerycznych zaproponowanych algorytmów sterowania, natomiast część szósta podsumowuje wyniki przeprowadzonych prac badawczych.
2. MODEL MOBILNEGO ROBOTA DWUKOŁOWEGO
Model MRK, poruszającego się w płaszczyźnie xy, przedstawiono na rys. 1. MRK składa się z dwóch kół napędzających 1 i 2, koła samonastawnego 3, którego wpływ na dynamikę MRK pominięto, oraz ramy 4.
Rys.1. Schemat dwukołowego robota mobilnego
Dynamikę MRK opisano stosując formalizm matematyczny Maggiego [1,2], otrzymano dynamiczne równania ruchu w postaci
Mα+C(α)α+Fα+τ =u && & & &
d (1) gdzie: [ ] [ ]T
1 2
α= α ,α
& & &
- wektor prędkości kątowych obrotu własnego kół napędowych 1 i 2, M,C(α) &
, F – macierze i wektory, których budowa wynika z zastosowanego formalizmu matematycznego opisu ruchu MRK,τ
d - wektor ograniczonych zakłóceń, [ ] [ ]T
1 2
u= u ,u
- wektor sygnałów sterowania.Problem sterowania nadążnego ruchem MRK w celu realizacji zadanej trajektorią ruchu
[ ]
Td d d
q = α ,α &
zdefiniowano jako generowanie52 stabilnego prawa sterowania, które minimalizuje błędy nadążania
d
d
e=α -α
e=α -α & & &
(2)dla zadanej trajektorii ruchu qd, gdzie: q→qd, gdy t→∞. Uogólniony błąd nadążania przyjęto w postaci
s=e- e & Λ
(3) gdzie: Λ – dodatnio określona, diagonalna macierz projektowa.W struktura NPD, w procedurze adaptacji wag SSN aktora oraz krytyka, korzysta się z modelu dynamiki sterowanego obiektu, z tego względu, dyskretyzowano opis dynamiki MRK (1) do postaci
{ } { } { }
{ } { } { } { } { } { } { }
1 k+1 1 k 2 k -1
2 k+1 2 k 2 k 2 k d k k 2 k
z =z +z h,
z =-M C(z )z +F(z )+τ -u h+z ,
(4)
gdzie: { } { } { }
T
2 k 2[1] k 2[2] k
z = z ,z
- wektordyskretnych prędkości kątowych, który odpowiada
α &
,h – parametr dyskretyzacji czasu, k – indeks kroków iteracji.
3. ALGORYTMY NEURONOWO- ROZMYTE W STEROWANIU NADĄŻNYM
Układ sterowania ruchem nadążnym MRK z zastosowaniem UNR, schematycznie przedstawiony na rys.2, składa się z członu kompensującego nieliniowości sterowanego obiektu, w którym zastosowano UNR, regulatora PD oraz dodatkowego elementu generującego sterowanie odporne.
Szczegółowy opis prezentowanego algorytmu sterowania zamieszczono w [3,4].
Przyjęto całkowity sygnał sterowania w postaci równania
N PD O
u=u +u − u
(5)gdzie: uN – sterowanie generowane przez UNR, realizujące kompensację nieliniowości MRK, uPD=KDs – sterowanie generowane przez regulator PD, KD – projektowa macierz diagonalna, dodatnio określona, uO – sygnał sterowania odpornego, wyrażony zależnością
T
O D
u s K Y
= − s
(6)gdzie: Y – macierz mierzalnych sygnałów.
Opis nieliniowości MRK wynika z przyjętego modelu dynamiki. Ze względu na eksplozję rozwiązań wynikającą z dużej liczby zmiennych, funkcje te dekomponowano na sześć funkcji składowych. Do ich aproksymacji zastosowano UNR, co zapisano w formie zależności
T T T
N[1] 1 1 2 2 3 3
N T T T
N[2] 4 4 5 5 6 6
u W S W S W S
u u W S W S W S
+ +
= =
+ +
(7)gdzie: Wi – wektor wartości wag konkluzji poszczególnych reguł bazy reguł UNR, i=1,…,6, Si – wektor zawierający wartości stopni spełnienia przesłanek poszczególnych reguł.
W UNR uczeniu podlegają parametry konkluzji i przesłanki bazy reguł modelu Sugeno.
ij i[1] i[j] i[2] i[j]
i[j] i
R :JEŚLI x A I x B
TO g W , j 1,2,...,N
= =
= =
(8)gdzie: Ai[j], Bi[j] – stopień spełnienia przesłanki, Ni – liczba reguł i-tego UNR.
Stopień spełniania przesłanki j – tej reguły i-tego UNR opisano funkcją Gaussa:
2 2 2 2
i[1] i[1] i[1,j] i[2] i[2] i[2,j]
-r (x -c ) -r (x -c )
S
i[j]= e
(9)gdzie: j – indeks reguł w bazie reguł, xi – wektor wejść do i- tego UNR, ri – wektor szerokości funkcji Gaussa, ci – macierz współrzędnych położenia środków funkcji Gaussa.
Parametry UNR, takie jak Wi, ri oraz ci, podlegają adaptacji w czasie działania układu sterowania, w celu
Rys.2. Schemat układu sterowania z zastosowaniem algorytmów neuronowo-rozmytych
53 wygenerowania sygnałów sterowania umożliwiających realizację ruchu nadążnego przy zmiennych warunkach pracy MRK.
4. ALGORYTMY NEURONOWEGO PROGRAMOWANIA DYNAMICZNEGO W STEROWANIU NADĄŻNYM
W skład rodziny układów NPD wchodzi 6 dyskretnych algorytmów [7,8,9], których idea działania polega na zaadaptowaniu reguł klasycznego PDB do pracy w czasie rzeczywistym z zastosowaniem aproksymacji funkcji kosztu przez SSN krytyka. Sygnał generowany przez SSN krytyka służy do oceny prawa sterowania generowanego przez SSN aktora.
W prezentowanym dyskretnym układzie sterowania ruchem nadążnym MRK, pokazanym schematycznie na rys. 3, do aproksymacji nieliniowości sterowanego obiektu zastosowano struktury NPD w konfiguracji dualnego heurystycznego programowania dynamicznego (DHP). Układ sterowania został dokładnie opisany w pracach [5,6], generuje on całkowity sygnał sterowania opisany zależnością
{ } { } { } { } { }
*
k A k S k PD k E k
u = 1 M u +u +u u
h
−
(10)gdzie: { }
*
u
S k - sygnał sterowania nadzorującego, o strukturze wynikającej z analizy stabilności układu sterowania z zastosowaniem metody Lyapunova, uE{k}– dodatkowy sygnał sterowania wynikający z dyskretyzacji modelu ciągłego MRK.
Poszczególne sygnały sterowania są opisane następującymi zależnościami:
{ } { } { } { } { } { } { } { }
* *
D
PD k k S k S k E k d2 k 1 k+1 d1 k+1
u =K s , u =I u , u =-z +Λ z -z
(11)
gdzie: I* - macierz diagonalna o elementach
I
*[i,i]= 1
, gdys
[i]{k}> φ
[i], orazI
[i,i]*= 0
, gdys
[i]{k}≤ φ
[i],φ
[i] - parametr projektowy,φ
[i]> 0
, i=1,2. Sygnał sterowania nadzorującego zapisano w postaci[ ]{ } [ ]{ } [ ] [ ]{ } [ ] [ ]
S i k i k i A i k d i i
u = sgns − F + u +b +η
(12)
gdzie:
F
[ ]i - ograniczenie wartości nieliniowości MRK, [ ]iF ≥ 0
,b
d i[ ] - ograniczenie wartości zakłóceń,[ ]
b
d i≥ 0
,η
[ ]i - współczynnik projektowy,η
[ ]i> 0
. Zadaniem algorytmu NPD jest wyznaczenie suboptymalnego prawa sterowania minimalizującego funkcję wartości V{k}, która w ogólnym przypadku może być funkcją stanu obiektu x{k} oraz sygnałów sterowania u{k}, przyjętą w formie{ } { } { } { } { } { }
n k
k k k C k k k
k=0
V (x ,u )= ∑ γ L (x ,u )
(13)gdzie: n – liczba kroków procesu dyskretnego, γ – tzw.
współczynnik zapominania (0<γ≤1), LC{k} – koszt lokalny w kroku k, nazywany również funkcją kosztu.
W zadaniu sterowania ruchem nadążnym MRK przyjęto koszt lokalny w formie
{ } { }
2 i [i]{k}
C[i] k [i] k
L (s ) 1 Ps
= 2
(14)gdzie: Pi – stałe współczynniki projektowe, i=1,2.
Algorytm DHP składa się z modelu predykcyjnego sterowanego obiektu, oraz SSN:
- krytyka, która aproksymuje pochodną funkcji kosztu względem wektora stanu sterowanego obiektu. Został on zrealizowany w postaci dwóch SSN Random Victor Functional Link (RVFL), liniowych ze względu na wagi warstwy wyjściowej, opisanych zależnością
[ ]{ }i k Ci kT{ }
(
TC C i k[ ]{ })
ˆλ =W S D x
(15)Rys.3. Schemat układu sterowania z zastosowaniem struktur DHP
54 gdzie:
x
C i k[ ]{ } - wektor wejść do i-tej SSN krytyka,{ }
W
Ci k - wektor wag warstwy wyjściowej i-tej SSN krytyka, S(.) – wektor sigmoidalnych bipolarnych funkcji aktywacji neuronów SSN, DC – macierz stałych wag warstwy wejściowej SSN krytyka, i=1,2.- aktora, generującego prawo sterowania, zrealizowanego w postaci dwóch SSN RVFL
[ ]{ } T{ }
(
TA [ ]{ })
A i k Ai k A i k
u =W S D x
(16)gdzie:
x
A i k[ ]{ } - wektor wejść do i-tej SSN aktora,{ }
W
Ai k - wektor wag warstwy wyjściowej i-tej SSN aktora, DA – macierz stałych wag warstwy wejściowej SSN aktora.
5. WYNIKI TESTÓW NUMERYCZNYCH
Przeprowadzono testy numeryczne zaproponowanych algorytmów sterowania ruchem nadążnym MRK w środowisku obliczeniowym Matlab/Simulink, dla trajektorii o torze ruchu w kształcie pętli, wygenerowanej wcześniej i zapisanej
w pamięci programu.
Wyniki uzyskane przez algorytm sterowania ruchem nadążnym z zastosowaniem UNR przedstawiono na rys. 4. Całkowity sygnał sterowania (rys. 4a) zgodnie z zależnością (5) składa się z sygnałów sterowania generowanych przez UNR (rys.
4.b), regulator PD oraz układ sterowania odpornego (rys. 4c). Udział sterowania generowanego przez UNR jest dominujący. Na rys.4.d przedstawiono błędy nadążania e1 i
e &
[1], które największe wartości przyjmują w początkowej fazie ruchu. Na rysunkach 4e i 4f) przedstawiono przebiegi wartości wag W2UNR oraz położeń centrów funkcji Gaussa c2. Parametry te są adaptowane w czasie ruchu MRK, ich wartości są ograniczone.
Przebiegi otrzymane w wyniku testów numerycznych dyskretnego układu sterowania ruchem nadążnym MRK, z zastosowaniem algorytmów NDP, przedstawiono na rys.5. W celu uproszczenia analizy wyników otrzymane przebiegi przedstawiono w ciągłej domenie czasu. Zgodnie z przyjętym prawem sterowania (10) całkowity sygnał sterowania ruchem nadążnym (rys. 5.a) składa się z sygnałów sterowania generowanych przez SSN aktora, regulator PD (rys.
5.b), sterowania nadzorującego oraz dodatkowego
Rys.4.a) Wartości całkowitych sygnałów sterowania u[1] i u[2], b) wartości sygnałów sterowania UNR uN[1] i uN[2], c) wartości sygnałów sterowania regulatora PD uPD[1] i uPD[2], oraz sterowania nadzorującego, uO[1] i uO[2], d) przebiegi wartości błędów
nadążania e[1] oraz
e &
[1], e) wartości wag konkluzji W2, e) położenia środków funkcji Gaussa c255 sterowania uE[1] i uE[2] (rys. 5.c). Błędy nadążania koła pierwszego MRK przedstawiono na rys.5.d, wartości błędów w początkowej fazie ruchu są największe, co wynika z zastosowania zerowych wartości wag początkowych SSN aktora i krytyka, których przebiegi przedstawiono na rysunkach 5e oraz 5f odpowiednio.
Wartości wag w trakcie testu numerycznego stabilizują się i pozostają ograniczone.
Obydwa zastosowane algorytmy sterowania gwarantują stabilną realizację ruchu nadążnego wybranego punktu MRK. Błędy nadążania pozostają ograniczone. Parametrów algorytmów NPD czy UNR, podlegające adaptacji, np. wagi SSN, zmieniają swoje wartości zgodnie z przyjętymi prawami adaptacji, ich wartości pozostają ograniczone.
6. PODSUMOWANIE
Przedstawiono dwa algorytmy sterowania ruchem nadążnym wybranego punktu MRK, w których zastosowano nowoczesne metody sztucznej inteligencji.
W pierwszym z algorytmów sterowania zastosowano UNR, natomiast w drugim, dyskretnym algorytmie sterowania, zastosowano struktury NPD w konfiguracji DHP. Zaproponowane algorytmy nie wymagają fazy uczenia wstępnego, działają on-line.
Przeprowadzone testy numeryczne potwierdziły poprawność przyjęty założeń projektowych w kwestii wymaganej jakości realizacji ruchu nadążnego.
Kolejnym etapem badań naukowych będzie weryfikacja zaprezentowanych algorytmów sterowania z zastosowaniem obiektu rzeczywistego, MRK Pioneer 2-DX.
Rys.5.a) Wartości całkowitych sygnałów sterowania u[1] i u[2], b) wartości sygnałów sterowania SN aktora, UA=h-1MuA, oraz regulatora PD, UPD=h-1MuPD, c) wartości sygnałów sterowania nadzorującego, US=h-1MuS, oraz sygnału UE=h-1MuE, d) wartości błędów nadążania e[1] oraz
e &
[1], e)wagi SN aktora 1, WA1, e) wagi SN krytyka 1, WC1
56
Literatura
1. Giergiel J., Hendzel Z., Zylski W.: Modelowanie i sterowanie mobilnych robotów kołowych. Warszawa: PWN, 2002.
2. Giergiel J., Zylski W.: Description of motion of a mobile robot by Maggie’s equations. “Journal of Theoretical and Applied Mechanics” 2005, 43, p. 511-521.
3. Hendzel Z., Muszyńska M.: Adaptive fuzzy control of a wheeled mobile robot. “Int. J. of Applied Mechanics and Engineering” 2012, 17, 3, p. 827-835.
4. Hendzel Z., Muszyńska M.: Neuronowo-rozmyte systemy sterowania mobilnym robotem kołowym. “Modelowanie Inżynierskie” 2012, nr 41, s. 100-108.
5. Hendzel Z., Szuster M.: Adaptive dynamic programming methods in control of wheeled mobile robot. “Int. J. of Applied Mechanics and Engineering” 2012, 17, 3, p. 837-851.
6. Hendzel Z., Szuster M.: Discrete neural dynamic programming in wheeled mobile robot control. “Commun Nonlinear Sci Numer Simulat” 2011, 16, 5, p. 2355-2362.
7. Powell W.B.: Approximate dynamic programming: solving the curses of dimensionality. Princeton: Willey- Interscience, 2007.
8. Prokhorov D., Wunsch D.: Adaptive critic designs. IEEE “Transactions on Neural Networks” 1997, 8, p. 997- 1007.
9. Si J., Barto A.G., Powell W.B., Wunsch D.: Handbook of learning and approximate dynamic programming. New York: IEEE Press, Willey-Interscience, 2004.
Proszę cytować ten artykuł jako: