MODELOWANIE INŻYNIERSKIE 2016 nr 60, ISSN 1896-771X
ZASTOSOWANIE DWUOSOBOWEJ
GRY RÓŻNICZKOWEJ O SUMIE ZEROWEJ DO STEROWANIA ELEMENTEM
MECHATRONICZNYM
Zenon Hendzel
1a, Paweł Penar
1b1Katedra Mechaniki Stosowanej i Robotyki, Politechnika Rzeszowska
azenhen@prz.edu.pl, bppenar@prz.edu.pl
Streszczenie
W artykule opisano zastosowanie teorii gier różniczkowych do sterowania modułem napędowym mobilnego robota kołowego. Omówiono rozwiązanie dwuosobowej gry różniczkowej o sumie zerowej wynikające z teorii punktu sio- dłowego Nasha. Teoria dwuosobowych gier o zerowej sumie i związana z nią teoria sterowania typu ܪஶ wynika z rozwiązania równania Hamiltona-Jacobiego-Isaaca (HJI). Ta problematyka występuje w teorii optymalnego ste- rowania obiektami dynamicznymi. Zastosowanie sterowania wynikającego z teorii gier różniczkowych gwarantuje optymalne rozwiązanie względem przyjętego wskaźnika jakości przy założeniu, że występują najbardziej nieko- rzystne zakłócenia. Przyjęte rozwiązania zweryfikowano na obiekcie rzeczywistym. Uzyskane wyniki potwierdziły poprawność przyjętych założeń i efektywność metody.
Słowa kluczowe: gry różniczkowe, sterowanie optymalne, moduł napędowy
USE TWO-PERSON ZERO-SUM DIFFERENTIAL GAME IN CONTROL THE MECHATRONIC ELEMENT
Summary
In the paper we discuss the application of the differential game theory to motor control of a wheeled robot. We present the solution of two-player zero-sum differential game obtained from the Nash equilibrium theory. Two-player zero-sum game theory and related control theory of ܪஶ type are following from the solutions of the Hamilton-Jacobi- Isaacs (HJI) equations of the optimal control theory in dynamics. Differential game control guarantee optimal solution for a performance index assuming that wrost case disturbance. The proposed solution is verified for a real object. The obtained results demonstrated the correctness of assumptions and efficiency of used method.
Keywords: differential game, optimal control theory, wheeled control robot motor
1. WSTĘP
Teoria gier dynamicznych, łącząc ze sobą teorią gier i teorię sterowania optymalnego, stanowi uogólnienie problemu optymalizacji typu minimax. Do podobszaru gier dynamicznych należą gry różniczkowe, których nazwa wskazuje na charakter równań, które opisują obiekt sterowania. Ich rozwiązanie bazuje na zasadzie optymalności Bellmana [1].
W przypadku gry dwuosobowej o sumie zerowej jeden gracz maksymalizuje, a drugi minimalizuje przyjęty wskaźnik jakości. Rozwiązaniem gry dwuosobowej o sumie zerowej jest punkt siodłowy Nasha [6], który jest rozwiązaniem sterowania typu ܪஶ [3]. Ten fakt łączy teorię gier różniczkowych z teorią systemów dys- sypatywnych [1,7]. Obiekt sterowana, jakim jest moduł napędowy mobilnego robota kołowego (MRK), można
opisać z wykorzystaniem modelu liniowego [2]. Dla takich modeli gra różniczkowa o sumie zerowej posiada rozwiązania analityczne [1]. W pracy [3] przedstawiono zastosowanie dyskretnej, liniowo-kwadratowej gry róż- niczkowej o sumie zerowej. Rozważania teoretyczne uzupełniono symulacją zastosowania gry różniczkowej w sterowaniu modułem napędowym mobilnego robota kołowego.
Trudnością związaną z rozwiązaniem gry różniczkowej, w której równania dynamiczne są nieliniowe, jest brak rozwiązań analitycznych. Dlatego rozwiązanie gier różniczkowych o sumie zerowej dla nieliniowych obiek- tów dynamicznych bazują na metodach aproksymacyj- nego programowania dynamicznego, co szeroko opisano w wielu pracach (np. [4, 5, 8-10]).
W artykule przedstawiono zastosowanie dwuosobowej gry różniczkowej o sumie zerowej w sterowaniu modułem napędowym MRK. Niniejszy artykuł podzielono na dwie części: teoretyczną i eksperymentalną. W ramach oma- wianej tematyki przeprowadzono symulację oraz weryfi- kację przyjętego rozwiązania na obiekcie rzeczywistym.
2. OPTYMALNE STEROWANIE TYPU ࡴ
ஶOBIEKTEM
NIELINIOWYM.
GRY RÓŻNICZKOWE O SUMIE ZEROWEJ
Dany jest obiekt sterowania
࢞ሶ ൌ ݂ሺ࢞ሻ ݃ሺ࢞ሻ࢛ ݇ሺ࢞ሻࢊ (1) z wyjściem
ࢠ ൌ ࢞ (2)
gdzie ݂ሺͲሻ ൌ Ͳ, ࢞ to stan układu należący do przestrze- ni stanu, to macierz wyjścia, a ݂ǡ ݇ǡ ݀ to nieliniowe funkcje. Sygnały ࢛ i ࢊ to odpowiednio sygnał sterowa- nia będący graczem minimalizującym i sygnał gracza maksymalizującego, który pełni rolę zakłóceń. Wyjście z systemu oznaczone przez ࢠ, służy określeniu struktury wskaźnika jakości sterowania.
Z obiektem sterowania (1) związano wskaźnik jakości
ܸሺ࢞ሻ ൌ න ݏሺ࢞ሻ݀ݐ
ஶ ௧బ
ൌ
ൌ න ሾ்࢞ሺݐሻࡽ࢞ሺݐሻ ࢛ሺݐሻ்ࡾ࢛ሺݐሻ
ஶ
௧బ
െ ߛଶࢊ்ሺݐሻࢊሺݐሻሿ݀ݐ
(3)
gdzie ݐ to czas początkowy, ߛ to wzmocnienie związane ze sterowaniem typu ܪஶ, a ࡽ ൌ ் oraz ࡾ to macierze projektowe. Postać wskaźnika jakości (3) wynika z teorii systemów dyssypatywnych, co pokazano m.in. w pracach [1, 7].
Dla obiektu sterowania (1), w nieskończonym horyzoncie czasowym, można określić wzmocnienie typu ܮଶ, które jest wzmocnieniem typu wejście-wyjście [1]. Wzmocnie- nie ܮଶ dla obiektu (1) jest mniejsze lub równe ߛ, jeśli:
ሾ࢞௧ஶ ்ሺ߬ሻࡽ࢞ሺ߬ሻ ்࢛ሺ߬ሻࡾ࢛ሺ߬ሻሿ݀߬
ሾࢊሺ߬ሻ௧ஶ ்ࢊሺ߬ሻሿ݀߬
ߛଶ (4)
Sterowanie typu ܪஶ polega na wyznaczeniu najmniejszej wartości ߛכ Ͳ takiej, że dla dowolnego ߛ spełniona jest nierówność
ߛ ߛכ (5)
Na podstawie [1] wiadomo, że wyznaczenie wzmocnienia ܮଶ dla obiektu sterowania (1) jest równoważne poszuki- waniu optymalnej wartości funkcji ܸ. Zgodnie z pracami [1, 7] problem sterowania typu ܪஶ jest równoważny minimalizacji wskaźnika jakości ܸ. Takie podejście sprowadza zagadnienie stabilności typu ܮଶ do teorii gier różniczkowych o sumie zerowej.
2.1 CIĄGŁA GRA RÓŻNICZKOWA O SUMIE ZEROWEJ
Jak podano w pracy [6], rozwiązaniem ciągłej gry różniczkowej o sumie zerowej, w której obiekt sterowania dany jest zależnością (1), wyjście zależnością (2), a wskaźnik jakości ma postać (3), są takie sygnały
࢛כ i ࢊכ, dla których spełniona jest nierówność
ܸሺ࢞ǡ ࢛כǡ ࢊሻ ܸሺ࢞ǡ ࢛כǡ ࢊכሻ ܸሺ࢞ǡ ࢛ǡ ࢊכሻ (6) Innymi słowy, rozwiązaniem gry różniczkowej o sumie zerowej jest para sygnałów ሺ࢛כǡ ࢊכሻǡ które określają punkt siodłowy, nazywany punktem siodłowym Nasha [6]. Stąd rozwiązanie, będące punktem siodłowym, stanowi optymalną strategię gry dla każdego z graczy.
Problem gry różniczkowej o sumie zerowej można zapisać za pomocą równania Hamiltona-Jacobiego-Isaaca (HJI) [1, 4], tj.
Ͳ ൌ ࢛݉݅݊ሺ௧ሻ݉ܽݔࢊሺ௧ሻሼݏሺ࢞ǡ ࢛ǡ ࢊሻ (7)
ܸ݀ሺ࢞ሻ
݀࢞ ሾ݂ሺ࢞ሻ ݃ሺ࢞ሻ࢛ ݇ሺ࢞ሻࢊሿሽ lub
Ͳ ൌ ݉݅݊ࢊሺ௧ሻ݉ܽݔ࢛ሺ௧ሻሼݏሺ࢞ǡ ࢛ǡ ࢊሻ (8)
ܸ݀ሺ࢞ሻ
݀࢞ ሾ݂ሺ࢞ሻ ݃ሺ࢞ሻ࢛ ݇ሺ࢞ሻࢊሿሽ
Równanie HJI określa warunek wystarczający optymal- ności, podobnie jak równanie Hamiltona-Jacobiego- Bellmana. Jak podano m.in w pracach [1, 9], punkt siodłowy ሺ࢛כǡ ࢊכሻ jest dany równaniami
o ࢛כሺݐሻ ൌ െͳ
ʹࡾିଵ݃ሺ࢞ሻ்ܸ݀כሺ࢞ሻ
݀࢞ (9)
oraz
ࢊכሺݐሻ ൌ ͳ
ʹߛଶ݇ሺ࢞ሻ்ܸ݀כሺ࢞ሻ
݀࢞ (10)
Zenon Hendzel, Paweł Penar
W wielu pracach wskazano, że rozwiązanie gry różniczko- wej o sumie zerowej na podstawie (9) i (10) jest bardzo trudne ze względu na występowanie gradientu wskaźnika jakości, który pozostaje nieznany. W przypadku liniowym rozwiązanie gry różniczkowej o sumie zerowej sprowadza się do rozwiązania równania Riccatiego, co dla przypadku dyskretnego pokazano w pracy [3].
W przypadku nieliniowym do aproksymacji wskaźnika jakości stosuje się strukturę aktor-krytyk. W tej struktu- rze krytyk jest realizowany przez sieć neuronową [4, 5, 8-10].
2.2 LINIOWO-KWADRATOWA GRA RÓŹNICZKOWA O SUMIE
ZEROWEJ
Dany jest liniowy, stacjonarny obiekt sterowania [1, 7]:
ݔሶ ൌ ࢞ ࢛ ࡱࢊ
ࢠ ൌ ࢞ (11)
gdzie to macierz obiektu sterowania, to macierz sterowań, ࡱ to macierz zakłóceń, a to macierz wyjścia.
Wymiary macierzy ǡ ǡ są dopasowane do wymiaro- wości stanu ࢞, sterowania ࢛ i zakłóceń ࢊ. Z obiektem sterowania (11) związano wskaźnik jakości postaci
ܸሺݔሻ න ሾ்࢞ࡽ࢞ ்࢛ࡾ࢛ െ ߛଶࢊ்ࢊሿ݀ݐ
ஶ ௧
(12)
którego wartość ma być minimalizowana, przy czym ߛ ߛכ Ͳ a ࡽ ൌ ். Sterowanie ࢛ pełni rolę gracza minimalizującego, a zakłócenie ࢊ to gracz maksymalizu- jący. W wielu pracach, m.in. w [1], przedstawiono roz- wiązanie liniowo-kwadratowej gry różniczkowej o sumie zerowej. Rozwiązaniem tego zagadnienia jest para sygna- łów optymalnych ሺ࢛כǡ ࢊכሻ, które można wyznaczyć z zależności
࢛כሺݐሻ ൌ ࡷொீ࢞ (13) oraz
ࢊכሺݐሻ ൌ ࡸொீ࢞ (14) Występujące w zależnościach (13) i (14) macierzeࡷொீ
i ࡸொீ to wzmocnienia, które wyznaczamy jako
ࡷொீൌ െࡾିଵ்ࡼ
ࡸொீൌ ͳ ߛଶࡷ்ࡼ
gdzie macierz ࡼ to macierz równania Riccatiego, wyznaczana z równania postaci
்ࡼ ࡼ ࡼ ൬ͳ
ߛଶࡱࡱ்െ ்൰ ࡼ ࡽ ൌ Ͳ (15) Jak wiadomo z pracy [6], funkcja wartości ܸכdla ukła- du liniowego może być wyznaczona z zależności
ܸכሺ࢞ሻ ൌ ்࢞ࡼ࢞ (16)
3. SYMULACJA I WERYFIKACJA GRY RÓŻNICZKOWEJ
W przykładzie wykorzystano liniowo-kwadratową grę różniczkową do stabilizacji kąta obrotu wału napędowe- go modułu MRK, który składa się z silnika prądu stałe- go, przekładni i enkodera. Na podstawie pracy [2] model liniowy modułu napędowego MRK można zapisać jako
ܶ߮ሷ௦ ߮ሶ௦ൌ ܭݑሺݐሻ (17) gdzie ߮௦ to kąt obrotu wału silnika, ܶ to stała czasowa, ܭ to wzmocnienie a ݑ to napięcie podawane na silnik pełniące rolę sterowania.
Korzystając z podstawienia ݔଵൌ ߮௦ ݔሶଵൌ ݔଶൌ ߮ሶ௦
ݔሶଶൌ ߮ሷ௦
(18)
oraz uwzględniając człon związany z zakłóceniami, zależność (17) można zapisać za pomocą równania stanu (11), które w formie macierzowo-wektorowej przyjmuje postać
ݔሶଵ ݔሶଶ൨ ൌ
Ͳ ͳ
Ͳ െͳ
ܶ ൩ ቂݔଵ
ݔଶቃ Ͳ ܭ
ܶ ൩ ݑ
Ͳ ͳ
ܶ
൩ ݀ (19)
Elementy wektora stanu ሾݔଵ ݔଶሿ் mają interpretacje kąta obrotu i prędkości kątowej wału modułu napędo- wego.
Korzystając z procedury care zaimplementowanej w pakiecie Matlab/Simulink i przyjmując ߛ ൌ ͲǤͲͷ, ܭ ൌ ʹͲǤͳ, ܶ ൌ ͳ, ࡽ ൌ ݀݅ܽ݃ሼͲǤͲͲͳǡͲǤͲͲͳሽ i ܴ ൌ ͳ, wyzna- czono wartość macierzy ࡼ będącej rozwiązaniem rów- nania Riccatiego (15)
ࡼ ൌ ቂͲǤͲͳͺ ͲǤͲͳͷͺ
ͲǤͲͳͷͺ ͲǤͲͳͷͺቃ (20) Na podstawie macierzy ࡼ można wyznaczyć wartości wzmocnień
ࡷொீൌ ሾെͲǤ͵ͳͶ െͲǤ͵ͳͶሿ (21) Zadaniem układu sterowania jest osiągnięcie wartości zadanej ࢞ௗൌ ሾͳʹߨ Ͳሿ், przy czym
ݑכൌ ࡷொீሾ࢞ െ ࢞ௗሿ (22) Przyjmując wartość wektora wzmocnienia ࡷொீ i pa- rametry modelu, przeprowadzono symulację sprowadza- nia modułu napędowego MRK (bez zakłóceń, tj. ݀ ൌ Ͳ) do wartości zadanej ݔௗ. Czas symulacji to 8 [s]. Symu- lację numeryczną zaproponowanego rozwiązania prze- prowadzono z krokiem dyskretyzacji ݄ ൌ ͲǤͲͳ. Na rys. 1 zamieszczono przebieg rozwiązania dla przypadku wy- muszenia skokowego ݔଵௗ, otrzymując przebiegi rozwią- zań współrzędnych stanu sterowanego obiektu ݔଵ௦௬כ , ݔଶ௦௬כ .
Rys. 1: Przebieg sygnału wymuszenie ݔଵௗ o stanu, tj. ݔଵ௦௬כ i ݔଶ௦௬כ , uzyskany w sym dla przypadku gdy ݀ ൌ Ͳ
Rys. 2: Porównanie przebiegów zmiennej sta cja numerycznej), wartości zadanej ݔଵௗ ora cja) w przypadku gdy ݀ ൌ Ͳ
Rys. 3: Porównanie przebiegów zmien (symulacja numerycznej) z ݔଶ௪כ (wery padku gdy ݀ ൌ Ͳ
oraz współrzędnych ulacji numerycznej
anu ݔଵ௦௬כ (symula- az ݔଵ௪כ (weryfika-
nnej stanu ݔଶ௦௬כ
yfikacja) w przy-
Rys. 4: Porównanie przebiegów wska wyznaczonych dla dyskretnych warto Wyniki symulacji numerycznej p weryfikacji na obiekcie rzeczywi rys. 2 i 3. Rozbieżności widoczne z niedokładności parametryczny przyjętego modelu matematyczne Na rys. 4 porównano przebiegi w i ܸ௪כ uzyskane odpowiednio w weryfikacji dla dyskretnych war przebiegach wskaźników jakości ܸ do przebiegów zmiennych stanu kwencją niedokładności modelu.
Rys. 5: Przebieg zmiennych stanu podczas weryfikacji na obiekcie rzecz moment oporowy, z naniesionym prz ݔଵௗ
aźników jakości ܸ௦௬כ i ܸ௪כ
ści czasu
porównano z wynikami istym, co pokazano na e na rys. 2 i 3 wynikają
ych i strukturalnych ego.
wskaźników jakości ܸ௦௬כ przypadku symulacji i rtości czasu. Różnice w
ܸ௦௬כ i ܸ௪כ , analogicznie (rys. 2 i 3), są konse-
ݔଵ௪כ i ݔଶ௪כ uzyskany zywistym na który działał zebiegiem wartości zadanej
Rys. 6: Przebieg sterowania ݑ uzyskany pod obiekcie rzeczywistym na który działał mome
Stosując analogiczne sterowanie od stan nieniem ࡷொீ i wprowadzając zakłóc momentu oporowego, dla ݐ ʹሾݏሿ kolejny test na obiekcie rzeczywistym moment oporowy spowodował zakłó obserwowane w przebiegach zmiennych w ten sposób przebieg zmiennych sta rys. 5. Dodatkowo na rys. 6 pokazano p nia ݑ.
Rys. 7: Sygnał generowany przez gracza ma który pełni rolę zakłóceń
W celu odwzorowania w symulacji num ści momentu oporowego należy dobra maksymalizującego ݀, który pełni rolę zakłócenia. Przebieg sygnału ݀ został przebieg zmiennych stanu ࢞௦௬ uzysk numerycznej i przebieg zmiennych sta czywistego ࢞௪ǡ na który działał momen jak najbliższe. Korzystając z metody ustalono, że sygnał gracza maksymalizu przybliżyć funkcją
Zenon Hendzel, Paweł Penar
czas weryfikacji na ent oporowy
nu, tj. ze wzmoc- cenia w postaci
przeprowadzono m. Wprowadzony
cenia, które są stanu. Uzyskany nu pokazano na przebieg sterowa-
aksymalizującego ݀
merycznej obecno- ać sygnał gracza
wprowadzonego dobrany tak, by kany z symulacji anu obiektu rze-
nt oporowy, były prób i błędów, ującego ݀ można
݀ሺݐሻ ൌ ቐ Ͳǡ ݐ ൏
െ͵ͳͺ݁ିǤହ௧ ݐ א Ͳǡ ݐ lub przedstawić na wykresie (rys.
Rys. 8: Porównanie przebiegu zmie w symulacji numerycznej (ݔଵ௦௬ǡ ݔଶ௦௬
obiektu rzeczywistego (ݔଵ௪ǡ ݔଶ௪) ment oporowy
Rys. 9: Porównanie przebiegu gracza cego rolę sterowania uzyskanego w (ୱ୷୫ȗ ) z sygnałem uzyskanym podcza
ʹǤͲͺሾݏሿ א ሾʹǤͲͺǡʹǤͳͺሿሾݏሿ
ʹǤͳͺሾݏሿ
(23)
7).
ennych stanu uzyskanych
) oraz zmiennych stanu ) na który działał mo-
a minimalizującego pełnią- w symulacji numerycznej as weryfikacji (୵ୣ୰ȗ )
Rys. 10: Porównanie przebiegu wskaźnika ja czonego dla obiektu rzeczywistego na który z wskaźnikiem jakości ୵ୣ୰ȗ wyznaczonym d
݀ ൌ Ͳ
Rys. 11: Przebieg wzmocnienia ߛכ z nan wzmocnienia ߛ
Korzystając z zależności (11), w które (gracz minimalizujący) wyznaczono na ności (13), a sygnał gracza maksyma postać (23), przeprowadzono symula rozpatrywanego przykładu. Otrzymane nych stan porównano z przebiegiem z obiektu rzeczywistego na który działał m (rys. 8). Dodatkowo na rys. 9 poró
Literatura
1. Abu-Khalaf M., Huang J., Lewis F.
ISBN 978-1-84628-350-5
2. Hendzel Z., Gierlak P.: Sterowanie r 1799-696-2
3. Hendzel Z., Penar P.: Zastosowanie robota kołowego. „Przegląd Mechan 4. Kyriakos G.V., Lewis F.L.: Online s iteration. “International Journal of
akości ୵ୣ୰ wyzna- działała zakłócenie dla przypadku gdy
niesioną wartością
ej sterowanie u*
podstawie zależ- lizującego ݀ ma ację numeryczną
przebiegi zmien- zmiennych stanu moment oporowy ównano przebieg
sygnału graczy sterujących ݑ௦௬כ
sterowania.
Z uwagi na fakt, że sygnał ge maksymalizującego dla obiektu mierzalny, do wyznaczenia wsk uwzględnia wpływ zakłóceń, wyk przez zależność (23). Wyznaczone rys. 10.
Z zależności przedstawionych w p gier różniczkowych jest związana ności typu ܮଶ. Dla obiektu st postaci (12) wzmocnienie ߛ mo zależności (4). Korzystając z zmiennych stanu ࢞௪, przebiegu go ݑכ oraz przebiegu gracza mak czonego z równania (23), można ߛכ. Jego przebieg wraz z nanies nienia ߛ pokazano na rys. 11.
spełniony jest warunek sterowani Jak wynika z przeprowadzonyc mniejsza możliwa wartość ߛ dla dla której istnieje rozwiązanie gry
4. PODSUMOWAN
W niniejszym artykule przedstaw różniczkowej o sumie zerowej d liniowym, jakim jest moduł napę kołowego. Uzyskane rozwiązan obiekcie rzeczywistym. Otrzyman poprawność przyjętych założeń o numerycznej.
Przedstawione rozwiązanie pro sterowania optymalnego ze wzglę nik jakości przy najgorszym pr więcej, wyznaczenie punktu si tożsame z rozwiązaniem problem Ważnym elementem rozwiązania jest dobór współczynnika ߛ, któ prób i błędów zgodnie z ideą m ܪஶ [1,7].
.L.: Nonlinear ܪଶ/ܪஶ Constrained Feedback Control. L
robotów kołowych i manipulacyjnych. Rzeszów: OWPR
teorii gier różniczkowych w sterowaniu modułem napę niczny”, 2016, nr 1-2, s. 54–60.
solution of nonlinear two-player zero-sum games using Robust and Nonlinear Control” 2012, No. 13, Vol. 22,
i ݑ௪כ , pełniących rolę
nerowany przez gracza rzeczywistego jest nie- kaźnika jakości, który korzystano sygnał dany e przebiegi pokazano na
pkt. 2 wynika, że teoria a z zagadnieniem stabil-
terowania opisanego w oże być wyznaczone z uzyskanego przebiegu u gracza minimalizujące-
ksymalizującego wyzna- wyznaczyć wzmocnienie sioną wartością wzmoc-
Z rys. 11 wynika, że ia typu ஶ, tzn. ߛ ߛכ. ch badań, jest to naj- a przyjętych zakłóceń i y różniczkowej.
IE
wiono wykorzystanie gry do sterowania obiektem ędowy mobilnego robota nia zweryfikowano na
ne wyniki potwierdzają oraz wyników symulacji
owadzi do uzyskania ędu na przyjęty wskaź- rzypadku zakłóceń. Co
odłowego Nasha jest mu sterowania typu ܪஶ.
postawionego problemu óry wyznaczono metodą metody sterowania typu
Londyn: Springer 2006.
Rz, 2011. ISBN 978-83-
ędowym mobilnego
synchronous policy p. 1460-1483
Zenon Hendzel, Paweł Penar
5. Marcus A. J.: Differential game-based control methods for uncertain continuous-time nonlinear systems. Praca doktorska. Gainesville: University of Florida, 2011.
6. Starr A.W., Ho Y.C.: Nonzero-sum differential games. “Journal Optimization Theory And Applications” 1969, No 3, Vol. 3, p. 184–206
7. Van der Schaft A.J.: ܮଶ-gain analysis of nonlinear systems and nonlinear state feedback hinf control. “IEEE Transactions on Automatic Control”, 1992, No. 6 Vol. 37, p.770-784.
8. Wu H.N., Luo B.: Neural network based online simultaneous policy update algorithm for solving the HJI equation in nonlinear ܪஶ control. “IEEE Transactions on Neural Networks and Learning Systems”, 2012, No.12, Vol. 23, p. 1884-1895.
9. Yasini S., Naghibi Sistani M. B., Karimpour A.: Policy iteration algorithm based on experience replay to solve ܪஶ control problem of partially unknown nonlinear systems. “Control Conference (ECC)”, 2014, p. 2103-2108.
10. Yasini S., Sistani M.B., Karimpour A.: Approximate dynamic programming for two-player zero-sum game related to ܪஶ control of unknown nonlinear continuous-time systems. “International Journal of Control, Automation and Systems”. 2014, No. 1, Vol. 13, p. 99-109.
Artykuł dostępny na podstawie licencji Creative Commons Uznanie autorstwa 3.0 Polska.
http://creativecommons.org/licenses/by/3.0/pl