GRY RÓŻNICZKOWEJ O SUMIE ZEROWEJ DO STEROWANIA ELEMENTEM

(1)

MODELOWANIE INŻYNIERSKIE 2016 nr 60, ISSN 1896-771X

ZASTOSOWANIE DWUOSOBOWEJ

GRY RÓŻNICZKOWEJ O SUMIE ZEROWEJ DO STEROWANIA ELEMENTEM

MECHATRONICZNYM

Zenon Hendzel

^1a

, Paweł Penar

^1b

1Katedra Mechaniki Stosowanej i Robotyki, Politechnika Rzeszowska

azenhen@prz.edu.pl, ^bppenar@prz.edu.pl

Streszczenie

W artykule opisano zastosowanie teorii gier różniczkowych do sterowania modułem napędowym mobilnego robota kołowego. Omówiono rozwiązanie dwuosobowej gry różniczkowej o sumie zerowej wynikające z teorii punktu sio- dłowego Nasha. Teoria dwuosobowych gier o zerowej sumie i związana z nią teoria sterowania typu ܪ_ஶ wynika z rozwiązania równania Hamiltona-Jacobiego-Isaaca (HJI). Ta problematyka występuje w teorii optymalnego sterowania obiektami dynamicznymi. Zastosowanie sterowania wynikającego z teorii gier różniczkowych gwarantuje optymalne rozwiązanie względem przyjętego wskaźnika jakości przy założeniu, że występują najbardziej nieko- rzystne zakłócenia. Przyjęte rozwiązania zweryfikowano na obiekcie rzeczywistym. Uzyskane wyniki potwierdziły poprawność przyjętych założeń i efektywność metody.

Słowa kluczowe: gry różniczkowe, sterowanie optymalne, moduł napędowy

USE TWO-PERSON ZERO-SUM DIFFERENTIAL GAME IN CONTROL THE MECHATRONIC ELEMENT

Summary

In the paper we discuss the application of the differential game theory to motor control of a wheeled robot. We present the solution of two-player zero-sum differential game obtained from the Nash equilibrium theory. Two-player zero-sum game theory and related control theory of ܪ_ஶ type are following from the solutions of the Hamilton-Jacobi- Isaacs (HJI) equations of the optimal control theory in dynamics. Differential game control guarantee optimal solution for a performance index assuming that wrost case disturbance. The proposed solution is verified for a real object. The obtained results demonstrated the correctness of assumptions and efficiency of used method.

Keywords: differential game, optimal control theory, wheeled control robot motor

1. WSTĘP

Teoria gier dynamicznych, łącząc ze sobą teorią gier i teorię sterowania optymalnego, stanowi uogólnienie problemu optymalizacji typu minimax. Do podobszaru gier dynamicznych należą gry różniczkowe, których nazwa wskazuje na charakter równań, które opisują obiekt sterowania. Ich rozwiązanie bazuje na zasadzie optymalności Bellmana [1].

W przypadku gry dwuosobowej o sumie zerowej jeden gracz maksymalizuje, a drugi minimalizuje przyjęty wskaźnik jakości. Rozwiązaniem gry dwuosobowej o sumie zerowej jest punkt siodłowy Nasha [6], który jest rozwiązaniem sterowania typu ܪ_ஶ [3]. Ten fakt łączy teorię gier różniczkowych z teorią systemów dyssypatywnych [1,7]. Obiekt sterowana, jakim jest moduł napędowy mobilnego robota kołowego (MRK), można

(2)

opisać z wykorzystaniem modelu liniowego [2]. Dla takich modeli gra różniczkowa o sumie zerowej posiada rozwiązania analityczne [1]. W pracy [3] przedstawiono zastosowanie dyskretnej, liniowo-kwadratowej gry róż- niczkowej o sumie zerowej. Rozważania teoretyczne uzupełniono symulacją zastosowania gry różniczkowej w sterowaniu modułem napędowym mobilnego robota kołowego.

Trudnością związaną z rozwiązaniem gry różniczkowej, w której równania dynamiczne są nieliniowe, jest brak rozwiązań analitycznych. Dlatego rozwiązanie gier różniczkowych o sumie zerowej dla nieliniowych obiek- tów dynamicznych bazują na metodach aproksymacyj- nego programowania dynamicznego, co szeroko opisano w wielu pracach (np. [4, 5, 8-10]).

W artykule przedstawiono zastosowanie dwuosobowej gry różniczkowej o sumie zerowej w sterowaniu modułem napędowym MRK. Niniejszy artykuł podzielono na dwie części: teoretyczną i eksperymentalną. W ramach oma- wianej tematyki przeprowadzono symulację oraz weryfi- kację przyjętego rozwiązania na obiekcie rzeczywistym.

2. OPTYMALNE STEROWANIE TYPU ࡴ

_ஶ

OBIEKTEM

NIELINIOWYM.

GRY RÓŻNICZKOWE O SUMIE ZEROWEJ

Dany jest obiekt sterowania

࢞ሶ ൌ ݂ሺ࢞ሻ ൅ ݃ሺ࢞ሻ࢛ ൅ ݇ሺ࢞ሻࢊ (1) z wyjściem

ࢠ ൌ ࡯࢞ (2)

gdzie ݂ሺͲሻ ൌ Ͳ, ࢞ to stan układu należący do przestrze- ni stanu, ࡯ to macierz wyjścia, a ݂ǡ ݇ǡ ݀ to nieliniowe funkcje. Sygnały ࢛ i ࢊ to odpowiednio sygnał sterowania będący graczem minimalizującym i sygnał gracza maksymalizującego, który pełni rolę zakłóceń. Wyjście z systemu oznaczone przez ࢠ, służy określeniu struktury wskaźnika jakości sterowania.

Z obiektem sterowania (1) związano wskaźnik jakości

ܸሺ࢞ሻ ൌ න ݏሺ࢞ሻ݀ݐ

ஶ ௧బ

ൌ

ൌ න ሾ࢞^்ሺݐሻࡽ࢞ሺݐሻ ൅ ࢛ሺݐሻ^்ࡾ࢛ሺݐሻ

ஶ

௧_బ

െ ߛ^ଶࢊ^்ሺݐሻࢊሺݐሻሿ݀ݐ

(3)

gdzie ݐ_଴ to czas początkowy, ߛ to wzmocnienie związane ze sterowaniem typu ܪ_ஶ, a ࡽ ൌ ࡯^்࡯ oraz ࡾ to macierze projektowe. Postać wskaźnika jakości (3) wynika z teorii systemów dyssypatywnych, co pokazano m.in. w pracach [1, 7].

Dla obiektu sterowania (1), w nieskończonym horyzoncie czasowym, można określić wzmocnienie typu ܮ_ଶ, które jest wzmocnieniem typu wejście-wyjście [1]. Wzmocnie- nie ܮ_ଶ dla obiektu (1) jest mniejsze lub równe ߛ, jeśli:

׬ ሾ࢞_௧^ஶ ^்ሺ߬ሻࡽ࢞ሺ߬ሻ ൅ ࢛^்ሺ߬ሻࡾ࢛ሺ߬ሻሿ݀߬

೚

׬ ሾࢊሺ߬ሻ_௧^ஶ ^்ࢊሺ߬ሻሿ݀߬

೚

൑ ߛ^ଶ (4)

Sterowanie typu ܪ_ஶ polega na wyznaczeniu najmniejszej wartości ߛ^כ൐ Ͳ takiej, że dla dowolnego ߛ spełniona jest nierówność

ߛ ൐ ߛ^כ (5)

Na podstawie [1] wiadomo, że wyznaczenie wzmocnienia ܮ_ଶ dla obiektu sterowania (1) jest równoważne poszuki- waniu optymalnej wartości funkcji ܸ. Zgodnie z pracami [1, 7] problem sterowania typu ܪ_ஶ jest równoważny minimalizacji wskaźnika jakości ܸ. Takie podejście sprowadza zagadnienie stabilności typu ܮ_ଶ do teorii gier różniczkowych o sumie zerowej.

2.1 CIĄGŁA GRA RÓŻNICZKOWA O SUMIE ZEROWEJ

Jak podano w pracy [6], rozwiązaniem ciągłej gry różniczkowej o sumie zerowej, w której obiekt sterowania dany jest zależnością (1), wyjście zależnością (2), a wskaźnik jakości ma postać (3), są takie sygnały

࢛^כ i ࢊ^כ, dla których spełniona jest nierówność

ܸሺ࢞ǡ ࢛^כǡ ࢊሻ ൑ ܸሺ࢞ǡ ࢛^כǡ ࢊ^כሻ ൑ ܸሺ࢞ǡ ࢛ǡ ࢊ^כሻ (6) Innymi słowy, rozwiązaniem gry różniczkowej o sumie zerowej jest para sygnałów ሺ࢛^כǡ ࢊ^כሻǡ które określają punkt siodłowy, nazywany punktem siodłowym Nasha [6]. Stąd rozwiązanie, będące punktem siodłowym, stanowi optymalną strategię gry dla każdego z graczy.

Problem gry różniczkowej o sumie zerowej można zapisać za pomocą równania Hamiltona-Jacobiego-Isaaca (HJI) [1, 4], tj.

Ͳ ൌ ݉݅݊_࢛ሺ௧ሻ݉ܽݔ_ࢊሺ௧ሻሼݏሺ࢞ǡ ࢛ǡ ࢊሻ (7)

൅ܸ݀ሺ࢞ሻ

݀࢞ ሾ݂ሺ࢞ሻ ൅ ݃ሺ࢞ሻ࢛ ൅ ݇ሺ࢞ሻࢊሿሽ lub

Ͳ ൌ ݉݅݊_ࢊሺ௧ሻ݉ܽݔ_࢛ሺ௧ሻሼݏሺ࢞ǡ ࢛ǡ ࢊሻ (8)

൅ܸ݀ሺ࢞ሻ

݀࢞ ሾ݂ሺ࢞ሻ ൅ ݃ሺ࢞ሻ࢛ ൅ ݇ሺ࢞ሻࢊሿሽ

Równanie HJI określa warunek wystarczający optymal- ności, podobnie jak równanie Hamiltona-Jacobiego- Bellmana. Jak podano m.in w pracach [1, 9], punkt siodłowy ሺ࢛^כǡ ࢊ^כሻ jest dany równaniami

o ࢛^כሺݐሻ ൌ െͳ

ʹࡾ^ିଵ݃ሺ࢞ሻ^்ܸ݀^כሺ࢞ሻ

݀࢞ (9)

oraz

ࢊ^כሺݐሻ ൌ ͳ

ʹߛ^ଶ݇ሺ࢞ሻ^்ܸ݀^כሺ࢞ሻ

݀࢞ (10)

(3)

Zenon Hendzel, Paweł Penar

W wielu pracach wskazano, że rozwiązanie gry różniczko- wej o sumie zerowej na podstawie (9) i (10) jest bardzo trudne ze względu na występowanie gradientu wskaźnika jakości, który pozostaje nieznany. W przypadku liniowym rozwiązanie gry różniczkowej o sumie zerowej sprowadza się do rozwiązania równania Riccatiego, co dla przypadku dyskretnego pokazano w pracy [3].

W przypadku nieliniowym do aproksymacji wskaźnika jakości stosuje się strukturę aktor-krytyk. W tej struktu- rze krytyk jest realizowany przez sieć neuronową [4, 5, 8-10].

2.2 LINIOWO-KWADRATOWA GRA RÓŹNICZKOWA O SUMIE

ZEROWEJ

Dany jest liniowy, stacjonarny obiekt sterowania [1, 7]:

ݔሶ ൌ ࡭࢞ ൅ ࡮࢛ ൅ ࡱࢊ

ࢠ ൌ ࡯࢞ (11)

gdzie ࡭ to macierz obiektu sterowania, ࡮ to macierz sterowań, ࡱ to macierz zakłóceń, a ࡯ to macierz wyjścia.

Wymiary macierzy ࡭ǡ ࡮ǡ ࡯ są dopasowane do wymiaro- wości stanu ࢞, sterowania ࢛ i zakłóceń ࢊ. Z obiektem sterowania (11) związano wskaźnik jakości postaci

ܸሺݔሻ න ሾ࢞^்ࡽ࢞ ൅ ࢛^்ࡾ࢛ െ ߛ^ଶࢊ^்ࢊሿ݀ݐ

ஶ ௧_೚

(12)

którego wartość ma być minimalizowana, przy czym ߛ ൒ ߛ^כ൒ Ͳ a ࡽ ൌ ࡯^்࡯. Sterowanie ࢛ pełni rolę gracza minimalizującego, a zakłócenie ࢊ to gracz maksymalizu- jący. W wielu pracach, m.in. w [1], przedstawiono roz- wiązanie liniowo-kwadratowej gry różniczkowej o sumie zerowej. Rozwiązaniem tego zagadnienia jest para sygna- łów optymalnych ሺ࢛^כǡ ࢊ^כሻ, które można wyznaczyć z zależności

࢛^כሺݐሻ ൌ ࡷ௅ொீ࢞ (13) oraz

ࢊ^כሺݐሻ ൌ ࡸ௅ொீ࢞ (14) Występujące w zależnościach (13) i (14) macierzeࡷ௅ொீ

i ࡸ_௅ொீ to wzmocnienia, które wyznaczamy jako

ࡷ_௅ொீൌ െࡾ^ିଵ࡮^்ࡼ

ࡸ_௅ொீൌ ͳ ߛ^ଶࡷ^்ࡼ

gdzie macierz ࡼ ൒ ૙ to macierz równania Riccatiego, wyznaczana z równania postaci

࡭^்ࡼ ൅ ࡼ࡭ ൅ ࡼ ൬ͳ

ߛ^ଶࡱࡱ^்െ ࡮࡮^்൰ ࡼ ൅ ࡽ ൌ Ͳ (15) Jak wiadomo z pracy [6], funkcja wartości ܸ^כdla ukła- du liniowego może być wyznaczona z zależności

ܸ^כሺ࢞ሻ ൌ ࢞^்ࡼ࢞ (16)

3. SYMULACJA I WERYFIKACJA GRY RÓŻNICZKOWEJ

W przykładzie wykorzystano liniowo-kwadratową grę różniczkową do stabilizacji kąta obrotu wału napędowe- go modułu MRK, który składa się z silnika prądu stałe- go, przekładni i enkodera. Na podstawie pracy [2] model liniowy modułu napędowego MRK można zapisać jako

ܶ߮ሷ_௦൅ ߮ሶ_௦ൌ ܭݑሺݐሻ (17) gdzie ߮_௦ to kąt obrotu wału silnika, ܶ to stała czasowa, ܭ to wzmocnienie a ݑ to napięcie podawane na silnik pełniące rolę sterowania.

Korzystając z podstawienia ݔ_ଵൌ ߮_௦ ݔሶ_ଵൌ ݔ_ଶൌ ߮ሶ_௦

ݔሶଶൌ ߮ሷ௦

(18)

oraz uwzględniając człon związany z zakłóceniami, zależność (17) można zapisać za pomocą równania stanu (11), które w formie macierzowo-wektorowej przyjmuje postać

൤ݔሶ_ଵ ݔሶ_ଶ൨ ൌ ൥

Ͳ ͳ

Ͳ െͳ

ܶ ൩ ቂݔ_ଵ

ݔ_ଶቃ ൅ ൥ Ͳ ܭ

ܶ ൩ ݑ ൅ ൥

Ͳ ͳ

ܶ

൩ ݀ (19)

Elementy wektora stanu ሾݔଵ ݔ_ଶሿ^் mają interpretacje kąta obrotu i prędkości kątowej wału modułu napędo- wego.

Korzystając z procedury care zaimplementowanej w pakiecie Matlab/Simulink i przyjmując ߛ ൌ ͲǤͲͷ, ܭ ൌ ʹͲǤͳ, ܶ ൌ ͳ, ࡽ ൌ ݀݅ܽ݃ሼͲǤͲͲͳǡͲǤͲͲͳሽ i ܴ ൌ ͳ, wyznaczono wartość macierzy ࡼ będącej rozwiązaniem rów- nania Riccatiego (15)

ࡼ ൌ ቂͲǤͲͳ͸ͺ ͲǤͲͳͷͺ

ͲǤͲͳͷͺ ͲǤͲͳͷͺቃ (20) Na podstawie macierzy ࡼ można wyznaczyć wartości wzmocnień

ࡷ_௅ொீൌ ሾെͲǤ͵ͳ͹Ͷ െͲǤ͵ͳ͹Ͷሿ (21) Zadaniem układu sterowania jest osiągnięcie wartości zadanej ࢞_ௗൌ ሾͳʹߨ Ͳሿ^், przy czym

ݑ^כൌ ࡷ௅ொீሾ࢞ െ ࢞ௗሿ (22) Przyjmując wartość wektora wzmocnienia ࡷ_௅ொீ i pa- rametry modelu, przeprowadzono symulację sprowadza- nia modułu napędowego MRK (bez zakłóceń, tj. ݀ ൌ Ͳ) do wartości zadanej ݔ_ௗ. Czas symulacji to 8 [s]. Symu- lację numeryczną zaproponowanego rozwiązania przeprowadzono z krokiem dyskretyzacji ݄ ൌ ͲǤͲͳ. Na rys. 1 zamieszczono przebieg rozwiązania dla przypadku wy- muszenia skokowego ݔଵௗ, otrzymując przebiegi rozwią- zań współrzędnych stanu sterowanego obiektu ݔ_ଵ௦௬௠^כ , ݔ_ଶ௦௬௠^כ .

(4)

Rys. 1: Przebieg sygnału wymuszenie ݔ_ଵௗ o stanu, tj. ݔଵ௦௬௠כ i ݔଶ௦௬௠כ , uzyskany w sym dla przypadku gdy ݀ ൌ Ͳ

Rys. 2: Porównanie przebiegów zmiennej sta cja numerycznej), wartości zadanej ݔ_ଵௗ ora cja) w przypadku gdy ݀ ൌ Ͳ

Rys. 3: Porównanie przebiegów zmien (symulacja numerycznej) z ݔ_ଶ௪௘௥^כ (wery padku gdy ݀ ൌ Ͳ

oraz współrzędnych ulacji numerycznej

anu ݔ_ଵ௦௬௠^כ (symula- az ݔ_ଵ௪௘௥^כ (weryfika-

nnej stanu ݔଶ௦௬௠כ

yfikacja) w przy-

Rys. 4: Porównanie przebiegów wska wyznaczonych dla dyskretnych warto Wyniki symulacji numerycznej p weryfikacji na obiekcie rzeczywi rys. 2 i 3. Rozbieżności widoczne z niedokładności parametryczny przyjętego modelu matematyczne Na rys. 4 porównano przebiegi w i ܸ௪௘௥כ uzyskane odpowiednio w weryfikacji dla dyskretnych war przebiegach wskaźników jakości ܸ do przebiegów zmiennych stanu kwencją niedokładności modelu.

Rys. 5: Przebieg zmiennych stanu podczas weryfikacji na obiekcie rzecz moment oporowy, z naniesionym prz ݔଵௗ

aźników jakości ܸ௦௬௠כ i ܸ௪௘௥כ

ści czasu

porównano z wynikami istym, co pokazano na e na rys. 2 i 3 wynikają

ych i strukturalnych ego.

wskaźników jakości ܸ_௦௬௠^כ przypadku symulacji i rtości czasu. Różnice w

ܸ௦௬௠כ i ܸ௪௘௥כ , analogicznie (rys. 2 i 3), są konse-

ݔ_ଵ௪௘௥^כ i ݔ_ଶ௪௘௥^כ uzyskany zywistym na który działał zebiegiem wartości zadanej

(5)

Rys. 6: Przebieg sterowania ݑ uzyskany pod obiekcie rzeczywistym na który działał mome

Stosując analogiczne sterowanie od stan nieniem ࡷ௅ொீ i wprowadzając zakłóc momentu oporowego, dla ݐ ൒ ʹሾݏሿ kolejny test na obiekcie rzeczywistym moment oporowy spowodował zakłó obserwowane w przebiegach zmiennych w ten sposób przebieg zmiennych sta rys. 5. Dodatkowo na rys. 6 pokazano p nia ݑ.

Rys. 7: Sygnał generowany przez gracza ma który pełni rolę zakłóceń

W celu odwzorowania w symulacji num ści momentu oporowego należy dobra maksymalizującego ݀, który pełni rolę zakłócenia. Przebieg sygnału ݀ został przebieg zmiennych stanu ࢞௦௬௠ uzysk numerycznej i przebieg zmiennych sta czywistego ࢞_௪௘௥ǡ na który działał momen jak najbliższe. Korzystając z metody ustalono, że sygnał gracza maksymalizu przybliżyć funkcją

czas weryfikacji na ent oporowy

nu, tj. ze wzmoc- cenia w postaci

przeprowadzono m. Wprowadzony

cenia, które są stanu. Uzyskany nu pokazano na przebieg sterowa-

aksymalizującego ݀

merycznej obecno- ać sygnał gracza

wprowadzonego dobrany tak, by kany z symulacji anu obiektu rze-

nt oporowy, były prób i błędów, ującego ݀ można

݀ሺݐሻ ൌ ቐ Ͳǡ ݐ ൏

െ͵ͳͺ݁^{ି଴Ǥହ௧} ݐ א Ͳǡ ݐ ൐ lub przedstawić na wykresie (rys.

Rys. 8: Porównanie przebiegu zmie w symulacji numerycznej (ݔଵ௦௬௠ǡ ݔଶ௦௬௠

obiektu rzeczywistego (ݔଵ௪௘௥ǡ ݔଶ௪௘௥) ment oporowy

Rys. 9: Porównanie przebiegu gracza cego rolę sterowania uzyskanego w (_ୱ୷୫^ȗ ) z sygnałem uzyskanym podcza

ʹǤͲͺሾݏሿ א ሾʹǤͲͺǡʹǤͳͺሿሾݏሿ

ʹǤͳͺሾݏሿ

(23)

7).

ennych stanu uzyskanych

௠) oraz zmiennych stanu ) na który działał mo-

a minimalizującego pełnią- w symulacji numerycznej as weryfikacji (_୵ୣ୰^ȗ )

(6)

Rys. 10: Porównanie przebiegu wskaźnika ja czonego dla obiektu rzeczywistego na który z wskaźnikiem jakości _୵ୣ୰^ȗ wyznaczonym d

݀ ൌ Ͳ

Rys. 11: Przebieg wzmocnienia ߛ^כ z nan wzmocnienia ߛ

Korzystając z zależności (11), w które (gracz minimalizujący) wyznaczono na ności (13), a sygnał gracza maksyma postać (23), przeprowadzono symula rozpatrywanego przykładu. Otrzymane nych stan porównano z przebiegiem z obiektu rzeczywistego na który działał m (rys. 8). Dodatkowo na rys. 9 poró

Literatura

1. Abu-Khalaf M., Huang J., Lewis F.

ISBN 978-1-84628-350-5

2. Hendzel Z., Gierlak P.: Sterowanie r 1799-696-2

3. Hendzel Z., Penar P.: Zastosowanie robota kołowego. „Przegląd Mechan 4. Kyriakos G.V., Lewis F.L.: Online s iteration. “International Journal of

akości ୞୵ୣ୰ wyzna- działała zakłócenie dla przypadku gdy

niesioną wartością

ej sterowanie u*

podstawie zależ- lizującego ݀ ma ację numeryczną

przebiegi zmien- zmiennych stanu moment oporowy ównano przebieg

sygnału graczy sterujących ݑ௦௬௠כ

sterowania.

Z uwagi na fakt, że sygnał ge maksymalizującego dla obiektu mierzalny, do wyznaczenia wsk uwzględnia wpływ zakłóceń, wyk przez zależność (23). Wyznaczone rys. 10.

Z zależności przedstawionych w p gier różniczkowych jest związana ności typu ܮ_ଶ. Dla obiektu st postaci (12) wzmocnienie ߛ mo zależności (4). Korzystając z zmiennych stanu ࢞௪௘௥, przebiegu go ݑ^כ oraz przebiegu gracza mak czonego z równania (23), można ߛ^כ. Jego przebieg wraz z nanies nienia ߛ pokazano na rys. 11.

spełniony jest warunek sterowani Jak wynika z przeprowadzonyc mniejsza możliwa wartość ߛ dla dla której istnieje rozwiązanie gry

4. PODSUMOWAN

W niniejszym artykule przedstaw różniczkowej o sumie zerowej d liniowym, jakim jest moduł napę kołowego. Uzyskane rozwiązan obiekcie rzeczywistym. Otrzyman poprawność przyjętych założeń o numerycznej.

Przedstawione rozwiązanie pro sterowania optymalnego ze wzglę nik jakości przy najgorszym pr więcej, wyznaczenie punktu si tożsame z rozwiązaniem problem Ważnym elementem rozwiązania jest dobór współczynnika ߛ, któ prób i błędów zgodnie z ideą m ܪ_ஶ [1,7].

.L.: Nonlinear ܪଶ/ܪஶ Constrained Feedback Control. L

robotów kołowych i manipulacyjnych. Rzeszów: OWPR

teorii gier różniczkowych w sterowaniu modułem napę niczny”, 2016, nr 1-2, s. 54–60.

solution of nonlinear two-player zero-sum games using Robust and Nonlinear Control” 2012, No. 13, Vol. 22,

i ݑ௪௘௥כ , pełniących rolę

nerowany przez gracza rzeczywistego jest nie- kaźnika jakości, który korzystano sygnał dany e przebiegi pokazano na

pkt. 2 wynika, że teoria a z zagadnieniem stabil-

terowania opisanego w oże być wyznaczone z uzyskanego przebiegu u gracza minimalizujące-

ksymalizującego wyzna- wyznaczyć wzmocnienie sioną wartością wzmoc-

Z rys. 11 wynika, że ia typu ஶ, tzn. ߛ ൐ ߛ^כ. ch badań, jest to naj- a przyjętych zakłóceń i y różniczkowej.

IE

wiono wykorzystanie gry do sterowania obiektem ędowy mobilnego robota nia zweryfikowano na

ne wyniki potwierdzają oraz wyników symulacji

owadzi do uzyskania ędu na przyjęty wskaź- rzypadku zakłóceń. Co

odłowego Nasha jest mu sterowania typu ܪஶ.

postawionego problemu óry wyznaczono metodą metody sterowania typu

Londyn: Springer 2006.

Rz, 2011. ISBN 978-83-

ędowym mobilnego

synchronous policy p. 1460-1483

(7)

5. Marcus A. J.: Differential game-based control methods for uncertain continuous-time nonlinear systems. Praca doktorska. Gainesville: University of Florida, 2011.

6. Starr A.W., Ho Y.C.: Nonzero-sum differential games. “Journal Optimization Theory And Applications” 1969, No 3, Vol. 3, p. 184–206

7. Van der Schaft A.J.: ܮ_ଶ-gain analysis of nonlinear systems and nonlinear state feedback hinf control. “IEEE Transactions on Automatic Control”, 1992, No. 6 Vol. 37, p.770-784.

8. Wu H.N., Luo B.: Neural network based online simultaneous policy update algorithm for solving the HJI equation in nonlinear ܪஶ control. “IEEE Transactions on Neural Networks and Learning Systems”, 2012, No.12, Vol. 23, p. 1884-1895.

9. Yasini S., Naghibi Sistani M. B., Karimpour A.: Policy iteration algorithm based on experience replay to solve ܪ_ஶ control problem of partially unknown nonlinear systems. “Control Conference (ECC)”, 2014, p. 2103-2108.

10. Yasini S., Sistani M.B., Karimpour A.: Approximate dynamic programming for two-player zero-sum game related to ܪ_ஶ control of unknown nonlinear continuous-time systems. “International Journal of Control, Automation and Systems”. 2014, No. 1, Vol. 13, p. 99-109.

Artykuł dostępny na podstawie licencji Creative Commons Uznanie autorstwa 3.0 Polska.

http://creativecommons.org/licenses/by/3.0/pl