Index of /rozprawy2/10401

Pełen tekst

(1)PRACA DOKTORSKA. Komputerowe wspomaganie projektowania systemów sterowania z wykorzystaniem teorii gier. Michał Ganobis Katedra Automatyki WEAIiE Akademia Górniczo-Hutnicza. Promotor pracy prof. dr hab. inż. Wojciech Mitkowski. EAIiE-AGH, Kraków 2011.

(2) Podziękowania. Składam serdeczne podziękowania promotorowi pracy, Panu Prof. Wojciechowi Mitkowskiemu, za opiekę i pomoc w jej tworzeniu. Dziękuję również Kolegom z zespołu za rady oraz cenne i inspirujące dyskusje. Na koniec dziękuję mojej cudownej Narzeczonej za wsparcie i motywację każdego dnia..

(3) Przyjęte oznaczenia R. Zbiór liczb rzeczywistych. R+. Zbiór liczb rzeczywistych dodatnich. (A, B) Para macierzy AT. Macierz transponowana. A−1. Macierz odwrotna. |A|. Wyznacznik macierzy. kAk. Norma macierzy. e. Podstawa logarytmu naturalnego. I. Macierz jednostkowa. Re s. Część rzeczywista liczby zespolonej. Im s. Część urojona liczby zespolonej. x˙. Pochodna funkcji po czasie. λ(A). Widmo macierzy. A≥0. Macierz dodatnio określona. A>0. Macierz ściśle dodatnio określona.

(4) Spis treści Przyjęte oznaczenia. iii. Wstęp. 1. 1 Podstawy teorii gier liniowo-kwadratowych 1.1 Gra liniowo-kwadratowa . . . . . . . . . . . . . . . . . . . . . . .. 5 5. 1.2. Równowaga Nasha . . . . . . . . . . . . . . . . . . . . . . . . . .. 2 Warunki istnienia równowagi Nasha 2.1. 8 10. Istnienie równowagi Nasha w pętli otwartej . . . . . . . . . . . . .. 10. 2.1.1 2.1.2. Przypadek ze skończonym horyzontem . . . . . . . . . . . Przypadek z nieskończonym horyzontem . . . . . . . . . .. 10 12. Istnienie równowagi Nasha w pętli zamkniętej . . . . . . . . . . .. 15. 2.2.1. Sterowanie i strategia w pętli zamkniętej . . . . . . . . . .. 15. 2.2.2 2.2.3. Liniowe sprzężenie zwrotne . . . . . . . . . . . . . . . . . . Przypadek ze skończonym horyzontem . . . . . . . . . . .. 18 19. 2.2.3.1. Oszacowanie horyzontu . . . . . . . . . . . . . .. 20. Przypadek z nieskończonym horyzontem . . . . . . . . . .. 24. 2.2.4.1. Warunki wystarczające istnienia równowagi . . .. 25. 3 Algorytmy rozwiązywania gier LQ 3.1 Twierdzenia wstępne . . . . . . . . . . . . . . . . . . . . . . . . .. 29 30. 2.2. 2.2.4. 3.2. Bezpośrednie rozwiązywanie równań Riccatiego . . . . . . . . . .. 31. 3.3. Dekompozycja równań Riccatiego na równania liniowe . . . . . . .. 32. 3.4. 3.3.1 Wyznaczanie macierzy fundamentalnej . . . . . . . . . . . Algorytm Jodara - Abou-Kandila . . . . . . . . . . . . . . . . . .. 34 35. iv.

(5) SPIS TREŚCI. 3.4.1. Działanie algorytmu . . . . . . . . . . . . . . . . . . . . .. 36. 3.4.2. 3.4.1.1 Przykład . . . . . . . . . . . . . . . . . . . . . . Rozwiązywanie całek w algorytmie . . . . . . . . . . . . .. 37 39. 3.5. Algorytm Engwerdy . . . . . . . . . . . . . . . . . . . . . . . . .. 41. 3.6. Algorytmy Newtona . . . . . . . . . . . . . . . . . . . . . . . . .. 43. 3.6.1 3.6.2. Systemy dodatnie . . . . . . . . . . . . . . . . . . . . . . . Metoda Newtona . . . . . . . . . . . . . . . . . . . . . . .. 44 45. 3.6.3. Budowa algorytmu . . . . . . . . . . . . . . . . . . . . . .. 48. 3.7. Metoda Engwerdy dla pętli zamkniętej . . . . . . . . . . . . . . .. 49. 3.8. Algorytm z ruchomym horyzontem . . . . . . . . . . . . . . . . . 3.8.1 Działanie algorytmu . . . . . . . . . . . . . . . . . . . . .. 50 51. 3.8.2. Przykład . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 53. 3.8.3. Istnienie i stabilność rozwiązania . . . . . . . . . . . . . .. 56. 3.8.4 3.8.5. Metody poprawy jakości sterowania . . . . . . . . . . . . . Zapewnienie ciągłości rozwiązań . . . . . . . . . . . . . . .. 59 61. 3.8.6. Przypadek szczególny . . . . . . . . . . . . . . . . . . . . .. 63. 3.8.7. Wpływ zakłóceń i niestacjonarności systemu . . . . . . . .. 64. 3.8.8. Ocena algorytmu . . . . . . . . . . . . . . . . . . . . . . .. 67. 4 Przykłady 4.1. 4.2. 4.3. 68. Linia długa rlc. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 68. 4.1.1. Aproksymacja układem drabinkowym RC . . . . . . . . .. 69. 4.1.2 4.1.3. Układ drabinkowy RC z dwoma źródłami napięcia . . . . . Równowaga Nasha w pętli otwartej . . . . . . . . . . . . .. 70 71. 4.1.4. Równowaga Nasha w pętli zamkniętej . . . . . . . . . . . .. 77. 4.1.5. Przypadek z ruchomym horyzontem . . . . . . . . . . . . .. 77. Sterowanie polityką fiskalną w unii walutowej . . . . . . . . . . . 4.2.1 Model różniczkowy polityki fiskalnej . . . . . . . . . . . . .. 81 82. 4.2.2. Cechy systemu . . . . . . . . . . . . . . . . . . . . . . . .. 85. 4.2.3. Równowaga Nasha w systemie . . . . . . . . . . . . . . . .. 86. 4.2.4 Sterowania z ruchomym horyzontem . . . . . . . . . . . . Modelowanie rynku energii elektrycznej . . . . . . . . . . . . . . .. 88 90. 4.3.1. 90. Ogólna charakterystyka rynku energii . . . . . . . . . . . .. v.

(6) SPIS TREŚCI. 4.4. 4.3.2. Interpretacja i uzasadnienie modelu . . . . . . . . . . . . .. 93. 4.3.3 4.3.4. Sterowanie w pętli otwartej . . . . . . . . . . . . . . . . . Sterowania z ruchomym horyzontem . . . . . . . . . . . .. 95 98. 4.3.5. Ocena modelu . . . . . . . . . . . . . . . . . . . . . . . . . 100. Kontrola zanieczyszczeń . . . . . . . . . . . . . . . . . . . . . . . 101 4.4.1 4.4.2. Modelowanie zanieczyszczeń . . . . . . . . . . . . . . . . . 102 Przypadek skalarny - płytkie jezioro . . . . . . . . . . . . . 103. 4.4.3. Przypadek wielowymiarowy . . . . . . . . . . . . . . . . . 106. 4.4.4. Kwestia istnienia rozwiązania . . . . . . . . . . . . . . . . 113. Podsumowanie. 115. Bibliografia. 128. English abstract. 129. Streszczenie. 132. vi.

(7) Wstęp Teoria racjonalnego zachowania w warunkach konfliktu interesów, czyli inaczej teoria gier, narodziła się w pierwszej połowie XX wieku jako sposób modelowania zjawisk ekonomicznych. Za pierwszą pracę naukową poświęconą tej dziedzinie uznaje się dziś książkę Johna von Neumanna i Oskara Morgensterna Theory of Games and Economic Behaviour [122] z roku 1944, w której przedstawili oni podstawowe pojęcia związane z tą dziedziną, takie jak strategia, dominacja czy punkt siodłowy. Praca ta opisywała klasę gier o sumie zerowej, a więc takich, gdzie zysk jednego z graczy stanowi jednocześnie analogiczną stratę drugiego. Dla dalszego rozwoju dziedziny przełomowe okazały się prace amerykańskiego matematyka, laureata nagrody Nobla z ekonomii w 1994 roku, Johna F. Nasha. Rewolucyjność teorii Nasha polegała na wprowadzeniu i udowodnieniu twierdzeń o optymalnych zachowaniach graczy w warunkach, gdy każdy z nich optymalizuje własny wskaźnik jakości, całkowicie niezależny od wskaźników jego oponentów. Sytuację taką nazywamy grą o sumie niezerowej, natomiast stan równowagi (będący niejako poszerzeniem pojęcia punktu siodłowego) równowagą Nasha - od nazwiska jej odkrywcy. W drugiej połowie lat 60 z zainteresowaniem badaczy spotkały się gry dynamiczne, wywodzące się bezpośrednio z teorii systemów dynamicznych. Za ”ojca”dziedziny uważa się Amerykanina Rufusa Issaacsa, autora pierwszej obszernej pracy poświęconej tej tematyce, Differential games [57]. Podobnie jak w przypadku wielu innych dziedzin nauki w tamtym okresie, jest ona rozwijana równolegle w krajach bloku sowieckiego - przykładem mogą być prace Krasowskiego i Subbotina [73], [74]. Kolejne lata przynoszą nowe zastosowania teorii gier różniczkowych, choćby w dziedzinie sterowania odpornego (np. [8]).. 1.

(8) W dziedzinie gier różniczkowych o sumie niezerowej szczególne miejsce zajmuje klasa gier liniowo-kwadratowych. Ze względu na niezwykle szerokie zastosowania teorii dynamicznych systemów liniowych, jak również naturalność całkowego, kwadratowego wskaźnika jakości w znacznej klasie problemów optymalizacji, zajmują one w teorii gier równie ważną pozycję, jak problemy LQ w zagadnieniach sterowania optymalnego. Pomimo iż zagadnienie zostało wprowadzone i omówione już w roku 1969 przez Yu-Chi Ho i Alana Starra w pracy [56], to znaczący rozkwit zainteresowania tą dziedziną możemy zauważyć w ostatnich latach. Największe osiągnięcia w tym obszarze mają badacze z uniwersytetu w Tilburgu (Holandia), tam też powstała duża część prac stanowiących podstawę badań przedstawionych w niniejszej rozprawie.. Tezy pracy W ramach pracy postawiono trzy podstawowe tezy: Teza 1 Możliwe jest wykorzystywanie teorii gier w tworzeniu odpornych systemów sterowania. Głównym zadaniem, jakie stawia się teorii gier, jest możliwość uzyskiwania rozwiązań optymalnych z punktu widzenia danego gracza, z uwzględnieniem zachowania innych graczy. Dzięki temu analizować można zagadnienia ekonomiczne, techniczne czy ekologiczne z uwzględnieniem sprzecznych interesów występujących w tych problemach. Pozwala to w wielu sytuacjach - szczególnie przy wykorzystaniu sterowań w pętli zamkniętej - na uzyskanie takich sterowań w systemie, by uzyskana wartość wskaźnika jakości była optymalna, a ponadto stwarza możliwość wykorzystania błędu oponenta: nieoptymalne zachowanie z jego strony powoduje poprawę jakości sterowania gracza. Zastosowanie pętli sprzężenia zwrotnego pozwala również uodpornić trajektorie na ewentualne zakłócenia. W rozprawie przedstawiono szereg przykładów, w których tego rodzaju analiza przynosić może wymierne korzyści finansowe. Teza 2 Zastosowanie komputera pozwala usprawnić rozwiązywanie problemów gier, a w rezultacie projektowanie układów sterowania.. 2.

(9) Problematyka gier dynamicznych stanowi duże wyzwanie w dziedzinie projektowania efektywnych algorytmów wyznaczania sterowań. Jako że w większości przypadków uzyskanie rozwiązania analitycznego jest bardzo trudne lub wręcz niemożliwe, nacisk położony jest na metody numeryczne i sposoby ich wykorzystywania do analizy gier, w szczególności poszukiwania punktu równowagi Nasha w dziedzinie sterowań wszystkich graczy. W ramach pracy zebrano i dogłębnie omówiono szereg algorytmów służących do rozwiązywania gier liniowo-kwadratowych. Przedstawione algorytmy pozwalają analizować problemy gier zarówno dla horyzontu nieskończonego jak i skończonego, oraz w różnych strukturach informacji (pętli otwartej i zamkniętej). W przypadku niektórych z nich zaproponowano usprawnienia i uściślenia pozwalające na łatwiejszą implementację. Teza 3 Metodyka teorii gier pozwala na uwzględnienie negatywnego wpływu zakłóceń występujących w systemach dynamicznych Najczęściej stosowanym podejściem w dziedzinie teorii gier jest poszukiwanie rozwiązania w pętli otwartej. Dzieje się tak ze względu na trudności w uzyskaniu rozwiązania stanowiącego sprzężenie zwrotne - dla wielu klas problemów jest to niemożliwe. Rozwiązanie w pętli otwartej posiada jednak oczywistą wadę, jaką jest brak możliwości uwzględnienia zakłóceń, niespodziewanych zmian stanu, niedokładności pomiarów, niestacjonarności itd. Metodą pozwalającą częściowo poradzić sobie z tym problemem jest prezentowany w ramach pracy algorytm z ruchomym horyzontem. Pozwala on w wielu sytuacjach uniknąć problemów i niedogodności związanych zarówno z typowym modelem pętli otwartej, jak i zamkniętej.. Struktura pracy Praca podzielona jest na cztery podstawowe części. W pierwszej wprowadzane są podstawy teorii gier liniowo-kwadratowych - odpowiednie definicje systemu dynamicznego oraz funkcjonału jakości. Przedstawiane i wyjaśniane jest również podstawowe pojęcie teorii gier jakim jest równowaga Nasha, i jej zastosowanie w grach LQ.. 3.

(10) Rozdział drugi stanowi zebrane warunki istnienia równowagi Nasha w grze liniowo-kwadratowej dla czterech możliwych przypadków - pętli otwartej oraz zamkniętej, z horyzontem skończonym i nieskończonym. Warunki i oszacowania poparte są odpowiednimi twierdzeniami. W części trzeciej prezentowane są algorytmy rozwiązywania gier liniowokwadratowych dla omówionych przypadków. Przedstawiane metody podzielone są na iteracyjne, bazujące na schemacie zbieżnym do rozwiązania, oraz dokładne, pozwalające obliczyć rozwiązanie bezpośrednio. Na końcu rozdziału podano propozycję algorytmu z ruchomym horyzontem, opracowaną przez autora. Metoda ta w wielu aspektach łączy łatwość uzyskania rozwiązania w modelu pętli otwartej, z praktyczną możliwością przeciwdziałania zakłóceniom oraz zmianom parametrów systemu. Rozdział czwarty stanowi zbiór przykładów zastosowań gier liniowokwadratowych w wielu dziedzinach, takich jak polityka, ekologia, ekonomia czy elektrotechnika. W każdym z nich rozpatrywany jest szereg przypadków - wpływ i możliwości uzyskania rozwiązania w pętli otwartej lub zamkniętej, oraz możliwości wykorzystania algorytmu z ruchomym horyzontem.. 4.

(11) Rozdział 1 Podstawy teorii gier liniowo-kwadratowych 1.1. Gra liniowo-kwadratowa. W ogólności, o grze mówimy, gdy (za [113]) 1. Możemy wskazać co najmniej dwóch graczy. 2. Każdy gracz ma do wyboru pewną liczbę możliwych strategii, określających sposób rozgrywania przez niego gry. 3. Wynik gry jest determinowany przez kombinację strategii wybranych przez poszczególnych graczy. 4. Każdemu możliwemu wynikowi gry odpowiada zestaw wypłat dla poszczególnych graczy, których wysokość można wyrazić liczbowo. Przedmiotem niniejszej pracy są dynamiczne gry liniowo-kwadratowe, nazywane w skrócie grami LQ. Stanowią one podklasę gier różniczkowych, posiadając jednakże swoją charakterystyczną specyfikę, dzięki której znajdują zastosowanie przede wszystkim w analizie i modelowaniu problemów makro- i mikroekonomicznych. W ogólnym przypadku gry dynamicznej, w jej skład wchodzą:. 5.

(12) 1.1 Gra liniowo-kwadratowa. 1. System dynamiczny System (układ) dynamiczny stanowić będzie przedmiot gry. Sama gra polega na oddziaływaniu poszczególnych graczy na system przy wykorzystaniu jego wejść (osobnych dla każdego z graczy). 2. Zbiór wskaźników jakości Oprócz sterowania, każdy z graczy przypisany ma indywidualny, całkowy wskaźnik jakości. Sterowania którymi gracz oddziałuje na system podporządkowane są celowi jego minimalizacji - przy założeniu, że inni gracze również będą chcieli minimalizować swoje wskaźniki jakości. Poniższe podrozdziały stanowią dokładniejsze omówienie obu elementów. System dynamiczny Przez system dynamiczny rozumieć będziemy system generowany przez układ równań postaci x(t) ˙ = f (x(t), u(t)). (1.1). y(t) = g(x(t), u(t)). (1.2). gdzie odpowiednio • u(t) stanowi wektor sterowań systemu. Poprzez sterowania możliwe jest oddziaływanie na system dynamiczny. • y(t) stanowi wektor wyjść, a więc wartości bezpośrednio dostępnych dla obserwacji. • x(t) nazywamy stanem systemu. Stanowi on najmniej liczny zbiór liczb, który należy określić dla czasu t0 , aby można było przewidzieć jednoznacznie zachowanie się układu dla każdej chwili czasu t ≥ t0 dla każdego sygnału wejściowego (sterowania) należącego do danego zbioru sygnałów wejściowych, przy założeniu, że wszystkie elementy zbioru sterowań są znane dla t ≥ t0 [103].. 6.

(13) 1.1 Gra liniowo-kwadratowa. Rysunek 1.1: System dynamiczny rzędu N z R sterowaniami i M wyjściami. Zakładamy, że równanie (1.1) spełnia warunki zapewniające jednoznaczność rozwiązań względem x. Typową interpretację takiego systemu przedstawia rysunek (1.1). Szczególne miejsce w teorii systemów dynamicznych zajmują systemy liniowe. Analizie ich własności, takich jak stabilność czy sterowalność, oraz możliwościom sterowania poświęcone są rozliczne prace z dziedziny automatyki i teorii sterowania (np. [90], [101] lub [60]). Stacjonarny, liniowy system dynamiczny z N wejściami opisujemy następującym równaniem różniczkowym x(t) ˙ = Ax(t) + B1 u1 (t) + · · · + BN uN (t),. x0 = x(0). (1.3). gdzie x(t) ∈ X = Rn , ui (t) ∈ U = Rr , A,B - macierze rzeczywiste o stałych współczynnikach. Zauważyć można, że sterowania zapisywane są inaczej niż w klasycznym ujęciu systemu dynamicznego, gdzie zwykle mają one postać wektorową. Formę (1.3) stosuje się w teorii gier dla uproszczenia zapisu, jak również dla podkreślenia niezależności wejść. W sensie formalnym jest ona jednakże w pełni równoważna klasycznemu zapisowi. Kwadratowy funkcjonał jakości Oprócz systemu dynamicznego (1.3), gra liniowo-kwadratowa posiada N funkcjonałów jakości (po jednym dla każdego ze sterowań). Rozważa się przypadki z. 7.

(14) 1.2 Równowaga Nasha. ograniczonym horyzontem czasowym T , oraz z horyzontem nieskończonym. W pierwszym przypadku wskaźnik jakości przyjmuje formę (T < ∞) ) ZT ( N X Ji (u1 , . . . , uN ) = xT (t)Qi x(t) + uTj (t)Rij uj (t) dt j=1. 0. +xT (T )QiT x(T ),. (1.4). i = 1, . . . , N. natomiast w drugim (T → ∞) ) Z∞ ( N X xT (t)Qi x(t) + uTj (t)Rij uj (t) dt, Ji (u1 , . . . , uN ) = j=1. 0. (1.5). i = 1, . . . , N Podobnie jak w klasycznym problemie LQ (zob. np. [53]), o macierzach wag przyjmuje się, że są one rzeczywiste, a ponadto T = Rij • QTi = Qi , QTiT = QiT , Rij. • Rii > 0 Celem każdego z graczy (odpowiadających za poszczególne sterowania un ) jest minimalizacja jego własnego wskaźnika jakości Jn . Należy zauważyć, że interesy poszczególnych sterowań niekoniecznie muszą być całkowicie rozbieżne. Każdy z graczy optymalizuje więc swój wskaźnik jakości przy założeniu, że inni gracze czynią to samo. Prowadzi to do sytuacji nazywanej równowagą Nasha.. 1.2. Równowaga Nasha. Równowaga Nasha stanowi jedno z podstawowych pojęć teorii gier. Jej nazwa pochodzi od nazwiska Johna F. Nasha, który przedstawił ją w pracy [98] oraz wykazał istnienie dla dowolnej gry o skończonej ilości strategii.. 8.

(15) 1.2 Równowaga Nasha. Definicja 1.2.1 O zbiorze sterowań (u∗1 , . . . , u∗N ) mówimy, że znajduje się w równowadze Nasha, jeżeli dla każdego dopuszczalnego (u1 , . . . , uN ) spełniony jest warunek Ji (u∗1 , . . . , u∗i−1 , u∗i , u∗i+1 , . . . , u∗N ) ≤ Ji (u∗1 , . . . , u∗i−1 , ui , u∗i+1 , . . . , u∗N ),. (1.6). i = 1, . . . , N Oznacza to, iż w równowadze Nasha żaden z graczy nie może zmienić swojego sterowania bez pogorszenia swojego wskaźnika jakości. Jakakolwiek zmiana sterowania przez któregokolwiek z graczy może zostać wykorzystana przez innych na jego niekorzyść i spowodować pogorszenie jego wyniku. Należy jednak podkreślić, że w ogólnym przypadku stan równowagi Nasha nie musi być tożsamy z paretooptymalnością zestawu sterowań (u∗1 , . . . , u∗N ) (problem tzw. dylematu więźnia, zob. np. [105] str. 120-124 lub [84] str. 95-97). 9.

(16) Rozdział 2 Warunki istnienia równowagi Nasha W rozdziale przedstawiane są warunki istnienia równowagi Nasha dla różnych horyzontów oraz modeli informacji. O ile dla pętli otwartej możliwe jest podanie warunków koniecznych i wystarczających, o tyle dla zamkniętej warunki takie - wg wiedzy autora - wciąż pozostają nieznane. Podane są zatem warunki wystarczające, tj. oszacowania gwarantujące istnienie takiej równowagi.. 2.1. Istnienie równowagi Nasha w pętli otwartej. Pierwszym rozważanym problemem jest istnienie rozwiązania gry, tj. istnienie takiego zbioru sterowań (u∗1 , . . . , u∗N ), który dla gry liniowo-kwadratowej (1.3,1.4) lub (1.3,1.5) spełnia warunek równowagi Nasha (1.6). Rozważymy kolejno problem istnienia równowagi Nasha dla problemu ze skończonym, jak i nieskończonym horyzontem.. 2.1.1. Przypadek ze skończonym horyzontem. W tej części rozważone zostaną warunki istnienia równowagi Nasha dla przypadku ze skończonym horyzontem. Dla uproszczenia notacji rozważana będzie gra z dwoma uczestnikami, ale rezultaty przenieść można również na bardziej złożone przypadki.. 10.

(17) 2.1 Istnienie równowagi Nasha w pętli otwartej. Oznaczmy Si = Bi Rii−1 BiT . Wykazać można (zob. [33], str. 270), że: Twierdzenie 2.1.1 Jeżeli 1. Para równań różniczkowych Riccatiego K˙ i (t) = −AT Ki (t) − Ki (t)A + Ki (t)Si Ki (t) − Qi Ki (T ) = QiT. (2.1). i = 1, 2. posiada symetryczne rozwiązanie Ki (.) na przedziale [0, T ] 2. Para równań różniczkowych Riccatiego P˙1 (t) = AT P1 (t) + P1 (t)A + Q1 − P1 (t)S1 P1 (t) − P1 (t)S2 P2 (t) P˙2 (t) = AT P2 (t) + P2 (t)A + Q2 − P2 (t)S2 P2 (t) − P2 (t)S1 P1 (t). (2.2). z warunkami końcowymi P1 (T ) = Q1T , P2 (T ) = Q2T ma rozwiązania na przedziale [0, T ] to wówczas w danej grze (1.3,1.4) istnieje równowaga Nasha dla dowolnego stanu początkowego x0 , i jest ona jedyna. Spełnienie Założenia 1 powyższego twierdzenia jest równoznaczne stwierdzeniu, że ze względu na każde ze sterowań u1 , u2 rozwiązywalny jest klasyczny problem LQ (przy ustalonym drugim sterowaniu). Sprawdzenie założenia 2 jest poważniejszym problemem. W tym celu można posłużyć się przekształceniem polegającym na nieliniowej zamianie zmiennych (zob. np. [33], str. 271). Oznaczmy .  A −S1 −S2 0  M =  −Q1 −AT −Q2 0 −AT. (2.3). Możemy teraz przejść z równaniami (2.2) na następującą postać:    U˙ (t) U (t)  V˙ 1 (t)  = M  V1 (t)  V2 (t) V˙ 2 (t) . .    U (T ) I  V1 (T )  =  Q1T  V2 (T ) Q2T. (2.4). gdzie P1 (t) = V1 (t)U −1 (t). (2.5). P2 (t) = V2 (t)U −1 (t). (2.6). 11.

(18) 2.1 Istnienie równowagi Nasha w pętli otwartej. Jest to układ równań różniczkowych liniowych z danym warunkiem końcowym. Jego rozwiązanie (zob. np. [94]) jest dane zależnością .    U (t) I  V1 (t)  = eM (T −t)  Q1T  V2 (t) Q2T. (2.7). Ze względu na zależności (2.5, 2.6) odpowiednie trajektorie P1 (t), P2 (t) będą istnieć tylko wtedy, jeżeli dla każdego t ∈ [0, T ] istnieć będzie U −1 (t). Własność taka wciąż nie jest jednak użyteczna praktycznie, ze względu na konieczność sprawdzenia nieosobliwego rozwiązania U (t) w każdym punkcie dziedziny. Jednak, wykorzystując powyższe zależności oraz zasadę maksimum Pontriagina, udowodnić można (zob. [33], str. 267) następujące twierdzenie1 Twierdzenie 2.1.2 Jeżeli macierz hamiltonianu H(T ) postaci   I h i   H(T ) = I 0 0 e−M T  Q1T  Q2T. (2.8). jest odwracalna, to wówczas w danej grze LQ istnieje równowaga Nasha dla dowolnego stanu początkowego x0 , i jest ona jedyna. Twierdzenie (2.1.2) posiada duże znaczenie praktyczne. W przeciwieństwie do wcześniej podanych twierdzeń, nie ma tu konieczności analizy rozwiązań równań różniczkowych - sprawdzenie założeń twierdzenia nie stanowi problemu numerycznego.. 2.1.2. Przypadek z nieskończonym horyzontem. Istnienie równowagi Nasha w grze LQ z nieskończonym horyzontem stanowi bardziej złożony problem niż w przypadku czasu skończonego. Różniczkowe równania Riccatiego przechodzą w tym przypadku w algebraiczne, co implikuje konieczność badania określonych cech ich rozwiązań. Teorii algebraicznych równań 1. Rozważania na temat istnienia rozwiązania dla gry w pętli otwartej znaleźć można również w pracy [31]. 12.

(19) 2.1 Istnienie równowagi Nasha w pętli otwartej. Riccatiego poświęcono szereg prac, z których wymienić można np. [79], [1] czy [30]. Niech będzie dana para równań algebraicznych Riccatiego postaci 0 = AT P1 + P1 A + Q1 − P1 S1 P1 − P1 S2 P2. (2.9). 0 = AT P2 + P2 A + Q2 − P2 S2 P2 − P2 S1 P1. Wprowadźmy pojęcia par macierzy stabilizujących oraz silnie stabilizujących (za [35]) Definicja 2.1.1 Parę (P1 , P2 ) rozwiązań algebraicznych równań Riccatiego nazywamy 1. stabilizującą, jeżeli macierz postaci Acl = A − S1 P1 − S2 P2 jest asymptotycznie stabilna, tj. wszystkie jej wartości własne leżą w lewej otwartej półpłaszczyźnie zespolonej 2. silnie stabilizującą jeżeli • jest stabilizująca • macierz postaci " Λ=. −AT + P1 S1 P1 S 2 T P2 S1 −A + P2 S2. # (2.10). posiada wszystkie wartości własne w prawej domkniętej półpłaszczyźnie zespolonej Warunki wystarczające istnienia równowagi Nasha dla przypadku z nieskończonym horyzontem czasowym są dane następującym twierdzeniem (zob. [35]) Twierdzenie 2.1.3 Jeżeli 1. Para równań algebraicznych 0 = −AT Ki − Ki A + Ki Si Ki − Qi posiada symetryczne, stabilizujące rozwiązanie. 13. i = 1, 2. (2.11).

(20) 2.1 Istnienie równowagi Nasha w pętli otwartej. 2. Para równań algebraicznych 0 = AT P1 + P1 A + Q1 − P1 S1 P1 − P1 S2 P2. (2.12). 0 = AT P2 + P2 A + Q2 − P2 S2 P2 − P2 S1 P1. (2.13). posiada silnie stabilizujące rozwiązanie to równowaga Nasha w takiej grze istnieje, i jest jedyna. Badanie pierwszego z założeń nie stanowi problemu numerycznego. Wykazać można, że dla macierzy Qi , Rii warunek symetrii (jak przyjęto w definicji gry (1.3)) implikuje symetryczność rozwiązania (2.11). Co więcej, algebraiczne równania Riccatiego tej postaci zawsze posiadają jednoznaczne rozwiązanie dla par (A, Bi ) stabilizowalnych, i (Qi , A) wykrywalnych (zob. np. [92], [25]). Sprawdzenie, czy znaleziona para jest rozwiązaniem stabilizującym sprowadza się do podstawienia uzyskanych macierzy K1 , K2 do wzoru z pkt. 1. definicji (2.1.1), i zbadania widma uzyskanej macierzy. Drugie założenie (2.1.3) zweryfikować można korzystając z następującego twierdzenia Twierdzenie 2.1.4 Jeżeli macierz M postaci (2.3) posiada n wartości własnych w lewej otwartej półpłaszczyźnie zespolonej, oraz 2n w prawej domkniętej półpłaszczyźnie zespolonej, to para (P1 , P2 ) jest silnie stabilizowalna. Podsumowując, oznacza to, iż aby zbadać istnienie równowagi Nasha w grze LQ z nieskończonym horyzontem, należy wykonać następujące kroki 1. Ocenić, czy pary (A, Bi ) są stabilizowalne, a (Qi , A) wykrywalne. 2. Zbadać widmo macierzy M i ocenić, czy spełnia ono twierdzenie (2.1.4) Jeżeli warunki z powyższych kroków są spełnione, wnioskujemy o istnieniu równowagi Nasha dla danej gry.. 14.

(21) 2.2 Istnienie równowagi Nasha w pętli zamkniętej. 2.2. Istnienie równowagi Nasha w pętli zamkniętej. Przedstawione w poprzednim rozdziale sterowanie w pętli otwartej posiada szereg wad. Najbardziej podstawową z nich jest konieczność obliczenia i zadeklarowania sterowania ui (t) dla każdego z graczy już na początku gry, bez możliwości jego późniejszej zmiany. Fakt ten bardzo uwrażliwia wynik eksperymentu na ewentualne niedokładności parametrów modelu przyjęte w obliczaniu wartości sterowań, które w rzeczywistych systemach sterowania zwykle są obecne. Nie jest też możliwa reakcja na jakiekolwiek zakłócenie wprowadzone do zmiennej stanu. W przypadku długiego horyzontu czasowego błędy nawarstwiają się, dając trajektorie niezgodne z pożądanymi. Rozwiązaniem powyższego problemu jest sterowanie w pętli sprzężenia zwrotnego. Jest to jedna z najbardziej podstawowych koncepcji sterowania automatycznego, rozważana od początku istnienia automatyki. W tego rodzaju systemie sterowanie nie jest arbitralnie przyjmowane na początku procesu, ale jest w każdej chwili czasu zależne bezpośrednio od wyjścia systemu, które w szczególnym przypadku stanowi bezpośrednie odwzorowanie stanu. Taka metodyka pozwala uczynić system mniej wrażliwym na większość zakłóceń i niedokładności modelu.. 2.2.1. Sterowanie i strategia w pętli zamkniętej. Poprzez sterowania w pętli zamkniętej rozumieć będziemy takie sterowania, które zależą bezpośrednio od stanu systemu x(t). Sterowanie optymalne zależeć więc będzie od pewnej strategii (ang. policy), która jest funkcją aktualnego stanu (1.3) u∗i (t) = γi∗ (t, x(t)). (2.14). Zauważyć należy, iż strategia ta generuje sterowanie u∗ (t) dla każdego t ∈ [0, T ] i x(t) ∈ Rn . Ważne jest pytanie, czy dla każdego zbioru (t, x(t)) formuła γ ∗ (t, x(t)) zapewnia, że wygenerowane sterowania u∗i znajdą się w równowadze Nasha. Aby udzielić odpowiedzi, wprowadzimy pojęcie silnej spójności czasowej. 15.

(22) 2.2 Istnienie równowagi Nasha w pętli zamkniętej. .... System. .... Rysunek 2.1: Gra ze sprzężeniem zwrotnym. Definicja 2.2.1 Strategie w równowadze Nasha (u∗1 (t), u∗2 (t), . . . , u∗N (t)), t ∈ [0, T ] nazywamy silnie spójnymi czasowo, jeśli dla każdego t1 ∈ [0, T ] strategie (u∗1 (t), u∗2 (t), . . . , u∗N (t)) na przedziale [t1 , T ] stanowić będą równowagę Nasha przy dowolnie wybranym osiągalnym x(t1 ). Innymi słowy, z silną spójnością czasową mamy do czynienia wówczas, gdy sterowania u∗i (t) są w taki sposób zależne od stanu systemu, że dla dowolnego stanu x(t1 ) również stanowić będą równowagę Nasha. W szczególnym przypadku t1 = 0 oznacza to, że uzyskiwana będzie równowaga Nasha dla dowolnego warunku początkowego x0 = x(0). Jasnym jest, że omówione w poprzednim rozdziale sterowania w pętli otwartej nigdy nie cechują się silną spójnością czasową. Ostatecznie, równowagę w pętli zamkniętej definiujemy jak poniżej Definicja 2.2.2 Sterowania dane zależnością (2.14) nazywamy równowagą Nasha w pętli zamkniętej, jeżeli spełniają one warunek silnej spójności czasowej. Dalej rozważmy funkcjonał Vi (t, x(t)). Dla dowolnej gry różniczkowej udowodnić można następujące twierdzenie (zob. [9], str. 287). 16.

(23) 2.2 Istnienie równowagi Nasha w pętli zamkniętej. Twierdzenie 2.2.1 Dla dowolnej N-osobowej gry różniczkowej postaci x(t) ˙ = f (x(t), ui (t)). x0 = x(0). , i = 1, . . . , N. (2.15). ze wskaźnikami jakości ZT Ji (x(T ), T ) =. gi (t, x(t), ui (t))dt + qi (T, x(T )). (2.16). 0. spełnione są cząstkowe równania różniczkowe postaci ∂Vi (t, x(t)) ∂Vi (t, x(t)) ˜∗ ∗ − = min fi (t, x(t), ui (t)) + g˜i (t, x(t), ui (t)) ui ∈Ui ∂t ∂x. (2.17). gdzie f˜i∗ (t, x(t), ui (t)) = ∗ ∗ ∗ f (t, γ1∗ (t, x(t)), . . . , γi−1 (t, x(t)), ui (t), γi+1 (t, x(t)), . . . , γN (t, x(t)) (2.18). g˜i∗ (t, x(t), ui (t)) = ∗ ∗ ∗ g(t, γ1∗ (t, x(t)), . . . , γi−1 (t, x(t)), ui (t), γi+1 (t, x(t)), . . . , γN (t, x(t)) (2.19). Równania (2.17) są to tak zwane równania Isaacsa (od R. Isaacsa, który podał je w pracy [57]). W dalszej części zastosujemy powyższe twierdzenie do gry liniowokwadratowej. W przypadku obecności dwóch graczy (tj. sytuacji gdy N = 2), uzyskamy dwa równania różniczkowe cząstkowe postaci ∂V1 (t, xa ) ∂V1 (t, xa ) ∗ T = min (Axa + B1 u1 + B2 u2 ) + u1 R11 u1 − u1 ∈U ∂t ∂xa ∂V2 (t, xb ) ∂V2 (t, xb ) ∗ T − = min (Axb + B1 u1 + B2 u2 ) + u2 R22 u2 u2 ∈U ∂t ∂xb. (2.20). Zmienne pomocnicze xa ∈ Rn i xb ∈ Rn stanowią w tym przypadku rozwiązania równań różniczkowych x˙ a = Axa + B1 u1 + B2 u∗2. xa (0) = x(0). x˙ b = Axb + B1 u∗1 + B2 u2. xb (0) = x(0). 17. (2.21).

(24) 2.2 Istnienie równowagi Nasha w pętli zamkniętej. a więc odpowiadają trajektoriom systemu dla ustalonych (znajdujących się w równowadze Nasha) sterowań u∗2 i u∗1 . Dalej, jeżeli V1 ,V2 istnieją, to sterowania tworzące równowagę Nasha dane są zależnościami wynikającymi z (2.20), postaci . ∂V1 (t, x1 ) ∗ T ∗ T ∗ = arg min (Ax1 + B1 u1 + B2 u2 ) + u1 R11 u1 + (u2 ) R12 u2 u1 ∈U ∂x1 ∂V2 (t, x2 ) ∗ ∗ T ∗ T ∗ u2 = arg min (Ax2 + B1 u1 + B2 u2 ) + u2 R22 u2 + (u1 ) R21 u1 u2 ∈U ∂x2 (2.22). u∗1. Dodatkowo, sterowania u∗1 , u∗2 są silnie spójne czasowo (zob. [33], str. 363). Teoretycznie równania Isaacsa postaci (2.20) stanowią receptę na rozwiązanie dowolnego problemu gry LQ w pętli zamkniętej. Rozwiązywanie układów równań różniczkowych cząstkowych stanowi jednakże bardzo złożony problem matematyczny: analitycznie rozwiązywalne są tylko wąskie klasy najprostszych równań (zob. np. [38], [114]), z punktu widzenia numerycznego również jest to zagadnienie złożone. Dodatkowo, bardzo znaczącym utrudnieniem jest fakt, iż dla równań różniczkowych (2.21) dysponujemy warunkiem początkowym, natomiast dla (2.20) końcowym. Prowadzi to do tzw. problemu dwugranicznego, który sam w sobie jest niezwykle trudny do rozwiązania nawet dla klasy równań różniczkowych zwyczajnych (zob. np. [52]). Powyższe fakty sprawiają, iż problem postawiony w postaci (2.20,2.21) stanowi bardzo trudne zagadnienie matematyczne, i wobec tego bezpośrednie wykorzystanie powyższych równań jest niepraktyczne i rzadko stosowane.. 2.2.2. Liniowe sprzężenie zwrotne. Sposobem na uniknięcie problemów przedstawionych powyżej jest zawężenie rozważanej przestrzeni rozwiązań (tj. strategii) do strategii liniowych, a więc takich, że strategia γ ze wzoru (2.14) będzie zależnością liniową postaci u∗i (t) = γi (t, x(t)) = Fi (t)x(t). 18. (2.23).

(25) 2.2 Istnienie równowagi Nasha w pętli zamkniętej. Należy mieć świadomość, iż powyższe założenie ogranicza zbiór rozwiązań. Jeżeli dana gra LQ nie posiada rozwiązania postaci (2.23), nie oznacza to że równowaga Nasha nie istnieje w niej w ogóle. W przeciwieństwie do klasycznego problemu LQ, gra liniowo-kwadratowa może posiadać sterowania optymalne dane zależnościami nieliniowymi, a więc przyjęcie zbioru strategii dopuszczalnych w postaci (2.23) może spowodować ”zgubienie”pary sterowań (u∗1 , u∗2 ) znajdującej się w równowadze Nasha. Przykład takiej sytuacji dla systemu rzędu drugiego podał T. Basar w artykule [7], analizę problemu nieliniowych rozwiązań znaleźć można również w pracach [110] lub [116]. Wykazać można następujące twierdzenie (zob. [33], str. 364-365) Twierdzenie 2.2.2 Warunkiem wystarczającym istnienia liniowej równowagi Nasha w pętli zamkniętej jest aby układ równań różniczkowych Riccatiego K˙ 1 (t) = −(A − S2 K2 (t))T K1 (t) + K1 (t)(A − S2 K2 (t)) + K1 (t)S1 K1 (t) − Q1 − K2 (t)S21 K2 (t) (2.24) K˙ 2 (t) = −(A − S1 K1 (t))T K2 (t) + K2 (t)(A − S1 K1 (t)) + K2 (t)S2 K2 (t) − Q2 − K1 (t)S12 K1 (t) (2.25) z warunkami końcowymi odpowiednio K1 (T ) = Q1T , K2 (T ) = Q2T , miał symetryczne rozwiązania na przedziale [0, T ] Powyższe twierdzenie pozwala łatwiej ocenić istnienie równowagi Nasha w pętli zamkniętej niż przy pomocy równań (2.20, 2.21). Wciąż jednak mamy do czynienia z problemem rozwiązania układu równań różniczkowych Riccatiego, co w przypadku analitycznym może być trudne. Dlatego pożądane byłoby podanie twierdzeń, które na podstawie badań macierzy gry (1.3, 1.4) pozwoliłyby uzyskać odpowiedź odnośnie istnienia równowagi Nasha.. 2.2.3. Przypadek ze skończonym horyzontem. Problem istnienia równowagi Nasha w pętli zamkniętej rozważany jest od początku istnienia problematyki gier liniowo-kwadratowych, a więc w pracy Y.Ho i. 19.

(26) 2.2 Istnienie równowagi Nasha w pętli zamkniętej. A. Starra [56], w której podali oni warunki istnienia równowagi w pętli zamkniętej w postaci równań Riccatiego. D. Lukes [28] podał warunki jednoznaczności równowagi Nasha i wykazał, że każda gra LQ posiada taką równowagę dla odpowiednio krótkiego horyzontu T . W pracy Papavassilopoulosa i Olsdera [109] rozważony został szczególny przypadek B1 = B2 , Rij = I, i dla takiego wykazano istnienie równowagi Nasha przy dowolnie długim horyzoncie czasowym. W artykule Freilinga [42] przedstawiono dodatkowe równania pomocnicze, pozwalające ocenić horyzont czasowy dla którego rozwiązanie równań Riccatiego (2.24,2.25) ma rozwiązanie - pomimo swej ogólności, nie pozwalają one uzyskać w łatwy sposób odpowiedzi co do istnienia równowagi Nasha. W ogólnym przypadku problem jednoznacznej oceny istnienia tej równowagi w pętli zamkniętej na podstawie analizy macierzy gry (1.3, 1.4) pozostaje otwartym problemem matematycznym. 2.2.3.1. Oszacowanie horyzontu. Ze względów praktycznych ważne jest oszacowanie, dla jakich wartości horyzontu T system posiada unikalną równowagę Nasha. Tak postawione zagadnienie sprowadza się do uzyskania warunku wystarczającego istnienia równowagi w zależności od T . Problem taki rozwiązany został przez Papavassilopoulosa i Cruza w pracy [107], przedstawione poniżej twierdzenia bazują na wynikach w niej przedstawionych. Dla uproszczenia, zapiszmy równania (2.24,2.25) w postaci jednego, niesymetrycznego równania Riccatiego. Oprócz tego odwrócona zostanie dziedzina czasu - tj. dla wszystkich zmiennych dokonana zostanie zmiana X(t) → X(T − t). Pozwoli to uzyskać problem w typowej postaci problemu Cauchy’ego. Efektem takiego przekształcenia jest też zmiana znaków w równaniach. Po uwzględnieniu powyższych przekształceń otrzymujemy. − K˙ = F T K + KF + Q − KSK − KJSKJ − JKSJK + JKJS0 JKJ (2.26). 20.

(27) 2.2 Istnienie równowagi Nasha w pętli zamkniętej. gdzie K(0) = K0 , t ∈ [0, T ], oraz A 0 F = 0 A −1 T B1 R11 B1 0 S = −1 T 0 B2 R22 B2 −1 −1 −1 T B2 R22 R12 R22 B2 0 S0 = −1 −1 −1 T 0 B1 R11 R21 R11 B1 . Q1 0 Q = 0 Q2 0 I J = I 0 K1 0 J = 0 K2 Wykazać można, że równanie takie jest szacowane przez zależność ˙ kK(t)k ≤ βkK(t)k2 + αkK(t)k + q. (2.27). gdzie k· k stanowi normę supremum macierzy, natomiast α, β, q α = max {2kAk} t∈[0,T ]. β = max {3kS(t)k + kS0 (t)k} t∈[0,T ]. (2.28). q = max {kQ(t)k} t∈[0,T ]. Ponieważ przedział [0, T ] jest skończony, a wartości macierzy przedziałami ciągłe, α, β, q będą skończone. Przyjmujemy, że β 6= 0 - w przeciwnym przypadku równanie (2.26) jest równaniem liniowym, a więc jego rozwiązanie istnieje dla dowolnie dużego T . Rozpatrzmy teraz równanie różniczkowe postaci y(t) ˙ = βy 2 (t) + αy(t) + q,. y(0) = y0. Wykazać można, że jeżeli y(0) ≥ kK(0)k, to wówczas zależność y(t) ≥ kK(t)k,. 21. t ∈ [0, T ]. (2.29).

(28) 2.2 Istnienie równowagi Nasha w pętli zamkniętej. zachodzi dla każdego T < tf , gdzie [0, tf ] jest przedziałem na którym istnieje rozwiązanie równania (2.29), oraz 0 < tf < ∞. Wykorzystując powyższe twierdzenie, możemy oszacować istnienie przedziału na którym istnieje rozwiązanie (2.26) poprzez skalarne równanie (2.29). Papavassilopoulos i Cruz podają (w formie propozycji) następujące oszacowania: Propozycja 2.2.3 Oznaczmy 2. ∆ = α − 4βq,. √ −α + ∆ ρ1 = , 2β. √ −α − ∆ ρ2 = 2β. Wówczas 1. Jeżeli ∆ = 0, to wówczas (2.29) ma rozwiązanie dla T spełniającego nierówność 2 T < α + 2βkK0 k 2. Jeżeli ∆ > 0 oraz ρ2 < ρ1 ≤ 0, to wówczas (2.29) ma rozwiązanie dla T spełniającego nierówność 1 kK0 − ρ2 k T < ln ∆ kK0 − ρ1 k 3. Jeżeli ∆ < 0 oraz ρ1 = a + ib, ρ2 = a − ib to wówczas (2.29) ma rozwiązanie dla T spełniającego nierówność 1 kK0 k − a −1 T < π − 2 tan ∆ b Ponieważ, jak wspomniano, współczynniki α, β, q są dodatnie, można wykazać że powyższe przypadki wyczerpują wszystkie możliwości. Opisana metodyka nie dostarcza pełnego warunku koniecznego i wystarczającego istnienia równowagi Nasha. Niemniej, pozwala ona uzyskać oszacowanie dolne (warunek wystarczający) długości horyzontu T dla którego rozwiązanie istnieje. Poniżej podamy prosty przykład możliwości oszacowania horyzontu przy wykorzystaniu powyższych twierdzeń. 22.

(29) 2.2 Istnienie równowagi Nasha w pętli zamkniętej. Przykład Rozważmy skalarną grę liniowo-kwadratową o skończonym horyzoncie, gdzie A = −1, B1 = 0.1, B2 = 0.2, wagi odpowiednio Q1 = 1, Q2 = 1, Q1T = 0, Q2T = 0, R11 = 1, R22 = 0.5, a warunek początkowy x0 = 1. Dla takiej gry, zgodnie ze wzorami (2.28) uzyskamy odpowiednio α = 2, β = 0.24, q = 1. Daje to następującą postać równania (2.29): y(t) ˙ = 0.24y 2 + 2y + 1. (2.30). Rysunek 2.2: Zachowanie rozwiązania skalarnego równania różniczkowego Riccatiego (2.30). Symulacje numeryczne przedstawione na rys (2.2) pozwalają ocenić, że rozwiązanie równania (2.29) istnieje dla horyzontu T ≈ 1. W istocie, wykorzystując propozycję Papavassilopoulosa i Cruza uzyskujemy ∆ = 3.04 i odpowiednio p1 = −7.7991,. p2 = −0.5343. 23.

(30) 2.2 Istnienie równowagi Nasha w pętli zamkniętej. Jako że ∆ > 0, wykorzystujemy propozycję nr 2, otrzymując ostatecznie oszacowanie horyzontu jako T = 1.0017. Wnioskujemy, że rozwiązanie gry w modelu z pętlą zamkniętą istnieje co najmniej dla przedziału t ∈ [0, 1.0017]. 2.2.4. Przypadek z nieskończonym horyzontem. W przypadku nieskończonego horyzontu, pierwszym istotnym założeniem czynionym przez większość autorów (zob. np. [33], [108]) jest ograniczenie zbioru dopuszczalnych rozwiązań (sprzężeń zwrotnych) do liniowych i stacjonarnych, tj wyrażonych w postaci macierzy Fi , i = 1, 2 takich, że ui (t) = Fi x(t). (2.31). Oprócz tego, od rozwiązań wymagamy, aby stabilizowały zamknięty system sterowania, tj. macierz Acl = A + B1 F1 + B2 F2. (2.32). była asymptotycznie stabilna. Konieczność istnienia tego założenia wynika z faktu, iż w warunku równowagi Nasha (1.6) mogą być rozpatrywane tylko skończone wartości wskaźników jakości Ji . O ile w przypadku skończonego horyzontu ich ograniczoność była niezależna od stabilności (ze względu na ciągłość trajektorii systemu), w przypadku horyzontu nieskończonego skończoność wskaźnika jakości gwarantuje dopiero założenie wykładniczej stabilności, która dla systemów liniowych jest tożsama stabilności asymptotycznej (zob. np. [90], str. 59). Z powyższego rozważania wynika fakt, iż warunkiem koniecznym istnienia równowagi Nasha dla gry z czasem nieskończonym jest stabilizowalność systemu. Cechę stabilizowalności definiujemy w sposób następujący (zob. np. [90], str. 76-77) Definicja 2.2.3 Oznaczmy przez Xnas podprzestrzeń niestabilnych asymptotycznie stanów skończenie wymiarowego systemu dynamicznego, natomiast przez Xos podprzestrzeń stanów sterowalnych tego systemu. O systemie tym mówimy, że jest stabilizowalny, jeżeli spełniony jest warunek Xnas ⊂ Xos. 24.

(31) 2.2 Istnienie równowagi Nasha w pętli zamkniętej. tj. podprzestrzeń stanów niestabilnych asymptotycznie zawiera się w przestrzeni stanów sterowalnych. W sytuacji ograniczenia zbioru rozwiązań poprzez warunki podane powyżej możliwe jest wykazanie następującego twierdzenia: Twierdzenie 2.2.4 Warunkiem koniecznym i wystarczającym istnienia równowagi Nasha w grze ze sprzężeniem zwrotnym i nieskończonym horyzontem T → ∞ jest aby układ algebraicznych równań Riccatiego 0 = −(A − S2 K2 )T K1 + K1 (A − S2 K2 ) + K1 S1 K1 − Q1 − K2 S21 K2 0 = −(A − S1 K1 )T K2 + K2 (A − S1 K1 ) + K2 S2 K2 − Q2 − K1 S12 K1. (2.33). miał symetryczne, stabilizujące rozwiązanie (K1 , K2 ). Podobnie jak w przypadku skończonym, równania te można zapisać w formie jednego, niesymetrycznego równania Riccatiego postaci: 0 = F T K + KF + Q − KSK − KJSKJ − JKSJK + JKJS0 JKJ. (2.34). Analiza równania (2.34) jest zwykle trudnym problemem. Przypadki szczególne rozważano w pracach takich jak [109] lub [34]. Tym niemniej, nie znaleziono jak dotychczas warunków koniecznych i wystarczających jakie spełniać muszą macierze gry, by założenie powyższego twierdzenia było spełnione w przypadku ogólnym. 2.2.4.1. Warunki wystarczające istnienia równowagi. Podobnie jak w przypadku ze skończonym horyzontem, możliwe jest podanie warunków wystarczających istnienia równowagi Nasha dla systemu z nieskończonym horyzontem, na podstawie macierzy gry. Oszacowania takie, przy wykorzystaniu twierdzenia Browera (o punkcie stałym), podali Papavassilopoulos, Medanic i Cruz w pracy [108] - twierdzenia przedstawiane w tym rozdziale pochodzą z tej publikacji. Przyjmijmy a = kI + 2αAk b = 3kSk + kS0 k q=Q. 25. (2.35).

(32) 2.2 Istnienie równowagi Nasha w pętli zamkniętej. oraz dodatkowo =. √. qα.. Można wykazać, że zachodzi następujące twierdzenie Twierdzenie 2.2.5 Jeżeli istnieje R ≥ 0 dla którego spełniona jest zależność aα2 R2 + (b − 1)R + q ≤ 0. (2.36). to wówczas istnieje takie K, że kαKk ≤ R, i K jest rozwiązaniem równania Riccatiego (2.34) Dla a 6= 0, nierówność (2.36) posiada rozwiązanie w sytuacjach, gdy zachodzi 1 ≥ b + 2|α|. (2.37). lub q = 0 i 1 < b. Drugi przypadek odrzucamy jako nieinteresujący, gdyż wówczas jedynym rozwiązaniem nierówności (2.36) jest R = 0. Łatwo wykazać, że nierówność (2.37) ma rozwiązanie R1 ≤ R ≤ R2 , gdzie p 1 − b ± (b − 1)2 − 4α2 2 R1,2 = ≥0 (2.38) 2α2 a Wówczas zachodzi kKk ≤ |α|R2. (2.39). gdzie K spełnia równanie (2.34). Pozostaje pytanie o istnienie takich α 6= 0 dla których (2.37) posiada rozwiązanie. Przyjmując założenie, że macierz A jest diagonalizowalna, tj. A = T ΛT −1 , udowodnić można następujące twierdzenia Twierdzenie 2.2.6 Niech λ(A) = σ + jw będzie wartością własną macierzy A, oraz ρ = kT k · kT −1 k . Jeżeli istnieje γ > 0 takie, że zachodzi 1 1 (σ + + )2 + w2 ≤ 2 γ ργ. (2.40). to wówczas α dane zależnością α=. γ 2(1 + γ). spełnia nierówność (2.37), a w rezultacie istnieje K spełniające (2.34).. 26. (2.41).

(33) 2.2 Istnienie równowagi Nasha w pętli zamkniętej. ˆ = maxλ Re(λ(A)) Jeżeli zachodzi Twierdzenie 2.2.7 Niech λ ˆ ≤ −ρ2 λ. (2.42). to istnieje K spełniające (2.34) Łącząc powyższe twierdzenia, otrzymujemy warunki wystarczające istnienia równowagi Nasha ze sprzężeniem zwrotnym w zależności od widma macierzy A. Oba z twierdzeń posiadają swoje interpretacje graficzne. W przypadku twierdzenia (2.2.6) obszar na płaszczyźnie zespolonej w którym muszą znaleźć się wartości własne A jest dany stożkiem o środku w punkcie (−, 0), oraz kącie rozwarcia θ=. √2 . ρ−1. Twierdzenie (2.2.7) wyznacza natomiast półpłaszczyznę ograniczoną. prostą równoległą do osi urojonej, przechodzącą przez punkt (−ρ, 0). Interpretacje obu twierdzeń przedstawiają rysunki (2.3) i (2.4).. Rysunek 2.3: Interpretacja geometryczna twierdzenia (2.2.6). 27.

(34) 2.2 Istnienie równowagi Nasha w pętli zamkniętej. Rysunek 2.4: Interpretacja geometryczna twierdzenia (2.2.7). 28.

(35) Rozdział 3 Algorytmy rozwiązywania gier LQ W poniższym rozdziale przedstawione zostaną algorytmy rozwiązywania gier LQ dla gier w pętli otwartej i zamkniętej, oraz dla skończonego i nieskończonego horyzontu. Część z przedstawionych algorytmów należy do grupy algorytmów dokładnych - w przypadku gdy jesteśmy w stanie uzyskać informację o wartościach i wektorach własnych odpowiednich macierzy, jesteśmy również w stanie podać dokładne rozwiązanie. W algorytmach tych mamy do czynienia z sekwencją operacji prowadzących do uzyskania wyniku, niebędących jednak iteracjami. W przypadku kolejnej grupy - algorytmów przybliżonych - rozwiązanie uzyskiwane jest drogą kolejnych przybliżeń, a odpowiednie twierdzenia podają warunki zbieżności kolejnych iteracji do rozwiązania dokładnego. Należy również zaznaczyć, że rozwiązywanie problemu gry LQ w praktyce sprowadza się w większości wypadków do rozwiązania odpowiadających mu równań Riccatiego. W przypadku gier o skończonym horyzoncie są to równania różniczkowe, natomiast przy horyzoncie nieskończonym przechodzą one w równania algebraiczne. Przedstawione algorytmy nie stanowią pełnego przeglądu wszystkich dostępnych metodyk. W literaturze obecne są również algorytmy bazujące np. na metodach gradientowych [127], zaburzeń sprzęgających [24], [106], czy rozwinięć w szeregi [75]. W niniejszej pracy skoncentrowano się na metodach, które zyskały sobie szczególną popularność w ostatnich kilku latach. Zostały one również za-. 29.

(36) 3.1 Twierdzenia wstępne. implementowane przez autora w środowisku MATLAB - wynikiem tej pracy jest toolbox, którego kod może być udostępniony osobom zainteresowanym.. 3.1. Twierdzenia wstępne. Zanim przejdziemy do omówienia algorytmów rozwiązywania gier LQ, konieczne jest przedstawienie w jaki sposób powiązane ze sobą są równania Riccatiego, trajektorie i sterowania w równowadze Nasha. Przedstawione dalej twierdzenia zostały zaczerpnięte z prac J. Engwerdy (np. [33], [37]) oraz A. Friedmana ([43]), tam też odnaleźć można stosowne dowody. Twierdzenie 3.1.1 Jeżeli w grze ze skończonym horyzontem istnieje równowaga Nasha w pętli otwartej, to wówczas trajektorie w tej równowadze dane są wyrażeniem u∗i (t) = −Rii BiT Pi (t)Φ(t, 0)x0 (3.1) gdzie Pi (t) stanowią rozwiązania równań różniczkowych Riccatiego postaci (2.2), a Φ(t) spełnia równanie tranzycji postaci ˙ 0) = (A − S1 P1 − S2 P2 )Φ(t, 0), Φ(t,. Φ(t, t) = I. (3.2). natomiast stan systemu określa równanie x(t) = Φ(t, 0)x0. (3.3). Analogiczne twierdzenie podać można również dla gry z horyzontem nieskończonym Twierdzenie 3.1.2 Jeżeli w grze z nieskończonym horyzontem istnieje równowaga Nasha w pętli otwartej, to wówczas trajektorie w tej równowadze dane są wyrażeniem u∗i (t) = −Rii BiT Pi eAcl t x0 (3.4) gdzie Acl = A − S1 P1 − S2 P2 a P1 , P2 stanowią rozwiązania algebraicznych równań Riccatiego postaci (2.9). Stan systemu określony jest zależnością x(t) = eAcl t x0. 30. (3.5).

(37) 3.2 Bezpośrednie rozwiązywanie równań Riccatiego. W przypadku gier liniowo-kwadratowych w pętli zamkniętej, sformułować można następujące twierdzenie: Twierdzenie 3.1.3 Jeżeli w grze ze skończonym horyzontem istnieje równowaga Nasha w pętli zamkniętej, to wówczas sprzężenia zwrotne pozostające w tej równowadze dane są wyrażeniem Fi∗ (t) = −Rii BiT Ki (t). (3.6). gdzie Ki (t) stanowią rozwiązanie różniczkowych równań Riccatiego postaci (2.24,2.25). Analogicznie, w przypadku horyzontu nieskończonego sprzężenia zwrotne pozostające w równowadze Nasha są dane jako Fi∗ = −Rii BiT Ki. (3.7). gdzie Ki stanowią rozwiązanie algebraicznych równań Riccatiego (2.33) Stosowalność każdego z powyższych twierdzeń ograniczona jest do sytuacji, gdy równowaga Nasha istnieje - przed ich wykorzystaniem należy upewnić się co do tego przy wykorzystaniu twierdzeń z poprzedniego rozdziału. W dalszej kolejności pozwalają one, na podstawie rozwiązań równań Riccatiego (odpowiednio różniczkowych i algebraicznych), uzyskać trajektorie i sterowania pozostające w równowadze Nasha. Otwarta pozostaje jednak kwestia w jaki sposób równania takie można efektywnie rozwiązywać - tej problematyce poświęcona będzie dalsza część tego rozdziału.. 3.2. Bezpośrednie rozwiązywanie równań Riccatiego. Pierwszym i niejako narzucającym się sposobem uzyskania rozwiązania równań różniczkowych Riccatiego postaci (2.2) jest bezpośrednie jego wyliczenie przy wykorzystaniu metod numerycznych stosowanych dla ogólnej klasy równań różniczkowych zwyczajnych, takich jak metoda Rungego-Kutty ([19], str. 93-103, [3], str. 67-89) czy Dormanda-Prince’a ([3], str. 211-212). Niestety, jak zostanie. 31.

(38) 3.3 Dekompozycja równań Riccatiego na równania liniowe. dalej pokazane, typowe metody nie gwarantują uzyskania rozwiązania odpowiednio dokładnego. Co więcej, mogą występować niestabilności numeryczne, które trudno jest wykryć podczas rozwiązywania. Aby pokazać problem, przeanalizujemy następujący przykład. Rozważmy grę liniowo-kwadratową postaci x(t) ˙ = 2x(t) + u1 (t) + u2 (t). (3.8). ze wskaźnikami jakości ZT J1 (u1 , u2 ) =. 4x2 (t) + 0.5u21 (t)dt. (3.9). 2x2 (t) + 0.1u22 (t)dt. (3.10). 0. ZT J2 (u1 , u2 ) = 0. warunkiem początkowym x0. =. 1 i horyzontem T. =. 1.. Me-. toda Dormanda-Prince’a (wykorzystana została standardowa implementacja ode45 środowiska MATLAB) dla standardowych dokładności obliczeń (RelTol=1e-3,AbsTol=1e-6) daje rezultaty przedstawione na rys. (3.1). Cienkimi liniami zaznaczono rozwiązania prawidłowe, uzyskane analitycznie. Jak widzimy, nawet dla tak prostego przykładu rozbieżności są znaczące. Łatwo się przekonać, że nawet zwiększenie obu wymaganych dokładności o rząd wielkości nie powoduje znaczącej poprawy. Nie jest też możliwe oszacowanie powstających błędów - dla inaczej dobranych parametrów wynik może okazać się znacznie dokładniejszy, lecz nie ma możliwości weryfikacji tego przypuszczenia. Z tego względu przyjąć należy konkluzję, iż stosowanie typowych metod krokowych dla rozwiązywania równań Riccatiego w grze liniowo-kwadratowej nie jest dobrym rozwiązaniem.. 3.3. Dekompozycja równań Riccatiego na równania liniowe. Alternatywą dla rozwiązywania równań (2.2) bezpośrednio jest ich zamiana na układ równań liniowych. Aby dokonać takiej zamiany, wykorzystujemy nastę-. 32.

(39) 3.3 Dekompozycja równań Riccatiego na równania liniowe. Rysunek 3.1: Przykład rozbieżności metody krokowej. pujące twierdzenie (zob. [33], str. 266-267) Twierdzenie 3.3.1 Jeżeli w grze w pętli otwartej istnieje równowaga Nasha, i jest ona jedyna, to trajektorie i sterowania w systemie dane są poprzez liniowe równanie różniczkowe postaci y(t) ˙ = M y(0). (3.11). gdzie M jest macierzą postaci (2.3), natomiast warunek brzegowy jest dwugraniczny, postaci P y(0) + Qy(T ) = [x0 0 0]T (3.12) gdzie odpowiednio .  I 0 0   P =  0 0 0 , 0 0 0. .  0 0 0   Q =  Q1T I 0  Q2T 0 I. (3.13). Równanie (3.11) jest powszechnie opisywanym w literaturze równaniem różniczkowym liniowym. Rozwiązanie takiego równania można podać explicite, w postaci y(t) = eM t y(0). 33. (3.14).

(40) 3.3 Dekompozycja równań Riccatiego na równania liniowe. Napotykanym dalej problemem jest dwugraniczny warunek brzegowy, który jest niepraktyczny - mało jest użytecznych metod rozwiązywania problemów z takim warunkiem. Jednakowoż, w powyższym przypadku możliwe jest wykorzystanie faktu, iż y(T ) = eM T y(0), i przejście na warunek początkowy postaci y(0) = (P + QeM T )−1 [x0. 0. 0]T. (3.15). przy założeniu, że macierz (P + QeM T ) jest odwracalna. Ostatecznie mamy zatem problem Cauchy’ego - równanie różniczkowe z warunkiem początkowym. Osobnym problemem pozostaje, w jaki sposób wyznaczać będziemy macierz eM t . Nie jest to problem trywialny, szczególnie przy uwzględnieniu faktu, że macierz M może być dużych rozmiarów.. 3.3.1. Wyznaczanie macierzy fundamentalnej. Zadanie wyznaczenia macierzy fundamentalnej stanowi ważny i trudny problem. Istnieje szereg sposobów rozwiązania - poprzez rozwinięcia ciągów ([15], [2]), metody wielomianowe ([68], [87]) oraz rozkłady macierzy ([64]). Każda z przedstawionych grup metod posiada swoje zalety, jak i ograniczenia. W niniejszej pracy zastosowano metodę aproksymacji Pad´e, jako jedną z najbardziej wydajnych (zob. np. [96]). Aproksymacja Pad´e macierzy fundamentalnej jest zdefiniowana jako Rpq (A) = [Dpq (A)]−1 Npq (A). (3.16). gdzie Npq (A) =. p X. (p + q − j)!p! Aj (p + q)!j!(p − j)!. (3.17). (p + q − j)!q! (−A)j (p + q)!j!(q − j)!. (3.18). j=0. oraz Dpq (A) =. q X j=0. Nieosobliwość macierzy Dpq jest zapewniona, jeżeli p i q są wystarczająco duże, lub jeżeli macierz A jest asymptotycznie stabilna. Głównym problemem jeżeli chodzi o stosowalność aproksymacji są błędy zaokrągleń. Dla dużych wartości q Dqq (A) zmierza do e−A/2 , natomiast Nqq (A) do. 34.

(41) 3.4 Algorytm Jodara - Abou-Kandila. eA/2 . Z tego względu błąd obcięcia spowodować może niemożność osiągnięcia pożądanej dokładności - dotyczy to również ogólnego przypadku (p, q). Niekiedy rozwiązaniem może być zwiększenie dokładności liczb zmiennoprzecinkowych przy implementacji, nie zawsze jednak jest to możliwe. Dodatkowo, w przypadku macierzy A o mocno oddalonych od siebie wartościach własnych, odwrotność macierzy Dpq (A) może być źle określona. Rozwiązaniem dla tego problemu może być skalowalność, a więc wykorzystanie przekształcenia eA = (eA/m )m. (3.19). Idea rozwiązania polega na takim doborze wartości m będącej potęgą dwójki, by wartość eA/m była możliwa do obliczenia w wydajny i dokładny sposób, a następnie poprzez iteracyjne podnoszenie do kwadratu uzyskujemy wartość eA . Często stosowanym (zob. np. [88]) kryterium wyboru wartości m jest taka potęga dwójki, dla której spełniona jest zależność kAk/m ≤ 1. (3.20). Z tym założeniem, eA/m może być z powodzeniem wyznaczone poprzez zależność (3.16).. 3.4. Algorytm Jodara - Abou-Kandila. Algorytm Jodara - Abou-Kandila zaprezentowany został przez autorów w roku 1988, w pracy [59]. Bazuje on na rozwiązywaniu równań (2.2) poprzez iteracyjny algorytm, zbieżny do rozwiązań P1 (t), P2 (t). Jego zaletami są: 1. Istnienie wzoru pozwalającego na bezpośrednie oszacowanie błędu aproksymacji 2. Elastyczność związaną z możliwością stosowania różnych kwadratur numerycznych 3. Stosunkowo niewielka złożoność obliczeniowa (zależna od stosowanej kwadratury). 35.

(42) 3.4 Algorytm Jodara - Abou-Kandila. 3.4.1. Działanie algorytmu. Działanie algorytmu opiera się na podanym w [59] twierdzeniu (dowód tamże) Twierdzenie 3.4.1 Niech s = kSk. q = kQk. a = kAk. oraz δ > 0,. γ = kPT k + δ. Jako M oznaczmy stałą postaci M = q + 2n2 aγ + 4n4 γ 2 s. (3.21). Równania Riccatiego (2.2) posiadają rozwiązanie na przedziale [T − α, T ], gdzie δ α = min T, (3.22) M takie, że P1 (t), P2 (t) stanowią granicę schematu iteracyjnego danego zależnością Pi0 = PiT = QiT , P1j+1. ZT = P1 (T ) +. (−Q1 − AT P1j (τ ) − P1j (τ )A. 0 j +P1 (τ )S1 P1j (τ ). P2j+1 = P2 (T ) +. ZT. i = 1, 2. + P1j (τ )S2 P2j (τ ))dτ. (3.23). (−Q2 − AT P2j (τ ) − P2j (τ )A. 0 j +P2 (τ )S2 P2j (τ ). + P2j (τ )S1 P1j (τ ))dτ. Ponadto, dla t = [T − α, T ], górne ograniczenie błędu j-tej aproksymacji jest dane wyrażeniem ej (t) = kP (t) − P j (t)k ≤ gdzie ρ = 8n4 sγ + 2n2 a. 36. M (αρ)j+1 αρ e ρ(j + 1). (3.24).

(43) 3.4 Algorytm Jodara - Abou-Kandila. Ponieważ, jak podano, stałą δ przyjąć możemy jako dowolną liczbę ze zbioru +. R , zasadnym jest pytanie o możliwość takiego doboru δ, by zmaksymalizować przedział zbieżności schematu iteracyjnego, tj. by α było maksymalne. Jak wykazano w pracy [59], optymalny wybór δ dany jest wzorem r. q + 2n2 akP (T )k + 4n4 skP (T )k (3.25) 4n4 s W praktyce, decyzja o wykorzystaniu algorytmu Jodara - Abou-Kandila do δ∗ =. rozwiązania danej gry liniowo-kwadratowej będzie podejmowana tylko w przypadku, kiedy schemat iteracyjny podany w twierdzeniu (3.4.1) będzie zbieżny dla całego przedziału [0, T ], a więc w sytuacjach gdy spełniony jest warunek α∗ ≥ T. (3.26). Jeżeli warunek powyższy nie jest spełniony, algorytm nie gwarantuje zbieżności na przedziale [0, T ]. 3.4.1.1. Przykład. Rozważmy skalarną grę liniowo-kwadratową o skończonym horyzoncie, gdzie A = −0.5, B1 = 0.1, B2 = 0.2, wagi odpowiednio Q1 = 1, Q2 = 1.2, Q1T = 0, Q2T = 0, R11 = 1, R22 = 0.5, a warunek początkowy x0 = 1. W pierwszej kolejności wyznaczymy maksymalny przedział zbieżności metody. Przy wykorzystaniu wzorów (3.22) i (3.25) uzyskujemy przedział zbieżności t ∈ [0, Tc ] gdzie Tc = 0.4133. Z wykorzystaniem iteracji danych poprzez (3.23) uzyskujemy rozwiązania jak na rys. (3.2). Uzyskane sterowania stanowią równowagę Nasha dla analizowanego systemu - można to sprawdzić analitycznie, lub poprzez porównanie z wynikiem uzyskanym metodą dekompozycji. Ponieważ zbieżność algorytmu do trajektorii i sterowań w równowadze Nasha jest zagwarantowana tylko dla określonego przedziału, zasadnym jest pytanie, co dzieje się poza nim. Rys. (3.3) przedstawia sytuację, gdy dla analizowanego przykładu metoda jest wykorzystywana na przedziale t ∈ [0, T ], gdzie T = 6.. 37.

(44) 3.4 Algorytm Jodara - Abou-Kandila. Rysunek 3.2: Przykład działania algorytmu Jodara - Abou-Kandila, T = 0.4133. Rysunek 3.3: Przykład działania algorytmu Jodara - Abou-Kandila, T = 6. 38.

(45) 3.4 Algorytm Jodara - Abou-Kandila. Jak łatwo zauważyć, sterowania wyznaczone przez algorytm różnią się znacząco od sterowań w równowadze Nasha (zaznaczonych liniami przerywanymi). Fakt, iż największe błędy dotyczą początkowych chwil czasu jest związany z faktem, iż całki w metodzie rozwiązywane są wstecz. Jak można się przekonać, dalsze zwiększanie horyzontu owocuje stopniowo całkowitą utratą stabilności numerycznej.. 3.4.2. Rozwiązywanie całek w algorytmie. Przy wykorzystaniu algorytmu, kluczową sprawą jest rozwiązanie całek (3.23). Należy przy nim uwzględnić następujące aspekty: 1. Funkcje P1 , P2 stanowiące rozwiązania całek mają dane warunki końcowe; wartości P1 (t), P2 (t) są wyliczane na podstawie zachowania się P1 , P2 w poprzedniej iteracji na przedziale [t T ]. 2. Ze względu na fakt, iż każda kolejna iteracja bazuje bezpośrednio na wynikach iteracji poprzedniej, konieczne jest zastosowanie metody obliczającej wartości P1 (t), P2 (t) w tych samych punktach dla każdego powtórzenia. Zaproponowana dalej metoda bazuje na kwadraturze Simpsona, powszechnie wykorzystywanej w problemach całkowania numerycznego (zob. np. [112], [18]). Metoda ta opiera się na zależności: Zt2 f (t)dt ≈. h (f (t0 ) + 4f (t1 ) + f (t2 )) 3. (3.27). t0. Z uwagi na pkt 1 rozważań, całki (3.23) muszą być rozwiązywane wstecz. Oprócz tego, należy znaleźć wartości P1 (t), P2 (t) dla odpowiednio dużej ilości momentów czasu. Ostatecznie zastosowany algorytm rozwiązywania przedstawiony jest na rys. (3.4). Zaproponowany warunek stopu stanowi nierówność e¯i ≤ . (3.28). gdzie e¯i stanowi górne ograniczenie wielkości błędu w i-tej iteracji, natomiast z góry założony dopuszczalny błąd.. 39.

(46) 3.4 Algorytm Jodara - Abou-Kandila. START. Znajdź optymalne δ. Znajdź horyzont Zbieżności T Rozwiąż wstecz równania A-K. Nie. Oczekiwana dokładność? Tak STOP. Rysunek 3.4: Budowa algorytmu Jodara-Abou-Kandila. 40.

(47) 3.5 Algorytm Engwerdy. Uwagi Pomimo swych zalet, stosowalność algorytmu Jodara - Abou-Kandila jest bardzo ograniczona. Wynika to z faktu, iż jego zbieżność jest zwykle zapewniona wyłącznie dla bardzo krótkich horyzontów czasu. W szczególności, należy zwrócić uwagę, iż długość horyzontu zbieżności algorytmu jest odwrotnie proporcjonalny do czwartej potęgi rzędu systemu. Fakt ten w praktyce ogranicza możliwości wykorzystania metody wyłącznie do systemów o niskich rzędach.. 3.5. Algorytm Engwerdy. Algorytm Engwerdy służy do rozwiązywania problemu gry LQ z nieskończonym horyzontem. Bazuje on na wykorzystaniu charakterystycznych własności (wartości i wektorów własnych) odpowiednich macierzy, jak również pojęcia podprzestrzeni grafowych (ang. graph subspaces). Został opublikowany przez Jacoba Engwerdę w pracy [36]. Aby opisać jego działanie, potrzebujemy wprowadzenia kilku dodatkowych pojęć z dziedziny teorii macierzy. W pierwszej kolejności zdefiniujmy podprzestrzeń inwariantną (niezmienniczą) (za [94], str. 44-45) Definicja 3.5.1 Podprzestrzeń liniową S ⊂ K n nazywamy inwariantną (względem A), gdy AS ⊂ S, czyli As ∈ S dla s ∈ S Zauważyć należy, iż podprzestrzenie niezmiennicze względem macierzy A są generowane przy wykorzystaniu wektorów głównych tejże macierzy. Dokładniej, dowolna suma prosta podprzestrzeni niezmienniczych generowanych przez wektory główne macierzy A stanowić będzie również podprzestrzeń niezmienniczą macierzy A. Wykorzystując powyższe stwierdzenie, zdefiniujemy dalej stabilną przestrzeń inwariantną Definicja 3.5.2 Podprzestrzeń inwariantną S względem macierzy A nazywamy stabilną, jeżeli jest ona generowana przez wektory główne związane z asymptotycznie stabilnymi wartościami własnymi macierzy A.. 41.

(48) 3.5 Algorytm Engwerdy. Załóżmy teraz, że dana przestrzeń inwariantna V względem macierzy A generowaną przez jej wektory główne ma budowę postaci   X1  X2   V =  ...  Xk. (3.29). gdzie X1 , X2 , . . . , Xk stanowią macierze kwadratowe (łatwo zauważyć, że dim(A) = dim(X1 ) + · · · + dim(Xk )). Możemy wówczas zdefiniować pojęcie podprzestrzeni grafowej (graph subspace). Definicja 3.5.3 Rozważmy podprzestrzeń inwariantną V względem macierzy A o postaci (3.29). Podprzestrzeń V nazywamy podprzestrzenią grafową, jeżeli istnieje macierz odwrotna X1−1 Z wykorzystaniem powyższych definicji, podać można następujący algorytm rozwiązywania równań Riccatiego dla pętli otwartej (za [33]). 1. Znajdź wartości i wektory własne macierzy postaci A −S1 Hi = −Qi −AT. (3.30). Jeżeli obie te macierze posiadają stabilne podprzestrzenie grafowe, idź do kroku 2). W przeciwnym razie nie istnieje równowaga Nasha. 2. Oblicz macierz. .  A −S1 −S2 0  M =  −Q1 −AT −Q2 0 −AT. (3.31). Następnie zbadaj jej widmo. Jeżeli liczba ujemnych wartości własnych (z uwzględnieniem wartości wielokrotnych) jest mniejsza niż n, równowaga Nasha nie istnieje. 3. Oblicz wszystkie stabilne podprzestrzenie inwariantne Φ względem macierzy M . Jeżeli takie podprzestrzenie nie istnieją, zakończ algorytm - równowaga Nasha nie istnieje. 42.

(49) 3.6 Algorytmy Newtona. 4. Rozłóż Φ na trzy macierze n × n wg zależności   X Φ= Y  Z. (3.32). Następnie oblicz P1 = Y X −1. (3.33). P2 = ZX −1. (3.34). Otrzymane macierze P1 , P2 stanowią rozwiązanie równań Riccatiego (2.9) Krok pierwszy przedstawionego algorytmu sprawdza, czy równania (2.11) posiadają stabilizujące rozwiązanie. W krokach 2) i 3) badamy, czy macierz M posiada stabilną podprzestrzeń grafową, natomiast krok 4) wyznacza rozwiązania (2.9). W przypadku, gdy M posiada więcej niż jedną stabilną podprzestrzeń grafową o rozmiarze n×n, oznacza to, iż gra posiada więcej niż jedną parę strategii w równowadze Nasha (inaczej mówiąc, rozwiązanie istnieje, ale nie jest jedyne). Postępując jak w kroku 4 dla każdej z nich, można wyznaczyć wszystkie strategie pozostające w tej równowadze. Łatwo zauważyć, że maksymalna ilość możliwych 2n par strategii stanowiących równowagę Nasha wynosi - związane jest to z n ograniczoną ilością wektorów własnych macierzy M . Niepodważalną zaletą metody Engwerdy jest możliwość uzyskania dokładnych rozwiązań równań (2.9). Jednakowoż, metoda ta ma bardzo dużą złożoność obliczeniową, związaną z rosnącą ponadwykładniczo ilością kombinacji wektorów własnych macierzy M , jak również z koniecznością obliczania wartości i wektorów własnych dużych macierzy. Z tego względu dla problemów o dużym rozmiarze metoda ta jest stosunkowo mało użyteczna.. 3.6. Algorytmy Newtona. W przeciwieństwie do metody Engwerdy, metody iteracyjne bazują na ciągu przybliżeń rozwiązania równań (2.9). Ich zaletą jest mniejsza złożoność obliczeniowa (związana z pożądaną dokładnością rozwiązania), jak również - w niektórych przypadkach - możliwość postawienia mniej rygorystycznych założeń co do rozwiązywanego problemu.. 43.

(50) 3.6 Algorytmy Newtona. Znane metody iteracyjne rozwiązywania równań Riccatiego związanych z grami LQ opierają swe działanie na uogólnionej metodzie Newtona. Jest to metoda bardzo szeroko opisywana w literaturze, również w języku polskim (zob. np. [40] str. 207-209, [23] str. 126-130, lub [85] str. 372-379), i ze względu na kwadratową zbieżność, chętnie stosowana. Wykorzystanie tej metody w poszukiwaniu rozwiązania gry liniowo-kwadratowej jest ściśle związane z pojęciem systemu dodatniego, które zostanie omówione dalej.. 3.6.1. Systemy dodatnie. Liniowy, ciągły system dodatni definiujemy w następujący sposób (za [39]) Definicja 3.6.1 Liniowy, ciągły system dynamiczny nazywać będziemy dodatr n nim, jeżeli dla każdego sterowania u ∈ R+ i warunku początkowego x0 ∈ R+ , m wyjście systemu y ∈ R+ dla każdego t ≥ 0 Zauważmy od razu, że w przypadku rozważanych gier dynamicznych wyjście systemu utożsamiamy z jego stanem. Zatem, dla naszych zastosowań, powyższa definicja jest równoważna definicji zakładającej dodatniość stanu w miejsce wyjścia. Ze względu na wielość zastosowań i szerokie możliwości interpretacji fizycznej, systemy dodatnie są przedmiotem wielu prac naukowych dotyczących analizy ich własności (zob. np. [95], [80], [97], lub prace T. Kaczorka, np. [63], [61], [62]). Nieujemność zmiennych stanu jest immanentną cechą systemów dynamicznych spotykanych np. w elektrotechnice (zob. np. [12]), biologii czy fizyce. Problematyką systemów dodatnich w teorii gier liniowo kwadratowych stykamy się w pracach takich jak [58] czy [26], poniższe definicje zaczerpnięto z pierwszej z nich. Definicja 3.6.2 Macierz rzeczywistą A ∈ Rn×n nazywamy Z-macierzą, jeżeli istnieje s ∈ R oraz C ∈ Rn×n , C ≥ 0 takie, że A = sIn×n − C, gdzie In×n oznacza macierz jednostkową. Wyrażenie C ≥ 0 jest stosowane tutaj w znaczeniu, że każdy element macierzy jest nieujemny. Innymi słowy, w Z-macierzy wszystkie elementy poza diagonalą są ujemne lub zerowe. Dla tak zdefiniowanej Z-macierzy prawdziwe jest następujące twierdzenie:. 44.

(51) 3.6 Algorytmy Newtona. Twierdzenie 3.6.1 Jeżeli macierz −A gry liniowo-kwadratowej postaci (1.3) jest Z-macierzą, a ponadto Bi ≥ 0, i = 1, 2, . . . , to system (1.3) jest systemem dodatnim. Uwaga Założenie powyższego twierdzenia jest równoważne sytuacji, gdy macierz A jest tzw. macierzą Metzlera (zob. np. [95]). Dalej zdefiniujmy dodatkowo M -macierz Definicja 3.6.3 Macierz rzeczywistą A ∈ Rn×n nazywamy M -macierzą, jeżeli jest ona Z-macierzą, i dodatkowo s > ρ(A), gdzie ρ : Rn×n → R+ stanowi promień spektralny macierzy A Przy tak postawionych definicjach udowodnić można (zob. [13], [14]) następujące własności Twierdzenie 3.6.2 Jeżeli macierz A jest Z-macierzą, to następujące sformułowania są równoważne: • A jest M -macierzą • A−1 > 0 • Av > 0 dla każdego wektora v > 0 • −A jest asymptotycznie stabilna. 3.6.2. Metoda Newtona. Możliwości wykorzystania metody Newtona do rozwiązywania gier LQ zostały przedstawione w pracy [76]. W ogólności, metoda ta bazuje na następującym schemacie iteracyjnym Xn+1 = Xn − R0 (Xn )−1 R(Xn ). (3.35). gdzie X - zmienna macierzowa w rozwiązywanym równaniu R(X) = 0, n = 1, 2, . . . . Zakładamy, że R jest różniczkowalne, oraz że pochodna R0 stanowi macierz odwracalną w każdym punkcie dziedziny.. 45.

(52) 3.6 Algorytmy Newtona. Interpretacja równania (3.35) jest następująca - w punkcie Xn stanowiącym nte przybliżenie rozwiązania, poszukujemy stycznej do wykresu wartości R(Xn ), a następnie jako kolejne przybliżenie Xn+1 traktujemy punkt przecięcia tej stycznej z osią odciętych.. Rysunek 3.5: Przykład działania metody Newtona dla X ∈ R. Aby przy wykorzystaniu metody Newtona znaleźć rozwiązanie gry LQ, różniczkujemy równania Riccatiego (2.9), otrzymując R10 (P1 ) = (AT − S1 P1 ) + (A − S1 P1 − S2 P2 ) R20 (P2 ) = (AT − S2 P2 ) + (A − S1 P1 − S2 P2 ). (3.36). Po podstawieniu (3.36) do (3.35) oraz krótkich przekształceniach otrzymamy schemat iteracyjny postaci: (AT − P1j−1 S1 )P1j + P1j (A − S1 P1j−1 − S2 P2j−1 ) + Q1 + P1j−1 S1 P1j−1 = 0 (AT − P2j−1 S2 )P2j + P2j (A − S1 P1j−1 − S2 P2j−1 ) + Q2 + P2j−1 S2 P2j−1 = 0 Udowodnić można następujące dwa twierdzenia (zob. [58]). 46. (3.37).