Andrzej Grzybowski (Częstochowa), Zdzisław Porosiński, Krzysztof J. Szajowski (Wrocław)
Zagadnienia optymalnego sterowania w pracach Stanisława Trybuły
Streszczenie. W pewnym okresie Trybuła zwrócił uwagę na zagadnienia adaptacyjnego sterowania (patrz [20, 21]). Wydaje się, że zainspirowała Go monografia Aoki [1]. Do tematu wrócił po dość długim czasie. Zauważył, że w literaturze zakłada się, iż zakłó- cenia w systemach stochastycznych mają charakter gaussowski, podczas gdy w praktyce sygnały, a więc i zakłócenia, są dyskretne. Przypominamy tutaj typowy model analizo- wany w tej serii prac jako, że współczesne zastosowania modeli liniowych w ekonomii i technice wymuszają sygnały zarówno typu ciągłego, jak i dyskretne. Ograniczymy się do szczegółowego przedstawienia konstrukcji sterowań bayesowskich przy kwadratowej funk- cji kosztu i zakłóceniach z wykładniczej klasy, spełniających dodatkowe warunki nałożone na momenty. W konkluzji podajemy odsyłacze do prac, w których wyznaczono sterowania minimaksowe.
Słowa kluczowe: system liniowy, zakłócenia addytywne, wykładnicza klasa rozkładów, sterowanie bayesowskie, sterowanie minimaksowe.
1. Wprowadzenie. Rozważamy system liniowy o skończenie wymiaro- wej przestrzeni stanów opisany równaniem
(1) x ¯
n+1= a
nx ¯
n+ b
nu ¯
n+ c
nv ¯
n, n = 0, N − 1,
gdzie ¯ x
njest stanem systemu, ¯ u
nsterowaniem a ¯ v
nzakłóceniem w chwili n; ¯x
·, ¯ u
·i ¯ v
·są m-wymiarowymi wektorami, a a
·, b
·, c
·są macierzami m × m. Horyzont sterowania N jest zmienną losową, niezależną od zmiennych losowych ¯ v
0, ¯ v
1, . . ., o rozkładzie
(2) P {N = k} = p
k, k = 0, M ,
Mk=0
p
k= 1, p
M= 0.
Dopuszczone w modelu zakłócenia ¯ v
nz założenia są wektorami losowymi o wartościach w k-wymiarowej przestrzeni liniowej V ⊂
m(1 ≤ k ≤ m),
[97]
a macierze c
nsą takie, że dla
z ∈ c ¯
n(V ) = {¯z ∈
m: ∃¯v ∈ V c
nv = ¯z} ¯
równanie liniowe c
nv ¯
n= ¯ z ma dokładnie jedno rozwiązanie ¯v
n, n = 0, M . Bez straty ogólności można przyjąć, że ¯ v
njest postaci ¯ v
n= (v
1n, v
n2, . . . , v
nk, 0, . . . , 0)
T. Wektory ¯ v
n, n = 0, M są niezależne, o tym samym rozkładzie ze składowymi v
in, mającymi rozkłady z wykładniczej klasy z parametrem λ
i, i = 1, k. Dla różnych i rozkłady te mogą pochodzić z różnych rodzin.
W pracy stosowane są następujące oznaczenia: X
n= (¯ x
0, ¯x
1, . . . , ¯x
n);
U
n= (¯ u
0, ¯u
1, . . . , ¯u
n); U
n= (¯ u
n, ¯u
n+1, . . . , ¯u
M); λ = (λ
1, λ
2, . . . , λ
k, 0, . . . . . . , 0)
T; U = U
M.
Zakładamy, że w chwili n zarówno X
njaki i U
n−1są znane, a sterowanie u ¯
njest od tych informacji zależne. Tak długo, jak żadne obserwacje nie są znane, sterowanie ¯ u
njest losowym wektorem zależnym od zmiennych loso- wych ¯ v
0, ¯v
1, . . . , ¯v
n−1. Przyjmujemy następującą funkcję kosztu sterowania dla ustalonej polityki U :
L(U, X
N) =
N i=0(¯ y
iTs
iy ¯
i+ ¯ u
Tik
iu ¯
i)
gdzie, dla i = 0, M , s
isą nieujemnie określonymi macierzami o wymiarze 2m × 2m, k
isą nieujemnie określone o wymiarach m × m, a ¯y
i= (¯ x
Ti, ¯λ
T)
Tsą wektorami o 2m składowych. Ryzyko zastosowania sterowania U (wartość oczekiwana funkcji straty), gdy wartość parametru ¯ λ jest znana, wynosi
R(¯λ, U) = E
pE
λL(U, X
N) = E
pE
λN i=0
(¯ y
iTs
iy ¯
i+ ¯ u
Tik
iu ¯
i) |X
0Jeśli znany jest rozkład a priori π parametru ¯ λ, to oczekiwane ryzyko r, związane z rozkładem a priori π parametru ¯ λ i sterowaniem U wynosi
r(π, U) = E
π[R(¯ λ, U)] = E
pE
N
i=0
(¯ y
Tis
iy ¯
i+ ¯ u
Tik
iu ¯
i)|X
0,
gdzie E
·oznacza wartość oczekiwaną odpowiednio: E
pwzględem rozkładu N, E
¯λwzględem rozkładu zmiennych losowych ¯ v
0, ¯ v
1, . . . (przy ustalonym, znanym parametrze ¯ λ), E
πwzględem rozkładu π, a E względem łącznego rozkładu ¯ v
ni ¯ λ.
Niech stan początkowy będzie ¯ x
0, a parametr ¯ λ ma rozkład a priori π.
Definicja 1.1. Sterowanie U
∗nazywamy bayesowskim, jeśli r(π, U
∗) = inf
U∈Dπ
r(π, U),
gdzie D
πjest zbiorem sterowań U , dla których ryzyko r(π, U ) jest dobrze
określone.
Do rodziny rozpatrywanych modeli zakłóceń należą takie rozkłady (patrz [8, 7]), jak dwumianowy, Poissona, normalny, gamma, ujemno-dwumianowy i secans hiperboliczny (patrz Harkness i Harkness [4]). Bliższe informacje o tych rozkładach przypomnimy w następnym rozdziale. Problem wyzna- czenia sterowania bayesowskiego dla sprzężonej rodziny rozkładów a priori parametru ¯ λ przedstawimy w rozdziale 3. Jednowymiarowe zadania stero- wania bayesowskiego zostały omówione w pracach [18, 16].
2. Filtracja. Odtwarzanie zakłóceń na podstawie obserwacji sta- nów. Zakładamy, że zakłócenia mają rozkład z wykładniczej klasy o tej własności, że wariancja jest kwadratową funkcją wartości oczekiwanej [7, 9, 8, 12, 13, 14]. Uściślając, zakładamy, że ¯ v
nma rozkład o gęstości p(¯ v
n, ¯λ) względem pewnej skończenie addytywnej miary μ na
mpostaci
(3) p(¯v
n, ¯λ) =
k i=1p(v
ni, λ
i),
gdzie p(v
ni, λ
i) = S
i(v
in, q
i) exp {q
iA
i(λ
i) + v
niB
i(λ
i) }, q
i∈ Q
∗i, v
ni∈ V
i∗, i = 1, k. Oznacza to, iż rozkład składowych wektora ¯v
nnależy do rodziny wykładniczej lub jest równy 0 (Q
i, V
i, A
i(·) oraz B
i(·) są podane w Tabeli 1.
Parametryzacja rozkładów jest taka, że E
¯λ(v
ni) = −q
iA
i(λ
i)
B
i(λ
i) = q
iλ
i, dla pewnego q
i> 0 i taka, że
E
¯λ(v
in)
2= q
1,iλ
2i+ q
2,iλ
i+ q
3,i, gdzie q
1,i, q
2,i, q
3,isą pewnymi stałymi.
Niech ¯ v
nma rozkład o gęstości (3) z nieznanym parametrem ¯ λ. Przyj- mujemy, że parametr ¯ λ ma rozkład a priori π sprzężony do rozkładu (3).
Oznacza to, że gęstość rozkładu π ma postać:
(4) g(¯λ; ¯ β, ¯r) =
k i=1g
i(λ
i; β
i, r
i), gdzie
g
i(λ
i; β
i, r
i) = C
i(β
i, r
i)B
i(λ
i) exp {β
iA
i(λ
i) + r
iB
i(λ
i) },
a (β
i, r
i) ∈ S
ioraz ¯ λ ∈ Λ = B
−1(Λ
0), Λ
0jest przestrzenią naturalnych wartości parametrów (zależną od typu rozkładu).
Wyznaczenie sterowań bayesowskich poprzedzimy obliczeniem rozkła- dów a posteriori parametru ¯ λ w chwili otrzymania nowej obserwacji. Jest to możliwe, jeśli macierz c
njest taka, że równanie
(5) c
n¯ v
n= ¯ x
n+1− a
nx ¯
n− b
nu ¯
n, przy zadanym ¯ x
0Tabela 1.
ma jednoznaczne rozwiązanie dla n = 0, N − 1. Gęstość rozkładu a poste- riori f (¯ λ|X
n, U
n−1) parametru ¯ λ, gdy mamy do dyspozycji obserwacje X
noraz zastosowane sterowania U
n, dana jest wzorem (4) w postaci
f (¯λ|X
n, U
n−1) = f (¯ λ|V
n−1) = g(¯ λ| ¯β
n, ¯r
n),
gdzie V
n−1= (¯ v
0, ¯v
1, . . . , ¯v
n−1), a ¯ β
ni ¯ r
nspełniają rekurencyjne zależności:
β ¯
n= ¯ β
n−1+ ¯ q = ¯ β + n¯q, ¯ r
n= ¯ r +
n−1j=0
v ¯
jz warunkiem początkowym ¯ r
0= ¯ r.
Z pracy [7] wiadomo, że do klasy rozkładów wykładniczych z warian- cją, która jest trójmianem kwadratowym średniej, należą rozkłady: dwu- mianowy, gamma, uogólniony secans hiperboliczny, ujemny dwumianowy, normalny i Poissona. Dla wszystkich tych rozkładów, gdy zakłócenia wy- znaczone są jednoznacznie, mamy
(6) E(λ
i|X
n, U
n−1) = T
n,ir
in= r
in/β
ni,
E(λ
2i|X
n, U
n−1) = T
1n,i(r
in)
2+ T
2n,ir
ni+ T
3n,i,
gdzie T
jn,i, j = 1, 2, 3, n = 0, M , są stałymi zależnymi od β
i, i = 1, k.
Rozkład warunkowy zakłóceń ¯ v
n, przy zaobserwowanym X
ni sterowa- niach U
n−1, ma gęstość, którą dla kilku szczególnych przypadków wyznaczył Trybuła w [15], postaci
h(¯v|X
n, U
n−1) =
k i=1h
i(v
i|X
n, U
n−1), gdzie
h
i(v
i|X
n, U
n−1) = S
i(v
i, q
i) C
i(β
ni, r
ni) C
i(β
n+1i, r
n+1i) , przy i = 1, k, n = 0, M − 1. Mamy wówczas
(7) E(v
in|X
n, U
n−1) = Q
n,ir
in,
E[(v
ni)
2|X
n, U
n−1] = Q
n,i1(r
in)
2+ Q
n,12r
in+ Q
n,i3,
przy pewnych stałych Q
n,ij, j = 1, 2, 3, n = 0, M , zależnych od parametrów β
i, i = 1, k. Stałe T
jn,i, Q
n,ij, j = 1, 2, 3, i = 1, k, są podane w Tabeli 1.
W dalszej części będziemy używać następujących oznaczeń na wektor:
ξ = (ξ ¯
1, ξ
2, . . . , ξ
m)
Ti na macierz przekątniową:
ξ =
⎛
⎜ ⎜
⎝
ξ
10 · · · 0 0 ξ
2· · · 0 .. . .. . . . . .. . 0 0 · · · ξ
m⎞
⎟ ⎟
⎠ .
Jeśli A = (a
ij)
m×m, to
diag A =
⎛
⎜ ⎜
⎝
a
110 · · · 0 0 a
22· · · 0 .. . .. . . . . .. . 0 0 · · · a
mm⎞
⎟ ⎟
⎠ ,
a ¯ e = (e
1, e
2, . . . , e
m)
T, gdzie e
i= 1 dla i = 1, k i e
i= 0 dla i = k + 1, m.
3. Wyznaczanie sterowania bayesowskiego. Załóżmy, że dany jest stan początkowy ¯ x
0, zakłócenia mają rozkład o gęstości (3), a rozkład a priori π parametru ¯ λ jest postaci (4). Załóżmy ponadto, że losowy horyzont sterowania ma rozkład (2). Rozważamy problem sterowania bayesowskiego systemem (1) od chwili n, w której znane są X
ni U
n−1. Wówczas oczekiwane ryzyko ma postać
(8) r
n= r
n(π, U
n) = E
pE
Ni=n
y ¯
Tis
iy ¯
i+ ¯ u
Tik
iu ¯
iX
n, U
n−1N ≥ n
. Oznaczając
ϕ
k=
M i=kp
i, otrzymamy
r
n=
M k=nE
ki=n
(¯ y
Tis
iy ¯
i+ ¯ u
Tik
iu ¯
i) X
n, U
n−1p
kϕ
n= E
Mi=n
ϕ
iϕ
n(¯ y
iTs
iy ¯
i+ ¯ u
Tik
iu ¯
i) X
n, U
n−1. Ryzyko bayesowskie dla tak obciętego problemu wynosi
W
n= inf
Un
r
n(π, U
n) = r
n(π, U
n∗),
gdzie U
n∗= (¯ u
∗n, . . . , ¯u
∗M) jest polityką bayesowską, a ¯ u
∗i, i = n, M , są ste- rowaniami bayesowskimi. Oczywiście r
0(π, U
0) = r(π, U ) i W
0= r(π, U
∗).
Aby rozwiązać problem sterowania bayesowskiego, wyznaczymy stero- wania ¯ u
∗nrekurencyjnie dla n = M, 0. Wówczas U
0∗będzie rozwiązaniem problemu. Z zasady optymalności Bellmana programowania dynamicznego otrzymujemy następujący lemat.
Lemat 3.1. Ryzyko bayesowskie w rozważanym problemie spełnia rów- nanie
W
n= min
¯un
x ¯
Tns
1nx ¯
n+ 2¯ r
nTT
ns
3nx ¯
n(9)
+ ¯ r
nT[T
ns
2nT
n+ (T
1n− (T
n)
2) diag s
2n]¯ r
n+ (T
2n)
Tdiag s
2nr ¯
n+ ¯ e
Tdiag s
2nT
3n+ ¯ u
Tnk
nu ¯
n+ ϕ
n+1ϕ
nE(W
n+1| X
n, U
n−1)
z warunkiem
W
M= ¯ x
TMs
1Mx ¯
M+ 2¯ r
TMT
Ms
3Mx ¯
M(10)
+ ¯ r
TMT
Ms
2MT
M+ (T
1M− (T
M)
2) diag s
2M¯ r
M+ (T
2M)
Tdiag s
2M¯ r
M+ ¯ e
Tdiag s
2MT
3M,
gdzie s
i=
s
1i(s
3i)
Ts
3is
2iDow´ od. Ponieważ dla n = M W
M= min
¯uM
E
y ¯
TMs
My ¯
M+ ¯ u
TMk
Mu ¯
M|X
M, U
M−1(11)
= E
y ¯
TMs
My ¯
M|X
M, U
M−1,
to ¯ u
∗M= ¯ 0. Dla n = M − 1, 0, z (8) i z własności warunkowej wartości oczekiwanej otrzymujemy
W
n= min
Un
r
n= min
Un
E[¯y
Tns
ny ¯
n+ ¯ u
Tnk
nu ¯
n] |X
n, U
n−1+ E
M i=n+1
ϕ
iϕ
n(¯ y
iTs
iy ¯
i+ ¯ u
Tik
iu ¯
i) |X
n, U
n−1= min
¯un
u ¯
Tnk
nu ¯
n+ E(¯y
Tns
ny ¯
n)|X
n, U
n−1+ min
Un+1
E
ϕ
n+1ϕ
nE
M
i=n+1
ϕ
iϕ
n+1(¯ y
iTs
iy ¯
i+ ¯ u
Tik
i¯ u
i)|X
n+1, U
n|X
n, U
n−1.
Tak więc
(12) W
n= min
¯un
u ¯
Tnk
nu ¯
n+ E(¯y
nTs
ny ¯
n|X
n, U
n−1) + ϕ
n+1ϕ
nE(W
n+1|X
n, U
n−1)
.
Wyznaczymy teraz E(¯y
Tns
ny ¯
n|X
n, U
n−1) dla n = M, 0. Stosując (6),
otrzymujemy
(13)
E
x ¯
Tns
1nx ¯
n|X
n, U
n−1= ¯ x
Tns
1nx ¯
n, E
λ
Ts
3nx ¯
n|X
n, U
n−1= ¯ r
nTT
ns
3nx ¯
n,
E(λ
Ts
2n¯ λ|X
n, U
n−1) = (T
n¯ r
n)
T(s
2n− diag s
2n)(T
nr ¯
n) + ¯ r
nTT
1ndiag s
2nr ¯
n+ (T
2n)
Tdiag s
2nr ¯
n+ ¯ e
Tdiag s
2nT
3n= ¯ r
Tn[T
ns
nT
n+ (T
1n− (T
n)
2) diag s
2n]¯ r
n+ (T
2n)
Tdiag s
2n¯ r
n+ ¯ e
Tdiag s
2nT
3n.
Wykorzystując powyższą równość i równanie (1) można zapisać formuły (11) i (12) odpowiednio w postaci (9) i (10).
Wykorzystujemy ten lemat do indukcyjnego dowodu, że sterowanie bay- esowskie ¯ u
∗nspełnia równanie
2k
nu ¯
∗n+ grad
u¯nϕ
n+1ϕ
nb
TnE(W
n+1|X
n, U
n−1)
¯un=¯u∗n
= ¯ 0, które można przedstawić równoważnie jako
(14) 2k
nu ¯
∗n+ ϕ
n+1ϕ
nb
TnE(grad
¯xn+1W
n+1|X
n, U
n−1)
¯un=¯u∗n
= ¯ 0.
Wykażemy, że ryzyko bayesowskie W
nma postać
(15) W
n= ¯ x
TnA
n¯ x
n+ 2¯ r
nTB
nx ¯
n+ ¯ r
nTC
nr ¯
n+ ¯ D
nTr ¯
n+ E
n,
gdzie A
n, B
n, C
nsą macierzami stopnia m, ¯ D
njest wektorem o m składo- wych, a E
n— stałą.
Istotnie, jest tak dla n = M i
(16)
A
M= s
1M, B
M= T
Ms
3M,
C
M= T
Ms
2MT
M+ (T
1M− (T
M)
2) diag s
2M, D ¯
MT= (T
2M)
Tdiag s
2M, E
M= ¯ e
Tdiag s
2MT
3M. Wzory (15) i (14) prowadzą do równania
k
nu ¯
∗n+ ϕ
n+1ϕ
nb
Tn[A
n+1(a
nx ¯
n+ b
nu ¯
∗n) + A
n+1c
nQ
n¯ r
n+ B
n+1T(e + Q
n)¯ r
n] = ¯ 0 lub
(17)
k
n+ ϕ
n+1ϕ
nb
TnA
n+1b
nu ¯
∗n= − ϕ
n+1ϕ
nb
TnA
n+1a
nx ¯
n− ϕ
n+1ϕ
nb
Tn[A
n+1c
nQ
n+ B
n+1T(e + Q
n)]¯ r
n.
Załóżmy, że równanie (17) ma dokładnie jedno rozwiązanie ¯ u
∗n(np. wy-
starczy założyć, że macierz k
njest odwracalna). Wówczas sterowanie bay-
esowskie ¯ u
∗nma postać
u ¯
∗n= −ξ
nx ¯
n− η
nr ¯
n, gdzie
(18)
ξ
n= ϕ
n+1ϕ
nk
n+ ϕ
n+1ϕ
nb
TnA
n+1b
n +b
TnA
n+1a
n,
η
n= ϕ
n+1ϕ
nk
n+ ϕ
n+1ϕ
nb
TnA
n+1b
n +b
TnA
n+1c
nQ
n+ B
n+1T(e + Q
n) a F
+jest macierzą pseudoodwrotną Moore’a-Penrose’a macierzy F .
Z (15) i (7) otrzymujemy
E (W
n+1|X
n, U
n−1) = (a
nx + b ¯
nu ¯
∗n)
TA
n+1(a
nx ¯
n+ b
nu ¯
∗n) (19)
+ (a
nx ¯
n+ b
nu ¯
∗n)
T(A
n+1+ A
Tn+1)c
nQ
nr ¯
n+ E(¯v
nTc
TnA
n+1c
nv ¯
n|X
n, U
n−1)
+ 2
r ¯
nT(e + Q
n)B
n+1(a
nx ¯
n+ b
nu ¯
∗n) + ¯ r
nTB
n+1c
nQ
n¯ r
n+ E(¯v
TnB
n+1c
n¯ v
n|X
n, U
n−1)
+ ¯ r
TnC
n+1r ¯
n+ ¯ r
nT(C
n+1+ C
n+1T)Q
nr ¯
n+ E(¯v
nTC
n+1v ¯
n|X
n, U
n−1) + ¯ D
n+1T(e + Q
n)¯ r
n+ E
n+1.
Warunkową wartość oczekiwaną dla ¯ v
nTc
TnA
n+1c
nv ¯
n, ¯ v
nTB
n+1c
n¯ v
n, v ¯
TnC
n+1v ¯
nprzy ustalonych X
n, U
n−1, można obliczyć analogicznie jak w (13) (20) E(¯v
TnF ¯v
n|X
n, U
n−1) = ¯ r
Tn(Q
n)
TF Q
n+ (Q
n1− (Q
n)
2) diag F r ¯
n+(Q
n2)
Tdiag F ¯ r
n+ ¯ e
Tdiag F Q
n3, gdzie F jest odpowiednio równe c
TnA
n+1c
n, B
n+1c
n, C
n+1.
Z drugiej strony, wykorzystując (12), otrzymujemy (21) W
n= ¯ u
∗nTk
nu ¯
∗n+ E(¯ y
nTs
ny ¯
n|X
n, U
n−1) + ϕ
n+1ϕ
nE(W
n+1|X
n, U
n−1).
Z kolei (13), (18), (19) i (20) pozwala przekształcić W
nz postaci (21) do wzoru (15) z parametrami
A
n= ϕ
n+1ϕ
na
TnA
n+1(a
n− b
nξ
n) + s
1n, B
n= ϕ
n+1ϕ
nQ
nc
TnA
n+1+ (e + Q
n)B
n+1(a
n− b
nξ
n) + T
ns
3n, C
n= ϕ
n+1ϕ
nη
Tnb
TnA
n+1b
nη
n− 2η
Tnb
TnA
n+1c
nQ
n− 2(e + Q
n)B
n+1b
nη
n+ 2B
n+1c
nQ
n+ C
n+1+ (C
n+1+ C
n+1T)Q
n+ Q
n(c
TnA
n+1c
n+ 2B
n+1c
n+ C
n+1)Q
n(22)
+ (Q
n1− (Q
n)
2) diag(c
TnA
n+1c
n+ 2B
n+1c
n+ C
n+1) + η
Tnk
nη
n+ T
ns
2nT
n+ (T
1n− (T
n)
2) diag s
2n,
D ¯
Tn= ϕ
n+1ϕ
n(Q
n2)
Tdiag(c
TnA
n+1c
n+ 2B
n+1c
n+ C
n+1)
+ ¯ D
n+1T(e + Q
n)
+ (T
2n)
Tdiag s
2n, E
n= ϕ
n+1ϕ
ne ¯
Tdiag(c
TnA
n+1c
n+ 2B
n+1c
n+ C
n+1)Q
n+ E
n+1+ ¯ e
Tdiag s
2nT
3n,
gdzie ξ
ni η
nsą dane wzorem (18). W obliczeniach wykorzystuje się właści- wość symetrii macierzy A
n.
Otrzymujemy więc
Twierdzenie 3.2. Dla m-wymiarowego systemu linowego (1) z zakłóce- niami mającymi rozkład należący do rodziny wykładniczej z wariancją bę- dącą kwadratową funkcją średniej (3), zależnymi od nieznanego parametru λ o rozkładzie a priori (4) i losowego ograniczonego horyzontu sterowania ¯ N, niezależnego od zakłóceń, sterowanie bayesowskie ¯u
∗nistnieje i jest dane przez (18). Ryzyko bayesowskie jest określone wzorem (15), gdzie A
n, B
n, C
n, ¯ D
nT, E
nsą obliczane rekurencyjnie z (22) z warunkiem początkowym (16).
4. Sterowania minimaksowe. W latach 1985–1989 Trybuła opubliko- wał szereg prac poświęconych problemom minimaksowego sterowania ukła- dami stochastycznymi. Były w nich rozważane zarówno problemy dotyczące układów dyskretnych jak i ciągłych, tak jedno-, jak i wielowymiarowych.
Stosowane przez Niego metody wyznaczania sterowań minimaksowych opie- rały się głównie na teorii statystycznych funkcji decyzyjnych, w szczególno- ści na twierdzeniach podających związki pomiędzy regułami bayesowskimi i minimaksowymi oraz na twierdzeniach minimaksowych znanych z teorii gier o sumie zerowej. Zanim przedstawimy przykład ilustrujący stosowaną przez Profesora metodologię rozwiązywania problemów minimaksowego ste- rowania, przypomnimy definicje minimaksowych i Γ -minimaksowych polityk sterowania.
Definicja 4.1. Politykę sterowania U
Mnazywamy minimaksową, jeśli
(23) sup
λ∈Λ
R(λ, U
M) = inf
U∈D
sup
λ∈Λ
R(λ, U),
gdzie D jest zbiorem sterowań U, dla których ryzyko R(λ, U) jest skończone dla każdej wartości parametru λ ∈ Λ.
Przypuśćmy, że nasza wiedza a priori ogranicza sie do faktu, że nieznany
rozkład a priori π parametru λ należy do ustalonej klasy rozkładów, którą
oznaczymy jako Γ .
Definicja 4.2. Politykę sterowania U
Γnazywamy Γ -minimaksową jeśli
(24) sup
π∈Γ
r(π, U
Γr) = inf
U∈DΓ
π∈Γ
sup r(π, U),
gdzie D
Γjest zbiorem sterowań U , dla których ryzyko r(π, U ) jest dobrze określone dla każdego π ∈ Γ .
W celu zaprezentowania stosowanej przez Trybułę metodologii poka- żemy rozwiązanie problemu minimaksowego sterowania układem (1), dla którego bayesowskie polityki sterowania wyznaczono w poprzednich sekcjach tej pracy. W tej części przyjmiemy, że wszystkie współrzędne wektora zakłó- ceń mają rozkład należący do tej samej rodziny wykładniczej z nieznanym (wspólnym) parametrem λ. Przyjmiemy także, iż wektor zakłóceń jest tego samego wymiaru, co wektory stanów i sterowań. W konsekwencji (jednowy- miarowe) rozkłady a posteriori, otrzymane analogicznie jak poprzednio dla sprzężonych rozkładów a priori z parametrami r i β, wyrażają się wzorem:
f (λ|X
n, U
n−1) = f (λ |V
n−1) = g(λ |β
n, r
n),
w którym, dla n = 1, M − 1, parametry β
ni r
nsą określone nastepująco:
β
n= β + n
m i=0q
i,
r
n= r +
n−1
j=0
m i=1v
ijz warunkiem początkowym r
0= r.
Oczywiście zarówno postać sterowań bayesowskich jak i ich ryzyka bay- esowskiego jest taka jak poprzednio i może zostać wyrażona wzorami (15) oraz (10). Jednak na potrzeby dowodów twierdzeń podających sterowania minimaksowe i Γ -minimaksowe, sterowania bayesowskie zapiszemy w tym przypadku w postaci:
(25) u ¯
∗n= −ξ
nx ¯
n− θ
nr
nβ
n,
w której jawnie wydzielimy czynnik r
n/β
nbędący warunkową wartością oczekiwaną parametru λ (patrz wzór (7)). Zmienimy również zapis ryzyka bayesowskiego rozważanych sterowań, które teraz przedstawimy w postaci:
(26) W
n= ¯ x
TnA
nx ¯
n+ 2B
nx ¯
nr
nβ
n+ C
nr
2n+ D
nr
n+ E
n.
W związku z tą zmianą zapisu sterowań bayesowskich i ich ryzyka oraz
wobec zmiany niektórych założeń przyjętych o naturze stochastycznej rozwa-
żanego układu sterowania otrzymujemy następujące nowe formuły na współ-
czynniki występujące we wzorze na ryzyko bayesowskie oraz na współczyn- nik θ
npojawiający się w (25):
A
n= ϕ
n+1ϕ
na
TnA
n+1(a
n− b
nξ
n) + s
1n, B
n= ϕ
n+1ϕ
n(¯ q
Tc
TnA
n+1+ B
n+1)(a
n− b
nξ
n) + s
3n, C
n= s
2nT
1n+ ϕ
n+1ϕ
n{[¯q
Tc
TnA
n+1c
nq ¯
− ¯q
Tdiag(c
TnA
n+1c
n)¯ q]T
1n+ (
Q ¯
n1)
Tdiag(c
TnA
n+1c
n)
Q ¯
n1− (¯q
Tc
TnA
n+1+ B
n)b
nθ
nβ
n−2+ 2β
n+1−1B
n+1c
n[β
n−1q + (¯q¯q ¯
.− ¯q
2)T
1n+ ¯ Q
n1] + C
n+1[1 + 2 q
.β
n+ (¯ q
.2− ¯q
Tq)T ¯
1n+ ¯ Q
n,.1]}, D
n= s
2nT
2n+ ϕ
n+1ϕ
n{¯q
Tc
TnA
n+1c
nqT ¯
2n− ¯q
Tdiag (c
TnA
n+1c
n)¯ qT
2n+ (
Q ¯
n2)
Tdiag (c
TnA
n+1c
n)
Q ¯
n2+ 2β
n+1−1B
n+1c
n[(¯ q¯q
.− ¯q
2)T
2n+ ¯ Q
n2] C
n+1[(¯ q¯q
.− ¯q
2)T
2n+ ¯ Q
n2] + D
n+1(1 + q ¯
.β
n) }, E
n= s
2nT
3n+ ϕ
n+1ϕ
n{¯q
Tc
TnA
n+1c
nqT ¯
3n− ¯q
Tdiag (c
TnA
n+1c
n)¯ qT
3n+ (
Q ¯
n3)
Tdiag (c
TnA
n+1c
n)
Q ¯
n3+ 2β
n+1−1B
n+1c
n[(¯ q¯q
.− ¯q
2)T
3n+ ¯ Q
n3] C
n+1[(¯ q¯q
.− ¯q
2)T
3n+ ¯ Q
n3] + E
n+1}, θ
n= ϕ
n+1ϕ
nk
n+ ϕ
n+1ϕ
nb
TnA
n+1b
n +b
Tn[A
n+1c
nq + B ¯
n+1T].
Warunki początkowe dla tych równań są następujące: A
M= s
1M, B
M= s
3M, C
M= s
2MT
1M, D
M= s
2MT
2M, D
M= s
2MT
3M.
W powyższych wzorach współrzędnymi m wymiarowych wektorów ¯ Q
nk,
oraz ¯ q są odpowiednio Q
n,iki q
i, i = 1, m, k = 1, 2, 3. Tu, i dalej w pracy, sym-
bol wektora z kropką umieszczoną w miejsce indeksu współrzędnej oznacza
sumę wszystkich jego współrzędnych, dowolna zaś potęga wektora (a więc
i pierwiastek) oznacza wektor odpowiednich potęg współrzędnych tego wek-
tora. Ze względu na fakt, że w rozważanym obecnie przypadku λ
i= λ, i = 1, m, w zapisie stałych T
kn,i, k = 1, 2, 3, opuszczamy indeks i.
Kolejnymi etapami na drodze do otrzymania sterowań minimaksowych są: wyznaczenie jawnych formuł precyzujących postać funkcji ryzyka stero- wań bayesowskich oraz określenie postaci polityk będących granicami ste- rowań bayesowskich. Jak wiadomo z ogólnej teorii statystycznych funkcji decyzyjnych, sterowania minimaksowe często należą do tej klasy reguł de- cyzyjnych.
4.1. Funkcja ryzyka sterowań bayesowskich. Niech U
β,r∗= (¯ u
∗0, ¯u
∗1, . . . , u ¯
∗M) oraz niech S oznacza zbiór tych wartości (β, r) dla których E
πβ,r(λ
2) <
∞. Wprowadźmy oznaczenie R
n(λ, U
β,r∗) = E
λM
i=n
ϕ
iϕ
n(¯ y
iTs
iy ¯
i+ (¯ u
∗i)
Tk
iu ¯
∗i) | X
n, U
n−1∗. Oczywiście
R(λ, U
β,r∗) = R
0(λ, U
β,r∗).
Korzystając z rekurencyjnego związku:
R
n(λ, U
β,r∗) = ¯ y
Tns
ny ¯
n+ (¯ u
∗n)
Tk
iu ¯
∗n+ ϕ
iϕ
nE
λR
n+1(λ, U
β,r∗) | X
n, U
n−1∗,
możemy wyprowadzić jawne wzory na funkcję ryzyka sterowań bayesow- skich. Okazuje się, że jest ona postaci
(27) R(λ, U
β,r∗) = Z
1(β)λ
2+ Z
2(β, r)λ + Z
3(β, r) ze współczynnikami Z
1, Z
2oraz Z
3określonymi wzorami:
Z
1(β) = κ
(1)0− 2¯q
. M−1i=1
i κ
iβ
i+
M−1
i=1
i¯q
.+ i
2q ¯
.2− i¯q
Tq ¯ κ
iβ
i2, Z
2(β, r) = 2B
0x ¯
0+ κ
(2)0− 2rβ
M−1
i=1
κ
iβ
i2+
M−1
i=1
i¯q
.(2)κ
iβ
i2, Z
3(β, r) = ¯ x
TA
0x + κ ¯
(3)0+ r
2M−1
i=1
κ
iβ
i2+
M−1
i=1
i ¯q
(3).κ
iβ
i2, gdzie
κ
n= φ
nθ
nTk
nθ
n+ φ
n+1θ
Tnb
TnA
n+1b
nθ
n, κ
(1)n= φ
ns
2n+
M−1
i=n
φ
i+1[¯ q
T]c
TiA
i+1c
iq ¯
− ¯q
Tdiag(c
TiA
i+1c
iq + ( ¯
q ¯
(1))
Tdiag(c
TiA
i+1c
i) q ¯
(1)+ 2B
i+1c
iq + s ¯
2i+1],
κ
(2)n=
M−1
i=n
φ
i+1(
q ¯
(2))
Tdiag(c
TiA
i+1c
i) q ¯
(2),
κ
(3)n=
M−1
i=n
φ
i+1(
q ¯
(3))
Tdiag(c
TiA
i+1c
i) q ¯
(3).
W powyższych wyrażeniach symbol ¯ q
(k)oznacza m wymiarowy wektor o współrzędnych q
k,i, i = 1, . . ., m, k = 1, 2, 3. Pozostałe symbole mają znaczenie nadane im wcześniej.
Ze wzoru (27) wynika, że ryzyko bayesowskie dowolnej polityki sterowa- nia U
β,r∗względem dowolnego rozkładu a priori π, dla którego E
π(λ
2) < ∞, możemy zapisać w postaci:
(28) r(π, U
β,r∗) = Z
1(β)E
π(λ
2) + Z
2(β, r)E
π(λ) + Z
3(β, r).
W szczególności, dla (β, r) ∈ S otrzymujemy:
(29) r(π
β,r, U
β,r∗) = Z
1(β)k(β, r) + Z
2(β, r) r
β + Z
3(β, r), gdzie
k(β, r) = T
10r
2+ T
20r + T
30ze stałymi T
k0, k = 1, 2, 3 danymi w Tabeli 1.
4.2. Granice sterowań bayesowskich. Polityka sterowania U
GBnazywa się granicą polityk bayesowskich, jeżeli istnieje ciąg {U
k}
∞k=1polityk stero- wania bayesowskich względem pewnych rozkładów a priori taki, że U
GB= lim
k→∞U
kz prawdopodobieństwem 1. Wprowadzimy teraz kilka polityk sterowania spełniających taki warunek.
Niech U
a+= (u
+0, u
+1, . . . , u
+M) będzie polityką, której sterowania okre- ślone są wzorem:
u
+M= 0, u
+n= −ξ
nx ¯
n− θ
na, n = 0, M − 1.
Niech U
β,a−= (u
−0, u
−1, . . . , u
−M) będzie polityką, której sterowania okre- ślone są wzorem:
u
−M= 0, u
+0= −ξ
0x ¯
0− θ
0a, u
+n= −ξ
nx ¯
n− θ
nr
n(a)β
n, n = 1, M − 1, gdzie r
n(a)= aβ +
n−1j=1
mi=1
v
ij. Powyższa polityka sterowania jest dobrze określona także dla β = 0. Zauważmy też, że U
β,a−= U
β,aβ∗dla (β, a) ∈ S.
Będziemy pisali, że a ∈ S
1w sytuacji, gdy istnieje ciąg {(γ
k, ρ
k) }
∞k=1, (γ
k, ρ
k) ∈ S, taki, że lim
k→∞ ρkγk
= a. Analogicznie, będziemy pisali, że
(β, a) ∈ S
2, jeśli istnieje ciąg {(γ
k, ρ
k) }
∞k=1, (γ
k, ρ
k) ∈ S, taki, że lim
k→∞ ρkγk
= a oraz lim
k→∞γ
k= β.
Z postaci zbiorów S dla każdej z sześciu rozważanych rodzin rozkładów wynika, że β > 0, o ile (β, a) ∈ S. Zatem można zauważyć, że dla a ∈ S
1, (β, a) ∈ S
2oraz (β, a) ∈ S zachodzą następujące związki graniczne:
U
a+= lim
ρ→∞, ρ/γ→a
U
γ,ρ∗, R(λ, U
a+) = lim
ρ→∞, ρ/γ→a
R(λ, U
γ,ρ∗), r(π, U
a+) = lim
ρ→∞, ρ/γ→a
r(π, U
γ,ρ∗), o ile E
π(λ
2) < ∞.
Podobnie dla polityki sterowania U
β,a−: U
β,a−= lim
γ→β, ρ/γ→a
U
γ,ρ∗, R(λ, U
β,a−) = lim
γ→β, ρ/γ→a
R(λ, U
γ,ρ∗), r(π, U
β,a−) = lim
γ→β, ρ/γ→a
r(π, U
γ,ρ∗).
Widzimy zatem, że polityki U
a+oraz U
β,a−są granicami bayesowskich polityk sterowania odpowiednio dla a ∈ S
1oraz (β, a) ∈ S
24.3. Wybrane lematy ogólnej teorii statystycznych funkcji decyzyjnych.
Jak wiadomo, reguły minimaksowe i Γ -minimaksowe często należą do klasy reguł bayesowskich oraz reguł będących ich granicami. Przedstawimy teraz najczęściej wykorzystywane przez Trybułę lematy podające związki pomię- dzy tymi klasami reguł decyzyjnych.
Lemat 4.3. Niech {π
k}
∞k=1, π
k∈ Γ , będzie ciągiem rozkładów a priori okre- ślonych na przestrzeni parametrów Λ. Niech {U
k}
∞k=1oraz {r(π
k, U
k) }
∞k=1będą odpowiadającymi mu ciągami bayesowskich polityk sterowania i ich ry- zyk. Jeżeli polityka sterowania U
(0)spełnia warunek
π∈Γ
sup r(π, U
(0)) ≤ lim sup
k→∞
r(π
k, U
k), to U
(0)jest Γ -minimaksową polityką sterowania.
Kolejne lematy są w zasadzie wnioskami z powyższego.
Lemat 4.4. Jeżeli polityka U
(0)jest bayesowska względem pewnego roz-
kładu a priori π ∈ Γ i ma na zbiorze Γ stałe ryzyko bayesowskie, to U
(0)jest Γ -minimaksową polityką sterowania.
Lemat 4.5. Niech {π
k}
∞k=1, π
k∈ Γ , będzie ciągiem rozkładów a priori określonych na przestrzeni paramtrów Λ, a {U
k}
∞k=1oraz {r(π
k, U
k) }
∞k=1będą odpowiadającymi mu ciągami bayesowskich polityk sterowania i ich ry- zyk. Jeżeli polityka sterowania U
(0)spełnia warunek
λ∈Λ
sup R(λ, U
(0)) ≤ lim sup
k→∞
r(π
k, U
k), to U
(0)jest minimaksową polityką sterowania.
Lemat 4.6. Jeżeli bayesowska polityka sterowania U
(0)ma stałą funkcję ryzyka na zbiorze Λ , to U
(0)jest minimaksową polityką sterowania.
W kolejnej części pokażemy wykorzystanie niektórych ze wskazanych le- matów w dowodzeniu minimaksowości wybranych polityk sterowania w przykładowych sytuacjach decyzyjnych.
4.4. Sterowania Γ -minimaksowe przy zakłóceniach należących do rodziny wykładniczej. Niech Γ
1będzie niepustą klasą rozkładów a priori π speł- niających warunki: E
π(λ) = m
1oraz E
π(λ
2) = m
2. Zachodzi następujące twierdzenie.
Twierdzenie 4.7. Γ
1-minimaksowa polityka sterowania istnieje i jest nią polityka U
β,r∗dla której r/β = m
1oraz k(β, r) = m
2.
Dowód tego twierdzenia polega na stwierdzeniu, że wskazana polityka sterowania jest polityką bayesowską o stałym ryzyku na zbiorze Γ
1i zasto- sowaniu Lematu 4.4. Istnienie stałych (β, r) ∈ S spełniających wskazane w twierdzeniu warunki wynika z postaci zbioru S dla poszczególnych rodzin rozkładów należących do rozważanej klasy.
Nieco bardziej skomplikowana sytuacja ma miejsce w przypadku innej rozważanej przez Trybułę klasy rozkładów a priori, a mianowicie klasy Γ
2określonej jako klasa tych rozkładów na przestrzeni parametrów, dla których drugi moment zwykły spełnia warunek E
π(λ
2) = m
2. Niech T oznacza zbiór wszystkich par (β, r), dla których k(β, r) = m
2. Poniższe twierdzenie podaje warunki wystarczające dla istnienia sterowań Γ
2-minimaksowych.
Twierdzenie 4.8. I. Jeżeli istnieje punkt (β, r) ∈ S taki , że k(β, r) = m
2i Z
2(β, r) = 0, to Γ
2-minimaksową polityka sterowania jest U
β,r∗.
II. Jeżeli Z
2(β, r) > 0 dla każdego (β, r) ∈ S ∩T , wtedy Γ
2-minimaksową polityką sterowania jest U
√+m2
.
III. Jeżeli Z
2(β, r) < 0 dla każdego (β, r) ∈ S∩T , wtedy Γ
2-minimaksową polityką sterowania jest
i ) w przypadku rozkładów normalnego i GEHS, polityka U
−+√m2
; ii ) w przypadku rozkładu Poissona, polityka U
0,0−;
iii ) w przypadku rozkładów gamma i ujemno-dwumianowego, polityka U
1,0−;
iv ) w przypadku rozkładu dwumianowego, polityka U
0,m− 2.
Całość dowodu tego twierdzenia można znaleźć w oryginalnych pracach Trybuły. Jako ilustrację idei tych dowodów przedstawimy rozumowanie do- wodzące słuszności punktu II.
Niech
μ
1= inf
(β,r)∈S∩T
r/β oraz μ
2= sup
(β,r)∈S∩T
r/β.
Dla poszczególnych rozważanych rozkładów przedziały (μ
1, μ
2) są na- stępujące: dla rozkładów Poissona, gamma i ujemno-dwumianowego jest to przedział (0, √m
2), dla rozkładu dwumianowego — (m
2, √m
2), dla rozkła- dów normalnego i GEHS — (−√m
2, √m
2).
Z postaci tych przedziałów wynika oczywiście, że dla każdego z rozwa- żanych rozkładów istnieje ciąg takich (γ, ρ) ∈ S ∩ T , dla których zachodzi ρ → ∞, oraz ρ/γ → √m
2Załóżmy teraz, że spełniony jest warunek z punktu II, to jest Z
2(β, r) > 0 dla każdego (β, r) ∈ S ∩ T . Wtedy dla dowolnego π ∈ Γ
2, wobec powyższej uwagi, otrzymujemy
r(π, U
√m+2
) = lim
ρ→∞, ρ/γ→√m2
r(π, U
γ,ρ∗)
= lim
ρ→∞, ρ/γ→√m2
[Z
1(γ)m
2+ Z
2(γ, ρ)E
π(λ) + Z
3(γ, ρ)]
≤ lim
ρ→∞, ρ/γ→√m2
[Z
1(γ)m
2+ Z
2(γ, ρ) √ m
2+ Z
3(γ, ρ)]
= lim
ρ→∞, ρ/γ→√m2