• Nie Znaleziono Wyników

Słowa kluczowe: system liniowy, zakłócenia addytywne, wykładnicza klasa rozkładów, sterowanie bayesowskie, sterowanie minimaksowe.

N/A
N/A
Protected

Academic year: 2021

Share "Słowa kluczowe: system liniowy, zakłócenia addytywne, wykładnicza klasa rozkładów, sterowanie bayesowskie, sterowanie minimaksowe."

Copied!
20
0
0

Pełen tekst

(1)

Andrzej Grzybowski (Częstochowa), Zdzisław Porosiński, Krzysztof J. Szajowski (Wrocław)

Zagadnienia optymalnego sterowania w pracach Stanisława Trybuły

Streszczenie. W pewnym okresie Trybuła zwrócił uwagę na zagadnienia adaptacyjnego sterowania (patrz [20, 21]). Wydaje się, że zainspirowała Go monografia Aoki [1]. Do tematu wrócił po dość długim czasie. Zauważył, że w literaturze zakłada się, iż zakłó- cenia w systemach stochastycznych mają charakter gaussowski, podczas gdy w praktyce sygnały, a więc i zakłócenia, są dyskretne. Przypominamy tutaj typowy model analizo- wany w tej serii prac jako, że współczesne zastosowania modeli liniowych w ekonomii i technice wymuszają sygnały zarówno typu ciągłego, jak i dyskretne. Ograniczymy się do szczegółowego przedstawienia konstrukcji sterowań bayesowskich przy kwadratowej funk- cji kosztu i zakłóceniach z wykładniczej klasy, spełniających dodatkowe warunki nałożone na momenty. W konkluzji podajemy odsyłacze do prac, w których wyznaczono sterowania minimaksowe.

Słowa kluczowe: system liniowy, zakłócenia addytywne, wykładnicza klasa rozkładów, sterowanie bayesowskie, sterowanie minimaksowe.

1. Wprowadzenie. Rozważamy system liniowy o skończenie wymiaro- wej przestrzeni stanów opisany równaniem

(1) x ¯

n+1

= a

n

x ¯

n

+ b

n

u ¯

n

+ c

n

v ¯

n

, n = 0, N − 1,

gdzie ¯ x

n

jest stanem systemu, ¯ u

n

sterowaniem a ¯ v

n

zakłóceniem w chwili n; ¯x

·

, ¯ u

·

i ¯ v

·

są m-wymiarowymi wektorami, a a

·

, b

·

, c

·

są macierzami m × m. Horyzont sterowania N jest zmienną losową, niezależną od zmiennych losowych ¯ v

0

, ¯ v

1

, . . ., o rozkładzie

(2) P {N = k} = p

k

, k = 0, M , 

M

k=0

p

k

= 1, p

M

= 0.

Dopuszczone w modelu zakłócenia ¯ v

n

z założenia są wektorami losowymi o wartościach w k-wymiarowej przestrzeni liniowej V ⊂ 

m

(1 ≤ k ≤ m),

[97]

(2)

a macierze c

n

są takie, że dla

z ∈ c ¯

n

(V ) = {¯z ∈ 

m

: ∃¯v ∈ V c

n

v = ¯z} ¯

równanie liniowe c

n

v ¯

n

= ¯ z ma dokładnie jedno rozwiązanie ¯v

n

, n = 0, M . Bez straty ogólności można przyjąć, że ¯ v

n

jest postaci ¯ v

n

= (v

1n

, v

n2

, . . . , v

nk

, 0, . . . , 0)

T

. Wektory ¯ v

n

, n = 0, M są niezależne, o tym samym rozkładzie ze składowymi v

in

, mającymi rozkłady z wykładniczej klasy z parametrem λ

i

, i = 1, k. Dla różnych i rozkłady te mogą pochodzić z różnych rodzin.

W pracy stosowane są następujące oznaczenia: X

n

= (¯ x

0

, ¯x

1

, . . . , ¯x

n

);

U

n

= (¯ u

0

, ¯u

1

, . . . , ¯u

n

); U

n

= (¯ u

n

, ¯u

n+1

, . . . , ¯u

M

); λ = (λ

1

, λ

2

, . . . , λ

k

, 0, . . . . . . , 0)

T

; U = U

M

.

Zakładamy, że w chwili n zarówno X

n

jaki i U

n−1

są znane, a sterowanie u ¯

n

jest od tych informacji zależne. Tak długo, jak żadne obserwacje nie są znane, sterowanie ¯ u

n

jest losowym wektorem zależnym od zmiennych loso- wych ¯ v

0

, ¯v

1

, . . . , ¯v

n−1

. Przyjmujemy następującą funkcję kosztu sterowania dla ustalonej polityki U :

L(U, X

N

) =



N i=0

(¯ y

iT

s

i

y ¯

i

+ ¯ u

Ti

k

i

u ¯

i

)

gdzie, dla i = 0, M , s

i

są nieujemnie określonymi macierzami o wymiarze 2m × 2m, k

i

są nieujemnie określone o wymiarach m × m, a ¯y

i

= (¯ x

Ti

, ¯λ

T

)

T

są wektorami o 2m składowych. Ryzyko zastosowania sterowania U (wartość oczekiwana funkcji straty), gdy wartość parametru ¯ λ jest znana, wynosi

R(¯λ, U) = E

p

E

λ

L(U, X

N

) = E

p

E

λ

 

N i=0

(¯ y

iT

s

i

y ¯

i

+ ¯ u

Ti

k

i

u ¯

i

) |X

0



Jeśli znany jest rozkład a priori π parametru ¯ λ, to oczekiwane ryzyko r, związane z rozkładem a priori π parametru ¯ λ i sterowaniem U wynosi

r(π, U) = E

π

[R(¯ λ, U)] = E

p

E

 

N

i=0

(¯ y

Ti

s

i

y ¯

i

+ ¯ u

Ti

k

i

u ¯

i

)|X

0

 ,

gdzie E

·

oznacza wartość oczekiwaną odpowiednio: E

p

względem rozkładu N, E

¯λ

względem rozkładu zmiennych losowych ¯ v

0

, ¯ v

1

, . . . (przy ustalonym, znanym parametrze ¯ λ), E

π

względem rozkładu π, a E względem łącznego rozkładu ¯ v

n

i ¯ λ.

Niech stan początkowy będzie ¯ x

0

, a parametr ¯ λ ma rozkład a priori π.

Definicja 1.1. Sterowanie U

nazywamy bayesowskim, jeśli r(π, U

) = inf

U∈Dπ

r(π, U),

gdzie D

π

jest zbiorem sterowań U , dla których ryzyko r(π, U ) jest dobrze

określone.

(3)

Do rodziny rozpatrywanych modeli zakłóceń należą takie rozkłady (patrz [8, 7]), jak dwumianowy, Poissona, normalny, gamma, ujemno-dwumianowy i secans hiperboliczny (patrz Harkness i Harkness [4]). Bliższe informacje o tych rozkładach przypomnimy w następnym rozdziale. Problem wyzna- czenia sterowania bayesowskiego dla sprzężonej rodziny rozkładów a priori parametru ¯ λ przedstawimy w rozdziale 3. Jednowymiarowe zadania stero- wania bayesowskiego zostały omówione w pracach [18, 16].

2. Filtracja. Odtwarzanie zakłóceń na podstawie obserwacji sta- nów. Zakładamy, że zakłócenia mają rozkład z wykładniczej klasy o tej własności, że wariancja jest kwadratową funkcją wartości oczekiwanej [7, 9, 8, 12, 13, 14]. Uściślając, zakładamy, że ¯ v

n

ma rozkład o gęstości p(¯ v

n

, ¯λ) względem pewnej skończenie addytywnej miary μ na 

m

postaci

(3) p(¯v

n

, ¯λ) =



k i=1

p(v

ni

, λ

i

),

gdzie p(v

ni

, λ

i

) = S

i

(v

in

, q

i

) exp {q

i

A

i

i

) + v

ni

B

i

i

) }, q

i

∈ Q

i

, v

ni

∈ V

i

, i = 1, k. Oznacza to, iż rozkład składowych wektora ¯v

n

należy do rodziny wykładniczej lub jest równy 0 (Q

i

, V

i

, A

i

(·) oraz B

i

(·) są podane w Tabeli 1.

Parametryzacja rozkładów jest taka, że E

¯λ

(v

ni

) = −q

i

A

i

i

)

B

i

i

) = q

i

λ

i

, dla pewnego q

i

> 0 i taka, że

E

¯λ

(v

in

)

2

= q

1,i

λ

2i

+ q

2,i

λ

i

+ q

3,i

, gdzie q

1,i

, q

2,i

, q

3,i

są pewnymi stałymi.

Niech ¯ v

n

ma rozkład o gęstości (3) z nieznanym parametrem ¯ λ. Przyj- mujemy, że parametr ¯ λ ma rozkład a priori π sprzężony do rozkładu (3).

Oznacza to, że gęstość rozkładu π ma postać:

(4) g(¯λ; ¯ β, ¯r) =



k i=1

g

i

i

; β

i

, r

i

), gdzie

g

i

i

; β

i

, r

i

) = C

i

i

, r

i

)B

i

i

) exp {β

i

A

i

i

) + r

i

B

i

i

) },

a (β

i

, r

i

) ∈ S

i

oraz ¯ λ ∈ Λ = B

−1

0

), Λ

0

jest przestrzenią naturalnych wartości parametrów (zależną od typu rozkładu).

Wyznaczenie sterowań bayesowskich poprzedzimy obliczeniem rozkła- dów a posteriori parametru ¯ λ w chwili otrzymania nowej obserwacji. Jest to możliwe, jeśli macierz c

n

jest taka, że równanie

(5) c

n

¯ v

n

= ¯ x

n+1

− a

n

x ¯

n

− b

n

u ¯

n

, przy zadanym ¯ x

0

(4)

Tabela 1.

(5)

ma jednoznaczne rozwiązanie dla n = 0, N − 1. Gęstość rozkładu a poste- riori f (¯ λ|X

n

, U

n−1

) parametru ¯ λ, gdy mamy do dyspozycji obserwacje X

n

oraz zastosowane sterowania U

n

, dana jest wzorem (4) w postaci

f (¯λ|X

n

, U

n−1

) = f (¯ λ|V

n−1

) = g(¯ λ| ¯β

n

, ¯r

n

),

gdzie V

n−1

= (¯ v

0

, ¯v

1

, . . . , ¯v

n−1

), a ¯ β

n

i ¯ r

n

spełniają rekurencyjne zależności:

β ¯

n

= ¯ β

n−1

+ ¯ q = ¯ β + n¯q, ¯ r

n

= ¯ r +

n−1



j=0

v ¯

j

z warunkiem początkowym ¯ r

0

= ¯ r.

Z pracy [7] wiadomo, że do klasy rozkładów wykładniczych z warian- cją, która jest trójmianem kwadratowym średniej, należą rozkłady: dwu- mianowy, gamma, uogólniony secans hiperboliczny, ujemny dwumianowy, normalny i Poissona. Dla wszystkich tych rozkładów, gdy zakłócenia wy- znaczone są jednoznacznie, mamy

(6) E(λ

i

|X

n

, U

n−1

) = T

n,i

r

in

= r

in

ni

,

E(λ

2i

|X

n

, U

n−1

) = T

1n,i

(r

in

)

2

+ T

2n,i

r

ni

+ T

3n,i

,

gdzie T

jn,i

, j = 1, 2, 3, n = 0, M , są stałymi zależnymi od β

i

, i = 1, k.

Rozkład warunkowy zakłóceń ¯ v

n

, przy zaobserwowanym X

n

i sterowa- niach U

n−1

, ma gęstość, którą dla kilku szczególnych przypadków wyznaczył Trybuła w [15], postaci

h(¯v|X

n

, U

n−1

) =



k i=1

h

i

(v

i

|X

n

, U

n−1

), gdzie

h

i

(v

i

|X

n

, U

n−1

) = S

i

(v

i

, q

i

) C

i

ni

, r

ni

) C

i

n+1i

, r

n+1i

) , przy i = 1, k, n = 0, M − 1. Mamy wówczas

(7) E(v

in

|X

n

, U

n−1

) = Q

n,i

r

in

,

E[(v

ni

)

2

|X

n

, U

n−1

] = Q

n,i1

(r

in

)

2

+ Q

n,12

r

in

+ Q

n,i3

,

przy pewnych stałych Q

n,ij

, j = 1, 2, 3, n = 0, M , zależnych od parametrów β

i

, i = 1, k. Stałe T

jn,i

, Q

n,ij

, j = 1, 2, 3, i = 1, k, są podane w Tabeli 1.

W dalszej części będziemy używać następujących oznaczeń na wektor:

ξ = (ξ ¯

1

, ξ

2

, . . . , ξ

m

)

T

i na macierz przekątniową:

ξ =

⎜ ⎜

ξ

1

0 · · · 0 0 ξ

2

· · · 0 .. . .. . . . . .. . 0 0 · · · ξ

m

⎟ ⎟

⎠ .

(6)

Jeśli A = (a

ij

)

m×m

, to

diag A =

⎜ ⎜

a

11

0 · · · 0 0 a

22

· · · 0 .. . .. . . . . .. . 0 0 · · · a

mm

⎟ ⎟

⎠ ,

a ¯ e = (e

1

, e

2

, . . . , e

m

)

T

, gdzie e

i

= 1 dla i = 1, k i e

i

= 0 dla i = k + 1, m.

3. Wyznaczanie sterowania bayesowskiego. Załóżmy, że dany jest stan początkowy ¯ x

0

, zakłócenia mają rozkład o gęstości (3), a rozkład a priori π parametru ¯ λ jest postaci (4). Załóżmy ponadto, że losowy horyzont sterowania ma rozkład (2). Rozważamy problem sterowania bayesowskiego systemem (1) od chwili n, w której znane są X

n

i U

n−1

. Wówczas oczekiwane ryzyko ma postać

(8) r

n

= r

n

(π, U

n

) = E

p

 E 

N

i=n

y ¯

Ti

s

i

y ¯

i

+ ¯ u

Ti

k

i

u ¯

i

X

n

, U

n−1

 N ≥ n

 . Oznaczając

ϕ

k

=



M i=k

p

i

, otrzymamy

r

n

=



M k=n

E 

k

i=n

(¯ y

Ti

s

i

y ¯

i

+ ¯ u

Ti

k

i

u ¯

i

) X

n

, U

n−1

 p

k

ϕ

n

= E 

M

i=n

ϕ

i

ϕ

n

(¯ y

iT

s

i

y ¯

i

+ ¯ u

Ti

k

i

u ¯

i

) X

n

, U

n−1

 . Ryzyko bayesowskie dla tak obciętego problemu wynosi

W

n

= inf

Un

r

n

(π, U

n

) = r

n

(π, U

n

),

gdzie U

n

= (¯ u

n

, . . . , ¯u

M

) jest polityką bayesowską, a ¯ u

i

, i = n, M , są ste- rowaniami bayesowskimi. Oczywiście r

0

(π, U

0

) = r(π, U ) i W

0

= r(π, U

).

Aby rozwiązać problem sterowania bayesowskiego, wyznaczymy stero- wania ¯ u

n

rekurencyjnie dla n = M, 0. Wówczas U

0

będzie rozwiązaniem problemu. Z zasady optymalności Bellmana programowania dynamicznego otrzymujemy następujący lemat.

Lemat 3.1. Ryzyko bayesowskie w rozważanym problemie spełnia rów- nanie

W

n

= min

¯un



x ¯

Tn

s

1n

x ¯

n

+ 2¯ r

nT

T

n

s

3n

x ¯

n

(9)

(7)

+ ¯ r

nT

[T

n

s

2n

T

n

+ (T

1n

− (T

n

)

2

) diag s

2n

]¯ r

n

+ (T

2n

)

T

diag s

2n

r ¯

n

+ ¯ e

T

diag s

2n

T

3n

+ ¯ u

Tn

k

n

u ¯

n

+ ϕ

n+1

ϕ

n

E(W

n+1

| X

n

, U

n−1

)



z warunkiem

W

M

= ¯ x

TM

s

1M

x ¯

M

+ 2¯ r

TM

T

M

s

3M

x ¯

M

(10)

+ ¯ r

TM



T

M

s

2M

T

M

+ (T

1M

− (T

M

)

2

) diag s

2M



¯ r

M

+ (T

2M

)

T

diag s

2M

¯ r

M

+ ¯ e

T

diag s

2M

T

3M

,

gdzie s

i

=

 s

1i

(s

3i

)

T

s

3i

s

2i



Dow´ od. Ponieważ dla n = M W

M

= min

¯uM

E 

y ¯

TM

s

M

y ¯

M

+ ¯ u

TM

k

M

u ¯

M

|X

M

, U

M−1

 (11)

= E 

y ¯

TM

s

M

y ¯

M

|X

M

, U

M−1

, 

to ¯ u

M

= ¯ 0. Dla n = M − 1, 0, z (8) i z własności warunkowej wartości oczekiwanej otrzymujemy

W

n

= min

Un

r

n

= min

Un



E[¯y

Tn

s

n

y ¯

n

+ ¯ u

Tn

k

n

u ¯

n

] |X

n

, U

n−1

+ E

 

M i=n+1

ϕ

i

ϕ

n

(¯ y

iT

s

i

y ¯

i

+ ¯ u

Ti

k

i

u ¯

i

) |X

n

, U

n−1



= min

¯un



u ¯

Tn

k

n

u ¯

n

+ E(¯y

Tn

s

n

y ¯

n

)|X

n

, U

n−1

+ min

Un+1

E

 ϕ

n+1

ϕ

n

E

 

M

i=n+1

ϕ

i

ϕ

n+1

 (¯ y

iT

s

i

y ¯

i

+ ¯ u

Ti

k

i

¯ u

i

)|X

n+1

, U

n



|X

n

, U

n−1



.

Tak więc

(12) W

n

= min

¯un



u ¯

Tn

k

n

u ¯

n

+ E(¯y

nT

s

n

y ¯

n

|X

n

, U

n−1

) + ϕ

n+1

ϕ

n

E(W

n+1

|X

n

, U

n−1

)

 .

Wyznaczymy teraz E(¯y

Tn

s

n

y ¯

n

|X

n

, U

n−1

) dla n = M, 0. Stosując (6),

(8)

otrzymujemy

(13)

E 

x ¯

Tn

s

1n

x ¯

n

|X

n

, U

n−1



= ¯ x

Tn

s

1n

x ¯

n

, E 

λ

T

s

3n

x ¯

n

|X

n

, U

n−1



= ¯ r

nT

T

n

s

3n

x ¯

n

,

E(λ

T

s

2n

¯ λ|X

n

, U

n−1

) = (T

n

¯ r

n

)

T

(s

2n

− diag s

2n

)(T

n

r ¯

n

) + ¯ r

nT

T

1n

diag s

2n

r ¯

n

+ (T

2n

)

T

diag s

2n

r ¯

n

+ ¯ e

T

diag s

2n

T

3n

= ¯ r

Tn

[T

n

s

n

T

n

+ (T

1n

− (T

n

)

2

) diag s

2n

]¯ r

n

+ (T

2n

)

T

diag s

2n

¯ r

n

+ ¯ e

T

diag s

2n

T

3n

.

Wykorzystując powyższą równość i równanie (1) można zapisać formuły (11) i (12) odpowiednio w postaci (9) i (10).

Wykorzystujemy ten lemat do indukcyjnego dowodu, że sterowanie bay- esowskie ¯ u

n

spełnia równanie

2k

n

u ¯

n

+ grad

u¯n

ϕ

n+1

ϕ

n

b

Tn

E(W

n+1

|X

n

, U

n−1

)

¯un=¯un

= ¯ 0, które można przedstawić równoważnie jako

(14) 2k

n

u ¯

n

+ ϕ

n+1

ϕ

n

b

Tn

E(grad

¯xn+1

W

n+1

|X

n

, U

n−1

)

¯un=¯un

= ¯ 0.

Wykażemy, że ryzyko bayesowskie W

n

ma postać

(15) W

n

= ¯ x

Tn

A

n

¯ x

n

+ 2¯ r

nT

B

n

x ¯

n

+ ¯ r

nT

C

n

r ¯

n

+ ¯ D

nT

r ¯

n

+ E

n

,

gdzie A

n

, B

n

, C

n

są macierzami stopnia m, ¯ D

n

jest wektorem o m składo- wych, a E

n

— stałą.

Istotnie, jest tak dla n = M i

(16)

A

M

= s

1M

, B

M

= T

M

s

3M

,

C

M

= T

M

s

2M

T

M

+ (T

1M

− (T

M

)

2

) diag s

2M

, D ¯

MT

= (T

2M

)

T

diag s

2M

, E

M

= ¯ e

T

diag s

2M

T

3M

. Wzory (15) i (14) prowadzą do równania

k

n

u ¯

n

+ ϕ

n+1

ϕ

n

b

Tn

[A

n+1

(a

n

x ¯

n

+ b

n

u ¯

n

) + A

n+1

c

n

Q

n

¯ r

n

+ B

n+1T

(e + Q

n

)¯ r

n

] = ¯ 0 lub

(17)



k

n

+ ϕ

n+1

ϕ

n

b

Tn

A

n+1

b

n



u ¯

n

= − ϕ

n+1

ϕ

n

b

Tn

A

n+1

a

n

x ¯

n

− ϕ

n+1

ϕ

n

b

Tn

[A

n+1

c

n

Q

n

+ B

n+1T

(e + Q

n

)]¯ r

n

.

Załóżmy, że równanie (17) ma dokładnie jedno rozwiązanie ¯ u

n

(np. wy-

starczy założyć, że macierz k

n

jest odwracalna). Wówczas sterowanie bay-

(9)

esowskie ¯ u

n

ma postać

u ¯

n

= −ξ

n

x ¯

n

− η

n

r ¯

n

, gdzie

(18)

ξ

n

= ϕ

n+1

ϕ

n



k

n

+ ϕ

n+1

ϕ

n

b

Tn

A

n+1

b

n



+

b

Tn

A

n+1

a

n

,

η

n

= ϕ

n+1

ϕ

n



k

n

+ ϕ

n+1

ϕ

n

b

Tn

A

n+1

b

n



+

b

Tn



A

n+1

c

n

Q

n

+ B

n+1T

(e + Q

n

)  a F

+

jest macierzą pseudoodwrotną Moore’a-Penrose’a macierzy F .

Z (15) i (7) otrzymujemy

E (W

n+1

|X

n

, U

n−1

) = (a

n

x + b ¯

n

u ¯

n

)

T

A

n+1

(a

n

x ¯

n

+ b

n

u ¯

n

) (19)

+ (a

n

x ¯

n

+ b

n

u ¯

n

)

T

(A

n+1

+ A

Tn+1

)c

n

Q

n

r ¯

n

+ E(¯v

nT

c

Tn

A

n+1

c

n

v ¯

n

|X

n

, U

n−1

)

+ 2 

r ¯

nT

(e + Q

n

)B

n+1

(a

n

x ¯

n

+ b

n

u ¯

n

) + ¯ r

nT

B

n+1

c

n

Q

n

¯ r

n

+ E(¯v

Tn

B

n+1

c

n

¯ v

n

|X

n

, U

n−1

) 

+ ¯ r

Tn

C

n+1

r ¯

n

+ ¯ r

nT

(C

n+1

+ C

n+1T

)Q

n

r ¯

n

+ E(¯v

nT

C

n+1

v ¯

n

|X

n

, U

n−1

) + ¯ D

n+1T

(e + Q

n

)¯ r

n

+ E

n+1

.

Warunkową wartość oczekiwaną dla ¯ v

nT

c

Tn

A

n+1

c

n

v ¯

n

, ¯ v

nT

B

n+1

c

n

¯ v

n

, v ¯

Tn

C

n+1

v ¯

n

przy ustalonych X

n

, U

n−1

, można obliczyć analogicznie jak w (13) (20) E(¯v

Tn

F ¯v

n

|X

n

, U

n−1

) = ¯ r

Tn



(Q

n

)

T

F Q

n

+ (Q

n1

− (Q

n

)

2

) diag F  r ¯

n

+(Q

n2

)

T

diag F ¯ r

n

+ ¯ e

T

diag F Q

n3

, gdzie F jest odpowiednio równe c

Tn

A

n+1

c

n

, B

n+1

c

n

, C

n+1

.

Z drugiej strony, wykorzystując (12), otrzymujemy (21) W

n

= ¯ u

nT

k

n

u ¯

n

+ E(¯ y

nT

s

n

y ¯

n

|X

n

, U

n−1

) + ϕ

n+1

ϕ

n

E(W

n+1

|X

n

, U

n−1

).

Z kolei (13), (18), (19) i (20) pozwala przekształcić W

n

z postaci (21) do wzoru (15) z parametrami

A

n

= ϕ

n+1

ϕ

n

a

Tn

A

n+1

(a

n

− b

n

ξ

n

) + s

1n

, B

n

= ϕ

n+1

ϕ

n

 Q

n

c

Tn

A

n+1

+ (e + Q

n

)B

n+1



(a

n

− b

n

ξ

n

) + T

n

s

3n

, C

n

= ϕ

n+1

ϕ

n

 η

Tn

b

Tn

A

n+1

b

n

η

n

− 2η

Tn

b

Tn

A

n+1

c

n

Q

n

− 2(e + Q

n

)B

n+1

b

n

η

n

+ 2B

n+1

c

n

Q

n

+ C

n+1

+ (C

n+1

+ C

n+1T

)Q

n

+ Q

n

(c

Tn

A

n+1

c

n

+ 2B

n+1

c

n

+ C

n+1

)Q

n

(22)

(10)

+ (Q

n1

− (Q

n

)

2

) diag(c

Tn

A

n+1

c

n

+ 2B

n+1

c

n

+ C

n+1

)  + η

Tn

k

n

η

n

+ T

n

s

2n

T

n

+ (T

1n

− (T

n

)

2

) diag s

2n

,

D ¯

Tn

= ϕ

n+1

ϕ

n

 (Q

n2

)

T

diag(c

Tn

A

n+1

c

n

+ 2B

n+1

c

n

+ C

n+1

)

+ ¯ D

n+1T

(e + Q

n

) 

+ (T

2n

)

T

diag s

2n

, E

n

= ϕ

n+1

ϕ

n

 e ¯

T

diag(c

Tn

A

n+1

c

n

+ 2B

n+1

c

n

+ C

n+1

)Q

n

+ E

n+1



+ ¯ e

T

diag s

2n

T

3n

,

gdzie ξ

n

i η

n

są dane wzorem (18). W obliczeniach wykorzystuje się właści- wość symetrii macierzy A

n

.

Otrzymujemy więc

Twierdzenie 3.2. Dla m-wymiarowego systemu linowego (1) z zakłóce- niami mającymi rozkład należący do rodziny wykładniczej z wariancją bę- dącą kwadratową funkcją średniej (3), zależnymi od nieznanego parametru λ o rozkładzie a priori (4) i losowego ograniczonego horyzontu sterowania ¯ N, niezależnego od zakłóceń, sterowanie bayesowskie ¯u

n

istnieje i jest dane przez (18). Ryzyko bayesowskie jest określone wzorem (15), gdzie A

n

, B

n

, C

n

, ¯ D

nT

, E

n

są obliczane rekurencyjnie z (22) z warunkiem początkowym (16).

4. Sterowania minimaksowe. W latach 1985–1989 Trybuła opubliko- wał szereg prac poświęconych problemom minimaksowego sterowania ukła- dami stochastycznymi. Były w nich rozważane zarówno problemy dotyczące układów dyskretnych jak i ciągłych, tak jedno-, jak i wielowymiarowych.

Stosowane przez Niego metody wyznaczania sterowań minimaksowych opie- rały się głównie na teorii statystycznych funkcji decyzyjnych, w szczególno- ści na twierdzeniach podających związki pomiędzy regułami bayesowskimi i minimaksowymi oraz na twierdzeniach minimaksowych znanych z teorii gier o sumie zerowej. Zanim przedstawimy przykład ilustrujący stosowaną przez Profesora metodologię rozwiązywania problemów minimaksowego ste- rowania, przypomnimy definicje minimaksowych i Γ -minimaksowych polityk sterowania.

Definicja 4.1. Politykę sterowania U

M

nazywamy minimaksową, jeśli

(23) sup

λ∈Λ

R(λ, U

M

) = inf

U∈D

sup

λ∈Λ

R(λ, U),

gdzie D jest zbiorem sterowań U, dla których ryzyko R(λ, U) jest skończone dla każdej wartości parametru λ ∈ Λ.

Przypuśćmy, że nasza wiedza a priori ogranicza sie do faktu, że nieznany

rozkład a priori π parametru λ należy do ustalonej klasy rozkładów, którą

(11)

oznaczymy jako Γ .

Definicja 4.2. Politykę sterowania U

Γ

nazywamy Γ -minimaksową jeśli

(24) sup

π∈Γ

r(π, U

Γ

r) = inf

U∈DΓ

π∈Γ

sup r(π, U),

gdzie D

Γ

jest zbiorem sterowań U , dla których ryzyko r(π, U ) jest dobrze określone dla każdego π ∈ Γ .

W celu zaprezentowania stosowanej przez Trybułę metodologii poka- żemy rozwiązanie problemu minimaksowego sterowania układem (1), dla którego bayesowskie polityki sterowania wyznaczono w poprzednich sekcjach tej pracy. W tej części przyjmiemy, że wszystkie współrzędne wektora zakłó- ceń mają rozkład należący do tej samej rodziny wykładniczej z nieznanym (wspólnym) parametrem λ. Przyjmiemy także, iż wektor zakłóceń jest tego samego wymiaru, co wektory stanów i sterowań. W konsekwencji (jednowy- miarowe) rozkłady a posteriori, otrzymane analogicznie jak poprzednio dla sprzężonych rozkładów a priori z parametrami r i β, wyrażają się wzorem:

f (λ|X

n

, U

n−1

) = f (λ |V

n−1

) = g(λ |β

n

, r

n

),

w którym, dla n = 1, M − 1, parametry β

n

i r

n

są określone nastepująco:

β

n

= β + n



m i=0

q

i

,

r

n

= r +

n−1



j=0



m i=1

v

ij

z warunkiem początkowym r

0

= r.

Oczywiście zarówno postać sterowań bayesowskich jak i ich ryzyka bay- esowskiego jest taka jak poprzednio i może zostać wyrażona wzorami (15) oraz (10). Jednak na potrzeby dowodów twierdzeń podających sterowania minimaksowe i Γ -minimaksowe, sterowania bayesowskie zapiszemy w tym przypadku w postaci:

(25) u ¯

n

= −ξ

n

x ¯

n

− θ

n

r

n

β

n

,

w której jawnie wydzielimy czynnik r

n

n

będący warunkową wartością oczekiwaną parametru λ (patrz wzór (7)). Zmienimy również zapis ryzyka bayesowskiego rozważanych sterowań, które teraz przedstawimy w postaci:

(26) W

n

= ¯ x

Tn

A

n

x ¯

n

+ 2B

n

x ¯

n

r

n

β

n

+ C

n

r

2n

+ D

n

r

n

+ E

n

.

W związku z tą zmianą zapisu sterowań bayesowskich i ich ryzyka oraz

wobec zmiany niektórych założeń przyjętych o naturze stochastycznej rozwa-

żanego układu sterowania otrzymujemy następujące nowe formuły na współ-

(12)

czynniki występujące we wzorze na ryzyko bayesowskie oraz na współczyn- nik θ

n

pojawiający się w (25):

A

n

= ϕ

n+1

ϕ

n

a

Tn

A

n+1

(a

n

− b

n

ξ

n

) + s

1n

, B

n

= ϕ

n+1

ϕ

n

(¯ q

T

c

Tn

A

n+1

+ B

n+1

)(a

n

− b

n

ξ

n

) + s

3n

, C

n

= s

2n

T

1n

+ ϕ

n+1

ϕ

n

{[¯q

T

c

Tn

A

n+1

c

n

q ¯

− ¯q

T

diag(c

Tn

A

n+1

c

n

)¯ q]T

1n

+ (



Q ¯

n1

)

T

diag(c

Tn

A

n+1

c

n

)

 Q ¯

n1

− (¯q

T

c

Tn

A

n+1

+ B

n

)b

n

θ

n

β

n−2

+ 2β

n+1−1

B

n+1

c

n

n−1

q + (¯q¯q ¯

.

− ¯q

2

)T

1n

+ ¯ Q

n1

] + C

n+1

[1 + 2 q

.

β

n

+ (¯ q

.2

− ¯q

T

q)T ¯

1n

+ ¯ Q

n,.1

]}, D

n

= s

2n

T

2n

+ ϕ

n+1

ϕ

n

{¯q

T

c

Tn

A

n+1

c

n

qT ¯

2n

− ¯q

T

diag (c

Tn

A

n+1

c

n

)¯ qT

2n

+ (

 Q ¯

n2

)

T

diag (c

Tn

A

n+1

c

n

)

 Q ¯

n2

+ 2β

n+1−1

B

n+1

c

n

[(¯ q¯q

.

− ¯q

2

)T

2n

+ ¯ Q

n2

] C

n+1

[(¯ q¯q

.

− ¯q

2

)T

2n

+ ¯ Q

n2

] + D

n+1

(1 + q ¯

.

β

n

) }, E

n

= s

2n

T

3n

+ ϕ

n+1

ϕ

n

{¯q

T

c

Tn

A

n+1

c

n

qT ¯

3n

− ¯q

T

diag (c

Tn

A

n+1

c

n

)¯ qT

3n

+ (

 Q ¯

n3

)

T

diag (c

Tn

A

n+1

c

n

)

 Q ¯

n3

+ 2β

n+1−1

B

n+1

c

n

[(¯ q¯q

.

− ¯q

2

)T

3n

+ ¯ Q

n3

] C

n+1

[(¯ q¯q

.

− ¯q

2

)T

3n

+ ¯ Q

n3

] + E

n+1

}, θ

n

= ϕ

n+1

ϕ

n



k

n

+ ϕ

n+1

ϕ

n

b

Tn

A

n+1

b

n



+

b

Tn

[A

n+1

c

n

q + B ¯

n+1T

].

Warunki początkowe dla tych równań są następujące: A

M

= s

1M

, B

M

= s

3M

, C

M

= s

2M

T

1M

, D

M

= s

2M

T

2M

, D

M

= s

2M

T

3M

.

W powyższych wzorach współrzędnymi m wymiarowych wektorów ¯ Q

nk

,

oraz ¯ q są odpowiednio Q

n,ik

i q

i

, i = 1, m, k = 1, 2, 3. Tu, i dalej w pracy, sym-

bol wektora z kropką umieszczoną w miejsce indeksu współrzędnej oznacza

sumę wszystkich jego współrzędnych, dowolna zaś potęga wektora (a więc

i pierwiastek) oznacza wektor odpowiednich potęg współrzędnych tego wek-

(13)

tora. Ze względu na fakt, że w rozważanym obecnie przypadku λ

i

= λ, i = 1, m, w zapisie stałych T

kn,i

, k = 1, 2, 3, opuszczamy indeks i.

Kolejnymi etapami na drodze do otrzymania sterowań minimaksowych są: wyznaczenie jawnych formuł precyzujących postać funkcji ryzyka stero- wań bayesowskich oraz określenie postaci polityk będących granicami ste- rowań bayesowskich. Jak wiadomo z ogólnej teorii statystycznych funkcji decyzyjnych, sterowania minimaksowe często należą do tej klasy reguł de- cyzyjnych.

4.1. Funkcja ryzyka sterowań bayesowskich. Niech U

β,r

= (¯ u

0

, ¯u

1

, . . . , u ¯

M

) oraz niech S oznacza zbiór tych wartości (β, r) dla których E

πβ,r

2

) <

∞. Wprowadźmy oznaczenie R

n

(λ, U

β,r

) = E

λ

 

M

i=n

ϕ

i

ϕ

n

(¯ y

iT

s

i

y ¯

i

+ (¯ u

i

)

T

k

i

u ¯

i

) | X

n

, U

n−1

 . Oczywiście

R(λ, U

β,r

) = R

0

(λ, U

β,r

).

Korzystając z rekurencyjnego związku:

R

n

(λ, U

β,r

) = ¯ y

Tn

s

n

y ¯

n

+ (¯ u

n

)

T

k

i

u ¯

n

+ ϕ

i

ϕ

n

E

λ



R

n+1

(λ, U

β,r

) | X

n

, U

n−1

 ,

możemy wyprowadzić jawne wzory na funkcję ryzyka sterowań bayesow- skich. Okazuje się, że jest ona postaci

(27) R(λ, U

β,r

) = Z

1

(β)λ

2

+ Z

2

(β, r)λ + Z

3

(β, r) ze współczynnikami Z

1

, Z

2

oraz Z

3

określonymi wzorami:

Z

1

(β) = κ

(1)0

− 2¯q

. M−1



i=1

i κ

i

β

i

+

M−1



i=1

 i¯q

.

+ i

2

q ¯

.2

− i¯q

T

q ¯  κ

i

β

i2

, Z

2

(β, r) = 2B

0

x ¯

0

+ κ

(2)0

− 2rβ

M−1



i=1

κ

i

β

i2

+

M−1



i=1

i¯q

.(2)

κ

i

β

i2

, Z

3

(β, r) = ¯ x

T

A

0

x + κ ¯

(3)0

+ r

2

M−1



i=1

κ

i

β

i2

+

M−1



i=1

i ¯q

(3).

κ

i

β

i2

, gdzie

κ

n

= φ

n

θ

nT

k

n

θ

n

+ φ

n+1

θ

Tn

b

Tn

A

n+1

b

n

θ

n

, κ

(1)n

= φ

n

s

2n

+

M−1



i=n

φ

i+1

[¯ q

T

]c

Ti

A

i+1

c

i

q ¯

(14)

− ¯q

T

diag(c

Ti

A

i+1

c

i

q + ( ¯ 

q ¯

(1)

)

T

diag(c

Ti

A

i+1

c

i

)  q ¯

(1)

+ 2B

i+1

c

i

q + s ¯

2i+1

],

κ

(2)n

=

M−1



i=n

φ

i+1

( 

q ¯

(2)

)

T

diag(c

Ti

A

i+1

c

i

)  q ¯

(2)

,

κ

(3)n

=

M−1



i=n

φ

i+1

( 

q ¯

(3)

)

T

diag(c

Ti

A

i+1

c

i

)  q ¯

(3)

.

W powyższych wyrażeniach symbol ¯ q

(k)

oznacza m wymiarowy wektor o współrzędnych q

k,i

, i = 1, . . ., m, k = 1, 2, 3. Pozostałe symbole mają znaczenie nadane im wcześniej.

Ze wzoru (27) wynika, że ryzyko bayesowskie dowolnej polityki sterowa- nia U

β,r

względem dowolnego rozkładu a priori π, dla którego E

π

2

) < ∞, możemy zapisać w postaci:

(28) r(π, U

β,r

) = Z

1

(β)E

π

2

) + Z

2

(β, r)E

π

(λ) + Z

3

(β, r).

W szczególności, dla (β, r) ∈ S otrzymujemy:

(29) r(π

β,r

, U

β,r

) = Z

1

(β)k(β, r) + Z

2

(β, r) r

β + Z

3

(β, r), gdzie

k(β, r) = T

10

r

2

+ T

20

r + T

30

ze stałymi T

k0

, k = 1, 2, 3 danymi w Tabeli 1.

4.2. Granice sterowań bayesowskich. Polityka sterowania U

GB

nazywa się granicą polityk bayesowskich, jeżeli istnieje ciąg {U

k

}

k=1

polityk stero- wania bayesowskich względem pewnych rozkładów a priori taki, że U

GB

= lim

k→∞

U

k

z prawdopodobieństwem 1. Wprowadzimy teraz kilka polityk sterowania spełniających taki warunek.

Niech U

a+

= (u

+0

, u

+1

, . . . , u

+M

) będzie polityką, której sterowania okre- ślone są wzorem:

u

+M

= 0, u

+n

= −ξ

n

x ¯

n

− θ

n

a, n = 0, M − 1.

Niech U

β,a

= (u

0

, u

1

, . . . , u

M

) będzie polityką, której sterowania okre- ślone są wzorem:

u

M

= 0, u

+0

= −ξ

0

x ¯

0

− θ

0

a, u

+n

= −ξ

n

x ¯

n

− θ

n

r

n(a)

β

n

, n = 1, M − 1, gdzie r

n(a)

= aβ + 

n−1

j=1



m

i=1

v

ij

. Powyższa polityka sterowania jest dobrze określona także dla β = 0. Zauważmy też, że U

β,a

= U

β,aβ

dla (β, a) ∈ S.

Będziemy pisali, że a ∈ S

1

w sytuacji, gdy istnieje ciąg {(γ

k

, ρ

k

) }

k=1

, (γ

k

, ρ

k

) ∈ S, taki, że lim

k→∞ ρk

γk

= a. Analogicznie, będziemy pisali, że

(15)

(β, a) ∈ S

2

, jeśli istnieje ciąg {(γ

k

, ρ

k

) }

k=1

, (γ

k

, ρ

k

) ∈ S, taki, że lim

k→∞ ρk

γk

= a oraz lim

k→∞

γ

k

= β.

Z postaci zbiorów S dla każdej z sześciu rozważanych rodzin rozkładów wynika, że β > 0, o ile (β, a) ∈ S. Zatem można zauważyć, że dla a ∈ S

1

, (β, a) ∈ S

2

oraz (β, a) ∈ S zachodzą następujące związki graniczne:

U

a+

= lim

ρ→∞, ρ/γ→a

U

γ,ρ

, R(λ, U

a+

) = lim

ρ→∞, ρ/γ→a

R(λ, U

γ,ρ

), r(π, U

a+

) = lim

ρ→∞, ρ/γ→a

r(π, U

γ,ρ

), o ile E

π

2

) < ∞.

Podobnie dla polityki sterowania U

β,a

: U

β,a

= lim

γ→β, ρ/γ→a

U

γ,ρ

, R(λ, U

β,a

) = lim

γ→β, ρ/γ→a

R(λ, U

γ,ρ

), r(π, U

β,a

) = lim

γ→β, ρ/γ→a

r(π, U

γ,ρ

).

Widzimy zatem, że polityki U

a+

oraz U

β,a

są granicami bayesowskich polityk sterowania odpowiednio dla a ∈ S

1

oraz (β, a) ∈ S

2

4.3. Wybrane lematy ogólnej teorii statystycznych funkcji decyzyjnych.

Jak wiadomo, reguły minimaksowe i Γ -minimaksowe często należą do klasy reguł bayesowskich oraz reguł będących ich granicami. Przedstawimy teraz najczęściej wykorzystywane przez Trybułę lematy podające związki pomię- dzy tymi klasami reguł decyzyjnych.

Lemat 4.3. Niech {π

k

}

k=1

, π

k

∈ Γ , będzie ciągiem rozkładów a priori okre- ślonych na przestrzeni parametrów Λ. Niech {U

k

}

k=1

oraz {r(π

k

, U

k

) }

k=1

będą odpowiadającymi mu ciągami bayesowskich polityk sterowania i ich ry- zyk. Jeżeli polityka sterowania U

(0)

spełnia warunek

π∈Γ

sup r(π, U

(0)

) ≤ lim sup

k→∞

r(π

k

, U

k

), to U

(0)

jest Γ -minimaksową polityką sterowania.

Kolejne lematy są w zasadzie wnioskami z powyższego.

Lemat 4.4. Jeżeli polityka U

(0)

jest bayesowska względem pewnego roz-

kładu a priori π ∈ Γ i ma na zbiorze Γ stałe ryzyko bayesowskie, to U

(0)

jest Γ -minimaksową polityką sterowania.

(16)

Lemat 4.5. Niech {π

k

}

k=1

, π

k

∈ Γ , będzie ciągiem rozkładów a priori określonych na przestrzeni paramtrów Λ, a {U

k

}

k=1

oraz {r(π

k

, U

k

) }

k=1

będą odpowiadającymi mu ciągami bayesowskich polityk sterowania i ich ry- zyk. Jeżeli polityka sterowania U

(0)

spełnia warunek

λ∈Λ

sup R(λ, U

(0)

) ≤ lim sup

k→∞

r(π

k

, U

k

), to U

(0)

jest minimaksową polityką sterowania.

Lemat 4.6. Jeżeli bayesowska polityka sterowania U

(0)

ma stałą funkcję ryzyka na zbiorze Λ , to U

(0)

jest minimaksową polityką sterowania.

W kolejnej części pokażemy wykorzystanie niektórych ze wskazanych le- matów w dowodzeniu minimaksowości wybranych polityk sterowania w przykładowych sytuacjach decyzyjnych.

4.4. Sterowania Γ -minimaksowe przy zakłóceniach należących do rodziny wykładniczej. Niech Γ

1

będzie niepustą klasą rozkładów a priori π speł- niających warunki: E

π

(λ) = m

1

oraz E

π

2

) = m

2

. Zachodzi następujące twierdzenie.

Twierdzenie 4.7. Γ

1

-minimaksowa polityka sterowania istnieje i jest nią polityka U

β,r

dla której r/β = m

1

oraz k(β, r) = m

2

.

Dowód tego twierdzenia polega na stwierdzeniu, że wskazana polityka sterowania jest polityką bayesowską o stałym ryzyku na zbiorze Γ

1

i zasto- sowaniu Lematu 4.4. Istnienie stałych (β, r) ∈ S spełniających wskazane w twierdzeniu warunki wynika z postaci zbioru S dla poszczególnych rodzin rozkładów należących do rozważanej klasy.

Nieco bardziej skomplikowana sytuacja ma miejsce w przypadku innej rozważanej przez Trybułę klasy rozkładów a priori, a mianowicie klasy Γ

2

określonej jako klasa tych rozkładów na przestrzeni parametrów, dla których drugi moment zwykły spełnia warunek E

π

2

) = m

2

. Niech T oznacza zbiór wszystkich par (β, r), dla których k(β, r) = m

2

. Poniższe twierdzenie podaje warunki wystarczające dla istnienia sterowań Γ

2

-minimaksowych.

Twierdzenie 4.8. I. Jeżeli istnieje punkt (β, r) ∈ S taki , że k(β, r) = m

2

i Z

2

(β, r) = 0, to Γ

2

-minimaksową polityka sterowania jest U

β,r

.

II. Jeżeli Z

2

(β, r) > 0 dla każdego (β, r) ∈ S ∩T , wtedy Γ

2

-minimaksową polityką sterowania jest U

+m

2

.

III. Jeżeli Z

2

(β, r) < 0 dla każdego (β, r) ∈ S∩T , wtedy Γ

2

-minimaksową polityką sterowania jest

i ) w przypadku rozkładów normalnego i GEHS, polityka U

+m

2

; ii ) w przypadku rozkładu Poissona, polityka U

0,0

;

iii ) w przypadku rozkładów gamma i ujemno-dwumianowego, polityka U

1,0

;

(17)

iv ) w przypadku rozkładu dwumianowego, polityka U

0,m 2

.

Całość dowodu tego twierdzenia można znaleźć w oryginalnych pracach Trybuły. Jako ilustrację idei tych dowodów przedstawimy rozumowanie do- wodzące słuszności punktu II.

Niech

μ

1

= inf

(β,r)∈S∩T

r/β oraz μ

2

= sup

(β,r)∈S∩T

r/β.

Dla poszczególnych rozważanych rozkładów przedziały (μ

1

, μ

2

) są na- stępujące: dla rozkładów Poissona, gamma i ujemno-dwumianowego jest to przedział (0, √m

2

), dla rozkładu dwumianowego — (m

2

, √m

2

), dla rozkła- dów normalnego i GEHS — (−√m

2

, √m

2

).

Z postaci tych przedziałów wynika oczywiście, że dla każdego z rozwa- żanych rozkładów istnieje ciąg takich (γ, ρ) ∈ S ∩ T , dla których zachodzi ρ → ∞, oraz ρ/γ → √m

2

Załóżmy teraz, że spełniony jest warunek z punktu II, to jest Z

2

(β, r) > 0 dla każdego (β, r) ∈ S ∩ T . Wtedy dla dowolnego π ∈ Γ

2

, wobec powyższej uwagi, otrzymujemy

r(π, U

√m+

2

) = lim

ρ→∞, ρ/γ→√m2

r(π, U

γ,ρ

)

= lim

ρ→∞, ρ/γ→√m2

[Z

1

(γ)m

2

+ Z

2

(γ, ρ)E

π

(λ) + Z

3

(γ, ρ)]

≤ lim

ρ→∞, ρ/γ→√m2

[Z

1

(γ)m

2

+ Z

2

(γ, ρ) √ m

2

+ Z

3

(γ, ρ)]

= lim

ρ→∞, ρ/γ→√m2

r(π

γ,ρ

, U

γ,ρ

).

Otrzymana nierówność w świetle Lematu 4.4. dowodzi tezy tego punktu twierdzenia.

5. Perspektywy tematyki. Modele matematyczne systemów sterowa- nia są jednym z bardziej spektakularnych osiągnięć matematyków ostatnich lat. Dostrzegają to specjaliści różnych dziedzin, w tym ekonomiści, o czym w pracy [6]. Znaczenie przyjętych założeń przez Trybułę i współpracowników dość długo nie było właściwie oceniane. Dopiero w ostatnich latach poja- wiają się prace idące w tym kierunku ([2], [3]). Tematyka jest żywa i jeszcze wiele zadań czeka na rozwiązanie (patrz [5]).

Literatura

[1] M. Aoki, Optimization of Stochastic systems. Topics in discrete-time systems, Ma-

thematics in Science and Engineering, 32 New York-London: Academic Press, 354

p., 1967.

(18)

[2] Paolo Dai Pra, L. Meneghini, and Wolfgang J. Runggaldier, Explicit solutions for multivariate, discrete-time control problems under uncertainty, Syst. Control Lett., 34(4): 169–176, 1998.

[3] Paolo Dai Pra, Wolfgang J. Runggaldier, and Cristina Rudari, On dynamic pro- gramming for sequential decision problems under a general form of uncertainty, Math. Methods Oper. Res., 45(1): 81–107, 1997.

[4] W.L. Harkness and M.L. Harkness, Generalized hyperbolic secant distributions, J. Am. Stat. Assoc., 63:329–337, 1968.

[5] Qiying Hu and Wuyi Yue, Analysis for some properties of discrete time Markov decision processes, Optimization, 52(4–5):495–505, 2003.

[6] D.A. Kendrick, Stochastic control for economic models: Past, present and the paths ahead, J. Econ. Dyn. Control, 29(1–2): 3–30, 2005.

[7] C.N. Morris, Natural exponential families with quadratic variance functions, Ann.

Stat., 10:65–80, 1982.

[8] C.N. Morris, Natural exponential families with quadratic variance functions: Stati- stical theory, Ann. Stat., 11:515–529, 1983.

[9] C.N. Morris, Parametric empirical Bayes inference: theory and applications, J. Am.

Stat. Assoc., 78:47–65, 1983.

[10] Z. Porosiński, K. Szajowski, and S. Trybuła, Bayes control for a multidimensional stochastic system, System Sci., 11(2):51–64, 1985.

[11] Z. Porosiński, K. Szajowski, and S. Trybuła, Minimax control of a second order linear system, Opsearch, 23(4): 215–228, 1986.

[12] G. Sawitzki, Exact filtering in exponential families: Discrete time. Stochastic control theory and stochastic differential systems, Proc. Workshop, Bad Honnef 1979, Lect.

Notes Control Inf. Sci. 16, 554–558 (1979), 1979.

[13] G. Sawitzki, Exact filtering in exponential families: discrete time, Seminar dynami- sche Systeme, 3.79. Bochum: Ruhr-Universit¨ at Bochum, Mathematisches Institut, 11 S., 1979.

[14] G. Sawitzki, Finite dimensional filter systems in discrete time, Stochastics, 5:107–

114, 1981.

[15] S. Trybuła, Sterowanie dualne przy samoreprodukujacych się rozkładach, In: Prace V Krajowej Konferencji Automatyki, 163–169, Gdańsk, 1971. Sekcja 1. Teoria ste- rowania.

[16] K. Szajowski and S. Trybuła, Minimax control of a stochastic system with distur- bances belonging to exponential family, Zastos. Matem., 18:525–539, 1985.

[17] K. Szajowski and S. Trybuła, A minimax control of a linear system with exponential disturbances, Wiss. Ber. Techn. Hochsch. Leipzig, 7:46–48, 1986.

[18] K. Szajowski and Stanisław Trybuła, Bayes control of a discrete time linear system with random disturbances. Random horizon case, Podstawy Sterowania, 14:109–115, 1984.

[19] K. Szajowski and Stanisław Trybuła, Minimax control of a stochastic system with the loss function dependent on parameter of disturbances, Statistics, A Journal of Theoretical and Applied Statistics, 18(1):151–165, 1987. (Mathematische Opera- tionsforschung und Statistik. Series Statistics).

[20] K.J. Szajowski, Stanisław Czesław Trybuła (1932–2008), Wiadom. Mat., 45(1):119–

131, 2009.

[21] S. Trybuła, Dual control with self-reproducing a priori distributions, Podstawy Ste- rowania, 2:231–240, 1972.

[22] S. Trybuła, Dual control for disturbances with Poisson distribution, Zastos. Matem.,

13:159–164, 1972/73.

(19)

[23] S. Trybuła, Some problems of simultaneous control and estimation, Systems Sci., 10(1):5–16 (1985), 1984.

[24] S. Trybuła, A problem of control with noisy disturbances, Bull. Pol. Acad. Sci., Math., 33:229–232, 1985.

[25] S. Trybuła, Minimax control of a stochastic system, Podstawy Sterowania, 15:349–

366, 1985.

[26] S. Trybuła, On some problems of control with noisy disturbances, Systems Sci., 11(1):13–30 (1987), 1985.

[27] S. Trybuła, Optimal control for hypergeometric processes, Systems Sci., 11(3–4):31–57 (1987), 1985.

[28] S. Trybuła, Minimax control with disturbances having different parameters, Pod- stawy Sterowania, 16(3–4):329–342, 1986.

[29] S. Trybuła, Optimal control of a time continuous system, Bull. Polish Acad. Sci.

Math., 34(5–6):337-343, 1986.

[30] S. Trybuła, Simultaneous control and estimation of linear stochastic systems with unknown parameters of disturbances, Statistics. A Journal of Theoretical and Ap- plied Statistics, 17(3):365-376, 1986.

[31] S. Trybuła, Control with use of previous experience, Zastos. Matem., 19(1):1-12, 1987.

[32] S. Trybuła, Minimax and Bayes estimation when the loss function is unknown, Zastos. Matem., 19(1):69-83, 1987.

[33] S. Trybuła, Minimax control of a multivariate timecontinuous linear stochastic sys- tem, Zastos. Matem., 19(2):225-238, 1987.

[34] S. Trybuła, Minimax law for a multivariate stochastic system, Syst. Sci., 13(3–4):51- 66, 1987.

[35] S. Trybuła, On some problems of control with noisy disturbances, Systems Sci., 11(1):13-30, 1987.

[36] S. Trybuła, Solution of some problems of minimax control for a multivariate linear stochastic system, Zastos. Matem., 19:203-223, 1987.

[37] S. Trybuła, Solution of some problems of minimax control for a multivariate linear stochastic system, Zastos. Matem., 19(2):203-223, 1987.

[38] S. Trybuła, Minimax control of a linear system with multinomial disturbances, Za- stos. Matem., 20(1):67-81, 1988.

[39] S. Trybuła, Minimax law of control for a multidimensional, time continuous, li- near stochastic system, Statistics. A Journal of Theoretical and Applied Statistics, 20(2):319-330, 1989.

[40] S. Trybuła and Krzysztof Szajowski, Decision making in an incompletely known stochastic system. I, Zastos. Matem., 19:31-41, 1987.

[41] S. Trybuła and Krzysztof Szajowski, Decision making in an incompletely known stochastic system. II, Zastos. Matem., 19:43-56, 1987.

Andrzej Grzybowski Politechnika Częstochowska Instytut Matematyki i Informatyki ul. Dąbrowskiego 73, Częstochowa e-mail: azgrzybowski@gmail.com

Zdzisław Porosiński

Instytut Matematyki i Informatyki

Politechnika Wrocławska

(20)

Wybrzeże Wyspiańskiego 27, 50-370 Wrocław e-mail: Zdzislaw.Porosinski@pwr.wroc.pl.

Krzysztof J. Szajowski

Instytut Matematyki i Informatyki Politechnika Wrocławska

Wybrzeże Wyspiańskiego 27, 50-370 Wrocław e-mail: Krzysztof.Szajowski@pwr.wroc.pl.

Trybuła’s Works on Optimal Control

Abstract. The research of Trybuła on the Bayes and minimax control of the stochastic systems (see [20, 21]) has been inspired probably by the Aoki’s book [1]. He returned to the topic after relatively long period. He observed that the model of disturbances in the considered models by other authors was restricted to the gaussian variables. In the industrial practice however, there are linear stochastic systems with the additive noise which is discrete, well modeled by binomial and Poisson random variables. In this paper the unified approach to such systems with the disturbances belonging to the class of expo- nentially distributed random variables is presented. We believe that the modern economic and industrial application of control systems admit various form of noise, both continuous and discrete. The presentation will be limited to Bayes and minimax optimal controls for quadratic cost functions when the class of disturbances has some additional restriction.

More advanced consideration and models closely related to presented here can be found in papers by Trybuła listed in [20] and the authors of this note. Some authors use various estimators of unknown parameters based on the observation of the process calling these approach an adapted control. The importance of the assumptions adopted by Trybuła and the coauthors have been recently recognized and further investigation is expected for the systems (see related papers [2], [3]).

Keywords: linear system, additive disturbances, exponential class of distributions, Bay- esian control, minimax control.

(wpłynęło 7 lipca 2010 r.)

Cytaty

Powiązane dokumenty

The Equal Area Twisting axiom expresses the very rea- sonable property that a solution of bargaining problems should be “strictly sensitive” to “twisting changes” of feasible

In Theorem 3 we consider asymptotic properties of integrals of an inhomo­.. geneous system of linear differential

Kwasek Advanced static analysis and design of reinforced concrete deep beams. Diploma work, Politechnika

Nonlinear problems Geometrical nonlinearity Physical nonlinearity Cracking.. Final

Proof. We can also use the method in Exercise 5.16.. Remark: When an Itˆ o diffusion is explicitly given, it’s usually straightforward to find its infinitesimal generator, by

ANNALES SOCIETATIS MATHEMAT1CAE POLONAE Series !: COMMENTATIONES MATHEMATICAE XXIII (1983) ROCZNIKI POLSKIEGO TOWARZYSTWA MATEMATYCZNEGO.. Séria I: PRACF MATEMATYCZNE

Curvature and elevatioin of the first row profile, row distance, seat width, number of rows, elevation of the upper tier, distance between aisles, position of vomitories and

To solve the resulting discrete optimality systems, space-time multigrid schemes formulated in the full approximation storage (FAS) framework [7] are defined in Section 3, where