Adaptacja parametrów algorytmu ewolucyjnego. Regula 1/5 sukcesów. Samoczynna adaptacja zasięgu mutacji poprzez włączenie wektora wariancji do informacji genotypowej. Algorytm CMA-ES.

(1)

WAE

Jarosław Arabas

Adaptacja i samoczynna adaptacja

parametrów AE

(2)

Dynamika mutacyjnego AE

●

Mutacja gaussowska

σ=0.1

(3)

Dynamika mutacyjnego AE

●

Mutacja gaussowska

σ=0.55

(4)

Dynamika mutacyjnego AE

●

Mutacja gaussowska

σ=5

(5)

Eksploracja i eksploatacja

●

Sterowanie presją selekcji

●

Reprodukcja

–

progowa – wartość

–

turniejowa – wielkość szranek s

–

proporcjonalna – modyfikacja wartości funkcji celu

(fitness scaling)

Im większe zróżnicowanie prawdopodobieństwa selekcji,

tym większa presja selekcji

●

Sukcesja – jeśli jest elitarna, to zwiększa presję

selekcji

●

Rozłożenie populacji w przestrzeni zależne od

funkcji celu

(6)

Eksploracja i eksploatacja

●

Rozpraszanie populacji w sposób niezależny

od wartości funkcji celu

●

Mutacja - zasięg mutacji (wariancja ) - im jest

większa, tym większa różnorodność

●

Krzyżowanie uśredniające – im większe jego

prawdopodobieństwo , tym mniejsza

różnorodność

●

Krzyżowanie wymieniające – rozprasza populację

poprzez częściową dekorelację wymiarów

v

_m

(7)

Adaptacja parametrów AE

Algorytm

ewolucyjny dynamiki AEMonitor

Model odniesienia Sterowanie parametrami generacja rozwiązań wielkości zagregowane

–

Wartości parametrów uchyb

(8)

Zaprogramowane sterowanie

parametrami AE

Algorytm ewolucyjny Sterowanie parametrami generacja rozwiązań Wartości parametrów

(9)

Samoczynna adaptacja

parametrów AE

generacja rozwiązań

punkt przestrzeni przeszukiwań parametry mutacji

Reprezentacja osobnika zawiera parametry

punkt przestrzeni przeszukiwań parametry mutacji Populacja Parametry określają sposób przekształcania punktu Sterowanie AE mutacja z wbudowaną modyfikacją parametrów

(10)

Samoczynna adaptacja

parametrów AE

generacja rozwiązań

punkt przestrzeni przeszukiwań

adaptowane parametry Reprezentacja osobnika _{zawiera parametry}

punkt przestrzeni przeszukiwań adaptowane parametry

Populacja

Parametry określają sposób przekształcania punktu

(11)

Przykład adaptacji mutacji

●

Sterowanie zaprogramowane

●

Reguła 1/5 liczby sukcesów

●

Samoczynna adaptacja

(Schwefel, Rechenberg)

(12)

Zaprogramowane sterowanie

parametrami

(13)

(14)

Zależność tempa zbieżności od

zasięgu mutacji (alg. wspinaczkowy)

Rysunek z: A. Auger, N. Hansen:

CMA-ES — Evolution Strategies and Covariance Matrix Adaptation, tutorial, GECCO'2011

Zasięg mutacji zależny od odległosci od środka układu współrzędnych (czysto teoretyczna sytuacja)

(15)

Zależność tempa zbieżności od

zasięgu mutacji (alg. wspinaczkowy)

(16)

Reguła 1/5 liczby sukcesów

Średnia odległość mutantów

od rodzica(średnia długość kroku) jest równa standardowemu odchyleniu

Wraz ze wzrostem wariancji spada proporcja mutantów

o jakości lepszej od rodzica

Empirycznie dobrana wartość minimalizująca czas dojścia do

akceptowalnego poziomu wartości funkcji celu

(17)

Reguła 1/5 liczby sukcesów

●

Liczba mutacji w wyniku których mutant jest

lepszy od rodzica powinna wynosić 1/5

●

Sterowanie wariancją mutacji

●

Pierwotnie stosowana do (1,lambda)-ES, czyli

algorytmu wspinaczkowego

σ (

t+k )=a σ (t)

gdy p(sukces)<0.2

σ (

t +k)=

1 a

σ (

t )

gdy p(sukces)>0.2

(18)

Reguła 1/5 liczby sukcesów

(19)

Mutacja wariantowa z wyborem

zależnym od poprawy

Wariant mutacji #1 Wariant mutacji #K wybór p₁ p_K

Prawdopodobieństwo wyboru zależne od tego, ile mutantów było lepsze od ich rodziców Zapominanie

(20)

Mutacja wariantowa z wyborem

zależnym od poprawy

procedure mutation(x )

j

∗

=

select j

where p

_sel

(

j)=

n

s

(

j)

∑

_k=1K

n

_s

(

k )

y=mutation( x , j

∗

)

if (success( j

∗

))

n

_s

(

j

∗

)=

n

_s

(

j

∗

)+ α

n

_s

(

j)=β⋅n

_s

(

j)

return ( y)

ns – skumulowana liczba sukcesów dla każdego wariantu mutacji

(21)

Samoczynna adaptacja

zasięgu mutacji

procedure mutation(x )

σ

_j

=σ

_j

exp(τ a+ τ ' a

_j

)

where τ=

1 √

2n

, τ '=

1 √

2 _√

n

, a∼N (0,1), a

j

∼

N (0,1)

y

_j

=

x

_j

+ σ

_j

d

_j

where d

_j

∼

N (0,1)

return ( y)

(22)

Adaptacja skumulowanego kroku

algorytm CSA-ES

(23)

Adaptacja skumulowanego kroku

algorytm CSA-ES

c

_σ

≈

4 /n , d

_σ

≈

1,

p

_σ

=

0 while ! stop

generuj d

_i

(

t)∼N (0, I ),i=1. .. λ

oblicz q

_i

(

t)=q

₍

m(t)+ σ (t)⋅d

_i

(

t )

₎

sortuj według q

_i

(

t)

Δ (

t )=

_μ

1 ∑

i=1 μ

d

_i

(

t)

m(t+ 1)=m(t)+ σ (t )⋅Δ (t )

p

_σ

(

t+ 1)=(1−c

_σ

)

p

_σ

(

t )+

√

1−(1−c

_σ

)

2√

μ Δ (

t)

σ (

t+ 1)=σ (t )⋅exp

(

c

σ

d

_σ

(

∥

p

_σ

∥

E∥N (0, I )∥

−1

)

t ← t+ 1

Przestrzeń x Przestrzeń skojarzona

(24)

Adaptacja skumulowanego kroku

algorytm CSA-ES

Trajektoria punktu środkowego w przestrzeni skojarzonej

(25)

Modyfikacja macierzy kowariancji

algorytm CMA-ES (wersja 0)

C (1)=I

while ! stop

generuj d

_i

(

t)∼N (0,C (t )), i=1... λ

oblicz q

_i

(

t)=q

₍

m(t )+σ (t)⋅d

_i

(

t)

₎

sortuj według q

_i

(

t)

Δ (

t)=

_μ

1 ∑

μ_i=1

d

_i

(

t)

m(t+1)=m(t)+σ (t)⋅Δ (t)

C (t +1)=(1−c

_cov

)

C (t )+c

_cov

μ Δ (

t)Δ (t )

T

t ← t +1

Przestrzeń x

(26)

Adaptacja macierzy kowariancji

algorytm CMA-ES

Δ (

t)=

_μ

1 ∑

μ_i=1

d

_i

(

t )

d

_i

(

t)∼σ (t )⋅N (0,C (t )),i=1. .. λ

(27)

Adaptacja macierzy kowariancji

algorytm CMA-ES

(28)

Modyfikacja macierzy kowariancji

algorytm CMA-ES (wersja 1)

C (1)=I ,

p

_c

(

1)=0

while ! stop

generuj d

_i

(

t )∼N (0,C (t )), i=1... λ

oblicz q

_i

(

t )=q

₍

m(t )+σ (t )⋅d

_i

(

t)

₎

sortuj według q

_i

(

t)

Δ (

t)=

_μ

1 ∑

i=1 μ

d

_i

(

t )

m(t +1)=m(t)+σ (t)⋅Δ(t )

p

_c

(

t +1)=(1−c

_c

)

p

_c

(

t )+

√

1−(1−c

_c

)

2√

μ Δ (

t)

C (t +1)=(1−c

_cov

)

C (t )+c

_cov

p

_c

(

t +1) p

_c

(

t +1)

T

t ← t +1

bezwładność Przestrzeń x

(29)

Adaptacja skumulowanego kroku

algorytm CMA-ES

p

_c

(

t+ 1)=(1−c

_c

)

p

_c

(

t)+

√

1−(1−c

_c

)

2√

μ Δ (

t)

C (t+ 1)=(1−c

_cov

)

C (t )+ c

_cov

p

_c

(

t+ 1) p

_c

(

t+ 1)

T

Δ (

2)

C (2)

C (1)

(30)

Modyfikacja macierzy kowariancji

algorytm CMA-ES (wersja 2)

C (1)=I

while ! stop

generuj d

_i

(

t)∼N (0,C (t )), i=1... λ

oblicz q

_i

(

t)=q

(

m(t )+σ (t)⋅d

_i

(

t)

)

sortuj według q

_i

(

t)

Δ (

t)=

_μ

1 ∑

μ_i=1

d

_i

(

t)

m(t+1)=m(t)+σ (t)⋅Δ(t)

C (t +1)=(1−c

_cov

)

C (t )+c

_cov

∑

_i=1μ

d

_i

(

t) d

_i

(

t )

T

t ← t +1

uwzględnienie wielu wektorów różnic

Wszystkie operacje w przestrzeni x

(31)

Pełny CMA-ES

C (1)=I ,

p

_c

(1)=0,

p

_σ

(1)=0

while ! stop

generuj d

_i

(

t )∼N (0,C (t )),i=1... λ

oblicz q

_i

(

t )=q

(

m(t )+σ (t )⋅d

_i

(

t )

)

sortuj według q

_i

(

t )

Δ (

t )=

_μ

1 ∑

μ_i=1

d

_i

(

t )

m(t +1)=m(t )+σ (t )⋅Δ (t )

p

_σ

(

t +1)=(1−c

_σ

)

p

_σ

(

t )+C

−1/2

√

1−(1−c

_σ

)

2√

μ Δ(

t )

p

_c

(

t +1)=(1−c

_c

)

p

_c

(

t )+

√

1−(1−c

_c

)

2√

μ Δ (

t )

σ (

t +1)=σ (t )⋅exp

(

c

σ

d

_σ

(

‖

p

_σ

‖

E‖N (0, I )‖

−1

)

C (t +1)=(1−c

₁

−

c

_μ

)

C (t )+c

₁

p

_c

(

t +1) p

_c

(

t +1)

T

+

c

_μ

∑

_i=1μ

d

_i

(

t )d

_i

(

t )

T

t ←t +1

Przestrzeń x Przestrzeń skojarzona

(32)

Pełny CMA-ES

C (1)=I ,

p

_c

(1)=0,

p

_σ

(1)=0

while ! stop

generuj d

_i

(

t )∼N (0,C (t )),i=1... λ

oblicz q

_i

(

t)=q

(

m(t)+σ (t )⋅d

_i

(

t)

)

sortuj według q

_i

(

t)

Δ (

t )=

_μ

1 ∑

_i=1μ

d

_i

(

t )

m(t +1)=m(t)+σ (t )⋅Δ (t)

p

_σ

(

t +1)=(1−c

_σ

)

p

_σ

(

t)+

√

1−(1−c

_σ

)

2√

μ

C

−1/2

Δ(

t)

σ (

t +1)=σ (t)⋅exp

(

c

σ

d

_σ

(

‖

p

_σ

‖

E‖N (0, I )‖

−1

)

p

_c

(

t +1)=(1−c

_c

)

p

_c

(

t )+

√

1−(1−c

_c

)

2√

μ Δ (

t )

C (t +1)=(1−c

₁

−

c

_μ

)

C (t )+ c

₁

p

_c

(

t +1) p

_c

(

t +1)

T

+

c

_μ

∑

μ_i=1

d

_i

(

t)d

_i

(

t )

T

t ← t +1

(33)

CMAES

Covariance Matrix Adaptation

Evolution Strategy

Na podstawie selekcji adaptuje się kształt macierzy kowariancji

Jej skala zależy od ścieżki ewolucji

(34)

(35)

(36)