Zagadnienie optymalizacji metodą MC - Metody Monte-Carlo i MCMC

Drugą klasą problemów, które można rozwiązać poprzez zastosowanie me-tod MC, są zagadnienia optymalizacji, ze szczególnym uwzględnieniem kwestii poszukiwania ekstremów globalnych danej funkcji. Innymi słowy, zainteresowani jesteśmy rozwiązaniem problemu

maxx∈Xh(x) (5.30)

dla pewnej funkcji h(x) o dziedzinie X ⊂ R^p.

Najprostszym rozwiązaniem problemu (5.30) przy założeniu zwartości prze-strzeni stanów X jest wygenerowanie próby X¹, X2, . . . , Xn z rozkładu jedno-stajnego na X . Wtedy trywialny estymator

ˆhmax= max

i=1,...,n{h(Xⁱ)} (5.31)

jest naturalnym estymatorem rozwiązania dla zadania optymalizacji (5.30).

Oczywiście także i dla problemu (5.30), podobnie jak dla problemu całko-wania funkcji, możliwe jest zastosowanie szeroko znanych, deterministycznych metod numerycznych (chociażby np. metody Newtona, metody siecznych czy ich uogólnień – patrz np. [12]). Jednak jeśli rozpatrywana funkcja h(x) posiada kilka maksimów lokalnych, zastosowanie metody deterministycznej może zaowo-cować „uwięźnięciem” algorytmu, tzn. znalezieniem tylko jednego z ekstremów lokalnych, a nie prawdziwego maksimum globalnego. Ponadto w przypadku de-terministycznych metod numerycznych częstokroć konieczne są dodatkowe za-łożenia co do szczególnych własności funkcji h(x), jak np. jej różniczkowalność, lub co do odpowiednio regularnej postaci jej dziedziny X .

5.2.1 Symulowane wyżarzanie

Remedium na wspomnianie wyżej problemy może być zastosowanie meto-dy MC zwanej symulowanym wyżarzaniem (w j. ang. simulated annealing) z modyﬁkacją zaproponowaną przez Metropolisa (patrz np. [15, 25, 30]).

Metoda ta wymaga wprowadzenia dodatkowej zmiennej skalującej T > 0, tradycyjnie nazywanej temperaturą, ze względu na historyczne zastosowania sy-mulowanego wyżarzania w ﬁzyce. Startując z pewnej wartości x0, metoda polega na generacji kolejnych wartości Xnz wykorzystaniem następującego algorytmu:

Algorytm 5.5.

1. Wylosuj proponowaną wartość Yn z pewnego rozkładu prawdopodobień-stwa na otoczeniu wartości poprzedniego kroku X_n−1= x_n−1, np. z roz-kładu jednostajnego na otoczeniu tego punktu. W ogólności losowanie nastąpić może z dowolnego rozkładu o gęstości postaci g(|xn−1− Yⁿ|)).

2. Wybierz kolejny punkt Xn według następującego przepisu:

Xn=

(Yn z prawd. p = min {exp(∆h/T ), 1}

x_n−1 z prawd. 1 − p , (5.32)

gdzie ∆h = h(Yn) − h(xn−1).

Jak widzimy z (5.32), jeśli funkcja h(x) ma większą wartość w nowo wyloso-wanym punkcie Yn, to zostanie on na pewno zaakceptowany i stanie się zmien-ną Xn. Jednocześnie, nawet gdy wartość funkcji jest niższa w nowym punkcie Yn, to punkt ten może zostać zaakceptowany na Xn z niezerowym prawdopodo-bieństwem p = exp(∆h/T ). Umożliwia to ucieczkę z ewentualnego maksimum lokalnego i daje szansę na znalezienie maksimum globalnego.

Powyższy algorytm jest zazwyczaj implementowany z dodatkowym warun-kiem monotonicznej zbieżności T → 0. Zmniejszanie się parametru temperatury ma celu stopniowe „zamrażanie” kroków algorytmu, który najpierw szybko prze-szukuje całą dziedzinę, aby stopniowo zatrzymać się w ekstemum. Jak z tego wynika, na odpowiednie zachowanie się procedury, a więc i na znalezienie z du-żym prawdopodobieństwem globalnego ekstremum, olbrzymi wpływ ma sposób zbiegania parametru temperatury T do zera.

Należy również podkreślić, że przedstawiony powyżej algorytm nie jest już typową procedurą Monte Carlo, należy raczej do dziedziny metod MCMC (Mar-kov Chain Monte Carlo).

5.2.2 Metoda EM

Nazwa algorytmu EM pochodzi od dwóch kroków wykorzystywanych w tej metodzie – kroku obliczania wartości oczekiwanej (krok E – Expectation) i kroku szukania wartości maksymalnej (krok M – Maximization). Zanim jednak przy-stąpimy do opisania algorytmu EM, pokrótce przedstawimy modele brakującej zmiennej, w których metoda ta może być wykorzystana.

W przypadku modeli brakującej zmiennej (missing data models), funkcja, którą chcemy optymalizować, może zostać przedstawiona w postaci

h(x) = EZ(H(x, Z)) , (5.33)

czyli jako wartość oczekiwana obliczana względem dodatkowej zmiennej Z. Za-zwyczaj zmienna Z wynika bezpośrednio z rozważanego modelu (np. w przy-padku danych cenzorowanych, gdzie nasza informacja ograniczona jest przez istnienie dodatkowej zmiennej cenzurującej) lub może być dodana sztucznie, w celu ułatwienia rozwiązania problemu optymalizacji.

Model (5.33) rozważany może być na gruncie statystyki, ze szczególnym uwzględnieniem pojęcia wiarygodności i estymacji metodą największej wiary-godności (patrz rozdział 1.2.12). W takim przypadku funkcją wiarywiary-godności pełnego modelu (complete-model likelihood) nazywamy

L^c(θ|x, z) = f (x, z|θ) = f^θ(x, z) , (5.34) gdzie f (x, z|θ) jest łączną gęstością zmiennych X i Z przy ustalonym parame-trze modelu statystycznego θ.

W takim modelu zakładamy, że obserwujemy próbę X1, X2, . . . , Xn zmien-nych iid z rozkładu o gęstości g(x|θ) = g^θ(x). Interesuje nas zadanie estymacji metodą największej wiarygodności, czyli znalezienie

θ = supˆ

L(θ) = sup

L(θ|x¹, x2, . . . , xn) = sup

L(θ|x) , (5.35) gdzie x będzie w skrócie oznaczać wektor znanych nam wartości obserwacji x1, x2, . . . , xn. Obserwacje dodatkowych zmiennych Z1, Z2, . . . , Znbędziemy ana-logicznie oznaczać przez z = z1, z2, . . . , zn. Łączna gęstość X1, . . . , Xni Z1, . . . , Zn

przy ustalonym parametrze θ jest postaci f(x, z|θ) = f^θ(x, z).

Z deﬁnicji gęstości warunkowej mamy k(z|θ, x) = f (x, z|θ)

g(x|θ) , (5.36)

gdzie k(z|θ, x) jest gęstością warunkową brakującej zmiennej Z pod warunkiem parametru θ i dla znanej zmiennej X. Z (5.36) otrzymujemy relację łączącą wiarygodność pełnego modelu i wiarygodność L(θ|x) dla zmiennych obserwo-wanych

log L(θ|x) = E^k,θ0(log L^c(θ|x, z)) − E^k,θ0(k(z|θ, x)) , (5.37) gdzie wartość oczekiwana liczona jest względem ustalonej wartości parametru θ0 i gęstości k(z|θ⁰, x). Co istotne, w celu znalezienia maksimum log L(θ|x) wystarczy skupić się na pierwszym elemencie po prawej stronie równania (5.37).

Jeśli wprowadzimy oznaczenie

Q (θ|θ⁰, x) = Ek,θ0(log L^c(θ|x, z)) , (5.38) otrzymujemy następujący iteracyjny algorytm, startujący z ustalonej wartości θ0:

Algorytm 5.6.

1. (Krok E) Dla ustalonej wartości θn, oblicz

Q (θ|θⁿ, x) = Ek,θn(log L^c(θ|x, z)) (5.39) 2. (Krok M) Znajdź

θn+1= arg max

θ Q (θ|θⁿ, x) . (5.40) Zbieżność takiego algorytmu jest zapewniana przez następujące twierdzenia.

Twierdzenie 5.7. Ciąg θ0, θ1, . . . wygenerowany algorytmem EM spełnia wa-runek

L(θn+1|x) L(θⁿ|x) , (5.41) przy czym równość zachodzi wtedy i tylko wtedy, gdy

Jak widzimy, twierdzenie 5.7 oznacza, że wartość funkcji wiarygodności zwięk-sza się wraz z każdym krokiem algorytmu EM. Z kolei z twierdzenia 5.8 wynika, że istnieje zbieżność, ale niekoniecznie do globalnego maksimum, czyli nasze-go poszukiwanenasze-go estymatora w problemie (5.35). Z tenasze-go względu stosuje się dodatkowe techniki zapewniające zbieżność do maksimum globalnego, jak np.

rozpoczynanie metody EM z różnych punktów startowych.

Metoda MC może być zastosowana do algorytmu EM, dając tzw. metodę MCEM (Monte Carlo EM ). Stosuje się ją w kroku E, ze względu na problemy powstające przy obliczaniu wartości oczekiwanej (5.39). Remedium może być generowanie próby Z1, Z2, . . . , Zm zmiennych z rozkładu o gęstości warunkowej k(z|θⁿ, x). Wtedy estymator postaci

Q (θˆ |θⁿ, x) = 1 przybliża odpowiednią wartość w kroku E.

W dokumencie Metody Monte-Carlo i MCMC (Stron 72-75)