Teoria Optymalizacji

(1)

Teoria Optymalizacji

Wprowadzenie

W roku 1997 obchodzono 300 lat nowożytnej teorii optymalizacji z pionierskimi pracami matematyków i fizyków XVII wieku. Jednak problematyka optymalizacji jest tak stara jak historia świata. Do rozwoju optymalizacji przyczynili się:

Wergiliusz (poeta rzymski 70 - 19 p.n.Chr.) Eneida - historia założenia Kartaginy (850r.) „znaleźć krzywą zamkniętą na płaszczyźnie o danej długości, która zawiera maksymalną powierzchnię”.

1697: Johann Bernoulli ogłosił konkurs na rozwiązanie problemu brachistochrony (gr.):

Znaleźć krzywą na płaszczyźnie, łączącą dwa punkty A i B nie leżące w pionie, wzdłuż której punkt materialny, poruszający się pod działaniem siły ciężkości, przebywa drogę w najkrótszym czasie (odp. łuk cykloidy). Zadanie to rozwiązali: Leibnitz, J. Bernoulli, Newton, L’Hospital, Tschirnhaus.

(2)

Teoria Optymalizacji

Wprowadzenie

W roku 1997 obchodzono 300 lat nowożytnej teorii optymalizacji z pionierskimi pracami matematyków i fizyków XVII wieku. Jednak problematyka optymalizacji jest tak stara jak historia świata. Do rozwoju optymalizacji przyczynili się:

Wergiliusz (poeta rzymski 70 - 19 p.n.Chr.) Eneida - historia założenia Kartaginy (850r.) „znaleźć krzywą zamkniętą na płaszczyźnie o danej długości, która zawiera maksymalną powierzchnię”.

1697: Johann Bernoulli ogłosił konkurs na rozwiązanie problemu brachistochrony (gr.):

Znaleźć krzywą na płaszczyźnie, łączącą dwa punkty A i B nie leżące w pionie, wzdłuż której punkt materialny, poruszający się pod działaniem siły ciężkości, przebywa drogę w najkrótszym czasie (odp. łuk cykloidy).

Zadanie to rozwiązali: Leibnitz, J. Bernoulli, Newton, L’Hospital, Tschirnhaus.

(3)

Teoria Optymalizacji

Wprowadzenie

początek rachunku wariacyjnego: Lagrange (1736-1813), Hamilton (1805-1865), Weierstrass (1815-1897)

1939: współczesne metody optymalizacji; problemy logistyki w czasie II wojny światowej, programowanie liniowe (Danzig), programowanie całkowitoliczbowe - wybór spośród skończonej liczby decyzji: (Cabot, Balas), teoria programowania nieliniowego (Kuhn, Tucker,

Georffrion)

rozwój obliczeń komputerowych spowodował wzrost zainteresowaniami numerycznymi (Powell, Rosen, Fletcher); programowanie dynamiczne - zainteresowanie procesami z

„pamięcią” (Bellman, Ricatti)

(4)

Teoria Optymalizacji

Wprowadzenie

Georffrion)

rozwój obliczeń komputerowych spowodował wzrost zainteresowaniami numerycznymi (Powell, Rosen, Fletcher); programowanie dynamiczne - zainteresowanie procesami z

(5)

Teoria Optymalizacji

Wprowadzenie

Georffrion)

rozwój obliczeń komputerowych spowodował wzrost zainteresowaniami numerycznymi (Powell, Rosen, Fletcher);

programowanie dynamiczne - zainteresowanie procesami z

(6)

Teoria Optymalizacji

Wprowadzenie

badania kosmiczne: optymalizacja konstrukcji rakiet, problemy sterowania lotem w stratosferze i w kosmosie

optymalizacja procesów ekonomicznych: problemy alokacji produkcji, optymalny skład portfela inwestycyjnego, problemy „wielkie” i związane z nim metody dekompozycji (Lasdon, Findeisen)

„soft computing” - John Holland - Uniwersytet Michigan, 1975:

„Adaptation in Natural and Artificial Systems.”

(7)

Teoria Optymalizacji

Wprowadzenie

(8)

Teoria Optymalizacji

Wprowadzenie

(9)

Teoria Optymalizacji

Ewolucja w podejściu do problemów optymalizacyjnych

Analityczne metody klasyczne, czyli metody „górskiej wspinaczki”:

modele stworzone przez matematyków XVII - XIX wieku, „nieskażony”

świat kwadratowych funkcji celu i wszechobecnych pochodnych. Dowody możliwości rozwiązywania problemów „szkolnych”. Rozwój obliczeń komputerowych: modyfikacje metod klasycznych, algorytmizacja obliczeń umożliwiła zastosowanie do praktycznych problemów nauki i techniki, w tym do funkcji nieanalitycznych. „Softcomputing” - metody „odporne”:

algorytmy ewolucyjne, genetyczne, sieci neuronowe: zastosowanie metod optymalizacji do złożonych modeli procesów.

(10)

Teoria Optymalizacji

(11)

Teoria Optymalizacji

(12)

Teoria Optymalizacji

(13)

Teoria Optymalizacji

Formułowanie zadań optymalizacji

Proces: zjawisko fizyczne, system ekonomiczny, planowanie produkcji, transportu,

Model: jego opis matematyczny sformułowany pod kątem optymalizacji, x - zmienna decyzyjna,

F (x ) - funkcja oceny jakości,

X₀ - zbiór rozwiązań dopuszczalnych, X - przestrzeń rozwiązań,

ˆ

x - rozwiązanie (optymalna wartość zmiennej decyzyjnej).

min{F (x )}, x ∈ X0⊆ X (1)

„Dążenie człowieka do perfekcji znajduje swój wyraz w optymalizacji.

Zajmuje się ona tym, jak opisać i osiągnąć najlepsze, gdy wiemy już jak mierzyć i zmieniać Dobre i Złe”

(Beighler, Philips, 1979: Fundation of optimalization)

(14)

Metody optymalizacji statycznej

Podstawowe metody bezgradientowe poszukiwania ekstremum:

1 Metoda Hooka-Jeevesa

2 Metoda Gaussa-Seidela

3 Metoda Daviesa, Swanna, Campeya (DSC)

(15)

Metody optymalizacji statycznej

(16)

Metody optymalizacji statycznej

(17)

Teoria Optymalizacji

Metody optymalizacji statycznej

Gradient - w analizie matematycznej, operator różniczkowy, który polu skalarnemu przyporządkowuje pole wektorowe. Owo pole wektorowe ma kierunek i zwrot wektora największego wzrostu funkcji w danym punkcie, a wartość jest proporcjonalna do szybkości wzrostu (wzrost na jednostkę długości) funkcji. Wektor przeciwny gradientowi nazywany jest

antygradientem.

Gradient oznaczany jest grad lub odwróconym trójkątem (operator nabla): ∇.

(18)

Teoria Optymalizacji

Hesjan, macierz Hessego - macierz (kwadratowa) drugich pochodnych cząstkowych funkcji wektorowej o wartościach rzeczywistych, dwukrotnie różniczkowalnej w pewnym punkcie dziedziny. Czasem, pod pojęciem hesjanu rozumie się wyznacznik macierzy Hessego. Nazwa została wprowadzona przez Jamesa Sylvestera dla upamiętnienia nazwiska niemieckiego matematyka, Ludwiga Hessego.

Wyznacznik Hessego jest używany przy znajdowaniu ekstremów funkcji wielu zmiennych.

(19)

Teoria Optymalizacji

Intuicje - Intuicyjnie, gradient jest wektorem, którego zwrot wskazuje kierunek najszybszego wzrostu wartości funkcji, natomiast długość odpowiada wzrostowi tej funkcji na jednostkę długości.

Definicja gradientu jako operatora tworzącego pole wektorowe jest pojęciem analizy matematycznej. Jednak często przez gradient rozumie się zmianę wielkości fizycznej spowodowanej zmianą odległości bez specjalnego wyróżniania kierunku. W tym sensie gradient jest używany jako płynna zmiana lub obszar zmiany i oznacza:

istnienie płynnej zmiany wielkości fizycznej (stężenia, pH, temperatury, gęstości ładunku elektrycznego) w określonej przestrzeni (powierzchni/objętości), jasności, koloru w grafice,

kierunek wektora gradientu (kierunek największej zmiany), obszar, w którym występuje płynna zmiana.

(20)

Teoria Optymalizacji

istnienie płynnej zmiany wielkości fizycznej (stężenia, pH, temperatury, gęstości ładunku elektrycznego) w określonej przestrzeni (powierzchni/objętości), jasności, koloru w grafice, kierunek wektora gradientu (kierunek największej zmiany),

obszar, w którym występuje płynna zmiana.

(21)

Teoria Optymalizacji

istnienie płynnej zmiany wielkości fizycznej (stężenia, pH, temperatury, gęstości ładunku elektrycznego) w określonej przestrzeni (powierzchni/objętości), jasności, koloru w grafice, kierunek wektora gradientu (kierunek największej zmiany), obszar, w którym występuje płynna zmiana.

(22)

Teoria Optymalizacji

Przykład

Rysunek:Wektory wskazują gradient zaciemnienia

Rozpatrzmy funkcję „stopień zaciemnienia” określającą jasność punktu w zadanym obszarze (każdemu punktowi przyporządkowano liczbę, więc funkcja jest skalarna). Operator gradient przypisuje każdemu punktowi tego obszaru wektor wskazujący kierunek najszybszego wzrostu zaciemnienia obszaru. Wektory przedstawione na grafikach są ilustracją tego pola wektorowego.

(23)

Metody gradientowe optymalizacji statycznej

Metody gradientowe poszukiwania ekstremum :

1 Gradientu prostego

2 Najszybszego spadku

3 Gradientów sprzężonych

Inaczej niż w metodzie bezgradientowej, zamiast szukać minimum wykonywany jest krok o długości e.

(24)

Metody gradientowe optymalizacji statycznej

(25)

Metody gradientowe optymalizacji statycznej

(26)

Metody gradientowe optymalizacji statycznej

Warunki początkowe :

x0 - arbitralnie wybrany punkt startowy e - początkowa długość skoku

β - współczynnik zmniejszenia kroku

 - wymagana dokładność obliczeń minimum n - liczba zmienych niezależnych

Metody gradientowe polegają na wyznaczaniu kolejnego kierunku poszukiwań na podstawie znajomości gradientu funkcji celu, w punkcie osiągniętym w poprzednim kroku. Funkcja celu musi być więc znaną w postaci analitycznej i ograniczoną od dołu funkcją wypukłą klasy C² taką, by można ją było przybliżyć formą kwadratową postaci

f (x ) = a + c^Tx +1

2(x^TAx ) (2)

,w której macierz A jest symetryczna dodatnio określona, o elementach równych drugim pochodnym cząstkowym funkcji f(x).

(27)

Metoda gradientu prostego

Metoda gradientu prostego jest podstawową, choć nie najbardziej efektywną metodą poszukiwania ekstremum. Jej algorytm przy poszukiwaniu minimum funkcji f(x) jest następujący:

1 Przyjąć punkt startowy x0, długość kroku e, współczynnik redukcji kroku a ¡ 1, dokładność wyznaczenia ekstremum (zerowania się gradientu) . Przyjąć i=0.

2 Obliczyć w punkcie x_i wartość funkcji celu f (x_i) i jej gradientu g (x_i).

3 Wyznaczyć kierunek poszukiwań przeciwny do kierunku gradientu d = −g (x_i).

4 Wykonać z punktu x_i krok w wyznaczonym kierunku d o długości e przechodząc do punktu xi +1= xi+ ed , czyli do punktu [xi− eg (xi)].

5 Obliczyć wartość funkcji celu i jej gradientu w nowym punkcie.

6 Jeśli g^Tg < , zakończyć postępowanie. W przeciwnym razie przejść do punktu 4.

7 Jeśli f (xi +1) < f (xi), powtórzyć postępowanie dla wyznaczonego punktu xi +1, czyli przyjąć i=i+1, przejść do punktu 2.

8 W przypadku przeciwnym cofnąć się do poprzedniego punktu i zmniejszyć krok, czyli przyjąć e=ae i przejść do punktu 4.

(28)

Metoda gradientu prostego

(29)

Metoda gradientu prostego

(30)

Metoda gradientu prostego

4 Wykonać z punktu x_i krok w wyznaczonym kierunku d o długości e przechodząc do punktu x_{i +1}= x_i+ ed , czyli do punktu [x_i− eg (x_i)].

(31)

Metoda gradientu prostego

(32)

Metoda gradientu prostego

(33)

Metoda gradientu prostego

(34)

Metoda gradientu prostego

(35)

Metoda najszybszego spadku

Metoda najszybszego spadku (NS) jest modyfikacją metody gradientu prostego. Modyfikacja polega na tym, że w metodzie NS po wyznaczeniu kierunku poszukiwań wyznaczane jest minimum funkcji w tym kierunku, a nie przesunięcie ze stałym krokiem.

Algorytm metody NS przy poszukiwaniu minimum funkcji f(x) jest następujący:

1 Przyjąć punkt startowy x0, dokładność wyznaczenia ekstremum (zerowania się gradientu) . Przyjąć i=0.

4 Wykonać z punktu x_i w wyznaczonym kierunku d krok e o takiej wartości, by osiągnąć minimum w tym kierunku, przechodząc do punktu xi +1= xi+ ed .

5 Obliczyć wartość funkcji celu i jej gradientu w nowym punkcie. Przyjąć i=i+1.

6 Jeśli g^Tg > , przejść do punktu 2. W przeciwnym razie zakończyć postępowanie.

(36)

Metoda najszybszego spadku

(37)

Metoda najszybszego spadku

(38)

Metoda najszybszego spadku

(39)

Metoda najszybszego spadku

Przyjąć i=i+1.

(40)

Metoda najszybszego spadku

Przyjąć i=i+1.

(41)

Metoda gradientu sprzężonego

Metoda gradientu sprzężonego (GS) jest modyfikacją metody najszybszego spadku.

Modyfikacja polega na tym, że w metodzie GS kolejne kierunki poszukiwań są sprzężone do poprzednich względem macierzy A. Z każdego punktu jest wyznaczane minimum funkcji w kierunku.

(42)

Metoda gradientu sprzężonego

Algorytm metody GS przy poszukiwaniu minimum funkcji f(x):

1 Przyjąć punkt startowy x₀, dokładność wyznaczenia ekstremum (zerowania się gradientu) . Przyjąć i=0.

2 Obliczyć w punkcie xi wartość funkcji celu f (xi) i jej gradientu g (xi).

3 Wyznaczyć kierunek poszukiwań z1przeciwny do kierunku gradientu z1= −g (xi), czyli z1= −Ax0− c.

4 W wyniku minimalizacji f(x) w tym kierunku z równania:

z₁^T[A(x0+ ez1) + c] = 0 otrzymuje się wartość kroku e, a następnie punkt x1= x0+ ez1.

6 Wyznaczyć nowy kierunek poszukiwań sprzężony do poprzednich, czyli zi +1= −g (xi) + βzi,

7 Wykonać z punktu x_i w wyznaczonym kierunku z_{i +1} krok e o takiej wartości, by osiągnąć minimum w tym kierunku, przechodząc do punktu x_{i +1}= x_i+ ez_{i +1}.

(43)

Metoda gradientu sprzężonego

(44)

Metoda gradientu sprzężonego

(45)

Metoda gradientu sprzężonego

(46)

Metoda gradientu sprzężonego

Przyjąć i=i+1.

(47)

Metoda gradientu sprzężonego

Przyjąć i=i+1.

(48)

Metoda gradientu sprzężonego

Przyjąć i=i+1.

(49)

Metoda gradientu sprzężonego

Przyjąć i=i+1.

(50)

Teoria Optymalizacji

Metoda gradientu sprzężonego

Inne metody gradientowe - Davidona, Pearsona i Newtona-Raphsona wraz z ich modyfikacjami działają również na zasadzie tworzenia kierunków sprzężonych. Jedynie sposób tworzenia tych kierunków jest nieco odmienny.

Kierunki poszukiwań są określane z zależności:

z_{i +1}= −H_ig (x_i) (3)

przy czym w każdej z wymienionych metod macierz Hi jest określana inaczej.

(51)

Gradientowe metody poszukiwania ekstremum

II wersja

Wykazując zbieżność funkcji i jej gradientu zakłada się, że funkcja celu jest ograniczona od dołu funkcją wypukłą klasy C2 taką, że można ją aproksymować formą kwadratową postaci :

f (x ) = a + bTx +1

2xTAx (4)

przy czym:

A - dodatnio określona macierz, której elementami są drugie pochodne cząstkowe funkcji f(x)

(52)

Gradientowe metody poszukiwania ekstremum

Algorytm obliczeń :

1 Obliczanie w punkcie startowym x₀wartość funkcji celu F₀= f (x₀) oraz jej gradientu g₀= g (x₀)

2 Wyznaczanie kierunku poszukiwań ξ = −g0

3 Wzdłuż kierunku ξ wykonaj krok o długości e oraz określ

współrzędne nowego punktu : xi +1= xi+ eξ przy czym dla pierwszej iteracji xi = x0

4 Obliczenie w nowym punkcie wartość funkcji F = f (xi +1) oraz gradientu g = g (xi +1) jeżeli krok był pomyślny F < F0 to powtarzaj od punktu 2 podstawiając g (gradient) w miejsce g0

5 Jeżeli nie osiągnięto minimum, należy wrócić do punktu 4 podstawiając: xi= xi +1− eξ oraz trzeba zmniejszyć krok o β i przejść do punktu 3.

(53)

Gradientowe metody poszukiwania ekstremum

2 Wyznaczanie kierunku poszukiwań ξ = −g₀

(54)

Gradientowe metody poszukiwania ekstremum

(55)

Gradientowe metody poszukiwania ekstremum

(56)

Gradientowe metody poszukiwania ekstremum

(57)

Teoria Optymalizacji

Gradientowe metody poszukiwania ekstremum

Rysunek:Przebieg algorytmu gradientu prostego

W tej metodzie zastosowano minimalizację funkcji wzdłuż wyznaczonego kierunku.

(58)

Gradientowe metody poszukiwania ekstremum

Zbieżność metody:

Załóżmy, że funkcja celu w pobliżu ekstremum wyraża się przez:

f (x ) = ¹₂x^TAx

wówczas gradient funkcji wynosi : ∆f (x ) = A ∗ x

Przesunięcie od i do i+1 można zapisać jako : xi +1= xi− γ ∗ A ∗ xi lub xi +1= xi∗ P1(A)/P2(A), gdzie P1(λ) = 1 − γ ∗ λ

λ - wartość własna macierzy A, |det(A − λ)| = 0

Utwórzmy wielomian pierwszego stopnia macierzy A : Q₁(λ)

Q₁(λ₁) = α₀+ α₁λ₁= −1 (5) Q₁(λ₀) = α₀+ α₁λ₀= 1 (6) gdzie λ0i λ1są najmniejszą i największą wartością własną macierzy A.

(59)

Gradientowe metody poszukiwania ekstremum

Dodatnio określona A ma dodatnie wartości własne. Rozwiązując układ równań otrzymujemy : α₀i α₁

α₀= −λ_n− λ₁ λn− λ1

, α₁= 2 λn− λ1

(7) ,więc:

Q1= (λ) = 2λ − (λ1+ λn)

λ_n− λ₁ f (xi +1) = f [P1(A)

P₁(0)xi] ¬ f [Q1(A)

Q₁(0)xi] (8) Zastępując xi przez

xi =

n

X

j =1

aijvj (9)

gdzie v_i oznacza wektory odpowiadające wartościom własnym λ_j dla j = 1, 2, 3, ...

(60)

Gradientowe metody poszukiwania ekstremum

Korzystając z formy kwadratowej (funkcji celu):

f (xi +1) ¬ f [Q₁(A) Q1(0)xi] = 1

2[Q₁(A)

Q1(0)xi]^TAQ₁(A)

Q1(0)xi (10) skąd:

f (xi +1) ¬1 2

1 Q1(0)²

X

j

(ai ,j)²Q1(λj)²λj ¬ 1 2

X

j

(ai ,j)²λj (11)

ponieważ z definicji |Qi(λj)| ¬ 1, j=1,2,...,n więc ostatecznie :

f (xi +1) ¬ 1

Q1(0)²f (x1) ¬ (λn− λ1

λn+ λ1

)²f (xi) (12)

(61)

II metoda

Informacje wejściowe :

x0 - arbitralnie wybrany punkt startowy e - początkowa długość kroku

ej - wymagana dokładność obliczeń w aktualnie występującym kierunku poszukiwań

e0- wymagana dokładność obliczeń minimum globalnego n - liczba zmiennych niezależnych

(62)

II metoda

1 Oblicz w punkcie startowym x₀wartości funkcji celu F₀= f (x₀) oraz jej gradientu g0= g (x0)

2 Wyznacz kierunek poszukiwań ξi= −g

3 Wzdłuż kierunku ξi określa λi minimalizujące f (xi −1+ ξiλi) oraz współrzędne nowego punktu xi= xi −1+ ξiλi

4 Oblicz w nowym punkcie wartość gradientu g = g (xi +1)

5 Sprawdź, czy osiągnięto minimum. Jeżeli nie, wróć do punktu 2.

(63)

II metoda

(64)

II metoda

(65)

II metoda

(66)

II metoda

(67)

II metoda

Rysunek:Przebieg algorytmu najszybszego spadku

(68)

II metoda

Metoda ta została opracowana przez Hestenesa i Stiefela w 1952 roku, służyła do rozwiązywania układów równań liniowych. Kierunki

poszukiwań tworzone są tak, aby każdy kolejny był sprzężony do wszystkich poprzednich. Dwa kierunki ξi oraz ξj są wzajemnie sprzężone względem dodatnio określonej macierzy A, jeżeli

ξ_iAξ_j = 0 (13)

dla i <> j kierunki wzajemnie sprzężone są liniowo niezależne.