Rozwiązywanie algebraicznych układów równań liniowych metodami iteracyjnymi

(1)

Rozwiązywanie algebraicznych układów równań liniowych metodami iteracyjnymi

Plan wykładu:

1. Przykłady macierzy rzadkich i formaty ich zapisu 2. Metody: Jacobiego, Gaussa-Seidla, nadrelaksacji 3. Zbieżność metod iteracyjnych

4. Metody: największego spadku, sprzężonego gradientu.

Literatura: Yousef Saad „Iterative methods for sparse linear systems”

(2)

DWT 87: WIeża DWT 234: Wieża z platformą DWT 607: Wirnik Wankela Matrix Market - DWT: Everstine's collection from the Harwell-Boeing Collection

Łopata turbiny 2802 x 2802, 6342 NZ

Cylinder z kołnierzem 2919 x 2919,

7593 NZ

(3)

3 Wybrane formaty zapisu macierzy rzadkich

- CSR (compressed sparse row) – trzy wektory: wartości, numery kolumn, początki wierszy (pierwsze nie-zero w wierszu)

- CSC (compressed sparse column) – trzy wektory: wartości, numery wierszy, początki kolumn (pierwsze nie-zero w kolumnie)

- CF (coordinate format) – trzy wektory dla: wartości, oraz numery kolumn i wierszy dla nie-zer

CSR dla macierzy symetrycznej – zapamiętujemy tylko macierz U

CSR dla macierzy niesymetrycznej

wartości = (1 -1 -3 5 4 6 4 7 -5) kolumna = (1 2 4 2 3 4 5 4 5) wiersz = (1 4 5 8 9 10)

wartości = (1 -1 -3 -2 5 4 6 4 -4 2 7 8 -5) kolumna = (1 2 4 1 2 3 4 5 1 3 4 2 5) wiersz = (1 4 6 9 12 14)

(4)

Mnożenie Ax=y w formacie CSR dla macierzy niesymetrycznej

a[ ] - elementy macierzowe, k[] - numery kolumn, w[]-indeksy z poczatkami wierszy

y=0;

for(i=1; i<n; i++){

l₁=w[i]; // początek indeksow dla i-tego wiersza l₂=w[i+1]-1; // koniec indeksów dla i-tego wiersza

for(l=l₁; l<=l₂; l++){

j=k[l]; //numer kolumny y[i]=y[i]+a[l]*x[j];

} }

X

n j=1

a

_ij

x

_j

= y

_i

(5)

5 Mnożenie Ax=y w formacie CSR dla macierzy symetrycznej

A=U+D+L oraz L=U^T

(U+D+L)x = y =(D+U)x + (x

^T

U)

^T

Czyli

Jeśli zamienimy wskaźniki w drugiej sumie to element a_ij*x_i będzie dawać wkład do y_j , które zostanie wyznaczone później (j>i) – w ten sposób dochodząc do wiersza j-tego wartość drugiej sumy będzie znana.

a[ ] - wektor elementów macierzowych, k[] - numery kolumn, w[]-indeksy z początkami wierszy y=0;

for(i=1; i<=n; i++){

l₁=w[i]; // początek indeksow dla i-tego wiersza l₂=w[i+1]-1; // koniec indeksów dla i-tego wiersza

for(l=l₁; l<=l₂; l++){

j=k[l]; //numer kolumny y[i]=y[i]+a[l]*x[j];

if( i!=j ) y[j]=y[j]+a[l]*x[i]; // sumowanie tyko po elementach pozadiagonalnych // modyfikacja pochodzi od drugiej sumy

} }

X

n j=1

a

_ij

x

_j

= y

_i

! X

n

j=i

a

_ij

x

_j

+ X

j<i

x

_j

a

_ji

(6)

Oznaczmy A jako sumę 3 macierzy

Metoda Jacobiego

Dla dowolnie wybranego przybliżenia rozwiązania x₀ chcemy tak przekształacać iteracyjnie wektor x^(k) aby doprowadzić do znikania składowych wektora reszt w k iteracjach

co można zapisać Szukamy rozwiązania układu n równań

liniowych

Dlaczego używamy metod iteracyjnych?

Przykład

N=50000 – liczba równań w układzie fl₂ = 8 bajtów/liczbę – podwójna precyzja a) Ograniczenia pamięci

P_d<N²fl₂= 20 GB (10GB) – zaalokowana pamięć w komputerze

Ale jeśli układ jest np. pięcioprzekątniowy to do zapisu macierzy A (w postaci wektorowej)

potrzebujemy tylko P_i<5Nfl₂ =2MB pamięci

b) większa wydajność dla macierzy rzadkich (liczba elementów macierzy różnych od 0 jest rzędu N) w stosunku do metod bezpośrednich Macierze takie często pojawiają się w

obliczeniach naukowych i inżynierskich (FEM, PDE)

Ax = b; A 2 R

ⁿ^£n

; x; b 2 R

ⁿ

x = [»

₁

; »

₂

; : : : ; »

_n

] b = [¯

1

; ¯

2

; : : : ; ¯

n

]

(b ¡ Ax

^(k)

)

_i

= 0

¯

_i

¡ X

n

j

a

_ij

»

_j^(k)

= 0 A = L + D + U

D

U

L

(7)

7 Składowe wektora reszt znikają w kolejnych

iteracjach, więc możemy zapisać

oraz dla całego wektora

W metodzie Jacobiego obliczamy kolejno wszystkie składowe nowego przybliżenia wektora rozwiązań.

Metoda Gaussa-Seidla

Różni się od metody Jacobiego tym, że obliczone już składniki

wykorzystywane są w obliczeniach składników j+1,j+2,...,n.

»

_i^k+1

= 1 a

_ii

0 B @¯

ⁱ

¡ X

n

j j6=i

a

_ij

»

_j^(k)

1 C A a

_ii

»

_i^(k)

= ¯

_i

¡

X

n

j j6=i

a

_ij

»

_j^(k)

; i = 1; 2; : : : ; n

»

_i^k

; i = 1; 2; : : : ; j

»

_i^(k+1)

=

= 1 a

_ii

0 @¡

i¡1

X

j=1

a

_ij

»

_j^(k+1)

¡

X

n j=i+1

a

_ij

»

_j^(k)

+ ¯

_i

1 A

x

^(k+1)

= ¡D

^¡1

(L + U )x

^(k)

+ D

^¡1

b

b ¡ Lx

^(k+1)

¡ Dx

^(k+1)

¡ U x

^(k)

= 0 x

^(k+1)

= ¡D

^¡1

Lx

^(k+1)

¡ D

^¡1

U x

^(k)

+ D

^¡1

b

¯

_i

¡

i¡1

X

j=1

a

_ij

»

_j^(k+1)

¡a

ⁱⁱ

»

_i^(k+1)

¡

X

n j=i+1

a

_ij

»

_j^(k)

= 0

(8)

8 Metody Jacobiego i GS można zapisać ogólnie

w postaci

M x

^(k+1)

= N x

^(k)

+ b = (M ¡ A)x

^(k)

+ b A = M ¡ N

metoda Jacobiego:

metoda Gaussa-Seidela:

Metoda relaksacji

Metoda nadrelaksacji (SOR) (Successive Over Relaxation)

M = D

»

_i^(k+1)

= !»

_i^(k+1)GS

+ (1 ¡ !)»

_i^(k)

! 2 (1; 2)

Macierze iterujące i ich przekształcenia (preconditioning)

Ogólny schemat iteracyjny

przy podziale macierzy A

definiujemy iterację do ustalonego punktu w jako

Z porównania obu zapisów dostajemy

A = M ¡ N

x

^(k+1)

= M

^¡1

N x

^(k)

+ M

^¡1

b

G = M

^¡1

N = M

^¡1

(M ¡ A) = I ¡ M

^¡1

A f = M

^¡1

b

x

^(k+1)

= Gx

^(k)

+ f G

_J

(A) = I ¡ D

^¡1

A

G

_GS

(A) = I ¡ (D + L)

^¡1

A M = D + L

(D + !L)x

^(k+1)

= [ ¡!U + (1 ¡ !)D]x

^k

+ !b A = L + D + U

!A = !D + !L + !U

!A = (D + !L) + (!U ¡ (1 ¡ !)D)

b ¡ Lx

^(k+1)

¡ Dx

^(k+1)

¡ U x

^(k)

= 0

(9)

9 Zbieżność metod iteracyjnych

Dla macierzy

definiujemy liczbę

którą nazywamy promieniem spektralnym macierzy.

Dla dowolnej macierzy kwadratowej zgodnej z normą wektorów prawdziwa jest nierówność

Lemat

Tw. Dla każdego wektora elementy ciągu

dążą do zera wtedy i tylko wtedy gdy

Dowód Proces iteracyjny

możemy potraktować także jako problem rozwiązania układu

co dla G=I-M^-1A daje układ równań

Układ ten ma identyczne rozwiązanie jak układ pierwotny. Co nam to daje?

Z przepisu iteracyjnego

wynika, że musimy w każdej iteracji obliczyć

Ponieważ M-1 nie znamy, więc chcemy

niewielkim kosztem rozwiązać układ równań

Dla metod Jacobiego, Gaussa-Seidla i SOR macierz ta ma postać:

x

^(k+1)

= Gx

^(k)

+ f

(I ¡ G)x = f

M

^¡1

Ax = M

^¡1

b

A 2 R

ⁿ^£n

j¸

ⁱ

j · jjAjj; ¸

i

2 Z

x 2 R

ⁿ

½(A) < 1 Ax; A

²

x; : : : ; A

ⁱ

x; : : :

^

">0

_

jjAjjp

jjAjj

^p

· ½(A) + "

M

_J

= D

M

_GS

= D + L M

_SOR

= 1

! (D + !L)

½(A) = max

i=1;2;:::;n

j¸

ⁱ

j

x

^(k+1)

= M

^¡1

N x

^(k)

+ M

^¡1

b

M

^¡1

N x

^(k)

= M

^¡1

y

^(k)

= z

^(k)

M z

^(k)

= y

^(k)

" = 1 ¡ ½(A) 2

jjAjj

^p

· 1 + ½(A)

2 < 1

jjA

ⁿ

x jj

^p

· jjAjj

ⁿp

jjxjj

^p

! 0

A

ⁿ

x ! 0

(10)

Tw. Ciąg wektorów

którego elementy wyznaczamy według wzoru

jest zbieżny do jedynego punktu granicznego wtedy i tylko wtedy gdy

Dowód

x

⁽⁰⁾

; x

⁽¹⁾

; : : : ; x

⁽ⁱ⁾

; : : :

x

⁽ⁱ⁺¹⁾

= Gx

⁽ⁱ⁾

+ f; i = 0; 1; : : :

x

⁽ⁱ⁺¹⁾

= Gx

⁽ⁱ⁾

+ f = G(Gx

⁽ⁱ^¡1)

+ f ) + f = : : :

= G

ⁱ⁺¹

x

⁽⁰⁾

+ (G

ⁱ

f + G

ⁱ^¡1

f + : : : + f )

i

lim

!1

G

ⁱ⁺¹

x

⁽⁰⁾

! 0

jjf + G

¹

f + : : : + G

ⁱ

f + : : : jj

^p

· · X

1

i=0

jjfjj

^p

jjGjj

ⁱp

= jjfjj

^p

1 ¡ jjGjj

^p

Zbieżność w metodzie SOR

Jeśli macierz układu jest symetryczna,

dodatniookreślona i nieosobliwa to procedura iteracyjna jest zawsze zbieżna dla

G

_SOR

= (D + !L)

^¡1

[ ¡!U + (1 ¡ !)D]

det(G

_SOR

) = det ¡

(D + !L)

^¡1

¢

£ det (¡!U + (1 ¡ !)D)

det ( ¡!U + (1 ¡ !)D) = det((1 ¡ !)D)

= (1 ¡ !)

ⁿ

det(D) det(G

SOR

) = (1 ¡ !)

ⁿ

det(G

SOR

) = ¸

1

¸

2

: : : ¸

n

j1 ¡ !j · max

i=1;:::;n

¸

_i

= ½(G

_SOR

) < 1 0 < ! < 2

0 < ! < 2 det ¡

(D + !L)

^¡1

¢

= 1

det(D + !L) = 1 det(D)

½(G) < 1

(11)

11 Minimalizacja formy kwadratowej

Jeśli Ax=b i r=b-Ax to możemy utworzyć formę kwadratową postaci

Która jest dodatniookreślona i przyjmuje wartość minimalną dla dokładnego rozwiązania x.

W dalszych rozważaniach zakładamy że macierz A jest symetryczna i dodatniookreślona, wówczas możemy użyć formy kwadratowej postaci

która ma minimum w x, ponieważ

Proces poszukiwania rozwiązania dokładnego przebiega iteracyjnie, tj. szukamy ciągu przybliżeń

gdzie:

Od sposobu wyznaczania α_i i v_i zależy zbieżność i szybkość metody.

R = r

^T

r = (b ¡ Ax)

^T

(b ¡ Ax)

Q(x + ¢x) ¡ Q(x) = 1

2 ¢x

^T

A¢x > 0

x

₁

; x

₂

; x

₃

; : : : x

i+1

= x

i

+ ®

i

v

i

x₁

x₂

x₆ x₅ x₄ x₃

Związek gradientu Q z kierunkiem poszukiwania przybliżonego rozwiązania. Prosta interpretacja

geometryczna w 2D – powierzchnie o stałej wartości Q mają kształt elipsy (hiperelipsy w przestrzeni o większej liczbie wymiarów).

Q = 1

2 x

^T

Ax ¡ x

^T

b

(12)

Metoda największego spadku

Przybliżone rozwiązanie w i+1 iteracji ma postać

Jako v_i wybieramy kierunek gradientu Q

W celu znalezienia współczynnika _i obliczamy Q(x_i+1)

i różniczkujemy je po parametrze

wariacyjnym w celu znalezienia minimum

x

i+1

= x

i

+ ®

i

v

i

rQ = Ax

ⁱ

¡ b = ¡r

ⁱ

v

_i

= ¡r

ⁱ

Q(x

_i

¡ ®

ⁱ

r

_i

) = ¡ 1

2 x

^T_i

r ¡ 1 2 x

^T_i

b + 1

2 ®

²_i

r

_i^T

Ar

_i

+ ®

_i

r

^T_i

r

_i

@Q

@®

_i

= r

^T_i

r

_i

+ ®

_i

r

_i^T

Ar

_i

@Q

@®

_i

= 0 ! ®

ⁱ

= ¡ r

^T_i

r

_i

r

_i^T

Ar

_i

x

_i+1

= x

_i

+ r

_i^T

r

_i

r

_i^T

Ar

_i

r

_i

Kolejne przybliżenie w metodzie największego spadku opisuje wyrażenie

dla którego zachodzi warunek

Metoda może być jednak wolnozbieżna w przypadku gdy hiperelipsoida ma wydłużony kształt co

odpowiada złemu uwarunkowaniu układu.

Q(x

i+1

) < Q(x

i

)

(13)

13 Metoda sprzężonego gradientu

Założenia:

- x_d jest rozwiązaniem dokładnym - ciąg wektorów

stanowi bazę w n-wymiarowej przestrzeni euklidesowej

Różnicę rozwiązania dokładnego i przybliżonego możemy zapisać w postaci kombinacji liniowej elementów bazy

Jeśli elementy bazy są ortogonalne to można łatwo wyznaczyć współczynniki kombinacji liniowej

Ale powyższy wzór wymaga modyfikacji ponieważ nie znamy wektora x_d, wiemy jednak, że Ax_d=b więc

v

₁

; v

₂

; v

₃

; : : :

Żądamy więc, aby wektory bazy spełniały

warunek A-ortogonalności (wektory A-sprzężone)

Dla macierzy dodatniookreślonej zachodzi warunek

Jak skonstruować bazę A-ortogonalną?

Jeśli dysponujemy zwykłą bazą wektorów

to możemy ją poddać procesowi ortogonalizacji Grama-Schmidta

Jak utworzyć ciąg wektorów u_i?

v

_j^T

Av

_i

= 0 $ i 6= j

v

^T_i

Av

_i

6= 0

u

₁

; u

₂

; u

₃

; : : :

v

₁

= u

₁

v

_i+1

= u

_i+1

+ X

i k=1

¯

_i+1;k

v

_k

¯

_i+1;k

= ¡ v

_k^T

Au

_i+1

v

^T_k

Av

_k

x

_d

¡ x

ⁱ

=

X

n j=1

®

_j

v

_j

®

_j

= v

_j^T

(x

_d

¡ x

ⁱ

)

v

_j^T

v

_j

; j = 1; 2; : : :

®

_j

= v

_j^T

A(x

_d

¡ x

ⁱ

)

v

_j^T

Av

_j

= v

_j^T

r

_i

v

_j^T

Av

_j

(14)

W metodzie CG bazę stanowią wektory reszt (kierunki gradientów), które dzięki A-

ortogonalizacji są sprzężone.

Kolejne przybliżenia w podstawowej metodzie CG wyznaczamy zgodnie z poniższym schematem:

Dzięki A-ortogonalności w każdej iteracji

wystarczy wyznaczyć tylko jeden współczynnik  (reszta współczynników znika).

W podstawowej metodzie CG w każdej iteracji należy wykonać dwa mnożenia macierz-wektor

i to te dwie operacje determinują nakład obliczeń.

Algorytm metody CG można przedstawić w alternatywnej postaci, gdzie wymagamy tylko jednego mnożenia macierz-wektor:

Maksymalna liczba iteracji w metodzie CG wynosi n+1 – więc jest metodą skończoną. Zazwyczaj do uzyskania akceptowalnego rozwiązania wystarcza wykonanie znacznie mniejszej liczby iteracji.

Av

i

Ar

i+1

v

₁

= r

₁

= b ¡ Ax

¹

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

®

_i

= r

_i^T

r

_i

v

_i

Av

_i

x

_i+1

= x

_i

+ ®

_i

v

_i

r

_i+1

= r

_i

¡ ®

ⁱ

Av

_i

¯

_i

= ¡ r

_i+1^T

r

_i+1

r

^T_i

r

_i

v

_i+1

= r

_i+1

+ ¯

_i

v

_i

v

₁

= r

₁

= b ¡ Ax

¹

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

®

_i

= v

_i^T

r

_i

v

_i^T

Av

_i

x

_i+1

= x

_i

+ ®

_i

v

_i

r

_i+1

= r

_i

¡ ®

ⁱ

Av

_i

¯

_i

= ¡ v

_i^T

Ar

_i+1

v

_i^T

Av

_i

v

_i+1

= r

_i+1

+ ¯

_i

v

_i

(15)

15 W metodzie CG bazę stanowią wektory reszt

(kierunki gradientów), które dzięki A- ortogonalizacji są sprzężone.

Kolejne przybliżenia w podstawowej metodzie CG wyznaczamy zgodnie z poniższym schematem:

Dzięki A-ortogonalności w każdej iteracji

wystarczy wyznaczyć tylko jeden współczynnik  (reszta współczynników znika).

W podstawowej metodzie CG w każdej iteracji należy wykonać dwa mnożenia macierz-wektor

i to te dwie operacje determinują nakład obliczeń.

Algorytm metody CG można przedstawić w alternatywnej postaci, gdzie wymagamy tylko jednego mnożenia macierz-wektor:

Maksymalna liczba iteracji w metodzie CG wynosi n+1 – więc jest metodą skończoną. Zazwyczaj do uzyskania akceptowalnego rozwiązania wystarcza wykonanie znacznie mniejszej liczby iteracji.

Av

i

Ar

i+1

v

₁

= r

₁

= b ¡ Ax

¹

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

®

_i

= r

_i^T

r

_i

v

_i

Av

_i

x

_i+1

= x

_i

+ ®

_i

v

_i

r

_i+1

= r

_i

¡ ®

ⁱ

Av

_i

¯

_i

= ¡ r

_i+1^T

r

_i+1

r

^T_i

r

_i

v

_i+1

= r

_i+1

+ ¯

_i

v

_i

v

₁

= r

₁

= b ¡ Ax

¹

¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡

®

_i

= v

_i^T

r

_i

v

_i^T

Av

_i

x

_i+1

= x

_i

+ ®

_i

v

_i

r

_i+1

= r

_i

¡ ®

ⁱ

Av

_i

¯

_i

= ¡ v

_i^T

Ar

_i+1

v

_i^T

Av

_i

v

_i+1

= r

_i+1

+ ¯

_i

v

_i

(16)

16 Macierz A_nxn

a

ij

= 1

1 + ji ¡ jj ; ji ¡ jj · 5 _ a

ij

= 0; ji ¡ jj > 5