1Wstęp Aproksymacja

(1)

Aproksymacja

Marcin Orchel

1 Wstęp

Wygładzanie. Zadanie polega na znalezieniu wartości stałych x₁, . . . , xn. Gdy nie możemy mierzyć bezpośrednio tych wartości, ale możemy mierzyć wartości y zależne od tych stałych i innych dodatkowych warunków próbnych z

y = f (z; x₁, . . . , x_n) (1)

Przeprowadzamy eksperymenty dla m różnych warunków próbnych mierząc y

yk= f (z_k; x₁, . . . , xn) (2) dla k = 1, 2, . . . , m. Chcemy znaleźć x_i tak aby były spełnione powyższe równania. Dla m > n układ równań jest układem nadokreślonym, który zwykle nie ma rozwiązania, ponieważ wartości y_i zawierają w sobie również błąd pomiaru. Jak rozwiązać ten układ możliwie dobrze i jak to zdefiniować.

Dwa przykłady definicji to minimalizacja wyrażenia ky − f (x)k²=

m

X

k=1

(y_k− f_k(x₁, . . . , x_n))² (3) lub

max

1≤k≤m|y_k− f_k(x₁, . . . , x_n)| (4)

gdzie

f_k(x₁, . . . , x_n) := f (z_k; x₁, . . . , x_n) (5) Pierwsze zagadnienie to minimalizacja normy błędu i metoda zwana jest metodą najmniejszych kwadratów, a drugie zagadnienie to dyskretne zagadnienie Czebyszewa.

Jeśli funkcje f_kmają ciągłe pochodne cząstkowe względem wszystkich zmiennych x_i, to warunek konieczny minimalizacji to

∂

∂x_i

m

X

k=1

(y_k− f_k(x₁, . . . , x_n))² = 0 (6)

(2)

dla i = 1, . . . , n. Jest to układ normalny względem x. Przypadek szczególny liniowe zagadnienie wygładzania jesli funkcje f_k są funkcjami liniowymi zmiennych x_i, wtedy istnieje macierz A m × n taka, że







f1(x₁, . . . , xn) ... fm(x₁, . . . , xn)





= Ax (7)

Układ normalny po podstawieniu powyższego to

grad_x(y − Ax)^T(y − Ax)= 2A^TAx − 2A^Ty = 0 (8)

A^TAx = A^Ty (9)

Dowód.

ky − Axk² = (y − Ax)^T (y − Ax) = y^Ty − x^TA^Ty − y^TAx + x^TA^TAx (10) Możemy zauważyć, że

x^TA^Ty^T = y^TAx (11) ma rozmiar 1 na 1 (liczba kolumn y jest równa 1), dlatego jest to skalar, i dlatego jest równy swojej transpozycji,

x^TA^Ty = y^TAx (12)

i otrzymujemy

y^Ty − 2x^TA^Ty + x^TA^TAx (13) Następnie różniczkujemy powyższe po x i otrzymujemy

− A^Ty + A^TAx = 0 (14)

Formalnie będziemy rozpatrywać normę kxk :=

√

x^Tx. Mamy macierz A, m × n, y ∈ R^m i funkcjonał do minimalizacji

ky − Axk² = (y − Ax)^T (y − Ax) (15)

Twierdzenie 1. Zadanie liniowego wygładzania, tzn. określenie

x∈Rminⁿky − Axk (16)

ma co najmniej jedno rozwiązanie x₀. Jeśli x₁ jest innym rozwiązaniem, to Ax₀ = Ax₁. Reszta r := y − Ax₀ jest określona jednoznacznie i spełnia równanie A^Tr = 0. Każde rozwiązanie x₀ jest także rozwiązaniem układu normalnego i na odwrót.

Jeśli kolumny macierzy A są liniowo niezależne, tzn. z tego, że x 6= 0 wynika, że Ax 6= 0, to macierz A^TA jest macierzą nieosobliwą (i dodatnio określoną). W przeciwnym razie istniałby wektor x 6= 0 taki, że A^TAx = 0 i wynikałoby stąd nie tylko Ax 6= 0, lecz także w sprzeczności z tym 0 = x^TA^TAx = kAxk². Układ normalny ma wtedy jednoznacznie określone rozwiązanie

x =A^TA⁻¹A^Ty (17)

(3)

1.1 Interpretacja statystyczna

Zakładamy, że składowe y_i dla i = 1, . . . , m są niezależnymi zmiennymi losowymi z wartością średnią µ_i i każda z nich ma taką samą wariancję σ², czyli

E [yi] = µ_i (18)

E [(y_i− µ_i) (y_k− µ_k)] =

( σ² dla i = k

0 w pozostałych przypadkach (19) Macierzowo

E [y] = µ (20)

E^h(y − µ) (y − µ)^Tⁱ= σ²I (21) Ta ostatnia to macierz kowariancji. Wyprowadzone wcześniej optymalne rozwiązanie też jest wektorem losowym, wartość średnia to

E [x] = E

A^TA⁻¹A^Ty

=A^TA⁻¹A^TE [y] =A^TA⁻¹A^Tµ (22) Macierz kowariancji rozwiązania to

E^h(x − E (x)) (x − E (x))^Tⁱ (23)

= E

"

A^TA⁻¹A^Ty −A^TA⁻¹A^Tµ

T# (24)

= E

"

A^TA⁻¹A^T (y − µ)

T#

(25)

= E

A^TA⁻¹A^T (y − µ) (y − µ)^T AA^TA⁻¹

= (26)

A^TA⁻¹A^TE^h(y − µ) (y − µ)^TⁱAA^TA⁻¹ = (27)

A^TA⁻¹A^Tσ²IAA^TA⁻¹ = (28)

σ²A^TA⁻¹A^TIAA^TA⁻¹ = (29) σ²A^TA⁻¹A^TAA^TA⁻¹= (30)

σ²A^TA⁻¹ (31)

Regresja jest zdefiniowana jako

r (x) = E (Y |X = x) (32)

(4)

1.2 Aproksymacja parametryczna funkcji Wartość funkcji przybliżającej obliczana jest ze wzoru

h (x) = F (φ (x) , w) (33)

gdzie F : Rⁿ⁺¹× R^m→ R, gdzie n to liczba cech i φ_n(x) = 1, w to wektor wag, gdzie m to jego rozmiar, a φ(x) to funkcje.

Celem jest minimalizacja błędu średniokwadratowego ε (h_w) = ^X

x∈T

1

2(f (x) − h (x))² (34)

gdzie T to zbiór treningowy, f (x) to wartość funkcji docelowej dla przykładu x.

Aby minimalizować ten błąd za pomocą metody spadku gradientu, gdzie modyfiku- jemy wagi w w następujący sposób:

∆_w= −β∇_wε (hw) (35)

czyli

w := w + ∆_w (36)

gdzie ∇ oznacza wektor pochodnych cząstkowych ε(h_w) względem poszczególnych wag.

Dla pojedynczej wagi

∆_w_i = −β∂ε (h_w)

∂wi

(37) gdzie β to parametr z przedziału (0, 1]) nazywany rozmiarem kroku. Wagi zmieniane są dopiero po przetworzeniu całego zbioru uczącego (epoka). Procedura powtarzana jest dla kolejnych epok. Możemy przekształcić dalej pochodną

∂ε (h_w)

∂w_i = ^X

x∈T

(f (x) − h (x))

−∂h_w(x)

∂w_i

(38) i stąd

∆_w_i = ^X

x∈T

β (f (x) − hw(x))∂hw(x)

∂w_i (39)

w zapisie wektorowym

∆_w= ^X

x∈T

β (f (x) − h_w(x)) ∇_wh_w(x) (40) Możemy to zapisać inaczej

∆_w = ^X

x∈T

∆_w(x) (41)

gdzie ∆_w(x) to modyfikacja wag po przetworzeniu pojedynczego przykładu x ∈ T obliczana jako

∆_w(x) = β (f (x) − h_w(x)) ∇_whw(x) (42) Powyższe można zastosować do aktualizacji wag w po przetworzeniu każdego przykładu

w := w + ∆_w(x) (43)

(5)

1.3 Aproksymacja liniowa

hw(x) =

n

X

i=0

φi(x) w_i (44)

i w zapisie wektorowym

h_w(x) = w^Tφ (x) (45)

Przyjmujemy, że φ_n(x) ≡ 1. Możemy wyliczyć

∂ε (hw)

∂w_i = φ_i(x) (46)

czyli

∇_wh_w(x) = φ (x) (47)

otrzymujemy regułę delta

∆_w= ^X

x∈T

β (f (x) − hw(x)) φ (x) (48)

W wersji inkrementacyjnej

∆_w(x) = β (f (x) − h_w(x)) φ (x) (49) Dla pojedynczej wagi

∆_w_i = ^X

x∈T

β (f (x) − hw(x)) φ_i(x) (50)

∆_w_i(x) = β (f (x) − h_w(x)) φ_i(x) (51) Czasami stosuje się dodatkowo normalizację:

∆_w =^X

x∈T

β (f (x) − h_w(x)) φ (x) Pn

i=0wi

(52)

∆_w(x) = β (f (x) − h_w(x)) φ (x) Pn

i=0wi

(53) Przykład: Dane są punkty (1, 1), (3, 2), (4, 4), (6, 4), (8, 5), (9, 7), (11, 8), (14, 9).

Znaleźć aproksymację

hw(x) = w₀x + w1· 1 = w₀x + w1 (54) Początkowe wagi mają wartości w₀ = w₁ = 0, β = 0, 1. W trybie inkrementacyjnym modyfikujemy wagi najpierw dla pierwszego punktu

w₀= 0 + 0, 1 · (1 − 0) · 1 = 0, 1 (55) w1= 0 + 0, 1 · (1 − 0) · 1 = 0, 1 (56)

(6)

1.4 Metoda najmniejszych kwadratów

Inne nazwy procedura aproksymacji w normie kwadratowej, metoda kwadratu błędu Gaussa.

Zagadnienie ciągłe. Aproksymacja funkcji f (x) funkcją g (x) w przedziale [a, b] polega na minimalizacji wyrażenia

F = Z b

a

w (x) (f (x) − g (x))²dx (57)

gdzie w (x) – funkcja gęstości (waga), taka, że w (x) > 0 w przedziale całkowania. Po- stulujemy rozwiązanie przybliżone g (x) postaci:

g (x) =

n

X

i=0

a_ig_i(x) (58)

gdzie g₀(x) , g₁(x) , . . . , g_n(x) to liniowo niezależne funkcje. Zbiór funkcji liniowo nieza- leżnych to taki zbiór funkcji, że żadnej z nich nie można przedstawić w postaci kombinacji liniowej innych funkcji z tego zbioru. Przykład: układ funkcji potęgowych y = xⁿ jest układem liniowo niezależnym. Zadanie aproksymacji polega na znalezieniu współczynni- ków a_i. Warunkiem koniecznym minimum F jest zerowanie się pochodnych cząstkowych:

∂F

∂ak

= 0 (59)

dla k = 0, 1, . . . , n. Wyprowadzenie w Appendix2.3. Wprowadzając oznaczenia

(g_i, gk) =

b

Z

a

w (x) gi(x) g_k(x) dx (60)

(f, g_k) =

b

Z

a

w (x) f (x) gk(x) dx (61)

otrzymujemy tzw. układ normalny

n

X

i=0

a_i(g_i, g_k) = (f, g_k) (62) dla k = 0, 1, . . . , n.

W postaci macierzowej dla uproszczonej funkcji g(x), pierwsza kolumna X zawiera jedynki. Wyprowadzenie podane wcześniej.

Wprowadzone oznaczenia to iloczyny skalarne dwóch funkcji występujących w całce.

Układ równań ma jednoznaczne rozwiązanie, ze względu na założenie o liniowej nieza- leżności funkcji g_i(x). Macierz współczynników tego układu jest symetryczna. Przykład dla n = 2.

(g₀, g0) (g₁, g0) (g₂, g0) (g₀, g₁) (g₁, g₁) (g₂, g₁) (g₀, g₂) (g₁, g₂) (g₂, g₂)

(63)

(7)

Rozwiązanie możemy znaleźć metodą Cholesky’ego. Jeśli układ postulowanych funkcji bazowych jest ortogonalny, tzn. jeśli: (g_i, g_k) = 0, dla i 6= k to otrzymujemy macierz diagonalną i współczynniki a_i możemy znaleźć za pomocą wzorów:

a_k(g_k, g_k) = (f, g_k) (64)

a_k= (f, g_k)

(g_k, gk) (65)

dla k = 0, 1, . . . , n. Układ bazowych funkcji jest ortonormalny, jeśli (g_i, g_k) = 0 dla i 6= k oraz (g_i, g_k) = 1 dla i = k. Przy spełnieniu powyższych warunków wzory na współczynniki wyglądają następująco:

ak= (f, g_k) dla k = 0, 1, . . . , n.

Przykład. Dane są punkty (1, 1), (3, 2), (4, 4), (6, 4), (8, 5), (9, 7), (11, 8), (14, 9).

Znaleźć aproksymację dla

g (x) = a0x⁰+ a₁x¹= a₀+ a₁x (66) Układ normalny jest następujący

a₀(1, 1) + a₁(x, 1) = (f, 1) (67) a₀(1, x) + a₁(x, x) = (f, x) (68) Mamy

(1, 1) = n + 1 = 8 (69)

(x, 1) =

n

X

i=0

x_i= 56 (70)

(f, 1) =

n

X

i=0

f (xi) =

n

X

i=0

yi= 40 (71)

(x, x) =

n

X

i=0

x²_i = 524 (72)

(f, x) =

n

X

i=0

f (x_i) x_i =

n

X

i=0

y_ix_i = 364 (73)

Układ normalny to

8a₀+ 56a₁ = 40 (74)

56a₀+ 524a₁ = 364 (75)

Rozwiązanie

a₀ = 5 − 7a₁ (76)

(8)

56 (5 − 7a₁) + 524a₁ = 364 (77)

280 − 392a₁+ 524a₁= 364 (78)

132a₁ = 84 (79)

a₁ = 7

11 (80)

a0 = 5 − 77 11 = 6

11 (81)

A więc

g (x) = 6 11 + 7

11x (82)

Przykładowo błąd bezwzględny dla punktu (1, 1) wynosi 13/11 − 1 = 0.18, a względny 18%.

Przykład dla funkcji kwadratowej.

1.4.1 Ortogonalizacja układu funkcji liniowo niezależnych Funkcję potęgową xⁱ dla i = 0, 1, . . . , n można zortogonalizować:

• dla przedziału [−1, 1], w (x) = 1, otrzymujemy wielomiany Legendre’a P_n(x) = 1

2ⁿn!

dⁿ dxⁿ

x²− 1ⁿ (83)

• dla przedziału [−1, 1], w (x) = 1/√

1 − x², otrzymujemy wielomiany Czebyszewa Tn(x), zdefiniowane jako

T₀(x) = 1 (84)

T₁(x) = x (85)

Tn(x) = 2xT_n−1(x) − T_n−2(x) (86) dla n = 2, 3, 4, . . . Czyli

T2(x) = 2x²− 1 (87)

T₃(x) = 4x³− 3x (88)

Przykładowo, jeśli funkcja g jest postaci:

a₀+ a₁x + a₂x² (89)

wielomiany g_i są postaci: 1, x, x², to gdy przybliżamy w przedziale [−1, 1], w (x) = 1 to wielomiany g_i wybieramy następująco (Legendre’a): g₀ = 1, g₁ = x, g₂ = 1/2 3x²− 1 Czy rzeczywiście te wielomiany są ortogonalne? sprawdźmy czy (g₁, g₂) = 0

1 2

1

Z

−1

x3x²− 1dx =

(9)

1 2

Z1

−1

3x³− xdx =

3 2

1

Z

−1

x³dx −1 2

1

Z

−1

xdx =

3 2

1 4x⁴

1

−1

− 1 2

"

x² 2

#1

−1

= 0 A więc szukana funkcja g jest postaci:

a⁰₀1 + a⁰₁x + a⁰₂1/23x²− 1 (90) Każdy dowolny przedział [a, b] można ścieśnić lub rozszerzyć do przedziału [−1, 1]. Robi się to następująco: a ——- x ——- b, -1 —- t —— 1, aby x leżał w drugim przedziale tak samo daleko od początku proporcjonalnie do całości musi być spełniony następujący warunek:

x − a

b − a = t + 1

2 (91)

t = 2x − a

b − a − 1 = 2

b − ax −a + b

b − a (92)

x = (t + 1) (b − a)

2 + a = b − a

2 t + a + b

2 (93)

Przykład. Aproksymacja funkcji y = sin x na przedziale h0, π/2i wielomianem stopnia co najwyżej drugiego za pomocą wielomianów Legendre’a.

Najpierw musimy przekształcić przedział do [−1, 1], czyli zamieniamy zmienną x na zmienną t i otrzymujemy

t = 4

πx − 1 (94)

Aproksymujemy funkcję

P (t) = sinπ (t + 1)

4 (95)

wielomianem

W (t) = a₀P₀(t) + a₁P₁(t) + a₂P₂(t) (96) W (t) = a0+ a₁t + a2

3t²− 1/2 . (97) Współczynniki wynoszą:

a₀= (f, 1) (1, 1) =

R1

−1sin^π₄ (t + 1) dt

2 = 2

π (98)

a₁= (f, t)

(t, t) = 3^R₋₁¹ t sin^π₄ (t + 1) dt

2 = 24

π² − 6

π (99)

(10)

a₂= f, 3/2t²− 1/2

(3/2t²− 1/2, 3/2t²− 1/2) = 5^R₋₁¹ 3/2t²− 1/2sin^π₄(t + 1) dt

2 = −480

π³ +120 π² +10

π (100) Na końcu zastępujemy t wyrażeniem z x.

Przykład aproksymacji: funkcja e^x. Chcemy ją przybliżyć wielomianem drugiego stopnia g postaci (90).

a⁰₀ = (e^x, 1)

(1, 1) = e −¹_e

2 ≈ 1, 17505

a⁰₁ = (e^x, x) (x, x) =

1

R

−1

e^xxdx

2 ≈ 0, 736

2 = 0, 368 Obliczenie całki przez części:

1

Z

−1

e^xxdx = [e^x(x − 1)]¹₋₁= 2

e ≈ 0, 736

a⁰₂=

e^x,¹₂ 3x²− 1

₁

2(3x²− 1) ,¹₂(3x²− 1)

= ...

1.5 Aproksymacja jednostajna (Czebyszewa)

Przypadek ciągły. W przedziale a ≤ x ≤ b funkcję f (x) aproksymujemy funkcją g (x) = g (x; a₀, a₁, . . . , a_n) w taki sposób, że największy co do wartości bezwzględnej błąd

max

a≤x≤b|f (x) − g (x; a₀, a₁, . . . , an)| = φ (a₀, a₁, . . . , an)

przy odpowiednim wyborze parametrów a_istaje się możliwie mały. Zapis g (x; a₀, a₁, ..., a_n) oznacza, że funkcja g jest zależna od parametrów a_i dla i = 0, 1, . . . , n. Jeśli dla f (x) tak przybliżona funkcja istnieje, to maksymalna wartość odchylenia jest przyjmowana, ze zmieniającym się znakiem, w co najmniej n + 2 punktach x_v rozważanego przedziału, tzw. alternantach. Jest to twierdzenie o alternantach.

Bardziej ściśle.

Twierdzenie 2. Wielomian p^∗ ∈ P_n jest najlepszą aproksymacją dla f ∈ C[a, b] wtedy i tylko wtedy, gdy istnieje n + 2 punktów a ≤ t₁ < . . . < t_n+2≤ b takich, że

f (ti) − p^∗(t_i) = (−1)ⁱγ (101)

|γ| = kf − p^∗k (102)

to znaczy wtedy i tylko wtedy gdy różnica f (x) − p^∗(x) przybiera maksymalną wartość ze zmieniającym się znakiem w co najmniej n + 2 punktach.

(11)

Przykład. Aproksymacja funkcji f (x) = xⁿ wielomianem stopnia ≤ n − 1. Aprok- symacja funkcji f (x) = x w przedziale [−1, 1] wielomianem g (x) = a₀. Jeden parametr n = 0, a więc rozwiązanie g (x) = 0, 2 alternanty na brzegach przedziału. Maksymalny błąd wtedy wynosi 1. Błąd: wielomian Czebyszewa T₁(x) = x.

Dla f (x) = x² szukana funkcja g (x) = a₁x + a0 lub g (x) = a₀. Rozwiązanie:

g (x) = 0.5. 3 alternanty. Maksymalny błąd wynosi 0.5. Błąd wielomian Czebyszewa T2(x) = 2x²− 1 znormalizowany do 1.

1.5.1 Rozwiązywanie zagadnienia aproksymacji Czebyszewa Funkcja przybliżona

g (x) =

n

X

i=0

aigi(x)

n + 1 liniowo niezależnych funkcji g_i, a^∗_i dla i = 0, 1, . . . , n - współczynniki rozwiązania zagadnienia Czebyszewa,

ρ = φ (a^∗₀, a^∗₁, . . . , a^∗_n)

ρ - minimalizowane odchylenie. Gdy funkcje f i g_i są różniczkowalne, to z twierdzenia o alternantach wynikają zależności:

n

X

i=0

a^∗_igi(x_v) + (−1)^vρ = f (xv)

n

X

i=0

a^∗_ig⁰(x_v) = f⁰(x_v)

dla v = 1, 2, . . . , n + 2. Punkty x_v są alternantami, przy czym

a ≤ x1 ≤ x₂ ≤ . . . ≤ x_n+2 ≤ b (103) Drugi warunek mówi o tym, że pochodne w alternantach są równe (oprócz końców).

Gdyby tak nie było, to istniałyby punkty, które mają większą różnicę ρ, co jest sprzeczne z założeniem, że jest to największa różnica.

Dwa powyższe równania stanowią 2n + 4 warunków na 2n + 4 niewiadomych: n + 1 współczynników postulowanego rozwiązania, n+2 alternant i minimalizowane odchylenie ρ. Jeżeli punkty brzegowe przedziału okazują się alternantami, warunki na pochodną nie muszą tam obowiązywać.

Przykład: Dla y = x². Chcemy przybliżyć wielomianem pierwszego stopnia y = a1x + a0 przy założeniu, że punkty brzegowe są alternantami, a zatem x₀ = −1, x₂ = 1.

a1x0+ a₀+ ρ = x²₀ (104)

a1x1+ a₀− ρ = x²₁ (105)

a₁x₂+ a₀+ ρ = x²₂ (106)

a₁ = 2x₁ (107)

(12)

− a₁+ a₀+ ρ = 1 (108)

a₁x₁+ a₀− ρ = x²₁ (109)

a1+ a₀+ ρ = 1 (110)

a1 = 2x₁ (111)

4 równania z 4 niewiadomymi

ρ = 1 + a1− a₀ (112)

a₁x₁+ a₀− 1 − a₁+ a₀ = x²₁ (113) Podstawiając ρ do 3

2a₁ = 0 (114)

a₁ = 0 (115)

A więc z ostatniego

x1= 0 (116)

A więc mamy z drugiego i trzeciego

a₀− ρ = 0 (117)

a0+ ρ = 1 (118)

2a₀ = 1 (119)

a₀ = 0.5 (120)

I z pierwszego

ρ = 1 + 0 − 0.5 = 0.5 (121)

1.6 Aproksymacja nieliniowa

Funkcje f_k mogą być nieliniowe. Rozwiązanie przez linearyzację. Sprowadzamy do ciągu zadań wygładzania nieliniowego.

Jeśli prawie każda funkcja f_k ma ciągłą pochodną i mamy macierz funkcyjną w punkcie x = ξ

Df (ξ) =







∂f1

∂x1 . . . _∂x^∂f¹

n

. . . . . . . . .

∂fm

∂x1 . . . ^∂f_∂x^m

n







x=ξ

(122)

to ze wzoru Taylora (AppendixB)

f (¯x) = f (x) + Df (x) (¯x − x) + h (123) gdzie

khk = o (k¯x − xk) (124)

(13)

Jeśli x jest przybliżeniem rozwiązania optymalnego, to rozwiązanie optymalne ¯x za- dania

min

z∈Rⁿky − f (x) − Df (x) (z − x)k² = kr (x) − Df (x) (¯x − x)k² (125) gdzie r (x) := y − f (x) będzie na ogół lepszym rozwiązaniem zadania aproksymacji nieliniowej niż x to znaczy

ky − f (¯x)k²< ky − f (x)k² (126) Bardziej ściśle zachodzi dla

s = s (x) := ¯x − x (127)

istnieje λ > 0, taka, że funkcja

φ (τ ) := ky − f (x + τ s)k² (128)

dla każdego 0 ≤ τ ≤ λ jest monotonicznie ściśle malejąca. W szczególności

φ (λ) = ky − f (x + λs)k²< φ (0) = ky − f (x)k² (129) Algorytm iteracyjny

1. Dla x⁽ⁱ⁾ obliczamy rozwiązanie s⁽ⁱ⁾ zadania aproksymacji liniowej min

s∈Rⁿ

rx⁽ⁱ⁾− Dfx⁽ⁱ⁾s² (130) 2. Niech

φ (τ ) :=y − fx⁽ⁱ⁾+ τ s⁽ⁱ⁾² (131) i k ≥ 0 niech będzie najmniejszą liczbą całkowitą taką, że

φ2^−k< φ (0) =rx⁽ⁱ⁾² (132) Definiujemy

x⁽ⁱ⁺¹⁾ := x⁽ⁱ⁾+ 2^−ks⁽ⁱ⁾ (133)

Przykład. Dla podanych punktów (1, 0), (2, 1), (3, 1). Szukamy funkcji liniowej aproksymacyjnej. Wybieramy jakiś wektor początkowy np. x⁽⁰⁾ = (1, 1). Rozwiązujemy zadanie aproksymacji liniowej

s∈Rminⁿ

y − fx⁽⁰⁾− Dfx⁽⁰⁾s² (134) Znajdziemy s⁽¹⁾. Następnie szukamy k i wyliczamy x⁽¹⁾.

(14)

2 Zadania

2.1 Zadania na 3.0

• Dla funkcji y = f (x) określonej za pomocą punktów, znaleźć wielomian aproksy- mujący stopnia pierwszego za pomocą aproksymacji średniokwadratowej: dla grup 1 i 2 punkty to

(0, 2.9) , (1, 2.8) , (2, 2.7) , (3, 2.3) , (4, 2.1) , (5, 2.1) , (6, 1.7) (135) dla grup 3 i 4 punkty to

(2, 76) , (3, 82) , (587) , (7, 94) , (9, 103) (136) Narysować wykres funkcji aproksymującej wraz z punktami.

Wskazówki

• Do narysowania wykresu można wykorzystać wolframalpha.com (wtedy należy za- mieścić również linki do wolframalpha.com).

2.2 Zadania na 4.0

• Dokonać aproksymacji średniokwadratowej wielomianem stopnia trzeciego przy użyciu bazy wielomianów Legendre’a funkcji y = sin x określonej na przedziale h0; π/2i. Narysować wykres funkcji aproksymowanej i aproksymującej.

Wskazówki:

•

g₃(x) = 1 2

5x³− 3x (137)

2.3 Zadania na 5.0

• Dokonać aproksymacji jednostajnej wielomianem pierwszego stopnia funkcji 2x²+1 za pomocą odpowiedniego układu równań. Narysować wykres funkcji aproksymowanej i aproksymującej.

• Udowodnić, że aproksymacja średniokwadratowa dla dowolnych punktów balan- suje punkty, to znaczy, że suma różnic między wartością poszukiwanej funkcji, a wartością w punktach jest równa 0.

(15)

A Wyprowadzenie

F =

b

Z

a

w (x) (f (x) − g (x))²dx (138)

F =

b

Z

a

w (x)f (x)²− 2f (x) g (x) + g (x)²dx (139)

F = Zb

a

w (x) f (x)²dx − 2 Zb

a

w (x) f (x) g (x) dx + Zb

a

w (x) g (x)²dx (140) Po podstawieniu (58)

F = Zb

a

w (x) f (x)²dx − 2 Zb

a

w (x) f (x)

n

X

i=0

a_ig_i(x)dx + Zb

a

w (x)

n

X

i=0

a_ig_i(x)

!2

dx (141)

∂F

∂a_k = −2

b

Z

a

w (x) f (x) gk(x) dx +





b

Z

a

w (x) (akgk(x))²dx





0

(142)

+



2 Zb

a

w (x)

n

X

i=0_i6=k

a_ia_kg_i(x) g_k(x)dx





0

(143)

∂F

∂a_k = −2

b

Z

a

w (x) f (x) gk(x) dx + 2

b

Z

a

w (x) akgk(x)²dx (144)

+ 2 Zb

a

w (x)

n

X

i=0_i6=k

a_ig_i(x) g_k(x)dx (145)

∂F

∂a_k = −2

b

Z

a

w (x) f (x) g_k(x) dx + 2

b

Z

a

w (x)

n

X

i=0

aigi(x) g_k(x)dx (146) Podstawiamy do (59)

− 2

b

Z

a

w (x) f (x) g_k(x) dx + 2

b

Z

a

w (x)

n

X

i=0

aigi(x) g_k(x)dx = 0 (147)

Zb

a

w (x)

n

X

i=0

a_ig_i(x) g_k(x)dx = Zb

a

w (x) f (x) g_k(x) dx (148)