te materiały

(1)

Analiza dla informatyk´ow 2 DANI LI2 PaweÃl Doma´nski — szkicowe notatki do wykÃladu

WykÃlad 9

1. R´o˙zniczkowanie funkcji zÃlo˙zonej

Przypomnijmy, ˙ze je´sli f, g : R → R, to (f ◦ g)0_{(x) = f}0_{(g(x)) · g}0_(x).

W przypadku funkcji wielu zmiennych podobny wz´or zachodzi, tyle tylko, ˙ze mno˙zenie liczb zast¸epuje skÃladanie odwzorowa´n liniowych.

Twierdzenie 1 (twierdzenie o pochodnej funkcji zÃlo˙zonej) Niech E ⊆ Rn_,

F ⊆ Rm _{zbiory otwarte. Niech f : E → R}m_{, f (E) ⊆ F , g : F → R}l _b¸ed¸a

funkcjami r´o˙zniczkowalnymi odpowiednio w punktach x ∈ E i f (x) ∈ F . W´owczas odwzorowanie zÃlo˙zone:

z = f ◦ g : E → Rl jest r´o˙zniczkowalne w punkcie x oraz:

Dz(x) = Dg(f (x)) ◦ Df (x) PrzykÃlad: f : R → R2_, _{f (t) :=} µ sin t cos t ¶ oraz g : R2 → R, g(u, v) := u2+ v2 Obliczmy pochodne: Df (t) = µ cos t − sin t ¶ oraz Dg(u, v) = (2u, 2v) Zatem: D(g ◦ f )(t) = Dg(f (t)) ◦ Df (t)

(2)

Dow´od twierdzenia o pochodnej funkcji zÃlo˙zonej: Oznaczmy

A = f0_(x), _{B = g}0_{(f (x)),} _{k = f (x + h) − f (x)}

Z r´o˙zniczkowalno´sci f mamy:

kf (x+h)−f (x)−Ahk = kk −Ahk = ε(h)khk gdzie ε(h) → 0 gdy h → 0 zatem

kkk = kk−Ah+Ahk ≤ kk−Ahk+kAhk ≤ ε(h)khk+kAkkhk = (ε(h)+kAk)khk

Z r´o˙zniczkowalno´sci g mamy: kg(f (x + h)) − g(f (x)) − Bkk = kg(f (x) + k) − g(f (x)) − Bkk = η(k)kkk gdzie η(k) → 0 gdy k → 0 Ostatecznie: kz(x + h) − z(x) − B ◦ Ahk = kg(f (x + h)) − g(f (x)) − Bk + Bk − B(Ah)k ≤ η(k)kkk + kBkkk − Ahk ≤ η(k)(kAk + ε(h))khk + kBkε(h)khk = [η(k) (kAk + ε(h)) + kBkε(h)] | {z } →0 gdy h → 0 a zatem k → 0 khk 2

(3)

Uwaga — twierdzenie o pochodnej funkcji zÃlo˙zonej (a przynajmniej pewne jej postacie) nazywane s¸a reguÃl¸a Ãla´ncuchow¸a.

Podamy teraz kilka przykÃlad´ow:

• g : [a, b] → Rm_, _{g(t) :=}    g1(t) ... gm(t)   , f : Rm → R, f ◦ g : [a, b] → R. D(f ◦ g)(t) = Df (g(t)) ◦ Dg(t) = µ ∂f ∂x1 (g(t)), ∂f ∂x2 (g(t)), . . . , ∂f ∂xm (g(t)) ¶      dg1 dt(t) dg2 dt(t) ... dgm dt (t)      = m X j=1 ∂f ∂xj (g(t)) ·dgj dt (t)

Dobieraj¸ac oznaczenia xj = gj zapisujemy powy˙zszy wz´or:

df dt = m X j=1 ∂f ∂xj ·dxj dt .

Jest to klasyczny zapis. Mo˙zna te˙z pisa´c:

D(f ◦ g) =

m

X

j=1

Djf · Dgj

zapis ten cho´c mniej rozpowszechniony jest by´c mo˙ze bardziej jednoz-naczny.

(4)

• Bywa, ˙ze funkcja jest zadana nie we wspóÃlrz¸ednych kartezjańskich ale np. we wspóÃlrz¸ednych biegunowych. WspóÃlrz¸edne biegunowe (r, ϕ):

r =px2_{+ y}2_, _{ϕ :}     

sin ϕ =

√

y x2_+y2

, ;

cos ϕ =

√

x x2_+y2

, .

(co oznacza, ˙ze np. ϕ = arctan¡y_x¢). Mamy wi¸ec funkcj¸e f (r, ϕ). Spróbujemy ustalić jak we wspóÃlrz¸ednych biegunowych wyra˙za si¸e

f0(x, y) = µ ∂f ∂x, ∂f ∂y ¶ . ZaÃl´o˙zmy, ˙ze W : R2 _{→ R}2_, _{W (x, y) = (r, ϕ)} zatem:

(f ◦ W )

0

(x, y) = f

0

(r, ϕ) ·

Ã

_x

√

x2_+y2 y

√

x2_+y2 −y x2_+y2 _x2_+yx 2

!

=

µ

∂f

∂r

,

∂f

∂ϕ

¶

· µ

cos ϕ sin ϕ

− sin ϕ r cos ϕ r

¶

=

µ

cos ϕ

∂f

∂r

−

sin ϕ

r

∂f

∂ϕ

, sin ϕ

∂f

∂r

+

cos ϕ

r

∂f

∂ϕ

¶

.

Udowodnili´smy, ˙ze:

∂f

∂x

= cos ϕ

∂f

∂r

−

sin ϕ

r

∂f

∂ϕ

∂f

∂y

= sin ϕ

∂f

∂r

+

cos ϕ

r

∂f

∂ϕ

(5)

• Og´olnie rzecz bior¸ac je´sli:

f : R2 _{→ R,} _{u : R}2 _{→ R,} _{w : R}2 _{→ R} oraz

g(x, y) = f (u, v) = f (u(x, y), w(x, y)),

to w´owczas:         

∂g

∂x

=

∂f

∂u

· ∂u

∂x

+

∂f

∂w

· ∂w

∂x

,

∂g

∂y

=

∂f

∂u

· ∂u

∂y

+

∂f

∂w

· ∂w

∂y

.

bo na mocy naszego twierdzenia:

µ

∂g

∂x

,

∂g

∂y

¶

|

{z

}

=g0 =

µ

∂f

∂u

,

∂f

∂w

¶

|

{z

}

=f0 ·

Ã

∂u ∂x ∂u∂y ∂w ∂x ∂w∂y

!

|

{z

}

=(u,w)0

(6)

2. Twierdzenie o warto´sci ´sredniej

Przypomnijmy, ˙ze dla funkcji jednej zmiennej istnieje twierdzenie La-grange’a o warto´sci ´sredniej m´owi¸ace, ˙ze

f (x) − f (y) = f0(ξ)(x − y)

dla pewnego ξ ∈ (y, x) o ile f jest funkcja r´o˙zniczkowalna na [x, y]. Dla funkcji wielu zmiennych twierdzenie to ma nieco sÃlabsze sformuÃlowanie:

Twierdzenie 2 (o warto´sci ´sredniej dla funkcji wielu zmiennych) Niech f : E → Rm _{bedzie funkcj¸a r´o˙zniczkowaln¸a, gdzie E jest zbiorem otwartym}

wy-pukÃlym w Rn_{. Je´sli} kf0_(x)k 2 ≤ M dla ka˙zdego x ∈ E, to ∀ x, y ∈ E kf (x) − f (y)k2 ≤ Mkx − yk2. Uwagi:

• Twierdzenie powy˙zsze jest sformuÃlowane dla normy k · k2 tj.

kxk2 = v u u t n X j=1 |xj|2,

r´ownie˙z norma odwzorowania liniowego f0_{(x) ∈ L(R}n_{, R}m_{) jest liczona}

wzgl¸edem norm k · k2 w Rn _{i R}m_.

• Twierdzenie to jest prawdziwe tak˙ze dla innych norm na Rn _{i R}m _ale

wtedy trzeba tak˙ze u˙zywa´c odpowiedniej normy operatorowej dla f0_(x),

normy zdefiniowanej przy u˙zyciu norm rozpatrywanych w Rn _{i R}m_:

kf0_{(x)k := sup} kykRn

kf0_(x)yk

Rm.

Dow´od w tym og´olniejszym przypadku jest znacznie trudniejszy.

• Twierdzenie powy˙zsze odgrywa rol¸e tw. Lagrange’a z rachunku r´o˙zniczkowego funkcji jednej zmiennej.

(7)

Wniosek 3 Je˙zeli f : E → Rm _{jest odwzorowaniem r´o˙zniczkowalnym, gdzie}

E jest otwartym wypukÃlym podzbiorem w Rn _{oraz f}0 _{≡ 0, to f jest funkcj¸a}

staÃl¸a.

Faktycznie je´sli f0 _{= 0 to norma f}0_{(x) jest zawsze r´owna zeru i w}

twierdze-niu o warto´sci ´sredniej mo˙zna wzi¸a´sć M = 0. W powy˙zszym wniosku wy-pukÃlo´sć E mo˙zna pomin¸ać (Ãlatwo zauwa˙zyć posÃluguj¸ac si¸e Ãlamanymi) ale w twierdzeniu o warto´sci ´sredniej tego zaÃlo˙zenia nie mo˙zna pomin¸ać:

PrzykÃlad: We´zmy E = {(x, y) ∈ R2 _{: y 6= 0 lub x > 0}} oraz f (x, y) =    0, dla x ≥ 0; x2_, _{dla x < 0, y > 0;} −x2_{, dla x < 0, y < 0.}

Funkcja f ma ci¸agÃle pochodne cz¸astkowe na E wi¸ec ma te˙z ci¸agÃl¸a pochodna zupeÃln¸a. Zachodzi: ∂f ∂x(x, y) =    0, dla x ≥ 0; 2x, dla x < 0, y > 0; −2x, dla x < 0, y < 0. oraz ∂f ∂y(x, y) = 0

Zatem na przekroju kuli o srodku w punkcie (0, 0) i promieniu 3 norma pochodnej kf0_{(x, y)k ≤ 6. Niestety:}

(8)

3. Gradient

Zbadajmy teraz funkcj¸e f : E → R, gdy E ⊆ Rn_{. W´owczas pochodna w}

punkcie f0_{(x) ∈ L(R}n_{, R) i jej macierz ma wymiar 1 × n, tj.:}

f0_{(x) =} µ ∂f ∂x1 (x), ∂f ∂x2 (x), . . . , ∂f ∂xn (x) ¶ .

Na t¸e macierz mo˙zna patrze´c jak na wektor:

Definicja 4 Wektor µ ∂f ∂x1 (x), ∂f ∂x2 (x), . . . , ∂f ∂xn (x) ¶ = n X j=1 ∂f ∂xj (x)ej

nazywamy gradientem funkcji f w punkcie x i oznaczamy ∇f (x) lub grad f (x) (∇ to “nabla”).

Zatem:

f0_{(x)h = h∇f (x), hi}

czyli wykres funkcji

g : Rn _{→ R,} _{g(y) = f (x) + h∇f (x), y − xi}

jest “pÃlaszczyzn¸a” styczn¸a do wykresu funkcji f w punkcie x. Gdy n = 2 b¸edzie to naprawd¸e pÃlaszczyzna. Patrz plik: gradient w9.nb

PÃlaszczyzna styczna to jedyna pÃlaszczyzna taka, ˙ze lim

y→x

|g(y) − f (y)| ky − xk = 0

i jest to w otoczeniu punktu x “najlepsze mo˙zliwe przybli˙zenie” wykresu funkcji f .

(9)

4. Gradient a pochodna kierunkowa

Aby wytÃlumaczy´c znaczenie gradientu bedziemy najpierw potrzebowali poj¸ecia pochodnej kierunkowej.

Definicja 5 Niech f : E → Rm_{, E ⊆ R}n _{podzbi´or otwarty, x ∈ E, u ∈ R}n_.

Pochodn¸a kierunkow¸a funkcji f w punkcie x w kierunku u nazywamy: ∂uf (x) := Duf (x) := lim

t→0

f (x + tu) − f (x)

t ∈ R

m

Oczywi´scie najprostszy przypadek mamy, gdy m = 1 tj. funkcja f przyj-muje warto´sci rzeczywiste. Pochodna kierunkowa to w istocie pochodna funkcji jednej zmiennej powstaÃlej przez obci¸ecie funkcji f do prostej prze-chodz¸acej przez punkt x w kierunku wektora u tj. prostej:

` := {x + tu : t ∈ R}.

Traktujemy wtedy funkcj¸e f (x + tu) jako funkcje zmiennej rzeczywistej t i obliczamy pochodn¸a jako granice ilorazu r´o˙znicowego w punkcie t = 0 — to jest szukana pochodna kierunkowa.

Wprowad´zmy teraz funkcj¸e:

γ : R → Rn_, _{γ(t) = x + tu}

Obci¸ecie wspomniane wy˙zej funkcji f do prostej ` ( = obraz funkcji γ) to funkcja:

g : R → Rm_, _{g(t) := f (γ(t))}

Z twierdzenia o pochodnej funkcji zÃlo˙zonej mamy:

g0_{(t) = f}0_{(γ(t)) · γ}0_(t)

(10)

W szczeg´olno´sci: g0_{(0) = f}0_(x)u ale g0(0) = lim t→0 g(t) − g(0) t = limt→0 f (x + tu) − f (x) t = Duf (x) Udowodnili´smy:

Twierdzenie 6 Je´sli f : E → Rm_{, E ⊆ R}n_{otwarty, x ∈ E i f r´o˙zniczkowalna}

w punkcie x. W´owczas dla ka˙zdego u ∈ Rn _{pochodna kierunkowa D}

uf (x)

ist-nieje i zachodzi wz´or:

∂uf (x) = Duf (x) = f0(x)u

Uwagi:

• W szczeg´olno´sci pochodna kierunkowa w punkcie x zale˙zy liniowo od kierunku u.

• Warto zauwa˙zy´c, ˙ze pochodna cz¸astkowa wzgl¸edem j-tej zmiennej to w istocie pochodna kierunkowa w kierunku j-tego wektora jednostkowego. Szczeg´olny przypadek f : E → R: ∂uf (x) = f0(x)u = µ ∂f ∂x1 , . . . , ∂f ∂xn ¶   u1 ... un    = hgrad f (x), ui

Pochodna kierunkowa w kierunku u mierzy szybko´s´c wzrostu funkcji

f w kierunku u. Gdy v = 2u to Duf (x) = 2Dvf (x). Zatem jest to

szybko´sć wzrostu mierzona w jednostkach dÃlugo´sci wektora u. Aby wi¸ec uzyskać “obiektywn¸a” miar¸e wzrostu funkcji f w tym kierunku warto przyj¸ać

kuk2 = 1. Przypomnijmy, ˙ze dla dw´och wektor´ow x, y ∈ Rn zachodzi:

hx, yi = kxk2· kyk2cos θ

gdzie θ to k¸at mi¸edzy wektorami x i y. Zatem dla kuk2 = 1 mamy:

(11)

i liczba ta osi¸aga maksimum gdy cos θ = 1 czyli gdy u i ∇f (x) s¸a r´ownolegÃle i zwroty wektor´ow s¸a zgodne. A zatem dla

u = ∇f (x) k∇f (x)k2 mamy:

Duf (x) = k∇f (x)k2 Udowodnilismy, ˙ze:

Twierdzenie 7 Gradient ∇f (x) funkcji f : E → R (E ⊆ Rn _{otwarty) w}

punkcie x, to wektor skierowany w kierunku najszybszego wzrostu funkcji f w punkcie x a jego dÃlugo´s´c jest r´owna szybko´sci wzrostu w tym kierunku.

Warto teraz jeszcze raz spojrze´c na plik: gradient w9.nb