Analiza dla informatyk´ow 2 DANI LI2 PaweÃl Doma´nski — szkicowe notatki do wykÃladu
WykÃlad 9
1. R´o˙zniczkowanie funkcji zÃlo˙zonej
Przypomnijmy, ˙ze je´sli f, g : R → R, to (f ◦ g)0(x) = f0(g(x)) · g0(x).
W przypadku funkcji wielu zmiennych podobny wz´or zachodzi, tyle tylko, ˙ze mno˙zenie liczb zast¸epuje skÃladanie odwzorowa´n liniowych.
Twierdzenie 1 (twierdzenie o pochodnej funkcji zÃlo˙zonej) Niech E ⊆ Rn,
F ⊆ Rm zbiory otwarte. Niech f : E → Rm, f (E) ⊆ F , g : F → Rl b¸ed¸a
funkcjami r´o˙zniczkowalnymi odpowiednio w punktach x ∈ E i f (x) ∈ F . W´owczas odwzorowanie zÃlo˙zone:
z = f ◦ g : E → Rl jest r´o˙zniczkowalne w punkcie x oraz:
Dz(x) = Dg(f (x)) ◦ Df (x) PrzykÃlad: f : R → R2, f (t) := µ sin t cos t ¶ oraz g : R2 → R, g(u, v) := u2+ v2 Obliczmy pochodne: Df (t) = µ cos t − sin t ¶ oraz Dg(u, v) = (2u, 2v) Zatem: D(g ◦ f )(t) = Dg(f (t)) ◦ Df (t)
Dow´od twierdzenia o pochodnej funkcji zÃlo˙zonej: Oznaczmy
A = f0(x), B = g0(f (x)), k = f (x + h) − f (x)
Z r´o˙zniczkowalno´sci f mamy:
kf (x+h)−f (x)−Ahk = kk −Ahk = ε(h)khk gdzie ε(h) → 0 gdy h → 0 zatem
kkk = kk−Ah+Ahk ≤ kk−Ahk+kAhk ≤ ε(h)khk+kAkkhk = (ε(h)+kAk)khk
Z r´o˙zniczkowalno´sci g mamy: kg(f (x + h)) − g(f (x)) − Bkk = kg(f (x) + k) − g(f (x)) − Bkk = η(k)kkk gdzie η(k) → 0 gdy k → 0 Ostatecznie: kz(x + h) − z(x) − B ◦ Ahk = kg(f (x + h)) − g(f (x)) − Bk + Bk − B(Ah)k ≤ η(k)kkk + kBkkk − Ahk ≤ η(k)(kAk + ε(h))khk + kBkε(h)khk = [η(k) (kAk + ε(h)) + kBkε(h)] | {z } →0 gdy h → 0 a zatem k → 0 khk 2
Uwaga — twierdzenie o pochodnej funkcji zÃlo˙zonej (a przynajmniej pewne jej postacie) nazywane s¸a reguÃl¸a Ãla´ncuchow¸a.
Podamy teraz kilka przykÃlad´ow:
• g : [a, b] → Rm, g(t) := g1(t) ... gm(t) , f : Rm → R, f ◦ g : [a, b] → R. D(f ◦ g)(t) = Df (g(t)) ◦ Dg(t) = µ ∂f ∂x1 (g(t)), ∂f ∂x2 (g(t)), . . . , ∂f ∂xm (g(t)) ¶ dg1 dt(t) dg2 dt(t) ... dgm dt (t) = m X j=1 ∂f ∂xj (g(t)) ·dgj dt (t)
Dobieraj¸ac oznaczenia xj = gj zapisujemy powy˙zszy wz´or:
df dt = m X j=1 ∂f ∂xj ·dxj dt .
Jest to klasyczny zapis. Mo˙zna te˙z pisa´c:
D(f ◦ g) =
m
X
j=1
Djf · Dgj
zapis ten cho´c mniej rozpowszechniony jest by´c mo˙ze bardziej jednoz-naczny.
• Bywa, ˙ze funkcja jest zadana nie we wsp´oÃlrz¸ednych kartezja´nskich ale np. we wsp´oÃlrz¸ednych biegunowych. Wsp´oÃlrz¸edne biegunowe (r, ϕ):
r =px2+ y2, ϕ :
sin ϕ =
√
y x2+y2, ;
cos ϕ =
√
x x2+y2, .
(co oznacza, ˙ze np. ϕ = arctan¡yx¢). Mamy wi¸ec funkcj¸e f (r, ϕ). Spr´obujemy ustali´c jak we wsp´oÃlrz¸ednych biegunowych wyra˙za si¸e
f0(x, y) = µ ∂f ∂x, ∂f ∂y ¶ . ZaÃl´o˙zmy, ˙ze W : R2 → R2, W (x, y) = (r, ϕ) zatem:
(f ◦ W )
0(x, y) = f
0(r, ϕ) ·
Ã
x√
x2+y2 y√
x2+y2 −y x2+y2 x2+yx 2!
=
µ
∂f
∂r
,
∂f
∂ϕ
¶
·
µ
cos ϕ sin ϕ
− sin ϕ r cos ϕ r¶
=
µ
cos ϕ
∂f
∂r
−
sin ϕ
r
∂f
∂ϕ
, sin ϕ
∂f
∂r
+
cos ϕ
r
∂f
∂ϕ
¶
.
Udowodnili´smy, ˙ze:∂f
∂x
= cos ϕ
∂f
∂r
−
sin ϕ
r
∂f
∂ϕ
∂f
∂y
= sin ϕ
∂f
∂r
+
cos ϕ
r
∂f
∂ϕ
• Og´olnie rzecz bior¸ac je´sli:
f : R2 → R, u : R2 → R, w : R2 → R oraz
g(x, y) = f (u, v) = f (u(x, y), w(x, y)),
to w´owczas:
∂g
∂x
=
∂f
∂u
·
∂u
∂x
+
∂f
∂w
·
∂w
∂x
,
∂g
∂y
=
∂f
∂u
·
∂u
∂y
+
∂f
∂w
·
∂w
∂y
.
bo na mocy naszego twierdzenia:
µ
∂g
∂x
,
∂g
∂y
¶
|
{z
}
=g0 =µ
∂f
∂u
,
∂f
∂w
¶
|
{z
}
=f0 ·Ã
∂u ∂x ∂u∂y ∂w ∂x ∂w∂y!
|
{z
}
=(u,w)02. Twierdzenie o warto´sci ´sredniej
Przypomnijmy, ˙ze dla funkcji jednej zmiennej istnieje twierdzenie La-grange’a o warto´sci ´sredniej m´owi¸ace, ˙ze
f (x) − f (y) = f0(ξ)(x − y)
dla pewnego ξ ∈ (y, x) o ile f jest funkcja r´o˙zniczkowalna na [x, y]. Dla funkcji wielu zmiennych twierdzenie to ma nieco sÃlabsze sformuÃlowanie:
Twierdzenie 2 (o warto´sci ´sredniej dla funkcji wielu zmiennych) Niech f : E → Rm bedzie funkcj¸a r´o˙zniczkowaln¸a, gdzie E jest zbiorem otwartym
wy-pukÃlym w Rn. Je´sli kf0(x)k 2 ≤ M dla ka˙zdego x ∈ E, to ∀ x, y ∈ E kf (x) − f (y)k2 ≤ Mkx − yk2. Uwagi:
• Twierdzenie powy˙zsze jest sformuÃlowane dla normy k · k2 tj.
kxk2 = v u u t n X j=1 |xj|2,
r´ownie˙z norma odwzorowania liniowego f0(x) ∈ L(Rn, Rm) jest liczona
wzgl¸edem norm k · k2 w Rn i Rm.
• Twierdzenie to jest prawdziwe tak˙ze dla innych norm na Rn i Rm ale
wtedy trzeba tak˙ze u˙zywa´c odpowiedniej normy operatorowej dla f0(x),
normy zdefiniowanej przy u˙zyciu norm rozpatrywanych w Rn i Rm:
kf0(x)k := sup kykRn
kf0(x)yk
Rm.
Dow´od w tym og´olniejszym przypadku jest znacznie trudniejszy.
• Twierdzenie powy˙zsze odgrywa rol¸e tw. Lagrange’a z rachunku r´o˙zniczkowego funkcji jednej zmiennej.
Wniosek 3 Je˙zeli f : E → Rm jest odwzorowaniem r´o˙zniczkowalnym, gdzie
E jest otwartym wypukÃlym podzbiorem w Rn oraz f0 ≡ 0, to f jest funkcj¸a
staÃl¸a.
Faktycznie je´sli f0 = 0 to norma f0(x) jest zawsze r´owna zeru i w
twierdze-niu o warto´sci ´sredniej mo˙zna wzi¸a´s´c M = 0. W powy˙zszym wniosku wy-pukÃlo´s´c E mo˙zna pomin¸a´c (Ãlatwo zauwa˙zy´c posÃluguj¸ac si¸e Ãlamanymi) ale w twierdzeniu o warto´sci ´sredniej tego zaÃlo˙zenia nie mo˙zna pomin¸a´c:
PrzykÃlad: We´zmy E = {(x, y) ∈ R2 : y 6= 0 lub x > 0} oraz f (x, y) = 0, dla x ≥ 0; x2, dla x < 0, y > 0; −x2, dla x < 0, y < 0.
Funkcja f ma ci¸agÃle pochodne cz¸astkowe na E wi¸ec ma te˙z ci¸agÃl¸a pochodna zupeÃln¸a. Zachodzi: ∂f ∂x(x, y) = 0, dla x ≥ 0; 2x, dla x < 0, y > 0; −2x, dla x < 0, y < 0. oraz ∂f ∂y(x, y) = 0
Zatem na przekroju kuli o srodku w punkcie (0, 0) i promieniu 3 norma pochodnej kf0(x, y)k ≤ 6. Niestety:
3. Gradient
Zbadajmy teraz funkcj¸e f : E → R, gdy E ⊆ Rn. W´owczas pochodna w
punkcie f0(x) ∈ L(Rn, R) i jej macierz ma wymiar 1 × n, tj.:
f0(x) = µ ∂f ∂x1 (x), ∂f ∂x2 (x), . . . , ∂f ∂xn (x) ¶ .
Na t¸e macierz mo˙zna patrze´c jak na wektor:
Definicja 4 Wektor µ ∂f ∂x1 (x), ∂f ∂x2 (x), . . . , ∂f ∂xn (x) ¶ = n X j=1 ∂f ∂xj (x)ej
nazywamy gradientem funkcji f w punkcie x i oznaczamy ∇f (x) lub grad f (x) (∇ to “nabla”).
Zatem:
f0(x)h = h∇f (x), hi
czyli wykres funkcji
g : Rn → R, g(y) = f (x) + h∇f (x), y − xi
jest “pÃlaszczyzn¸a” styczn¸a do wykresu funkcji f w punkcie x. Gdy n = 2 b¸edzie to naprawd¸e pÃlaszczyzna. Patrz plik: gradient w9.nb
PÃlaszczyzna styczna to jedyna pÃlaszczyzna taka, ˙ze lim
y→x
|g(y) − f (y)| ky − xk = 0
i jest to w otoczeniu punktu x “najlepsze mo˙zliwe przybli˙zenie” wykresu funkcji f .
4. Gradient a pochodna kierunkowa
Aby wytÃlumaczy´c znaczenie gradientu bedziemy najpierw potrzebowali poj¸ecia pochodnej kierunkowej.
Definicja 5 Niech f : E → Rm, E ⊆ Rn podzbi´or otwarty, x ∈ E, u ∈ Rn.
Pochodn¸a kierunkow¸a funkcji f w punkcie x w kierunku u nazywamy: ∂uf (x) := Duf (x) := lim
t→0
f (x + tu) − f (x)
t ∈ R
m
Oczywi´scie najprostszy przypadek mamy, gdy m = 1 tj. funkcja f przyj-muje warto´sci rzeczywiste. Pochodna kierunkowa to w istocie pochodna funkcji jednej zmiennej powstaÃlej przez obci¸ecie funkcji f do prostej prze-chodz¸acej przez punkt x w kierunku wektora u tj. prostej:
` := {x + tu : t ∈ R}.
Traktujemy wtedy funkcj¸e f (x + tu) jako funkcje zmiennej rzeczywistej t i obliczamy pochodn¸a jako granice ilorazu r´o˙znicowego w punkcie t = 0 — to jest szukana pochodna kierunkowa.
Wprowad´zmy teraz funkcj¸e:
γ : R → Rn, γ(t) = x + tu
Obci¸ecie wspomniane wy˙zej funkcji f do prostej ` ( = obraz funkcji γ) to funkcja:
g : R → Rm, g(t) := f (γ(t))
Z twierdzenia o pochodnej funkcji zÃlo˙zonej mamy:
g0(t) = f0(γ(t)) · γ0(t)
W szczeg´olno´sci: g0(0) = f0(x)u ale g0(0) = lim t→0 g(t) − g(0) t = limt→0 f (x + tu) − f (x) t = Duf (x) Udowodnili´smy:
Twierdzenie 6 Je´sli f : E → Rm, E ⊆ Rnotwarty, x ∈ E i f r´o˙zniczkowalna
w punkcie x. W´owczas dla ka˙zdego u ∈ Rn pochodna kierunkowa D
uf (x)
ist-nieje i zachodzi wz´or:
∂uf (x) = Duf (x) = f0(x)u
Uwagi:
• W szczeg´olno´sci pochodna kierunkowa w punkcie x zale˙zy liniowo od kierunku u.
• Warto zauwa˙zy´c, ˙ze pochodna cz¸astkowa wzgl¸edem j-tej zmiennej to w istocie pochodna kierunkowa w kierunku j-tego wektora jednostkowego. Szczeg´olny przypadek f : E → R: ∂uf (x) = f0(x)u = µ ∂f ∂x1 , . . . , ∂f ∂xn ¶ u1 ... un = hgrad f (x), ui
Pochodna kierunkowa w kierunku u mierzy szybko´s´c wzrostu funkcji
f w kierunku u. Gdy v = 2u to Duf (x) = 2Dvf (x). Zatem jest to
szybko´s´c wzrostu mierzona w jednostkach dÃlugo´sci wektora u. Aby wi¸ec uzyska´c “obiektywn¸a” miar¸e wzrostu funkcji f w tym kierunku warto przyj¸a´c
kuk2 = 1. Przypomnijmy, ˙ze dla dw´och wektor´ow x, y ∈ Rn zachodzi:
hx, yi = kxk2· kyk2cos θ
gdzie θ to k¸at mi¸edzy wektorami x i y. Zatem dla kuk2 = 1 mamy:
i liczba ta osi¸aga maksimum gdy cos θ = 1 czyli gdy u i ∇f (x) s¸a r´ownolegÃle i zwroty wektor´ow s¸a zgodne. A zatem dla
u = ∇f (x) k∇f (x)k2 mamy:
Duf (x) = k∇f (x)k2 Udowodnilismy, ˙ze:
Twierdzenie 7 Gradient ∇f (x) funkcji f : E → R (E ⊆ Rn otwarty) w
punkcie x, to wektor skierowany w kierunku najszybszego wzrostu funkcji f w punkcie x a jego dÃlugo´s´c jest r´owna szybko´sci wzrostu w tym kierunku.
Warto teraz jeszcze raz spojrze´c na plik: gradient w9.nb