Analysis 2 – Differentialrechnung von Funktionen mehrerer Veränderlicher

Endlich und unendlich-dimensionale Vektorräume

Sei \(\field = \real \) oder \(\field = \complex \). Dann ist \(E\) ein linearer \(\field \)-Vektorraum, falls es Operationen \(+: E \times E \rightarrow E\) (\(x + y\)) und \(\cdot : \field \times E \rightarrow E\) (\(\alpha \cdot x\)) gibt, die die Vektorraum-Axiome erfüllen.

Eine Abbildung \(\norm {\cdot }: E \rightarrow \real \) heißt Norm auf \(E\), falls \(\norm {x} \ge 0\), \(\norm {x} = 0 \;\Leftrightarrow \; x = 0\), \(\norm {\alpha x} = |\alpha | \cdot \norm {x}\) sowie \(\norm {x + y} \le \norm {x} + \norm {y}\) für alle \(x, y \in E\) gilt.

Konvergenz im Vektorraum: Die Norm induziert eine Metrik mit \(d(x, y) = \norm {x - y}\).
Damit ist auch Konvergenz definiert: \(x_n \xrightarrow {\norm {\cdot }} x \;\Leftrightarrow \; d(x_n, x) \to 0 \;\Leftrightarrow \; \norm {x_n - y} \to 0\).
Es gelten die Grenzwertsätze \(x_n + y_n \xrightarrow {\norm {\cdot }} x + y\) und \(\alpha _n x_n \xrightarrow {\norm {\cdot }} \alpha x\), falls \(x_n, y_n, x, y \in E\), \(\alpha _n, \alpha \in \field \) mit \(x_n \xrightarrow {\norm {\cdot }} x\), \(y_n \xrightarrow {\norm {\cdot }} y\) und \(\alpha _n \to \alpha \).

Aufgrund der Dreiecksungleichung \(|\norm {x} - \norm {y}| \le \norm {x - y}\) ist \(\norm {\cdot }: E \rightarrow \real \) stetig, d. h.
\(x_n \xrightarrow {\norm {\cdot }} x \;\Rightarrow \; \norm {x_n} \xrightarrow {\real } \norm {x}\). Die Umkehrung gilt i. A. nicht.

\(x_i \in E\) (\(i = 1, \dotsc , m\)) heißen linear unabhängig, falls \(\alpha _1 x_1 + \dotsb + \alpha _m x_m = 0\) ausschließlich für \(\alpha _1 = \dotsb = \alpha _m = 0\) gilt.
Die Dimension \(\dim E\) ist dabei die größte Anzahl linear unabhängiger Vektoren in \(E\).
Bspw. sind \(\real ^n\) und \(\complex ^n\) \(n\)-dimensional.

\(x_\alpha \in E\) (\(\alpha \in A\)) heißen linear unabhängig, falls jede endliche Teilsystem linear unabhängig ist. Es ist \(\dim E = \infty \), falls es beliebig große linear unabhängige Teilsysteme aus \(E\) gibt.

Wählt man z. B. auf \(E = \C ([0,1])\) die Funktionen \(u_n \in E\), die zwischen \(\frac {1}{n + 1}\) und \(\frac {1}{n}\) in der Mitte eine Spitze haben, wobei die Funktion dort \(1\) ist und sonst \(0\), so sieht man \(\dim \C ([0,1]) = \infty \).

Auf dem endlich-dimensionalen Raum \(\real ^n\) kann man für \(x \in \real ^n\) die Normen
\(\norm {x}_2 = (\sum _{i=1}^n |x_i|^2)^{1/2}\), \(\norm {x}_1 = \sum _{i=1}^n |x_i|\) und \(\norm {x}_\infty = \max _{i = 1, \dotsc , n} |x_i|\) definieren.

Satz: Seien \(\norm {\cdot }_A\) und \(\norm {\cdot }_B\) zwei Normen auf dem endlich-dimensionalen Raum \(\field ^n\).
Dann sind diese Normen äquivalent, d. h. es gibt \(c, C > 0\), sodass \(c \norm {x}_A \le \norm {x}_B \le C \norm {x}_A\) für alle \(x \in \field ^n\) gilt.

Folgerung: Sind die Normen \(\norm {\cdot }_A\) und \(\norm {\cdot }_B\) äquivalent, so gilt \(x_n \xrightarrow {\norm {\cdot }_A} x \;\Leftrightarrow \; x_n \xrightarrow {\norm {\cdot }_B} x\) für \(x_n, x \in \field ^n\), \(n \in \natural \).

Dieser Satz gilt i. A. nicht in unendlich-dimensionalen Räumen. Außerdem gilt das Kompaktheitskriterium in unendlich-dimensionalen Räumen i. A. nicht.

Der Raum der stetigen linearen Operatoren

linearer Operator: Seien \((E, \norm {\cdot }_E)\), \((F, \norm {\cdot }_F)\) lineare \(\field \)-Vektorräume. Außerdem sei \(D_T \subset E\) eine lineare Teilmenge (d. h. linear abgeschlossen, also ein Unterraum). Dann heißt \(T: D_T \rightarrow F\) linear, falls \(T(\alpha x + \beta y) = \alpha T(x) + \beta T(y)\) für alle \(x, y \in D_T\), \(\alpha , \beta \in \field \) gilt.
Für einen linearen Operator gilt stets \(T(0_E) = 0_F\).

Stetigkeit von linearen Operatoren ist wie üblich über die \(\varepsilon \)-\(\delta \)-Definition oder über die Folgendefinition \(\forall _{\{y_k\},\; y_k \in D_T,\; y_k \xrightarrow {\norm {\cdot }_E} y \in D_T}\; T(y_k) \xrightarrow {\norm {\cdot }_F} T(y)\) definiert.

Satz: Sei \(T: D_T \subset E \rightarrow F\) linear.
Dann ist \(T\) in einem bestimmten \(y_0 \in D_T\) stetig genau dann, wenn \(T\) in allen \(y \in D_T\) stetig ist.

beschränkter linearer Operator: \(T: D_T \subset E \rightarrow F\) heißt beschränkt, falls es ein \(C < \infty \) gibt, sodass \(\norm {T(x)}_F \le C \norm {x}_E\) für alle \(x \in D_T\).

Satz: Sei \(T: D_T \subset E \rightarrow F\) linear. Dann ist \(T\) stetig genau dann, wenn \(T\) beschränkt ist.

Raum der stetigen linearen Operatoren:
Seien \((E, \norm {\cdot }_E)\) und \((F, \norm {\cdot }_F)\) normierte Räume und \(T: E \rightarrow F\) linear und beschränkt.
Dann wird \(\L (E,F) = \{T: E \rightarrow F \;|\; T \text { linear und beschränkt}\}\) zum Vektorraum mit
\((T_1 + T_2)(x) = T_1(x) + T_2(x)\) und \((\alpha T)(x) = \alpha T(x)\) (beide lineare Operatoren sind beschränkt).

\(\norm {T}_{\L (E,F)} = \sup _{x \in E,\; x \not = 0}\) \(\frac {\norm {T(x)}_F}{\norm {x}_E}\) \(= \sup _{x \in E,\; \norm {x}_E = 1} \norm {T(x)}_F\) ist die bestmögliche Konstante in der Definition der Beschränktheit, d. h. \(\norm {T(x)}_F \le \norm {T}_{\L (E,F)} \norm {x}_E\)

Satz: \((\L (E,F), \norm {\cdot }_{\L (E,F)})\) ist ein normierter Raum.

Satz: Ist \((F, \norm {\cdot }_F)\) vollständig, dann ist auch \((\L (E,F), \norm {\cdot }_{\L (E,F)})\) vollständig.

Komposition linearer Operatoren: Sind \(T \in \L (E,F)\) und \(S \in \L (F,G)\), dann ist auch \(ST \in \L (E,G)\). Es gilt \(\norm {ST}_{\L (E,G)} \le \norm {S}_{\L (F,G)} \norm {T}_{\L (E,F)}\).

Die Frechet-Ableitung

Seien \((E, \norm {\cdot }_E)\) und \((F, \norm {\cdot }_F)\) normierte Vektorräume, \(U \subset E\) offen, \(x_0 \in U\) und \(f: U \subset E \rightarrow F\) eine Funktion. Wegen \(x_0 \in U\) ist \(x_0 + h \in U\) für alle \(\norm {h}_E < \delta \) mit einem bestimmten \(\delta > 0\).

\(T_{x_0} \in \L (E, F)\) heißt Frechet-Ableitung von \(f\) in \(x_0\), falls
\(f(x_0 + h) = f(x_0) + T_{x_0}(h) + o(\norm {h}_E)\) für \(h \to 0\).

Die Frechet-Ableitung ist, falls sie existiert, eindeutig gegeben.
Man schreibt auch \(f’|_{x=x_0} = f’(x_0) = T_{x_0} \in \L (E,F)\).

Linearität: Seien \(f, g: U \subset E \rightarrow F\) in \(x_0\) Frechet-diffb. und \(\alpha , \beta \in \field \).
Dann ist \((\alpha f + \beta g)’|_{x=x_0} = \alpha f’|_{x=x_0} + \beta g’|_{x=x_0}\).

Stetigkeit: Ist \(f\) in \(x_0\) Frechet-differenzierbar, so ist \(f\) in \(x_0\) auch stetig.

Produktregel: Seien \(f: U \subset E \rightarrow F\) sowie \(\alpha : U \subset E \rightarrow \field \) in \(x_0 \in U\) Frechet-differenzierbar.
Dann ist \((\alpha f)’(x_0) = \alpha (x_0) f’(x_0) + f(x_0) \alpha ’(x_0)\).

Kettenregel: Seien \(E, F, G\) normierte Räume, \(U \subset E\) offen, \(V \subset F\) offen, \(x_0 \in U\), \(y_0 \in V\) und \(f: U \subset E \rightarrow V\), \(g: V \subset F \rightarrow G\), wobei \(f\) in \(x_0\) und \(g\) in \(y_0 = f(x_0)\) Frechet-diffb. sein soll.
Dann ist \((g \circ f)’(x_0) = g’(y_0) f’(x_0)\).

Die Gateaux-Ableitung

Seien \(E\) und \(F\) normierte Räume \(U \subset E\) offen, \(x_0 \in U\) und \(f: U \subset E \rightarrow F\). Für jedes \(h \in E\), \(h \not = 0\), \(t \in \field \) ist \(\varphi _h(t) = f(x_0 + th)\) für \(|t| < \delta (h)\) definiert.

\(Df(x_0)[h] = \left .\frac {d}{dt} \varphi _h(t)\right |_{t=0} = \lim _{t \to 0} \frac {f(x_0 + th) - f(x_0)}{t}\) heißt Richtungsableitung.

Homogenität: Für \(\alpha \in \field \) gilt \(Df(x_0)[\alpha h] = \alpha \cdot Df(x_0)[h]\).

Zusammenhang mit Frechet-Differenzierbarkeit:
Ist \(f: U \subset E \rightarrow F\) in \(x_0 \in U\) Frechet-diffb., dann existiert für alle \(h \in E\), \(h \not = 0\) die Richtungsableitung \(Df(x_0)[h] = (f’)_{x=x_0}h\).

Die Umkehrung gilt i. A. nicht, selbst wenn \(Df(x_0)[h]\) in allen Richtungen \(h \in E\), \(h \not = 0\) existiert, da \(Df(x_0)[h]\) nicht additiv in \(h\) sein muss.

Falls \(Df(x_0)[h]\) für alle \(h \in E\) existiert und falls \(Df(x_0)[\cdot ] \in \L (E,F)\) ist,
dann heißt \(f_s’(x_0)h = Df(x_0)[h]\) Gateaux-Ableitung oder schwache Ableitung.

Folgerung: Existiert die Frechet-Ableitung \(f’(x_0)\), so existiert auch die schwache Ableitung \(f_s’(x_0) = f’(x_0)\) und ist mit der Frechet-Ableitung gleich.

Die Umkehrung gilt i. A. nicht.

Satz: Sei \(f: U \subset E \rightarrow F\) mit \(U\) offen und \(x_0 \in U\). Zusätzlich sei \(f\) in allen Punkten \(x \in U_\varepsilon (x_0)\) Gateaux-differenzierbar und \(f_s’(\cdot ): U_\varepsilon (x_0) \subset E \rightarrow \L (E,F)\) sei stetig in \(x_0\).
Dann ist \(f\) in \(x_0\) Frechet-differenzierbar und \(f’(x_0) = f_s’(x_0)\).

Damit also aus der Existenz der schwachen Ableitung die Existenz der Frechet-Ableitung folgt, muss die schwache Ableitung \(f_s’(x) = Df(x)[\cdot ]\) in einer Umgebung von \(x = x_0\) existieren und in \(x_0\) stetig sein.

Der Hauptsatz der Differentialrechnung

Seien \(E, F\) normierte Räume und \(U \subset E\) offen, wobei \(a, b \in U\), \(\overline {ab} \subset U\) mit
\(\overline {ab} = \{x = ta + (1 - t)b \;|\; t \in [0,1]\}\). Weiter sei \(f: U \subset E \rightarrow F\) eine Funktion.

Hauptsatz der Differentialrechnung:
Sei \(f\) stetig auf \(\overline {ab}\), \(f_s’(x)\) existiert für alle \(x \in \overline {ab}\) und \(f_s’(\cdot ): \overline {ab} \subset U \rightarrow \L (E,F)\) stetig.
Dann ist \(\norm {f(b) - f(a)}_F \le \sup _{x \in \overline {ab}} \norm {f_s’(x)}_{\L (E,F)} \cdot \norm {b - a}_E\) und
\(\norm {f(b) - f(a) - f_s’(a)(b - a)}_F \le \sup _{x \in \overline {ab}} \norm {f_s’(x) - f_s’(a)}_{\L (E,F)} \cdot \norm {b - a}_E\).

Stetige, lineare Funktionale auf \(E\) sind Elemente aus \(\L (E, \field )\).

Lemma von Hahn und Banach: Sei \(E\) ein Banachraum.
Dann gibt es für alle \(y_0 \in E\), \(y_0 \not = 0\) ein Funktional \(\ell = \ell _{y_0} \in \L (E, \field )\), sodass
\(\norm {\ell }_{\L (E, \field )} = 1\) und \(|\ell [y_0]| = \norm {y_0}_E\).

Gateaux- und Frechet-Ableitungen zwischen ℝⁿ und ℝ^m

Sei \(f: U \subset \real ^n \rightarrow \real ^m\) mit \(U \subset \real ^n\) offen eine Funktion, wobei \(f(x) =\) \(\begin {pmatrix}f_1(x_1, \dotsc , x_n) \\ \vdots \\ f_m(x_1, \dotsc , x_n)\end {pmatrix}\).

Man sagt, \(f\) ist in \(x_0 \in U\) differenzierbar, falls \(f\) in \(x_0 \in U\) Frechet-differenzierbar ist.

Ist \(f\) in \(x_0 \in U\) Frechet-differenzierbar, so ist \(f(x_0 + h) = f(x_0) + f’(x_0)h + o(\norm {h})\) für
\(f’(x_0) \in \L (\real ^n, \real ^m)\).

Man betrachtet nun die kanonische Basen \(\{e_j \;|\; j = 1, \dotsc , n\}\) und \(\{e_k’ \;|\; k = 1, \dotsc , m\}\) des \(\real ^n\) und des \(\real ^m\). Dann lässt sich der \((k, j)\)-te Eintrag von der Abbildungsmatrix bzgl. dieser beiden Basen berechnen durch \([f’(x_0)]_{kj} = \innerproduct {f’(x_0)e_j, e_k’}_{\real ^m}\).

\(\left .\frac {\partial f}{\partial x_j}\right |_{x=x_0}\) \(= \lim _{t \to 0}\) \(\frac {f(x_0 + te_j) - f(x_0)}{t}\) \(= \lim _{t \to 0} \frac {f(x_1^{(0)}, \dotsc , x_j^{(0)} + t, \dotsc , x_n^{(0)}) - f(x_1^{(0)}, \dotsc , x_j^{(0)}, \dotsc , x_n^{(0)})}{t} = Df(x_0)[e_j]\) heißt partielle Ableitung.

Partielle Ableitungen sind also spezielle Richtungsableitungen und es gilt
\(\innerproduct {f_s’(x_0)e_j, e_k’} = \pi _k’(Df(x_0)[e_j]) = Df_k(x_0)[e_j] =\) \(\frac {\partial f_k}{\partial x_j}\)\(\Big |_{x=x_0}\).

Satz: Ist \(f\) im Punkt \(x_0 \in U\) Frechet-differenzierbar, so existieren alle partiellen Ableitungen \(\frac {\partial f_k}{\partial x_j}\)\(\Big |_{x=x_0}\) mit \(j = 1, \dotsc , n\) und \(k = 1, \dotsc , m\) und \(f’(x_0)\) lässt sich durch die Jacobi-Matrix \(J\) darstellen:

\(f’(x_0) = J(x_0) = \begin {pmatrix} \left .\frac {\partial f_1}{\partial x_1}\right |_{x=x_0} & \cdots & \left .\frac {\partial f_1}{\partial x_m}\right |_{x=x_0} \\ \vdots & & \vdots \\ \left .\frac {\partial f_n}{\partial x_1}\right |_{x=x_0} & \cdots & \left .\frac {\partial f_n}{\partial x_m}\right |_{x=x_0} \end {pmatrix}\)

Für die Anwendung dieses Satzes muss allerdings \(f\) Frechet-differenzierbar sein. Aus der Existenz aller partiellen Ableitungen folgt i. A. nicht die Frechet-Differenzierbarkeit.

Satz: Seien alle partiellen Ableitungen \(\frac {\partial f_k}{\partial x_j}\) existent in allen \(x \in U\) und in \(x_0 \in U\) stetig.
Dann ist \(f\) in \(x_0 \in U\) schwach differenzierbar und \(f_s’(x_0) = J(x_0)\).

Satz: Seien alle partiellen Ableitungen \(\frac {\partial f_k}{\partial x_j}\) existent in allen \(x \in U\) und in einer \(\varepsilon \)-Umgebung von \(x_0 \in U\) stetig.
Dann ist \(f\) im Punkt \(x_0\) Frechet-differenzierbar, d. h. es gibt \(f’(x_0)\).

Spezialfall: Sei \(f: U \subset \real ^n \rightarrow \real \) in \(x_0\) Frechet-differenzierbar.
Dann ist \(f’(x_0) = J(x_0) = (\frac {\partial f}{\partial x_1}, \dotsc , \frac {\partial f}{\partial x_n}) = (\nabla f)^t\) mit dem Gradienten \(\nabla f = \grad f = \begin {pmatrix}\frac {\partial f}{\partial x_1} \\ \vdots \\ \frac {\partial f}{\partial x_n}\end {pmatrix}\).

Ist \(h = (h_1, \dotsc , h_n)^t \in \real ^n\), so schreibt man \(f’(x_0)h = f_s’(x_0)h = Df(x_0)[h] = (\nabla f)^t\) \(\begin {pmatrix}h_1 \\ \vdots \\ h_n\end {pmatrix}\) \(= \innerproduct {\nabla f, h}_{\real ^n} = \innerproduct {h, \nabla } f = h_1 \frac {\partial f}{\partial x_1} + \dotsb + h_n \frac {\partial f}{\partial x_n} = \left (h_1 \frac {\partial }{\partial x_1} + \dotsb + h_n \frac {\partial }{\partial x_n}\right ) f\).

Somit gilt \(f(x_0 + h) - f(x_0) = \innerproduct {\nabla f, h} + o(\norm {h})\), \(h \to 0\), wobei \(\innerproduct {\nabla f, h} = \norm {\nabla f} \norm {h} \cos \sphericalangle (\nabla f, h)\) maximal für \(h \parallel \nabla f\) wird. Also zeigt der Gradient von \(f\) in die Richtung des stärksten Anstiegs.

Daraus kann man eine Gleichung für die Tangentialebene \(\widetilde {f}\) herleiten:
\(\widetilde {f}(x_0 + h) - \widetilde {f}(x_0) = \innerproduct {\nabla f(x_0), h}\), \(h = x - x_0\) bzw. \(y - y_0 = \innerproduct {\nabla f(x_0), x - x_0}\).

Ableitungen höherer Ordnung

Seien \(E, F\) normierte Räume mit \(U \subset E\) offen und \(f: U \subset E \rightarrow F\) in \(U\) Frechet-differenzierbar. Dann ist \(f’(\cdot ): U \subset E \rightarrow \L (E, F) = F_1\) eine Funktion, die jedem Punkt \(x_0 \in U\) eine Ableitung \(f’(x_0) \in L(E, F)\) (also stetige lineare Abbildung) in \(F_1\) zuweist.

Falls \(f’(\cdot ): U \subset E \rightarrow \L (E, F) = F_1\) selbst im Punkt \(x_0 \in U\) Frechet-differenzierbar ist, so ist \(f’’(x_0) = \left .(f’(\cdot ))’\right |_{x=x_0} \in \L (E, F_1) = \L (E, \L (E, F))\) die zweite Ableitung von \(f\) im Punkt \(x_0\).

Satz: Ist \(f\) zweimal im Punkt \(x_0 \in U\) Frechet-differenzierbar, so ist \([f’’(x_0)h]k = D[Df(x_0)k]h\) für \(h, k \in E\).

\([f’’(x_0)h]k = D[Df(x_0)k]h\) und \([f’’(x_0)k]h = D[Df(x_0)h]k\) sind linear in jedem einzelnen Argument \(h\) und \(k\), also ist \(f’’(x_0)\) eine bilineare Funktion.

Satz: Sei \(f: U \subset E \rightarrow F\) in \(U\) zweifach Frechet-diffb. und \(f’’(\cdot ): U \rightarrow \L (E, \L (E, F))\) stetig.
Dann ist \([f’’(x_0)h]k = [f’’(x_0)k]h\) für alle \(h, k \in E\), d. h. \(f’’(x_0)\) ist bilinear und symmetrisch.

Ist \(T: E_1 \times E_2 \rightarrow F\) eine bilineare Funktion, so kann man analog zu \(\L (E, F)\) eine Norm definieren mit \(\norm {T}_{\L (E_1, E_2, F)} = \sup _{x_1 \in E_1,\; x_2 \in E_2,\; x_1 \not = 0,\; x_2 \not = 0} \frac {\norm {T(x_1, x_2)}_F}{\norm {x_1}_{E_1} \norm {x_2}_{E_2}}\). Ebenfalls analog ist \(\L (E_1, E_2, F)\) vollständig, wenn \(F\) vollständig ist. Ist \(E_1 = E_2 = E\), so schreibt man \(\L (E, E, F) = \L _2(E, F)\).

Es gilt \(\norm {[f’’(x_0)h]k}_F \le \norm {f’’(x_0)h}_{\L (E, F)} \norm {k}_E \le \norm {f’’(x_0)}_{\L (E, F_1)} \norm {h}_E \norm {k}_E\), also ist \(f’’(x_0)\) eine stetige bilineare Abbildung, unter obigen Voraussetzungen zudem symmetrisch.

Spezialfall: Ist \(f: U \subset \real ^n \rightarrow \real \), so ist \(D(Df(x)[e_j])[e_k] = D(\frac {\partial f}{\partial x_j})[e_k] = \frac {\partial }{\partial x_k} \left (\frac {\partial f}{\partial x_j}\right ) = \frac {\partial ^2 f}{\partial x_k \partial x_j}\), dies ist i. A. verschieden von \(D(Df(x)[e_k])[e_j] = \frac {\partial }{\partial x_j} \left (\frac {\partial f}{\partial x_k}\right ) = \frac {\partial ^2 f}{\partial x_j \partial x_k}\).

Satz: Sei \(f: U \subset \real ^n \rightarrow \real \) (oder \(\real ^m\)), wobei alle zweiten partiellen Ableitungen existieren und auf \(U\) stetig sind. Dann ist \(\frac {\partial ^2 f}{\partial x_j \partial x_k} = \frac {\partial ^2 f}{\partial x_k \partial x_j}\).

Anmerkung: Für \(f: U \subset \real ^n \rightarrow \real \) zweifach Frechet-diffb. gilt \([f’’(x_0)h]k =: f’’(x_0)[h, k] = \innerproduct {H(x_0)h, k}_{\real ^n}\) mit der Hesse-Matrix \(H\):

\(H(x_0) = \begin {pmatrix} \left .\frac {\partial ^2 f}{\partial x_1^2}\right |_{x=x_0} & \cdots & \left .\frac {\partial ^2 f}{\partial x_1 \partial x_n}\right |_{x=x_0} \\ \vdots & & \vdots \\ \left .\frac {\partial ^2 f}{\partial x_n \partial x_1}\right |_{x=x_0} & \cdots & \left .\frac {\partial ^2 f}{\partial x_n^2}\right |_{x=x_0} \end {pmatrix}\)

Ist \(f: U \subset E \rightarrow F\) in allen \(x \in U\) zweifach Frechet-differenzierbar, so kann \(f’’(\cdot )\) als Funktion \(f’’(\cdot ): U \subset E \rightarrow F_2 = \L _2(E, F) = \L (E, \L (E, F))\) aufgefasst werden.
Ist \(f’’\) wiederum in \(U\) Frechet-differenzierbar, so ist
\(f^{(3)}(\cdot ) = (f’’(\cdot ))’: U \subset E \rightarrow \L _3(E, F) = \L (E, \L (E, \L (E, F))) = \L (E, E, E, F)\) die dritte Ableitung von \(f\), wobei \(f^{(3)}(x_0)[h, k, l]\) multilinear für \(h, k, l \in E\) ist.

Dies kann iterativ fortgesetzt werden: Die \(n\)-te Ableitung von \(f\) ist
\(f^{(n)}(x) = (f^{(n-1)}(x))’ \in \L _n(E, F)\) mit \(\L _n(E, F) = \L (E, \L _{n-1}(E, F))\).
Für \(h^{(k)} \in E\), \(k = 1, \dotsc , n\) schreibt man dann analog \(f^{(n)}[h^{(1)}, \dotsc , h^{(n)}]\).
Ist \(h^{(1)} = \dotsb = h^{(n)} = h \in E\), so schreibt man auch \(f^{(n)}(x)[h, \dotsc , h] = f^{(n)}(x)h^n\).

Die Taylorsche Formel

Satz von Taylor: Sei \(f: U \subset E \rightarrow F\) eine Funktion mit \(U\) offen, \(\overline {x_0, x_0 + h} \subset U\), wobei \(f\) auf \(U\) \(n + 1\)-fach stetig differenzierbar ist.
Dann ist \(f(x_0 + h) = f(x_0) + \sum _{k=1}^n \frac {1}{k!} f^{(k)}(x_0) h^k + r_n(x_0, h)\) mit
\(r_n(x_0, h) = \frac {1}{n!} \int _0^1 f^{(n+1)}(x + th)h^{n+1} (1 - t)^n \dt = \mathcal {O}(\norm {h}_E^{n+1})\) (bzw. \(r_n(x_0, h) = o(\norm {h}_E^n)\)) für \(h \to 0\).

Spezialfall: Sei \(f: U \subset \real ^n \rightarrow \real \) und \(h = (h_1, \dotsc , h_k)\).
Dann ist \(f’(x_0)h = Df(x_0)[h] = \sum _{k=1}^n \left .\frac {\partial f}{\partial x_k}\right |_{x=x_0}h_k = \innerproduct {\nabla f(x_0), h} = \left .\innerproduct {h, \nabla }\right |_{x=x_0}\) sowie
\(f’’(x_0)h^2 = \sum _{k,l=1}^n \left . \frac {\partial ^2 f}{\partial x_k \partial x_l}\right |_{x=x_0} h_k h_l = \innerproduct {H(x_0)h, h} = \left .\left (\sum _{k=1}^n h_k \frac {\partial }{\partial x_k} \cdot \sum _{l=1}^n h_l \frac {\partial }{\partial x_l}\right ) f\right |_{x=x_0} =\)
\(\left .\innerproduct {h, \nabla }\innerproduct {h, \nabla }f\right |_{x=x_0}\) usw., falls die partiellen Ableitungen alle stetig sind.
Es ergibt sich induktiv \(f^{(k)}(x_0)h^k = \left .\innerproduct {h, \nabla }^k f\right |_{x=x_0}\).

Damit kann man die Formel von Taylor schreiben als
\(f(x_0 + h) = f(x_0) + \sum _{k=1}^n \left .\frac {\innerproduct {h, \nabla }^k}{k!} f\right |_{x=x_0} + r_n(x_0, h)\).

Falls \(r_n(x_0, h) \xrightarrow {n \to \infty } 0\), so sagt man, \(f\) ist durch die Taylorreihe darstellbar, und man schreibt \(f(x_0 + h) = \left .\left (\sum _{k=0}^\infty \frac {\innerproduct {h, \nabla }^k}{k!}\right ) f\right |_{x=x_0} = \left .e^{\innerproduct {h, \nabla }} f\right |_{x=x_0}\).

Speziell für \(n = 2\) ist \(f(x_0 + h) - f(x_0) = \innerproduct {\nabla f(x_0), h} + \frac {1}{2} \innerproduct {H_f(x_0) h, h} + o(\norm {h}_E^2)\).

Der Fixpunktsatz von Banach

Seien \((M, d)\) ein metrischer Raum mit \(M \not = \emptyset \) und \(T: M \rightarrow M\) eine Funktion.
\(T\) heißt Kontraktion, falls es ein \(0 < \alpha < 1\) gibt, sodass \(d(Tx, Ty) \le \alpha \cdot d(x, y)\) für alle \(x, y \in M\) gilt.

Fixpunktsatz von Banach:
Seien \((M, d)\) ein vollständiger metrischer Raum und \(T: M \rightarrow M\) eine Kontraktion.
Dann gibt es genau ein \(x^\ast \in M\) mit \(Tx^\ast = x^\ast \) (d. h. \(x^\ast \) ist ein Fixpunkt von \(T\)).

Der Satz über implizite Funktionen

Gegeben sei eine implizite Funktion, d. h. zum Beispiel \(\phi (x, y) = 0\), \(x, y \in \real \) mit
\(\phi (x, y) = x^2 + y^2 - r^2 = 0\). Kann man eine solche Funktion nach \(x\) auflösen, d. h. gibt es eine Funktion \(y(x)\) mit \(y = y(x) \;\Leftrightarrow \; \varphi (x, y(x)) = 0\)? Global gibt es keine solche Funktion, lokal unter gewissen Voraussetzungen.

Allgemein: Seien \(\phi : \real ^{m+n} \rightarrow \real ^n\) sowie \(x = (x_1, \dotsc , x_m) \in \real ^m\), \(y = (y_1, \dotsc , y_n) \in \real ^n\). Dann ist \(\phi (x, y) = 0 \;\Leftrightarrow \; \phi _i(x_1, \dotsc , x_m, y_1, \dotsc , y_n) = 0\) für alle \(i = 1, \dotsc , n\). Ziel ist es, die \(y_i\) durch die \(x_i\) darzustellen, daher gibt es so viele Gleichungen wie Unbekannte.
Die Jacobi-Matrix hat die Form \(J = \left (\begin {array}{ccc|ccc} \frac {\partial \phi _1}{\partial x_1} & \cdots & \frac {\partial \phi _1}{\partial x_m} & \frac {\partial \phi _1}{\partial y_1} & \cdots & \frac {\partial \phi _1}{\partial y_n} \\ \vdots & & \vdots & \vdots & & \vdots \\ \frac {\partial \phi _n}{\partial x_1} & \cdots & \frac {\partial \phi _n}{\partial x_m} & \frac {\partial \phi _n}{\partial y_1} & \cdots & \frac {\partial \phi _n}{\partial y_n} \end {array}\right )\).
Man bezeichnet nun den linken Block mit \(\frac {\partial \phi }{\partial x}\) und rechten Block mit \(\frac {\partial \phi }{\partial y}\), dies sind also \(n \times m\)- bzw. \(n \times n\)-Matrizen.

Seien nun \(h = \begin {pmatrix}x - x_0\\y - y_0\end {pmatrix} \in \real ^{m+n}\), wobei \(\phi (x, y) = \phi (x_0, y_0) = 0\), d. h. \((x, y)\) und \((x_0, y_0)\) erfüllen die Gleichung.

Dann gilt mit der Frechet-Ableitung \(0 = \phi (x, y) = \phi (x_0, y_0) + \phi ’|_{(x_0,y_0)}h + r(x, y)\)
\(\Leftrightarrow \; 0 = \left .\frac {\partial \phi }{\partial x}\right |_{(x_0,y_0)}(x - x_0) + \left .\frac {\partial \phi }{\partial y}\right |_{(x_0,y_0)}(y - y_0) + r(x, y)\)
\(\Leftrightarrow \; -\left .\frac {\partial \phi }{\partial y}\right |_{(x_0,y_0)}(y - y_0) = \left .\frac {\partial \phi }{\partial x}\right |_{(x_0,y_0)} (x - x_0) + r(x, y)\).
Ist nun \(\left .\frac {\partial \phi }{\partial y}\right |_{(x_0,y_0)}\) invertierbar, so gilt \(y - y_0 = - \left (\left .\frac {\partial \phi }{\partial y}\right |_{(x_0,y_0)}^{-1}\right ) \left [\left .\frac {\partial \phi }{\partial x}\right |_{(x_0,y_0)} (x - x_0) + r(x, y)\right ]\), d. h. man hat eine nach \(y\) aufgelöste Darstellung gefunden.

Kreuzprodukt zweier normierter Räume: Seien \(E, F\) normierte \(\field \)-Vektorräume.
Dann wird \(E \times F\) zum normierten Raum durch die Norm \(\norm {(x, y)}_{E \times F} = \norm {x}_E + \norm {y}_F\).
\(E \times F\) ist vollständig, falls \(E\) und \(F\) vollständig sind.

lokale Auflösbarkeit: Seien \(E, F, G\) Banachräume, \(V \subset E \times F\) offen sowie \(\phi : V \subset E \times F \rightarrow G\), wobei \((x_0, y_0) \in V\) mit \(\phi (x_0, y_0) = 0\) ist.
\(\phi (x, y)\) ist in einer Umgebung von \((x_0, y_0)\) lokal nach \(y\) auflösbar, falls
\(\exists _{\varepsilon > 0} \exists _{\delta > 0} \exists _{f: U_\varepsilon (x_0) \rightarrow U_\delta (y_0)}\) mit 1. \(\phi (x, f(x)) = 0\) für alle \(x \in U_\varepsilon (x_0)\) und
2. \(y = f(x)\) für alle \((x, y) \in U_\varepsilon (x_0) \times U_\delta (y_0)\) mit \(\phi (x, y) = 0\).

partielle Frechet-Ableitung nach Unterräumen:
Sei wieder \(\phi : V \subset E \times F \rightarrow G\), \(V\) offen und \((x_0, y_0) \in V\). Dann ist
\(\phi _E’(x_0, y_0) = \left .\frac {\partial \phi }{\partial x}\right |_{(x_0,y_0)} \in \L (E,G)\) die partielle Frechet-Ableitung nach \(E\), falls
\(\phi (x_0 + h, y_0) = \phi (x_0, y_0) + \phi _E’(x_0, y_0)h + o(\norm {h}_E)\) für \(h \to 0\) und
\(\phi _F’(x_0, y_0) = \left .\frac {\partial \phi }{\partial y}\right |_{(x_0,y_0)} \in \L (F,G)\) die partielle Frechet-Ableitung nach \(F\), falls
\(\phi (x_0, y_0 + h) = \phi (x_0, y_0) + \phi _F’(x_0, y_0)h + o(\norm {h}_F)\) für \(h \to 0\).

Satz (lokale Auflösung impliziter Funktionen): Seien \(E, F, G\) Banachräume, \(V \subset E \times F\) offen sowie \(\phi : V \subset E \times F \rightarrow G\), wobei \((x_0, y_0) \in V\) mit \(\phi (x_0, y_0) = 0\) ist. Sei zusätzlich
1. \(\phi \) in \((x_0, y_0)\) stetig,
2. \(\phi _F’ = \frac {\partial \phi }{\partial y}\) existent auf \(V\) und \(\frac {\partial \phi }{\partial y}(\cdot ): V \subset E \times F \rightarrow \L (F,G)\) in \((x_0, y_0)\) stetig und
3. \(\frac {\partial \phi }{\partial y}(x_0, y_0)\) ist auf \(G\) invertierbar mit \(\left (\frac {\partial \phi }{\partial y}(x_0, y_0)\right )^{-1} \in \L (G,F)\).
Dann ist \(\phi (x, y)\) in einer Umgebung von \((x_0, y_0)\) lokal auflösbar.

Anmerkung: Die so gefundene Funktion \(y = y(x)\) ist stetig in \(x_0\).

Satz (Differenzierbarkeit): Sei zusätzlich zu den Voraussetzungen des Satzes
\(\phi _E’ = \frac {\partial \phi }{\partial x}\) existent auf \(V\) und \(\frac {\partial \phi }{\partial x}(\cdot ): V \subset E \times F \rightarrow \L (E, G)\) in \((x_0, y_0)\) stetig.
Dann ist \(y = y(x)\) in \(x = x_0\) Frechet-differenzierbar und \(y’(x_0) = -\left (\phi _y’(x_0, y_0)\right )^{-1} \phi _x’(x_0, y_0)\).

Beispiel: Seien \(E = F = G = \real \) und \(\phi (x, y(x)) = 0\). Differentiation nach \(x\) ergibt
\(0 = (\phi _x’, \phi _y’)\begin {pmatrix}1 \\ y_x’\end {pmatrix} = \phi _x’1 + \phi _y’ y_x’\), d. h. wie erwartet \(y_x’ = y’(x) = -\frac {\phi _x’}{\phi _y’}\).

\(y’’(x)\) lässt sich durch Differentiation von \(0 = \phi _x’(x, y(x)) + \phi _y’(x, y(x)) \cdot \frac {dy}{dx}\) herleiten:
\(y’’(x) = -\frac {\phi _{xx}’’ (\phi _y’)^2 - 2 \phi _{xy}’’ \phi _x’ \phi _y’ + \phi _{yy}’ (\phi _x’)^2}{(\phi _y’)^3}\), falls alle zweiten partiellen Ableitungen stetig sind.

\(\C ^p\)-Diffeomorphismus: Sei \(f: U \subset \real ^n \rightarrow V \subset \real ^n\) mit \(U, V \subset \real ^n\) offen. \(f\) heißt Diffeomorphismus der Klasse \(\C ^p\), falls \(f\) bijektiv und \(f, f^{-1} \in \C ^p\), d. h. \(p\)-mal stetig diffb., ist.

Satz: Sei \(f: G \subset \real ^n \rightarrow \real ^n\) mit \(G\) offen, \(f \in \C ^p(G, \real ^n)\), \(x_0 \in G\), \(y_0 = f(x_0)\), wobei
\(J(x_0) = f’(x_0) = \left (\frac {\partial f_k}{\partial x_\ell }(x_0)\right )_{k, \ell = 1}^n\) als Matrix invertierbar ist.
Dann gibt es offene Mengen \(U_{x_0} \ni x_0\) und \(V_{y_0} \ni y_0\), sodass
\(f: U_{x_0} \rightarrow V_{y_0}\) ein \(\C ^p\)-Diffeomorphismus ist.

Beispiel: Sei \(f(r, \theta ) = \begin {pmatrix}x(r, \theta ) \\ y(r, \theta )\end {pmatrix} = \begin {pmatrix}r \cos \theta \\ r \sin \theta \end {pmatrix}\), \(r > 0\). Dann ist \(f’(r, \theta ) = \begin {pmatrix}\cos \theta & -r \sin \theta \\ \sin \theta & r \cos \theta \end {pmatrix}\).
Wegen \(\det f’(r, \theta ) = r \not = 0\) ist \(f\) ein \(\C ^p\)-Diffeomorphismus.

Man versucht nun, partielle Ableitungen eines Koordinatensystems (z. B. das kartesische) in einem anderen Koordinatensystem (z. B. das Polar-) darzustellen. Dafür wandelt man eine Funktion \(g\) mit \(g(x, y) = g(x(r, \theta ), y(r, \theta )) = (g \circ f)(r, \theta ) = \widetilde {g}(r, \theta )\) um.
Nun ist einerseits \(\widetilde {g}’ = \left (\frac {\partial \widetilde {g}}{\partial r}, \frac {\partial \widetilde {g}}{\partial \theta }\right ) = (\nabla _{(r, \theta )} \widetilde {g})^t\) und andererseits mit Kettenregel
\(\widetilde {g}’ = \left (\frac {\partial g}{\partial x}, \frac {\partial g}{\partial y}\right ) \begin {pmatrix}\frac {\partial x}{\partial r} & \frac {\partial x}{\partial \theta } \\ \frac {\partial y}{\partial r} & \frac {\partial y}{\partial \theta }\end {pmatrix} = (\nabla _{(x,y)} g)^t \frac {D(x, y)}{D(r, \theta )}\). Daher gilt \(\nabla _{(r,\theta )} \widetilde {g} = \left (\frac {D(x, y)}{D(r, \theta )}\right )^t \nabla _{(x,y)} g\).
Man schreibt auch \(\nabla _{(r,\theta )} \cdot = \left (\frac {D(x, y)}{D(r, \theta )}\right )^t \nabla _{(x,y)} \cdot \), wobei \(g \circ f\) und \(g\) eingesetzt werden sollen.
Es gilt somit \(\nabla _{(x,y)} = \left [\left (\frac {D(x, y)}{D(r, \theta )}\right )^t\right ]^{-1} \nabla _{(r,\theta )} = G(r, \theta ) \nabla _{(r,\theta )}\)
mit \(G(r, \theta ) = \left [\left (\frac {D(x, y)}{D(r, \theta )}\right )^t\right ]^{-1} = \frac {1}{r} \begin {pmatrix}r \cos \theta & -\sin \theta \\ r \sin \theta & \cos \theta \end {pmatrix}\).

Allgemein: Dies kann man analog auch für Funktionen \(f: \real ^n \rightarrow \real ^n\), \(x = f(u)\), \(x, u \in \real ^n\) durchführen. Ist \(x_1 = x_1(u_1, \dotsc , u_n)\), …, \(x_n = x_n(u_1, \dotsc , u_n)\) sowie \(\det \frac {D(x_1, \dotsc , x_n)}{D(u_1, \dotsc , u_n)} \not = 0\), so gilt \(\nabla _u = \left (\frac {D(x_1, \dotsc , x_n)}{D(u_1, \dotsc , u_n)}\right )^t \nabla _x\) bzw. \(\nabla _x = G(u) \nabla _x\) mit \(G(u) = \left [\left (\frac {D(x_1, \dotsc , x_n)} {D(u_1, \dotsc , u_n)}\right )^t\right ]^{-1}\). So erhält man einen Differentialausdruck, der nur noch von \(u\) abhängt. Damit kann man \(\nabla _x\) durch \(\nabla _u\) darstellen.

Beispiel Laplace-Operator: Der Laplace-Operator kommt in vielen physikalischen Bereichen vor. Für \(x = (x_1, \dotsc , x_n) \in \real ^n\) ist er definiert durch
\(\Delta g(x) = \frac {\partial ^2 g}{\partial x_1^2} + \dotsb + \frac {\partial ^2 g}{\partial x_n^2} = \left (\frac {\partial ^2}{\partial x_1^2} + \dotsb + \frac {\partial ^2}{\partial x_n^2}\right ) g = \nabla _x^t \nabla _x g = \div (\grad g)\).

Mit \(\nabla _x g(x) = G(u) \nabla _u \widetilde {g}(u)\) (\((\widetilde {g} \circ f)(u) = g(x)\)) gilt
\(\nabla _x^t \nabla _x g = (G(u) \nabla _u)^t (G(u) \nabla _u) \widetilde {g} = \nabla _u^t G^t(u) G(u) \nabla _u \widetilde {g} - [\nabla _u^t G^t(u)] G(u) \nabla _u \widetilde {g}\).
Für \(n = 2\) und die Umwandlung in Polarkoordinaten gilt \(G^t(r, \theta ) G(r, \theta ) = \begin {pmatrix}1 & 0 \\ 0 & \frac {1}{r^2}\end {pmatrix}\),
\([\nabla _{(r,\theta )}^t G^t(r, \theta )] G(r, \theta ) = \begin {pmatrix}-\frac {1}{r} \cos \theta & -\frac {1}{r} \sin \theta \end {pmatrix} \begin {pmatrix} \cos \theta & -\frac {1}{r} \sin \theta \\ \sin \theta & \frac {1}{r} \cos \theta \end {pmatrix} = \begin {pmatrix}-\frac {1}{r} & 0\end {pmatrix}\).
Somit ist \(\Delta = \nabla _{(r,\theta )}^t G^t(r, \theta ) G(r, \theta ) \nabla _{(r,\theta )} - [\nabla _{(r,\theta )}^t G^t(r, \theta )] G(r, \theta ) \nabla _{(r,\theta )} = \left (\frac {\partial ^2}{\partial r^2} + \frac {\partial }{\partial \theta } \frac {1}{r^2} \frac {\partial }{\partial \theta }\right ) + \frac {1}{r} \frac {\partial }{\partial r}\). In der Literatur liest man auch manchmal \(\Delta = \frac {\partial ^2}{\partial r^2} + \frac {1}{r} \frac {\partial }{\partial r} + \frac {1}{r^2} \frac {\partial ^2}{\partial \theta ^2} = \frac {1}{r} \frac {\partial }{\partial r} r \frac {\partial }{\partial r} + \frac {1}{r^2} \frac {\partial ^2}{\partial \theta ^2}\).

Extremwerte von Funktionen mehrerer Variablen

Sei \(f: U \subset E \rightarrow \real \) eine Funktion von einem normierten Raum \(E\) in \(\real \) mit \(U \subset E\) offen.
\(f\) besitzt in \(x^\ast \in U\) ein lokales Maximum bzw. Minimum, falls
\(\exists _{\varepsilon > 0} \forall _{x \in U_\varepsilon (x^\ast ) \cap U}\; f(x^\ast ) \ge f(x)\) bzw. \(f(x^\ast ) \le f(x)\).
\(f\) besitzt in \(x^\ast \in U\) ein echtes (strenges) lokales Maximum bzw. Minimum, falls
\(\exists _{\varepsilon > 0} \forall _{x \in (U_\varepsilon (x^\ast ) \cap U) \setminus \{x^\ast \}}\; f(x^\ast ) > f(x)\) bzw. \(f(x^\ast ) < f(x)\).

Satz: \(f\) nehme in \(x^\ast \in U\) ein lokales Extremum an.
Existiert in der Richtung \(h \in E\) eine Richtungsableitung \(Df(x^\ast )[h]\), so ist \(Df(x^\ast )[h] = 0\).

Spezialfall: \(E = \real ^n\), \(x = (x_1, \dotsc , x_n)\). Falls \(f: U \subset \real ^n \rightarrow \real \) in \(x^\ast \in U\) einen lokalen Extremwert besitzt und \(\left .\frac {\partial f}{\partial x_k}\right |_{x=x^\ast } = Df(x^\ast )[e_k]\) existiert, so ist \(\left .\frac {\partial f}{\partial x_k}\right |_{x=x^\ast } = 0\).

Folgerung: Ist \(f\) in \(x^\ast \) Frechet-differenzierbar, so ist \(f’(x^\ast ) = 0\). Es gilt \(f’(x^\ast ) = (\nabla f(x^\ast ))^t\), d. h. falls \(f\) in \(x^\ast \) Frechet-diffb. ist, so ist \(\nabla f(x^\ast ) = 0\) eine notwendige Voraussetzung für die Existenz eines lokalen Extremwerts. Solche Punkte \(x^\ast \) heißen kritische Punkte.

Die Taylor-Entwicklung \(f(x^\ast + h) = f(x^\ast ) + \innerproduct {\nabla f(x^\ast ), h}_{\real ^n} + \frac {1}{2} \innerproduct {H(f)h, h}_{\real ^n} + o(\norm {h}^2)\), \(h \to 0\) gibt mit \(H(f) = \left .H(f)\right |_{x=x^\ast }\) hinreichende Bedingungen für Extremwerte:

\(\innerproduct {H(f)h, h} \ge \varepsilon \norm {h}^2\) für ein \(\varepsilon > 0\) (für alle \(h \in U_\delta (x_0)\)), d. h. \(H(f)\) ist positiv definit
\(\Rightarrow \;\) in \(x^\ast \) ist lokales Minimum
\(\innerproduct {H(f)h, h} \le -\varepsilon \norm {h}^2\) für ein \(\varepsilon > 0\) (für alle \(h \in U_\delta (x_0)\)), d. h. \(H(f)\) ist negativ definit
\(\Rightarrow \;\) in \(x^\ast \) ist lokales Maximum
es gibt \(h_+, h_- \in \real ^n\) mit \(\innerproduct {H(f)h_-, h_-} \le -\varepsilon \norm {h_-}^2\) und \(\innerproduct {H(f)h_+, h_+} \ge \varepsilon \norm {h_+}^2\)
\(\Rightarrow \;\) in \(x^\ast \) ist kein lokaler Extremwert

Wie lassen sich die hinreichende Bedingungen überprüfen?

\(H(f) = \left .H(f)\right |_{x=x^\ast } = \begin {pmatrix} \left .\frac {\partial ^2 f}{\partial x_1^2}\right |_{x=x^\ast } & \cdots & \left .\frac {\partial ^2 f}{\partial x_1 \partial x_n}\right |_{x=x^\ast } \\ \vdots & & \vdots \\ \left .\frac {\partial ^2 f}{\partial x_n \partial x_1}\right |_{x=x^\ast } & \cdots & \left .\frac {\partial ^2 f}{\partial x_n^2}\right |_{x=x^\ast } \end {pmatrix}\), \(\lambda _1 \le \dotsb \le \lambda _n\) Eigenwerte

Es gilt \(\lambda _1 \norm {h}^2 \le \innerproduct {H(f)h, h} \le \lambda _n \norm {h}^2\) und eine symmetrische Matrix ist genau dann positiv/negativ definit, wenn sie nur positive/negative Eigenwerte hat. Daher gilt

\(0 < \varepsilon = \lambda _1 \le \dotsb \le \lambda _n \quad \Leftrightarrow \quad \varepsilon \norm {h}^2 \le \innerproduct {H(f)h, h}\)
\(\lambda _1 \le \dotsb \le \lambda _n = -\varepsilon < 0 \quad \Leftrightarrow \quad -\varepsilon \norm {h}^2 \ge \innerproduct {H(f)h, h}\)
\(\lambda _1 < 0\), \(\lambda _n > 0 \quad \Rightarrow \quad \innerproduct {H(f)h_1, h_1} = \lambda _1 \norm {h_1}^2 < 0,\; \innerproduct {H(f)h_n, h_n} = \lambda _n \norm {h_n}^2 > 0\)

Spezialfall:

\(n = 2\), \(H(f) = \left .H(f)\right |_{x=x^\ast } = \begin {pmatrix} \left .\frac {\partial ^2 f}{\partial x_1^2}\right |_{x=x^\ast } & \left .\frac {\partial ^2 f}{\partial x_1 \partial x_2}\right |_{x=x^\ast } \\ \left .\frac {\partial ^2 f}{\partial x_2 \partial x_1}\right |_{x=x^\ast } & \left .\frac {\partial ^2 f}{\partial x_2^2}\right |_{x=x^\ast } \end {pmatrix}\), \(\lambda _1, \lambda _2\) Eigenwerte

Dann ist \(\det H(f) = \lambda _1 \lambda _2\) und \(\tr H(f) = \lambda _1 + \lambda _2\).

Ist nun \(\det H(f) > 0\), so haben \(\lambda _1, \lambda _2 \not = 0\) gleiche Vorzeichen.
Gilt zusätzlich \(\tr H(f) > 0\), so ist \(\lambda _1, \lambda _2 > 0\) und damit gilt Fall a).
Gilt stattdessen \(\tr H(f) < 0\), so ist \(\lambda _1, \lambda _2 < 0\) und damit gilt Fall b).
Ist aber \(\det H(f) < 0\), so haben \(\lambda _1, \lambda _2 \not = 0\) unterschiedliche Vorzeichen und es gilt Fall c).

Funktionen von konstantem Rang, Mannigfaltigkeiten

Gegeben seien offene Teilmengen \(U \subset \real ^n\) und \(V \subset \real ^m\) sowie eine Funktion \(\varphi : U \rightarrow V\) bijektiv mit \(\varphi , \varphi ^{-1} \in \C ^p\) für ein \(p \in \natural \). Also ist \(\varphi \) ein \(\C ^p\)-Diffeomorphismus.

Es gilt \(y = \varphi (x) \;\Leftrightarrow \; 0 = y - \varphi (x) = y - (\varphi \circ \varphi ^{-1})(y)\). Differentiation nach \(y\) ergibt
\(0_m = 1_m \;-\) \(\frac {D \varphi }{Dx} \frac {D \varphi ^{-1}}{Dy}\). Für den Rang der \(m \times n\)-Jacobimatrix \(\frac {D \varphi }{Dx}\) und der \(n \times m\)-Jacobimatrix \(\frac {D \varphi ^{-1}}{Dy}\) gilt \(\rg \frac {D \varphi }{Dx} \le \min \{n, m\}\) und \(\rg \frac {D \varphi ^{-1}}{Dy} \le \min \{n, m\}\).
Also gilt für das Produkt \(\rg \frac {D \varphi }{Dx} \frac {D \varphi ^{-1}}{Dy} \le \min \{n, m\}\) und mit \(\rg 1_m = m\) folgt aus
\(\rg 1_m = \rg \frac {D \varphi }{Dx} \frac {D \varphi ^{-1}}{Dy}\), dass \(m \le \min \{n, m\}\) gilt. Analog kann man \(n \le \min \{n, m\}\) folgern.
Daher ist \(n = m\) und \(\rg \frac {D \varphi }{Dx} = \rg \frac {D \varphi ^{-1}}{Dy} = n\).

Ein \(\C ^p\)-Diffeomorphismus zwischen \(\real ^n\) und \(\real ^m\) kann also nur existieren, wenn \(n = m\) ist.

Abbildungen von konstantem Rang:
Seien \(\widetilde {U} \subset \real ^n\) eine offene Menge, \(x_0 \in \widetilde {U}\) und \(f: \widetilde {U} \subset \real ^n \rightarrow \real ^m\) mit \(f \in \C ^p\).

Als Rang \(\rg f(x_0)\) von \(f\) im Punkt \(x_0\) bezeichnet man \(\rg f’(x_0) \le \min \{n, m\}\), wobei \(f’(x_0)\) die Jacobi-Matrix von \(f\) im Punkt \(x_0\) ist.

Satz: Sei \(f: \widetilde {U} \subset \real ^n \rightarrow \real ^m\) mit \(f \in \C ^p\), \(\widetilde {U} \subset \real ^n\) offen, \(x_0 \in \widetilde {U}\), \(y_0 = f(x_0)\) wie eben.
Zusätzlich sei \(\rg f(x) = k \le \min \{n, m\}\) konstant für \(x \in \widetilde {U}\).
Dann gibt es offene Mengen \(O_{x_0}, U \subset \real ^n\) und \(O_{y_0}, V \subset \real ^m\) mit \(x_0 \in O_{x_0}\), \(y_0 \in O_{y_0}\) sowie \(\varphi , \psi \) \(\C ^p\)-Diffeomorphismen mit \(\varphi : O_{x_0} \rightarrow U\), \(\psi : O_{y_0} \rightarrow V\) und \(\varphi (x_0) = \psi (y_0) = 0\), sodass \(v = (\psi \circ f \circ \varphi ^{-1})(u) = (u_1, \dotsc , u_k, 0, \dotsc , 0) \in \real ^m\) für alle \(u \in U\).

\(S \subset \real ^n\) ist eine \(k\)-dimensionale Mannigfaltigkeit der Klasse \(\C ^p\), falls
es für alle \(x^\ast \in S\) offene Teilmengen \(V_{x^\ast }, U \subset \real ^n\) mit \(x^\ast \in V_{x^\ast }\), \(0 \in U\) und einen \(\C ^p\)-Diffeomorphismus \(\psi : V_{x^\ast } \rightarrow U\) gibt, sodass \(\psi (S \cap V_{x^\ast }) = \{t \in U \;|\; t_{k+1} = \dotsb = t_n = 0\}\).

\(\psi = \psi _{x^\ast }\) heißt lokale Parametrisierung. Das Paar \((V_{x^\ast }, \psi _{x^\ast })\) heißt Karte, eine Menge von Karten heißt Atlas.

Tangentialebene: Sei \(S \subset \real ^n\) eine Mannigfaltigkeit mit
\(x = x(t_1, \dotsc , t_k) = \varphi (t_1, \dotsc , t_k, 0, \dotsc , 0)\), wobei \(\varphi = \psi ^{-1}\) und \(x^\ast \in S\).
Dann heißt \(T_{x^\ast } S = \{x \in \real ^n \;|\; x = \frac {D(x_1, \dotsc , x_n)}{D(t_1, \dotsc , t_k)} \widetilde {t},\; \widetilde {t} \in \real ^k\}\) die Tangentialebene in \(x^\ast \in S\).

Die Tangentialebene ist der Menge aller Tangentialvektoren an Kurven auf der Menge \(S\) durch den Punkt \(x^\ast \).

Extremwerte unter Nebenbedingungen

Gegeben sei ein Rechteck mit Umfang \(U\). Gesucht sind die Seitenlängen \(x_1\) und \(x_2\), sodass der Inhalt maximal wird. Dieses Problem lässt sich in die Zielfunktion \(f(x_1, x_2) = x_1 x_2\) und in die Nebenbedingung \(F(x_1, x_2) = 2x_1 + 2x_2 - U = 0\) aufspalten.

allgemein:
Gegeben sei eine Zielfunktion \(f: O \subset \real ^n \rightarrow \real \) mit den Nebenbedingungen (NB)
\(F_1(x_1, \dotsc , x_n) = \dotsb = F_k(x_1, \dotsc , x_n) = 0\) (also \(F: O \subset \real ^n \rightarrow \real ^k\), \(F(x) = 0\)) und \(f, F \in \C ^p\).
Gesucht ist \((x_1, \dotsc , x_n)\), sodass \(f(x_1, \dotsc , x_n)\) maximal wird und
\(F_1(x_1, \dotsc , x_n) = \dotsb = F_k(x_1, \dotsc , x_n) = 0\) ist.

Satz: Seien \(f \in \C ^1(O, \real )\) mit \(O \subset \real ^n\) offen, \(x^\ast \in O\), \(\nabla f|_{x=x^\ast } \not = 0\) und \(F \in \C ^1(O, \real )\). Nimmt \(f\) in \(x^\ast \) einen lokalen Extremwert unter Nebenbedingungen an, so gilt \(T_{x^\ast } S \subset T_{x^\ast } N_f(c)\), wobei \(N_f(c) = \{x \in O \;|\; f(x) = c\}\) ist.

Methode der Lagrange-Multiplikatoren:
Gegeben sei wie eben eine Zielfunktion \(f: O \subset \real ^n \rightarrow \real \) mit NB \(F_1(x) = \dotsb = F_k(x) = 0\).
Man führt nun \(k\) neue Variablen \(\lambda = (\lambda _1, \dotsc , \lambda _k)\) ein (Lagrange-Multiplikatoren) und betrachtet die Funktion \(L(x, \lambda ) = f(x) - \sum _{j=1}^k \lambda _j F_j(x)\).
Man sucht die lokalen Extremwerte von \(L(x, \lambda )\):

Für beliebige \(\lambda = (\lambda _1, \dotsc , \lambda _k)\) löse die Gleichung \(\nabla _x L(x, \lambda ) = 0\), d. h.
\(\nabla f(x) - \sum _{j=1}^k \lambda _j \nabla F_j(x) = 0\) nach \(x^\ast = x^\ast (\lambda )\) (\(n\) Gleichungen).
Setze \(x^\ast = x^\ast (\lambda )\) in die Nebenbedingungen ein, d. h. \(F_1(x^\ast (\lambda )) = \dotsb = F_k(x^\ast (\lambda )) = 0\). Wenn man dies nach \(\lambda ^\ast = (\lambda _1^\ast , \dotsc , \lambda _k^\ast )\) auflöst, so erhält man den kritischen Punkt
\(x^\ast = x^\ast (\lambda ^\ast )\).
Nun lässt sich mittels Überprüfung der Hesse-Matrix von \(L\) feststellen, ob in \(x^\ast \) tatsächlich ein Extrempunkt vorliegt. Diese enthält allerdings nur die zweiten Ableitungen nach \(x\): \(H_L(x^\ast ) = \Big (\)\(\left .\frac {\partial ^2 L}{\partial x_i x_j}\right |_{x=x^\ast }\)\(\Big )_{i,j=1}^n\).