Wahrscheinlichkeitsräume

W-Raum:  \((\Omega , \A , P)\) heißt Wahrscheinlichkeitsraum, falls \(\Omega \not = \emptyset \), \(\A \) eine \(\sigma \)-Algebra über \(\Omega \) und \(P\) ein W-Maß auf \((\Omega , \A )\) ist.

bedingte W.keit:  Seien \(A, B \in \A \) mit \(P(A) > 0\). Dann heißt \(P(B|A) := \frac {P(B \cap A)}{P(A)}\) bedingte Wahrscheinlichkeit von \(B\) gegeben \(A\). Es gilt \(P(A|B) = P(B|A) \cdot \frac {P(A)}{P(B)}\), wenn \(P(B) > 0\) (Formel von Bayes). Außerdem gilt \(P(B) = \sum _{i \in I} P(B|A_i) P(A_i)\), wenn die \(A_i \in \A \) (\(i \in I\)) mit \(I\) höchstens abzählbar eine Zerlegung von \(\Omega \) bilden und \(P(A_i) > 0\) gilt (Formel von der totalen Wahrscheinlichkeit).

stochastisch unabhängig für Ereignisse:  Die Ereignisse \(A_i \in \A \) (\(i \in I\)) heißen
(stochastisch) unabhängig, falls \(P(\bigcap _{i \in K} A_i) = \prod _{i \in K} P(A_i)\) für alle \(K \subset I\) endlich.

Kombinatorik

Urnenmodell:  Aus einer Urne mit \(n\) Kugeln werden \(k\) Kugeln gezogen.
Dann gibt es je nach Ziehungsverfahren unterschiedlich viele mögliche Stichproben:

  • geordnete Stichprobe ohne Zurücklegen: \(\frac {n!}{(n - k)!}\)

  • geordnete Stichprobe mit Zurücklegen: \(n^k\)

  • ungeordnete Stichprobe ohne Zurücklegen: \(\binom {n}{k}\)

  • ungeordnete Stichprobe mit Zurücklegen: \(\binom {n + k - 1}{k}\)

Diskrete Zufallsvariablen

diskreter W-Raum:  Ein W-Raum \((\Omega , \A , P)\) heißt diskret, falls \(\Omega \) höchstens abzählbar und \(\A = \pot (\Omega )\) ist. In diesem Fall heißt \((p_\omega )_{\omega \in \Omega }\) Zähldichte, wobei \(p_\omega := P(\{\omega \})\).

diskrete Zufallsvariable:  Sei \(E\) eine Menge. Dann heißt eine Abbildung \(X\colon \Omega \rightarrow E\) Zufallsvariable. Das W-Maß \(P_X\colon \pot (E) \rightarrow [0, 1]\) mit \(P_X(B) := P(X \in B)\) heißt Verteilung von \(X\). Die Funktion \(F_X\colon \real \rightarrow [0, 1]\) mit \(F_X(x) := P(X \le x)\) heißt Verteilungsfunktion von \(X\) (falls \(E = \real \)). Sie ist monoton wachsend, r.s. stetig und hat den GW \(1\) bzw. \(0\) für \(x \to \pm \infty \).

stochastisch unabhängig für diskrete ZV:  Die Zufallsvariablen \(X_i\colon \Omega \rightarrow E_i\) (\(i \in I\)) heißen (stochastisch) unabhängig, falls für alle \(B_i \subset E_i\) (\(i \in I\)) \((\{X_i \in B_i\})_{i \in I}\) als Familie von Ereignissen unabhängig ist.

diskreter Erwartungswert:  Die Zahl \(\EE (X) := \sum _{\omega \in \Omega } X(\omega ) p_\omega \) heißt Erwartungswert von \(X\) (falls \(X\) reell und \(\sum _{\omega \in \Omega } |X(\omega )| p_\omega < \infty \)). In diesem Fall gilt \(\EE (X) = \sum _{x \in X(\Omega )} x P_X(\{x\})\) (Transformationssatz). Es gilt \(\EE (X + Y) = \EE (X) + \EE (Y)\), \(\EE (\alpha X) = \alpha \EE (X)\) (Linearität),
\(\EE (c) = c\), \(X \le Y \;\Rightarrow \; \EE (X) \le \EE (Y)\) und \(|\EE (X)| \le \EE (|X|)\).
Sind \(X_1, \dotsc , X_n\) unabhängig, so gilt \(\EE (X_1 \dotsm X_n) = \EE (X_1) \dotsm \EE (X_n)\).

diskrete Varianz:  Die Zahl \(\Var (X) := \EE ((X - \EE (X))^2) = \EE (X^2) - \EE (X)^2\) heißt Varianz von \(X\) (falls \(\EE (X^2) < \infty \)). Es gilt \(\Var (\alpha X) = \alpha ^2 \Var (X)\), \(\Var (X + c) = \Var (X)\) und
\(\Var (X_1 + \dotsb + X_n) = \Var (X_1) + \dotsb + \Var (X_n)\), wenn \(X_1, \dotsc , X_n\) unabhängig (Satz von Bienaymé).

Diskrete Verteilungen

Name

Parameter

Zähldichte

EW

Varianz

Gleichverteilung

\(x_1, \dotsc , x_n\)

\(p_{x_i} := \frac {1}{n}\)

\(\frac {1}{n} \sum _{i=1}^n x_i\)

\(\frac {n^2 - 1}{12}\)

Beispiel: W.keit für eine markierte Seite beim Wurf eines fairen Würfels mit \(n\) Seiten und Werten \(x_1, \dotsc , x_n\)

Bernoulli-Verteilung \(\Bin (1, p)\)

\(p \in [0, 1]\)

\(p_0 := 1-p\), \(p_1 := p\)

\(p\)

\(p(1-p)\)

Beispiel: W.keit für Erfolg beim Wurf einer unfairen Münze (\(p\) Erfolgswahrscheinlichkeit)

Binomialverteilung \(\Bin (n, p)\)

\(n \in \natural _0\), \(p \in [0, 1]\)

\(p_k := \binom {n}{k} p^k (1-p)^{n-k}\), \(k = 0, \dotsc , n\)

\(np\)

\(np(1-p)\)

Beispiel: W.keit für \(k\) Erfolge bei \(n\)-fachem Wurf einer unfairen Münze

Poissonverteilung \(\Pois (\lambda )\)

\(\lambda \in \real ^+\)

\(p_k := \frac {\lambda ^k}{k!} e^{-\lambda }\), \(k \in \natural _0\)

\(\lambda \)

\(\lambda \)

Beispiel: W.keit für \(k\) Erfolge bei großer Anzahl an Durchführungen eines Bernoulli-Experiments mit sehr niedriger
Erfolgswahrscheinlichkeit, \(\lim _{n \to \infty } \binom {n}{k} (\lambda /n)^k (1-(\lambda /n))^{n-k} = \frac {\lambda ^k}{k!} e^{-\lambda }\)

geometrische Verteilung \(G(p)\)

\(p \in (0, 1]\)

\(p_k := p (1 - p)^{k-1}\), \(k \in \natural \)

\(\frac {1}{p}\)

\(\frac {1-p}{p^2}\)

Beispiel: W.keit, dass bei einem wiederholten Bernoulli-Experiment erst im \(k\)-ten Experiment ein Erfolg auftritt
(z. B. \(p = 1/4\) für Würfe auf eine geviertelte Dartscheibe mit einem markierten Viertel)

hypergeometrische Verteilung \(H(n, s, k)\)

\(n, k, s \in \natural _0\), \(s, k \le n\)

\(p_\ell := \binom {s}{\ell } \binom {n-s}{k-\ell } \left /\binom {n}{k}\right .\)

\(\frac {ks}{n}\)

\(\frac {ks(n-k)}{n(n-1)}(1-\frac {s}{n})\)

Beispiel: W.keit, dass bei einer ungeordneten Ziehung von \(k\) Kugeln ohne Zurücklegen aus einer Urne mit
\(s\) schwarzen und \(n - s\) weißen Kugeln genau \(\ell \) schwarze Kugeln gezogen werden

Maß- und Integrationstheorie

Dichte:  Eine Dichte ist eine Funktion \(f\colon \real \rightarrow [0, \infty )\) mit \(\int _\real f(u)\du = 1\).
Ein W-Maß \(P\) auf \(\real \) besitzt die Dichte \(f\), falls \(P((-\infty , x]) = \int _{-\infty }^x f(u)\du \) für alle \(x \in \real \).

messbare Abbildung:  Eine Abbildung \(f\colon (\Omega , \A ) \rightarrow (\Omega ’, \A ’)\) zwischen zwei Messräumen \((\Omega , \A )\) und \((\Omega ’, \A ’)\) heißt messbar, falls \(f^{-1}(A’) \in \A \) für alle \(A’ \in \A ’\).

Bildmaß:  Ist \(f\colon (\Omega , \A ) \rightarrow (\Omega ’, \A ’)\) messbar und \(\mu \) ein Maß auf \((\Omega , \A )\), so ist \(\mu _f\colon \A ’ \rightarrow [0, \infty ]\) mit \(\mu _f(A’) := \mu (f^{-1}(A’))\) das Bildmaß von \(\mu \) unter \(f\). Es ist ein W-Maß genau dann, wenn \(\mu \) ein W-Maß ist.

allgemeiner Transformationssatz:  Seien \((\Omega , \A , \mu )\) ein Maßraum, \((\Omega ’, \A ’)\) ein Messraum, \(f\colon \Omega ’ \rightarrow \real \) messbar und \(T\colon \Omega \rightarrow \Omega ’\) messbar. Dann ist \(f \in L^1(\mu _T) \iff f \circ T \in L^1(\mu )\).
In diesem Fall gilt \(\int _{\Omega ’} f d\mu _T = \int _\Omega (f \circ T)d\mu \).

Kontinuierliche Zufallsvariablen

Zufallsvariable:  Seien \((\Omega , \A , P)\) ein W-Raum und \((E, \A ’)\) ein Messraum. Dann heißt eine messbare Abbildung \(X\colon \Omega \rightarrow E\) Zufallsvariable. Das W-Maß \(P_X\colon \A ’ \rightarrow [0, 1]\) mit \(P_X(A’) := P(X \in A’)\) heißt Verteilung von \(X\). \(P_X\) ist das Bildmaß von \(P\) unter \(X\).
Die Funktion \(F_X\colon \real \rightarrow [0, 1]\) mit \(F_X(x) := P(X \le x)\) heißt Verteilungsfunktion von \(X\), falls \(X\) reell ist. Sie ist monoton wachsend, rechtsseitig stetig und hat den Grenzwert \(1\) bzw. \(0\) für \(x \to \pm \infty \). Wenn \(F_X\) absolutstetig ist, dann ist \(f_X(x) = F_X’(x)\) die Dichte von \(X\).
\(X\) heißt stetig/kontinuierlich, falls \(P_X\) eine Dichte besitzt.

stochastisch unabhängig für ZV:  Die Zufallsvariablen \(X_i\colon \Omega \rightarrow (E_i, \A _i’)\) (\(i \in I\)) heißen (stochastisch) unabhängig, falls für alle \(B_i \in \A _i’\) (\(i \in I\)) \((\{X_i \in B_i\})_{i \in I}\) als Familie von Ereignissen unabhängig ist. Die Dichte von \(X = (X_1, \dotsc , X_n)\colon \Omega \rightarrow \real ^n\) ist \(f(x) = f_1(x) \dotsm f_n(x)\), wenn \(X_1, \dotsc , X_n\) unabhängig sind und \(f_i\) die Dichte von \(X_i\) ist.

Erwartungswert:  Die Zahl \(\EE (X) := \int _\Omega X dP\) heißt Erwartungswert von \(X\) (falls \(X\) reell und \(X \in L^1(P)\)). In diesem Fall gilt \(\EE (X) = \int _\real x dP_X = \int _\real xf(x)\dx \), wenn \(X\) die Dichte \(f\) besitzt (Transformationssatz). Es gilt \(\EE (X + Y) = \EE (X) + \EE (Y)\), \(\EE (\alpha X) = \alpha \EE (X)\) (Linearität), \(\EE (c) = c\), \(X \le Y \;\Rightarrow \; \EE (X) \le \EE (Y)\) und \(|\EE (X)| \le \EE (|X|)\).
Sind \(X_1, \dotsc , X_n\) unabhängig, so gilt \(\EE (X_1 \dotsm X_n) = \EE (X_1) \dotsm \EE (X_n)\).
Ist \(g\colon \real \rightarrow \real \) messbar und besitzt \(X\) die Dichte \(f\), so gilt
\(\EE (g(X)) = \int _\real g(x) dP_X = \int _\real g(x)f(x)\dx \), falls \(g(X) \in L^1(P)\) (Transformationssatz).

\(k\)-tes Moment:  Die Zahl \(\EE (X^k)\) heißt \(k\)-tes Moment von \(X\) (falls \(X \in L^k(P)\)). Es gilt \(\EE (X^k) = \int _\real x^k dP_X = \int _\real x^k f(x)\dx \), wenn \(X\) die Dichte \(f\) besitzt (Transformationssatz).

Varianz:  Die Zahl \(\Var (X) := \EE ((X - \EE (X))^2) = \EE (X^2) - \EE (X)^2\) heißt Varianz von \(X\) (falls \(X \in L^2(P)\)). Es gilt \(\Var (\alpha X) = \alpha ^2 \Var (X)\), \(\Var (X + c) = \Var (X)\) und \(\Var (X_1 + \dotsb + X_n) = \Var (X_1) + \dotsb + \Var (X_n)\), wenn \(X_1, \dotsc , X_n\) unabhängig (Satz von Bienaymé).

Kovarianz:  Für zwei reelle ZV \(X, Y\) heißt \(\Cov (X, Y) := \EE (XY) - \EE (X)\EE (Y)\) Kovarianz.
Für \(\Cov (X, Y) = 0\) heißen \(X, Y\) unkorreliert. Unabhängige ZV sind unkorreliert.

Transformationssatz:  Seien \(X\) eine reelle, stetige ZV mit Dichte \(f\) und \(h\colon \real \rightarrow \real \) sei bijektiv auf einer offenen Menge \(B\) mit \(\PP (X \in B) = 1\) und diffb. mit \(h’(x) \not = 0\) für alle \(x \in B\).
Dann ist \(Y := h(X)\) eine stetige ZV mit Dichte \(g(y) := \frac {f(h^{-1}(y))}{|h’(h^{-1}(y))|} \1_B(h^{-1}(y))\) für \(y \in \real \).

Kontinuierliche Verteilungen

Name

Parameter

Dichte

EW

Varianz

Gleichverteilung \(\U ([a, b])\)

\(a, b \in \real \), \(a < b\)

\(f(x) := \frac {1}{b-a} \cdot \1_{[a,b]}(x)\)

\(\frac {a+b}{2}\)

\(\frac {(b-a)^2}{12}\)

Beispiel: Bruch eines Stabes der Länge \(b - a\) an einer zufälligen Stelle

Exponentialverteilung \(\Exp (\lambda )\)

\(\lambda > 0\)

\(f(x) := \lambda e^{-\lambda x} \cdot \1_{(0,\infty )}(x)\)

\(\frac {1}{\lambda }\)

\(\frac {1}{\lambda ^2}\)

Beispiel: Zeit zwischen zwei Anrufen, Lebensdauer von Atomen beim radioaktiven Zerfall

Normalverteilung \(\N (\mu , \sigma ^2)\)

\(\mu \in \real \), \(\sigma ^2 > 0\)

\(f(x) := \frac {1}{\sqrt {2\pi \sigma ^2}} \exp (-\frac {(x-\mu )^2}{2\sigma ^2})\)

\(\mu \)

\(\sigma ^2\)

Beispiel: physikalische Messwerte mit Messfehler, Brownsche Molekularbewegung, zentraler Grenzwertsatz:
\(X_1, X_2, \dotsc \) i.i.d. mit endlichem EW und endlicher Varianz, dann gilt \(Z_n \to Z\) in Verteilung mit \(Z_n := \frac {1}{\sqrt {n\sigma ^2}} \sum _{k=1}^n (X_k - \mu )\) und \(Z \sim \N (0, 1)\)

Beta-Verteilung \(\BetaV (a, b)\)

\(a, b > 0\)

\(f(x) := \frac {x^{a-1} (1-x)^{b-1}}{B(a, b)} \cdot \1_{[0,1]}(x)\)

\(\frac {a}{a+b}\)

\(\frac {ab}{(a+b+1)(a+b)^2}\)

Beispiel: konjugierte Familie von a-Priori-Verteilungen für Binomial- und Bernoulli-Verteilung (und geometrische Verteilung),
\(B(a, b) := \int _0^1 t^{a-1} (1-t)^{b-1} \dt \)

Gamma-Verteilung \(\GammaV (a, \lambda )\)

\(a, \lambda > 0\)

\(f(x) := \frac {\lambda ^a x^{a-1} e^{-\lambda x}}{\Gamma (a)} \cdot \1_{(0,\infty )}(x)\)

\(\frac {a}{\lambda }\)

\(\frac {a}{\lambda ^2}\)

Beispiel: Bedienzeiten und Reparaturzeiten, Modellierung von kleinen bis mittleren Schäden in der Versicherungsmathematik,
\(\Gamma (a) := \int _0^\infty t^{a-1} e^{-t}\dt \)

Schätzer für Erwartungswert und Varianz

arithmetischer Mittelwert: 
Der (arithmetische) Mittelwert von \(X = (X_1, \dotsc , X_n)\) ist \(\overline {X} := \frac {1}{n} \sum _{i=1}^n X_i\).

korrigierte Stichprobenvarianz: 
Die (korrigierte) Stichprobenvarianz von \(X = (X_1, \dotsc , X_n)\) ist \(S^2(X) := \frac {1}{n-1} \sum _{i=1}^n (X_i - \overline {X})^2\).
Es gilt \(S^2(X) = \frac {1}{n-1} \sum _{i=1}^n X_i^2 - \frac {n}{n-1} (\overline {X})^2\).
Sind \(X_1, \dotsc , X_n\) i.i.d. und \(\mu = \EE (X_1)\) bekannt, dann verwendet man normalerweise stattdessen \({S^\ast }^2(X) := \frac {1}{n} \sum _{i=1}^n (X_i - \mu )^2\).

Weitere kontinuierliche Verteilungen

Chi-Quadrat-Verteilung \(\chi _n^2\):  Für \(X_1, \dotsc , X_n \sim \N (0, 1)\) i.i.d. heißt die
Verteilung von \(Y := \sum _{i=1}^n X_i^2\) Chi-Quadrat-Verteilung \(\chi _n^2\) mit \(n\) Freiheitsgraden.
Für \(X_1, \dotsc , X_n \sim \N (\mu , \sigma ^2)\) i.i.d. gilt \(\frac {(n-1)S^2}{\sigma ^2} \sim \chi _{n-1}^2\).

studentsche \(t\)-Verteilung \(t_n\):  Für \(X \sim \N (0, 1)\) und \(Y \sim \chi _n^2\) unabhängig heißt die
Verteilung von \(Z := \frac {X}{\sqrt {Y/n}}\) studentsche \(t\)-Verteilung \(t_n\) mit \(n\) Freiheitsgraden.

\(F\)-Verteilung \(F_{(n,m)}\):  Für \(X \sim \chi _n^2\) und \(Y \sim \chi _m^2\) unabhängig heißt die
Verteilung von \(Z := \frac {X/n}{Y/m}\) \(F\)-Verteilung \(F_{(n,m)}\) mit \((n, m)\) Freiheitsgraden.

Mehrdimensionale Zufallsvariablen

Zufallsvektor:  Ein Zufallsvektor (mehrdimensionale Zufallsvariable) ist eine messbare Abbildung \(X\colon \Omega \rightarrow \real ^n\), d. h. ein Vektor \(X = (X_1, \dotsc , X_n)\) von Zufallsvariablen \(X_i\colon \Omega \rightarrow \real \).
Die Verteilung \(P_X\) von \(X\) heißt mehrdimensionale Verteilung, die Verteilungen der \(X_i\) heißen Randverteilungen.
Die Funktion \(F_X\colon \real ^n \rightarrow [0, 1]\) mit \(F_X(x) := P(X \le x) = P(X_1 \le x_1, \dotsc , X_n \le x_n)\) heißt Verteilungsfunktion von \(X\).

diskreter Zufallsvektor:  Ist das Bild \(X(\Omega )\) höchstens abzählbar, so heißt \(X\) diskret.
In diesem Fall ist \(p_x := P(X = x) = P(X_1 = x_1, \dotsc , X_n = x_n)\) die Zähldichte von \(P_X\) (gemeinsame Zähldichte der \(X_1, \dotsc , X_n\)) und die Zähldichten der Randverteilungen berechnen sich durch \(P(X_i = x_i’) = \sum _{x \in X(\Omega )} P(X = (x_1, \dotsc , x_i’, \dotsc , x_n))\).
Die \(X_1, \dotsc , X_n\) sind unabhängig genau dann, wenn \(P(X = x) = P(X_1 = x_1) \dotsm P(X_n = x_n)\).

stetiger Zufallsvektor:  Besitzt \(X\) eine Dichte (gemeinsame Dichte der \(X_1, \dotsc , X_n\)), d. h. eine Funktion \(f_X\colon \real ^n \rightarrow \real \) mit
\(P((-\infty , x_1] \times \dotsb \times (-\infty , x_n]) = \int _{-\infty }^{x_1} \dotsb \int _{-\infty }^{x_n} f_X(u)\du \), so heißt \(X\) stetig/kontinuierlich.
In diesem Fall berechnen sich die Dichten der Randverteilungen (Randdichten) durch
\(f_{X_i}(x_i’) = \int _\real \dotsb \int _\real f(x_1, \dotsc , x_i’, \dotsc , x_n) \dx _1 \dotsb \dx _{i-1} \dx _{i+1} \dotsb \dx _n\).
Die \(X_1, \dotsc , X_n\) sind unabhängig genau dann, wenn \(f_X(x) = f_{X_1}(x_1) \dotsm f_{X_n}(x_n)\) für alle \(x \in \real ^n\)
(was gilt genau dann, wenn \(F_X(x) = F_{X_1}(x_1) \dotsm F_{X_n}(x_n)\) für alle \(x \in \real ^n\)).

Bedingte Verteilungen

bedingte Verteilung:  Seien \(X\) und \(Y\) zwei Zufallsvariablen.
Dann ist die bedingte Verteilung \(X|Y\) von \(X\) gegeben \(Y\) wie folgt definiert:

  • Sind \(X\) und \(Y\) diskret mit gemeinsamer Zähldichte \(p(x, y)\), so hat die bedingte Verteilung
    \(X|Y\) die Zähldichte \(p(x|Y=y) := \frac {p(x,y)}{p_Y(y)} = P(X=x|Y=y)\) mit der Randdichte
    \(p_Y(y) := P(Y=y) = \sum _{x’ \in X(\Omega )} p(x’, y)\) von \(Y\) (falls \(p_Y(y) > 0\)).

  • Sind \(X\) und \(Y\) stetig mit gemeinsamer Dichte \(f_{X,Y}(x, y)\), so hat die bedingte Verteilung
    \(X|Y\) die Dichte \(f_X(x|Y=y) := \frac {f_{X,Y}(x,y)}{f_Y(y)}\) mit der Randdichte
    \(f_Y(y) := \int _{X(\Omega )} f_{X,Y}(x’, y) \dx ’\) von \(Y\) (falls \(f_Y(y) > 0\)).

Im stetigen Fall ist \(f_X(x) = \int _{Y(\Omega )} f_Y(y) f_X(x|Y=y)\dy \) (Gesetz der totalen Wahrscheinlichkeit).

bedingter Erwartungswert:  Seien \(X\) und \(Y\) zwei Zufallsvariablen mit \(\EE (|X|) < \infty \).
Sind \(X\) und \(Y\) diskret mit gemeinsamer Zähldichte \(p(x,y)\), dann ist der bedingte Erwartungswert von \(X\) gegeben \(Y=y\) gleich \(\EE (X|Y=y) := \sum _{x \in X(\omega )} x \cdot p(x|y) = \sum _{x \in X(\Omega )} x \cdot P(X=x|Y=y)\).
Sind \(X\) und \(Y\) stetig mit gemeinsamer Dichte \(f_{X,Y}(x,y)\), dann ist der bedingte Erwartungswert von \(X\) gegeben \(Y=y\) gleich \(\EE (X|Y=y) := \int _\real x \cdot f_X(x|Y=y) \dx \).
Für \(X = (X_1, \dotsc , X_n)\) und \(Y = (Y_1, \dotsc , Y_m)\) ist der bedingte Erwartungswert von \(X\) gegeben \(Y=y\) gleich \(\EE (X|Y=y) := (\EE (X_1|Y=y), \dotsc , \EE (X_n|Y=y))\).
Der bedingte Erwartungswert von \(X\) gegeben \(Y\) ist definiert als die Zufallsvariable
\(\EE (X|Y) := g(Y)\) mit \(g(y) := \EE (X|Y=y)\).
Es gilt \(\EE (\EE (X|Y)) = \EE (X)\) (Satz vom iterierten Erwartungswert).

Ungleichungen

Jensen-Ungleichung: 
Sei \(g\colon \real \rightarrow \real \) konvex (d. h. \(g(\lambda x + (1-\lambda ) y) \le \lambda g(x) + (1-\lambda ) g(y)\) für alle \(\lambda \in (0, 1)\) und \(x, y \in \real \)) und \(X\) eine reelle Zufallsvariable mit \(\EE (|X|) < \infty \). Dann gilt \(\EE (g(X)) \ge g(\EE (X))\).

Markov-Ungleichung: 
Seien \(X\) eine reelle Zufallsvariable, \(h\colon \real ^+ \rightarrow \real ^+\) monoton wachsend und \(\varepsilon > 0\).
Dann gilt \(P(|X| \ge \varepsilon ) \le \frac {\EE (h(|X|))}{h(\varepsilon )}\).

Tschebyscheff-Ungleichung: 
Seien \(X\) eine reelle Zufallsvariable mit \(\Var (X) < \infty \) und \(\varepsilon > 0\).
Dann gilt \(P(|X - \EE (X)| \ge \varepsilon ) \le \frac {\Var (X)}{\varepsilon ^2}\) oder alternativ \(P(|X - \EE (X)| < \varepsilon ) \ge 1 - \frac {\Var (X)}{\varepsilon ^2}\).

Grenzwertbegriffe

\(P\)-fast-sichere Konvergenz:  Seien \((X_n)_{n \in \natural }\) und \(X\) Zufallsvariablen. Dann konvergiert
\((X_n)_{n \in \natural }\) \(P\)-fast-sicher gegen \(X\) (\(X_n \xrightarrow {P\text {-f.s.}} X\)), falls \(P(\lim _{n \to \infty } X_n = X) = 1\).

stochastische Konvergenz:  \((X_n)_{n \in \natural }\) konvergiert stochastisch gegen \(X\) (\(X_n \xrightarrow {P} X\)), falls
für jedes \(\varepsilon > 0\) gilt, dass \(P(|X_n - X| \ge \varepsilon ) \xrightarrow {n \to \infty } 0\). Aus \(P\)-f.s. folgt stochastische Konvergenz.

Konvergenz in Verteilung:  \((X_n)_{n \in \natural }\) konvergiert in Verteilung gegen \(X\) (\(X_n \xrightarrow {\text {(d)}} X\)), falls
für alle Punkte \(x\), an denen \(F_X\) stetig ist, gilt, dass \(F_{X_n}(x) \xrightarrow {n \to \infty } F_X(x)\).
Aus stochastischer Konvergenz folgt Konvergenz in Verteilung.

Grenzwertsätze

Null-Eins-Gesetz von Kolmogorov:  Seien \((\A _n)_{n \in \natural }\) eine unabhängige Folge von \(\sigma \)-Algebren \(\A _n \subset \A \) und \(\T _\infty \) die terminale \(\sigma \)-Algebra von \((\A _n)_{n \in \natural }\).
Dann gilt \(P(A) \in \{0, 1\}\) für alle \(A \in \T _\infty \).
Insbesondere gilt \(P(A) \in \{0, 1\}\) für folgende Ereignisse \(A \in \A \), wenn \((X_n)_{n \in \natural }\) eine Folge unabhängiger, reeller Zufallsvariablen ist:

  • \(\{\omega \in \Omega \;|\; (X_n(\omega ))_{n \in \natural } \text { konvergiert in } \real \}\)

  • \(\{\omega \in \Omega \;|\; \sum _{n=1}^\infty X_n(\omega ) \text { konvergiert in } \real \}\)

  • \(\{\omega \in \Omega \;|\; \limsup _{n \to \infty } X_n(\omega ) \le \alpha \}\) für \(\alpha \in \real \)

starkes Gesetz der großen Zahlen:  Seien \(X_1, X_2, \dotsc \) i.i.d. mit \(\EE (|X_1|) < \infty \).
Dann gilt \(\frac {1}{n} \sum _{i=1}^n X_i \xrightarrow {P\text {-f.s.}} \EE (X_1)\).

schwaches Gesetz der großen Zahlen: 
Seien \(X_1, X_2, \dotsc \) paarweise unkorreliert mit \(\exists _{M \in \real } \forall _{i \in \natural }\; \EE (X_i) = \EE (X_1),\, \Var (X_i) < M\).
Dann gilt \(\frac {1}{n} \sum _{i=1}^n X_i \xrightarrow {P} \EE (X_1)\).

zentraler Grenzwertsatz: 
Seien \(X_1, X_2, \dotsc \) i.i.d. mit \(\sigma ^2 > 0\), wobei \(\mu := \EE (X_1)\) und \(\sigma ^2 := \Var (X_1) < \infty \).
Dann gilt \(Z_n := \frac {\overline {X}_n - \mu }{\sigma /\sqrt {n}} \xrightarrow {\text {(d)}} Z\) mit \(Z \sim \N (0, 1)\).

Satz von Slutsky:  Für \(X_n \xrightarrow {\text {(d)}} X\) sowie \(A_n \xrightarrow {P} a\) und \(B_n \xrightarrow {P} b\) gilt \(A_n + B_n X_n \xrightarrow {\text {(d)}} a + bX\).

Charakteristische Funktionen

charakteristische Funktion:  Sei \(X\) eine reelle Zufallsvariable. Dann heißt die Funktion \(\varphi _X\colon \real \rightarrow \complex \) mit \(\varphi _X(t) := \int _\real e^{\i tx} dP_X = \EE (e^{\i tX})\) charakteristische Funktion von \(X\).
Es gilt \(|\varphi (t)| \le 1\), \(\varphi (-t) = \overline {\varphi (t)}\) und \(\varphi \) ist gleichmäßig stetig.
Außerdem ist \(\varphi _{aX+b}(t) = e^{\i tb} \varphi _X(at)\) für \(a, b \in \real \) (lineare Transformation).
Gilt \(\varphi _X = \varphi _Y\) für zwei Zufallsvariablen \(X\) und \(Y\), so gilt \(P_X = P_Y\) (Eindeutigkeitssatz).
Die charakteristischen Funktionen bekannter Verteilungen lauten wie folgt:

Verteilung

char. Funktion

Verteilung

char. Funktion

diskr. Gleichv.

\(\varphi _X(t) = \frac {1}{n} \sum _{i=1}^n e^{\i tx_i}\)

\(X \sim \U ([a, b])\)

\(\varphi _X(t) = -\frac {\i }{t(b-a)} (e^{\i tb} - e^{\i ta})\) für \(t \not = 0\), \(\varphi _X(0) = 1\)

\(X \sim \Bin (1, p)\)

\(\varphi _X(t) = e^{\i t} p + 1 - p\)

\(X \sim \Exp (\lambda )\)

\(\varphi _X(t) = \frac {\lambda }{\lambda - \i t}\)

\(X \sim \Bin (n, p)\)

\(\varphi _X(t) = (e^{\i t} p + 1 - p)^n\)

\(X \sim \N (\mu , \sigma ^2)\)

\(\varphi _X(t) = e^{\i \mu t} \cdot \exp \!\left (-\frac {\sigma ^2 t^2}{2}\right )\)

\(X \sim \Pois (\lambda )\)

\(\varphi _X(t) = \exp (\lambda (e^{\i t} - 1))\)

\(X \sim \chi _n^2\)

\(\varphi _X(t) = \frac {1}{(1 - 2\i t)^{n/2}}\)

\(X \sim G(p)\)

\(\varphi _X(t) = \frac {p e^{\i t}}{1 - (1 - p)e^{\i t}}\)

\(X \sim \GammaV (a, \lambda )\)

\(\varphi _X(t) = \left (\frac {\lambda }{\lambda - \i t}\right )^a\)

Summe von Zufallsvariablen:  Seien \(X_1, \dotsc , X_n\) unabhängig und \(Y := X_1 + \dotsb + X_n\).
Dann gilt \(\varphi _Y(t) = \varphi _{X_1}(t) \dotsm \varphi _{X_n}(t)\). Mit dem Eindeutigkeitssatz kann also die Verteilung von \(Y\) berechnet werden, wenn \(\varphi _{X_1}(t) \dotsm \varphi _{X_n}(t)\) einer bekannten charakteristischen Funktion entspricht. Zum Beispiel gilt für \(X_i \sim \N (\mu _i, \sigma _i^2)\), dass \(Y \sim \N (\mu _1 + \dotsb + \mu _n, \sigma _1^2 + \dotsb + \sigma _n^2)\).