Mathematische Statistik – Statistische Modelle

Bemerkung: In der Wahrscheinlichkeitstheorie ist meist ein W-Raum \((\Omega , \A , P)\) gegeben und man soll \(P(A)\) für \(A \in \A \) berechnen oder approximieren. Dagegen geht die mathematische Statistik gewissermaßen umgekehrt vor: Dort sind eine Familie \(\P \) von W-Maßen auf dem Messraum \((\Omega , \A )\) und eine Folge \(X_1, \dotsc , X_n\) von reellwertigen Zufallsvariablen mit Werten \(x_1, \dotsc , x_n\) gegeben. Welches \(\PP \in \P \) oder welche Teilmenge \(\P _0 \subset \P \) eigenet sich „am Besten“ zur Erklärung der Realisierung/des Datensatzes \(x_1, \dotsc , x_n\)?

Die Wahrscheinlichkeitstheorie liefert eine axiomatiche Begründung des Phänomens „Zufall“ und konstruiert und beschreibt Modelle für zufällige Prozesse. Die Statistik behandelt die zur WT „inverse“ Fragestellung: Die mathematische Statistik (auch Inferenzstatistik oder induktive Statistik) sucht zu gegebenen Daten das „beste“ Modell oder die „besten“ Modelle aus einer vorgegebenen Familie von Modellen aus. Davon zu unterscheiden ist die deskriptive Statistik, die man landläufig unter dem Begriff „Statistik“ versteht. Bei dieser Art von Statistik werden die vorliegenden Daten ohne Verwendung eines wahrscheinlichkeitstheoretischen Modells beschrieben (z. B. Fußball-Statistik, amtliche Statistiken). Die Weihnachtsgeschichte zeigt, dass diese Statistik schon sehr lange betrieben wird – dennoch ist sie immer noch aktuell (bspw. Chartanalyse bei Aktienkursen).

Grundbegriffe

Bemerkung: Eine konkrete Beobachtung fasst der Statistiker auf als ein Element \(x \in \X \) (z. B. \(x = (x_1, \dotsc , x_n) \in \real ^n = \X \)) und interpretiert \(x\) als eine Realisierung \(x = X(\omega )\) einer Zufallsvariablen \(X\colon (\Omega , \A ) \rightarrow (\X , \B )\). \((\Omega , \A )\) heißt Grundraum und \((\X , \B )\) Stichprobenraum der Stichprobe \(X\). Liegt auf \((\Omega , \A )\) ein W-Maß \(\PP \) vor, so induziert dies auf \((\X , \B )\) ein W-Maß \(\PP _X\) durch \(\PP _X(B) := \PP (X \in B)\) = \(\PP (X^{-1}(B)) = \PP (\{\omega \in \Omega \;|\; X(\omega ) \in B\})\) für \(B \in \B \), das Verteilung von \(X\) genannt wird.

Typischerweise ist \(X = (X_1, \dotsc , X_n)\) ein Zufallsvektor mit stochastisch unabhängigen Komponenten \(X_1, \dotsc , X_n\). Falls die \(X_i\) alle reellwertig sind, gilt \((\X , \B ) = (\real ^n, \B ^n)\) mit \(\B ^n\) der borelschen \(\sigma \)-Algebra des \(\real ^n\) (kleinste \(\sigma \)-Algebra, die alle offenen Mengen des \(\real ^n\) enthält) und \(\PP _X = \bigotimes _{i=1}^n \PP _{X_i}\) dem Produktmaß der \(\PP _{X_i}\) auf \(\B ^n\). Da die Verteilung \(\PP _X\) dem Statistiker nicht (vollständig) bekannt ist, wird für \(\PP _X\) ein statistisches Modell bestimmt, das heißt \(\P = \{P_\theta \;|\; \theta \in \Theta \}\) mit \(P_\theta \) Verteilung auf \((\X , \B )\). Kann \(\P \) mit einer Parametermenge \(\Theta \subset \real ^d\) parametrisiert werden, so spricht man von einem parametrischem Modell, andernfalls von einem nicht-parametrischem Modell.

Das Ziel ist, basierend auf einer Stichprobe \(X\) ein \(P_\theta \in \P \) zu finden, das der tatsächlichen Verteilung von \(X\) „möglichst ähnlich“ ist. Die Verteilung von \(X\) muss nicht notwendigerweise in \(\P \) enthalten sein.

Beispiel: \(\P = \{\N (\mu , \sigma ^2) \;|\; (\mu , \sigma ^2) \in \real \times \real ^+\}\) ist ein parametrisches Modell für eine reellwertige Messgröße (z. B. Körpergröße der Studenten im Hörsaal).
Dagegen ist \(\P = \{P \;|\; P \text { ist Verteilung auf } (\real , \B ^1)\text {, welche eine Lebesgue-Borel-Dichte besitzt}\}\) ein nicht-parametrisches Modell. Ein W-Maß \(P\) besitzt eine L.-B.-Dichte, falls es eine L.-B.-messbare Funktion \(f\colon \real \rightarrow \real _0^+\) so gibt, dass \(P(B) = \int _B f d\lambda \) für alle \(B \in \B ^1\). Dabei bezeichnet \(\lambda \) das L.-B.-Maß auf \(\real \).

statistischer Raum: Sei \(\P \) eine Menge von W-Maßen auf dem Messraum \((\X , \B )\).
Dann heißt \((\X , \B , \P )\) statistischer Raum.

Bemerkung: Vereinfacht gesagt ist ein statistischer Raum ein W-Raum mit vielen W-Maßen.
Häufig ist die genaue Gestalt der Stichprobe \(X\) nicht von Interesse, daher wird \(X\) „begrenzt“ (wenn man z. B. die Geschlechterverteilung der Studierenden untersuchen will, dann interessiert nicht das Geschlecht jedes einzelnen Studenten, sondern nur die Anzahl der Frauen und Männer).

Statistik: Sei \(T\colon (\X , \B ) \rightarrow (\Y , \C )\) eine messbare Abbildung.
Dann heißt \(T(X)\) eine Statistik (oder Stichprobenfunktion) der Stichprobe \(X\).

Bemerkung: \(\Y \) wird i. A. „kleiner“ gewählt als \(\X \).

Beispiel: Eine klinische Studie untersucht bei \(n = 100\) Patienten die Wirkung eines neuen Medikaments. Dafür definiert man \(n\) Zufallsvariablen \(X_i\) mit \(X_i := 0\) bzw. \(X_i := 1\), falls das Medikament auf Patient \(i\) keine bzw. eine Wirkung zeigt. Man nimmt an, dass \(X_1, \dotsc , X_n\) unabhängig und identisch verteilt (i.i.d.) sind mit \(X_i \sim \Bin (1, \theta )\), dabei sei \(\theta \in [0, 1]\) unbekannt. Die Zufallsvariable \(X = (X_1, \dotsc , X_n) \sim \bigotimes _{i=1}^n \Bin (1, \theta )\) hat Werte in \(\X = \prod _{i=1}^n \{0, 1\} = \{0, 1\}^n\), der Raum ist diskret, d. h. \(\B = \pot (\X )\). Damit können wir nun ein statistisches Modell aufstellen durch \(\P = \left \{\bigotimes _{i=1}^n \Bin (1, \theta ) \;|\; \theta \in [0, 1]\right \}\). Eine typische Statistik für \(X\) ist z. B. die Anzahl \(T(X) = \sum _{i=1}^n X_i\) der Patienten, auf die das Medikament eine Wirkung zeigt, oder der relative Anteil \(T(X) = \frac {1}{n} \sum _{i=1}^n X_i\) dieser Patienten.

Bemerkung: Typische Fragen in der Statistik sind beispielsweise:

Schätzproblem: Finde zu gegebener Stichprobe \(X\colon \Omega \rightarrow \X \) einen Schätzwert für den wahren, aber unbekannten Parameter \(\theta \).
Bereichsschätzung: Schätze basierend auf der Stichprobe \(X\) ein Intervall \(I\), sodass z. B. \(\PP _\theta (\theta \in I) \ge 0{,}95\) (\(95\,\%\)-Konfidenzintervall). \(I\) soll so klein wie möglich sein.
Testproblem: Entscheide basierend auf der Stichprobe \(X\), ob z. B. \(\theta > 0{,}5\) (mit hoher Sicherheit) angenommen werden kann.

Bemerkung: Man verwendet bei den verschiedenen statistischen Räumen folgende Notation: Die W-Maße des in der Regel uninteressanten Raums \((\Omega , \A , (\PP _\theta )_{\theta \in \Theta })\) werden mit Doppelstrich-Buchstaben versehen. Dieser Raum wird durch die Zufallsvariable \(X\) abgebildet auf den statistischen Raum \((\X , \B , (P_\theta )_{\theta \in \Theta })\), der normalerweise gegeben ist. Die W-Maße \(P_\theta \) entsprechen den Bildmaßen \((\PP _\theta )_X\) von \(\PP _\theta \) unter \(X\). Mittels einer Statistik \(T\) wird dieser Raum wiederum abgebildet auf \((\Y , \C , ((P_\theta )_T)_{\theta \in \Theta })\).

Bemerkung: Um unnötige maßtheoretische Argumentationen zu vermeiden, wird in Zukunft meistens davon ausgegangen, dass das statistische Modell \(\P \) regulär ist.

regulär:
Ein statistisches Modell \(\P \) heißt regulär, falls eine der beiden folgenden Bedingungen erfüllt ist:

Alle \(P \in \P \) besitzen eine Dichte \(p\colon \X \rightarrow \real _0^+\) (bzgl. dem L.-B.-Maß),
d. h. \(\forall _{B \in \B }\; \PP (X \in B) = P(B) = \int _B p(x)\dx \).
Alle \(P \in \P \) besitzen eine Zähldichte \(p\colon \X \rightarrow \real _0^+\) (bzgl. dem Zählmaß),
d. h. \(\forall _{B \in \B }\; \PP (X \in B) = P(B) = \sum _{x \in B} p(x)\).

Für ein reguläres Modell schreibt man oft \(\P = \{P_\theta \;|\; \theta \in \Theta \}\), wobei \(p(\cdot , \theta )\) die L.-B.-Dichte bzw. die Zähldichte von \(P_\theta \) bezeichnet.

Suffizienz

Bemerkung: Eine Statistik \(T\) soll zwar die Stichprobe \(X\) „komprimieren“, jedoch nicht zu stark, d. h. es darf keine Information verloren gehen. Kennt man also \(T(X) = t\), dann darf \(X\) keine weiteren Informationen über \(\theta \) enthalten.

suffizient: Seien \((\X , \B , \P )\) ein statistischer Raum und \(X\) eine Stichprobe aus \(\X \).
Dann heißt die Statistik \(T(X)\) von \(X\) suffizient für \(P \in \P \), falls die bedingte Verteilung von \(X\) gegeben \(T(X) = t\) unabhängig von \(P\) ist (bzw. unabhängig von \(\theta \) für \(\P \) parametrisierbar).

bedingte Verteilung: Sind \(X\) und \(Y\) zwei diskrete Zufallsvariablen mit gemeinsamer Zähldichte \(p(x, y)\), so ist die bedingte Verteilung von \(X\) gegeben \(Y\) (von \(X|Y\)) definiert durch die Zähldichte \(p(x|y) = \frac {p(x, y)}{p_Y(y)} = \PP (X = x|Y = y)\), wobei \(p_Y\) mit \(p_Y(y) = \PP (Y = y) = \sum _{x’} p(x’, y)\) die Randverteilung von \(Y\) bezeichnet.
Sind \(X\) und \(Y\) zwei stetige Zufallsvariablen mit gemeinsamer L.-B.-Dichte \(p(x, y)\), so ist die bedingte Verteilung von \(X\) gegeben \(Y\) (von \(X|Y\)) definiert durch die Dichte \(p(x|y) = \frac {p(x, y)}{p_Y(y)}\) mit \(p_Y(y) = \int p(x’, y)\dx ’\).

Beispiel: Man konstruiert eine suffiziente Statistik für die Binomialverteilung.
Dazu seien \(X_1, \dotsc , X_n \sim \Bin (1, p)\) i.i.d., \(X := (X_1, \dotsc , X_n)\) der Zufallsvektor und
\(Y := \sum _{i=1}^n X_i \sim \Bin (n, p)\). Um zu prüfen, ob \(T(X) := Y\) eine suffiziente Statistik für
\(\P = \{\Bin (n, p) \;|\; p \in [0, 1]\}\) ist, muss man die bedingte Verteilung von \(X|Y\) berechnen.
Für \(x \in \{0, 1\}^n\) und \(y \in \{0, \dotsc , n\}\) gilt \(p(x|y) = \frac {\PP (X = x, Y = y)}{\PP (Y = y)} = \frac {p^y (1-p)^{n-y}}{\binom {n}{y} p^y (1-p)^{n-y}} = \frac {1}{\binom {n}{y}}\) unabhängig von \(p\), denn es gilt \(\PP (X = x) = \PP (X_1 = x_1) \dotsm \PP (X_n = x_n) = p^{x_1} (1-p)^{1-x_1} \dotsm p^{x_n} (1-p)^{1-x_n} = p^{x_1+\dotsb +x_n} (1-p)^{1-(x_1+\dotsb +x_n)}\), weil die \(X_i\) unabhängig sind.
Also ist die bedingte Verteilung von \(X|Y = y\) eine Gleichvert. auf \(\{x \in \{0, 1\}^n \;|\; \sum _{i=1}^n x_i = y\}\) (diese Menge besitzt ja \(\binom {n}{y}\) viele Elemente). Damit ist \(T(X) := \sum _{i=1}^n X_i\) eine suffiziente Statistik für \(\P = \{\Bin (n, p) \;|\; p \in [0, 1]\}\). Dies gilt auch für das arithmetische Mittel \(T(X) := \frac {1}{n} \sum _{i=1}^n X_i\).

Beispiel: Man konstruiert eine suffiziente Statistik für die Normalverteilung.
Dazu seien \(X_1, \dotsc , X_n \sim \N (\mu , \sigma ^2)\) i.i.d., wobei \((\mu , \sigma ^2) \in \real \times \real ^+\) nicht bekannt ist.
Das arithm. Mittel \(\overline {X} := \frac {1}{n} \sum _{i=1}^n X_i\) und die Stichprobenvarianz \(S^2(X) := \frac {1}{n-1} \sum _{i=1}^n (X_i - \overline {X})^2\) sind bei gegebener Stichprobe \(X := (X_1, \dotsc , X_n)\) brauchbare Schätzer für \(\mu \) und \(\sigma ^2\).
Ist \(T(X) := (\overline {X}, S^2(X))\) eine suffiziente Statistik für \(\P = \{\N (\mu , \sigma ^2) \;|\; (\mu , \sigma ^2) \in \real \times \real ^+\}\)?

Bemerkung: Die Definition der Suffizienz einer Statistik gibt leider keine Möglichkeit, wie eine suffiziente Statistik konstruiert werden kann.

Satz (Faktorisierungssatz): Sei \(\P = \{P_\theta \;|\; \theta \in \Theta \}\) ein reguläres Modell. Dann sind äquivalent:

\(T(X)\) ist suffizient für \(\theta \).
Es existieren Abbildungen \(g\colon \Y \times \Theta \rightarrow \real \) und \(h\colon \real ^n \rightarrow \real \), sodass für alle \(x \in \real ^n\) und \(\theta \in \Theta \) gilt, dass \(p(x, \theta ) = g(T(x), \theta ) \cdot h(x)\).

Beispiel: Wenn man das Beispiel von eben mit der Normalverteilung fortsetzt und die Zufallsvariable \(T_1(X) := (\sum _{i=1}^n X_i, \sum _{i=1}^n X_i^2)\) betrachet, dann gilt mit \(h(x) := 1\) und
\(g(T_1(x), \theta ) := \frac {1}{(2\pi \sigma )^{n/2}} e^{-\frac {n\mu ^2}{2\sigma ^2}} \exp \!\left (-\frac {1}{2\sigma ^2} \left (\sum _{i=1}^n x_i^2 - 2\mu \sum _{i=1}^n x_i\right )\right )\)
\(= \prod _{i=1}^n \frac {1}{\sqrt {2\pi \sigma ^2}} \exp \!\left (-\frac {(x_i - \mu )^2}{2\sigma ^2}\right )\), dass \(p(x, \theta ) = g(T_1(x), \theta ) \cdot h(x)\).
\(T_1(X)\) ist also nach dem Faktorisierungssatz eine suffiziente Statistik für \(\theta = (\mu , \sigma ^2)\).
Wegen \(\overline {X} = \frac {1}{n} \sum _{i=1}^n X_i\) und \(S^2(X) = \frac {1}{n-1} \sum _{i=1}^n (X_i^2 - (\overline {X})^2)\) ist auch \(T(X) := (\overline {X}, S^2(X))\) eine suffiziente Statistik für \(\theta \).

Exponentialfamilien

Bemerkung: Die Exponentialfamilien (auch exponentielle Familien) bilden wichtige Klassen von Verteilungen mit einem Parameter oder mehreren Parametern. Im Folgenden seien Mengen und Funktionen immer als messbar vorausgesetzt, falls dies benötigt wird.

\(1\)-parametrige Exponentialfamilie: Eine Familie von Verteilungen \(\P = \{P_\theta \;|\; \theta \in \Theta \}\) auf \((\real ^n, \B ^n)\) mit \(\Theta \subset \real \) heißt \(1\)-parametrige Exponentialfamilie, falls es Funktionen
\(c, d\colon \Theta \rightarrow \real \) und \(T, S\colon \real ^n \rightarrow \real \) sowie eine Menge \(A \subset \real ^n\) gibt,
sodass die L.-B.-Dichte/Zähldichte \(p(x, \theta )\) von \(P_\theta \) für \(x \in \real ^n\) durch
\(p(x, \theta ) = \1_A(x) \cdot \exp (c(\theta ) T(x) + d(\theta ) + S(x))\) dargestellt werden kann.

Bemerkung: \(A\) ist unabhängig von \(\theta \). \(d(\theta )\) dient zur Normierung (damit \(\int _{\real ^n} p(x, \theta )\dx = 1\)).
Nach dem Faktorisierungssatz ist \(T(x)\) immer eine suffiziente Statistik für \(\theta \in \Theta \), denn mit \(g(t, \theta ) := \exp (c(\theta ) t + d(\theta ))\) und \(h(x) := \1_A(x) \cdot \exp (S(x))\) gilt \(p(x, \theta ) = g(T(x), \theta ) \cdot h(x)\). Die Statistik \(T\) heißt daher natürliche suffiziente Statistik.
Für den Fall \(c = \id _\Theta \) spricht man von einer natürlichen Exponentialfamilie. Jede Exponentialfamilie hat eine Darstellung als natürliche Exponentialfamilie, was man mit der Umparametrisierung \(\eta = c(\theta )\) erreichen kann, in diesem Fall gilt \(p_0(x, \eta ) = \1_A(x) \cdot \exp (\eta \cdot T(x) + d_0(\eta ) + S(x))\), wobei \(d_0(\eta )\) die neue Normierungskonstante darstellt.

Beispiel: Bei bekannter Varianz \(\sigma ^2 > 0\) ist \(\P = \{\N (\mu , \sigma ^2) \;|\; \mu \in \real \}\) eine \(1\)-parametrige Exponentialfamilie, denn es gilt für die L.-B.-Dichte \(p(x, \mu ) = \frac {1}{\sqrt {2\pi \sigma ^2}} \exp \!\left (-\frac {(x - \mu )^2}{2\sigma ^2}\right )\)
\(= \1_\real (x) \cdot \exp \!\left (\frac {\mu }{\sigma ^2} x + \frac {-\mu ^2}{2\sigma ^2} + \left (-\frac {x^2}{2\sigma ^2} - \ln \sqrt {2\pi \sigma ^2}\right )\right )\).
Man wählt also \(A := \real \), \(c(\mu ) = \frac {\mu }{\sigma ^2}\), \(T(x) := x\), \(d(\mu ) := \frac {-\mu ^2}{2\sigma ^2}\) und \(S(x) := -\frac {x^2}{2\sigma ^2} - \ln \sqrt {2\pi \sigma ^2}\).

Beispiel: Die Familie \(\P = \{\Bin (n, \theta ) \;|\; \theta \in (0, 1)\}\) der Binomialverteilungen bei bekanntem \(n\) ist eine \(1\)-parametrige Exponentialfamilie, da \(p(k, \theta ) = \binom {n}{k} \theta ^k (1-\theta )^{n-k}\)
\(= \1_{\{0,\dotsc ,n\}}(k) \cdot \exp \!\left (\ln \!\left (\frac {\theta }{1 - \theta }\right ) \cdot k + n \cdot \ln (1 - \theta ) + \ln \binom {n}{k}\right )\). Man wählt also \(A := \{0, \dotsc , n\}\),
\(c(\theta ) := \ln \!\left (\frac {\theta }{1 - \theta }\right )\), \(T(k) := k\), \(d(\theta ) := n \cdot \ln (1 - \theta )\) und \(S(k) = \ln \binom {n}{k}\).

Beispiel: Die Gleichverteilung auf \((0, \theta )\) bildet keine \(1\)-parametrige Exponentialfamilie.

Bemerkung: Sind \(X_1, \dotsc , X_m\) i.i.d. \(n\)-dimensionale Zufallsvektoren mit Verteilungen aus einer Exponentialfamilie \(\P = \{P_\theta \;|\; \theta \in \Theta \}\), so besitzt auch der Zufallsvektor \(X := (X_1^T, \dotsc , X_m^T)^T\) mit Werten \(x = (x_1^T, \dotsc , x_m^T)^T \in \real ^{n \cdot m}\) eine Verteilung aus einer Exponentialfamilie, denn die Dichte von \(X\) ist aufgrund der Unabhängigkeit
\(p_X(x, \theta ) = \prod _{i=1}^m p(x_i, \theta ) = \prod _{i=1}^m \1_A(x_i) \cdot \exp \!\left (c(\theta ) T(x_i) + d(\theta ) + S(x_i)\right )\)
\(= \left (\prod _{i=1}^m \1_A(x_i)\right ) \cdot \exp \!\left (c(\theta ) \sum _{i=1}^m T(x_i) + m d(\theta ) + \sum _{i=1}^m S(x_i)\right )\).
Wählt man \(A’ := A^m\) (dann gilt \(\prod _{i=1}^m \1_A(x_i) = \1_{A’}(x)\)), \(c’(\theta ) := c(\theta )\), \(T’(x) := \sum _{i=1}^m T(x_i)\), \(d’(\theta ) := m d(\theta )\) und \(S’(x) := \sum _{i=1}^m S(x_i)\), so erhält man eine Darstellung als \(1\)-parametrige Exponentialfamilie.

Beispiel: Sind \(X_1, \dotsc , X_n \sim \N (\mu , \sigma ^2)\) i.i.d. und \(X := (X_1, \dotsc , X_n)^T\), dann sind \(T(X) := \sum _{i=1}^n X_i\) und \(\overline {X} := \frac {1}{n} \sum _{i=1}^n X_i\) suffiziente Statistiken für den unbekannten Erwartungswert \(\mu \) und die Verteilung von \(X\) bildet wieder eine \(1\)-parametrige Exponentialfamilie.

\(k\)-parametrige Exponentialfamilie: Eine Familie von Verteilungen \(\P = \{P_\theta \;|\; \theta \in \Theta \}\) auf \((\real ^n, \B ^n)\) mit \(\Theta \subset \real ^k\) heißt \(k\)-parametrige Exponentialfamilie, falls es Funktionen
\(c_j, d\colon \Theta \rightarrow \real \) und \(T_j, S\colon \real ^n \rightarrow \real \), \(j = 1, \dotsc , k\), sowie eine Menge \(A \subset \real ^n\) gibt,
sodass die L.-B.-Dichte/Zähldichte \(p(x, \theta )\) von \(P_\theta \) für \(x \in \real ^n\) durch
\(p(x, \theta ) = \1_A(x) \cdot \exp \!\left (\sum _{j=1}^k c_j(\theta ) T_j(x) + d(\theta ) + S(x)\right )\) dargestellt werden kann.

Bemerkung: Analog zur \(1\)-parametrigen Exponentialfamilie ist \(T(X) := (T_1(X), \dotsc , T_k(X))^T\) eine suffiziente Statistik für \(\theta \in \Theta \), die natürliche suffiziente Statistik.

Beispiel: Die Familie \(\P = \{\N (\mu , \sigma ^2) \;|\; (\mu , \sigma ^2) \in \real \times \real ^+\}\) bildet eine \(2\)-parametrige Exponentialfamilie mit \(\theta = (\mu , \sigma ^2) \in \Theta = \real \times \real ^+\), denn es gilt für die Dichte
\(p(x, \theta ) = \frac {1}{\sqrt {2\pi \sigma ^2}} \exp \!\left (-\frac {(x - \mu )^2}{2\sigma ^2}\right ) = \1_\real (x) \cdot \exp \!\left (\frac {\mu }{\sigma ^2}x - \frac {1}{2\sigma ^2} x^2 - \frac {1}{2} \left (\frac {\mu ^2}{\sigma ^2} + \ln (2\pi \sigma ^2)\right )\right )\).
Wählt man \(A := \real \), \(c_1(\theta ) := \frac {\mu }{\sigma ^2}\), \(T_1(x) := x\), \(c_2(\theta ) := -\frac {1}{2\sigma ^2}\), \(T_2(x) := x^2\),
\(d(\theta ) := -\frac {1}{2} \left (\frac {\mu ^2}{\sigma ^2} + \ln (2\pi \sigma ^2)\right )\) und \(S(x) := 0\), so erhält man eine Darstellung als \(2\)-parametrige Exponentialfamilie.

Bayesianische Modelle

Bemerkung: Der bayesianische Ansatz in der Statistik geht davon aus, dass der Wert einer unbekannten Verteilung eine Realisierung einer Zufallsvariablen mit gegebener a-priori-Verteilung ist. Diese a-priori-Verteilung kann zur Modellierung einer subjektiven Einschätzung (z. B. Expertenwissen) oder einer Vorabinformation dienen.

bayesianisches Modell:
Ein bayesianisches Modell für die Daten \(X\) mit dem Parameter \(\theta \) ist bestimmt durch

eine a-priori-Verteilung \(\pi \), sodass \(\theta \sim \pi \), und
eine reguläre Verteilung \(\PP _\theta \), sodass \(X|\theta \sim \PP _\theta \).

Bemerkung: Nach Erhebung der Daten kann die a-priori-Verteilung \(\pi (\theta )\) von \(\theta \) zur a-posteriori-Verteilung \(p(\theta |x) := p(\theta |X=x)\) mittels Bayes-Formel aktualisiert werden:
\(p(\theta |x) = \frac {\pi (\theta ) p(x|\theta )}{m(x)}\), wobei \(m(x) := \sum _{\theta ’ \in \Theta } \pi (\theta ’) p(x|\theta ’)\), falls \(\theta \) die Zähldichte \(\pi (\theta )\) besitzt, und \(m(x) := \int _\Theta \pi (\theta ’) p(x|\theta ’) \d \theta ’\), falls \(\theta \) die L.-B.-Dichte \(\pi (\theta )\) besitzt. \(m(x)\) heißt marginale Verteilung (Randverteilung) von \(X\).
Ist der Zähler in \(\frac {\pi (\theta ) p(x|\theta )}{m(x)}\) bekannt, dann auch der Nenner, da \(p(x|\theta )\) über \(\theta \) summiert bzw. integriert gleich \(1\) sein muss. Deshalb schreibt man obige Formel häufig kurz durch
\(p(\theta |x) \propto \pi (\theta ) p(x|\theta )\).

Bemerkung: Die Bayes-Formel für Ereignisse sieht ähnlich aus: Für \(A, B \in \A \), \(P(A), P(B) > 0\), gilt \(P(A|B) = \frac {P(A \cap B)}{P(B)}\), also \(P(B|A) = \frac {P(A \cap B)}{P(A)} = \frac {P(A|B) \cdot P(B)}{P(A)} = \frac {P(A|B) \cdot P(B)}{P(A|B) \cdot P(B) + P(A|B^C) \cdot P(B^C)}\).

Beispiel: Seien \(X_1, \dotsc , X_n\) unabhängige Bernoulli-verteilte Zufallsvariablen mit zufälligem Parameter \(\theta \in (0, 1)\), d. h. \(\PP (X_i = 1|\vartheta ) = \vartheta \). Die a-priori-Verteilung \(\pi \) von \(\theta \) sei durch eine Beta-Verteilung gegeben, also mit L.-B.-Dichte \(p_{a,b}(x) = \frac {x^{a-1} (1-x)^{b-1}}{B(a, b)} \1_{(0,1)}(x)\) für \(a, b > 0\), wobei \(B(a, b) = \int _0^1 t^{a-1} (1-t)^{b-1} \dt \) die Beta-Funktion ist. Die Beta-Verteilung verallgemeinert die Gleichverteilung auf dem Intervall \((0, 1)\) (für \(a = b = 1\) erhält man die Gleichverteilung).

Sei jetzt \(s = \sum _{i=1}^n x_i\) die Summe der Werte von \(X_1, \dotsc , X_n\).
Dann ist \(p(x|\theta ) = \theta ^s (1 - \theta )^{n-s} \cdot \1_{(0, 1)}(\theta )\) die Zähldichte von \(X\) (\(x \in \{0, 1\}^n\)) und die a-posteriori-Dichte von \(\theta |X = x\) berechnet sich durch
\(p(\theta |x) = \frac {\pi (\theta ) p(x|\theta )}{\int _\Theta \pi (\theta ’) p(x|\theta ’) \d \theta ’} = \frac {\theta ^{a-1} (1 - \theta )^{b-1} \cdot \theta ^s (1 - \theta )^{n-s}}{\int _0^1 \dots } \cdot \frac {B(a, b)}{B(a, b)} \cdot \1_{(0, 1)}(\theta ) \propto \theta ^{a+s-1} (1 - \theta )^{b+n-s-1} \1_{(0,1)}(\theta )\).
Also gilt \(\theta |X = x \sim \BetaV (a + s, b + n - s)\).

Bemerkung: Damit ist die a-posteriori-Verteilung von \(\theta \) aus derselben Klasse wie die a-priori-Verteilung, die Beta-Verteilung ist eine (zur Bernoulli-Verteilung) konjugierte Verteilung.
Für bestimmte Verteilungen, die sich als Exponentialfamilie darstellen lassen, lässt sich eine konjugierte Familie (ebenfalls als Exponentialfamilie) angeben, wie das folgende Lemma zeigt.

Satz (konjugierte Familie für Familie der Exponentialverteilungen):
Sei \(X|\theta \) eine i.i.d.-Stichprobe einer \(k\)-parametrigen Exponentialfamilie mit Zähl-/L.-B.-Dichte
\(p(x|\theta ) = \1_A(x) \cdot \exp \!\left (\sum _{j=1}^k c_j(\theta ) \sum _{i=1}^n T_j(x_i) + \sum _{i=1}^n S(x_i) + n d(\theta )\right )\), \(x = (x_1, \dotsc , x_n)\).
Dann wird durch die \((k + 1)\)-parametrige Exponentialfamilie gegeben durch
\(\pi (\theta ; t_1, \dotsc , t_{k+1}) \propto \exp \!\left (\sum _{j=1}^k c_j(\theta ) t_j + d(\theta ) t_{k+1}\right )\) eine zu obiger Verteilung von \(X|\theta \) konjugierte Familie definiert. Für die a-posteriori-Verteilung von \(\theta |X = x\) gilt
\(p(\theta |x) \propto \pi \!\left (\theta ; t_1 + \sum _{i=1}^n T_1(x_i), \dotsc , t_k + \sum _{i=1}^n T_k(x_i), t_{k+1} + n\right )\).

Beispiel: Sei \(X \sim \Bin (1, \theta )\) Bernoulli-verteilt mit \(\theta \in (0, 1)\). Dann ist die Dichte von \(X|\theta \) gleich \(p(x|\theta ) = \theta ^x (1 - \theta )^{1-x} = \exp \!\left (x \ln \!\left (\frac {\theta }{1-\theta }\right ) + \ln (1 - \theta )\right ) \cdot \1_{\{0, 1\}}(x)\). Mit dem Satz erhält man eine dazu konjugierte \(2\)-parametrige Exponentialfamilie mit a-priori-Dichte
\(\pi (\theta ; t_1, t_2) \propto \exp (t_1 c(\theta ) + t_2 d(\theta )) = \exp \!\left (t_1 \ln \!\left (\frac {\theta }{1 - \theta }\right ) + t_2 \ln (1 - \theta )\right ) \cdot \1_{(0,1)}(\theta )\)
\(= \theta ^{t_1} (1 - \theta )^{t_2 - t_1} \1_{(0, 1)}(\theta )\) mit \(t_1, t_2 - t_1 > -1\). Mittels Reparametrisierung \(t_1 \mapsto a - 1\) und \(t_2 \mapsto b + a\) ergibt sich \(\widetilde {\pi }(\theta ; a, b) \propto \vartheta ^{a-1} (1 - \vartheta )^{b-1} \cdot \1_{(0,1)}(\theta )\), \(a, b > 0\), als konjugierte a-priori-Verteilung (Beta-Verteilung).

Die a-posteriori-Verteilung folgt mit obigem Satz: \(p(\theta |x) \propto \pi (\theta ; t_1 + 1, t_2 + 1) = \theta ^{t_1+x} (1 - \theta )^{t_2 + 1 - (t_1 + x)} = \theta ^{a-1+x} (1 - \theta )^{b-x}\). Dies ist die Dichte der Beta-Verteilung \(\BetaV (a+x, b+1-x)\), die den Erwartungswert \(\frac {a+x}{a+b+1}\) und die Varianz \(\frac {(a+x)(b+1-x)}{(a+b+2)(a+b+1)^2}\) besitzt. Die Beta-Verteilung ist also eine zur Binomialverteilung konjugierte Verteilung (was auch schon aus obigem Beispiel für \(n = 1\) folgt).

Beispiel: Seien \(X_1, \dotsc , X_n \sim \N (\mu , \sigma ^2)\) i.i.d. mit bekannter Varianz \(\sigma ^2\) und unbekanntem Erwartungswert \(\mu = \theta \). Es gilt \(p(x|\theta ) \propto \exp \!\left (-\frac {(x - \mu )^2}{2\sigma ^2}\right ) \propto \exp \!\left (\frac {\theta x}{\sigma ^2} - \frac {\theta ^2}{2\sigma ^2}\right )\). Wenn man in obigem Satz also \(T_1(x) = x\), \(c_1(\theta ) = \frac {\theta }{\sigma ^2}\) und \(d(\theta ) = -\frac {\theta ^2}{2\sigma ^2}\) wählt, erhält man eine konjugierte \(2\)-parametrige Exponentialfamilie als a-priori-Verteilung mit der Dichte \(\pi (\theta ; t_1, t_2) \propto \exp \!\left (\frac {\theta }{\sigma ^2} t_1 - \frac {\theta ^2}{2\sigma ^2} t_2\right )\)
\(\propto \exp \!\left (\frac {t_2}{2\sigma ^2} \left (\theta ^2 - \frac {2\sigma ^2}{t_2} \cdot \frac {\theta t_1}{\sigma ^2} + \left (\frac {t_1}{t_2}\right )^2\right )\right ) = \exp \!\left (\frac {t_2}{2\sigma ^2} \left (\theta - \frac {t_1}{t_2}\right )^2\right )\). Nach \(t_2 > 0\) ist \(\pi (\theta ; t_1, t_2)\) die Dichte einer \(\N \!\left (\frac {t_1}{t_2}, \frac {\sigma ^2}{t_2}\right )\)-Verteilung. Durch die Reparametrisierung \(t_1 \mapsto \eta \frac {\sigma ^2}{\tau ^2}\) und \(t_2 \mapsto \frac {\sigma ^2}{\tau ^2}\) mit \(\eta \in \real \) und \(\tau ^2 > 0\) erhält man als a-priori-Verteilung eine \(\N (\eta , \tau ^2)\)-Verteilung.

Nach dem Satz hat die a-posteriori-Verteilung die Dichte \(p(\theta |x) \propto \pi (\theta , t_1 + \sum _{i=1}^n T_1(x_i), t_2 + n)\). Mit \(s = \sum _{i=1}^n x_i\) und \(T_1(x_i) = x_i\) erhält man also die Dichte von \(\N \!\left (\frac {t_1 + s}{t_2 + n}, \frac {\sigma ^2}{t_2 + n}\right )\).

Der Erwartungswert \(\frac {t_1 + s}{t_2 + n} = \frac {n}{\sigma ^2/\tau ^2 + n} \overline {x} + \frac {\sigma ^2/\tau ^2}{\sigma ^2/\tau ^2+n} \eta \) geht für \(n \to \infty \) gegen \(\overline {x}\) (wenn man \(n\) gegen Null laufen lassen würde, geht der Erwartungswert gegen \(\eta \)). Die Varianz \(\frac {\sigma ^2}{t_2 + n} = \frac {\sigma ^2}{\sigma ^2/\tau ^2 + n}\) geht für \(n \to \infty \) gegen \(0\) (für \(n \to 0\) gegen \(\tau ^2\)). Also wird für \(n \to \infty \) der Einfluss der a-priori-Verteilung auf die a-posteriori-Verteilung immer geringer.

Bemerkung: Hat man keine a-priori-Information über den unbekannten Parameter \(\theta \), so kann dies durch \(\pi (\theta ) \propto 1\), die sog. nicht-informative a-priori-Verteilung, zum Ausdruck gebracht werden. Ist \(\Theta \) jedoch nicht endlich bzw. beschränkt, so handelt es sich bei \(\pi (\theta )\) nicht um eine Zähl-/L.-B.-Dichte (wegen fehlender Normierbarkeit). Ist die a-posteriori-Dichte \(p(\theta |x)\) dennoch normierbar, so kann die uneigentliche a-priori-Dichte \(\pi (\theta ) \propto 1\) trotzdem verwendet werden.