Wahrscheinlichkeitsräume

W-Raum:  (Ω,A,P) heißt Wahrscheinlichkeitsraum, falls Ω, A eine σ-Algebra über Ω und P ein W-Maß auf (Ω,A) ist.

bedingte W.keit:  Seien A,BA mit P(A)>0. Dann heißt P(B|A):=P(BA)P(A) bedingte Wahrscheinlichkeit von B gegeben A. Es gilt P(A|B)=P(B|A)P(A)P(B), wenn P(B)>0 (Formel von Bayes). Außerdem gilt P(B)=iIP(B|Ai)P(Ai), wenn die AiA (iI) mit I höchstens abzählbar eine Zerlegung von Ω bilden und P(Ai)>0 gilt (Formel von der totalen Wahrscheinlichkeit).

stochastisch unabhängig für Ereignisse:  Die Ereignisse AiA (iI) heißen
(stochastisch) unabhängig, falls P(iKAi)=iKP(Ai) für alle KI endlich.

Kombinatorik

Urnenmodell:  Aus einer Urne mit n Kugeln werden k Kugeln gezogen.
Dann gibt es je nach Ziehungsverfahren unterschiedlich viele mögliche Stichproben:

  • geordnete Stichprobe ohne Zurücklegen: n!(nk)!

  • geordnete Stichprobe mit Zurücklegen: nk

  • ungeordnete Stichprobe ohne Zurücklegen: (nk)

  • ungeordnete Stichprobe mit Zurücklegen: (n+k1k)

Diskrete Zufallsvariablen

diskreter W-Raum:  Ein W-Raum (Ω,A,P) heißt diskret, falls Ω höchstens abzählbar und A=P(Ω) ist. In diesem Fall heißt (pω)ωΩ Zähldichte, wobei pω:=P({ω}).

diskrete Zufallsvariable:  Sei E eine Menge. Dann heißt eine Abbildung X:ΩE Zufallsvariable. Das W-Maß PX:P(E)[0,1] mit PX(B):=P(XB) heißt Verteilung von X. Die Funktion FX:R[0,1] mit FX(x):=P(Xx) heißt Verteilungsfunktion von X (falls E=R). Sie ist monoton wachsend, r.s. stetig und hat den GW 1 bzw. 0 für x±.

stochastisch unabhängig für diskrete ZV:  Die Zufallsvariablen Xi:ΩEi (iI) heißen (stochastisch) unabhängig, falls für alle BiEi (iI) ({XiBi})iI als Familie von Ereignissen unabhängig ist.

diskreter Erwartungswert:  Die Zahl E(X):=ωΩX(ω)pω heißt Erwartungswert von X (falls X reell und ωΩ|X(ω)|pω<). In diesem Fall gilt E(X)=xX(Ω)xPX({x}) (Transformationssatz). Es gilt E(X+Y)=E(X)+E(Y), E(αX)=αE(X) (Linearität),
E(c)=c, XYE(X)E(Y) und |E(X)|E(|X|).
Sind X1,,Xn unabhängig, so gilt E(X1Xn)=E(X1)E(Xn).

diskrete Varianz:  Die Zahl Var(X):=E((XE(X))2)=E(X2)E(X)2 heißt Varianz von X (falls E(X2)<). Es gilt Var(αX)=α2Var(X), Var(X+c)=Var(X) und
Var(X1++Xn)=Var(X1)++Var(Xn), wenn X1,,Xn unabhängig (Satz von Bienaymé).

Diskrete Verteilungen

Name

Parameter

Zähldichte

EW

Varianz

Gleichverteilung

x1,,xn

pxi:=1n

1ni=1nxi

n2112

Beispiel: W.keit für eine markierte Seite beim Wurf eines fairen Würfels mit n Seiten und Werten x1,,xn

Bernoulli-Verteilung Bin(1,p)

p[0,1]

p0:=1p, p1:=p

p

p(1p)

Beispiel: W.keit für Erfolg beim Wurf einer unfairen Münze (p Erfolgswahrscheinlichkeit)

Binomialverteilung Bin(n,p)

nN0, p[0,1]

pk:=(nk)pk(1p)nk, k=0,,n

np

np(1p)

Beispiel: W.keit für k Erfolge bei n-fachem Wurf einer unfairen Münze

Poissonverteilung Pois(λ)

λR+

pk:=λkk!eλ, kN0

λ

λ

Beispiel: W.keit für k Erfolge bei großer Anzahl an Durchführungen eines Bernoulli-Experiments mit sehr niedriger
Erfolgswahrscheinlichkeit, limn(nk)(λ/n)k(1(λ/n))nk=λkk!eλ

geometrische Verteilung G(p)

p(0,1]

pk:=p(1p)k1, kN

1p

1pp2

Beispiel: W.keit, dass bei einem wiederholten Bernoulli-Experiment erst im k-ten Experiment ein Erfolg auftritt
(z. B. p=1/4 für Würfe auf eine geviertelte Dartscheibe mit einem markierten Viertel)

hypergeometrische Verteilung H(n,s,k)

n,k,sN0, s,kn

p:=(s)(nsk)/(nk)

ksn

ks(nk)n(n1)(1sn)

Beispiel: W.keit, dass bei einer ungeordneten Ziehung von k Kugeln ohne Zurücklegen aus einer Urne mit
s schwarzen und ns weißen Kugeln genau schwarze Kugeln gezogen werden

Maß- und Integrationstheorie

Dichte:  Eine Dichte ist eine Funktion f:R[0,) mit Rf(u)du=1.
Ein W-Maß P auf R besitzt die Dichte f, falls P((,x])=xf(u)du für alle xR.

messbare Abbildung:  Eine Abbildung f:(Ω,A)(Ω,A) zwischen zwei Messräumen (Ω,A) und (Ω,A) heißt messbar, falls f1(A)A für alle AA.

Bildmaß:  Ist f:(Ω,A)(Ω,A) messbar und μ ein Maß auf (Ω,A), so ist μf:A[0,] mit μf(A):=μ(f1(A)) das Bildmaß von μ unter f. Es ist ein W-Maß genau dann, wenn μ ein W-Maß ist.

allgemeiner Transformationssatz:  Seien (Ω,A,μ) ein Maßraum, (Ω,A) ein Messraum, f:ΩR messbar und T:ΩΩ messbar. Dann ist fL1(μT)fTL1(μ).
In diesem Fall gilt ΩfdμT=Ω(fT)dμ.

Kontinuierliche Zufallsvariablen

Zufallsvariable:  Seien (Ω,A,P) ein W-Raum und (E,A) ein Messraum. Dann heißt eine messbare Abbildung X:ΩE Zufallsvariable. Das W-Maß PX:A[0,1] mit PX(A):=P(XA) heißt Verteilung von X. PX ist das Bildmaß von P unter X.
Die Funktion FX:R[0,1] mit FX(x):=P(Xx) heißt Verteilungsfunktion von X, falls X reell ist. Sie ist monoton wachsend, rechtsseitig stetig und hat den Grenzwert 1 bzw. 0 für x±. Wenn FX absolutstetig ist, dann ist fX(x)=FX(x) die Dichte von X.
X heißt stetig/kontinuierlich, falls PX eine Dichte besitzt.

stochastisch unabhängig für ZV:  Die Zufallsvariablen Xi:Ω(Ei,Ai) (iI) heißen (stochastisch) unabhängig, falls für alle BiAi (iI) ({XiBi})iI als Familie von Ereignissen unabhängig ist. Die Dichte von X=(X1,,Xn):ΩRn ist f(x)=f1(x)fn(x), wenn X1,,Xn unabhängig sind und fi die Dichte von Xi ist.

Erwartungswert:  Die Zahl E(X):=ΩXdP heißt Erwartungswert von X (falls X reell und XL1(P)). In diesem Fall gilt E(X)=RxdPX=Rxf(x)dx, wenn X die Dichte f besitzt (Transformationssatz). Es gilt E(X+Y)=E(X)+E(Y), E(αX)=αE(X) (Linearität), E(c)=c, XYE(X)E(Y) und |E(X)|E(|X|).
Sind X1,,Xn unabhängig, so gilt E(X1Xn)=E(X1)E(Xn).
Ist g:RR messbar und besitzt X die Dichte f, so gilt
E(g(X))=Rg(x)dPX=Rg(x)f(x)dx, falls g(X)L1(P) (Transformationssatz).

k-tes Moment:  Die Zahl E(Xk) heißt k-tes Moment von X (falls XLk(P)). Es gilt E(Xk)=RxkdPX=Rxkf(x)dx, wenn X die Dichte f besitzt (Transformationssatz).

Varianz:  Die Zahl Var(X):=E((XE(X))2)=E(X2)E(X)2 heißt Varianz von X (falls XL2(P)). Es gilt Var(αX)=α2Var(X), Var(X+c)=Var(X) und Var(X1++Xn)=Var(X1)++Var(Xn), wenn X1,,Xn unabhängig (Satz von Bienaymé).

Kovarianz:  Für zwei reelle ZV X,Y heißt Cov(X,Y):=E(XY)E(X)E(Y) Kovarianz.
Für Cov(X,Y)=0 heißen X,Y unkorreliert. Unabhängige ZV sind unkorreliert.

Transformationssatz:  Seien X eine reelle, stetige ZV mit Dichte f und h:RR sei bijektiv auf einer offenen Menge B mit P(XB)=1 und diffb. mit h(x)0 für alle xB.
Dann ist Y:=h(X) eine stetige ZV mit Dichte g(y):=f(h1(y))|h(h1(y))|𝟙B(h1(y)) für yR.

Kontinuierliche Verteilungen

Name

Parameter

Dichte

EW

Varianz

Gleichverteilung U([a,b])

a,bR, a<b

f(x):=1ba𝟙[a,b](x)

a+b2

(ba)212

Beispiel: Bruch eines Stabes der Länge ba an einer zufälligen Stelle

Exponentialverteilung Exp(λ)

λ>0

f(x):=λeλx𝟙(0,)(x)

1λ

1λ2

Beispiel: Zeit zwischen zwei Anrufen, Lebensdauer von Atomen beim radioaktiven Zerfall

Normalverteilung N(μ,σ2)

μR, σ2>0

f(x):=12πσ2exp((xμ)22σ2)

μ

σ2

Beispiel: physikalische Messwerte mit Messfehler, Brownsche Molekularbewegung, zentraler Grenzwertsatz:
X1,X2, i.i.d. mit endlichem EW und endlicher Varianz, dann gilt ZnZ in Verteilung mit Zn:=1nσ2k=1n(Xkμ) und ZN(0,1)

Beta-Verteilung Beta(a,b)

a,b>0

f(x):=xa1(1x)b1B(a,b)𝟙[0,1](x)

aa+b

ab(a+b+1)(a+b)2

Beispiel: konjugierte Familie von a-Priori-Verteilungen für Binomial- und Bernoulli-Verteilung (und geometrische Verteilung),
B(a,b):=01ta1(1t)b1dt

Gamma-Verteilung Gamma(a,λ)

a,λ>0

f(x):=λaxa1eλxΓ(a)𝟙(0,)(x)

aλ

aλ2

Beispiel: Bedienzeiten und Reparaturzeiten, Modellierung von kleinen bis mittleren Schäden in der Versicherungsmathematik,
Γ(a):=0ta1etdt

Schätzer für Erwartungswert und Varianz

arithmetischer Mittelwert: 
Der (arithmetische) Mittelwert von X=(X1,,Xn) ist X¯:=1ni=1nXi.

korrigierte Stichprobenvarianz: 
Die (korrigierte) Stichprobenvarianz von X=(X1,,Xn) ist S2(X):=1n1i=1n(XiX¯)2.
Es gilt S2(X)=1n1i=1nXi2nn1(X¯)2.
Sind X1,,Xn i.i.d. und μ=E(X1) bekannt, dann verwendet man normalerweise stattdessen S2(X):=1ni=1n(Xiμ)2.

Weitere kontinuierliche Verteilungen

Chi-Quadrat-Verteilung χn2:  Für X1,,XnN(0,1) i.i.d. heißt die
Verteilung von Y:=i=1nXi2 Chi-Quadrat-Verteilung χn2 mit n Freiheitsgraden.
Für X1,,XnN(μ,σ2) i.i.d. gilt (n1)S2σ2χn12.

studentsche t-Verteilung tn:  Für XN(0,1) und Yχn2 unabhängig heißt die
Verteilung von Z:=XY/n studentsche t-Verteilung tn mit n Freiheitsgraden.

F-Verteilung F(n,m):  Für Xχn2 und Yχm2 unabhängig heißt die
Verteilung von Z:=X/nY/m F-Verteilung F(n,m) mit (n,m) Freiheitsgraden.

Mehrdimensionale Zufallsvariablen

Zufallsvektor:  Ein Zufallsvektor (mehrdimensionale Zufallsvariable) ist eine messbare Abbildung X:ΩRn, d. h. ein Vektor X=(X1,,Xn) von Zufallsvariablen Xi:ΩR.
Die Verteilung PX von X heißt mehrdimensionale Verteilung, die Verteilungen der Xi heißen Randverteilungen.
Die Funktion FX:Rn[0,1] mit FX(x):=P(Xx)=P(X1x1,,Xnxn) heißt Verteilungsfunktion von X.

diskreter Zufallsvektor:  Ist das Bild X(Ω) höchstens abzählbar, so heißt X diskret.
In diesem Fall ist px:=P(X=x)=P(X1=x1,,Xn=xn) die Zähldichte von PX (gemeinsame Zähldichte der X1,,Xn) und die Zähldichten der Randverteilungen berechnen sich durch P(Xi=xi)=xX(Ω)P(X=(x1,,xi,,xn)).
Die X1,,Xn sind unabhängig genau dann, wenn P(X=x)=P(X1=x1)P(Xn=xn).

stetiger Zufallsvektor:  Besitzt X eine Dichte (gemeinsame Dichte der X1,,Xn), d. h. eine Funktion fX:RnR mit
P((,x1]××(,xn])=x1xnfX(u)du, so heißt X stetig/kontinuierlich.
In diesem Fall berechnen sich die Dichten der Randverteilungen (Randdichten) durch
fXi(xi)=RRf(x1,,xi,,xn)dx1dxi1dxi+1dxn.
Die X1,,Xn sind unabhängig genau dann, wenn fX(x)=fX1(x1)fXn(xn) für alle xRn
(was gilt genau dann, wenn FX(x)=FX1(x1)FXn(xn) für alle xRn).

Bedingte Verteilungen

bedingte Verteilung:  Seien X und Y zwei Zufallsvariablen.
Dann ist die bedingte Verteilung X|Y von X gegeben Y wie folgt definiert:

  • Sind X und Y diskret mit gemeinsamer Zähldichte p(x,y), so hat die bedingte Verteilung
    X|Y die Zähldichte p(x|Y=y):=p(x,y)pY(y)=P(X=x|Y=y) mit der Randdichte
    pY(y):=P(Y=y)=xX(Ω)p(x,y) von Y (falls pY(y)>0).

  • Sind X und Y stetig mit gemeinsamer Dichte fX,Y(x,y), so hat die bedingte Verteilung
    X|Y die Dichte fX(x|Y=y):=fX,Y(x,y)fY(y) mit der Randdichte
    fY(y):=X(Ω)fX,Y(x,y)dx von Y (falls fY(y)>0).

Im stetigen Fall ist fX(x)=Y(Ω)fY(y)fX(x|Y=y)dy (Gesetz der totalen Wahrscheinlichkeit).

bedingter Erwartungswert:  Seien X und Y zwei Zufallsvariablen mit E(|X|)<.
Sind X und Y diskret mit gemeinsamer Zähldichte p(x,y), dann ist der bedingte Erwartungswert von X gegeben Y=y gleich E(X|Y=y):=xX(ω)xp(x|y)=xX(Ω)xP(X=x|Y=y).
Sind X und Y stetig mit gemeinsamer Dichte fX,Y(x,y), dann ist der bedingte Erwartungswert von X gegeben Y=y gleich E(X|Y=y):=RxfX(x|Y=y)dx.
Für X=(X1,,Xn) und Y=(Y1,,Ym) ist der bedingte Erwartungswert von X gegeben Y=y gleich E(X|Y=y):=(E(X1|Y=y),,E(Xn|Y=y)).
Der bedingte Erwartungswert von X gegeben Y ist definiert als die Zufallsvariable
E(X|Y):=g(Y) mit g(y):=E(X|Y=y).
Es gilt E(E(X|Y))=E(X) (Satz vom iterierten Erwartungswert).

Ungleichungen

Jensen-Ungleichung: 
Sei g:RR konvex (d. h. g(λx+(1λ)y)λg(x)+(1λ)g(y) für alle λ(0,1) und x,yR) und X eine reelle Zufallsvariable mit E(|X|)<. Dann gilt E(g(X))g(E(X)).

Markov-Ungleichung: 
Seien X eine reelle Zufallsvariable, h:R+R+ monoton wachsend und ε>0.
Dann gilt P(|X|ε)E(h(|X|))h(ε).

Tschebyscheff-Ungleichung: 
Seien X eine reelle Zufallsvariable mit Var(X)< und ε>0.
Dann gilt P(|XE(X)|ε)Var(X)ε2 oder alternativ P(|XE(X)|<ε)1Var(X)ε2.

Grenzwertbegriffe

P-fast-sichere Konvergenz:  Seien (Xn)nN und X Zufallsvariablen. Dann konvergiert
(Xn)nN P-fast-sicher gegen X (XnP-f.s.X), falls P(limnXn=X)=1.

stochastische Konvergenz:  (Xn)nN konvergiert stochastisch gegen X (XnPX), falls
für jedes ε>0 gilt, dass P(|XnX|ε)n0. Aus P-f.s. folgt stochastische Konvergenz.

Konvergenz in Verteilung:  (Xn)nN konvergiert in Verteilung gegen X (Xn(d)X), falls
für alle Punkte x, an denen FX stetig ist, gilt, dass FXn(x)nFX(x).
Aus stochastischer Konvergenz folgt Konvergenz in Verteilung.

Grenzwertsätze

Null-Eins-Gesetz von Kolmogorov:  Seien (An)nN eine unabhängige Folge von σ-Algebren AnA und T die terminale σ-Algebra von (An)nN.
Dann gilt P(A){0,1} für alle AT.
Insbesondere gilt P(A){0,1} für folgende Ereignisse AA, wenn (Xn)nN eine Folge unabhängiger, reeller Zufallsvariablen ist:

  • {ωΩ|(Xn(ω))nN konvergiert in R}

  • {ωΩ|n=1Xn(ω) konvergiert in R}

  • {ωΩ|lim supnXn(ω)α} für αR

starkes Gesetz der großen Zahlen:  Seien X1,X2, i.i.d. mit E(|X1|)<.
Dann gilt 1ni=1nXiP-f.s.E(X1).

schwaches Gesetz der großen Zahlen: 
Seien X1,X2, paarweise unkorreliert mit MRiNE(Xi)=E(X1),Var(Xi)<M.
Dann gilt 1ni=1nXiPE(X1).

zentraler Grenzwertsatz: 
Seien X1,X2, i.i.d. mit σ2>0, wobei μ:=E(X1) und σ2:=Var(X1)<.
Dann gilt Zn:=X¯nμσ/n(d)Z mit ZN(0,1).

Satz von Slutsky:  Für Xn(d)X sowie AnPa und BnPb gilt An+BnXn(d)a+bX.

Charakteristische Funktionen

charakteristische Funktion:  Sei X eine reelle Zufallsvariable. Dann heißt die Funktion φX:RC mit φX(t):=ReitxdPX=E(eitX) charakteristische Funktion von X.
Es gilt |φ(t)|1, φ(t)=φ(t)¯ und φ ist gleichmäßig stetig.
Außerdem ist φaX+b(t)=eitbφX(at) für a,bR (lineare Transformation).
Gilt φX=φY für zwei Zufallsvariablen X und Y, so gilt PX=PY (Eindeutigkeitssatz).
Die charakteristischen Funktionen bekannter Verteilungen lauten wie folgt:

Verteilung

char. Funktion

Verteilung

char. Funktion

diskr. Gleichv.

φX(t)=1ni=1neitxi

XU([a,b])

φX(t)=it(ba)(eitbeita) für t0, φX(0)=1

XBin(1,p)

φX(t)=eitp+1p

XExp(λ)

φX(t)=λλit

XBin(n,p)

φX(t)=(eitp+1p)n

XN(μ,σ2)

φX(t)=eiμtexp(σ2t22)

XPois(λ)

φX(t)=exp(λ(eit1))

Xχn2

φX(t)=1(12it)n/2

XG(p)

φX(t)=peit1(1p)eit

XGamma(a,λ)

φX(t)=(λλit)a

Summe von Zufallsvariablen:  Seien X1,,Xn unabhängig und Y:=X1++Xn.
Dann gilt φY(t)=φX1(t)φXn(t). Mit dem Eindeutigkeitssatz kann also die Verteilung von Y berechnet werden, wenn φX1(t)φXn(t) einer bekannten charakteristischen Funktion entspricht. Zum Beispiel gilt für XiN(μi,σi2), dass YN(μ1++μn,σ12++σn2).