Vor Kurzem fragte ich mich, wie man wohl die Verteilungsfunktionen des Produktes zweier unabhängiger Zufallsvariablen bestimmen könne. Nachdem die Internetrecherchen nicht viel hergaben, musste ich meinen Hirnschmalz zusammennehmen… und meine Erkenntnisse mit euch teilen 🙂

Allgemeiner Fall

An sich ist die Berechnung ganz einfach. Man möge einfach die entstehende Zufallsvariable Z=X\cdot Y betrachten. Die möglichen Paarungen der Faktoren X und Y lassen sich als Graph darstellen, da y=z/x. Ich habe die Darstellung hier – der Einfachheit wegen – auf X \geq 0 und Y \geq 0 beschränkt.

Für alle denkbaren Werte von Z ergibt sich eine Kurvenschar, welche die Paarung möglicher Faktoren beschreibt.

Man müsste nun nur die Wahrscheinlichkeiten g_{x,y}(x,y) entlang des Graphen integrieren, um g_z(z) zu erhalten. Dies ist leider nicht so ohne Weiteres möglich. Was also tun?

Wir können problemlos die kumulative Wahrscheinlichlichkeitsfunktion bestimmen, wenn für jedes Z über die Wahrscheinlichkeiten zu allen Punkten unterhalb der zu Z passenden Hyperbel integrieren. Wenn man sich die Grafik oben als Draufsicht auf ein Gebirge vorstellt, dann entspräche dies dem Volumen des gedachten Gebirges. Konkret bedeutet das:

\displaystyle F_{z}\big(z\big)=P\big(z \leq Z)= \int\limits_{- \infty}^{\infty} \int\limits_{0}^{\frac{z}{x}} g_{x,y}\big( x,y \big) \, dy \, dx

Da X und Y unabhängig und Wahrscheinlichkeiten immer positiv sind, kann vereinfacht werden zu:

\displaystyle F_{z}\big(z\big)= \int\limits_{- \infty}^{\infty} g_{x}\big( x \big) \int\limits_{0}^{\frac{z}{x}} g_{y}\big(y \big) \, dy \, dx

Aus der kumulativen Wahrscheinlichkeitsfunktion wiederrum, können wir die Wahrscheinlichkeitsdichtefunktion ermitteln. Diese lässt sich definitionsgemäß durch Ableiten bestimmen.

\displaystyle g_{z}\big( z \big)=\frac{d\big (F_{z} \big )}{dz}

Beispiel anhand gleichverteilter Zufallsvariablen

Schauen wir uns ein Beispiel an, bei dem X und Y zwischen 0 und 10 gleichverteilt sind. Es gilt also g_{x}=g_{y}=1/10 bzw. g_{x,y}(x,y)=1/100. Da die Verteilung der Zufallsvariablen nicht stetig ist (unter 0 und über 10 ist die Wahrscheinlichkeit 0), können wir nicht einfach in die Formeln von oben einsetzen. Stattdessen müssen wir etwas um die Ecke denken und das Integral in geeignete Stücke zerlegen (weshalb ich dieses Beispiel gewählt habe… ^^).

Skizze zur Berechnung möglicher Paarungen bei Gleichverteilung

Um die kumulative Wahrscheinlichkeitsfunktion zu berechnen, werden wir einfach annehmen, dass die Wahrscheinlichkeit für alle passenden Paarungen jeweils 1/100 sein wird. Wie die oben gezeigte Skizze illustriert, ist die Hyperbel wegen der Beschränkung der Werte gestutzt. In unserem Fall geschieht dies sobald eine der Zufallsvariablen größer als 10 wird. Wenn wir uns an den Grundgedanken aus dem vorangehenden Abschnitt erinnern, müssen wir nur über die Wahrscheinlichkeiten unterhalb des gezeigten Graphen integrieren. Dazu teilen wir die Funktion in zwei Teile. Das tun wir dort, wo die Grenze von Y verletzt wird:

\displaystyle y=\frac{z}{x} = 10

\displaystyle z = 10 \cdot x

\displaystyle x = \frac{z}{10}

Wir berechnen alle Werte mit x<z/10 durch Wahl der festen Obergrenze „10“. Im verbleibenden Bereich gehen wir wie gehabt vor.

\displaystyle F_{z}\big(z\big)= \int\limits_{0}^{\frac{z}{10}} \int\limits_{0}^{10} g_{x,y}\big(x,y \big) \, dy \, dx + \int\limits_{\frac{z}{10}}^{10} \int\limits_{0}^{\frac{z}{x}} g_{x,y}\big(x,y \big) \, dy \, dx

\displaystyle F_{z}\big(z\big)= \int\limits_{0}^{\frac{z}{10}} \int\limits_{0}^{10} \frac{1}{100} \, dy \, dx + \int\limits_{\frac{z}{10}}^{10} \int\limits_{0}^{\frac{z}{x}} \frac{1}{100} \, dy \, dx = \frac{z}{100} + \frac{z}{100} \int\limits_{\frac{z}{10}}^{10} \frac{1}{x} \, dx

\displaystyle F_{z}\big(z\big)=\frac{z}{100} + \frac{z}{100} \Big[ ln(x) \Big ]_{\frac{z}{10}}^{10}=\frac{z}{100} \Big(1+2\cdot ln(10)-ln(z)\Big)

Nun differenzieren wir noch schnell nach z – eine Tätigkeit, die ich bis auf einige Optimierungen dem CAS Maxima überlassen habe.

\displaystyle \frac{d\big(F_{z}(z)\big)}{dz}=\frac{2\cdot ln(10)-ln(z)}{100}=g_{z}(z)

Und so sieht unsere Wahrscheinlichkeitsdichtefunktion aus:

Wahrscheinlichkeitsdichtefunktion des Produktes zweier gleichverteilter Zufallsvariablen

Ausblick

Wie wir gesehen haben, kann die Berechnung einer konkreten Verteilung zweier Zufallsvariablen einen gewissen Aufwand fordern. Mit etwas Geschick können wir so aber verschiedene praktische Aufgaben lösen. Zum Beispiel könnte ja die Verteilung der Besucher eines Parkplatzes sowie die Verteilung der PKW-Breite bekannt sein. Dann is est möglich, eine Aussage über den benötigten Platz auf dem Parkplatz zu treffen. Prinzpiell können wir auch mehr als zwei Variablen miteinander verknüpfen, denn schließlich gilt ja A \cdot B \cdot C = ( A \cdot B ) \cdot C 😉 Bei sehr vielen multiplikativ verknüpften Variablen ist es jedoch ratsam auf die Log-Normal-Verteilung zurückzugreifen, da man sich damit viel Arbeit sparen kann. Sicher werde ich diese spezielle Verteilung in einem der nächsten Beiträge vorstellen 🙂