Was die Welt im Innersten zusammenhält

Ein wissenschaftlicher Blog über die verblüffenden Zusammenhänge der Welt

Zusammenhang zwischen Varianz und Chi-Quadrat-Verteilung

Eine der Sachen, die ich nie so richtig nachvollziehen konnte, ist die Beziehung der Chi-Quadrat-Verteilung zur Stichprobenarianz. Diese Beziehung nutzt man beispielsweise, um bei vorliegender Stichprobenvarianz einer normalverteilten Grundgesamtheit auf die Varianz der Population zu schließen. Wir sprechen also über eines der wichtigeren Kapitel der Statistik.

Einfache Variante mit Populationsmittelwert

Die Chi-Quadrat-Verteilung ist definiet als Summe unabhängiger quadrierter standardnormalverteilter Zufallsvariablen Z_{k}^2 wobei Z_{k} \sim \mathcal{N}(0,1) .

\displaystyle Z_{1}^{2}+\dots+Z_{n}^{2} \sim \chi^{2}(n)

Die (Populations-)Varianz einer Zufallsgröße X hingegen ist definiet als:

\displaystyle \sigma^{2}=E\big[X-E(X)\big]

Ein Schätzer hierfür ist:

\widehat{\sigma^{2}}\approx \frac{1}{n}\sum_{i=1}^{n}\Big(X_{i}-\mu\Big)^{2}

Der Zusammenhang zur Chi-Quadrat-Verteilung wird offenkundig, wenn wir beide Seite mit n/\sigma^2 multiplzieren.

\displaystyle \frac{n\widehat{\sigma}^{2}}{\sigma^{2}}=\sum_{i=1}^{n}\Big(\frac{X_{i}-\mu}{\sigma}\Big)^{2}=\sum_{i=1}^{n}(Z_{i})^{2}=\chi^{2}(n)

Wir sehen, dass mittels der Division durch \sigma^{2} eine statistische z-Transformation stattfindet. Diese wiederum führt für die Stichprobenwerte X_{i} aus einer normalverteilten Grundgesamtheit zu einer Summe unabhängiger quadrierter standardnormalverteilter Zufallsvariablen. Genau diese haben wir am Anfang des Beitrags für die Definition der Chi-Quadrat-Verteilung hergenommen. Das Verhältnis zwischen Stichproben- und Populationsvarianz folgt also in Abhängigkeit des Stichprobenumfanges n einer Chi-Quadrat-Verteilung!

Fortgeschrittene Variante mit Stichprobenmittelwert

Gerechtfertigterweise muss auch die Gültigkeit unter Verwendung der korrigierten Stichprobenvarianz für Stichproben (und damit unbekanntem Populationsmittelwert) gezeigt werden.

Wir nutzen den Zusammenhang

\displaystyle \sum_{i=1}^{n}\big(X_{i}-\mu\big)^{2}=\sum_{i=1}^{n}\Big(X_{i}-\overline{X}\Big)^{2}+\sum_{i=1}^{n}\Big(\overline{X}-\mu\Big)^{2}

und können die Formel für die Stichprobenvarianz schreiben als:

\displaystyle S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\Big(X_{i}-\overline{X}\Big)^{2}=\frac{1}{n-1}\Big(\sum_{i=1}^{n}\big(X_{i}-\mu\big)^{2}-n\big(\overline{X}-\mu\big)^{2}\Big)

Eine Multiplikation mit (n-1)/\sigma^2 ergibt:

\displaystyle \frac{(n-1)S^{2}}{\sigma^{2}}=\sum_{i=1}^{n}\Big(\frac{X_{i}-\overline{X}}{\sigma}\Big)^{2}=\sum_{i=1}^{n}\Big(\frac{X_{i}-\mu}{\sigma}\Big)^{2}-\Big(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\Big)^{2}

Und wir stellen um:

\displaystyle \frac{(n-1)S^{2}}{\sigma^{2}}+\Big(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\Big)^{2}=\sum_{i=1}^{n}\Big(\frac{X_{i}-\overline{X}}{\sigma}\Big)^{2}+\Big(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\Big)^{2}=\sum_{i=1}^{n}\Big(\frac{X_{i}-\mu}{\sigma}\Big)^{2}

Um einfacher auf die Terme referenzieren zu können, führe ich die Variablen P, Q, Q_1, Q_2 ein. Damit liest sich die Gleichung nun so:

P+Q_1=Q_2+Q_1=Q

Q_1 \sim \chi^2(1) und Q \sim \chi^2(n), weil die Terme sich auf den echten Populationsmittelwert \mu beziehen und damit unabhängig sind. Im Gegensatz dazu basieren die Summanden in Q_2 auf \overline{X} . Da \overline{X} aus den X_i berechnet wird, kann man maximal n-1 der verschiedenen X_i verändern ohne die Summe zu verändern. Q_2 hat daher nur n-1 Freiheitsgrade. Sinngemäß sagt uns der Satz von Cochran, dass Q_2\sim \chi^2(n-1) und dass die Freiheitsgrade für die 3 Ausdrücke konstant sind. Also: Q \sim \chi^2(n) , Q_2+Q_1 \sim \chi^2(n) und P+Q_1 \sim \chi^2(n).

Gemäß Cochran muss dann aber analog zu Q_1 auch P \sim \chi^2(n-1) . Also,

\displaystyle \frac{(n-1)S^{2}}{\sigma^{2}} \sim \chi^2(n-1)

Mir leuchtet die Sache nun ein und ich hoffe, dass auch euch der Zusammenhang zwischen Varianz und Chi-Quadrat-Verteilung etwas klar geworden ist. 😉

Read about the relationship between variance and chi-squared distribution on Insight Things.

1 Kommentar

  1. Danke!
    Endlich mal eine ordentliche Herleitung warum die Stichprobenvarianz Chi-Quadrat verteilt. Der Satz von Cochran ist auch ein guter Hinweis an dieser Stelle. Kannte ich vorher nicht.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

*