Zusammenhang zwischen Varianz und Chi-Quadrat-Verteilung

Eine der Sachen, die ich nie so richtig nachvollziehen konnte, ist die Beziehung der Chi-Quadrat-Verteilung zur Stichprobenarianz. Diese Beziehung nutzt man beispielsweise, um bei vorliegender Stichprobenvarianz einer normalverteilten Grundgesamtheit auf die Varianz der Population zu schließen. Wir sprechen also über eines der wichtigeren Kapitel der Statistik.

Einfache Variante mit Populationsmittelwert

Die Chi-Quadrat-Verteilung ist definiet als Summe unabhängiger quadrierter standardnormalverteilter Zufallsvariablen $Z_{k}^2$ wobei $Z_{k} \sim \mathcal{N}(0,1)$ .

$\displaystyle Z_{1}^{2}+\dots+Z_{n}^{2} \sim \chi^{2}(n)$

Die (Populations-)Varianz einer Zufallsgröße $X$ hingegen ist definiet als:

$\displaystyle \sigma^{2}=E\big[X-E(X)\big]$

Ein Schätzer hierfür ist:

$\widehat{\sigma^{2}}\approx \frac{1}{n}\sum_{i=1}^{n}\Big(X_{i}-\mu\Big)^{2}$

Der Zusammenhang zur Chi-Quadrat-Verteilung wird offenkundig, wenn wir beide Seite mit $n/\sigma^2$ multiplzieren.

$\displaystyle \frac{n\widehat{\sigma}^{2}}{\sigma^{2}}=\sum_{i=1}^{n}\Big(\frac{X_{i}-\mu}{\sigma}\Big)^{2}=\sum_{i=1}^{n}(Z_{i})^{2}=\chi^{2}(n)$

Wir sehen, dass mittels der Division durch $\sigma^{2}$ eine statistische z-Transformation stattfindet. Diese wiederum führt für die Stichprobenwerte $X_{i}$ aus einer normalverteilten Grundgesamtheit zu einer Summe unabhängiger quadrierter standardnormalverteilter Zufallsvariablen. Genau diese haben wir am Anfang des Beitrags für die Definition der Chi-Quadrat-Verteilung hergenommen. Das Verhältnis zwischen Stichproben- und Populationsvarianz folgt also in Abhängigkeit des Stichprobenumfanges $n$ einer Chi-Quadrat-Verteilung!

Fortgeschrittene Variante mit Stichprobenmittelwert

Gerechtfertigterweise muss auch die Gültigkeit unter Verwendung der korrigierten Stichprobenvarianz für Stichproben (und damit unbekanntem Populationsmittelwert) gezeigt werden.

Wir nutzen den Zusammenhang

$\displaystyle \sum_{i=1}^{n}\big(X_{i}-\mu\big)^{2}=\sum_{i=1}^{n}\Big(X_{i}-\overline{X}\Big)^{2}+\sum_{i=1}^{n}\Big(\overline{X}-\mu\Big)^{2}$

und können die Formel für die Stichprobenvarianz schreiben als:

$\displaystyle S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\Big(X_{i}-\overline{X}\Big)^{2}=\frac{1}{n-1}\Big(\sum_{i=1}^{n}\big(X_{i}-\mu\big)^{2}-n\big(\overline{X}-\mu\big)^{2}\Big)$

Eine Multiplikation mit $(n-1)/\sigma^2$ ergibt:

$\displaystyle \frac{(n-1)S^{2}}{\sigma^{2}}=\sum_{i=1}^{n}\Big(\frac{X_{i}-\overline{X}}{\sigma}\Big)^{2}=\sum_{i=1}^{n}\Big(\frac{X_{i}-\mu}{\sigma}\Big)^{2}-\Big(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\Big)^{2}$

Und wir stellen um:

$\displaystyle \frac{(n-1)S^{2}}{\sigma^{2}}+\Big(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\Big)^{2}=\sum_{i=1}^{n}\Big(\frac{X_{i}-\overline{X}}{\sigma}\Big)^{2}+\Big(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\Big)^{2}=\sum_{i=1}^{n}\Big(\frac{X_{i}-\mu}{\sigma}\Big)^{2}$

Um einfacher auf die Terme referenzieren zu können, führe ich die Variablen $P, Q, Q_1, Q_2$ ein. Damit liest sich die Gleichung nun so:

$P+Q_1=Q_2+Q_1=Q$

$Q_1 \sim \chi^2(1)$ und $Q \sim \chi^2(n)$ , weil die Terme sich auf den echten Populationsmittelwert $\mu$ beziehen und damit unabhängig sind. Im Gegensatz dazu basieren die Summanden in $Q_2$ auf $\overline{X}$ . Da $\overline{X}$ aus den $X_i$ berechnet wird, kann man maximal $n-1$ der verschiedenen $X_i$ verändern ohne die Summe zu verändern. $Q_2$ hat daher nur $n-1$ Freiheitsgrade. Sinngemäß sagt uns der Satz von Cochran, dass $Q_2\sim \chi^2(n-1)$ und dass die Freiheitsgrade für die 3 Ausdrücke konstant sind. Also: $Q \sim \chi^2(n)$ , $Q_2+Q_1 \sim \chi^2(n)$ und $P+Q_1 \sim \chi^2(n)$ .