Eine der Sachen, die ich nie so richtig nachvollziehen konnte, ist die Chi-Quadrat-Verteilung und ihre Beziehung zur Varianz. Diese Beziehung nutzt man beispielsweise, um bei vorliegender Stichprobenvarianz einer normalverteilten Grundgesamtheit auf die Varianz der Population zu testen. Wir sprechen also über eines der wichtigeren Kapitel der Statistik. Da ich einen schönen Weg gefunden habe, diese Beziehung darzustellen, möchte ich mein Wissen mit euch teilen.

Die Chi-Quadrat-Verteilung ist definiet als Summe quadratischer standardnormalverteilter Zufallsvariablen Z_{k} \sim \mathcal{N}(0,1) .

\displaystyle \chi^{2}(n)\sim Z_{1}^{2}+\dots+Z_{n}^{2}

Die (Populations-)Varianz einer Zufallsgröße X hingegen ist definiet als:

\displaystyle \sigma^{2}=E\big[X-E(X)\big]

Den Zusammenhang zur Chi-Quarat-Verteilung erhalten wir, indem wir aus der Definition einen Schätzer für die Varianz aus Stichproben ableiten. Um eine möglichst einfache (aber dennoch korrekte) Darstellung zu erreichen, werden wir statt mit dem Stichprobenmittelwert \overline{X} mit dem Populationsmittelwert \mu arbeiten. Wir dividieren dann beispielsweise im Gegensatz zur korrigierten Stichprobenvarianz nicht durch n-1 sondern nur durch n.

\displaystyle \widehat{\sigma}^{2}=\frac{1}{n}\sum_{i=1}^{n}\Big(X_{i}-\mu\Big)^{2}

Der Zusammenhang zur Chi-Quadrat-Verteilung wird offenkundig, wenn wir beide Seite mit n multiplzieren und durch die (unbekannte) Varianz \sigma^{2} der Population dividieren.

\displaystyle \frac{n\widehat{\sigma}^{2}}{\sigma^{2}}=\sum_{i=1}^{n}\Big(\frac{X_{i}-\mu}{\sigma}\Big)^{2}=\sum_{i=1}^{n}(Z_{i})^{2}=\chi^{2}(n)

Wir sehen, dass mittels der Division durch \sigma^{2} eine statistische z-Transformation stattfindet. Diese wiederum führt für die Stichprobenwerte X_{i} aus einer normalverteilten Grundgesamtheit zu einer Summe quadratischer standardnormalverteilter Zufallsvariablen. Genau diese haben wir am Anfang des Beitrags für die Definition der Chi-Quadrat-Verteilung hergenommen. Das Verhältnis zwischen Stichproben- und Populationsvarianz folgt also in Abhängigkeit des Stichprobenumfanges n einer Chi-Quadrat-Verteilung!

Ich höre nun schon die Unkenrufe: „Aber wir kennen doch den Populationsmittelwert gar nicht. Man muss das doch auch für den Stichprobenmittelwert zeigen können.“ Der Vollständigkeit halber zeige ich für die Hardliner daher den Ansatz in Anlehnung an die Herleitung der korrigierten Stichprobenvarianz. Wir können dann schreiben:

\displaystyle S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\Big(X_{i}-\overline{X}\Big)^{2}=\frac{1}{n-1}\Big(\sum_{i=1}^{n}\big(X_{i}-\mu\big)^{2}-n\big(\overline{X}-\mu\big)^{2}\Big)

\displaystyle \frac{(n-1)S^{2}}{\sigma^{2}}=\sum_{i=1}^{n}\Big(\frac{X_{i}-\mu}{\sigma}\Big)^{2}-\Big(\frac{\overline{X}-\mu}{\sigma/n}\Big)^{2}=\sum_{i=1}^{n}(Z_{i})^{2}-(Z_{\overline{X}})^{2}=\chi^{2}(n-1)

Sieht doch logisch aus, oder? Es ist allerdings sehr schwer, den letzten Schritt zu beweisen! Wenn man ohne Sätze wie den von Cochran auskommen möchte, kann man allenfalls Inidzien für die Richtigkeit sammeln: Während der Erwartungswert zweifelsfrei n-1 ergibt, tut man sich bei der Varianz schon schwerer. Unter Zuhilfenahme der Kovarianz kann man sicher argumentieren, dass der letzte Term nicht in die Berechnung der Gesamtvarianz eingeht. Das liegt daran, dass der Stichprobenmittelwert ganz und gar von den Stichprobenwerten abhängt und somit nicht zur Varianz beiträgt.

Mir leuchtet die Sache nun ein und ich hoffe, dass auch euch der Zusammenhang zwischen Varianz und Chi-Quadrat-Verteilung etwas klar geworden ist. 😉

Read about the relationship between variance and chi-squared distribution on Insight Things.