Lineare Regression


my image

Inhalt


 

bivariate Häufigkeitsverteilung

Die lineare Regression beschäftigte sich mit Maßen der bivariaten Häufigkeitsverteilung. Das heißt, das jedes Element zwei Merkmale besitzt. Wir betrachten die Merkmale \(x\) als Körpergröße in Zentimeter und \(y\) als Körpergewicht in Kilogramm von \(12\) Personen.
Die Zählvariable sei \(i\).

i xi yi
1 187 83
2 172 70
3 205 95
4 188 78
5 182 72
6 169 59
7 189 85
8 193 104
9 184 74
10 163 64
11 178 68
12 174 66



Als Diagramm sieht die Verteilung folgendermaßen aus:

my image

Gibt es nun einen Zusammenhang zwischen der Körpergröße einer Personen und deren Gewicht? Das Diagramm lässt die Vermutung aufkommen.

Wie kann man diesen Zusammenhang nun rechnerisch, also quasi per Formel, formulieren?

Offensichtlich steigt das Gewicht mit zunehmender Größe. Es liegt also nahe, diese Verteilung als Gerade anzunehmen.

my image

Eine repräsentative Gerade, die diese jetzt erst einmal willkürlich eingezeichnete Gerade nicht ist, wäre die Regressionsgerade.


Regressionsgerade

Welche Eigenschaft braucht die Regressionsgerade?

Damit sie die Verteilung gut repräsentiert, müsste die Summe der Abweichungsquadrate der einzelnen Punkte von der Geraden in \(y\)-Richtung möglichst klein sein, wie wird es ja schon in der [Varianz und Standardabweichung](../Varianz und Standardabweichung) angewendet haben.

my image

Wir gehen dabei von der Geradengleichung



aus. Also berechnen sich die Abweichungen mit



Zur Berechnung benötigen wir die Kovarianz, die folgendermaßen ermittelt wird:



Ferner brauchen wir den Mittelwert \(\overline{xy}\) des Produktes \(x_i \cdot y_i\). Zusätzlich kommen noch die Quadrate der Tabellenwerte hinzu und wir berechnen nun wie folgt:

i xi yi xi \(\cdot\) yi xi yi
1 187 83 15521 34969 6889
2 172 70 12040 29584 4900
3 205 95 19475 42025 9025
4 188 78 14664 35344 6084
5 182 72 13104 33124 5184
6 169 59 9971 28561 3481
7 189 85 16065 35721 7225
8 193 104 20072 37249 10816
9 184 74 13616 33856 5476
10 163 64 10432 26569 4096
11 178 68 12104 31684 4624
12 174 66 11484 30276 4356
Summe 2184 6918 168548 398962 72156
Mittelwert 182 76,5 14045,67 33246,83 6013



Bei der Regressionsgeraden von der Form



wird \(b\) berechnet mit



Dabei ist



Vereinfacht gilt nun, dass



ist.

Daraus folgt, dass \(b\) berechnet werden kann mit



Aus der Tabelle haben wir folgende Ergebnisse bekommen:



Wir setzen diese Werte ein und erhalten



\(a\) ergibt sich mit



Eingesetzt:



Die Regressionsgerade lautet also



Um die Gerade darzustellen, ermitteln wir 2 \(y\)-Werte, zum Beispiel bei \(x=160\) und bei \(x=200\).



Wir erhalten also die Punkte \(P_1(160|54{,}53)\) und \(P_2(200|94{,}48)\) und zeichnen die Gerade.

my image


Umkehrregression

Wie sieht das Ganze nun umgekehrt aus? Also wie ist der Zusammenhang der Körpergröße zum Gewicht der untersuchten Personen?

Wir vertauschen die Achsen. Damit steht dann die unabhängige Variable \(y\) für das Gewicht und die abhängige Variable \(x\) für die Größe.

my image

Aus der Tabelle, hier noch einmal dargestellt,

i xi yi xi \(\cdot\) yi xi yi
1 187 83 15521 34969 6889
2 172 70 12040 29584 4900
3 205 95 19475 42025 9025
4 188 78 14664 35344 6084
5 182 72 13104 33124 5184
6 169 59 9971 28561 3481
7 189 85 16065 35721 7225
8 193 104 20072 37249 10816
9 184 74 13616 33856 5476
10 163 64 10432 26569 4096
11 178 68 12104 31684 4624
12 174 66 11484 30276 4356
Summe 2184 6918 168548 398962 72156
Mittelwert 182 76,5 14045,67 33246,83 6013



erhalten wir folgende Werte:



Diesmal gehen wir von der Regressionsgeraden



aus. \(m\) wird berechnet mit



Eingesetzt erhalten wir



\(n\) ergibt sich mit



Also



Die Regressionsgerade lautet also



und stellt sich folgendermaßen dar:

my image


Korrelationskoeffizient

Nun stellt sich noch die Frage, ob diese Regressionsgerade die Punkteverteilung gut repräsentiert. Oder besser ausgedrückt:

Ist die Verteilung geeignet um als Gerade zu modelliert zu werden?

Ein Maß , dass die Güte dafür misst, ist der Korrelationskoeffizient.



Vereinfacht sagen wir hier,




ist.

Mit den Werten




erhalten wir



Wie ist dieser Wert nun zu beurteilen?

Es gilt:



Damit ist diese Verteilung der Erhebungswerte gut geeignet um stellvertretend als Gerade dargestellt zu werden.