Die Regressionsanalyse ist eine von mehreren Methoden der Statistik, um Zusammenhänge zwischen Variablen anhand von Datenpunkten festzustellen und zu quantifizieren. So kann man auseinander rechnen, welche Variablen einander stark oder weniger beeinflussen.
Im Folgenden werden diese Fragen behandelt
- Was bedeutet der Begriff „Regression“ in der Statistik?
- Wie berechnet man die statistische Regression zwischen zwei Variablen
- Und die Regression zwischen mehr als zwei Variablen?
- Wie ermittelt man, wie gut die Regression zu den Daten passt?
Sollten Sie Unterstützung bei der Erhebung oder Analyse von Daten benötigen, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.
Bei einer Regression Statistik Auswertungen richtig interpretieren
Im Rahmen einer Regressionsanalyse sagt die Regression Statistik Analysten, wie stark sich eine abhängige Variable y zusammen mit der unabhängigen Variablen x ändert, wenn x um eine Einheit vergrößert wird. Diese Abhängigkeit soll quantifiziert werden. Dazu nimmt man meist eine lineare Beziehung zwischen den beiden Variablen an, d.h. ändert man x um eine Einheit, dann ändert sich auch y immer um denselben Wert. Diesen Zusammenhang kann man – mit Vorsicht – auch zur Prognose von Werten außerhalb des Messbereichs oder in der Zukunft verwenden.
Die Regressionsanalyse findet statistische Korrelationen in den Daten. Damit ist aber noch nicht gesagt, dass auch ein kausaler Zusammenhang besteht. Ein bekanntes Beispiel ist der Zusammenhang zwischen Schuhgröße und Gehalt: Wer größere Füße hat, verdient mehr Geld. Hier spielt jedoch eine dritte Variable hinein, nämlich das Geschlecht: Männer haben üblicherweise größere Füße als Frauen und verdienen mehr. Aber auch innerhalb der Gruppe der Männer scheint es eine Korrelation zu geben: größere Männer verdienen mehr als kleinere und haben größere Füße.
Wie berechnet man die statistische Regression zwischen zwei Variablen?
Besteht ein linearer Zusammenhang zwischen zwei Variablen x und y, dann lautet die zugehörige Funktion y(x) = a + b ∙ x. Die Konstanten a und b können sich aus einem Naturgesetz ergeben oder anhand von Messwerten statistisch ermittelt werden. Das mathematische Verfahren dazu besteht üblicherweise darin, a und b so zu wählen, dass der quadrierte Abstand zwischen den Messpunkten (x,y) und der Geraden minimal wird. Dieses Verfahren wird allerdings durch Ausreißer, d.h. einzelne Punkte fern der Regressionsgeraden, verfälscht. Es sind darum weitere Verfahren entwickelt worden, um den Zusammenhang zwischen x und y zu berechnen, die stabiler sind als die Methode der kleinsten Fehlerquadrate. Solche komplexen Berechnungen führt man natürlich nicht von Hand aus, sondern verwendet dafür Statistik-Software.
Nun kann der Fall auftreten, dass x und y nicht-linear zusammenhängen. Durch eine Variablentransformation kann man jedoch die Variablen so umrechnen, dass eben doch eine lineare Funktion entsteht. Beispielsweise bei einem logarithmischen Zusammenhang untersuche man die Regression zwischen x und ln(y). Aber auch andere Formeln für die Regressionsfunktion sind denkbar wie z.B. y = a + b ∙ x + c ∙ x2.
Bei der nichtparametrischen Regression wird gar keine Form der Regressionsfunktion vorgegeben, sondern auch diese aus den Datenpunkten hergeleitet.
Ein Spezialfall tritt auf, wenn die abhängige Variable y eine ordinale Variable ist, die nur zwei oder mehrere diskrete Werte annehmen kann. Dann verwendet man die logistische Regression bzw. das Logit-Modell.
Und die Regression zwischen mehr als zwei Variablen?
Die Regressionsanalyse kann auch die Abhängigkeit zwischen mehr als zwei Variablen analysieren.
Untersucht man die Abhängigkeit mehrerer abhängiger Variablen yn von einer unabhängigen x, dann gibt es mehrere Regressionsfunktionen zu ermitteln in der linearen Form: yn = an + bn ∙ x.
Betrachtet man umgekehrt eine abhängige Variable y und mehrere unabhängige Variablen xn, dann verwendet man eine Regressionsgerade mit mehreren Regressionsfaktoren bn: y = a + Σn bn ∙ xn.
Wie erkennt man, ob die Regression Statistik Interessierten bei ihren Daten hilft?
Der Korrelationswert r misst, wie gut die Regressionsgerade zu den vorliegenden Daten passt. Es macht ja durchaus einen Unterschied, ob man Daten durch eine Gerade annähert, die alle Punkte schneidet, oder ob man durch eine diffuse Punktwolke diejenige Gerade zieht, die am wenigsten schlecht zu den Daten passt. Im ersteren Fall wäre r=1 und im zweiten deutlich geringer oder sogar nahe 0. Das Bestimmtheitsmaß r2 misst, wie viel Prozent der Streuung von y sich auf x zurückführen lässt. Beide Werte können durch eine Statistik-Software berechnet werden oder Sie finden die Formeln in der ersten unten angegebenen Quelle.
Zur Bewertung, ob die Regression die richtige Methode war und wie gut die Regressionsfunktion zu den Daten passt, dienen außerdem folgende Fragestellungen:
- Wie groß sind die Abweichungen (Residuen) der Datenpunkte von der Regressionsgeraden?
- Weisen die Residuen Regelmäßigkeiten oder Muster auf?
- Gibt es Ausreißer, also Datenpunkte, die besonders stark von der Regressionsgeraden abweichen und die die Regression evtl. verfälschen?
- Gibt es einen linearen Zusammenhang zwischen den abhängigen Variablen? Auch solche Zusammenhänge verfälschen die Ergebnisse.
Häufig gestellte Fragen
Literatur zum Weiterlesen über Regression in der Statistik
- Hier finden Sie drei Beispiele und die vollständigen Formeln: https://de.wikibooks.org/wiki/Statistik:_Regressionsanalyse
- Selbstlernmaterialien zur linearen Regression: http://ne.lo-net2.de/selbstlernmaterial/m/wk/lr/lrindex.html
- Buch: L. Fahrmeir, Thomas Kneib, Stefan Lang: Regression – Modelle, Methoden und Anwendungen, Springer, 2009, 2. Auflage. Hier mit Materialien und Beispiel-Code: https://books.google.de/books?id=QYIoBAAAQBA