Regression Statistik

Die Regressionsanalyse ist eine von mehreren Methoden der Statistik, um Zusammenhänge zwischen Variablen anhand von Datenpunkten festzustellen und zu quantifizieren. So kann man auseinander rechnen, welche Variablen einander stark oder weniger beeinflussen.

Im Folgenden werden diese Fragen behandelt

Was bedeutet der Begriff „Regression“ in der Statistik?
Wie berechnet man die statistische Regression zwischen zwei Variablen
Und die Regression zwischen mehr als zwei Variablen?
Wie ermittelt man, wie gut die Regression zu den Daten passt?

Sollten Sie Unterstützung bei der Erhebung oder Analyse von Daten benötigen, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.

Lassen Sie uns Ihre Anforderungen wissen & wir erstellen Ihnen innerhalb weniger Stunden ein kostenfreies Angebot.

Jetzt unverbindlich anfragen

Bei einer Regression Statistik Auswertungen richtig interpretieren

Im Rahmen einer Regressionsanalyse sagt die Regression Statistik Analysten, wie stark sich eine abhängige Variable y zusammen mit der unabhängigen Variablen x ändert, wenn x um eine Einheit vergrößert wird. Diese Abhängigkeit soll quantifiziert werden. Dazu nimmt man meist eine lineare Beziehung zwischen den beiden Variablen an, d.h. ändert man x um eine Einheit, dann ändert sich auch y immer um denselben Wert. Diesen Zusammenhang kann man – mit Vorsicht – auch zur Prognose von Werten außerhalb des Messbereichs oder in der Zukunft verwenden.
Die Regressionsanalyse findet statistische Korrelationen in den Daten. Damit ist aber noch nicht gesagt, dass auch ein kausaler Zusammenhang besteht. Ein bekanntes Beispiel ist der Zusammenhang zwischen Schuhgröße und Gehalt: Wer größere Füße hat, verdient mehr Geld. Hier spielt jedoch eine dritte Variable hinein, nämlich das Geschlecht: Männer haben üblicherweise größere Füße als Frauen und verdienen mehr. Aber auch innerhalb der Gruppe der Männer scheint es eine Korrelation zu geben: größere Männer verdienen mehr als kleinere und haben größere Füße.

Wie berechnet man die statistische Regression zwischen zwei Variablen?

Besteht ein linearer Zusammenhang zwischen zwei Variablen x und y, dann lautet die zugehörige Funktion y(x) = a + b ∙ x. Die Konstanten a und b können sich aus einem Naturgesetz ergeben oder anhand von Messwerten statistisch ermittelt werden. Das mathematische Verfahren dazu besteht üblicherweise darin, a und b so zu wählen, dass der quadrierte Abstand zwischen den Messpunkten (x,y) und der Geraden minimal wird. Dieses Verfahren wird allerdings durch Ausreißer, d.h. einzelne Punkte fern der Regressionsgeraden, verfälscht. Es sind darum weitere Verfahren entwickelt worden, um den Zusammenhang zwischen x und y zu berechnen, die stabiler sind als die Methode der kleinsten Fehlerquadrate. Solche komplexen Berechnungen führt man natürlich nicht von Hand aus, sondern verwendet dafür Statistik-Software.
Nun kann der Fall auftreten, dass x und y nicht-linear zusammenhängen. Durch eine Variablentransformation kann man jedoch die Variablen so umrechnen, dass eben doch eine lineare Funktion entsteht. Beispielsweise bei einem logarithmischen Zusammenhang untersuche man die Regression zwischen x und ln(y). Aber auch andere Formeln für die Regressionsfunktion sind denkbar wie z.B. y = a + b ∙ x + c ∙ x2.
Bei der nichtparametrischen Regression wird gar keine Form der Regressionsfunktion vorgegeben, sondern auch diese aus den Datenpunkten hergeleitet.
Ein Spezialfall tritt auf, wenn die abhängige Variable y eine ordinale Variable ist, die nur zwei oder mehrere diskrete Werte annehmen kann. Dann verwendet man die logistische Regression bzw. das Logit-Modell.

Jetzt unverbindlich anfragen

Und die Regression zwischen mehr als zwei Variablen?

Die Regressionsanalyse kann auch die Abhängigkeit zwischen mehr als zwei Variablen analysieren.
Untersucht man die Abhängigkeit mehrerer abhängiger Variablen yn von einer unabhängigen x, dann gibt es mehrere Regressionsfunktionen zu ermitteln in der linearen Form: yn = an + bn ∙ x.
Betrachtet man umgekehrt eine abhängige Variable y und mehrere unabhängige Variablen xn, dann verwendet man eine Regressionsgerade mit mehreren Regressionsfaktoren bn: y = a + Σn bn ∙ xn.

Wie erkennt man, ob die Regression Statistik Interessierten bei ihren Daten hilft?

Der Korrelationswert r misst, wie gut die Regressionsgerade zu den vorliegenden Daten passt. Es macht ja durchaus einen Unterschied, ob man Daten durch eine Gerade annähert, die alle Punkte schneidet, oder ob man durch eine diffuse Punktwolke diejenige Gerade zieht, die am wenigsten schlecht zu den Daten passt. Im ersteren Fall wäre r=1 und im zweiten deutlich geringer oder sogar nahe 0. Das Bestimmtheitsmaß r2 misst, wie viel Prozent der Streuung von y sich auf x zurückführen lässt. Beide Werte können durch eine Statistik-Software berechnet werden oder Sie finden die Formeln in der ersten unten angegebenen Quelle.
Zur Bewertung, ob die Regression die richtige Methode war und wie gut die Regressionsfunktion zu den Daten passt, dienen außerdem folgende Fragestellungen:

Wie groß sind die Abweichungen (Residuen) der Datenpunkte von der Regressionsgeraden?
Weisen die Residuen Regelmäßigkeiten oder Muster auf?
Gibt es Ausreißer, also Datenpunkte, die besonders stark von der Regressionsgeraden abweichen und die die Regression evtl. verfälschen?
Gibt es einen linearen Zusammenhang zwischen den abhängigen Variablen? Auch solche Zusammenhänge verfälschen die Ergebnisse.

Häufig gestellte Fragen

Was ist eine Regression in der Statistik und welche Arten gibt es?

Eine Regression ist ein statistisches Verfahren, das den Zusammenhang zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen analysiert. Es gibt verschiedene Arten von Regressionen, darunter die lineare Regression, die logistische Regression, die Polynomregression und die multiple Regression.

Wie wird eine lineare Regression in der Statistik durchgeführt?

Bei der linearen Regression werden die Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen untersucht. Die Regressionsanalyse erfolgt durch das Fitten einer Gerade durch die Daten, die den besten linearen Zusammenhang zwischen den Variablen beschreibt. Das Ergebnis wird durch den Bestimmtheitskoeffizienten (R²) bewertet.

Was ist der Unterschied zwischen einfacher und multipler Regression in der Statistik?

Die einfache Regression analysiert den Zusammenhang zwischen einer abhängigen und einer unabhängigen Variablen. Die multiple Regression analysiert hingegen den Zusammenhang zwischen einer abhängigen und mehreren unabhängigen Variablen. Sie ist daher in der Lage, den Einfluss mehrerer Variablen auf die abhängige Variable zu quantifizieren.

Wie interpretiert man die Ergebnisse einer Regressionsanalyse in der Statistik?

Die Ergebnisse einer Regressionsanalyse werden in der Regel durch den Bestimmtheitskoeffizienten (R²) und den p-Wert bewertet. Der Bestimmtheitskoeffizient gibt an, wie viel Prozent der Variation in der abhängigen Variable durch die unabhängigen Variablen erklärt werden kann. Der p-Wert gibt an, ob der Zusammenhang zwischen den Variablen signifikant ist.

In welchen Anwendungsbereichen wird die Regressionsanalyse in der Statistik eingesetzt?

Die Regressionsanalyse wird in vielen Anwendungsbereichen eingesetzt, darunter in der Wirtschaft, Medizin, Psychologie und Ingenieurwissenschaften. Beispiele sind die Vorhersage von Umsatzprognosen, die Analyse des Einflusses von Marketingkampagnen auf den Umsatz und die Vorhersage des Erfolgs von medizinischen Behandlungen.

Literatur zum Weiterlesen über Regression in der Statistik

Hier finden Sie drei Beispiele und die vollständigen Formeln: https://de.wikibooks.org/wiki/Statistik:_Regressionsanalyse
Selbstlernmaterialien zur linearen Regression: http://ne.lo-net2.de/selbstlernmaterial/m/wk/lr/lrindex.html
Buch: L. Fahrmeir, Thomas Kneib, Stefan Lang: Regression – Modelle, Methoden und Anwendungen, Springer, 2009, 2. Auflage. Hier mit Materialien und Beispiel-Code: https://books.google.de/books?id=QYIoBAAAQBA

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website, Impressum
Zweck	Speichert die Einstellungen der Besucher, die in der Cookie Box von Borlabs Cookie ausgewählt wurden.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Name	Google Tag Manager
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google zur Steuerung der erweiterten Script- und Ereignisbehandlung.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Jahre

Akzeptieren	Google Analytics
Name	Google Analytics
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google für Website-Analysen. Erzeugt statistische Daten darüber, wie der Besucher die Website nutzt.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Monate

Akzeptieren	Vimeo Statistiken
Name	Vimeo Statistiken
Anbieter	Vimeo.com, Inc.
Zweck	Sammelt Daten über Besuche des Benutzers auf der Website, wie zum Beispiel welche Seiten gelesen wurden.
Datenschutzerklärung	https://vimeo.com/privacy
Host(s)	vimeo.com
Cookie Name	vuid
Cookie Laufzeit	2 Jahre

Akzeptieren	Proven Expert
Name	Proven Expert
Anbieter	Expert Systems AG
Zweck	Sammelt Informationen zum Besucherverhalten auf mehreren Webseiten. Diese Informationen wird auf der Webseite verwendet, um die Relevanz der Werbung zu optimieren.
Datenschutzerklärung	https://www.provenexpert.com/en-us/privacy-policy/
Host(s)	provenexpert.com
Cookie Name	PE_SESSION
Cookie Laufzeit	Session

Gerne beraten wir Sie auch telefonisch & geben Ihnen eine kostenfreie persönliche Auskunft zu Ihrem Projekt.

+49 211 99346512

+41 78 89 11111

+43 720 3035410