Gerne beraten wir Sie auch telefonisch & geben Ihnen eine kostenfreie persönliche Auskunft zu Ihrem Projekt.

X

Der Klassiker lineare Regression einfach erklärt – Herleitung und Anwendungsbeispiele

Der Klassiker lineare Regression einfach erklärt - Herleitung und Anwendungsbeispiele

Die lineare Regression ist eines der vielseitigsten statistischen Verfahren: So ist die lineare Regression ein nützliches Verfahren für Prognosen (z.B. Vorhersage von Besucherzahlen). Aber  für die Untersuchung von Zusammenhängen (z.B. Einfluss von Werbeausgaben auf die Verkaufsmenge) ist die Verwendung einer linearen Regression oft sinnvoll. In diesem Artikel möchten wir daher das Thema lineare Regression näher beleuchten. Dieser Artikel beschäftigt sich dabei hauptsächlich mit dem Thema einfache lineare Regression: Wie können Beziehungen zweier Variablen beschrieben und modelliert werden. Einfache lineare Regression ist dabei in zweierlei Hinsicht zu verstehen: Als einfache lineare Regression wird eine lineare Regressionsanalyse bezeichnet, bei der nur ein Prädiktor berücksichtigt wird. In diesem Artikel soll darüber hinaus auch die Einfachheit im Sinne von einfach und verständlich erklärt als Leitmotiv dienen. Also keine Angst vor komplizierten Formeln!

Lineare Regression einfach erklärt mit Praxisbeispiel

Stellen Sie sich folgende Situation vor: Die Firma Kuschelwuschel hat in jahrelanger Entwicklung ein neues Haarwuchsmittel entwickelt. Dieses Mittel soll nun in einer Studie klinisch an 10 gesunden Probanden überprüft werden. Ziel ist es nun, anhand der gewonnenen Daten das Wachstum unter dem Shampoo zu quantifizieren und für die Vorhersage des Haarwachstums zu nutzen.

Zunächst stellen wir mit einem Streudiagrammen (Streudiagramm) die Zusammenhänge graphisch dar. Über ein Model werden dann Schätzer für die Effekte sowie die Tests auf Effekte berechnet. Die lineare Regression wird exemplarisch mit dem Programm SPSS der Firma IBM durchgeführt und interpretiert.

Wir beschreiben in diesem Blog die einfache lineare Regression – einfach erklärt. Damit werden wir auch schon alle Hände voll zu tun haben. Nähere Informationen zu anderen Modellierungen finden Sie in unserem Glossar oder sie nutzen unser Kontaktformular für eine persönliche Beratung.

Diese Fragen beantwortet dieser Artikel:

  • Wozu benötigt man eine lineare Regression?
  • Was sind kleinste Quadrate (KQ)?
  • Was versteht man unter einem Streudiagramm (engl. Streudiagramm)?
  • Wie gut beschreibt meine Regressionsgerade die Daten?
  • Wie erkenne ich, ob eine Einflussvariable signifikant ist?
  • Was muss man bei der linearen Regression beachten? Welche Voraussetzungen müssen erfüllt sein?
  • Was versteht man unter dem Begriff „multiple lineare Regression“?

Eine haarige Angelegenheit und eine lineare Regression

Unsere Kopfhaare wachsen im Jahr 13 cm.

Könnten wir diese Aussage so stehen lassen, wäre die Forschungshypothese der Firma Kuschelwuschel schon weitestgehend beantwortet. Eine solch deterministische Aussage mit exakten Zusammenhängen entspricht nicht der Realität: Die Kopfhaare eines Menschen wachsen in einem festen Zeitraum unterschiedlich stark. Dies ist z.B. abhängig von Jahreszeit, Geschlecht, Haarpflege, Witterungseinflüssen, Alter, genetischer Disposition,…  Darüber hinaus mischt sich oft noch eine große Portion Zufall in Form von unkalkulierbaren Messfehlern oder Störgrößen dazu.

Der erste Schritt besteht zunächst darin, die Zusammenhänge zwischen den Variablen kennen zu lernen und zu beschreiben.

Betrachten wir die Messwerte der Haarlängen von 10 Studenten, die in der Studie von Kuschelwuschel mit einem innovativen Shampoo behandelt wurden.:

ID12345678910
X: Haarlänge in cm Beginn153812563513572529
Y: Haarlänge in cm nach 10 Wochen (70 Tage) Behandlung1641515584022651930

Zur Vereinfachung der Schreibweise werden die Messwerte zu Studienbeginn mit X bezeichnet, die Haarlängen nach 70 Tagen als Y.

Allgemein nennt man X Einflussvariable, unabhängige Variable oder Prädiktor.

Y wird als abhängige Variable, Zielvariable oder auch Response bezeichnet.

Die Messwerte (X; Y) kann man in einem sogenannten Streudiagramm (engl. Scatterplot) veranschaulichen. Auf der x-Achse wird die Einflussvariable abgetragen, die Zielvariable auf der Ordinate.

Lineare Regression einfach erklärt: Haarlänge von Probanden
Haarlängen von 10 Probanden

Im Diagramm ist ein positiver linearer Zusammenhang erkennbar. Der Pearson Korrelationskoeffizient ergibt sich als r = 0,973.

Nach welchen Kriterien legt man eine optimale Gerade durch die Punktewolke?

Eine Gerade durch die Punktewolke ist gegeben durch die Formel Y=a+b \cdot X. Dabei bezeichnet a den y-Achsenabschnitt und b die Steigung der Regressionsgeraden. In der Regression heißt a auch Intercept und b Regressionskoeffizient oder slope.

  1. Dabei soll die Regressionsgerade durch den Mittelwert der X-Werte ( \bar{X}) und den Mittelwert der Y-Werte ( \bar{Y}) gelegt werden. Zunächst wird also das arithmetische Mittel der X-Werte und der Y-Werte berechnet

\bar{X}=\frac{1}{n}\cdot\sum_{i=1}^{n}x_i
=\frac{1}{10} \cdot\left(15+3+7,5+12,5+56+34,5+12,8+56,8+25,4+29\right)=25,23

\bar{Y}=\frac{1}{n} \cdot \sum_{i=1}^{n}y_i
=\frac{1}{10} \cdot \left( 16,3+4+14,5+15+58+40+22+65+19+30\right) = 28,38

2. Nun wird die Gerade so durch den Punkt \left(\bar{X},\bar{Y}\right) gelegt, dass die Abweichung der beobachteten Y-Werte zu den Y-Werten der Regressionsgerade insgesamt minimiert wird. Die Differenz der beobachteten y-Werte von den vorhergesagten y-Werten der Regressionsgeraden nennt man Residuen. Residuen können positive oder negative Werte haben, je nachdem ob die Datenpunkte über- oder unterhalb des Mittelwertes liegen. Sehr hohe oder sehr niedrige Residuen sind ein Indiz für eine „ungünstige“ Gerade. Damit extreme Residuen ein hohes Gewicht bekommen, werden die einzelnen Residuen quadriert. Die optimale Regressionsgerade ist die Gerade, bei der die Summe der quadrierten Residuen so klein wie möglich ist.

Dieses Verfahren wird auch Methode der Kleinsten Quadrate (engl. OLS Method: Ordinary least squares method) genannt. Die Quadrate lassen sich auch im Streudiagramm veranschaulichen:

Lineare Regression einfach erklärt: Residuen Quadrate bei optimaler Regressionsgerade
Residuen Quadrate bei optimaler Regressionsgerade

Jede andere Gerade hat eine „größere“ quadrierte Residuensumme.

Lineare Regression einfach erklärt: Residuen Quadrate bei beliebiger Gerade
Residuen Quadrate bei beliebiger Gerade, hier y=34: Die Summe der blauen Flächeninhalte ist deutlich größer als die der optimalen Regressionsgerade in dem Diagramm oben.

Mit dieser Forderung ist die Regressionsgerade eindeutig definiert und der Intercept a und der Regressionskoeffizient b lassen sich berechnen.

Die Formeln für die Berechnung sind in den Lehrbüchern für Statistik zu finden. Im Folgenden werden wir die Berechnung mit statistischer Software beschreiben.

Haargenau: Lineare Regression einfach erklärt mit SPSS

Zunächst gibt man die 10 Messwerte in die Dateneingabe von SPSS ein. Eine Einführung zu dem Programm ist in unserem Glossar zu finden. Anschließend wählt man im Menüpunkt Analysieren – Regression – Linear. Als abhängige Variable übergibt man die Messwerte am Studienende. Als unabhängige Variable wird die Haarlängen zu Beginn der Studie ausgewählt.

Lineare Regression einfach erklärt: Aufruf der linearen Regression in SPSS
Aufruf der linearen Regression in SPSS version 25
Lineare Regression einfach erklärt: Menü der einfachen linearen Regression in SPSS
Menü der einfachen linearen Regression in SPSS mit Festlegung der abhängigen und unabhängigen Variablen

So interpretiert man eine lineare Regression mit SPSS

Bestätigt man die Angaben, erhält man im Ausgabefenster folgende Berechnungen:

Lineare Regression einfach erklärt: Ausgabefenster SPSS der linearen Regression
Ausgabefenster SPSS der linearen Regression

Im Ausgabefenster erscheinen 4 Tabellen:

  • Aufgenommenen/Entfernte Variablen: Hier wird zusammengefasst, welche abhängigen und unabhängigen Variablen in das Modell eingeschlossen werden.
  • Modellzusammenfassung: In dieser Tabelle werden Maßzahlen für die Modellgüte angegeben. R gibt den Pearson Korrelationskoeffizienten an, R-Quadrat den quadrierten Wert. R2 wird auch als Bestimmtheitsmaß bezeichnet. Das Bestimmtheitsmaß gibt an, wie viel der Variabilität der Daten das Modell erklärt wird. Falls R2 den Wert 1 annimmt, liegen alle Punkte exakt auf der Gerade. Je näher der Wert sich 1 annähert, umso „enger“ liegen die Daten um die Gerade. R2 erhöht sich automatisch bei Hinzunahme mehrerer Variablen, ohne dass ein wirklicher Informationsgewinn damit verbunden ist. Aus diesem Grund gibt SPSS ein korrigiertes R2 aus, welches unabhängig von der Anzahl der Einflussvariablen ist. In unserem Beispiel mit nur einer Einflussvariable spielt dies keine Rolle.
  • ANOVA: Bei der Varianzanalyse prüft zunächst ein F-Test, ob das gesamte Modell signifikant ist. Damit kann man entscheiden, ob sich die Vorhersage der Zielvariable durch die unabhängigen Variablen im Modell verbessert. Dazu wird der Gesamtvarianz der Daten aufgeteilt in einen Beitrag, der durch das Modell erklärt wird und eine unerklärte, zufällige Komponente. Das Modell ist umso besser, je mehr Variabilität der Daten durch die Regression erklärt werden kann.

In dem Beispiel ist das Model signifikant mit einem p-Wert <0,001.

  • Koeffizienten: In dieser Tabelle sind die Schätzer für die Regressionsgerade zu finden. Mit Konstante wird der Intercept (a) bezeichnet. Damit ergibt sich im Beispiel folgende Regressionsgerade:
    Y=2,648+1,020 \cdot X

Regressionskoeffizienten sinnvoll interpretieren

Der Intercept gibt die Konstante an, mit der die Haare innerhalb der 70 Tage wachsen. Der Regressionskoeffizient b=1,020 zeigt, wie sich die Haarlänge in Abhängigkeit von der Ausgangslänge verhält. Der Faktor ist positiv, daran erkennt man, dass Personen mit einem langen Ausgangshaar höheres Wachstum im Beobachtungszeitraum zeigen. Wenn die Haarlänge um eine Einheit (cm) steigt, so erhöht sich die Endlänge um den Faktor 1,020. Diesen Effekt sieht man gut, wenn man die Formel für die Vorhersage verwendet: Susis Haare haben eine Länge von 50 cm. In 70 Tagen haben sie eine geschätzte Länge von 2,648+1,020\cdot 50cm=53,648 cm. Die Haare von Susis Freundin sind 10 cm länger, nach 70 Tagen werden die Haare um 10\cdot 1,020 länger geschätzt als die von Susi, wären also 63,848 cm lang.

Der Standardfehler ist eine Maßzahl für die Streuung der Regressionsparameter. Die Spalte standardisierte Parameter ist im univariaten Regressionsmodell mit einer Einflussvariable nicht relevant. Die letzten beiden Spalten der Tabelle beinhalten die Ergebnisse des statistischen Tests. Dabei wird die Nullhypothese mittels eines T-Tests geprüft, ob der Parameter gleich Null und damit unbedeutend ist. Signifikante p-Werte zeigen, dass die Variable einen nachweisbaren Effekt auf die Zielgröße hat. Im Gegensatz zu ANOVA wird hier jeder Koeffizient einzeln untersucht.

Haarspaltereien: Voraussetzungen für lineare Regression einfach erklärt

Zunächst muss der Zusammenhang der Zielvariable und der Einflussvariable linear sein. Gegebenenfalls können Transformationen angewendet werden, um dies zu gewährleisten. Ein Maß für die Linearität zweier Variablen ist der Pearson Korrelationskoeffizient. Im Streudiagramm kann man diesen Zusammenhang untersuchen.

Darüber hinaus müssen die folgenden drei Bedingungen hinsichtlich der Residuen erfüllt sein:

1. Die Residuen sind voneinander unabhängig

Diese Voraussetzung ist meist dadurch erfüllt, dass eine echte Zufallsstichprobe vorliegt, in der alle Beobachtungen voneinander unabhängig sind. Im Zweifelsfall kann auch der Durbin Watson Test herangezogen werden. Im Falle eines signifikanten p-Wertes muss von einer Autokorrelation der Residuen ausgegangen werden. P-Werte >0,05 beweisen allerdings nicht die Unabhängigkeit der Residuen.

2. Die Residuen sind annähernd normalverteilt

Dies kann man am besten in einem Histogramm der Residuen graphisch überprüfen. Das Histogramm sollte symmetrisch um eine Mitte sein und bei größeren Fallzahlen sich an eine Normalverteilung annähern. Bei kleineren Fallzahlen kann man keine perfekte Übereinstimmung erwarten. Auch die Überprüfung der Normalverteilung kann mittels eines Tests vorgenommen werden. Aufgrund der Natur des statistischen Testens kann aber mit dem Kolmogorov Smirnov Test nur eine Abweichung von der Normalverteilung nachgewiesen werden.

Lineare Regression einfach erklärt: Histogramm der Residuen
Histogramm der Residuen

3. Die Streuung der Residuen ist konstant im gesamten Wertebereich von Y (Homoskedastizität)

Trägt man in einem Streudiagramm (Streudiagramm) die Residuen gegen die vorhergesagten Werte auf, so sollen sich keine Muster zeigen. Bei Vorliegen von Homoskedastizität liegen die Punkte gleichmäßig verteilt im gesamten Wertebereich von Y.

Lineare Regression einfach erklärt: Residuenplot für die lineare Regression
Residuenplot: vorhergesagter Wert vs. Residuum, standardisiert

Haarwachstum im n-dimensionalen Raum: Die multiple lineare Regression

Die gleichen Ideen kann man nutzen, um eine Zielvariable durch viele Einflussvariablen zu beschreiben. In diesem Fall spricht man von einer multiplen linearen Regression. Das zugehörige Regressionsmodell hat die Form:

Y=a+b_1\cdot X_1+b_2\cdot X_2+\ldots + b_n \cdot X_n.

Andere Einflussgrößen könnten beispielsweise Geschlecht oder Alter sein. Alle obigen Annahmen des univariaten Modells gelten analog. Mit Matrixalgebra und einem Computer können solch komplexe Problemstellungen effizient bearbeitet werden. Die Berechnungen finden im n-dimensionalen Raum statt. In der graphischen Darstellung ist man auf das 2-dimensionale Blatt beschränkt. Die graphischen Beziehungen müssen deshalb paarweise untersucht werden.

Zusammenfassung: Lineare Regression einfach erklärt

Die Regression setzt eine Zielvariable mit einer oder mehreren unabhängigen Variablen in Beziehung. In der linearen Regression liegt ein linearer Zusammenhang zwischen Zielvariable und Einflussvariablen vor. Mit Hilfe von statistischer Software können anhand vorliegender Daten die Schätzwerte für den Intercept und die Regressionskoeffizienten bestimmt werden. Mit einem t-Test können die Regressionskoeffizienten überprüft werden. Das Bestimmtheitsmaß R2 liefert ein Gütekriterium, wie gut das Modell die Daten beschreibt. Mit Hilfe einer Varianzanalyse (ANOVA) lässt sich testen, ob das Regressionsmodell die Zielgröße vorhersagen kann. Als Voraussetzung für die Berechnungen müssen die Residuen voneinander unabhängig, normalverteilt und homoskedastisch sein.

Bei Modellierung mehrerer Einflussvariablen spricht man von einer multiplen linearen Regression. Das Modell wird dabei in den n-dimensionalen Raum übertragen.

In diesem Artikel haben wir Ihnen einen Überblick über das Thema Regression gegeben und die lineare Regression einfach erklärt. Sollten sie Rückfragen zu speziellen Aspekten der Regression haben, können sie sich jederzeit gerne an uns wenden. Bei Fragen oder Problemen rund um Auswertung, Interpretation und allen anderen statistischen Belangen stehen unsere Experten von Novustat Ihnen gerne zur Seite. Nützen sie dazu gerne unser Kontaktformular.

Weiterführende Quellen:

Lineare Regression mit SPSS version 25

Übersichtsartikel: Multiple lineare Regression