Sie kennen sicher die Frage: Wie stelle ich am besten Zusammenhänge zwischen einer abhängigen und unabhängigen Variablen dar? Solche Zusammenhänge lassen sich mithilfe einer linearen Regression nachweisen. Dabei geht es darum, die Werte einer abhängigen Variable unter Zuhilfenahme von einer oder mehreren unabhängigen Variablen, sogenannte Prädiktoren, zu prognostizieren. Je enger dieser Zusammenhang, desto besser lässt sich die abhängige Variable vorhersagen. Eine einfache und geeignete Möglichkeit ist, eine Regression in R durchzuführen.
Sie haben Fragen zur Nutzung von R Studio oder zur Umsetzung einer Regression in R? Wenden sie sich dafür und für allgemeine Fragen zur Analyse von Regressionen an uns für eine professionelle Beratung.
In diesem Blog-Artikel erläutern wir Ihnen nun anhand einem Beispiel, wie Sie eine lineare Regression in R Studio für eine metrische abhängige Variable erstellen.
Nutzung von R Studio für eine Regression in R
Bei R Studio handelt es sich um eine integrierte Entwicklungsumgebung für die Programmiersprache R, die eine Konsole, einen Syntaxhervorhebungs-Editor für die direkte Code-Ausführung und Tools für das Plotten, Debuggen und die Verwaltung des Arbeitsbereichs umfasst. Mithilfe von R Studio und R Codes lassen sich beispielsweise Regressionsmodelle entwickeln, um Zusammenhänge zwischen diversen Variablen in einem mathematischen Modell abzubilden. Dabei wird zwischen abhängigen und unabhängigen Variablen differenziert. Für die Prognose der abhängigen Variable wird der Zusammenhang zwischen den Prädiktoren und der abhängigen Variable betrachtet. Im folgenden Beispiel zeigen wir, wie das geht.
Wie werden die Variablen zueinander in Beziehung gesetzt?
Wie erwähnt, werden bei einer linearen Regression zwei Variablen durch eine Gleichung zueinander in Beziehung gesetzt. Der Exponent (oder die Potenz) dieser beiden Variablen beträgt 1. Mathematisch betrachtet ist eine lineare Beziehung eine grade Linie (die sich in einem Graphen darstellen lässt). Eine nicht-lineare Beziehung würde eine Kurve bedeuten. Die allgemeine Gleichung für eine lineare Regression lautet :
y = ax + b
y ist hierbei die Antwortvariable und x die Prädiktorvariable; a und b sind Konstanten, auch Koeffizienten genannt.
Eine einfache Regression in R stellt die Prognose des Gewichts einer Person dar, vorausgesetzt, die Größe dieser Person ist bekannt. Zu diesem Zweck stellen wir eine Beziehung zwischen der Größe und dem Gewicht einer Person her. Wir erstellen daher ein Beziehungsmodell mit der lm() -Funktion in R. Diese Funktion generiert das Beziehungsmodell zwischen der Prädiktor- und der Antwortvariable. In weiterer Folge werden die Koeffizienten aus dem Modell ausgewählt und daraus wird die mathematische Gleichung gebildet. Schließlich folgt eine Zusammenfassung (summary) des Beziehungsmodells und daraus identifizieren wir den durchschnittlichen Fehler bei der Prognose. Um nun das Gewicht der unbekannten Personen anhand ihrer Größe mittels R Studio zu ermitteln, wird im R Programm die sogenannte predict()-Funktion eingesetzt.
Die Input-Daten gestalten sich wie folgt:
# Werte der Größe
151, 174, 138, 186, 128, 136, 179, 163, 152, 131
# Werte des Gewichts
63, 81, 56, 91, 47, 57, 76, 72, 62, 48
Detaillierte Antworten auf Fragen zu R Studio oder R Code erhalten Sie kompetent und ausführlich bei Novustat. Kontaktieren Sie uns unverbindlich. Wir beraten Sie gerne bei der Auswahl geeigneter Tools für die Durchführung einer linearen Regression!
Regression in R Studio erstellen
Die zugrundeliegende Syntax für die lm() -Funktion lautet demnach:
lm(formula,data)
Zur Erklärung: formula stellt eine Beziehung zwischen den beiden Variablen x und y dar, während data dem Vektor entspricht, auf den die Formel angewendet wird.
Wird dieser Code ausgeführt, erhalten wir in R Programm folgendes Resultat:
Interpretation des Ergebnisses einer Regression in R
Die Interpretation des Resultats bzw. des Outputs erfolgt in kleinen Schritten. Zunächst sollte die Signifikanz (p-value) einen Wert unter 0,05 aufweisen. 1.164e-06 ist eine alternative Schreibweise für 0,00000001164 und liegt daher deutlich unter 0,05. Im vorgestellten Fall liegt folglich ein signifikantes Resultat vor, d.h. die Größe hat einen signifikanten Einfluss auf das Gewicht. Damit können wir mit der Interpretation der weiteren Resultate beginnen. Liegt der Wert der Signifikanz >0,05, dann leistet die Regression in R keinen signifikanten Beitrag.
Die Güte (sprich: Qualität) der Regression in R wird mithilfe des Bestimmtheitmaßes R-Quadrat (R-squared) abgelesen. Dieser liegt standardmäßig zwischen 0 und 1. Mithilfe des Werts von R-squared wird angegeben, wie viel Prozent der Varianz der abhängigen Variable erklärt werden. Im vorgestellten Beispiel beträgt dieser Wert 0,9548; dies entspricht 95,48 Prozent. Der daneben befindliche angepasste R-squared Wert (adjusted R-squared) ist für eine einfache lineare Regression unbedeutend und nur bei einer multiplen Regression relevant.
Unter Estimate ist der Effekt des Koeffizienten erkennbar. In einer Regression in R steht in der ersten Zeile der (Intercept), die sogenannten Konstante. Die Signifikanz dieser Konstante ist für die weitere Untersuchung nicht relevant. Interessant ist der Wert des Estimate. Um diesen Wert (hier: 0,67461) verändert sich die abhängige Variable, wenn die unabhängige Variable um 1 steigt. Grundsätzlich haben positive Koeffizienten einen positiven Effekt auf die y-Variable und negative Koeffizienten einen negativen.
Wie lautet der R Code für die Prognose?
Die grundlegende Syntax für die predict()-Funktion in einer linearen Regression in R lautet nun:
predict(object, newdata)
object stellt in diesem Kontext die Formel dar, die bereits mit der lm()-Funktion erstellt wurde. newdata ist der Vektor, der den neuen Wert für die Prädiktorvariable beinhaltet. Der Code wird in R Studio erstellt und lautet wie folgt:
Aus den Zeilen oben wird ersichtlich: Nach der Definition des Prädiktor- und des Antwort-Vektors werden diese (x~y) mithilfe der lm()-Funktion zueinander in Beziehung gebracht. Wenn wir diesen R Code ausführen, erhalten wir als Output nachfolgendes Resultat:
Regression in R grafisch dargestellt
Das Ganze lässt sich auch grafisch als Regressionsgerade im Streudiagramm darstellen und der R Code dafür lautet wie folgt:
Nach Ausführung des Codes entsteht als Grafik nachfolgendes Scatterplot, mithilfe dessen wir das Gewicht einer 170 cm große Person prognostizieren können.
Fazit
Die hier vorgestellte Gleichung für eine einfache lineare Regression in R lässt sich auch für andere Nachweise von Beziehungen zwischen zwei Variablen nutzen. Diese Einführung sollte Ihnen einen kurzen Einblick in die Funktionalitäten der Entwicklungsumgebung R Studio im R Programm geben. Novustat berät Sie gerne bei der Erstellung komplexer Regressionsmodelle in R oder anderen statistischen Verfahren, um Beziehungen zwischen zwei oder mehreren Variablen zu erklären und zu interpretieren. Fragen Sie hier gerne unverbindlich über unser Anfrageformular an!
Weiterführende Links
- RStudio, https://www.rstudio.com/
- RStudio Tutorial, https://education.rstudio.com/learn/beginner/
- Tutorials Point. Learn R Programming. https://www.tutorialspoint.com/r/r_linear_regression.htm
- Wickham, H. & Grolemund, G. (2017), R for Data Science, https://r4ds.had.co.nz/