R ist neben SPSS eines der bekanntesten Statistikprogramme, die Sie bei der Auswertung und grafischen Aufarbeitung Ihrer Daten unterstützen. Es ist kostenlos, reicht aber in seiner Funktionalität auch an teure Werkzeuge heran. R wurde ausdrücklich für statistische Auswertungen entwickelt und bietet in diesem Bereich mehr Funktionen als andere Programmiersprachen.
In diesem Artikel werden folgende Fragen beantwortet:
- Was genau ist R?
- Was kann ich mit dem R-Statistikprogramm machen?
- Was sind die Vorteile von R?
- Wie kann ich die Bedienung von R erlernen?
- Wo finde ich weitere Informationen zum R-Statistikprogramm?
Sollten Sie Unterstützung bei der Auswertung Ihrer Daten mit R benötigen, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.
Was genau ist R?
R ist ein kostenloses Open Source Statistikprogramm, das auch mit großen Datenmengen umgehen kann. Ursprünglich war es ein Produkt der Bell Laboratories, aber inzwischen wurde es zum GNU-Projekt. Das heißt, sein Programmcode ist öffentlich und jeder kann das Programm weiterentwickeln. Dank der Arbeit vieler Freiwilliger gibt es zu R zusätzlich noch eine große Zahl an Packages mit diversen Statistikfunktionen, so dass alle statischen Auswertungen damit durchgeführt werden können. R weist große Ähnlichkeiten mit dem ihm verwandten kommerziellen Statistikprogramm S auf.
Wie kann ich mir R besorgen?
Das Programm R können Sie kostenlos herunterladen unter https://cran.r-project.org/. R gibt es für die Betriebssysteme UNIX, Linux, Windows und Macintosh. Erweiterungs-Pakete (Packages) für R finden Sie ebenfalls im Comprehensive R Archive Network (CRAN).
Was kann ich mit dem R-Statistikprogramm machen?
R führt statistische Auswertungen durch, und zwar für alle bekannten statistischen Verfahren. R erlaubt sowohl schnelle Auswertungen auf der Kommandozeile als auch das Erstellen, Speichern und Ausführen umfangreicher Skripte in einem Editor. Es sind auch grafische Benutzeroberflächen wie beispielsweise RStudio verfügbar.
R ist nicht nur der Name einer Software, sondern auch der Name einer statistikorientierten Programmiersprache. Sie können damit umfangreiche und objektorientierte Auswertungsprogramme schreiben, abspeichern und immer wieder neu ausführen lassen. Diese Auswertungsprogramme stellen somit ein nachvollziehbares Auswertungsprotokoll für Ihre Untersuchung dar.
Mit R können Sie Daten aus Dateien einlesen und in Dateien schreiben. Damit ist auch der Datenaustausch mit anderen Personen oder anderen Statistik-Programmen einfach möglich. R unterstützt alle Arten von statistischen Auswertungen. Sie können auch vielfältige grafische Darstellungen der Daten und deren Auswertungen erstellen.
R kann auch große Datenmengen effizient verarbeiten, eignet sich also auch für Big Data Analysen.
Was sind die Vorteile von R?
Das Statistikprogramm R hat einige Stärken:
- Kostenlos
- Es ist weit verbreitet und dadurch findet man zahlreiche Handbücher, Kurse, Internet-Foren und Ansprechpartner für Fragen.
- Alle gängigen Betriebssysteme werden unterstützt.
- Riesiger Funktionsumfang im Bereich der statistischen Auswertungen
- Einfach erweiterbar durch R Packages (mehr als 15.000 Pakete verfügbar)
- Weiterentwicklung: R wird durch eine weltweite Gemeinschaft ständig weiterentwickelt.
- Dadurch ist es auch zukunftssicher, das heißt, auch in ein paar Jahren können Sie Ihre Auswertungen wiederholen.
- Leicht automatisierbar und integrierbar mit anderen Technologien
Wie kann ich die Bedienung von R erlernen?
Die Bedienung von R können Sie sich mit Hilfe von Handbüchern (siehe unten) selbst beibringen. Außerdem gibt es zahlreiche MOOCs (also Online-Vorlesungen) für die Einführung in R-Programmierung und zu weiterführenden Themen wie z.B. die Statistik- und Grafikfunktionen in R. Die R-Kurse auf https://www.udemy.com und www.coursera.com sind in Englisch.
Für fortgeschrittene Benutzer gibt es Austausch und Informationen auf der jährlichen Konferenz der R-Benutzer „useR!“.
Eine allgemeine Einführung in die R-Programmierung ist hier beschrieben und die Verwendbarkeit von R für das Data Mining wird hier diskutiert. Im Folgenden erhalten Sie eine Übersicht über die wichtigsten R Statistik-Befehle:
- R-Befehle zur statistischen Auswertung von Daten
- R-Funktionen zum Erzeugen von statistischen Daten
- Graphische Darstellung von R Statistiken
Statistik mit R: Befehle zur statistischen Auswertung von Daten
Wir gehen im Folgenden davon aus, es existiere ein Vektor x, dessen Daten statistisch ausgewertet werden sollen. Vektor x könnte auch eine Spalte einer Matrix sein.
Befehl | Bedeutung |
table(x) | Gibt die Häufigkeiten der Werte in Vektor x an |
sum(x) | Summe über die Elemente des Vektors x |
mean(x) | Mittelwert der Elemente des Vektors x |
median(x) | Median der Elemente des Vektors x |
max(x) | Größter Wert im Vektor x |
min(x) | Kleinster Wert im Vektor x |
var(x) | Varianz |
sd(x) | Standardabweichung |
sort(x) | Sortiert die Elemente von Vektor x in aufsteigender Reihenfolge |
rev(x) | Wie sort(x), aber in absteigender Reihenfolge |
order(x, na.last = TRUE, decreasing = FALSE) | Ebenfalls eine Sortier-Funktion, bei der man als Argument angeben kann, ob die fehlende (na) Werte zuletzt einsortiert werden sollen und ob die Sortierung aufsteigend oder absteigend erfolgt. |
cor(x,y, na.rm = TRUE, method = “pearson”) | Berechnet den Korrelationsfaktor nach Pearson zwischen den Daten in Vektor x und Vektor y. Statt „pearson“ (dem Default) sind auch „spearman“ und „kendall“ möglich. |
cov(x) | Kovarianz: Diese Funktion hat dieselben Argumente wie cor(). |
lm(formula, data,…) | Berechnet eine lineare Regression, z.B. mit formula: y~x1+x2 |
Auswertungen der Statistik mit R: Funktionen zum Erzeugen von statistischen Daten
Es gibt in R auch Funktionen, mit denen Daten erzeugt werden können, beispielsweise Zufallszahlen nach einer gegebenen statistischen Verteilung:
Befehl | Bedeutung |
sample(x, n) | Zieht zufällig n Zahlen aus der Grundgesamtheit in Vektor x. |
sample(1:n) | Erzeugt Permutationen der Zahlen 1 bis n. |
dnorm(x, m=0, sd=1) | Erzeugt eine normalverteilte Dichtefunktion mit Mittelwert m und Standardabweichung sd |
rnorm(x, m=0, sd=1) | Erzeugt normalverteilte Zufallsvariablen mit Mittelwert m und Standardabweichung sd |
dpois(x, lamda) | Erzeugt eine poisson-verteilte Dichtefunktion mit Mittelwert = Standardabweichung = lamda |
rpois(x, lamda) | Erzeugt poisson-verteilte Zufallszahlen |
rbinom(n, size, prob) | Erzeugt n binomialverteilte Zufallszahlen mit Stichprobengröße size und prob = Wahrscheinlichkeit der Köpfe, z.B. bei einer Münze sollte prob = 0.5 sein. |
runif(n, min=0, max=1) | Erzeugt Zufallszahlen mit gleichmäßiger (uniformer) Wahrscheinlichkeitsverteilung zwischen min und max |
Schreibt man statt d oder r den Buchstaben d (für Dichte), p (für kumulative Verteilung) und q (für Quantile), so erhält man jeweils die entsprechenden Daten.
Mit set.seed(zahl) vor einer Zufallszahlen-Funktion kann man wiederholbare Zufallszahlen erzeugen. Das heißt, beim nächsten Aufruf der Funktion entstehen mit derselben seed-Zahl genau dieselben Zufallszahlen. Manchmal ist dies erwünscht.
Graphische Darstellung einer R Statistik
Die beiden R-Standardfunktionen für die graphische Anzeige sind plot(data, type) und text(150, 600, “Beispieltext”). Text setzt den gegebenen Text an einen Ort mit den Koordinaten 150 und 600. Die Eingabe für plot() sind die Daten als Data Frame, wobei die Werte, die auf der x- und y-Achse angezeigt werden sollen, als separate Argumente eingegeben werden, jeweils als Vektor, der aus Zahlen besteht. Das Argument type kann sein: type= „p“(Punkte), „l“ (Linien), „b“(beides) oder „h“(Histogramm). Farben können angegeben werden mit dem Argument col=”red”.
Nehmen wir an, zwei Variablen x und y hängen ungefähr linear zusammen, beispielsweise das Alter (x) und die Körpergröße (y) von Kindern. Es liegen zwei Vektoren x und y vor, die eine Liste von entsprechenden Daten enthalten.
Nun wird beispielsweise eine lineare Regression durchgeführt: reg <- lm(y~x). Die Daten lassen sich so graphisch darstellen:
- Die Originaldaten zeichnet man als Punkte in ein x-y-Diagramm so ein: plot(y~x).
- Die Regressionsgerade zeichnet man zusätzlich ein mit abline(reg).
Zusätzliche Grafik-Funktionen bieten die Packages graphics und ggplot2.
Wo finde ich weitere Informationen zum R-Statistikprogramm?
Projekt-Webseite mit Geschichte von R und FAQ
Kostenloser Download von R
Kostenloser Download von RStudio, der Grafikoberfläche
R-Handbücher in Englisch
Deutsches R-Forum
International R User Conference useR!
Handbuch „GNU R“ in Deutsch
Statistik-Funktionen in R