R wurde ausdrücklich für statistische Auswertungen entwickelt und bietet in diesem Bereich mehr Funktionen als andere Programmiersprachen.

Im folgenden finden Sie eine kurze Einführung in die Möglichkeiten mit dem Programm R Statistik-Auswertungen durchzuführen.

Sollten Sie Unterstützung beim Umgang mit der Statistik Software R benötigen, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.

Lassen Sie uns Ihre Anforderungen wissen & wir erstellen Ihnen innerhalb weniger Stunden ein kostenfreies Angebot.

Jetzt unverbindlich anfragen

Zu R

Eine allgemeine Einführung in das R-Programm finden Sie auch auf unserer Glossar Unterseite dazu, die R-Programmierung ist hier beschrieben und die Verwendbarkeit von R für das Data Mining wird hier diskutiert. Im Folgenden erhalten Sie eine Übersicht über die wichtigsten R Statistik-Befehle:

  • R-Befehle zur statistischen Auswertung von Daten
  • R-Funktionen zum Erzeugen von statistischen Daten
  • Graphische Darstellung von R Statistiken

Statistik mit R: Befehle zur statistischen Auswertung von Daten

Wir gehen im Folgenden davon aus, es existiere ein Vektor x, dessen Daten statistisch ausgewertet werden sollen. Vektor x könnte auch eine Spalte einer Matrix sein.

BefehlBedeutung
table(x)Gibt die Häufigkeiten der Werte in Vektor x an
sum(x)Summe über die Elemente des Vektors x
mean(x)Mittelwert der Elemente des Vektors x
median(x)Median der Elemente des Vektors x
max(x)Größter Wert im Vektor x
min(x)Kleinster Wert im Vektor x
var(x)Varianz
sd(x)Standardabweichung
sort(x)Sortiert die Elemente von Vektor x in aufsteigender Reihenfolge
rev(x)    Wie sort(x), aber in absteigender Reihenfolge
order(x, na.last = TRUE, decreasing = FALSE)Ebenfalls eine Sortier-Funktion, bei der man als Argument angeben kann, ob die fehlende (na) Werte zuletzt einsortiert werden sollen und ob die Sortierung aufsteigend oder absteigend erfolgt.
cor(x,y, na.rm = TRUE, method = „pearson“)Berechnet den Korrelationsfaktor nach Pearson zwischen den Daten in Vektor x und Vektor y. Statt „pearson“ (dem Default) sind auch „spearman“ und „kendall“ möglich.
cov(x)Kovarianz: Diese Funktion hat dieselben Argumente wie cor().
lm(formula, data,…)Berechnet eine lineare Regression, z.B. mit formula: y~x1+x2

Auswertungen der Statistik mit R: Funktionen zum Erzeugen von statistischen Daten

Es gibt in R auch Funktionen, mit denen Daten erzeugt werden können, beispielsweise Zufallszahlen nach einer gegebenen statistischen Verteilung:

BefehlBedeutung
sample(x, n) Zieht zufällig n Zahlen aus der Grundgesamtheit in Vektor x.
sample(1:n)Erzeugt Permutationen der Zahlen 1 bis n.
dnorm(x, m=0, sd=1)Erzeugt eine normalverteilte Dichtefunktion mit Mittelwert m und Standardabweichung sd
rnorm(x, m=0, sd=1)Erzeugt normalverteilte Zufallsvariablen mit Mittelwert m und Standardabweichung sd
dpois(x, lamda)Erzeugt eine poisson-verteilte Dichtefunktion mit Mittelwert = Standardabweichung = lamda
rpois(x, lamda)Erzeugt poisson-verteilte Zufallszahlen
rbinom(n, size, prob)Erzeugt n binomialverteilte Zufallszahlen mit Stichprobengröße size und prob = Wahrscheinlichkeit der Köpfe, z.B. bei einer Münze sollte prob = 0.5 sein.
runif(n, min=0, max=1)Erzeugt Zufallszahlen mit gleichmäßiger (uniformer) Wahrscheinlichkeitsverteilung zwischen min und max

Schreibt man statt d oder r den Buchstaben d (für Dichte), p (für kumulative Verteilung) und q (für Quantile), so erhält man jeweils die entsprechenden Daten.
Mit set.seed(zahl) vor einer Zufallszahlen-Funktion kann man wiederholbare Zufallszahlen erzeugen. Das heißt, beim nächsten Aufruf der Funktion entstehen mit derselben seed-Zahl genau dieselben Zufallszahlen. Manchmal ist dies erwünscht.

Graphische Darstellung einer R Statistik

Die beiden R-Standardfunktionen für die graphische Anzeige sind plot(data, type) und text(150, 600, „Beispieltext“). Text setzt den gegebenen Text an einen Ort mit den Koordinaten 150 und 600. Die Eingabe für plot() sind die Daten als Data Frame, wobei die Werte, die auf der x- und y-Achse angezeigt werden sollen, als separate Argumente eingegeben werden, jeweils als Vektor, der aus Zahlen besteht. Das Argument type kann sein: type= „p“(Punkte), „l“ (Linien), „b“(beides) oder „h“(Histogramm). Farben können angegeben werden mit dem Argument col=“red“.

Nehmen wir an, zwei Variablen x und y hängen ungefähr linear zusammen, beispielsweise das Alter (x) und die Körpergröße (y) von Kindern. Es liegen zwei Vektoren x und y vor, die eine Liste von entsprechenden Daten enthalten.

Nun wird beispielsweise eine lineare Regression durchgeführt: reg <- lm(y~x). Die Daten lassen sich so graphisch darstellen:

  • Die Originaldaten zeichnet man als Punkte in ein x-y-Diagramm so ein: plot(y~x).
  • Die Regressionsgerade zeichnet man zusätzlich ein mit abline(reg).

Zusätzliche Grafik-Funktionen bieten die Packages graphics und ggplot2.

Zum Weiterlesen über R Statistik