Gerne beraten wir Sie auch telefonisch & geben Ihnen eine kostenfreie persönliche Auskunft zu Ihrem Projekt.

X

SPSS Boxplot richtig interpretieren – Was Sie aus Grafiken lernen können

Diese Fragen werden in diesem Artikel beantwortet:

  • Wofür können Sie Boxplots verwenden?
  • Wie erstellen Sie Boxplots in SPSS oder R (mit ggplot)?
  • Wie interpretieren Sie einen Boxplot?
  • Wie verwende Sie Boxplots um mögliche Ausreißer zu identifizieren?

Boxplot SPSS: Einführung

Für eine erfolgreiche SPSS Auswertung sollten Sie immer erst Ihre Daten visualisieren. So erlangen Sie einen ersten Eindruck über die Beschaffenheit Ihrer Daten. Der Boxplot spielt hierbei eine besondere Rolle, weil er in kompakte Form sehr viel über die Verteilung ihrer Daten aussagt.

In diesem Artikel möchten wir uns deswegen etwas näher mit diesem nützlichen Tool beschäftigen.

Warum ein SPSS Boxplot so nützlich ist

Ein Boxplot verrät Ihnen sehr viel Information und erfüllt daher gleich zwei wichtige Funktionen bei der Dateninspektion:

Inspektion der Verteilung

Boxplots zeigen auf einen Blick eine Vielzahl von Kennzahlen an: Ein Boxplot erlaubt die schnelle Identifizierung von Minimum, 1. Quartil, Median, 3. Quartil und Maximum. Diese Kennzahlen sind sehr robust gegenüber Ausreißern und Abweichungen von der Normalverteilung. Boxplots liefern daher schnelle Erkenntnisse zur Verteilung Ihrer Daten unabhängig davon wie diese verteilt sind.

Identifikation von Ausreißern

Boxplots markieren zudem mit Hilfe des Interquartilabstands (IQA) mögliche Ausreißer. Der IQA ist ebenfalls robust gegenüber Ausreißern und Abweichungen von der Normalverteilung. Diese Methode ist daher oft sinnvoller als die Identifikation über Z-Werte.

Boxplot erstellen in SPSS oder in R mit ggplot

Einen SPSS Boxplot erstellen Sie über das Menü „Grafik → Diagrammerstellung“. Weitere Informationen zur Erstellung von Graphen in SPSS finden Sie auch in unserem Glossar.

Diagramme SPSS Boxplot erstellen
Einen SPSS Boxplot erstellen Sie über das Menü Diagrammerstellung

In R lässt sich ein Boxplot mit ggplot erstellen. Kreieren Sie hierfür erst einen Plot mit der darzustellenden Variable auf der y-Achse und der gruppierenden Variable auf der x-Achse:

library(ggplot2)
Plot <- ggplot(meineDaten, aes(x = GESCHLECHT, y = ALTER))
Plot

R-Code in SPSS Boxplot
Ergebnis des obigen R-Codes

Fügen Sie dann die Boxplots mit der geom_boxplot() Funktion hinzu:

Plot <- ggplot(meineDaten, aes(x = GESCHLECHT, y = ALTER)) + geom_boxplot()
Plot

GGPlot R Boxplot erstellen
Mit ggplot erstellter Boxplot

Beachten Sie, dass ggplot stets eine x-Achse benötigt. Wenn Sie einen einfachen Boxplot ohne gruppierende Variable erstellen möchten, kreieren Sie für die x-Achse einfach einen Vektor mit dem Titel der Variable als Zeichenfolge:

Plot <- ggplot(meineDaten, aes(x="Alter", y=ALTER)) + geom_boxplot()
Plot

GGPlot R Boxplot SPSS
ggplot Boxplot ohne gruppierende Variable

Boxplot SPSS: Interpretation

Wie in unserem Statistik-Glossar erläutert, visualisiert ein SPSS Boxplot das 1.Quartil, den Median, das 3. Quartil und potentielle Ausreißer. Im Folgenden wird erläutert wie Sie diese Kennzahlen sinnvoll interpretieren.

Median

Median SPSS Boxplot erstellen
Der Median wird im Boxplot durch eine Linie in der Mitte der Box markiert

Der Median markiert exakt die Mitte ihrer Daten. Das heißt, das 50% ihrer Daten unter diesen Wert liegen und 50% darüber. Bei perfekt normal verteilten Daten ohne Ausreißer ist der Median mit dem arithmetischen Mittelwert identisch. Der Mittelwert ist aber nicht robust gegenüber Ausreißern oder nicht normal verteilten Daten. Hier ist der Median oft eine sinnvollere Kennzahl um die Mitte der Daten zu beschreiben.

Die „Box“: 1. und 3. Quartil

Quartile unterteilen ihre Daten in 4 Abschnitte mit der gleichen Anzahl an Datenpunkten, jeder Abschnitt enthält also 25% Ihrer Daten:

Quartile SPSS Boxplot erstellen
Quartile teilen Ihre Daten in 4 Abschnitt

Unterhalb des 1. Quartils befinden sich also 25% der Daten und oberhalb des 3. Quartils befinden sich ebenfalls 25% der Daten. Die „Box“ im Boxplot stellt den Bereich zwischen dem 1. Und 3. Quartil dar, in diesem Bereich befinden sich also die mittleren 50% ihrer Daten.

Die Antennen: Interquartilbereich * 1,5

Der Abstand zwischen dem 1. Und 3. Quartil, also die Länge der Box, wird als Interquartilabstand (IQA) bezeichnet.

IQA SPSS Boxplot erstellen
Der IQA ist die Distanz zwischen Q1 und Q3

Für die Antennen wird der Interquartilabstand mit 1,5 multipliziert. Diese Länge (IQA * 1,5) wird dann an die Box als „Antenne“ angehängt. Sollten die Daten schon vorher ihr Minimum bzw. Maximum erreicht haben, wird die Antenne nur bis zu diesem Punkt gezeichnet. Gibt es aber Daten hinter der Antenne werden diese als einzelne Punkte dargestellt. Diese Datenpunkte stellen potenzielle Ausreißer dar.

Antennen Boxplot in SPSS erstellen
Antennen im SPSS Boxplot

Wie oben erwähnt stellt die Box die mittleren 50% Ihrer Daten dar. Antennen und potentielle Ausreißer stellen damit die äußeren 50% dar.
Anhand der Antennen können Sie also bereits sehen wie sehr die Daten um den Median streuen: Sind die Antennen sehr kurz, liegen die äußeren 50% nicht zu weit von dem 1. Und 3. Quartil. Gibt es hingegen viele einzelne Datenpunkte außerhalb der Antennen liegt eine starke Streuung weit außerhalb des Medians vor.

Boxplot SPSS – Extreme Datenpunkte

Werte die außerhalb der Antennen liegen stellen extreme Werte dar und sind mögliche Ausreißer. Hierbei wird unterschieden zwischen milden und extremen Ausreißern. Milde Ausreißer haben einen Abstand zu den 1. Oder 3. Quartil von 1,5 * IQA bis 3,0 * IQA. In einem SPSS Boxplot werden diese Werte mit einzelnen Punkten gekennzeichnet. Extreme Ausreißer haben einen Abstand von mehr 3,0*IQA. In SPSS werden diese durch einen Stern gekennzeichnet.

Ausreißer Boxplot in SPSS erstellen
Ausreißer im SPSS Boxplot

Mit möglichen Ausreißern umgehen

Ein Boxplot kann Ihnen also helfen mögliche Ausreißer in den Daten auszumachen. Solche potenziellen Ausreißer sollten Sie dann in jedem Fall näher inspizieren. Möglicherweise handelt es sich dabei um fehlerhafte Daten entstanden durch Messfehler, Versagen von Messinstrumenten oder ähnliches. In solchen Fällen sollten die Ausreißer von der weiteren Analyse ausgeschlossen werden. Das Vorgehen für Ausreißer die nicht durch Messfehler entstanden sind hängt dagegen stark von der Art der Daten, dem Ziel der Untersuchung und der geplanten Analyse ab. Häufig kann es empfehlenswert sein dieselbe Analyse einmal mit und einmal ohne Ausreißer durchzuführen und beide Analysen zu dokumentieren. So stellen Sie fest, ob Ausreißer die Schlussfolgerungen übermäßig beeinflussen.

Boxplot SPSS: Zusammenfassung

In diesem Artikel haben Sie Boxplot als Visualisierung näher kennen gelernt. Der Boxplot ist ein hervorragendes Mittel um einen ersten Eindruck über die Beschaffenheit der Daten zu bekommen. Weiterhin können mit dem Boxplot mögliche Ausreißer schnell und komfortabel identifiziert werden.

Der Boxplot ist dabei natürlich nur eines von vielen möglichen Methoden um Ihre Daten zu visualisieren. Wenn Sie eine weitergehende Beratung zum Thema Visualisierung oder auch zum Umgang mit Ausreißern wünschen kontaktieren Sie doch einfach die Statistiker von Novustat für kompetente Hilfe.

Weiterführende Links:

[1] https://ggplot2.tidyverse.org/reference/geom_boxplot.html

[2] IBM SPSS Beispiel Anleitung für Boxplot

[3] http://mathworld.wolfram.com/Box-and-WhiskerPlot.html