Gerne beraten wir Sie auch telefonisch & geben Ihnen eine kostenfreie persönliche Auskunft zu Ihrem Projekt.

X

Datenbereinigung SPSS: Wie Sie richtig mit Extremwerten, Ausreißern und ‚falschen‘ Daten umgehen

In diesem Artikel möchten wir Ihnen die Datenbereinigung SPSS und in diesem Zusammenhang auch den Umgang mit Extremwerten, Ausreißern und ‚falschen‘ Daten näher bringen. Diese Themen sind essentiell für jeden, der mit Daten arbeitet und aus seiner SPSS Auswertung valide Ergebnisse erhalten möchte. Wir haben eine Menge von statistischen Daten vor uns, die wir analysieren möchten und stehen damit unweigerlich vor der Frage: Wie bereinigen wir die Daten und wie erkennen wir Extremwerte? Was also tun im Umgang mit Extremwerten und Ausreißern? – Eine wichtige Bedeutung hat hier die Datenbereinigung, SPSS bietet dazu einige Möglichkeiten. Zugleich gilt für Extremwerte bzw. Ausreißer Statistik bietet hier keine Patentlösung auf Knopfdruck. Der Beitrag zeigt einige Lösungsansätze auf, die helfen können, Extremwerte und ‚falsche‘ Daten aufzuspüren und zu beseitigen.

Fehler- und Datenbereinigung SPSS

Grundsätzlich können sich Fehler bzw. fehlerhafte Daten im gesamten empirischen Forschungsprozess einschleichen, also sowohl im Rahmen der Datenerhebung als auch bei der Dateneingabe und der Datenaufbereitung. Die Beispiele reichen von falschem Ankreuzen oder fehlerhaften Angaben durch die Probanden über Tippfehler bis hin zu (Um)Codierungsfehler bei der Aufbereitung der Daten.

Fehler können in SPSS sowohl systembedingt als auch nutzerbedingt auftreten. Systembedingte Missings beispielweise sind die Folge von bedingten Skalierungen im Zuge einer Filterführung, deren Datenbereinigung SPSS automatisch durch einen Punkt anzeigt. Userseitig sind Fehler zum einen die Folge eines bewussten Definierens von Missing-Values. Typischerweise werden hier Zahlenwerte gewählt, die im Datensatz nicht vorkommen, beispielsweise 101, -1 oder -99.

Datenbereinigung SPSS: Menübefehl zur Definition von Missing Values
Abbildung: Definieren von Missing-Values (Screenshot SPSS)

Zum anderen sind falsche Daten auf Nutzerseite die Folge von (unbeabsichtigten) Tippfehlern bei der Eingabe. Solche fehlerhaften Werte gilt es idealerweise zu korrigieren, sofern die Möglichkeit zur Einsicht in die Originalfragebögen (mittels eindeutiger Identifikationsnummer) besteht. Ist ein falscher Wert offensichtlich erkennbar, jedoch nicht belegbar, so bleiben zwei weitere Optionen: entweder den Wert oder das Merkmal im Datensatz zu löschen und durch ein Missing-Value zu ersetzen oder gegebenenfalls den gesamten Fall zu entfernen. Das bedeutet natürlich zwingend eine Datenreduktion der ursprünglichen Rohdatensatzes. Hier gilt es vorab gut zu überlegen, inwieweit eine solche Reduktion des Datensatzes die Aussagekraft der Ergebnisse beeinflusst.

Datenbereinigung SPSS: fehlerhafte Daten und Bereinigung
Abbildung: fehlerhafte Eingaben und Datenbereinigung durch Missing Values

Fehlervermeidung vorab im Fragebogen

Filterfragen sollten schon im Fragebogen klar und einfach gestellt bzw. im Falle eines elektronischen (Online-)Fragebogens korrekt und eindeutig definiert werden. Dies gehört zu der Entwicklung eines gut strukturierten Forschungsplans. Probanden sollten zudem die Möglichkeit zur Antwortenthaltung haben, zB. durch ‚keine Angabe‘ oder ‚weiß nicht‘. Und: Es gilt immer auch auf die Art der Formulierung von Fragen achten, diese kann zu Verzerrungen in den Ergebnissen führen, zu einem sogenannten Bias. Eine Form der systematischen Verzerrung sind suggestive Fragestellungen, die zu sozial erwünschten Ergebnissen führen können. Ein Beispiel: ‚Finden Sie nicht auch, das Statistik langweilig ist?‘

Extremwerte und Ausreißer, Statistik: Was tun?

Eine guter und relativ einfacher Weg, mittels einfacher deskriptiver Statistik Ausreißer und offensichtliche Messfehler zu erkennen, sind Häufigkeitstabellen und Boxplot. Ebenso lassen sich über Minimum und Maximum leicht fehlerhafte Daten und Tippfehler aufspüren. Eine weitere etwas anspruchsvollere Möglichkeit ist es, die Daten auf Normalverteilung zu testen bzw. die Schiefe der Daten zu prüfen. Liegt eine erheblich Schiefe vor, kann dies ein Indiz sein, die Daten nochmals individuell im Detail nach nicht plausiblen Messwerten zu überprüfen und eventuell auszuschließen.

Datenbereinigung SPSS: Datenprüfung durch deskriptive Statistik und Histogramm
Abbildung: Datenprüfung durch deskriptive Statistik bzw. über Histogramm und Normalverteilung (Screenshots SPSS)

Im folgenden Beispiel lassen sich Extremwerte bzw. Ausreißer – SPSS verdeutlicht dies anhand von Boxplots – gut erkennen. Wir verwenden häufig für die Datenbereinigung SPSS, da dies uns eine Vielzahl von Funktionen für die Korrektur bzw. Eliminierung von Ausreißern bietet, und die Ausreißer Statistik zeigt danach, wie die Schiefe der Verteilung deutlich abgenommen hat.

Datenbereinigung SPSS: Vorher und Nachher
Abbildung: Boxplots und Ausreißer SPSS vor und nach Datenbereinigung (Screenshots SPSS)

Ein letzter Punkt, der im Rahmen von Ausreißer Statistik erwähnt werden soll, betrifft Onlineerhebungen und dem damit verbundenen Zeitfaktor beim Ankreuzen. Gemäß der Regel: Wer sich durch die Fragen einfach nur durchklickt, benötigt weniger Zeit. Konkret heißt das: Über die Variable Zeitdauer lassen sich jene Fälle aussortieren, die deutlich unter der mittleren Ausfülldauer des Fragebogens bleiben und damit für die Auswertung nicht valide erscheinen.

Wie die genannten konkreten Beispiele und Empfehlungen gezeigt haben, ist es sinnvoll, Extremwerte und Messwerte allgemein immer auch individuell und kritisch durch den Nutzer zu hinterfragen. Für Ausreißer SPSS einzig und alleine heranzuziehen, ist meist nicht ausreichend.

Zusammenfassend ist hilfreich:

  • Filterfragen eindeutig und korrekt setzen
  • Möglichkeit zur Antwortenthaltung
  • Korrektur falscher Daten
  • Nicht plausible Werte im Datensatz löschen
  • gesamten Fall aus Datensatz entfernen

Weiterführende Links

[1] Uni Osnabrück – SPSS Datenbereinigung

[2] Lück, Landrock (2014): Datenaufbereitung und Datenbereinigung in der quantitativen Sozialforschung

[3] Uni Augsburg – Einführung in SPSS: Datenbereinigung und Datenmanagement