Das Problem ist durchaus bekannt: Vor einem liegt ein fertiger SPSS-Datensatz und nun stellen sich die Fragen: Wie kann ich mir auf schnellem Weg einen Überblick über die Verteilung der Daten machen? Sind die Daten normalverteilt? – Konkret werden in diesem Beitrag Praxisbeispiele genannt, wie SPSS Hilfe bietet für einen allgemeinen ‚Datencheck‘ mittels explorative Datenanalyse sowie für die Prüfung der Normalverteilung.
Explorative Statistik und Verteilung der Daten
Sofern es sich bei den erhobenen Merkmalen um numerische Werte handelt, deren Abstände berechenbar sind (Alter, Einkommen, Aufenthaltstage, etc.), spricht man von metrischen Daten. Diese Daten bieten die größtmögliche Informationsdichte für eine statistische Auswertung, daher empfiehlt es sich, in jedem Fragebogen metrische Variablen aufzunehmen.
Zur Verteilung metrischer Daten: Wie bietet hier SPSS Hilfe? – Über den Pfad „Analysieren > Deskriptive Statistiken > Explorative Datenanalyse“ gibt SPSS für die ausgewählte metrische Variable zunächst einen Überblick über Lage und Streuung. Die wichtigen Parameter für die hier gewählte Variable ‚Aufenthaltsdauer in Tagen‘ sind: Median, Mittelwert, Konfidenzintervall sowie Spannweite, Standardabweichung und Schiefe. Ein Blick auf die Lagemaße zeigt: der Mittelwert (8,64 Tage) liegt deutlich höher als der Median (7 Tage). Dies lässt auf Ausreißer nach oben schließen, folglich ist der Median für die Beschreibung der zentralen Lage der aussagekräftigere Parameter. Weiters deutet die Standardabweichung mit 3,95 Tagen auf eine breit gestreute Verteilung hin. Die Werte des Konfidenzintervalls, die bekanntlich ein Hochrechnen der (repräsentativen) Stichprobe auf die Grundgesamtheit erlauben, besagen, dass mit 95% Sicherheit die durchschnittliche Aufenthaltsdauer der Gesamtpopulation zwischen 8,28 und 9,01 Tagen liegt.
Prüfung der Normalverteilung
Die Kernfrage für metrische Daten – auch im Hinblick auf weitere Hypothesentests oder bspw. Korrelationsanalysen – betrifft aber jene der Normalverteilung, also die Frage hinsichtlich einer symmetrischen Verteilung der Daten. Was lässt sich nun anhand der vorliegenden explorativen Statistik über die Verteilungskurve der Variable Aufenthaltsdauer sagen und wie lässt sich diese auf eine mögliche Normalverteilung hin prüfen? – Hier bietet SPSS Hilfe sowohl mit grafischen Darstellungen als auch mit statistischen Tests. Mathematische Testverfahren, die eine signifikante Abweichung von der Normalverteilung untersuchen (z.B. Kolmogorov-Smirnov oder Shapiro-Wilk bei sehr kleinen Stichproben) sind allerdings mit Vorsicht zu genießen, da sie mitunter zu streng messen und folglich zu falschen Schlussfolgerungen führen können. Der Kolmogorov-Smirnov-Normalverteilungstest findet sich bei SPSS unter dem Pfad „Analysieren > Nichtparametrische Tests > Alte Dialogfelder > K-S bei einer Stichprobe“. Hier ist die Normalverteilung als Testverteilung voreingestellt und kann einfach durch die Auswahl der metrischen Variablen geprüft werden.
Eine weitere sehr gute Beurteilung der Normalverteilung bieten zum einen die Berechnung der Schiefe und zum anderen die grafische Darstellung mittels Histogramm bzw. Boxplot.
Schiefe, Histogramm und Boxplot
Die Schiefe gibt an, ob die Verteilung symmetrisch ist oder nicht. Bei perfekt normalverteilten Daten wäre die Schiefe also exakt Null. Anders formuliert: Je weiter die Werte von Null entfernt sind, desto weniger wahrscheinlich handelt es sich um eine Normalverteilung. Ein negativer Wert beschreibt linksschiefe Daten, hier weist der Mittelwert einen kleineren Wert aus als der Wert des Median. Ein positiver Wert dagegen beschreibt rechtsschiefe Daten, d.h. eine linkssteile Verteilung mit einem Mittelwert, der größer ist als der Median. Eben eine solche Verteilung zeigt sich für die Variable Aufenthaltsdauer. Die Schiefe beträgt 0,65 und lässt auf eine rechtsschiefe und nicht symmetrische Verteilung schließen. Folglich deutet dies auf keine Normalverteilung hin.
Untermauert wird diese Annahme durch die grafische Darstellung mittels Histogramm oder – wenn man den Median als Bezugswert heranzieht – mittels Boxplot. Zur Ausgabe klickt man in SPSS entsprechend einfach unter „Analysieren > Deskriptive Statistiken > Explorative Datenanalyse > Diagramme“ und wählt hier Histogramm und Normalverteilungsdiagramm aus. (Zudem empfiehlt es sich, die Voreinstellung „Stengel-Blatt“ abzuwählen.) Das Ergebnis unterstreicht das Gesagte: Sowohl die ausgeführten Signifikanztests auf Normalverteilung als auch die Schiefe und die grafischen Visualisierungen Boxplot und Histogramm bestätigen wechselseitig, dass bei der gewählten Variable ‚Aufenthaltsdauer in Tagen‘ von keiner Normalverteilung auszugehen ist.
Weiterführend Links
[2] https://wirtschaftslexikon.gabler.de/definition/histogramm-33055