Die einzelnen Schritte einer Datenanalyse verlangen jeweils unterschiedliche statistische Verfahren. In diesem Artikel werden Ihnen die gängigsten statistischen Verfahren erklärt.
Sollten Sie Unterstützung bei der Durchführung statistischer Verfahren benötigen, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Konsultation & ein unverbindliches Angebot – oder rufen Sie uns an.
Statistische Verfahren in der deskriptiven Statistik
Die deskriptive Statistik verschafft Ihnen und Ihren Lesern einen ersten Überblick über die vorhandenen Daten. Selbst wenn anspruchsvollere Untersuchungen der Kern Ihrer Fragestellung sind, muss immer eine deskriptive Analyse durchgeführt werden, wobei die ersten beiden statistischen Verfahren in der folgenden Auflistung auf jeden Fall durchgeführt werden müssen. Die darauf folgenden Verfahren sind optional und abhängig von der jeweils vorliegenden Datensammlung und der vorherrschenden Zielsetzung.
- Lageparameter: In welchem Bereich liegen die Daten? Wo liegt ihr Mittelwert, der Modalwert (der häufigste Wert), der Median, der höchste und niedrigste Wert? Welcher Wert tritt wie häufig auf (Häufigkeitstabelle oder Kreuztabelle)? Auch Rangfolgen oder Quartile können interessant sein.
- Streuungsparameter: Varianz, Standardabweichung und Varianzkoeffizient messen die Breite einer Verteilung.
- Symmetrie oder Schiefe der Verteilung: Diese misst, ob eine Verteilung symmetrisch ist, rechts- oder linksschief.
- Univariate Statistiken: Weitere Statistiken, die sich nur für auf eine einzelne Variable beziehen.
- Clusteranalyse: Auch das Identifizieren von Datenclustern ist ein erster Schritt zum Verständnis der Daten und zur Vorbereitung weiterer Analysen.
- Berechnen von Glättungskurven: Eine geglättete Kurve ist schöner als die Originaldaten und gibt ein klareres Bild. Ausreißer werden durch die Glättung vorläufig ignoriert.
- graphische Visualisierungen: Hier ist der Phantasie keine Grenzen gesetzt, wenn es darum geht, die Daten anschaulich darzustellen. Die verbreitetsten Visualisierungen sind Säulen- oder Balkendiagramm, Histogramm, Kuchengrafik und Blasendiagramm.
Kriterien für die Wahl statistischer Verfahren
Statistische Verfahren setzen oftmals bestimmte Eigenschaften der Daten voraus, z.B. einen Datentyp, eine Gaußverteilung (Normalverteilung) oder eine identische Varianz zweier Stichproben. Wird die Voraussetzungsprüfung vernachlässigt, kommt die Gültigkeit der Ergebnisse zu Schaden. Solche ungültigen Ergebnisse werden selbst durch Signifikanzanalysen nicht unbedingt aufgedeckt. Statistische Verfahren sollten daher mit einer besonders hohen Sorgfalt ausgewählt werden. So sind z.B. folgende Schritte ratsam:
- Prüfen des vorliegenden Datentyps: ob Nominal- oder Ordinalskala, ob Intervall-, Verhältnis- oder Absolutskala
- Prüfen auf Normalverteilung, z.B. nach Shapiro-Wilk, Kolmogorov-Smirnov Test, Lilliefors-Test, Anderson-Darling-Test oder Cramér-von-Mises-Test je nach Voraussetzung
- Vergleich der Varianzen zweier Datensätze, z.B. mit dem F-Test
Anwendung statistischer Verfahren
Das Ziel statistischer Verfahren besteht in der Beantwortung der vorab definierten Forschungsfragen und stellt somit den Kern der wissenschaftlichen Arbeit, bzw. des statistischen Projektes, dar. In jedem Fall sollte die Analyse der Daten, vollkommen unabhängig von der vorliegenden Datenart und -menge, erst nach einer Prüfung der Voraussetzungen für das gewählte statistische Verfahren durchgeführt werden.
Im Folgenden geben wir einen Überblick über repräsentative Verfahren:
- Hypothesentests, z.B. mittels Gaußtest. Damit wir geprüft, ob eine Nullhypothese wahr oder falsch ist.
- Prüfung, ob die Daten zweier Stichproben zur selben Grundgesamtheit gehören (können), z.B. mit dem Wilcoxon-Mann-Whitney-Test (auch U-Test genannt).
- Vergleich des Erwartungswertes zweier Stichproben mit gleicher Varianz mittels T-Test (Student-Test)
- Berechnen von Zusammenhangsmaßen bzw. Korrelationen:
-Für zwei nominalskalierte Variablen (also für Kreuztabellen) mit dem Phi-Koeffizient, Chi-Quadrat, mit dem Cramers V Verfahren oder mit dem Fisher-Test
-Für zwei ordinalskalierte Variablen nach Spearmans Rho oder Tau b
-Für zwei intervallskalierte Variablen mit dem Pearsonschen Korrelationskoeffizient
-Für eine intervallskalierte und eine norminal- oder ordinalskalierte Variable mit eta. - ANOVA-Varianzanalysen mit einem oder zwei Faktoren.
- Kovarianzanalysen
- Lineare und nichtlineare Regressionsanalyse nach verschiedenen Verfahren
- Faktorenanalysen
- Survival-Modelle, z.B. nach Kaplan-Maier, Cox oder Weibull
- Schnelle Fouriertransformation zur Analyse von Zyklen
- Zeitreihen- und Trendanalysen
- weitere multivariate Auswahl, z.B. Clusteranalyse und Diskriminanzanalyse
Statistische Verfahren der Signifikanzanalyse
Die im Rahmen der statistischen Auswertung gefundenen Unterschiede, Korrelationen und Trends können mehr oder weniger signifikant sein. Schlimmstenfalls sind sie nur zufällig entstanden, z.B. bei einer ohnehin weiter Streuung der Werte. Aus diesem Grund muss nach der Betrachtung der Daten gemessen werden, mit wie viel Prozent Sicherheit eine Schlussfolgerung tatsächlich verlässlich ist. Wie aussagekräftig eine Schlussfolgerung im jeweiligen Fall ist, lässt sich ebenfalls statistisch ermitteln.
Methoden für die Signifikanzanalyse sind:
- Berechnen des Signifikanzniveaus α, der Teststärke β oder den p-Wert für einen Hypothesentest
- Signifikanzanalysen für Kreuztabellen, z.B. mit dem Chi-Quadrat-Test, Kruskal-Wallis-Test oder andere, je nach Voraussetzung
- Berechnen des Bestimmheitsmaßes einer Korrelation, d.h. zu wie viel Prozent trägt die Änderung einer Variablen zur Änderung einer anderen Variablen bzw. zu wie viel Prozent kann die Änderung einer Variablen durch die Änderung einer anderen Variablen erklärt werden?
- Ermittlung des Bestimmtheitsmaßes eines Trends
- Fallzahlenschätzung