Multivariate Statistiken sind eine ganze Familie von statistischen Verfahren für die Analyse der Abhängigkeiten zwischen mehr als zwei Variablen.
Diese Fragen werden Ihnen hier beantwortet:
- Was ist eine multivariate Statistik?
- Wofür verwendet man eine multivariate Statistik?
- Welche Methoden der multivariaten Statistik gibt es und wo passt welche am besten?
- Wo findet man weitere Informationen zu multivariater Statistik?
Sollten Sie Unterstützung bei der Erhebung oder Analyse von Daten benötigen, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.
Was ist eine multivariate Statistik?
Die multivariate Statistik untersucht – im Gegensatz zu uni– und bivariaten Verfahren – Zusammenhänge zwischen mehr als zwei Variablen, also zwischen drei und mehr. Dabei unterscheidet man zwischen Dependenz- und Interdependenzanalysen, je nachdem, ob der Einfluss von unabhängigen Variablen auf abhängige Variablen untersucht werden soll oder der gegenseitige Einfluss zwischen gleichrangigen Variablen in beide Richtungen.
Bei einem Laborexperiment sind dabei die unabhängigen Variablen diejenigen, die vom Experimentator eingestellt werden, und die abhängigen diejenigen, deren Wert gemessen wird. Bei Daten, die „aus dem Feld“, also der Realität, stammen, ist der Unterschied nicht immer so klar, sondern wird für die Analyse definiert. Stellt man beispielsweise fest, dass Menschen, die mehr Stunden vor dem Fernseher verbringen, öfter depressiv sind, kann man auch umgekehrt untersuchen, ob Depressive mehr fern sehen.
Wofür verwendet man eine multivariate Statistik?
Multivariate Statistiken sind dann unabdingbar, wenn ein Phänomen mehr als eine wichtige Ursache hat. Untersucht man beispielsweise im Labor getrennt die Einflüsse von Wassermenge, Temperatur und Sonnenscheindauer auf das Wachstum von Pflanzen, dann genügt eine normale Korrelationsanalyse. Beobachtet man jedoch das Pflanzenwachstum im Freien, dann lassen sich die drei Variablen Wassermenge, Temperatur und Sonnenscheindauer nicht einstellen, sondern ihr Einfluss muss gemeinsam betrachtet werden. Und auch im Labor möchte man oft mehr als nur eine einzige Variable variieren.
Während der statistischen Auswertung will man die Einflüsse einzelner Variablen auf die abhängige Variable „herausrechnen“ und auch die Stärke des jeweiligen Einflusses quantifizieren. Insbesondere für Big Data sind multivariate Analysen wichtig.
Man verwendet die Methoden der multivariaten Statistik zu zwei verschiedenen Zwecken:
- Explorativ: Bei der explorativen Analyse verwendet man multivariate Analysemethoden, um mit Hilfe statistischer Verfahren die Struktur und Muster innerhalb einer großen Datenmenge zu finden. Diese bilden dann die Grundlage für weitere Auswertungen, beispielsweise für das Bilden von Hypothesen, die dann wiederum geprüft werden.
- Konfirmatorisch: Bei der konfirmatorischen Analyse werden zuvor gebildete Hypothesen getestet. Diese Hypothesen wurden nicht notwendigerweise durch eine explorative multivariate Statistik hergeleitet, sondern können auch durch Modelle oder Vermutungen entstehen.
Welche Methoden der multivariaten Statistik gibt es und wo passt welche am besten?
Für die explorative und die konfirmatorische Analyse gibt es jeweils verschiedene Methoden:
Explorativ verwendet man diese Verfahren:
- Faktorenanalyse: Bei der Faktorenanalyse werden die unabhängigen Variablen zu wenigen, besonders einflussreichen Variablen (Faktoren) verdichtet. Diese Methode wird für kardinalskalierte (metrische) Daten verwendet.
- Korrespondenzanalyse: Die Korrespondenzanalyse ist eine Faktorenanalyse für kategoriale Daten. Sie analysiert die Inhalte von Kontingenztabellen (Kreuztabellen), z.B. durch grafische Darstellung oder durch die Berechnung des Chi-Quadrat-Wertes, der misst, ob die Daten zufällig verteilt sind oder von den Kategorien abhängen. Eine Kreuztabelle ist eine Matrix, in der die Felder jeweils Daten für eine Kombination aus nominal- oder ordinalskalierten Variablen stehen.
- Clusteranalyse: Die Clusteranalyse gruppiert die Daten zu möglichst homogenen Gruppen (Clustern), die sich möglichst stark von den anderen Clustern unterscheiden. Die Ähnlichkeit zwischen Datensätzen wird dabei durch Ähnlichkeits- und Distanzmaße quantifiziert.
- Multidimensionale Skalierung (MDS, auch: Ähnlichkeitsstrukturanalyse): Hierbei stellt man die Ähnlichkeit und Unähnlichkeit von Datensätzen grafisch dar: Je näher zwei Punkte in der Grafik beieinander liegen, umso ähnlicher sind die Daten, und je weiter sie auseinander liegen, umso unähnlicher.
Konfirmatorisch verwendet man die folgenden Verfahren, v.a. abhängig vom Skalenniveau der Variablen:
- Regressionsanalyse: Die Regressionsanalyse berechnet für kardinalskalierte (metrische) Variablen eine Näherungsfunktion, deren Parameter so gewählt werden, dass sie möglichst nahe an den Datenpunkten liegt. Meist wird der quadrierte Abstand zwischen den Datenpunkten und der Regressionsfunktion minimiert. Bei der linearen Regression geht man von einer linearen Abhängigkeit der Variablen aus und sucht nach einer Geraden. Aber auch jede andere Kurvenform ist möglich. Für den Einsatz der Regressionsanalyse muss schon eine Vermutung über die beste Kurvenform vorliegen oder es werden mehrere Kurven ausprobiert. Die Stärke des Zusammenhangs misst man beispielsweise durch das Bestimmheitsmaß, das wiederum quantifiziert, zu welchem Anteil die Veränderung der abhängigen Variablen durch die Veränderung der unabhängigen Variablen erklärt werden kann.
- Konfirmatorische Faktorenanalyse: Die konfirmatorische Faktorenanalyse bestätigt die Zusammenfassung von unabhängigen Variablen zu Faktoren für kardinalskalierte Variablen.
- Varianzanalyse: Die abhängigen Variablen müssen hier kardinalskaliert sein, die unabhängigen Variablen (Faktoren) jedoch nominal- oder ordinalskaliert (also kategorial) oder sie werden durch Klassenbildung auf eine solche Skala umgerechnet. Die Faktorenanalyse untersucht, ob und wie stark die Faktoren einzeln oder kombiniert die abhängigen Variablen beeinflussen. Dazu werden die internen und externen Varianzen berechnet, d.h. die Varianz der Daten innerhalb einer Klasse und die Varianz der Klassendurchschnitte vom Gesamtdurchschnitt.
- Diskriminanzanalyse: Hierbei handelt es sich um eine Gruppe statistischer Verfahren mit dem Ziel, mittels einer Diskriminanzfunktion zu quantifizieren, wie und wie stark sich Gruppen (Cluster) voneinander unterscheiden. Diese Methoden verwendet man, wenn die unabhängigen Variablen metrisch sind und die abhängigen kategorial. Beispielsweise trennt man im Kreditgeschäft die Kreditnehmer, die ihren Kredit zurück bezahlt haben, und diejenigen, die das nicht getan haben. Dann berechnet man, durch welche Faktoren diese zwei Gruppen sich unterscheiden und gut jeder dieser Faktoren dazu geeignet ist, um zwischen kreditwürdigen und nicht kreditwürdigen Personen zu unterscheiden (Trennungsqualität). Diese Trennungsqualität wird beispielsweise durch den Abstand der Mittelwerte beider Gruppen quantifiziert.
- Kontingenzanalyse: Die Kontingenzanalyse berechnet den Zusammenhang zwischen Variablen, die entweder qualitative Merkmale mit mindestens zwei Ausprägungen sind oder quantitative Variablen mit Klassenbildung (Nominal- oder Ordinalskala), z.B. der Zusammenhang zwischen Pflanzenart und Größe. Zur Quantifizierung der Kontingenz können Kontingenzkoeffizienten ermittelt werden.
Übersicht: Konfirmatorische Methoden je nach Skalenniveau der Variablen
Unabhängige Variable | ||
metrisch | kategorial | |
Abhängige Variable metrisch | Regressionsanalyse | Varianzanalyse |
kategorial | Diskriminanzanalyse | Kontingenzanalyse |
Alle diese Verfahren sind wegen ihrer Mehrdimensionalität zu aufwändig, um sie ohne Werkzeugunterstützung durchzuführen.
Häufig gestellte Fragen
Wo findet man weitere Informationen zu multivariater Statistik?
• Eine Formelsammlung multivariater statistischer Verfahren
• Buchkapitel zum Thema „Multivariate Verfahren“
• Ausführliche englische Beschreibung verschiedener Verfahren
• Hartung, J., Elpelt, B. (2006): Multivariate Statistik. München: Oldenburg. 7. Unveränderte Auflage
• Backhaus, K., Erichson, B., Plinke, W., Weiber, R. (2005): Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. Berlin: Springer