Im Gegensatz zu den (multivariaten) analytisch-prüfenden Verfahren (Varianzanalyse, Regressionsanalyse, Diskriminanzanalyse) handelt es sich bei der Clusteranalyse um ein exploratives, d.h. strukturentdeckendes, Verfahren.
Für eine Kombination beliebig skalierter Merkmale werden Cluster von merkmalsähnlichen Paarungen gebildet, wobei im Vorfeld keine Beziehung der einzelnen Merkmale festgelegt wird. Konkret geht es um eine Gruppierung von Beobachtungen bzw. Typisierung von Fällen, wobei jedes Objekt eindeutig einem Typus zugeordnet wird. Ziel ist eine Zusammenfassung von Fällen zu Clustern, die zueinander möglichst homogen sind und sich gleichzeitig von anderen Fallclustern unterscheiden.
Im folgenden Artikel wird zunächst das mathematische Konzept vorgestellt, bevor die implementierten Verfahren anhand von Beispielen dargestellt werden.
Sollten Sie Unterstützung bei Ihrer Analyse mit SPSS benötigen, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.
Die Clusteranalyse aus mathematischer Sicht
Im Rahmen der Clusteranalyse werden zunächst die Merkmalskombinationen als mehrdimensionaler Quader aufgefasst. Nun werden wahlweise mittels der Bestimmung von Distanz- und Ähnlichkeitsmaßen iterativ „naheliegende“ Nachbarn gesucht und so eine Clusterzugehörigkeit definiert – bei großen Umfragen kann dies schnell unübersichtlich werden, in dem Fall empfiehlt es sich, die Clustereinteilung in einer gesonderten Variablen erfassen zu lassen.
Für metrisch skalierte Merkmale ist der euklidische Abstand die voreingestellte Berechnungsmethode, für ordinal skalierte Merkmale die Rangfunktion.
Die Clusteranalyse SPSS
Um für die Clusteranalyse SPSS zu nutzen, wird der Pfad: „Analysieren → Klassifizieren“ aufgerufen.
Die einzelnen Verfahren unterscheiden sich in den Skalierungen der Merkmale und darauf aufbauend im jeweils gewählten Skalenniveau.
- Hierarchische Clusteranalyse – sie berücksichtigt metrisch (kardinal) skalierte und ordinale Merkmale sowie dichotome Variablen (mit genau zwei Ausprägungen) und ist auch für eine kleine Fallzahl anwendbar
- Two-Step Clusteranalyse – sie berücksichtigt Kombinationen metrischer und kategorialer Merkmale und bestimmt Cluster wahlweise anhand der Likelihood-Quotienten (oder der euklidischen Distanz, sofern ausschließlich metrische Merkmale untersucht werden) für eine hohe Fallzahl. Zudem kann eine feste Anzahl an Cluster voreingestellt werden
- Clusterzentrenanalyse (K-Means Clusteranalyse) – sie berücksichtigt Kombinationen metrisch skalierter Merkmale bei hoher Fallzahl und wählt Cluster anhand der Mittelwerte (Distanz vom Clusterzentrum)
Analog zu den Verfahren der Varianzanalyse, Regressions- und Diskriminanzanalyse ist auch für die Clusteranalyse SPSS anwendend eine kritische Bewertung ratsam, d.h. ein stochastisch statistischer Zusammenhang impliziert nicht zwangsläufig einen sachlogisch kausalen Zusammenhang.
So könnten beispielsweise für bestimmte Stichproben die Wähler von Parteien am linken und rechten Rand des demokratischen Spektrums mit Liberalen zusammengefasst werden aufgrund der Tatsache, dass sie ebenso die Einmischung des Staates in wirtschaftliche und kulturelle Abläufe kritisieren, obwohl ihre politische Grundhaltung nicht vereinbar ist.
Eine sinnvolle Möglichkeit zur Visualisierung von Clustern bietet ein Streudiagramm.
Häufig gestellte Fragen
Weiterführende Links:
Mathematische Aufarbeitung der Verfahren, Beispiele in R
Erläuterungen zu Clusteranalyse