Gerne beraten wir Sie auch telefonisch & geben Ihnen eine kostenfreie persönliche Auskunft zu Ihrem Projekt.

X

Deskriptive Analyse auf dem Expertenlevel – Wie Sie Daten nicht nur analysieren, sondern auch verstehen!

Eine sauber durchgeführte deskriptive Analyse ist Pflicht für so ziemlich jedes Forschungsprojekt. Für deskriptive Studien ist ein deskriptive Datenanalyse sogar Hauptbestandteil. Eine Studie die etwa das typische Einkommen und Alter der Kunden bestimmen möchte kommt um deskriptive Statistik wie Durchschnittswerte und Maße zur Streuung nicht herum. Aber auch für Studien mit denen man komplexe statistische Methoden zur Ursachenforschung betreiben möchten („Welche Faktoren bestimmen die Zufriedenheit mit dem Produkt?“), sollte man zuerst eine solide deskriptive Analyse durchführen. Eine gründlich durchdachte deskriptive Datenanalyse sorgt überhaupt für ein grundlegendes Verständnis. So wird unserer Erfahrung nach oft der Blick auf wesentliche Zusammenhänge geschärft, die man andernfalls schlicht übersehen hätte. In diesem Artikel gehen wir daher auf die grundlegenden Methoden der deskriptiven Analyse ein und zeigen, worauf man besonders achten sollte.

Wir haben jahrelange Erfahrung darin in gründlicher Datenanalyse entscheidende Zusammenhänge zum Vorschein zu bringen. Wenn Sie statistische Beratung zur professionellen Datenauswertung wünschen, stehen unsere Experten Ihnen jederzeit zur Verfügung.

Dieser Artikel beantwortet folgende Fragen zu deskriptive Analyse:

  • Was ist deskriptive Statistik?
  • Was sind die wichtigen Kennzahlen für deskriptive Analyse?
  • Wie schätze ich die Aussagekraft einer deskriptiven Datenanalyse korrekt ein?

Was ist deskriptive Statistik?

Deskriptive Statistik ist der Fachausdruck für die beschreibende Statistik. Es geht also um statistische Verfahren, die Datenmengen zusammenfassen und beschreiben. Wenn z.B. die Kundenzufriedenheit durch einen Net Promoter Score (NPS) gemessen wurde, liefert eine deskriptive Datenanalyse die durchschnittliche Zufriedenheit aller befragten Kunden. Es handelt sich also wirklich um eine rein nüchterne Beschreibung der Daten.

Dabei werden allerdings noch keine Schlüsse über die Aussagekraft dieser Statistiken gezogen. Wenn beispielsweise der NPS im vergangenen Jahr bei 7,0 lag und im aktuellen Jahr bei 8,0, kann dies verschiedene Gründe haben. So kann sich die Zufriedenheit aller Kunden in tatsächlich verbessert haben. Möglicherweise liegt hier aber auch eine zufällige Schwankung vor (vielleicht haben wir letztes Jahr einfach zufällig besonders unzufriedene Kunden befragt). Eine deskriptive Statistik stellt diesen Unterschied zwischen den Zeitpunkten erst einmal nur fest, analysiert aber nicht wie aussagekräftig dieser Unterschied ist. Dies wäre die Aufgabe der Inferenzstatistik.

Für viele deskriptive Studien ist eine solche Bestandsaufnahme aber oft erst einmal völlig ausreichend. In solchen Fällen ist eine Ursachenforschung durch fortgeschrittene Verfahren nicht notwendig oder erfolgt erst in  einer zweiten Forschungsphase. Ein klassisches Beispiel für deskriptive Studien wäre z.B. die Meinungsumfrage. Typische Forschungsfragen für eine deskriptive Studie wären z.B.:

  • Wie viele Stunden am Tag verbringt unsere Zielgruppe durchschnittlich am Smartphone?
  • Wie viele durchschnittliche Besucher pro Tag hatte unsere Webseite in diesem Jahr?
  • Wird das Arbeitsklima von unseren Mitarbeitern positiv beurteilt?

Deskriptive Studie: Die wichtigen Kennzahlen

Zunächst kann man die deskriptive Statistik unterteilen in Verfahren für Methoden für Daten mit Gruppenzugehörigkeit (z.B. Geschlecht oder Bildungsabschluss) und kontinuierliche Daten (z.B. Bewertung der Zufriedenheit oder Stunden am Smartphone je Tag).

Daten mit Gruppen: Absolute und relative Anteile

Für Daten mit Gruppenzugehörigkeit (auch kategoriale Daten) gestaltet sich die deskriptive Auswertung meist sehr einfach: Man berechnet hier die absolute Häufigkeit und relative Häufigkeit. Die absolute Häufigkeit meint dabei einfach die Anzahl der jeweiligen Kategorien (z.B. wie viele Männer versus Frauen). Für die relative Häufigkeit lassen sich dagegen beispielsweise Prozentwerte verwenden.

Deskriptive Analyse für Häufigkeiten durch Kuchendiamgramm
Visualisierung Anteile für Geschlecht: Sowohl die absolute Anzahl als auch die relative Häufigkeit (Prozentwerte) werden angezeigt.

Kontinuierliche Daten: „Typische“ Daten und Streuung

Für kontinuierliche Daten untersucht die deskriptive Statistik im Wesentlichen zwei Fragen:

  • Was ist ein „typischer“ Wert für diese Stichprobe?
  • Wie stark sind die Schwankungen der Werte?

Im Folgenden zeigen wir die wichtigsten Kennwerte für diese zwei Aspekte von  deskriptive Analyse:

Der „typische“ Wert: Mittelwert & Median

Um die Daten sinnvoll zusammenfassen zu können, wird in der Regel ein für die Daten „typischer“ Wert beschrieben. Häufig wird hier der Mittelwert oder auch Durchschnittswert verwendet. Diese Kennzahl dürfte den meisten geläufig sein. Für besonders „schiefe“ Verteilungen ist der Median aber oft die sinnvollere Wahl. Als Beispiel ist unten eine typische Gehaltsverteilung zu sehen:

Deskriptive Analyse durch Histogramm mit Gegenüberstellung von Median und Mittelwert
Visualisierung des Monatsgehalts mit Median und Mittelwert

Wie deutlich zu sehen ist, besitzen die meisten Personen ein Gehalt um die 3000 €. Allerdings gibt es eine kleine Anzahl an Personen mit hohem Einkommen. Diese ziehen das durchschnittliche Einkommen deutlich nach oben. Dadurch liegt das durchschnittliche Gehalt bei 3441 €. Für solche Fälle empfiehlt sich der Median. Der Median beschreibt den Datenpunkt, der genau in der Mitte der Daten liegt. 50 %% der Fälle liegen also unter diesem Wert und 50 % darüber. Das Medianeinkommen für das obige Beispiel beträgt 2990 €. Wie deutlich zu erkennen ist, vermittelt dieser Wert einen besseren Eindruck vom „typischen Einkommen“ als der arithmetische Mittelwert.

Schwankungen der Werte: Die Standardabweichung

Sind sich Ihre Kunden bei der Bewertung Ihres Produktes mehr oder weniger einig? Oder gehen die Meinungen sehr stark auseinander?

Die Schwankung oder Streuung der Werte lässt sich statistisch in der Standardabweichung (Abkürzung: SD) zusammenfassen. Diese Größe verrät Ihnen mit einem Blick wie sehr die Werte schwanken. Bei einer sogenannten Normalverteilung befinden sich nämlich in etwa 95 % der Daten innerhalb von 2 Standardabweichungen um den Mittelwert. Näheres finden Sie in unserem Artikel zur Standardabweichung Interpretation.

Deskriptive Analyse mit Histogramm und 95 % Regel
Visualisierung der Kundenzufriedenheit mit Markierungen für den Bereich Mittelwert +/- 2 Standardabweichung (95 % Regel)

Keine deskriptive Datenanalyse ohne Visualisierung!

Die oben genannten Kennwerte für deskriptive Statistik liefern alle einen guten Einblick in die Daten. Ein gutes Diagramm kann Informationen allerdings oft schneller und effizienter transportieren als nackte Zahlen. Eine gute deskriptive Analyse sollte daher immer durch aussagekräftige Visualisierungen unterstützt werden. Kuchendiagramme sowie Balken- und Säulendiagramme sind hier die bewährtesten Mittel der Darstellung. Wichtige Tipps zu dem Thema gibt hier auch unser Artikel zum Thema Datenvisualisierung.

Deskriptive Analyse: Aussagekraft einschätzen durch Konfidenzintervalle

In der Regel wird eine deskriptive Studie zufälligen Messfehlern unterliegen. Der gemessene Mittelwert wird also nie ganz genau dem „echten“ Mittelwert entsprechen. Eine Studie zur Kundenzufriedenheit befragt beispielsweise meist nur einen Bruchteil aller Kunden. Dazu haben manche der Kunden einen schlechten oder guten Tag und bewerten etwas besser oder schlechter als sonst. Sie können also nicht erwarten den exakten „wahren“ Mittelwert aller Kunden herauszufinden. Wenn Sie genug Kunden befragen können Sie aber sehr nahe daran herankommen! Wie genau? Das können Sie durch die Berechnung eines Konfidenzintervalls herausfinden.

Ein Konfidenzintervall gibt einen Bereich an in dem der tatsächliche Wert aller Wahrscheinlichkeit nach liegt. In der Regel wird dieser Wert mit für eine 95 % Sicherheit berechnet. Mit einem Konfidenzintervall lassen sich verlässlichere Aussagen als machen als mit dem Mittelwert alleine. Konfidenzintervalle lassen beispielsweise folgende Schätzungen auf einer zuverlässigen statistischen Basis zu:

  • Zielgruppe X verbringt pro Tag zwischen 2.62 und 3.62 Stunden an Ihrem Smartphone.
  • Die Bewertung des Arbeitsklimas für alle unsere Mitarbeiter liegt mit 95 % Sicherheit zwischen 3.8 bis 4.2 (auf einer Skala von 1 bis 5).

Streng genommen gehören Konfidenzintervalle bereits nicht mehr zur deskriptiven Statistik. Denn hier werden ja Schlussfolgerungen über die Aussagekraft der Statistiken gezogen. Für einen professionellen Statistiker ist die Berechnung eines Konfidenzintervalls aber eine reine Routinesache, die viel Wert zur Analyse hinzufügen kann. Ein Konfidenzintervall gibt die Präzision Ihrer deskriptiven Statistik exakt wieder. Um Ihre Einschätzungen aus der deskriptiven Analyse auf soliden Boden zu stellen, empfehlen wir daher dringend die Berechnung von Konfidenzintervallen als Bestandteil der deskriptiven Analyse!

Den Überblick über Ihre Daten bewahren mit deskriptiver Datenanalyse

In diesem Artikel haben wir die wichtigsten Aspekte einer deskriptiven Analyse vorgestellt. Wir haben dabei die zentralen Kennwerte für deskriptive Statistik besprochen und sind auf die Vorteile von Visualisierungen und Konfidenzintervallen eingegangen. Wir haben bereits zahlreichen Kunden durch deskriptive Analyse ermöglicht die Muster in Ihren Daten zu verstehen. Möchten Sie ebenfalls von unserer Expertise in Sachen Datenauswertung profitieren? Dann kontaktieren Sie uns für eine Statistik Beratung!