Daten gibt es zwar viele – Auf relevante statistische Daten kommt es jedoch an
Daten sind der Rohstoff der Statistik. Sie können alle möglichen Formen, Typen und Formate haben. Dieser Artikel gibt Ihnen einen Überblick über Arten von statistischen Daten, deren unterschiedliche Einteilungen und den Ablauf bei der Auswertung dieser Daten.
Sollten Sie Unterstützung bei der Auswertung von Daten benötigen, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.
Welche Arten von Daten gibt es?
Statistische Daten treten in den unterschiedlichsten Formen auf. In einer Umfrage können beispielsweise offen Fragen formuliert sein. In diesem Fall hat es der Statistiker mit Text- Daten zu tun. Üblich bei Fragebögen sind vorgegebene Antwortoptionen, bei denen der Befragte ein oder mehrere Antworten auswählen kann. Hier stehen Wertelisten oder Kategorien zur Auswahl. Auch Zahlen sind beispielsweise auf visuellen Analogskalen (VAS) als Antworten möglich. Hier kann der Befragte beispielsweise die empfundene Scherzintensität auf einer 10 cm langen Strecke mit einem Kreuz einzeichnen.
Typische statistische Daten sind somit:
- Text: Text kann beliebige Zeichen enthalten, auch Ziffern, auch Leerzeichen. Üblicherweise wird hier eine Maximallänge vorgegeben.
- Werteliste / Kategorien: Für manche Variablen sind nur einige wenige konkrete Kategorien erlaubt, z.B. „Mann oder Frau“, „ja oder nein“ oder auch Farben wie Weiß, Gelb, Orange, Rot, Violett, Blau, Grün, Schwarz. Solche Daten sind einfacher auszuwerten als Freitext-Daten, aber die Kunst besteht darin, die Datenobjekte diesen Kategorien zuzuordnen. Diesen Vorgang nennt man Codieren oder Codierung.
- Zahlen
- Bilder, z.B. in jpg-Format
In welche Skalen können statistische Daten eingeordnet werden?
Für statistische Auswertungen spielt es eine große Rolle, welche Skala statistische Daten einnehmen können. Man unterscheidet fünf Skalen:
1. Nominalskala: Die Daten sind verschiedenen Kategorien zugeordnet, aber diese Kategorien sind reine Etiketten und bedeuten keine Rangfolge oder Anordnung, so wie „Mann / Frau“.
2. Ordinalskala: Die Daten sind ebenfalls Kategorien zugeordnet, aber diese bezeichnen eine Rangordnung. Eine häufig verwendete Ordinalskala ist „niedrig / mittel / hoch“ oder die Likert-Skala „trifft nicht zu / trifft eher nicht zu / teils-teils / trifft eher zu / trifft zu“.
3. Intervallskala: Hier bedeuten die Datenwerte nicht nur eine Reihenfolge, sondern der Abstand ihrer Zahlenwerte hat ebenfalls eine Bedeutung. Die Temperatur-Skala zählt hier dazu. Die Intervall-Skala hat keinen echten Nullpunkt in dem Sinne, dass man sagen kann dass 20 Grad Celsius doppelt so warm sind wie 10 Grad Celsius.
4. Verhältnisskala: Diese Skala hat alle Eigenschaften wie die Intervallskala, kennt jedoch auch einen Nullpunkt. Dies gilt beispielsweise für das Alter einer Person. Mit 20 Jahren ist sie doppelt so alt wie mit 10 Jahren.
5. Absolutskala: Die Absolutskala erfüllt zusätzlich zu den Bedingungen der Verhältnisskala noch die Bedingung, dass es sich um eine natürlich gegebene Maßeinheit handelt. Beispielsweise die Anzahl der Bewohner eines Landes wäre eine solche Größe.
Diese Datentypen beeinflussen die Anzahl an Ausprägungen, die eine Variable haben kann, den nötigen Speicherplatzbedarf und die statistischen Verfahren und statistischen Tests, die darauf angewendet werden können.
Statistische Daten aufbereiten
Vor der Datenanalyse müssen statistische Daten vollständig und im richtigen Format bereitstehen, von Datenfehlern bereinigt sein und mittels einer Datenstrategie organisiert werden.
Dabei stellen sich die folgenden Herausforderungen:
- Auswahl der Daten: Welche der vorhandenen Daten passen zur gestellten Frage? Oder auch: Welche Daten können bzw. wollen wir in welcher Form neu erheben, um die Frage zu beantworten?
- Bereitstellen der Daten: Die nötigen Daten liegen oft in verschiedenen Datenbanken vor. Von dort müssen sie exportiert und für die Auswertung bereitgestellt werden. Oder sie liegen überhaupt nicht elektronisch vor und müssen erst digitalisiert werden.
- Zusammenführen von Daten: Daten aus verschiedenen Quellen müssen irgendwie zusammengeführt werden, z.B. in einem Data Warehouse oder in einer gemeinsamen Datei. Welche der beiden Alternativen Sie wählen, hängt u.a. von der Datenmenge ab.
- Transformation der Daten: Eventuell sind die Daten im falschen Format und müssen in ein anderes Format überführt werden, beispielsweise Texte hinten abgeschnitten oder auch um Leerzeichen ergänzt, Zahlen gerundet, Freitext in Kategorien codiert. Manches davon lässt sich automatisieren, aber eventuell nicht alles.
- Bereinigen der Daten: Die Daten enthalten oft Werte, die bei der Auswertung stören. Dazu zählen beispielsweise fehlende Daten oder unplausible Daten. Auch offensichtlich falsche Daten wie ein Geburtsjahr einer angeblich heute noch lebenden Person, das im Jahr 1489 liegt (vermutlich ein Tippfehler bei der Eingabe). Solche Daten kann man automatisch suchen und ersetzen, indem man Intervalle für gültige Werte definiert sowie eine Ersetzungsregel.
Gerade die Datenbereinigung lässt sich nur teilweise automatisieren. Hier ist noch viel Handarbeit und insbesondere Fachwissen nötig.
Statistische Daten analysieren
Abhängig vom Skalenniveau können statistische Daten in aufbereiteter Form ausgewertet werden.