Daten gibt es zwar viele – Auf relevante statistische Daten kommt es jedoch an

Daten sind der Rohstoff der Statistik. Sie können alle möglichen Formen, Typen und Formate haben. Dieser Artikel gibt Ihnen einen Überblick über Arten von statistischen Daten, deren unterschiedliche Einteilungen und den Ablauf bei der Auswertung dieser Daten.

Sollten Sie Unterstützung bei der Auswertung von Daten benötigen, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.

Lassen Sie uns Ihre Anforderungen wissen & wir erstellen Ihnen innerhalb weniger Stunden ein kostenfreies Angebot.

Jetzt unverbindlich anfragen

Welche Arten von Daten gibt es?

Typische statistische Daten sind:

  • Text: Text kann beliebige Zeichen enthalten, auch Ziffern, auch Leerzeichen. Üblicherweise wird hier eine Maximallänge vorgegeben.
  • Werteliste / Kategorien: Für manche Variablen sind nur einige wenige konkrete Kategorien erlaubt, z.B. „Mann oder Frau“, „ja oder nein“ oder auch Farben wie Weiß, Gelb, Orange, Rot, Violett, Blau, Grün, Schwarz. Solche Daten sind einfacher auszuwerten als Freitext-Daten, aber die Kunst besteht darin, die Datenobjekte diesen Kategorien zuzuordnen. Diesen Vorgang nennt man Codieren oder Codierung.
  • Zahlen
  • Bilder, z.B. in jpg-Format

In welche Skalen können statistische Daten eingeordnet werden?

Für statistische Auswertungen spielt es eine große Rolle, welche Skala statistische Daten einnehmen können. Man unterscheidet fünf Skalen:

1. Nominalskala: Die Daten sind verschiedenen Kategorien zugeordnet, aber diese Kategorien sind reine Etiketten und bedeuten keine Rangfolge oder Anordnung, so wie „Mann / Frau“.

2. Ordinalskala: Die Daten sind ebenfalls Kategorien zugeordnet, aber diese bezeichnen eine Rangordnung. Eine häufig verwendete Ordinalskala ist „niedrig / mittel / hoch“ oder die Likert-Skala „trifft nicht zu / trifft eher nicht zu / teils-teils / trifft eher zu / trifft zu“.

3. Intervallskala: Hier bedeuten die Datenwerte nicht nur eine Reihenfolge, sondern der Abstand ihrer Zahlenwerte hat ebenfalls eine Bedeutung. Die Temperatur-Skala zählt hier dazu. Die Intervall-Skala hat keinen echten Nullpunkt in dem Sinne, dass man sagen kann dass 20 Grad Celsius doppelt so warm sind wie 10 Grad Celsius.

4. Verhältnisskala: Diese Skala hat alle Eigenschaften wie die Intervallskala, kennt jedoch auch einen Nullpunkt. Dies gilt beispielsweise für das Alter einer Person. Mit 20 Jahren ist sie doppelt so alt wie mit 10 Jahren.

5. Absolutskala: Die Absolutskala erfüllt zusätzlich zu den Bedingungen der Verhältnisskala noch die Bedingung, dass es sich um eine natürlich gegebene Maßeinheit handelt. Beispielsweise die Anzahl der Bewohner eines Landes wäre eine solche Größe.

Diese Datentypen beeinflussen die Anzahl an Ausprägungen, die eine Variable haben kann, den nötigen Speicherplatzbedarf und die statistischen Verfahren und statistischen Tests, die darauf angewendet werden können.

Wie werden statistische Daten ausgewertet?

Das Data Mining kann große statistische Daten effizient auswerten und darin Muster erkennen. Diese Daten müssen vollständig und im richtigen Format bereitstehen und von Datenfehlern bereinigt sein.
Dabei stellen sich die folgenden Herausforderungen:

  • Auswahl der Daten: Welche der vorhandenen Daten passen zur gestellten Frage? Oder auch: Welche Daten können bzw. wollen wir in welcher Form neu erheben, um die Frage zu beantworten?
  •  

  • Bereitstellen der Daten: Die nötigen Daten liegen oft in verschiedenen Datenbanken vor. Von dort müssen sie exportiert und für die Auswertung bereitgestellt werden. Oder sie liegen überhaupt nicht elektronisch vor und müssen erst digitalisiert werden.
  •  

  • Zusammenführen von Daten: Daten aus verschiedenen Quellen müssen irgendwie zusammengeführt werden, z.B. in einem Data Warehouse oder in einer gemeinsamen Datei. Welche der beiden Alternativen Sie wählen, hängt u.a. von der Datenmenge ab.
  •  

  • Transformation der Daten: Eventuell sind die Daten im falschen Format und müssen in ein anderes Format überführt werden, beispielsweise Texte hinten abgeschnitten oder auch um Leerzeichen ergänzt, Zahlen gerundet, Freitext in Kategorien codiert. Manches davon lässt sich automatisieren, aber eventuell nicht alles.
  •  

  • Bereinigen der Daten: Die Daten enthalten oft Werte, die bei der Auswertung stören. Dies beginnt mit fehlenden Daten oder offensichtlich falschen (unplausiblen) Daten. Wie soll man den Mittelwert einer Datenreihe berechnen, wenn einige Felder den Wert NA (not available) enthalten? Es mag ja sein, dass diese Zahl nicht gemessen werden konnte, doch nun stellt sich die Frage, ob man diese fehlenden Daten ignoriert, gleich Null setzt oder den Mittelwert aus den Nachbarwerten einträgt, um eine gute Näherung zu erhalten. Auch offensichtlich falsche Daten wie ein Geburtsjahr einer angeblich heute noch lebenden Person, das im Jahr 1489 liegt (vermutlich ein Tippfehler bei der Eingabe) oder eine Gehgeschwindigkeit von 250 km/h (vermutlich ein Messfehler). Solche Daten kann man automatisch suchen und ersetzen, indem man Intervalle für gültige Werte definiert sowie eine Ersetzungsregel. Gerade die Datenbereinigung lässt sich nur teilweise automatisieren. Hier ist noch viel Handarbeit und insbesondere Fachwissen nötig.