Das Data Mining wertet meist Daten aus, die bereits im Unternehmen oder im Studienumfeld vorliegen. Sie wurden also nicht gezielt für diesen Zweck erhoben. Darum liegt zwischen statistischer Datenerhebung und statistischer Auswertung der Schritt der Datenaufbereitung, der gerade bei tiefgreifenden Auswertungen besonders anspruchsvoll ist.

Sollten Sie Unterstützung bei der Aufbereitung von Daten benötigen, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.

Lassen Sie uns Ihre Anforderungen wissen & wir erstellen Ihnen innerhalb weniger Stunden ein kostenfreies Angebot.

Jetzt unverbindlich anfragen

Novustat unterstützt Sie bei der Datenbereinigung

Bei der Planung, Vorbereitung und Durchführung der Datenbereinigung sind viele kompetente Entscheidungen zu treffen, über die Sie später Rede und Antwort stehen können müssen. Die kompetente Unterstützung durch die Experten Novustats hilft Ihnen dabei, für jeden einzelnen Schritt das beste Vorgehen zu wählen, umzusetzen, zu begründen und zu dokumentieren. Wir erstellen für Sie ein Bereinigungskonzept, setzen es werkzeugbasiert um und prüfen die Ergebnisse. Haben Sie bereits einige Schritte selbst durchgeführt, begutachten wir diese gerne.

Herausforderungen bei der Datenaufbereitung in Rahmen Ihrer Auswertung

Im Allgemeinen hat man bei der Aufbereitung von Daten folgende Herausforderungen:

  • Auswahl der Daten: Welche der vorhandenen Daten passen zur gestellten Frage?
  • Bereitstellen der Daten: Die nötigen Daten liegen oft in verschiedenen Datenbanken und Formaten vor. Von dort müssen sie exportiert werden.
  • Zusammenführen von Daten: Diese Daten aus verschiedenen Quellen müssen zusammengeführt werden, z.B. in einem Data Warehouse oder einer gemeinsamen Datei.
  • Transformation der Daten: Eventuell müssen die Daten in ein anderes Format überführt werden, beispielsweise Freitext in Kategorien codiert oder XML in CVS, Variablen eindeutig benannt.
  • Bereinigen der Daten: Die Daten sind oft nicht vollständig oder auf Plausibilität geprüft. Data Mining Ergebnisse werden jedoch empfindlich durch Ausreißer und fehlende Daten verfälscht. Darum erfolgt eine Prüfung und Vervollständigung von Daten.

Automatisierte Datenaufbereitung

Bei der Datenaufbereitung lässt sich vieles automatisieren: die Auswahl (Extraktion) der Daten aus ihren Originalquellen, den Export aus der Quelldatenbank und Import in die Data Mining Datenbank, Transformation (Migration) in ein anderes Format, Ersetzen von fehlenden Daten durch die geeigneten Ersatzwerte, Plausibilitätsprüfung und Korrektur von Inkonsistenten – falls sich dafür programmierbare Regeln definieren lassen.
Allerdings kann nur die Durchführung dieser Aktivitäten automatisiert werden. Bevor dies funktioniert, müssen eindeutige Regeln dafür aufgestellt und programmiert werden, die den Ansprüchen einer guten Statistik genügen. Hierzu ist sowohl Fachwissen über die Daten und deren Anwendungsumfeld nötig als auch Statistik-Expertise. Fehler bei der Aufbereitung von Daten machen sämtliche statistische Auswertungen ungültig und alle Schlussfolgerungen irreführend. Bei wissenschaftlichen Studien muss das Vorgehen der Datenbereinigung transparent gemacht und begründet werden und bietet Kritikern eine beliebte Angriffsfläche. Es ist also ratsam, sich kompetente Hilfe für die Datenaufbereitung zu suchen oder die durchgeführte Bereinigung von Experten auf ihre Gültigkeit prüfen zu lassen. Novustat hilft Ihnen gerne dabei.
Als Werkzeuge für die Datenaufbereitung sind nicht alle Statistik-Werkzeuge geeignet. Excel beispielsweise erlaubt zwar eine einfache manuelle Datenaufbereitung für überschaubare Datenmengen, allerdings gibt es hier keinerlei Nachvollziehbarkeit der gemachten Änderungen. Üblicherweise werden für die Datenaufbereitung Skripte geschrieben. Diese sind nicht nur praktisch, da sie wiederholt durchgeführt werden können, sondern eben auch als eindeutige Dokumentation der durchgeführten Korrekturen dienen. Dazu gehört noch eine schriftliche Dokumentation der Begründung der Bereinigungsregeln.

Datenaufbereitung mit SPSS

In SPSS können Sie separat die Metadaten und die Daten aufbereiten. Die Metadaten umfassen die Variablennamen, Typ, Format, Werteliste, Skalentyp und so weiter. Diese können Sie von Hand bearbeiten.
Für die Aufbereitung der Daten selbst bietet SPSS unter dem Menüpunkt „Transform“ vielfältige Funktionen wie beispielsweise „recode“ (also Umkodieren). Hier können dann Regeln für die Umkodierung in ein Formular eingegeben werden. SPSS kann auch automatisch nach doppelten Datensätzen oder Ausreißern suchen, nach einstellbaren Regeln.
Die Datenaufbereitung können Sie in SPSS bequem konfigurieren. Die leichte Bedienbarkeit sollte aber nicht über die Komplexität der Aufgabe hinweg täuschen.

Datenaufbereitung mit R

In R können Sie Daten auf zwei Arten aufbereiten: schrittweise über die Befehlszeile oder als Skript. Zu empfehlen ist wegen der besseren Nachvollziehbarkeit die Verwendung eines Skripts. Damit können Sie Daten, Datenformate und Beschriftungen gleichermaßen bearbeiten. Sie können Wiederholungen und Fallunterscheidungen einsetzen. Das Skripten in R verlangt aber eine gründliche Einarbeitung in diese Programmiersprache und das regelmäßige Prüfen von Zwischenergebnissen, weil sonst leicht Fehler unterlaufen. Eine Übersicht über wichtige R-Befehle finden Sie hier.

Datenaufbereitung mit VBA

VBA-Skripte in Excel sind ebenfalls für die Datenaufbereitung geeignet, ähnlich wie R-Skripte, allerdings nur für nicht allzu große Datenmengen.

Manuelle Datenaufbereitung

Automatisierung hat ihre Vorteile, beispielsweise die einfache und effiziente Wiederholbarkeit bei gleich bleibender Qualität und dass jede an den Daten gemachte Änderung eindeutig nachvollziehbar ist. Darum sollte automatisiert werden, was sich automatisieren lässt, selbst wenn manche Datenkorrektur bei kleinen Datenmengen mit demselben Aufwand auch von Hand durchgeführt werden kann. Denn jedes Skript muss sauber getestet und qualitätsgesichert werden, um sicher zu stellen, dass es genau das tut, was es soll. So bleiben für die manuelle Aufbereitung nur noch die Tätigkeiten übrig, die sich nicht automatisieren lassen wie das Bewerten und Codieren von Text (d.h. Zuordnung von Labeln zu Wörtern und Satzteilen). Auch diese händischen Änderungen müssen eindeutig definierten Regeln folgen, die dokumentiert werden.