Data Mining bedeutet wörtlich übersetzt so viel wie Daten schürfen. Dabei wird in der Data Mining Definition auf die Gewinnung von Wissen aus bereits vorhandenen Daten, meist riesigen Datenbeständen (Big Data) verwiesen. In diesem Artikel wird auf die Data Mining Definition eingegangen. Dabei wird nicht nur beschrieben, wie dieser Begriff definiert ist, sondern auch, wozu und wie man Data Mining durchführt. Und: Was macht Data Mining schwierig?

Sollten Sie Unterstützung bei der Erhebung oder Analyse von Daten, insbesondere im Data-Mining benötigen, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.

Lassen Sie uns Ihre Anforderungen wissen & wir erstellen Ihnen innerhalb weniger Stunden ein kostenfreies Angebot.


Jetzt unverbindlich anfragen

Wozu Data Mining?

Heutzutage liegen Daten zumeist digital vor und Geschäftsprozesse werden elektronisch unterstützt und dokumentiert. Dadurch sammeln sich große Mengen an Daten an. Daten sind der Rohstoff unserer Wissensgesellschaft und stellen einen Schatz an Wissen dar, der nur mit Data Mining Methoden gehoben werden kann.
Data Mining dient dazu, um aus Daten Wissen zu erzeugen. Daten sind Zahlen, Wörter, Bilder, Fakten. Erst durch eine vernetzte Auswertung dieser Daten entsteht nützliches, zweckbezogenes Wissen, das hilft, Entscheidungen zu treffen oder anderweitig genutzt werden kann. Es geht dabei darum, Fakten zu beschreiben, Zusammenhänge zu erklären und zukünftige Entwicklungen vorzusagen. Im Gegensatz zu statistischen Verfahren, die Hypothesen prüfen (validieren), kann Data Mining zusätzlich auch Hypothesen erzeugen.

Anwendungsgebiete

Data Mining ist verbreitet in der Marktforschung, im Marketing, Vertrieb und in der Produktion, kann aber überall hilfreich sein, wo viele Daten anfallen. So zeigt beispielsweise der Vergleich verschiedener Krankenhäuser auf, welches in welchem Bereich am besten ist oder wo auch konkret Schwierigkeiten auftreten. Typische Fragestellungen, die das Data Mining behandelt, sind: Welche Produkte werden oft zusammen gekauft? (Beispielsweise: Bisquit-Tortenboden, Erdbeeren und Sahne.) Welche Faktoren sind ausschlaggebend für die Kundentreue? Gesucht werden oft auch wenn-dann-Regeln, Zusammenhänge in der Form von Entscheidungsbäumen oder Regeln in Aussagen- oder Prädikatenlogik.
Dieses Wissen unterstützt die Planung von Cross Selling, die Kundensegmentierung, die Prognose von Vertragslaufzeiten, Betrugserkennung, Business Intelligence und viele andere geschäftliche Tätigkeiten.

Data Mining Definition

Data Mining ist ein Sammelbegriff für verschiedene rechnergestützte Verfahren zur Auswertung großer Datenmengen. Dabei werden nach Data Mining Definition Hypothesen erzeugt oder Hypothesen geprüft. Das Ziel ist es, Muster und Regeln in großen Datenmengen zu entdecken, Abhängigkeiten zwischen Daten in Form von Gruppen (Clustern), Formeln, Korrelationen, Regelmäßigkeiten (Mustern) und zeitlichen Trends. Zum Einsatz kommen hier statistische und mathematische Verfahren, künstliche Intelligenz (z.B. neuronale Netze) und Visualisierungstechniken.

Durchführung

Eine 100% genaue Data Mining Definition gibt es nicht, da das Verfahren in den verschiedensten Bereichen angewandt wird.
Die umfangreichen vorhandenen Datenschätze lassen sich natürlich nicht von Hand auswerten. Dazu sind Werkzeuge nötig (siehe auch unter Data Mining Software). Laut Data Mining Definition geht man folgendermaßen vor:

Vorbereitung

  • Im ersten Schritt definiert der Anwender sowie der Data Mining Spezialist die zu beantwortende Frage. Passend dazu erfolgt die Auswahl auszuwertender Daten. Ein Interessantheitsmaß muss definiert sein, das misst, welche Daten oder Zusammenhänge für die vorliegende Fragestellung in wie weit interessant sind.
  • Im zweiten Schritt des Data Mining werden die Daten zusammengeführt. Diese liegen eventuell an verschiedenen Orten (Datenbanken, Listen, Dokumente) in unterschiedlichen Formaten vor. Sie werden, beispielsweise über eine ODBC-Schnittstelle, in einem eigenen Data Warehouse oder in einer Datenbank gesammelt.
  • Im dritten Schritt folgt eine Datenvorverarbeitung. Dazu gehört nach Data Mining Definition insbesondere die Datenbereinigung. Manche Daten sind vielleicht doppelt (Dubletten) und werden zusammengefasst oder die Doppelten gelöscht, unplausible und widersprüchliche Daten werden gefunden und berichtigt, für fehlende Werte sollen vielleicht Schlüsselbegriffe eingetragen werden wie „na“.
  • Eventuell codiert der Analyst noch die Daten, z.B. Freitext bestimmten Kategorien zugeordnet werden oder Gruppen gebildet. So könnte man beispielsweise Postleitzahlen ihren Landkreisen zuordnen oder Geburtstage jeweils einer Alterskohorte.

Auswertung und Interpretation

  • Dann erst beginnt die Datenauswertung. Dabei spielt das Interessantheitsmaß eine wichtige Rolle. Verfahren sind u.a. Clustering, Klassifikation, Segmentierung, Extraktion, Filtern, Aggregation (Bündelung) sowie Abhängigkeitsanalysen (z.B. Korrelationsanalysen oder Regression).
  • Validierung: Der Data Mining Spezialist prüft die gefundenen Zusammenhänge an unabhängigen Daten, die nicht für deren Herleitung dienten. So erkennt man Gesetzmäßigkeiten, die zufällig nur in dieser einen Stichprobe existieren, aber keine allgemeine Gültigkeit haben.
  • Interpretation und Präsentation: Der Anwender deutet die gefundenen Zusammenhänge und anschließend erfolgt dann zumeist auch die Präsentation oder Publikation.
Data Mining CRISP Data Mining Unternehmen data mining methoden Data Mining Definition

Was macht Data Mining schwierig?

Forschungsfrage

Die erste Schwierigkeit besteht bereits darin, die Frage richtig zu stellen. Bevor man die riesigen Datenmengen zu analysieren beginnt, sollte man ungefähr wissen, wonach man sucht. Nur so kann der Analyst die richtige Analysemethode ausgewählen. Die Forschung zum Data Mining hat gerade erst begonnen, und so gibt es erst wenige Standards, die sich durchgesetzt haben.

Rechenzeit

Selbst dann wenn der Anwender die Frage klar formuliert hat, die Data Mining Definition angewendet hat und auch die Analysemethode passend gewählt hat, tritt noch das Problem auf, dass bei großen Datenmengen zwangsläufig lange Rechenzeiten auftreten. So eine umfangreiche Auswertung kann auch Tage dauern. Viel Rechenzeit kann eingespart werden durch eine fokussierte Fragestellung und einen effizienten Auswertungsalgorithmus.

Datenqualität

Auch die Datenqualität beeinflusst stark die Gültigkeit und Qualität der gefundenen Ergebnisse. Und die Datenqualität ist oft nicht optimal: Viele Daten fehlen, sind ungenau und wurden meist sowieso für einen ganz anderen Zweck erhoben. Insbesondere muss man gut darauf achten, mit ungültigen und fehlenden Daten richtig umzugehen, z.B. bei einer Mittelwertbildung keine fehlenden Daten als Zahlenwert 0 mit in die Berechnung einzubeziehen.

Datenschutz und Data Mining

Bei der Auswertung personenbezogener Daten müssen Analysten darauf achten, aus Datenschutzgründen eine genügende Anonymisierung einzuhalten. Dabei genügt es nicht, die Namen zu löschen. Da anhand weniger persönlicher Daten wie Geburtsdatum, Geschlecht und Postleitzahl Daten wieder personenbeziehbar werden können (d.h. deanonymisiert), gehört mehr zu einer guten Anonymisierung.

Interpretation

Auch die Interpretation der durch Data Mining gefundenen Muster, Korrelationen und Trends ist nicht trivial. Ein statistischer Zusammenhang beweist noch keinen kausalen Zusammenhang. So schätzen Experten die statistische Signifikanz von Ergebnissen zuerst ab und Trends lassen sich ebenso ohne Fachkenntnis nicht einfach in die Zukunft extrapolieren.

Literatur zum Weiterlesen