In diesem Artikel geht es um die Frage: Was ist die genaue Data Mining Definition? Dabei wird nicht nur beschrieben, wie dieser Begriff definiert ist, sondern auch, wozu und wie man Data Mining durchführt. Und: Was macht Data Mining schwierig?

Sollten Sie Unterstützung bei der Erhebung oder Analyse von Daten benötigen, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.

Lassen Sie uns Ihre Anforderungen wissen & wir erstellen Ihnen innerhalb weniger Stunden ein kostenfreies Angebot.

Jetzt unverbindlich anfragen

Wozu Data Mining?

Heutzutage liegen immer mehr Daten digital vor und Geschäftsprozesse werden elektronisch unterstützt und dokumentiert. Dadurch sammeln sich große Mengen an Daten an. Daten sind der Rohstoff unserer Wissensgesellschaft und stellen einen Schatz an Wissen dar, der nur mit Data Mining gehoben werden kann.
Data Mining dient dazu, um aus Daten Wissen zu erzeugen. Daten sind einfach nur Zahlen, Wörter, Bilder, Fakten. Erst durch eine vernetzte Auswertung dieser Daten entsteht nützliches, zweckbezogenes Wissen, das hilft, Entscheidungen zu treffen oder anderweitig genutzt werden kann. Es geht dabei darum, Fakten zu beschreiben, Zusammenhänge zu erklären und zukünftige Entwicklungen vorzusagen. Im Gegensatz zu statistischen Verfahren, die Hypothesen prüfen (validieren), kann Data Mining zusätzlich auch Hypothesen über die Daten erzeugen.
Data Mining ist verbreitet in der Marktforschung, im Marketing, Vertrieb und in der Produktion, kann aber überall hilfreich sein, wo viele Daten anfallen. So zeigt z.B. der Vergleich verschiedener Krankenhäuser auf, welches in welchem Bereich am besten ist oder wo auch konkret Schwierigkeiten auftreten. Typische Fragestellungen, die das Data Mining behandelt, sind: Welche Produkte werden oft zusammen gekauft? (Beispielsweise: Bisquit-Tortenboden, Erdbeeren und Sahne.) Welche Faktoren sind ausschlaggeben für die Kundentreue? Gesucht werden oft auch wenn-dann-Regeln, Zusammenhänge in der Form von Entscheidungsbäumen oder Regeln in Aussagen- oder Prädikatenlogik.
Dieses Wissen unterstützt die Planung von Cross Selling, die Kundensegmentierung, die Prognose von Vertragslaufzeiten, Betrugserkennung, Business Intelligence und viele andere geschäftliche Tätigkeiten.

Data Mining Definition: Was ist Data Mining und wann wird es genutzt?

Data Mining ist ein Sammelbegriff für verschiedene rechnergestützte Verfahren zur Auswertung großer Datenmengen. Dabei werden Hypothesen erzeugt oder Hypothesen geprüft. Das Ziel ist es, Muster und Regeln in großen Datenmengen zu entdecken, Abhängigkeiten zwischen Daten in Form von Gruppen (Clustern), Formeln, Korrelationen, Regelmäßigkeiten (Mustern) und zeitlichen Trends. Zum Einsatz kommen hier statistische und mathematische Verfahren, künstliche Intelligenz (z.B. neuronale Netze) und Visualisierungstechniken.

Wie führt man Data Mining durch?

Eine 100% genaue Data Mining Definition gibt es nicht, da das Verfahren in den verschiedensten Bereichen angewandt wird.
Die umfangreichen vorhandenen Datenschätze lassen sich natürlich nicht von Hand auswerten. Dazu sind Werkzeuge nötig (siehe auch unter Data Mining Software). Beim Data Mining geht man folgendermaßen vor:
1. Im ersten Schritt wird die zu beantwortende Frage definiert. Passend dazu werden die auszuwertenden Daten ausgewählt. Ein Interessantheitsmaß muss definiert sein, das misst, welche Daten oder Zusammenhänge für die vorliegende Fragestellung in wie weit interessant sind.
2. Im zweiten Schritt des Data Mining werden die Daten zusammengeführt. Diese liegen eventuell an verschiedenen Orten (Datenbanken, Listen, Dokumente) in unterschiedlichen Formaten vor. Sie werden, beispielsweise über eine ODBC-Schnittstelle, in einem eigenen Data Warehouse oder in einer Datenbank gesammelt.
3. Im dritten Schritt folgt eine Datenvorverarbeitung. Dazu gehört insbesondere die Datenbereinigung. Manche Daten sind vielleicht doppelt (Dubletten) und werden zusammengefasst oder die Doppelten gelöscht, unplausible und widersprüchliche Daten werden gefunden und berichtigt, für fehlende Werte sollen vielleicht Schlüsselbegriffe eingetragen werden wie „na“.
4. Eventuell müssen die Daten noch codiert werden, z.B. Freitext bestimmten Kategorien zugeordnet werden oder Gruppen gebildet. So könnte man beispielsweise Postleitzahlen ihren Landkreisen zuordnen oder Geburtstage jeweils einer Alterskohorte.
5. Dann erst beginnt die Datenauswertung. Dabei spielt das Interessantheitsmaß eine wichtige Rolle. Verfahren, die hier angewendet werden, sind u.a. Clustering, Klassifikation, Segmentierung, Extraktion, Filtern, Aggregation (Bündelung) und Abhängigkeitsanalysen (z.B. Korrelationsanalysen oder Regression).
6. Validierung: Die gefundenen Zusammenhänge sollten an weiteren Daten geprüft werden, die nicht für deren Herleitung verwendet wurden. So erkennt man Gesetzmäßigkeiten, die zufällig nur dieser einen Stichprobe existieren, aber keine allgemeine Gültigkeit haben.
7. Interpretation und Präsentation: Die gefundenen Zusammenhänge werden gedeutet und dann zumeist auch irgendwo präsentiert oder publiziert.

Was macht Data Mining schwierig?

Die erste Schwierigkeit besteht bereits darin, die Frage richtig zu stellen und das Interessantheitsmaß mathematisch zu definieren. Bevor man die riesigen Datenmengen zu analysieren beginnt, sollte man ungefähr wissen, wonach man sucht. Nur so kann die richtige Analysemethode ausgewählt werden. Die Forschung zum Data Mining hat gerade erst begonnen, und selbst beim Interessantheitsmaß gibt es noch keine Standards, die sich durchgesetzt haben.
Selbst dann wenn die Frage klar ist und auch die Analysemethode passend gewählt wurde, tritt noch das Problem auf, dass bei großen Datenmengen zwangsläufig lange Rechenzeiten auftreten. So eine umfangreiche Auswertung kann auch Tage dauern. Viel Rechenzeit kann eingespart werden durch eine fokussierte Fragestellung und einen effizienten Auswertungsalgorithmus.
Auch die Datenqualität beeinflusst stark die Gültigkeit und Qualität der gefundenen Ergebnisse. Und die Datenqualität ist oft nicht optimal: Viele Daten fehlen, sind ungenau und wurden meist sowieso für einen ganz anderen Zweck erhoben. Insbesondere muss man gut darauf achten, mit ungültigen und fehlenden Daten richtig umzugehen, z.B. bei einer Mittelwertbildung keine fehlenden Daten als Zahlenwert 0 mit in die Berechnung einzubeziehen.
Werden personenbezogene Daten ausgewertet, dann ist aus Datenschutzgründen auf eine genügende Anonymisierung zu achten. Dabei genügt es nicht, die Namen zu löschen. Da anhand weniger persönlicher Daten wie Geburtsdatum, Geschlecht und Postleitzahl Daten wieder personenbeziehbar werden können (d.h. deanonymisiert), gehört mehr zu einer guten Anonymisierung.
Auch die Interpretation der durch Data Mining gefundenen Muster, Korrelationen und Trends ist nicht trivial. Ein statistischer Zusammenhang beweist noch keinen kausalen Zusammenhang, die statistische Signifikanz von Ergebnissen muss abgeschätzt werden, und Trends lassen sich ohne Fachkenntnis nicht einfach in die Zukunft extrapolieren.

Literatur zum Weiterlesen über Data Mining