Das Ziel des Data Mining ist es, Muster und Regeln in großen Datenmengen zu entdecken – Abhängigkeiten zwischen Daten in Form von Gruppen (Clustern), Formeln, Korrelationen, Regelmäßigkeiten (Mustern) und zeitlichen Trends.

Zur Ermittlung dieser Muster und Regeln oder Prüfung einer Hypothese verwendet man statistische und mathematische Verfahren, künstliche Intelligenz (z.B. neuronale Netze) und Visualisierungstechniken. Dabei spielt das Interessantheitsmaß eine wichtige Rolle, d.h. es wird gemessen, wie relevant etwas für die zu untersuchende Frage ist.

Sollten Sie Unterstützung bei einem Data Mining Projekt benötigen, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.

Lassen Sie uns Ihre Anforderungen wissen & wir erstellen Ihnen innerhalb weniger Stunden ein kostenfreies Angebot.

Jetzt unverbindlich anfragen

Gängige Data Mining Methoden

Zum Data Mining gehört nicht nur die Auswertung der Daten, sondern auch deren Zusammenführung, Datenbereinigung und sonstige Vorbereitung. Bei der Datenauswertung geht es meist darum, eine konkrete Frage zu beantworten. Exploratives Data Mining ist auch möglich, bei dem man aus den Daten Hypothesen erzeugt.

Verfahren, die beim Data Mining häufig angewendet werden, sind unter anderem:

  • Clustering: Beim Clustering geht es darum, Cluster zu finden. Ein Cluster ist eine Menge von Objekten, die untereinander eine hohe Ähnlichkeit bezüglich einer bestimmten Eigenschaft aufweisen und gegenüber Objekten außerhalb des Clusters eine sehr geringe Ähnlichkeit. Das Schwierige ist natürlich, die Variablen und diejenige Abstandsfunktion zu finden, die Ähnlichkeit und Unähnlichkeit so messen, dass sie für die untersuchte Fragestellung passen. Eine Vielzahl an Cluster-Algorithmen stehen zur Verfügung.
  • Klassifikation: Die Objekte werden anhand von Kriterien in Klassen eingeordnet, passend zur gestellten Frage.
  • Segmentierung: Segmentierung ist eine zweckmäßige Klassifikation der Objekte (z.B. der Datensätze). Diese Zweckmäßigkeit hängt natürlich von der gestellten Frage ab. Kunden kann man z.B. segmentieren nach der Häufigkeit oder Größe ihrer Bestellungen, nach ihrer Zahlungszuverlässigkeit, nach Postleitzahl, Alter, usw.
  • Extraktion: Bei der Extraktion werden die für die gestellte Frage relevanten Daten aus der Gesamtheit der Daten selektiert. Dabei sind nicht nur Filter möglich (s.u.), sondern auch linguistische Verfahren für Text oder selbstlernende Verfahren (z.B. mit neuronalen Netzen).
  • Filtern: Beim Filtern werden nur diejenigen Objekte ausgesucht und angezeigt, die bestimmte Eigenschaften haben, z.B. eine Variable bestimmte Kriterien erfüllt wie „Alter < 40“.
  • Aggregation (Bündelung): Zusammenfassen von Daten auf einem höheren Abstraktionsniveau. Beispielsweise wenn man die Käufe aller Kunden für einzelne Kundensegmente aufsummiert oder auch für alle Kunden.
  • Abhängigkeitsanalysen (z.B. Korrelationsanalysen oder Regression): Hierbei werden Abhängigkeiten zwischen zwei Variablen berechnet, z.B. zwischen Alter und gemachtem Umsatz. Kaufen ältere Kunden mehr von einem bestimmten Produkt oder eher weniger?

Zusammenhänge, die man in den Daten gefunden hat, und Schlussfolgerungen, die man gezogen hat, sollten anschließend anhand anderer Daten validiert werden. Dazu teilt man die vorhandenen Daten oft von Anfang an in zwei Gruppen auf: Die Trainings- und die Testdaten. Anhand der Trainingsdaten werden z.B. neuronale Netze trainiert und anhand der Testdaten dann geprüft, ob der erlernte Algorithmus funktioniert. Durch diese Validierung kann man vermeiden, dass Muster, die zufällig in einem Teil der Daten auftreten, als für die Grundgesamtheit gültig angesehen werden.

Werkzeuge im Rahmen der verschiedenen Data Mining Methoden

Entsprechend der Data Mining Methoden kann man auch die Data Mining Werkzeuge in verschiedene Kategorien einteilen:

  • Statistik-Software unterstützt die üblichen statistischen Verfahren wie die Regressions- und Korrelationsanalyse sowie multivariate Analysen, z.B. Data Mining mit R oder SPSS Auswertung.
  • Künstliche Intelligenz erlaubt die Muster- und Regelerkennung, insbesondere Software für maschinelles Lernen wie Data Mining mit RapidMiner.
  • Cluster-Analyse-Werkzeuge finden Cluster in den Daten.
  • Werkzeuge zur Sprachverarbeitung analysieren natürlichsprachliche Texte.
  • Daten-Visualisierungswerkzeuge stellen Daten und deren Eigenschaften grafisch dar.

Nähere Informationen zu diesen Werkzeugtypen und zugehörigen Werkzeugen finden Sie hier.

Allgemeines zum Data Mining?

Data Mining ist ein Oberbegriff für Verfahren, die aus Daten Wissen erzeugen. Daten sind Zahlen, Wörter, Bilder, Fakten. Erst durch eine vernetzte Auswertung dieser Daten entsteht nützliches, zweckbezogenes Wissen, das hilft, Entscheidungen zu treffen oder das anderweitig genutzt werden kann. Es geht dabei darum, Fakten zu beschreiben, Zusammenhänge zu erklären und zukünftige Entwicklungen vorzusagen. Im Gegensatz zu statistischen Verfahren, die Hypothesen prüfen (validieren), kann Data Mining zusätzlich auch Hypothesen aus den Daten erzeugen.
Das Ziel des Data Mining ist es, Muster und Regeln in großen Datenmengen zu entdecken, Abhängigkeiten zwischen Daten in Form von Gruppen (Clustern), Formeln, Korrelationen, Regelmäßigkeiten (Mustern) und zeitlichen Trends.
Data Mining findet seinen Einsatz in der Grundlagenforschung genauso wie in der angewandten Forschung, in der Marktforschung, Produktionsoptimierung, im Gesundheitswesen und überall dort, wo große Datenmengen erzeugt werden. Data Mining beantwortet typischerweise Fragestellungen wie: Welche Faktoren beeinflussen, dass ein Kunde einen Kredit zurück bezahlt? Welche Faktoren verursachen eine bestimmte Krankheit oder beschleunigen die Heilung? Welche Produkte wird eine bestimmte Person mit der höchsten Wahrscheinlichkeit kaufen?
Solches Wissen unterstützt die Planung von Marketingaktionen, Prognosen, Betrugserkennung, Business Intelligence und viele andere geschäftliche Tätigkeiten.