In diesem Artikel geht es um die Software, die Data Mining unterstützt. Dazu wird zunächst diskutiert, warum man im Data Mining Software Unterstützung braucht und welche Typen von Software bei der Datenauswertung im Data Mining unterstützen. Anschließend werden einige wenige Werkzeuge kurz beschrieben, und dann folgen Links zu den genannten Werkzeugen und zu weiteren Werkzeuglisten.

Sollten Sie Unterstützung bei der Auswertung mit Data Mining Software benötigen, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.

Lassen Sie uns Ihre Anforderungen wissen & wir erstellen Ihnen innerhalb weniger Stunden ein kostenfreies Angebot.

Jetzt unverbindlich anfragen

Warum braucht man Data Mining Software?

Beim Data Mining werden große Datenmengen ausgewertet. Dabei geht man in mehreren Schritten vor, und in jedem Schritt wird Software benötigt. Beispielsweise, um die Daten aus verschiedenen Quellen (z.B. Datenbanken) in eine einzige zusammenzuführen. Skripte helfen, Daten zu bereinigen oder zu codieren. Visualisierungswerkzeuge stellen die Daten anschaulich dar. Wir konzentrieren uns hier jedoch auf die Software, welche die eigentlichen Auswertungen unterstützt. Auch diese sind händisch nicht zu leisten, zumal die explorative Mustersuche in den Daten vielfältige Auswertungen verlangt.

Typen von Data Mining Software für die Datenauswertung

Das Ziel des Data Mining besteht darin, Muster und Regeln in großen Datenmengen zu entdecken, Abhängigkeiten zwischen Daten in Form von Gruppen (Clustern), Formeln, Korrelationen, Regelmäßigkeiten und zeitlichen Trends. Zum Einsatz kommen hier statistische und mathematische Verfahren sowie künstliche Intelligenz (z.B. neuronale Netze).
Entsprechend kann man auch die Software, welche Data Mining unterstützt, in verschiedene Kategorien einteilen:

  • Statistik-Software unterstützt die üblichen statistischen Verfahren wie die Regressions- und Korrelationsanalyse sowie multivariate Analysen, z.B. R oder SPSS.
  • Künstliche Intelligenz erlaubt die Muster- und Regelerkennung, insbesondere Software für maschinelles Lernen wie Neural Designer, KNIME (Konstanz Information Miner), RapidMiner, Weka (Waikato Environment for Knowledge Analysis), OpenNN und Gnome Data Mine Tools.
  • Cluster-Analyse-Werkzeuge wie Clustan, ELKI (Environment for DeveLoping KDD-Applications Supported by Index-Structures), TANAGRA, CLUTO und Databionic ESOM Tools finden Cluster in den Daten.
  • Werkzeuge zur Sprachverarbeitung wie NLTK (Natural Language Toolkit) analysieren natürlichsprachliche Texte.
  • Daten-Visualisierungswerkzeuge wie Orange stellen Daten und deren Eigenschaften grafisch dar.
  • Außerdem gibt es noch Suiten, die mehrere solcher Funktionalitäten im selben Tool vereinen wie Data Melt, ADaM (Algorithm Development and Mining system) und CMSR Data Miner Suite.

Einige typische Data Mining Werkzeuge: RapidMiner, ELKI, NLTK, Orange und DataMelt

Die folgenden fünf Werkzeuge stehen jedes exemplarisch für einen Typ von Data Mining Software:
RapidMiner ist eine integrierte Umgebung für maschinelles Lernen, für die Analyse von Text und von allen anderen Daten. Mit mehr als 250000 aktiven Benutzern ist es eines der am weitesten verbreiteten Data Mining Tools.
ELKI ist ein Werkzeug zur automatischen Cluster-Bildung und Ausreißer-Erkennung. Seine Algorithmen sind parametrisierbar und unterstützen effizient auch die Auswertung großer Datenmengen. Verschiedene Algorithmen und Abstandsfunktionen können hier getestet werden.
NLTK analysiert natürlichsprachliche Texte mit Hilfe von Python-Programmen. Es bietet auch Schnittstellen zu Wörterbüchern. Es kann Wörter klassifizieren, markieren, suchen, statistisch und semantisch analysieren.
Orange unterstützt Data Mining auf zwei Arten: durch visuelle Programmierung und durch Python-Skripte. Es hat auch Komponenten für das maschinelle Lernen und Clustering sowie Add-ons für die Textanalyse. Orange unterstützt eine Vielzahl an Visualisierungen.
DataMelt ist eine mathematische Software für numerische Berechnungen, Statistik, symbolische Analyse und Datenvisualisierung.

Links zu den genannten Data Mining Werkzeugen

Links zu weiteren Werkzeug-Listen für Data Mining