In diesem Artikel geht es um die Software, die Data Mining unterstützt. Dazu wird zunächst diskutiert, warum man im Data Mining Software Unterstützung braucht und welche Typen von Software bei der Datenauswertung im Data Mining unterstützen. Anschließend werden einige Werkzeuge kurz beschrieben. Links zu den genannten Werkzeugen und zu weiteren Werkzeuglisten runden den Artikel ab.

Sollten Sie Unterstützung bei der Auswertung mit Data Mining Software benötigen, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.

Lassen Sie uns Ihre Anforderungen wissen & wir erstellen Ihnen innerhalb weniger Stunden ein kostenfreies Angebot.


Jetzt unverbindlich anfragen

Warum braucht man Data Mining Software?

Beim Data Mining werden große Datenmengen (Big Data) ausgewertet. Dabei geht man in mehreren Schritten vor, und in jedem Schritt wird Software benötigt. Beispielsweise, um die Daten aus verschiedenen Quellen (z.B. Datenbanken) in eine einzige zusammenzuführen. Skripte helfen, Daten zu bereinigen oder zu codieren. Visualisierungswerkzeuge stellen die Daten anschaulich dar. Wir konzentrieren uns hier jedoch auf die Software, welche die eigentlichen Auswertungen unterstützt.

Typen von Data Mining Software für die Datenauswertung

Das Ziel des Data Mining besteht darin, Muster und Regeln in großen Datenmengen zu entdecken, Abhängigkeiten zwischen Daten in Form von Gruppen (Clustern), Formeln, Korrelationen, Regelmäßigkeiten und zeitlichen Trends. Zum Einsatz kommen hier statistische und mathematische Verfahren sowie künstliche Intelligenz (z.B. neuronale Netze).
Entsprechend kann man auch die Software, welche Data Mining unterstützt, in verschiedene Kategorien einteilen:

  • Statistik-Software unterstützt die üblichen statistischen Verfahren wie die Regressions- und Korrelationsanalyse sowie multivariate Analysen, z.B. R oder SPSS.
  • Künstliche Intelligenz erlaubt die Muster- und Regelerkennung, insbesondere Software für maschinelles Lernen wie Neural Designer, KNIME (Konstanz Information Miner), RapidMiner, Weka (Waikato Environment for Knowledge Analysis), OpenNN und Gnome Data Mine Tools.
  • Cluster-Analyse-Werkzeuge wie ELKI (Environment for DeveLoping KDD-Applications Supported by Index-Structures), TANAGRA, CLUTO und Databionic ESOM Tools finden Cluster in den Daten.
  • Werkzeuge zur Sprachverarbeitung wie NLTK (Natural Language Toolkit) analysieren natürlichsprachliche Texte.
  • Daten-Visualisierungswerkzeuge wie Orange stellen Daten und deren Eigenschaften grafisch dar.
  • Außerdem gibt es noch Suiten, die mehrere solcher Funktionalitäten im selben Tool vereinen wie Data Melt, ADaM (Algorithm Development and Mining system) und CMSR Data Miner Suite.

Data Mining Software im Vergleich

Die folgenden fünf Werkzeuge stehen jedes exemplarisch für einen Typ von Data Mining Software:

Rapid Miner

Data Mining Software RapidMiner

RapidMiner ist eine integrierte Umgebung für maschinelles Lernen, für die Analyse von Text und von allen anderen Daten. Mit mehr als 250.000 aktiven Benutzern ist es eines der am weitesten verbreiteten Data Mining Tools. Außerdem ist es eines der besten Vorhersageanalysesysteme auf dem Markt. Wir können Tools für Business Intelligence, Forschung und Anwendungsentwicklung verwenden. RapidMiner wurde nach einem Open-Source-Modell entwickelt und wird sowohl vor Ort als auch in privaten Cloud-Infrastrukturen angeboten. Funktioniert außerdem mit vorlagenbasierten Frameworks, die die Bereitstellung beschleunigen.

ELKI

Data Mining Software ELKI

ELKI ist ein Werkzeug zur automatischen Cluster-Bildung und Ausreißer-Erkennung. Seine Algorithmen sind parametrisierbar und unterstützen effizient auch die Auswertung großer Datenmengen. Verschiedene Algorithmen und Abstandsfunktionen können hier getestet werden. ELKI ist eine Open Source Data Mining Software, die in Java geschrieben wurde. Der Schwerpunkt von ELKI liegt auf der Forschung an Algorithmen, wobei der Schwerpunkt auf unbeaufsichtigten Methoden in der Clusteranalyse und Ausreißererkennung liegt. Um eine hohe Leistung und Skalierbarkeit zu erzielen, bietet ELKI Datenindexstrukturen wie den R*-Baum an, die erhebliche Leistungssteigerungen bieten können. ELKI ist so konzipiert, dass es für Forscher und Studenten in diesem Bereich einfach erweitert werden kann, und begrüßt Beiträge zu zusätzlichen Methoden. ELKI zielt darauf ab, eine große Sammlung von hochparametrierbaren Algorithmen zur Verfügung zu stellen, um eine einfache und faire Auswertung und Benchmarking von Algorithmen zu ermöglichen.

NLTK

NLTK

NLTK ist eine Data Mining Software für die Sprachverarbeitung. Es analysiert natürlichsprachliche Texte mit Hilfe von Python-Programmen. So bietet NLTK auch Schnittstellen zu Wörterbüchern. Es kann Wörter klassifizieren, markieren, suchen, statistisch und semantisch analysieren.

Orange

Data Mining Software Orange

Orange unterstützt Data Mining auf zwei Arten: durch visuelle Programmierung und durch Python-Skripte. Es hat auch Komponenten für das maschinelle Lernen und Clustering sowie Add-ons für die Textanalyse. Orange unterstützt eine Vielzahl an Visualisierungen. Interaktive Datenexploration für schnelle qualitative Analysen mit sauberen Visualisierungen. Grafische Benutzeroberfläche ermöglicht es, sich auf explorative Datenanalyse statt Codierung zu konzentrieren, während Standardeinstellungen das schnelle Prototyping eines Datenanalyse-Workflows vereinfachen.

DataMelt

Data Mining Software DM

DataMelt bzw DMelt ist eine Data Mining Software für numerische Berechnung, Statistik, Analyse großer Datenmengen (“Big Data”) und wissenschaftliche Visualisierung. Das Programm kann in vielen Bereichen eingesetzt werden, wie z.B Naturwissenschaften, Ingenieurwesen, Modellierung und Analyse von Finanzmärkten. Anwender können somit DataMelt mit verschiedenen Programmiersprachen auf verschiedenen Betriebssystemen verwenden. Im Gegensatz zu anderen statistischen Programmen ist es überdies nicht auf eine einzige Programmiersprache beschränkt. DMelt läuft auf der Java-Plattform, kann aber auch mit der Python verwendet werden. DataMelt läuft unter Windows-, Linux-, Mac- sowie Android-Betriebssystemen. Die Android-Anwendung heißt AWork. DataMelt ist auch in der Amazon EC2-Cloud verfügbar.

Zusammenfassung

Zusammenfassend haben wir verschiedene Typen von Data Mining Software Systemen beispielsweise vorgestellt. Data Mining Software Systems versucht dabei, die aktuell umfassendste Komplettlösung zu bieten. Daher ist es obligatorisch, Data Mining Software Systeme auf von der Basis angefangen zu lernen und zu verstehen.

Sollten Sie Unterstützung bei der Auswahl von Data Mining Software oder der Anewndung von Data Mining Schritten mit den unterschiedlichen Software Systemen haben, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.