In diesem Artikel geht es um die Software, die Data Mining unterstützt. Dazu wird zunächst diskutiert, warum man im Data Mining Software Unterstützung braucht und welche Typen von Software bei der Datenauswertung im Data Mining unterstützen. Anschließend werden einige Werkzeuge kurz beschrieben. Links zu den genannten Werkzeugen und zu weiteren Werkzeuglisten runden den Artikel ab.
Data Mining Methoden sind für Unternehmen zur unumgänglichen Notwendigkeit geworden: Data Mining eigent sich hervorragend, um hohe Datenmengen hinsichtlich Trends und wiederkehrenden Muster zu untersuchen und daraus anschließend wichtige Kundeninformationen abzuleiten. Aufgrund der aus den Datenanalysen abgeleiteten Erkenntnisse können durch die Data Mining Klassifikation beispielsweise Kundenprofile und Buyer-Personas erstellt und Marketingforschung betrieben werden. Doch welche Data Mining Tools und Data Mining Methoden sollte man dafür im Unternehmen einsetzen? Das ideale Data Mining Tool hängt schließlich stark von den spezifischen Anforderungen im Unternehmen ab. Dieser Artikel bietet daher eine Übersicht über die besten Data Mining Tools von Rapidminer über KNIME bis SAS und bespricht deren Vor- und Nachteile.
Sollten Sie Unterstützung bei der Auswertung mit Data Mining Software benötigen, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.
Warum braucht man Data Mining Software?
Beim Data Mining werden große Datenmengen (Big Data) ausgewertet. Dabei geht man in mehreren Schritten vor, und in jedem Schritt wird Software benötigt. Beispielsweise, um die Daten aus verschiedenen Quellen (z.B. Datenbanken) in eine einzige zusammenzuführen. Skripte helfen, Daten zu bereinigen oder zu codieren. Visualisierungswerkzeuge stellen die Daten anschaulich dar. Wir konzentrieren uns hier jedoch auf die Software, welche die eigentlichen Auswertungen unterstützt.
Typen von Data Mining Software für die Datenauswertung
Das Ziel des Data Mining besteht darin, Muster und Regeln in großen Datenmengen zu entdecken, Abhängigkeiten zwischen Daten in Form von Gruppen (Clustern), Formeln, Korrelationen, Regelmäßigkeiten und zeitlichen Trends. Zum Einsatz kommen hier statistische und mathematische Verfahren sowie künstliche Intelligenz (z.B. neuronale Netze).
Entsprechend kann man auch die Software, welche Data Mining unterstützt, in verschiedene Kategorien einteilen:
- Statistik-Software unterstützt die üblichen statistischen Verfahren wie die Regressions- und Korrelationsanalyse sowie multivariate Analysen, z.B. R oder SPSS.
- Künstliche Intelligenz erlaubt die Muster- und Regelerkennung, insbesondere Software für maschinelles Lernen wie Neural Designer, KNIME (Konstanz Information Miner), RapidMiner, Weka (Waikato Environment for Knowledge Analysis), OpenNN, Tensorflow und Gnome Data Mine Tools.
- Cluster-Analyse-Werkzeuge wie ELKI (Environment for DeveLoping KDD-Applications Supported by Index-Structures), TANAGRA, CLUTO und Databionic ESOM Tools finden Cluster in den Daten.
- Werkzeuge zur Sprachverarbeitung wie NLTK (Natural Language Toolkit) analysieren natürlichsprachliche Texte.
- Daten-Visualisierungswerkzeuge wie Orange stellen Daten und deren Eigenschaften grafisch dar.
- Außerdem gibt es noch Suiten, die mehrere solcher Funktionalitäten im selben Tool vereinen wie Data Melt, ADaM (Algorithm Development and Mining system) und CMSR Data Miner Suite.
Data Mining Software im Vergleich
Die folgenden fünf Werkzeuge stehen jedes exemplarisch für einen Typ von Data Mining Software:
Rapid Miner
RapidMiner ist eine integrierte Umgebung für maschinelles Lernen, für die Analyse von Text und von allen anderen Daten. Mit mehr als 250.000 aktiven Benutzern ist es eines der am weitesten verbreiteten Data Mining Tools. Außerdem ist es eines der besten Vorhersageanalysesysteme auf dem Markt. Wir können Tools für Business Intelligence, Forschung und Anwendungsentwicklung verwenden. RapidMiner wurde nach einem Open-Source-Modell entwickelt und wird sowohl vor Ort als auch in privaten Cloud-Infrastrukturen angeboten. Funktioniert außerdem mit vorlagenbasierten Frameworks, die die Bereitstellung beschleunigen.
RapidMiner ist in Java verfasst und enthält über 500 Operatoren mit diversen Ansätzen für das Ermitteln von Zusammenhängen in Daten. Das Tool umfasst vier Module: RapidMiner Studio, RapidMiner Auto Model, RapidMinder Server und RapidMiner Radoop. Diese Module sind in einer kostenfreien und in einer kostenpflichtigen Version erhältlich. RapidMiner kann ohne Programmierkenntnisse angewendet werden. Es besteht allerdings eine hohe Lernkurve.
Dieses Data Mining Tool umfasst Optionen für Data-, Text- und Web-Mining und für Stimmungsanalysen (Sentiment Analysis oder Opinion-Mining). Zudem können Excel-Tabellen oder SPSS-Dateien und Datensätze aus R-Studio und WEKA (Waikato Environment for Knowledge Analysis) integriert werden. Alle herausgefilterten Informationen lassen sich dabei mit Hilfe von RapidMiner visualisieren und für die Weiterverarbeitung optimieren. Die Stärke von RapidMiner liegt in der Prognose künftiger Entwicklungen (Predictive Analytics). Die Schwäche von RapidMiner liegt darin, dass hohe Datenmengen nur schwer bewältigt werden können. Zudem bietet RapidMiner keine Möglichkeit, die mit unterschiedlichen Verfahren erstellten Modelle automatisch zu vergleichen. Beim Einsatz in der Praxis ist dieses Data Mining Tool im Vergleich zu den anderen hier vorgestellten Tools allerdings relativ langsam.
Wünschen Sie Beratung bei der Wahl des Data Mining Tool und der optimalen Vorgehensweise für Ihr Data Mining Projekt? Novustat Experten bietet professionelle Beratung zum Thema Data Mining und unterstützen Sie bei allen Schritten des Projektes bis zum erfolgreichen Abschluss. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.
ELKI
ELKI ist ein Werkzeug zur automatischen Cluster-Bildung und Ausreißer-Erkennung. Seine Algorithmen sind parametrisierbar und unterstützen effizient auch die Auswertung großer Datenmengen. Verschiedene Algorithmen und Abstandsfunktionen können hier getestet werden. ELKI ist eine Open Source Data Mining Software, die in Java geschrieben wurde. Der Schwerpunkt von ELKI liegt auf der Forschung an Algorithmen, wobei der Schwerpunkt auf unbeaufsichtigten Methoden in der Clusteranalyse und Ausreißererkennung liegt. Um eine hohe Leistung und Skalierbarkeit zu erzielen, bietet ELKI Datenindexstrukturen wie den R*-Baum an, die erhebliche Leistungssteigerungen bieten können. ELKI ist so konzipiert, dass es für Forscher und Studenten in diesem Bereich einfach erweitert werden kann, und begrüßt Beiträge zu zusätzlichen Methoden. ELKI zielt darauf ab, eine große Sammlung von hochparametrierbaren Algorithmen zur Verfügung zu stellen, um eine einfache und faire Auswertung und Benchmarking von Algorithmen zu ermöglichen.
NLTK
NLTK ist eine Data Mining Software für die Sprachverarbeitung. Es analysiert natürlichsprachliche Texte mit Hilfe von Python-Programmen. So bietet NLTK auch Schnittstellen zu Wörterbüchern. Es kann Wörter klassifizieren, markieren, suchen, statistisch und semantisch analysieren.
Orange
Orange ist ein bereits über 20 Jahre altes OpenSource-Data Mining Tool und wurde in C++ verfasst. Zugriffssprache ist die Programmiersprache Python, aber komplexere Operationen werden in C++ ausgeführt. Orange umfasst viele Anwendungen für die Daten- und Textanalyse sowie Funktionen für ML. In Orange können außerdem auch verschiedene Arten der Data Mining Klassifikation eingesetzt werden (Regression und Clustering). Orange umfasst zudem eine Datenvisualisierung und ist leicht zu erlernen, weil viele Online-Tutorials für Neueinsteiger in das Data Mining angeboten werden.
Orange unterstützt Data Mining auf zwei Arten: durch visuelle Programmierung und durch Python-Skripte. Es hat auch Komponenten für das maschinelle Lernen und Clustering sowie Add-ons für die Textanalyse. Orange unterstützt eine Vielzahl an Visualisierungen. Interaktive Datenexploration für schnelle qualitative Analysen mit sauberen Visualisierungen. Grafische Benutzeroberfläche ermöglicht es, sich auf explorative Datenanalyse statt Codierung zu konzentrieren, während Standardeinstellungen das schnelle Prototyping eines Datenanalyse-Workflows vereinfachen.
DataMelt
DataMelt bzw DMelt ist eine Data Mining Software für numerische Berechnung, Statistik, Analyse großer Datenmengen (“Big Data”) und wissenschaftliche Visualisierung. Das Programm kann in vielen Bereichen eingesetzt werden, wie z.B Naturwissenschaften, Ingenieurwesen, Modellierung und Analyse von Finanzmärkten. Anwender können somit DataMelt mit verschiedenen Programmiersprachen auf verschiedenen Betriebssystemen verwenden. Im Gegensatz zu anderen statistischen Programmen ist es überdies nicht auf eine einzige Programmiersprache beschränkt. DMelt läuft auf der Java-Plattform, kann aber auch mit der Python verwendet werden. DataMelt läuft unter Windows-, Linux-, Mac- sowie Android-Betriebssystemen. Die Android-Anwendung heißt AWork. DataMelt ist auch in der Amazon EC2-Cloud verfügbar.
WEKA
WEKA ist ein Open Source-Data Mining Tool. Es basiert ebenfalls auf Java und ist mit allen Betriebssystemen kompatibel. Das Data Mining Tool beinhaltet dabei diverse Funktionen des maschinellen Lernens (ML) und unterstützt außerdem alle erforderlichen Data Mining Funktionen wie Clustering, Assoziation, Regression und Klassifikation. Der Zugang erfolgt über eine nutzerfreundliche grafische Oberfläche. Zudem bietet WEKA Anschluss für SQL-Datenbanken und kann angeforderte Daten aus diesen Quellen weiterverarbeiten. Die Stärke von WEKA ist die Data Mining Klassifikation mit Hilfe von Neuronalen Netzen (NN) und Entscheidungsbäumen. Die Schwäche von WEKA ist allerdings die Clusteranalyse, für die nur einige Methoden enthalten sind. Weitere Schwächen zeigen sich, wenn hohe Datenmengen bewältigt werden müssen, weil alle Daten in den Arbeitsspeicher von WEKA geladen werden.
KNIME
KNIME (Konstanz Information Miner) ist ebenfalls ein Open Source-Data Mining Tool, dass auf Java basiert und mit Eclipse aufbereitet wurde. Das Data Mining Tool umfasst mehr als 1.000 Module und vorgefertigte Anwendungspakete, die sich jeweils erweitern lassen. Die Stärke dieses Data Mining Tools liegt in der integrativen Datenanalyse und in der Datenvorverarbeitung wie Extraktion, Transformation und dem Laden (ETL) von Daten. Trotz zahlreicher Funktionen eignet sich KNIME ebenfalls für Neueinsteiger, weil es nur eine kurze Einarbeitungszeit beinhaltet. KNIME existiert in einer kostenlosen Basis-Version und als kostenpflichtiges Programm.
SAS
SAS (Statistical Analysis System) gilt als führendes Data Mining Tool für Unternehmensanalysen, ist jedoch das kostenintensivste. Die Stärke von SAS liegt in der Prognose sowie in der interaktiven Datenvisualisierung, die auch für große Präsentationen genutzt werden kann. Eine weitere Stärke des Data Mining Tools ist außerdem die hohe Skalierbarkeit und Leistungsfähigkeit, die sich über das Addieren von Hardware oder anderen Ressourcen erweitern lässt. Weniger technisch affine Nutzer profitieren von der grafischen Nutzeroberfläche. SAS kann allerdings ausschließlich unter der Nutzung der SAS-Lizenz verwendet werden. Die Kosten für Behörden oder Bildungseinrichtungen lassen sich dabei auf Anfrage regeln. Zudem kann der Funktionsumfang individuell angepasst werden, um den Preis zu senken.
Data Mining Tools und Methoden: Vor- und Nachteile in der Übersicht
Die Vor- und Nachteile der vorgestellten Tools werden in der nachfolgenden Tabelle aufgeführt.
Data Mining Tool | Vorteile | Nachteile |
---|---|---|
RapidMiner | Java-basiert > 500 Operatoren und Funktionen Data-, Text- und Web-Mining, Opinion Mining und Sentiment Analyse Import von Excel- und SPSS-, R- und WEKA-Dateien Visualierung möglich Prognosen (Predictive Analytics) Kostenfreie und kostenpflichtige Versionen aller 4 Module Ohne Programmierkenntnisse anwendbar Grafische Nutzeroberfläche |
Bewältigung hoher Datenmengen schwierig Vergleich der mit diversen Verfahren erstellten Modelle nicht möglich Langsam Hohe Lernkurve trotz Nutzung ohne Programmierkenntnisse |
WEKA | Java-basiert Open Source Assoziation, Regression Diverse Arten der Data Mining Klassifikation möglich (z.B. Neuronale Netze und Entscheidungsbäume) Grafische Nutzeroberfläche Anschluss für SQL-Datenbanken |
Clustering Bewältigung hoher Datenmengen schwierig |
Orange | C++-basiert Anwendungssprache Python Open Source Daten- und Textanalyse Regression, Clustering Datenvisualisierung leicht erlernbar Video-Tutorials für Neueinsteiger |
über 20 Jahre alt |
KNIME | Open Source Java-basiert > 1.000 Module & vorgefertigte Anwendungspakete Integrative Datenanalyse Datenvorbereitung (ETL) Kostenfreie und kostenpflichtige Version leicht erlernbar |
|
SAS | Geeignet für den Einsatz in großen Unternehmen Prognosen (Predictive Analytics) Interaktive Datenanalyse Hohe Skalierbarkeit Spezielle Konditionen möglich wie beispielsweise Lizenz für ein Jahr oder besondere Konditionen für Behörden Funktionsumfang anpassbar an Unternehmensanforderungen oder hinsichtlich Kosten |
kostenintensiv, nur Bezahlversion mit Lizenz |
Zusammenfassung
Zusammenfassend haben wir verschiedene Typen von Data Mining Software Systemen beispielsweise vorgestellt. Data Mining Software Systems versucht dabei, die aktuell umfassendste Komplettlösung zu bieten. Daher ist es obligatorisch, Data Mining Software Systeme auf von der Basis angefangen zu lernen und zu verstehen.
Sollten Sie Unterstützung bei der Auswahl von Data Mining Software oder der Anewndung von Data Mining Schritten mit den unterschiedlichen Software Systemen haben, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.
Häufig gestellte Fragen
Links zu den genannten Data Mining Werkzeugen
- R: https://cran.r-project.org/
- R-Pakete für das maschinelle Lernen: https://cran.r-project.org/web/views/MachineLearning.html
- RStudio, die Grafikoberfläche für R: https://rstudio.com/
- Rattle: eine andere Grafikoberfläche für R: http://togaware.com/projects/rattle//
- Neural Designer: https://www.neuraldesigner.com
- RapidMiner: https://sourceforge.net/projects/rapidminer/
- Weka: https://ml.cms.waikato.ac.nz/weka/
- OpenNN: https://www.opennn.net/
- Gnome Data Mine Tools: https://www.togaware.com/datamining/gdatamine/
- ELKI: https://elki-project.github.io/
- TANAGRA: https://en.wikipedia.org/wiki/Tanagra_(machine_learning)
- CLUTO: http://glaros.dtc.umn.edu/gkhome/cluto/cluto/overview
- Databionic ESOM Tools: http://databionic-esom.sourceforge.net
- NLTK: https://www.nltk.org/
- Orange: https://orangedatamining.com/
- DataMelt: https://datamelt.org/
- ADaM: http://projects.itsc.uah.edu/datamining/adam/
- CMSR Data Miner Suite: http://www.roselladb.com/starprobe.htm
Links zu weiteren Werkzeug-Listen für Data Mining
- Top 15 Free Data Mining Tools: https://www.softwaretestinghelp.com/data-mining-tools/
- Free Data Mining Tools: http://www.rdatamining.com/resources/tools
- Software Suites for Data Mining, Analytics, and Knowledge Discovery (kommerzielle und kostenlose): https://www.kdnuggets.com/2022/03/top-data-science-tools-2022.html
Weiterführende Quellen:
Hippner, H. (Hrsg.) (2009): Handbuch Data Mining im Marketing
Kumar, V. und Reinartz, W. (2018): Customer Relationship Management: Concept, Strategy, and Tools