Gerne beraten wir Sie auch telefonisch & geben Ihnen eine kostenfreie persönliche Auskunft zu Ihrem Projekt.

X

ERP Data Mining – Ein Data Mining-Beispiel aus der Praxis

Viele Unternehmen wissen nicht, welche Schätze sich in bisher nicht genutzten Datenquellen wie beispielsweise sozialen Medien verbergen. Zudem scheut man in vielen Unternehmen den Einsatz von neuen Technologien häufig aufgrund von Sicherheitsbedenken. In diesem Artikel wollen wir deshalb anhand eines Data Mining Beispiel die vielseitigen Möglichkeiten von Data Mining Verfahren näherbringen. Dazu stellen wir Ihnen ein fiktives Unternehmen vor, dass die digitale Transformation wagt. Zudem werden Technologien vorgestellt, die im Unternehmen etabliert werden können und mit deren Hilfe sich wertvolle Quellen wie Kundeninformationen oder Buyer Personas aus sozialen Medien analysieren lassen.

Wollen Sie auch die Möglichkeiten von Data Mining für Ihr Unternehmen nutzen? Kontaktieren Sie dazu unsere Experten! Dank unserer mehrjährigen Erfahrung finden wir die optimale Data Science Lösung, genau für Ihre Fragestellung angepasst.

Lassen Sie uns Ihre Anforderungen wissen & wir erstellen Ihnen innerhalb weniger Stunden ein kostenfreies Angebot.

Jetzt unverbindlich anfragen

Data Mining Beispiel: Das fiktive Unternehmen Paperless

In diesem Blog-Artikel wird das fiktive deutschsprachige Unternehmen Paperless vorgestellt, dass alle Geschäftsprozesse manuell oder auf Papier dokumentiert. Eine technologische Kommunikation führt weder intern noch mit der Schwesterfirma. Das Unternehmen wächst jedoch sprunghaft. Damit Kunden weiterhin ein hervorragender Service geboten werden kann und um den gestiegenen Umsatzanforderungen gerecht zu werden, muss das Unternehmen sein System modernisieren und integrieren. Außerdem muss das Unternehmen seine Geschäftsprozesse optimieren. Im Folgenden evaluieren wir potenzielle technischen Lösungen und stellen die Top ERP-Data-Mining-Methoden anhand des vorgestellten Unternehmens vor.

Anforderungen des Unternehmens Paperless

Die Entwicklung in Richtung eines Data Lakes für Big Data und ERP (Enterprise Resource Planning) startet häufig mit einer Anwendung oder einem Einsatzszenario für Hadoop. Dann folgen weitere Anwendungsfälle für die Steigerung der Kundenfreundlichkeit, Effizienzsteigerungen oder ein optimiertes Risiko-Management und neue Geschäftsmodelle.

Hier dient uns das fiktive Unternehmen Paperless als Data Mining-Beispiel. Im Unternehmen soll eine 360-Grad-Sicht auf die Kunden realisiert werden. Hierzu möchte man entsprechende Data-Mining-Verfahren und Data-Mining-Analysen etablieren. Hadoop bietet durch die Kombination von fragmentierten Datensätzen eine zeitnahe und tiefe Einsicht in das Kundenverhalten. Ein mögliches Anwendungsgebiet wären hier beispielsweise soziale Medien. Der Einsatz von Hadoop kann zudem EDV-Kosten sowie die Kosten für Speicherlösungen verringern. Die unternehmensweit einsetzbare Plattform Hadoop bietet dem Unternehmen dabei Paperless die Möglichkeit, über Data-Mining-Analysen tiefere Einsichten in ihre Daten zu gewinnen. Dies wird dadurch realisiert, dass alle autorisierten Nutzer mit dem Datenpool auf diverse Arten interagieren können. Der Data Lake wirkt in unserem Data Mining-Beispiel somit analog zu einer privaten Cloud als Shared Service im Unternehmen.

Wollen Sie die Funktionalitäten von Data Mining nutzen, um mehr aus Ihren Daten zu holen? Novustat Experten bietet professionelle Beratung zum Thema Data Mining und unterstützen Sie bei allen Schritten des Projektes bis zum erfolgreichen Abschluss. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.

Aus welchen Datenquellen kann Big Data mit Hilfe von Hadoop gesammelt werden?

Big Data lässt sich damit aus sozialen Medien, Internet-Bestellungen, Weblogs, Videos, Maschinen- und Sensordaten sammeln. Diese Datenquellen wurden vom Unternehmen Paperless bisher geringfügig verwertet und als minderwertig erachtet. Diese Datenarten bieten jedoch durch die Nutzung von Data-Mining-Verfahren viele Einblicke in tägliche Geschäftsprozesse und können über Big Data-Analysen entscheidende Wettbewerbsvorteile bieten. Unter Zuhilfenahme von Hadoop können in unserem Data Mining-Beispiel jahrelang gesammelte Daten ohne Kostensteigerung gespeichert werden. Auf diese Art kann das fiktive Unternehmen Paperless temporale Big Data-Analysen oder einen Jahresvergleich von Clickstreams aufstellen. Mit Hilfe von Data-Mining-Verfahren und Data-Mining-Analysen können dabei Patterns und Trends entdeckt werden, die von der Konkurrenz eventuell übersehen werden. Zur Gewährleistung des Datenschutzes bei der Erstellung von Buyer Personas aufgrund der gewonnenen Analyse-Erkenntnisse lassen sich Pakete wie beispielsweise Celebrus oder Webtrends einsetzen. Zudem lassen sich Logfiles der Webserver analysieren und auswerten.

Wie kann das Unternehmen Paperless mit Hadoop die Kundenzufriedenheit erhöhen?

Um die Kundenzufriedenheit zu erhöhen, möchte das Unternehmen Paperless durch Daten-Mining-Verfahren und Data-Mining-Analysen Kundenmeinungen einem spezifischen Kundensegment (oder Buyer Persona) zuweisen. Das lässt sich im Data Mining-Beispiel mit dem HDFS-Datenpool (HDFS = Hadoop File System) in Kombination mit CRM-, ERP- und Clickstream-Daten realisieren. Die Resultate lassen sich mit Hilfe von BI-Werkzeugen wie beispielsweise Microsoft Excel oder Tableau visualisieren.

Wie kann Paperless im Data Mining Beispiel Kundenemotionen ermitteln?

Das Unternehmen ist außerdem an der Identifizierung von Kundenemotionen hinsichtlich Produkten und Dienstleistungen interessiert, um den Kundenservice optimieren zu können. Aus Nutzerforen lassen sich Emotionen zu Produktmarken und -typen herausfiltern. Dadurch kann man Stimmungsbilder rund um ein Produkt oder eine Dienstleistung erhalten. Auf diese Art kann das Unternehmen Paperless quantitative Messwerte für die Kundenzufriedenheit identifizieren. Der Ausgangstext lässt sich in einem UIMA-Dokument (UIMA = Unstructured Information Management Architecture) archivieren. Beispielsweise lässt sich mit Apache UIMA eine Buchstaben- oder Wort-Sequenz mit Hilfe einer Annotation kennzeichnen. Darüber wird etwa die Nennung eines Produkttyps annotiert. Es lassen sich auch Annotationen im Text hervorheben, wie Freude / <Produktmarke> oder <Produkttyp> / Kundenzufriedenheit. UIMA stellt ein Framework für die Programmierung von Data-Mining-Verfahren für die Wissensextraktion dar und ermöglicht einen Schnellzugriff auf Annotationen, die als XML-Dokument ausgelagert werden können. Die einzelnen Stufen der Sprachverarbeitung und der Analyse werden in der folgenden Tabelle dargestellt.

Stufen der Sprachverarbeitung und -analyse

VerarbeitungsstufeEmotion-Analyse
Download, Bereinigung, NormalisierungBeiträge zu ausgewählten Produktmarken downloaden, HTML-Code entfernen
Anreicherung mit MetadatenProduktmarke, Datum, Diskussionsthread
SpracherkennungNicht erforderlich, weil deutschsprachig
SatzsegmentierungIm Einsatz
Wortstammreduktion
Lemmatisierung
POS-TaggingWortartenerkennung im Einsatz
Parsing
Konferenzauflösung
Eigennamen-ErkennungOrt und Personen (mit Aliasnamen)
Domänenspezifische EigennamenProduktmarken und -typen, Einzelteile und Werkzeuge
Topic-ModellIm Einsatz
PhrasenextraktionIdentifikation von Textphrasen hinsichtlich Emotionen
RelationsextraktionRelation zwischen Produktmarke oder -typ bzw. Einzelteile und Emotionen

Auf diese Art kann das Unternehmen Paperless eine Übersicht über Kundenemotionen in Relation zu bestimmten Produktmarken oder -typen oder Einzelteilen gewinnen. Auf diese Art kann zudem ermittelt werden, in welcher Häufigkeit bestimmte Emotionen hinsichtlich Produktmarken und -typen oder für eine bestimmte Buyer Persona genannt werden.

Gibt es alternative Datenanalyse-Möglichkeiten für das Unternehmen?

In unserem Data Mining Beispiel kann das Unternehmen Paperless auch auf das Server-Logdaten-Management zurückgreifen. Das Server-Logdaten-Management beinhaltet das Sammeln, die Aggregation, die Langzeit-Speicherung, die Logdaten-Analyse in Echtzeit und im Batch-Betrieb, die Suche in Logdaten sowie daraus erstellte Berichte. Logdaten-Quellen sind beispielsweise Betriebssysteme, Applikationen, Netzwerkgeräte oder Sicherheits- und Überwachungssysteme. Weitere Logdaten werden von Host-Systemen für virtuelle Server geliefert.

Vorteile des Server-Logdaten-Managements

Damit erhöhen sich das Volumen von Big Data und die Logformate, aber die Potenziale für eine sinnvolle Datenanalyse werden dadurch geschmälert. Das gilt insbesondere für die Korrelation von Logdaten, wenn Situationen beurteilt oder eine Analyse von Fehlerzuständen erforderlich ist. Über eine Zentralisierung werden diese Daten für das Unternehmen Paperless verfügbar und auswertbar. Die Datenzentralisierung ist die Basis für die Kontrolle und Kapazitätsplanung des IT-Betriebs des Unternehmens. Außerdem basiert auch die Ausführung von Sicherheitsmaßnahmen und die Protokollierung der Einhaltung von Datensicherheits-Richtlinien auf der Datenzentralisierung. Die Analyse und Auswertung von Logdaten bieten eine Möglichkeit des Nachweises für die Spurensuche nach IT-Sicherheitsvorfällen.

Welche weiteren Vorteile ergeben sich im Data Mining Beispiel Paperless?

Durch die Logdaten-Korrelation aus unterschiedlichen Datenquellen kann man Relationen innerhalb der Daten sichtbar machen. Ein System für die Analyse und Auswertung von Logdaten kann dabei Auffälligkeiten im Zeitverlauf erkennen, eingrenzen und detailliert analysieren (Englisch: Drill-Down). Existieren zu lange Latenzzeiten, dann kann über eine Querschnittbetrachtung ermittelt werden, an welchem Punkt parallel Lastspitzen im System auftreten, die Hinweise auf bestehende Schwachstellen bedeuten.

Die Analyse und Auswertung der Verläufe von Kennlinien auf der Grundlage alter und aktueller Logdaten erlaubt Kenngrößen-Projektionen und damit eine IT-gesteuerte Kapazitätsplanung für das Unternehmen Paperless. Die Geschwindigkeit des Ressourcenverbrauchs wird über die grafische Visualisierung sichtbar. So kann man Schwachstellen ermitteln und Maßnahmen für die Verbesserung einleiten. Anschließend kann man solche Maßnahme auch auf ihre Wirksamkeit kontrollieren.

Welche Hürden bestehen bei dieser Methode?

Die erste Barriere ist das Einsammeln der Logdaten. Je nach Quellsystem existieren diverse Anwendungen für die Bereitstellung von Logdaten über eine Netzwerkschnittstelle in standardisierter Form wie beispielsweise die diversen syslog-Versionen. Allerdings können nur wenige in der Anwendung existierende Applikationen den syslo-Dienst für das Logging verwenden. In der Praxis kommen dafür separate Logdateien zu Einsatz, die bezüglich Struktur und Inhalt stark unterschiedlich sind.

Für Beweiszwecke werden Daten in Rohform wie beispielsweise im HDFS-Format archiviert. Eine Zusammenfassung diverser Quellen in gemeinsame Daten ist realisierbar, wenn die Ursprungsquelle identifizierbar bleibt. Andere Logdaten werden in Speichermedien für eine schnelle Durchsuchung mit Hilfe von Indizes oder NoSQL-Datenbanken archiviert. Für die Vereinfachung von Transaktionen ist es vorteilhaft, wenn man Logdaten aggregiert (beispielsweise mit Hadoop Map Reduce-Werkzeugen). Somit kann man hohe Datenvolumina immer noch effizient verarbeiten.

Das Unternehmen Paperless kann die Integration der einzelnen Verarbeitungsstufen auch mit Hilfe von Zusatzprogrammen wie Pig oder Hive realisieren, die die entsprechende Verarbeitungssequenz erstellen. Die daraus resultierenden Daten kann man somit für die weitere Analyse archivieren. Für das Unternehmen Paperless ist die Logdaten-Analyse aufgrund der Visualisierungsmöglichkeiten von Relationen daher ebenfalls interessant.

Wie kann eine papierlose Kommunikation sichergestellt werden?

Eine papierlose Kommunikation innerhalb und außerhalb des Unternehmens (mit Kunden, dem Schwesterunternehmen sowie Stakeholdern) lässt sich mit Hilfe der Implementierung eines Business Intelligence (BI)-Systems realisieren, dass ein Intranet mit Zugriffsrechten und -rollen ermöglicht.

Fazit: ERP Data Mining Beispiel anhand des Unternehmens Paperless

In diesem Data Mining-Beispiel haben wir das fiktive Unternehmen Paperless vorgestellt. Dieses Unternehmen wollte ein IT-System implementieren, damit es dem eigenen sprunghaften Wachstum gerecht wird und die Kundenzufriedenheit steigern kann. Empfohlen wurde hierfür die Implementierung eines Data Lakes für ein ERP-System (das ggf. ebenfalls etabliert werden muss) und Hadoop, um einen tieferen Einblick in Kundeninformationen und -verhalten sowie Emotionen von Kunden hinsichtlich Produktmarken und -typen beispielsweise aus sozialen Medien zu gewinnen. Zudem wurde die Integration oder Etablierung eines BI-Systems für eine papierlose interne und externe Kommunikation mit Kunden, dem Schwesterunternehmen und Stakeholdern ermöglicht. Die durch die Analyse von Daten aus sozialen Medien und Logdaten gewonnenen Erkenntnisse kann das Unternehmen beispielsweise für die Erstellung von Buyer Personas nutzen und als Wettbewerbsvorteil gegenüber der Konkurrenz nutzen.

Novustat berät Sie gerne bei der Auswahl der Data-Mining-Verfahren, die dazu geeignet sind, die erwähnten Datenschätze in Ihrem Unternehmen zu heben und außerdem für die Erstellung einer Buyer Persona geeignet sind.

Weiterführende Quellen:

Cleve, Jürgen & Lämmel, Uwe: Data Mining

Freiknecht, Jonas & Papp, Stefan: Big Data in der Praxis: Lösungen mit Hadoop, Spark, HBase und Hive. Daten speichern, aufbereiten, visualisieren