Mit Big Data bezeichnet man branchenunabhängig große Datenmengen bzw. deren Auswertung. Big Data kommt überall dort zum Einsatz, wo sich große Datenmangen ohnehin ansammeln: Im Marketing, im Internet, durch Sensoren, in der Produktion, in Krankenhäusern, im Sicherheitsbereich. Big Data Mining hilft Unternehmen dabei, frühzeitig schädliches Verhalten (z.B. systematische Fehler oder Betrug), aber auch positive Stimmungen zu entdecken und für sich zu nutzen. Die Ergebnisse der Big Data Auswertungen unterstützen die Planung von Cross Selling, die Kundensegmentierung, Prognosen, Qualitätssicherung, Betrugserkennung und Business Intelligence. Aber auch der Wissenschaft stehen durch Big Data große Datenmengen zur Verfügung.

Sollten Sie Unterstützung bei einem Data Mining Projekt benötigen, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.

Lassen Sie uns Ihre Anforderungen wissen & wir erstellen Ihnen innerhalb weniger Stunden ein kostenfreies Angebot.

Jetzt unverbindlich anfragen

Unsere Stärken liegen insbesondere bei der Analyse und Prognose großer Datenmengen – der Big Data Analytics und Big Data Predictive Analytics. Jedoch können wir zu jeder Phase des Big Data Projektes helfen.

Phasen des Big Data Projektes & wie Novustat helfen kann

  • Formulieren der Fragestellung : Ohne klare Frage keine klare Antwort. Die Fragestellung muss manchmal auch iterativ gefunden werden, indem man explorativ die Daten untersucht und anschließend die Frage konkretisiert. Hier kann Novustat Data Mining Beratung leisten.
  • Auswahl und Zusammenführen der Daten aus verschiedensten Quellen: Dazu gehört auch der Export von Daten aus IT-Systemen und deren Import in einer einzigen Datenbank, die technische Umformatierung und die inhaltliche Umcodierung. Teilweise lassen können wir diese Tätigkeiten für Sie automatisieren, teilweise müssen sie händisch ausgeführt werden.
  • Planung und Durchführung der Datenbereinigung: Gerade weil die Daten aus verschiedenen Quellen stammen und gar nicht für den Zweck der Auswertung erhoben wurden, lässt deren Qualität zu wünschen übrig. Darum müssen unvollständige Datensätze vervollständigt oder entfernt werden, Dubletten bereinigt oder zusammengehörige Daten gefunden und integriert werden. Kann man für die Datenbereinigung Regeln definieren, lässt sich diese Tätigkeit werkzeugunterstützt automatisieren.
  • Auswahl der richtigen Analyse-Methode: Zur verfügung stehen vielfältige statistische Verfahren sowie Data Mining Methoden wie z.B. Clustering. Kompetent auszuwählen sind aber auch das passende Werkzeug, die Hardware und der Auswertungsalgorithmus (z.B. Hadoop, MapReduce), die zur Datenmenge und Auswertung passen.
  • Durchführen der Auswertung: Nun wird mit Hilfe des gewählten Werkzeugs die entsprechende Methode ausgeführt und die Durchführung protokolliert. Die gestellte Frage wird beantwortet. Gegebenenfalls muss für die Auswertung ein Skript programmiert werden.
  • Optimierung der Auswertungsdauer: Die Auswertung von Big Data benötigt wegen der großen Datenmenge auch entsprechend viele Ressourcen in Form von Hardware und Rechenzeit. Gerade bei Auswertungen, die regelmäßig wiederholt ausgeführt werden sollen, lohnt eine Optimierung durch die Verbesserung des Algorithmus.
  • Validierung der gefundenen Ergebnisse anhand weiterer Daten: Der Vorteil der großen Datenmengen besteht darin, dass man die Daten zu zwei verschiedenen Zwecken verwenden kann: Den einen Teil für die Auswertung und den zweiten Teil für die Überprüfung, ob auch diese Daten zu denselben Schlussfolgerungen führen.
  • Interpretation der Ergebnisse : Die Ergebnisse der Auswertung beantworten die anfangs gestellte Frage. Sie müssen dann noch auf ihre statistische Signifikanz analysiert werden. Damit kann die Zuverlässigkeit der Antwort quantifiziert werden. Zur Interpretation gehört auch das Formulieren von Schlussfolgerungen, wozu Branchenwissen nötig ist.
  • Zielgruppenspezifische Darstellung der Ergebnisse: Die Ergebnisse des Projektes ßießen dann in einen Abschlussbericht ein oder werden als Präsentation vorgestellt. Auch eine vollständige Dokumentation aller durchgeführten Auswertungen, Original-Daten und Ergebnisse ist für spätere Big Data Projekte nützlich. Meist sind mehrere verschiedene Darstellungen der Ergebnisse für verschiedene Zielgruppen nötig. Wir helfen Ihnen bei der grafischen und textuellen Darstellung, vollständig oder zusammenfassend.
  • Beratung bei Datenschutzthemen : Werden im Big Data Projekt personenbezogene Daten verarbeitet, ist ein Datenschutzkonzept nötig. Dazu gehören auch Überlegungen zu und die Umsetzung von Maßnahmen zur Anonymisierung von personenbezogenen Daten.
  • Sie können auch modular einzelne der Dienstleistungen beauftragen, je nach ihrem konkreten Bedarf. Wir überprüfen gerne auch bereits durchgeführte Big Data Projekte auf ihre Qualität und helfen sie zu verbessern.

    Was ist schwierig an Big Data Mining?

    Herausfordernd ist beim Big Data Mining nicht nur der reine Umfang der Daten. Große Datenmengen verlangen natürlich effizientere Auswertungsalgorithmen und performantere Hardware und Software als klassische statistische Auswertungen. Beispielsweise wird es nötig, parallel auf mehreren Servern zu rechnen, um in einer vernünftigen Zeit zu Ergebnissen zu gelangen.

    Zusätzliche Herausforderungen bestehen auch darin, dass diese großen Datenmengen üblicherweise aus verschiedenen Quellen stammen und nicht für den vorliegenden Zweck erhoben wurden. Sie müssen also aus verschiedenen Orten, Datenbanken und Formaten in einer einzigen Datenbank integriert werden. Dazu werden sie auch umformatiert und umcodiert. Oft sind die Daten unvollständig, und es muss geklärt werden, wie man mit diesen Datenlücken umgeht: Welche Datensätze werden wegen Unvollständigkeit gelöscht? Welche Datenlücken werden wie gestopft? Auch die Datenbereinigung verlangt umfangreiche Überlegungen und muss nachvollziehbar und qualitativ hochwertig erfolgen.

    Gleichzeitig steht man meist unter Zeitdruck, um möglichst bald verbindliche Data Mining Analysen vorzulegen, auf deren Grundlage sinnvolle geschäftliche oder wissenschaftliche Entscheidungen getroffen werden können. Gerade wenn Produktionsfehler oder Betrugsfälle durch Big Data Mining entdeckt werden sollen, sollte die Auswertung möglichst in Echtzeit geschehen, um auf Ereignisse und Trends schnellstmöglich reagieren zu können. Spezielle Big Data Analytics Methoden sind nötig, um die gewünschte Geschwindigkeit zu erreichen. Will man aus den vorhandenen Daten Prognosen für die Zukunft erstellen, spricht man auch von Big Data Predictive Analytics.
    Werden personenbezogene oder personenbeziehbare Daten verarbeitet, dann müssen die Regeln des Datenschutzes eingehalten werden. Selbst Daten, die für sich allein unkritisch sind, können durch das Zusammenführen datenschutzrechtlich relevant werden.

    Was benötigt man für Big Data Mining?

    • Eine klare Fragestellung: Klare, nützliche Antworten erhält nur, wer mit einer klar definierten Frage startet. (Es dürfen auch mehrere sein.)
    • Die richtigen Daten: Aus den richtigen Datenquellen müssen die richtigen Daten extrahiert und in das passende Format gebracht werden.
    • Geeignete Data Mining Analytics Methoden oder Big Data Predictive Analytics Methoden für die Datenanalyse
    • Umfangreiche, performante Hardware, welche die Data Mining Analyse durchführt.
    • Genau die richtige Darstellung der Ergebnisse.
    • Ein Datenschutzkonzept.

    Novustat unterstützt Sie bei Ihrem Big Data Mining

    Wollen Sie Big Data Mining für sich nutzen, so muss dieses Projekt sorgfältig geplant und durchgeführt werden. Fehler in der Datenbereitstellung, Bereinigung oder Auswertung können teuer werden. Die Unterstützung durch Experten tut bei so einem komplexen Projekt not. Eventuell haben Sie auch gar nicht alle notwendigen Ressourcen, z.B. die Rechenleistung.

    Novustat unterstützt Sie gerne:

    • Beratung bei der Planung Ihres Big Data Mining Projektes, z.B. Formulieren der Frage, Auswahl der Daten und Datenquellen
    • Erstellen des Datenschutzkonzeptes
    • Zusammenführen der Daten
    • Planung und Durchführung der Datenbereinigung
    • Durchführen der Auswertungen
    • Interpretation und Darstellung der Ergebnisse