Wollen Sie Big Data für sich nutzen, so muss dieses Projekt sorgfältig geplant und durchgeführt werden. Hilfe durch Experten ist bei diesem komplexen Thema sehr oft ratsam. Denn die Zusammenführung der Daten, die Auswahl der Auswertungsmethoden und das Umsetzen dieser Auswertungen ist deutlich aufwändiger und schwieriger als bei überschaubaren Datenmengen, die Sie notfalls auch von Hand durchsehen können, um sicher zu stellen, dass eine Transformation erfolgreich war. Bei Big Data Analytics fehlt diese Möglichkeit. Lückenhafte Auswertungen und Fehlinterpretationen können jedoch teure Folgen haben.
Sollten Sie Unterstützung bei einem Big Data Projekt benötigen, helfen unsere Statistiker Ihnen gerne weiter. Nutzen Sie einfach unser Kontaktformular für eine kostenlose Beratung & ein unverbindliches Angebot – oder rufen Sie uns an.
Worin besteht der Unterschied zwischen Big Data Analytics und Data Mining?
Big Data Analytics umfasst alle Verfahren zum Sammeln, Zusammenführen und Analysieren von großen, vielfältigen Datenmengen. Dazu gehören Verfahren der Datenvisualisierung, Data Mining Methoden und Vorhersagemodelle. Somit ist es eigentlich Data Mining für Big Data, also für große Datenmengen schlechter Qualität.
Big Data Analytics besteht jedoch keineswegs nur darin, die üblichen Data Mining Methoden auf schnelleren Servern durchzuführen. Wegen der enormen Datenmengen wird eine Beschleunigung benötigt, die man nur durch neuartige Technologien und Algorithmen erreichen kann wie z.B. Parallelisierung, Cloud Computing, NoSQL-Datenbanken, Hadoop, MapReduce, Apache Spark, Pig oder Hive. Big Data Analytics muss sich also auch mit der Rechenperformanz beschäftigen und diese signifikant vervielfachen.
Last but not least ist auch der Datenschutz ein Thema speziell für Big Data Analytics. Daten, die für sich allein unkritisch sind, können durch das Zusammenführen datenschutzrechtlich relevant werden. Schlimmstenfalls wird eine Deanonymisierung möglich, d.h. anonyme Daten können auf eine bestimmte Person zurückgeführt werden. In diesem Falle ist es hilfreich sich an eine Data Mining Beratung wie Novustat oder sich durch einen Juristen unterstützen zu lassen, der sich auf Datenrecht spezialisiert hat.
Was gehört zu Big Data Analytics?
Die großen Datenmengen sollen später für vielfältige Zwecke wieder ausgewertet werden können. Beispielsweise soll bei einer Rückrufaktion die Fragen beantwortet werden: „Zu welcher Serie gehört das beanstandete Teil? Welche anderen Teile sind eventuell auch defekt? Wo wurden sie verbaut und an wen ausgeliefert?“
Zusätzlich zu solchen gezielten Auswertungen kommen noch explorative Analysen dazu und umfassende Fragen der Qualitätssicherung und des Managements, z.B. wie viele Werkstücke pro Stunde produziert wurden, ob es Unregelmäßigkeiten gab und wie diese mit anderen Faktoren korrelierten. Beispielsweise: Wurden montags weniger Teile gefertigt? Hat ein bestimmtes Team mehr Ausschuss produziert?
Allgemeines zu Big Data
Mit „Big Data“ bezeichnet man große Datenmengen. Wie groß eine Datenmenge sein muss, um als groß zu gelten, verschiebt sich ständig mit dem sich verbessernden Stand der Technik: Terabyte (=1024 Gigabyte), Petabytes (=1024 Terabyte) oder Exabyte (=1024 Petabyte). Was gestern noch viel war, ist heute normal. Heutzutage werden in zwei Tagen 5 Exabytes an Daten erzeugt, was der Datenmenge entspricht, welche die gesamte Menschheit vor 2003 angesammelt hat. Die Datenmenge auf unserem Planeten verdoppelt sich alle anderthalb Jahre.
Big Data sind jedoch per Definition so viele und komplexe (d.h. miteinander vernetzte) Daten, dass sie mit herkömmlichen Auswertungsmethoden nicht sinnvoll analysiert werden können. Sowohl spezielle Auswertungsmethoden als auch innovative Rechenalgorithmen und Architekturen (z.B. das parallele Rechnen auf mehreren Servern) sind dazu nötig, um aus Big Data Erkenntnisse zu gewinnen und gültige Schlussfolgerungen zu ziehen. Oft sind Big Data nicht nur umfangreich, sondern auch noch lückenhaft, unstrukturiert, in verschiedensten Formaten und müssen innerhalb kurzer Zeit ausgewertet werden.
Dazu gehören Daten aus verschiedenen Quellen, die automatisch ständig große Datenmengen erzeugen und zusammengeführt werden, z.B. die Messdaten von Sensoren, aber auch Texte aus sozialen Netzwerken. Auch in der Biologie wird Big Data Analytics eingesetzt, um DNA zu entschlüsseln.
Big Data wird oft durch drei Eigenschaften charakterisiert, die im Englischen jeweils mit v beginnen:
- volume (Volumen / Menge),
- velocity (Geschwindigkeit der Erzeugung und Auswertung) und
- variety (Vielfalt).
Solche Daten innerhalb kurzer Zeit auswerten zu können, hilft Unternehmen dabei, frühzeitig schädliches Verhalten, aber auch positive Stimmungen zu entdecken. Dies sollte möglichst in Echtzeit geschehen, um auf Ereignisse und Trends angemessen reagieren zu können.
Woher stammen diese großen Datenmengen?
Heutzutage liegen in Unternehmen alle und im privaten Bereich immer mehr Daten digital vor, alle Geschäftsprozesse werden elektronisch unterstützt und dokumentiert. Wird beispielsweise jedes Werkstück mittels RFID-Chip Schritt für Schritt auf seinem Produktionsprozess durch die Werkhalle verfolgt, dann entstehen hier bereits riesige Mengen an Daten. Später will man genau wissen, in welcher Maschine welche Schraube verbaut und an welchen Kunden ausgeliefert wurde, wann ausgetauscht und wie entsorgt. Hohe Qualitätsansprüche und rechtliche Dokumentationspflichten erzeugen riesige Mengen an Daten.
Big Data entstehen nicht nur in der Produktion, sondern auch in der Verwaltung, Sicherheit (Überwachung), Finanzwesen, Energiewirtschaft, Gesundheitswesen und Verkehr, Internet (z.B. soziale Medien) und Mobilfunk. Je mehr „intelligente“ Geräte wie Smart-Metering-Systeme, Assistenz-Systeme und Überwachungsgeräte zum Einsatz kommen, umso weitere Bereiche des Lebens werden digitalisiert und somit auswertbar.