Beinahe jedes Unternehmen sammelt strukturierte Daten und wertet diese aus. Häufig wird dabei jedoch vergessen, dass sich auch unstrukturierte Daten analysieren lassen wie beispielsweise E-Mails oder Social Media Feeds, in denen bedeutende Informationen verborgen sind. Mit moderner Big Data Analyse lassen sich wertvolle Erkenntnisse aus semi-strukturierten und unstrukturierten Daten gewinnen. Wir zeigen Ihnen, was man für gewöhnlich unter dem Begriff Big Data versteht, welche spannenden Datenquellen sich mit diesen Verfahren für Sie erschließen und wie Sie optimal unstrukturierte Daten analysieren können.
Was ist Big Data?
Die Bezeichnung Big Data ist der Oberbegriff für hohe Datenvolumina, die mithilfe von 5 Vs charakterisiert werden:
- Volume (Umfang),
- Variety (Vielfalt),
- Velocity (Geschwindigkeit),
- Value (Wert) und
- Validity / Veracity (Glaubwürdigkeit).
Diese Charakteristika müssen zwangsläufig in Ihre Überlegungen einbezogen werden, wenn Sie effektiv unstrukturierte Daten analysieren möchten.
Die 5 Vs von Big Data im Detail
Das Volumen definiert die Menge der Daten, die ein Unternehmen täglich produziert. Die Vielfalt (Englisch: Variety) der Daten bezieht sich dabei auf die Diversität der Datentypen und -quellen. Velocity beschreibt dagegen die Geschwindigkeit, mit der Daten extrahiert, analysiert, ausgewertet und weiterverarbeitet werden. Zudem werden in der Fachliteratur mittlerweile zwei weitere Vs, Value und Validity, genutzt. Value bedeutet dabei den unternehmerischen Mehrwert von Daten. So hat die Mehrzahl der Unternehmen in eigene Datenplattformen investiert. Jetzt gilt es aber, daraus einen Mehrwert für das Unternehmen zu erzielen, indem diese strukturierte und unstrukturierte Daten analysieren. Das zweite weitere V ist Velocity. Dies bezeichnet die Geschwindigkeit, mit der Daten nahezu in Echtzeit generiert sowie in einem Real Time Reporting ausgewertet und weiterverarbeitet werden können. Validity bestimmt die Datenqualität. Man spricht hier wahlweise auch von Veracity für die Glaubwürdigkeit der Daten und der jeweiligen Datenquellen.
Big Data: Datenqualität ist Pflicht!
Insbesondere im Hinblick auf die kontinuierlich wachsenden hohen Datenvolumina (Big Data) ist Datenqualität bedeutend, auch wenn Sie unstrukturierte Daten analysieren. Die aus den aus Big Data Analysen von strukturierten und unstrukturierten Daten abgeleiteten Erkenntnisse als Grundlage für Unternehmensentscheidungen dienen. Die Sicherstellung der Datenqualität ist deswegen von besonderer Wichtigkeit.
Strukturierte und unstrukturierte Daten analysieren
Etwa 80 Prozent aller globalen Daten sind unstrukturiert und haben auf den ersten Blick keinen Zusammenhang. Mithilfe von Big Data Analysen kann man diese unstrukturierten Daten analysieren, strukturieren und auf Zusammenhänge überprüfen.
Strukturierte Daten
Strukturierte Daten werden als quantitative Daten bezeichnet. Dabei handelt es sich um objektive Fakten, die man mithilfe einer Big Data Analyse-Software erfassen kann. Diese Datenform lässt sich einfach in einer Datenbank wie Excel oder SQL (Structured Query Language) exportieren, speichern und organisieren. Strukturierte Daten sind besonders wertvoll, weil damit Einblicke in sich verändernde Trends am Markt gewonnen werden können. Obwohl strukturierte Daten nur Zahlen oder Wörter sind, die in eine Datenbank gepackt wurden, können Sie Erkenntnisse aus strukturierten Daten extrahieren. Dazu verwendet man Datenanalysemethoden und -tools wie Regressionsanalysen und Pivot-Tabellen. Dies ist der wertvollste Aspekt strukturierter Daten.
Hier ist ein Beispiel für strukturierte Daten in einer Excel-Tabelle:
Semi-strukturierte Daten
Semi-strukturierte Daten lassen sich nicht in einer relationalen Datenbank wie Excel oder SQL speichern. Im Gegensatz zu unstrukturierte Daten beinhalten diese jedoch einen gewissen Organisationsgrad mithilfe von semantischen Komponenten wie Tags. Betrachten Sie beispielsweise HTML (Hypertext Markup Language), das die Menge der Informationen, die in einem Dokument gesammelt werden in eine bestimmte Hierarchie zwingt:
{
first_name : Hans
last_name : Mustermann
order_id : 456789
}
Das ist ein gutes Beispiel für semi-strukturierte Daten. Wie Sie sehen, ist HTML durch den Code hierarchisch organisiert, aber es ist nicht einfach, HTML-Informationen in eine Datenbank zu extrahieren. Zudem ist es nicht möglich, traditionelle Datenanalysemethoden für den Erkenntnisgewinn zu nutzen.
Unstrukturierte Daten analysieren
Unstrukturierte Daten liegen in diversen Formaten wie beispielsweise als Text-Dokumente, Bilder oder Videos vor. Zudem wachsen unstrukturierte Daten schneller als strukturierte Daten. Unstrukturierte Daten werden auch als qualitativ bezeichnet, weil es sich bei diesen Informationen häufig um Meinungen oder Kommentare zu Produkten und Dienstleistungen von Kunden handelt. Die Aussagen Ihrer Kunden sind unbestreitbar wichtig. Werden unstrukturierte Daten analysiert, lassen sich allerdings keine aussagekräftigen Daten extrahieren. Ein Beispiel für unstrukturierte Daten können E-Mail-Antworten von Kunden sein wie im Folgebeispiel dargestellt wird.
Da Sie unstrukturierte Daten nicht in typischen Datenbanken speichern und organisieren können, müssen Sie diese in Word-Dokumenten oder nicht relationalen (NoSQL) Datenbanken wie Elasticsearch oder Solr speichern. Diese können Suchanfragen nach Wörtern und Phrasen ausführen. Da es nicht möglich ist, standardmäßige Big Data Analyse-Methoden und -instrumente zu nutzen, um unstrukturierte Daten analysieren zu können, müssen Sie die Analysetools entweder manuell analysieren oder in einer NoSQL-Datenbank verwenden. In den meisten Fällen müssen unstrukturierte Daten in Word-Dokumenten oder NoSQL-Datenbanken gespeichert und manuell analysiert werden oder die Analysetools in einer NoSQL-Datenbank verwendet werden, um diesen Datentyp untersuchen zu können.
Strukturierte und unstrukturierte Daten: Fazit
Mithilfe von Google Analytics lassen sich bereits viele wichtige Informationen für Ihr Unternehmen generieren. Qualitative Daten wie beispielsweise Kundenfeedback als Basis für Ihre Marketingstrategie sind jedoch ebenso wichtig. Wenn Sie keine Erkenntnisse dadurch gewinnen, dass Sie unstrukturierte Daten analysieren, dann haben Sie kein klares Verständnis dafür, wie Ihre Kunden tatsächlich zu Ihrem Unternehmen stehen.
Der Unterschied zwischen strukturierten und unstrukturierten Daten besteht darin, dass es sich bei strukturierten Daten um objektive Fakten und Zahlen handelt, die von den meisten Analysesoftware-Programmen erfasst werden können. Dies erleichtert das Exportieren, Speichern und Organisieren in typischen Datenbanken wie Excel, Google Sheets und SQL. Sie können strukturierte Daten auch mit Standard-Datenanalysemethoden und -tools wie Regressionsanalyse und Pivot-Tabellen problemlos untersuchen.
Wenn Sie jedoch auch unstrukturierte Daten analysieren und daraus erfolgreich Erkenntnisse gewinnen, können Sie ein tiefes Verständnis für die Vorlieben Ihrer Kunden und deren Einstellung zu Ihrem Unternehmen entwickeln.
Novustat berät Sie gerne bei der Auswahl statistischer Verfahren für die Auswertung Ihres Datenschatzes.
Weiterführende Quellen:
Marr, B. (2015): Big Data: Using SMART Big Data, Analytics and Metrics to Make Better Decisions and Improve Performance, London: Wiley.
Meier, A. (2017): Was heißt Big Data?, In: Meier, A. (2017): Werkzeuge der digitalen Wirtschaft: Big Data, NoSQL & Co. – Eine Einführung in relationale und nicht-relationale Datenbanken, Wiesbaden: Springer Vieweg.