Gerne beraten wir Sie auch telefonisch & geben Ihnen eine kostenfreie persönliche Auskunft zu Ihrem Projekt.

X

Wie man unstrukturierte Daten analysiert und daraus wichtige Erkenntnisse für das eigene Unternehmen ableitet

Beinahe jedes Unternehmen sammelt strukturierte Daten und wertet diese aus. Häufig wird dabei jedoch vergessen, dass sich auch unstrukturierte Daten analysieren lassen wie beispielsweise E-Mails oder Social Media Feeds, in denen bedeutende Informationen verborgen sind. Mit moderner Big Data Analyse lassen sich wertvolle Erkenntnisse aus semi-strukturierten und unstrukturierten Daten gewinnen. Wir zeigen Ihnen, was man für gewöhnlich unter dem Begriff Big Data versteht und welche spannenden Datenquellen sich mit diesen Verfahren für Sie erschließen.

Was ist Big Data?

Die Bezeichnung Big Data ist der Oberbegriff für hohe Datenvolumina, die mithilfe von 5 Vs charakterisiert werden:

  • Volume (Umfang),
  • Variety (Vielfalt),
  • Velocity (Geschwindigkeit),
  • Value (Wert) und
  • Validity / Veracity (Glaubwürdigkeit).

Die 5 Vs von Big Data im Detail

Das Volumen definiert die Menge der Daten, die ein Unternehmen täglich produziert. Die Vielfalt (Englisch: Variety) der Daten bezieht sich dabei auf die Diversität der Datentypen und -quellen. Velocity beschreibt dagegen die Geschwindigkeit, mit der Daten extrahiert, analysiert, ausgewertet und weiterverarbeitet werden. Zudem werden in der Fachliteratur mittlerweile zwei weitere Vs, Value und Validity, genutzt. Value bedeutet dabei den unternehmerischen Mehrwert von Daten. So hat die Mehrzahl der Unternehmen in eigene Datenplattformen investiert. Jetzt gilt es aber, daraus einen Mehrwert für das Unternehmen zu erzielen. Das zweite weitere V ist Velocity. Dies bezeichnet die Geschwindigkeit, mit der Daten nahezu in Echtzeit generiert, ausgewertet und weiterverarbeitet werden können. Validity bestimmt die Datenqualität. Man spricht hier wahlweise auch von Veracity für die Glaubwürdigkeit der Daten und der jeweiligen Datenquellen.

Big Data: Datenqualität ist Pflicht!

Insbesondere im Hinblick auf die kontinuierlich wachsenden hohen Datenvolumina (Big Data) ist Datenqualität bedeutend. Die aus den aus Big Data Analysen von strukturierten und unstrukturierten Daten abgeleiteten Erkenntnisse als Grundlage für Unternehmensentscheidungen dienen. Die Sicherstellung der Datenqualität ist deswegen von besonderer Wichtigkeit.

Strukturierte und unstrukturierte Daten

Etwa 80 Prozent aller globaler Daten sind unstrukturiert und haben auf den ersten Blick keinen Zusammenhang. Mithilfe von Big Data Analysen kann man diese Daten strukturieren und auf Zusammenhänge überprüfen.

Strukturierte Daten

Strukturierte Daten werden als quantitative Daten bezeichnet. Dabei handelt es sich um objektive Fakten, die man mithilfe einer Big Data Analyse-Software erfassen kann. Diese Datenform lässt sich einfach in einer Datenbank wie Excel oder SQL (Structured Query Language) exportieren, speichern und organisieren. Strukturierte Daten sind besonders wertvoll, weil damit Einblicke in sich verändernde Trends am Markt gewonnen werden können. Obwohl strukturierte Daten nur Zahlen oder Wörter sind, die in eine Datenbank gepackt wurden, können Sie Erkenntnisse aus strukturierten Daten extrahieren. Dazu verwendet man Datenanalysemethoden und -tools wie Regressionsanalysen und Pivot-Tabellen. Dies ist der wertvollste Aspekt strukturierter Daten.

Hier ist ein Beispiel für strukturierte Daten in einer Excel-Tabelle:

unstrukturierte Daten und strukturierte Daten in Excel Tabelle
Beispiel für strukturierte Daten in einer Excel-Tabelle

Semi-strukturierte Daten

Semi-strukturierte Daten lassen sich nicht in einer relationalen Datenbank wie Excel oder SQL speichern. Im Gegensatz zu unstrukturierte Daten beinhalten diese jedoch einen gewissen Organisationsgrad mithilfe von semantischen Komponenten wie Tags. Betrachten Sie beispielsweise HTML (Hypertext Markup Language), das die Menge der Informationen, die in einem Dokument gesammelt werden in eine bestimmte Hierarchie zwingt:

{
first_name      :       Hans
last_name       :       Mustermann
order_id          :       456789

}

Das ist ein gutes Beispiel für semi-strukturierte Daten. Wie Sie sehen, ist HTML durch den Code hierarchisch organisiert, aber es ist nicht einfach, HTML-Informationen in eine Datenbank zu extrahieren. Zudem ist es nicht möglich, traditionelle Datenanalysemethoden für den Erkenntnisgewinn zu nutzen.

Unstrukturierte Daten

Unstrukturierte Daten liegen in diversen Formaten wie beispielsweise als Text-Dokumente, Bilder oder Videos vor. Zudem wachsen unstrukturierte Daten schneller als strukturierte Daten. Unstrukturierte Daten werden auch als qualitativ bezeichnet, weil es sich bei diesen Informationen häufig um Meinungen oder Kommentare zu Produkten und Dienstleistungen von Kunden handelt. Die Aussagen Ihrer Kunden sind unbestreitbar wichtig. Werden unstrukturierte Daten analysiert, lassen sich allerdings keine aussagekräftigen Daten extrahieren. Ein Beispiel für unstrukturierte Daten können E-Mail-Antworten von Kunden sein wie im Folgebeispiel dargestellt wird.

Big Data Analyse mit unstrukturierten Daten in E-Mail
Beispiel für unstrukturierte Daten: E-Mail Texte

Da Sie unstrukturierte Daten nicht in typischen Datenbanken speichern und organisieren können, müssen Sie diese in Word-Dokumenten oder nicht relationalen (NoSQL) Datenbanken wie Elasticsearch oder Solr speichern. Diese können Suchanfragen nach Wörtern und Phrasen ausführen. Da es nicht möglich ist, standardmäßige Big Data Analyse-Methoden und -instrumente zu nutzen, um unstrukturierte Daten analysieren zu können, müssen Sie die Analysetools entweder manuell analysieren oder in einer NoSQL-Datenbank verwenden. In den meisten Fällen müssen unstrukturierte Daten in Word-Dokumenten oder NoSQL-Datenbanken gespeichert und manuell analysiert werden oder die Analysetools in einer NoSQL-Datenbank verwendet werden, um diesen Datentyp untersuchen zu können.

Strukturierte und unstrukturierte Daten: Fazit

Mithilfe von Google Analytics lassen sich bereits viele wichtige Informationen für Ihr Unternehmen generieren. Qualitative Daten wie beispielsweise Kundenfeedback als Basis für Ihre Marketingstrategie sind jedoch ebenso wichtig. Ohne Erkenntnisse aus unstrukturierten Daten haben Sie kein klares Verständnis dafür, wie Ihre Kunden tatsächlich zu Ihrem Unternehmen stehen.

Der Unterschied zwischen strukturierten und unstrukturierten Daten besteht darin, dass es sich bei strukturierten Daten um objektive Fakten und Zahlen handelt, die von den meisten Analysesoftware-Programmen erfasst werden können. Dies erleichtert das Exportieren, Speichern und Organisieren in typischen Datenbanken wie Excel, Google Sheets und SQL. Sie können strukturierte Daten auch mit Standard-Datenanalysemethoden und -tools wie Regressionsanalyse und Pivot-Tabellen problemlos untersuchen.

Wenn Sie jedoch auch unstrukturierte Daten analysieren und daraus erfolgreich Erkenntnisse gewinnen, können Sie ein tiefes Verständnis für die Vorlieben Ihrer Kunden und deren Einstellung zu Ihrem Unternehmen entwickeln.

Novustat berät Sie gerne bei der Auswahl statistischer Verfahren für die Auswertung Ihres Datenschatzes.

Weiterführende Quellen:

Marr, B. (2015): Big Data: Using SMART Big Data, Analytics and Metrics to Make Better Decisions and Improve Performance, London: Wiley.

Meier, A. (2017): Was heißt Big Data?, In: Meier, A. (2017): Werkzeuge der digitalen Wirtschaft: Big Data, NoSQL & Co. – Eine Einführung in relationale und nicht-relationale Datenbanken, Wiesbaden: Springer Vieweg.

Datenqualitätsmanagement insbesondere im Big Data