Gerne beraten wir Sie auch telefonisch & geben Ihnen eine kostenfreie persönliche Auskunft zu Ihrem Projekt.

X

Text Mining – Die wichtigsten Anwendungen anschaulich erklärt

Aufgrund der Vielzahl geschriebener Dokumente im Internet ist es unmöglich, einen Überblick über alle relevanten Eckstellen zu erhalten. Es übersteigt schließlich eindeutig die menschlichen Kapazitäten, täglich auf den aktuellen Stand bezüglich Social Media Posts, abgegebener Bewertungen oder Meinungsäußerungen zu bestimmten Themen zu sein. Text Mining mit den vielfältigen Verfahren zur Text Analysis stellt hierzu wichtige Hilfsmittel zur Verfügung. In diesem Artikel geben wir daher eine anwendungsorientierte Einführung zu Text Mining und zeigen zahlreiche Beispiele, wie Text Analysis gewinnbringend eingesetzt werden kann.

Wenn auch Sie wissen wollen, wie Text Mining ihre täglichen Routinen unterstützen kann, stehen Ihnen unsere Experten gerne zur Verfügung. Nehmen Sie Kontakt mit uns auf! Wir freuen uns auf Ihre Aufgabe.

Lassen Sie uns Ihre Anforderungen wissen & wir erstellen Ihnen innerhalb weniger Stunden ein kostenfreies Angebot.

Jetzt unverbindlich anfragen

Dieser Artikel beantwortet folgende Fragen

  • Was versteht man unter Text Mining?
  • Welche Anwendungen der Text Analysis gibt es?
  • Was ist bei Text Mining Analytics zu beachten?

Texte und Sprache als Grundlage der Kommunikation

Sprache und geschriebene Texte stellen die Grundlage unserer menschlichen Kommunikation dar. Gerade im Internet können Meinungen, Inserate, Artikel oder Bewertungen schnell und einfach kreiert und dauerhaft für alle Interessenten zur Verfügung gestellt werden. Als wesentliche Quellen sind dabei Social Media und mobiles Internet zu nennen. Ebenso kann man E-Mails oder lokalen Dateien aus dem Intranet als Datenquelle berücksichtigen. Ja, selbst Interviews oder Audiobeiträge lassen sich nach Transkription als Text darstellen.

Die Notwendigkeit von Text Mining Verfahren zeigt sich überall dort, wo die Textmenge und Fülle an Informationen die menschliche Leistungsfähigkeit übersteigt.

Sie möchten Text Mining einsetzen? Wir erläutern Ihnen bei einer Data Mining Beratung gerne die unterschiedlichen Anwendungsmöglichkeiten. Unsere Experten sind versiert in allen Bereichen von professionellem Text- und Data Mining. Kontaktieren Sie uns für eine kostenlose Beratung & ein unverbindliches Angebot!

Definition Text Mining

Text Mining ist ein Überbegriff für eine Vielzahl von Analyse Verfahren aus dem Data Mining. Text Mining lässt sich als eine Form des Data Minings verstehen, aus dem Informationen aus Textdateien extrahiert und zusammengefasst werden. Die Datenquelle somit sind Buchstaben, Satzzeichen, Wörter sowie Sätze. Mit Text Mining Analytics lassen sich beispielsweise gezielt Informationen suchen, aber auch Texte nach positiver oder negativer Stimmung (Sentiment) auswählen.

Die Ziele von Text Mining sind:

  • Extraktion neuer, relevanter Informationen aus großen Mengen von Textdaten
  • Die Darstellung von Mustern und Zusammenhängen von Informationen aus Texten
  • Text Mining Analysis beschäftigt sich interdisziplinär mit der computergestützten Auswertung großer Textmengen (Big Data), die aufgrund der Datenfülle nicht vom Menschen gelesen werden können.

Text Mining Analytics

Im Text Mining unterscheidet man zwischen Natural Language Processing (NLP) und statistischen Verfahren.

Dabei strukturiert man zunächst unstrukturierte bzw. semistrukturierte Texte mit Hilfe linguistischer Methoden. Dieser Bereich wird als NLP (Natural Language Processing) bezeichnet. Hier ist z. B. die Tokenisierung und Kategorisierung nach bestimmten semantischen Charakteristika zu nennen.

Erst nach dieser Datenaufbereitung finden je nach Fragestellung geeignete statistische Methoden Anwendung. Hier sind z. B. das Document Clustering oder die Document Classification typische Verfahren.

Text Mining Anwendungsbeispiele

Text Mining Analytics ist in allen Bereichen einsetzbar, die mit Texten oder niedergeschriebener Sprache arbeiten.

  • In den Politikwissenschaften können Reden und Gesprächsprotokolle untersucht werden. Wie hat sich im zeitlichen Verlauf die Redetradition verändert? Gibt es demagogische Tendenzen bei Parteien oder Parteimitgliedern? Welche Schlagworte sind charakteristisch für Parteien oder Personen des öffentlichen Lebens?
  • Plagiatscheck verschiedener Texte
  • Immobilien- oder Automobilhändler nutzen Text Mining Analysis, um automatisiert Inserate nach relevanten Angeboten zu durchsuchen.
  • Im juristischen Umfeld kann man Urteile gezielt selektieren und so wesentlich zu einer Verkürzung der Bearbeitungszeit beitragen.
  • Im medizinischen Umfeld können Publikationen nach Schlagworten oder in Abhängigkeit der Diagnosestellung durchsucht werden.
  • In wirtschaftswissenschaftlichen Anwendungen können Internetquellen wie Social Media oder Bewertungsportale gezielt nach positiven oder negativen Bewertungen und Kommentaren durchsucht werden (Sentiment Analysis). Dadurch hat das Unternehmen die Möglichkeit, zeitnah auf negative Meinungen zu reagieren.

Vorgehensweise einer Text Analysis

Ausgangspunkte jeder Text Analysis ist die klare Aufgabendefinition. Ausgehend von Fragestellungen oder Hypothesen identifiziert und selektiert man repräsentative Dokumente. Im nächsten Schritt erfolgt die Dokumentaufbereitung. Hier werden die unstrukturierten Dokumente in analysierbare Einheiten eingeteilt und gegliedert. Erst im nächsten Schritt erfolgt die eigentliche Text Analysis mit Text Mining Methoden. Anschließend interpretiert man die Ergebnisse. Diese stehen dann für die Anwendung zur Verfügung.

Vorgehensweise für Text Mining Analytics
Prozess für eine typische Textanalyse

Die Prozesse orientieren sich dabei an dem Im Data Mining etablierten CRISP DM Standardprozess.

Beispiel aus der Novustat Beratungspraxis

Anhand von Redeprotokollen im deutschen Bundestag sollen die häufigsten verwendeten Begriffe der Abgeordneten unterschiedlicher Parteien miteinander verglichen werden.

Die Protokolle sämtlicher Plenarsitzungen sind auf den Internetseiten des deutschen Bundestags als Textdatei oder pdf-Dokument verfügbar.

Erster Schritt der Auswertung ist die Selektion repräsentativer Dokumente. Dabei wird darauf geachtet, dass eine komplette Legislaturperiode abgebildet wird. Insgesamt werden dabei 20 Protokolle ausgewählt.

Der nächste und zeitaufwendigste Schritt der Text Mining Analytics besteht in der Datenaufbereitung. Die gesamten Protokolle müssen so unterteilt werden, dass Redebeiträge eines Redners getrennt werden. Anschließend wird der Text tokenisiert, d. h. in Einzelbestandteile zerlegt. Von diesen Einzelbestandteilen werden im nächsten Bearbeitungsschritt alle üblichen Worte des deutschen Sprachschatzes entfernt. Dazu zählen beispielsweise die Artikel, Bindewörter etc. Anschließend wird eine Häufigkeitsauszählung der Token durchgeführt und diese werden grafisch dargestellt.

Wortcloud aus einer typischen Text Analysis
Darstellung häufig benutzter Worte als Wortwolke (Wordcloud)

 

Häufigkeitszählung für das Text Mining
Häufigkeitsauszählung in Reden des Deutschen Bundestags

Zusammenfassung

Text Mining und Text Analysis bereichern die Palette der Anwendungsverfahren immens. Nicht nur Zahlen, sondern auch Texte kann man sinnvoll auswerten. Gerade in Zeiten schnell anwachsender Textmengen hat Text Mining Analytics eine besondere Wichtigkeit. Wenn auch Sie die Textanalyse mit all Ihren Facetten für Ihr Unternehmen nutzen wollen, stehen wir Ihnen mit unseren Experten gerne zur Verfügung. Wir freuen uns auf Ihre Fragestellung!