Data Mining Klassifikation gewinnbringend nutzen!

Big Data Projekte sind ein immenser Schatz, unbearbeitet aber für Anwender nicht nutzbar. Das Wissen und die darin versteckten Informationen müssen allerdings erst mit Data Mining Methoden gehoben und freigeschaufelt werden. Wir zeigen Ihnen im Folgenden, wie Sie Verfahren der Data Mining Klassifikation bei Ihren Daten gewinnbringend anwenden können. Und diese Techniken können Sie ebenfalls nutzen, um in hinreichend großen Datenbeständen Informationen zu erhalten. Mit einem Decision Tree (Entscheidungsbaum) lassen sich Entscheidungsregeln in verständlicher und leicht lesbarer Form darstellen. Als zweites Verfahren stellen wir zudem neuronale Netze vor, die dem Gebiet der künstlichen Intelligenz zugeordnet werden. Gerne bieten wir Ihnen Data Mining-Beratung und zeigen Ihnen, wie Sie aus Ihrem Datenprojekt Informationen gezielt extrahieren können. Nützen Sie dafür unsere kostenfreie Erstberatung.

Dieser Artikel beantwortet folgender Fragen

Was versteht man unter Data Mining Klassifikation?
Welche Verfahren der Data Mining Klassifikation gibt es?
Wie kann Data Mining Klassifikation gewinnbringend eingesetzt werden am Beispiel Decision Tree (Entscheidungsbaum)?
Data Mining Klassifikation und neuronale Netze Beispiel: Wie können neuronale Netze in der Mustererkennung wertvolle Informationen liefern?

Data Mining Klassifikation: Ein Überblick

Im Data Mining werden effiziente Algorithmen angewendet, die Informationen aus einem (meist sehr großen) Datenbestand extrahieren können. Eine typische Aufgabenstellung ist es, aus dem Datenbestand Regeln abzuleiten. Anhand dieser Regeln können dann zukünftige oder neue Beobachtungen vorgegebenen Klassen oder Kategorien zugeordnet werden. Klassifikationsverfahren ordnen dabei Objekte in vorgegebene Klassen anhand der gefundenen Zuordnungsregeln ein.

Data Mining Klassifikation: Ein Allrounder

Die Anwendungsmöglichkeiten für Data Mining Klassifikation sind sehr vielfältig:

Medizin: Diagnostizieren einer Krankheit
Wirtschaft: Überprüfen der Kreditwürdigkeit, Warenkorbanalysen, Kundenabwanderung (Churn Prediction)
Texterkennung: Sentiment Analyse, Spam Detection bei E-mail Programmen
Versicherung: Risikoberechnung
Bildverarbeitung: Gesichtserkennung, autom. Warenerkennung an Scanner
Biologie: Bestimmung von Tieren, Pflanzen und Lebewesen anhand von Bildern, Artenbildung, Zuordnung von Hunderassen, …

Data Mining Klassifikation: Erst lernen, dann anwenden

Data Mining Klassifikation besteht aus zwei Schritten: Zunächst durchläuft das Modell eine Trainingsphase. In dieser Phase werden Regeln generiert, mithilfe derer die Objekte den vorgegeben Klassen zugeordnet werden können. In der zweiten Phase überprüft man anschließend diese Regeln an einem Testdatensatz.

Für das zweistufige Vorgehen hat es sich bewährt, den Ausgangsdatensatz in zwei Teile zu trennen: Trainingsdaten und Testdaten. Sind sowohl bei Test – als auch bei Trainingsdaten die tatsächlichen Klassenzugehörigkeiten bekannt, kann die Klassifikationsgüte angegeben werden.

Abhängig davon, wie die Aufteilung durchgeführt wird, ergeben sich dabei unterschiedliche Regeln und Klassifikationsgütemaße. Um eine Robustheit gegenüber zufälligen Aufteilungen zu gewährleisten, wird die Klassifikation für sehr viele verschiedene Aufteilungen durchgeführt. Anschließend werden die unterschiedlichen Modelle und Testergebnisse wieder zusammengefügt und kombiniert. Ein solches Splitting Verfahren ist beispielsweise die Kreuzvalidierung (Crossvalidation).

Data Mining Klassifikation: Die wichtigsten Verfahren

Die vier wichtigsten Verfahren der Data Mining Klassifikation sind Entscheidungsbaum (Decision tree), neuronale Netze, das Nächste-Nachbarn Verfahren und die Bayes Klassifikation.

	Entscheidungsbaum	Neuronale Netze	Nächste Nachbarn Verfahren	Bayes Klassifikation
Vorteil	– Sehr einfach zu interpretierende Wenn-Dann Regeln – Können auch zur Priorisierung von Regeln verwendet werden	– Sehr gutes Handling von Ausreißern – Hohe Klassifikationsgüte bei Klassen, die nicht in der Trainingsmenge vorkommen – Bei metrischer Zielvariable anwendbar – Keine Linearität des Zusammenhangs notwendig	– Für metrische und kategorielle Merkmale anwendbar	– Hohe Genauigkeit auch bei großen Datenmengen
Nachteil	– Wird bei vielen Variablen sehr schnell unübersichtlich – Bei Verzweigungen werden metrische Variablen kategorisiert	– Berechnungen schwer nachvollziehbar (Blackbox) – Sehr hoher Rechenaufwand	– Es müssen stets alle Trainingsdaten für die Klassifizierung verwendet werden – hoher Rechenaufwand	– Falsche Annahmen führen zu ungültigen Klassifizierungen

Data Mining Klassifikation: Gütemaße für die Klassifikation

Durch die Überprüfung der Klassifikationsregeln anhand eines Testdatensatzes mit bekannter Klassenzugehörigkeit kann die Klassifikationsgüte angegeben werden. Wie auch bei den Gütemaßen zur Regression ist für die Beurteilung der Güte auch die Kompaktheit des Modells (z. B. die Anzahl der Regeln) und die Interpretierbarkeit der Regeln ein wichtiger Aspekt. Die Klassifikationsgenauigkeit ist dabei der Anteil der korrekten Klassenzuordnungen im Testdatensatz bezeichnet. Den Anteil der falschen Klassenzuweisungen nennt man Klassifikationsfehler.

Jetzt unverbindlich anfragen

Data Mining Klassifikation: Entscheidungsbaum (Decision Tree)

Ein Entscheidungsbaum ist ein Verfahren zur Klassifikation. Entscheidungsbäume lassen sich gut visualisieren, können allerdings auch sehr komplex werden. Bei einem Entscheidungsbaum kann man jede Entscheidung bewerten bzw. gewichten. Dies spielt insbesondere dann eine Rolle, wenn die Entscheidungen unterschiedliche Kosten haben. Insgesamt werden mit einem Entscheidungsbaum alle möglichen Alternativen dargestellt.

Ein Entscheidungsbaum ist immer von oben nach unten aufgebaut. Bei jeder Entscheidungsalternative verzweigt sich der Baum um eine Ebene nach unten. Am unteren Ende des Entscheidungsbaumes stehen schließlich die Blätter, in den Blättern sind die Entscheidungen zu sehen.

Beispiel aus der Beratungspraxis: Churn Modelling eines Telekomunikationsanbieters

Ein Anbieter für Telekommunikation möchte herausfinden, welche Kunden abwandern, d.h. ihre bestehenden Verträge kündigen. Es stehen dabei 9990 Datensätze von Kunden zur Verfügung. Insgesamt sind 21 der 9990 Kunden abgewandert. In dem Datensatz stehen außerdem Informationen zum Vertragsbeginn, zum durchschnittlichen monatlichen Grundpreis, dem Alters des Kunden sowie die Art des Vertrags (4G, Telefon, Glasfaser oder Festnetz) und die Anzahl der Supportkontakte im letzten Jahr zur Verfügung.

Das Ziel der Auswertung besteht darin, mögliche Abwanderer in Zukunft bereits frühzeitig zu identifizieren und schließlich durch geeignete Maßnahmen eine Kündigung abzuwenden.

Datensatz Churn Modelling fuer Data Mining Klassifikation — Datensatz Churn Modelling

Lösungsvorschlag: Entscheidungsbaum

Mit 10-facher Kreuzvalidierung wird zuerst ein Entscheidungsbaum generiert. Da nur wenige Kunden abwandern, wird eine balancierte Stichprobenziehung gewählt. Der Entscheidungsbaum soll dabei auf maximal 20 Blätter beschränkt sein, um eine unnötige Komplexität zu vermeiden. Mit Pruning (Beschneiden) kann ebenfalls eine Optimierung hinsichtlich Klassifikationsgüte und Komplexität erreicht werden.

Durch Data Mining Klassifikation erstellter Entscheidungsbaum Kundenabwanderung — Entscheidungsbaum Kundenabwanderung

Den Entscheidungsbaum liest man zuerst von oben nach unten. Blau hinterlegte Rechtecke zeigen dabei die Variablen an. An den Verbindungen zur nächsten Ebene sind die Entscheidungsregeln zu finden. Als wichtigstes Kriterium für die Abwanderung zeigt sich die Anzahl der Service Anrufe. Übersteigt die Anzahl der Anrufe 9,5, also ab 10 Anrufen, klassifiziert man den Kunden als Abwanderer. Hier endet der Entscheidungsbaum dann bereits in einem Blatt (grau ausgefülltes Rechteck). Bei 9 oder weniger Serviceanrufen unterteilt sich der Entscheidungsbaum allerdings weiter. Als nächste Kriterien sind dann die durchschnittliche Rechnungshöhe sowie die Anzahl der Supportanrufe zu sehen.

Liest man einen Entscheidungsbaum von unten nach oben, so erkennt man, dass sich abwandernde Kunden durch drei Kriterien auszeichnen:

Mehr als 9 Support Anrufe oder
Weniger als 9 und mehr als 4 Supportanrufe im letzten Jahr sowie eine durchschnittliche Rechnung unter 14,50 €
Vertragsabschluss vor 19.04.2011, weniger als 8 Supportanrufe sowie eine durchschnittliche Rechnung von mehr als 14,50 €

Alter der Kunden sowie Art des Vertrags haben angesichts der ausgewählten Variablen dabei keine zusätzlichen Informationen hinsichtlich des Zielkriteriums.

Modellgüte:

Durch die Kreuzvalidierung ist eine Schätzung der Prognosegenauigkeit möglich.

Prognosegüte für die Data Mining Klassifikation durch Entscheidungsbaum — Prognosegüte Entscheidungsbaum

Der obige Entscheidungsbaum kann 98,46 % der Daten richtig klassifizieren. 17 der 21 Abwanderer können also identifiziert werden. 98,5 % der treuen Kunden können ebenfalls korrekt klassifiziert werden.

Data Mining Klassifikation: Neuronale Netze Beispiel

Im folgenden Beispiel möchten wir den Umsatz eines Unternehmens anhand von 5 Attributen vorhersagen. Die 5 Attribute (Verkäufe, Lohnkosten, Zufriedenheit, Marketing sowie Zeit) sind stetig und zeigen nicht lineare Zusammenhänge mit dem Umsatz.

Lösungsansatz: Neuronales Netz

Aufgrund der nicht linearen Zusammenhänge kann kein Regressionsmodell verwendet werden. Zudem soll das Modell einfach anzuwenden sein und die Daten gut vorhersagen. Als Verfahren bietet sich daher ein neuronales Netz an.

Der Datensatz wird zuerst in Test und Trainingsdatensatz geteilt. Mit dem Trainingsdatensatz wird dann das neuronale Netz zur Vorhersage des Umsatzes gebildet. Anschließend wird das neuronale Netz auf den Trainingsdatensatz angewendet, um die Vorhersagegüte zu schätzen.

Die 5 Attribute werden vor der Analyse normiert und können somit als Input Variable verwendet werden. Durch neuronale Netze werden die Inputvariablen gewichtet und aufsummiert. Diese Gewichtung und Summation erfolgt dabei in Schichten. In den Schichten befinden sich Knoten (oft auch als Neuronen bezeichnet), die miteinander in Verbindung stehen. Am Ende der Verarbeitung wird ein Ergebnis ausgegeben.

Eine Besonderheit für neuronale Netze ist zum einen, dass diese alle Signale gleichzeitig verarbeiten. Zum anderen lernt das System selbstständig. Als Lernen bezeichnet man dabei die Modifikation der Gewichte aufgrund des Datenflusses.

Aufgrund der komplexen Struktur wird ein neuronales Netz oft als Blackbox dargestellt.

Data Mining Klassifikation durch die Blackbox neuronale Netze — Blackbox neuronales Netz

Interpretation Neuronales Netz

Bei der Schätzung der Umsätze ergibt sich folgendes neuronales Netz:

Neuronales Netz zur Umsatzvorhersage durch Data Mining Klassifikation — Neuronales Netz zur Umsatzvorhersage

Für jedes der fünf Attribute existiert ein Input Knoten (rosa Kreis). Darüber hinaus wurde noch ein weiterer Hilfsknoten zur Modellierung verwendet (Bias Node, blau). Die mittleren Kreise bilden die Zwischenschicht (Hidden Layer). Jeder Input besitzt eine Verbindung zu jedem inneren Knoten. Die Output Schicht ist repräsentiert durch einen Knoten, der Zielvariable Umsatz.

Die Stärke der Verbindung wird durch dessen Intensität dargestellt. Farbintensive und dicke Linien stellen Verbindungen dar, die ein hohes Gewicht besitzen. Durch das neuronale Netz erhält man vorhergesagte Werte für den Umsatz. Vergleicht man diese mit den tatsächlichen Werten des Datensatzes, so kann man Angabe zur Modellgüte machen. Mögliche Größen zur Bestimmung der Modellgüte sind etwa RMSE oder das Bestimmtheitsmaß.

Zusammenfassung

Moderne Data Mining Verfahren bieten eine Vielzahl an Möglichkeiten, Information aus einem Datenbestand zu generieren. Mit Data Mining Klassifikation kann man aufgrund bestimmter Attribute eine Zielvariable vorhersagen. Die Operatoren kann man mit einem Trainingsdatensatz mit bekannten Klassenzuordnungen optimieren. Die gefundenen Regeln kann man daraufhin durch einen Testdatensatz überprüfen. Mit einem Entscheidungsbaum oder mit neuronalen Netzen haben wir zwei Verfahren vorgestellt. Gerne beraten wir Sie ganz persönlich, was Sie aus Ihren Daten herausholen können. Unsere Experten helfen Ihnen bei der Auswahl geeigneter Data Mining Methoden und unterstützen Sie bei der Umsetzung und Interpretation.

Nehmen Sie Kontakt mit uns auf und nutzen Sie unsere Data-Mining-Beratung!

Weiterführende Quellen

Datenbeispiel Telekommunikation: RapidMiner Sample

Data Mining: Klassifikation- und Clusteringverfahren

Gerne beraten wir Sie auch telefonisch & geben Ihnen eine kostenfreie persönliche Auskunft zu Ihrem Projekt.

+49 211 99346512

+41 78 89 11111

+43 720 3035410

Data Mining Klassifikation: Entscheidungsbaum und neuronale Netze gewinnbringend nutzen!