Gerne beraten wir Sie auch telefonisch & geben Ihnen eine kostenfreie persönliche Auskunft zu Ihrem Projekt.

X

Data Mining Methoden- ein verständlicher Überblick über die wichtigsten Verfahren

In heutiger Zeit werden Unmengen von Daten erhoben und gespeichert. Bei der Auswertung dieser riesigen Datenbestände (Big Data) kommen nicht nur statistischen Verfahren sondern auch die neuen Algorithmen der Data Mining Methoden zum Einsatz. Aber hinter dem Begriff Data Mining verbirgt sich mehr als nur modernes Goldschürfen auf der Suche nach geldwertem Wissen und Informationen.

In diesem Artikel klären wir zunächst die Frage: “Was ist Data Mining?“ und geben Ihnen eine Data Mining Definition. Anschließend stellen wir die 5 wichtigsten Data Mining Methoden vor: Clusteranalyse (Cluster Analysis), Entscheidungsbaum (Decision Tree), Vorhersage (predictive Analysis), Assoziationsregeln (Mining Association Rules) und Klassifikation (Classification).

Eine Zusammenstellung unserer Leistungen im Bereich Data Mining finden Sie auf unseren Seiten. Gerne graben wir auch in ihren Datenschätzen neues Wissen für Sie aus! Nehmen Sie Kontakt mit uns auf.

Folgende Fragen beantwortet dieser Artikel

  • Was ist Data Mining?
  • Welche Data Mining Methoden gibt es?
  • Was ist ein Entscheidungsbaum (Decision Tree)?
  • Was versteht man unter Clusteranalyse (Cluster Analysis)?
  • Wie kann man Vorhersagen treffen (predictive Analysis)?
  • Wie stellt man Assoziationsregeln (Mining Association Rules) auf?
  • Wann benötigt man eine Klassifikation (Classification)?

Was ist Data Mining?

Mit der steigender Leistungsfähigkeit elektronischer Medien, der zunehmenden Vernetzung und dem explosionsartigem Anwachsen der Speichermöglichkeiten elektronischer Daten ist es zu einem Anstieg an verfügbaren Informationen gekommen.

Diese elektronisch verfügbaren Daten sowie die Datenmenge sind mit der Datenerhebung auf Papier allerdings nicht mehr vergleichbar. Man spricht in diesem Zusammenhang von Big Data: Sowohl die Anzahl der Daten (meist Millionen von Datensätzen), als auch die Erhebungsgeschwindigkeit (Echtzeit), sowie die Bandbreite der Erhebungsinstrumente (Kameras, Satelliten, Internet, Scannerkassen,…) sind in jeder Hinsicht big.

Solche enormen Datenmengen stellen besondere Anforderungen an die Auswertung. Analysen von Big Data sollten:

  • Große Datenmengen effizient verarbeiten.
  • Zuverlässige, leicht interpretierbare Ergebnisse liefern.
  • Eine möglichst kurze Verarbeitungszeit haben.
  • Für verschiedenartige Datenstrukturen (z. B. Textanalysen, Bildverarbeitung, Zahlen, Koordinaten,…) geeignet sein.

Data Mining Methoden sind Verfahren, die aus Big Data bislang unbekannte, neuartige, nützliche und wichtige Informationen „aufspüren“. Die Data Mining Definition umfasst einerseits klassische statistische Methoden wie z. B. Regressionsanalyse, logistische Regression, generalisierte lineare Modelle (GLM). Aber auch neue Algorithmen, die obig genannten Anforderungen erfüllen, sind gebräuchliche Data Mining Methoden. Ziel des Data Mining ist es, die gewonnenen Erkenntnisse zu verallgemeinern und so neues Wissen zu erzeugen.

Mehr zur Data Mining Definition ist in unserem Glossar hinerlegt.

Die Abgrenzung statistischer Auswertung zur Data Mining Definition ist in folgender Tabelle aufgelistet.

Statistik versus Data Mining Methoden

StatistikData Mining
DatenÜberschaubare Datenmengen ab einer Fallzahl von 30Big Data
ÜbertragbarkeitSchlussfolgerungen erfolgen anhand einer Stichprobe der GrundgesamtheitGrundgesamtheit existiert oft nicht
Stichprobe ist nicht definiert
Datenbestände ändern sich ständig
AuswertungAuch mit Papier und Bleistift durchführbarAusschließlich auf Computer beschränkt.
Zeitspanne Datenerhebung- ErgebnisseAuswertungen dauern oft jahrelang (z. B. klinische Studien)Ergebnisse müssen zeitnah zur Datenerhebung vorliegen (z. B. Kriminalistik)
VoraussetzungenVoraussetzungen müssen sehr genau für verwendete Verfahren überprüft werdenData Mining Methoden sind nicht mehr theoretisch begründet
Stattdessen werden Data Mining Methoden parallel verwendet. Man wählt darauf das beste Modell
ZielTesten von HypothesenGenerieren von Hypothesen

Die 5 wichtigsten Data Mining Methoden im Überblick

Der erfolgreiche Unternehmer H.J. Geldig möchte seine Verkaufsstrategien optimieren. Aus diesem Grund sammelt er auf seinen Shopwebseiten von allen Besuchern Daten gemäß den geltenden Datenschutzgesetzen. Innerhalb kürzester Zeit hat Herr Geldig eine riesige Menge an Daten, die er Experten zur Auswertung überlässt. Sein Ziel ist es, die Verkaufszahlen zu erhöhen und den Gewinn zu maximieren.

Die Data Mining Experten raten ihm darauf zu folgenden Auswertungen:

1. Clusteranalyse – erfolgreiches Fischen im Trüben

Im Rahmen der Clusteranalyse versucht man die riesige Datenmenge in kleinere homogene Gruppen einzuteilen. Alle Mitglieder eines Clusters besitzen dabei ähnliche oder gemeinsame Eigenschaften. Zwischen den Gruppen sollen sich die Attribute oder Eigenschaften in möglichst hohem Maße unterscheiden.

Die Cluster werden ohne Vorwissen generiert. Die Ähnlichkeitsstrukturen innerhalb eines Clusters sind daher nicht auf den ersten Blick erkennbar. Was die einzelnen Cluster ähnlich macht muss anschließend oft durch zusätzliche Analysen herausgearbeitet werden. Außerdem entstehen gelegentlich Cluster, die inhaltlich wenig hilfreich sind.

So kann die Clusteranalyse dazu dienen, den riesigen Datenbestand auf homogene Einheiten zurückzuführen und zu reduzieren. Die weiteren Analysen werden anschließend nur in bestimmten inhaltlich bedeutenden Clustern weitergeführt.

Im Einzelnen führt man für eine Clusteranalyse folgende Schritte durch:

  • Auswahl der Variablen für die Ähnlichkeitssuche
  • Festlegung des Distanzmaßes: Wie wird der Abstand zwischen den Datenpunkten gemessen? Dies hängt stark von der Fragestellung und dem Skalenniveau der Daten ab. Bei nominalen Variablen verwerdendet man oft Chi-Quadrat basierte Distanzmaße. Bei metrisch skalierten Variablen kann man z.B. euklidische Distanzen oder kleinste Quadrate verwenden.
  • Festlegung der Anzahl der Cluster sowie der Clusterzentren
  • Zuordnung der Punkte zu den Clustern auf Basis des Distanzmaßes

Die letzten beiden Punkte werden rekursiv wiederholt, solange bis alle Beobachtungen einem Cluster zugeordnet werden.

Eine detaillierte Vorstellung konkreter Clustering Algorithmen findet sich hier.

2. Klassifikation – Jedem seine Klasse!

In der Klassifikation werden die Objekte bestimmten Klassen oder Gruppen zugeordnet. In unserem Beispiel wenden die Experten Klassifikation an, um Käufer und Nicht-Käufer zu unterscheiden. Anhand der Klassifikation werden hierzu Entscheidungsregeln in den Daten gesucht. Mit diesen Regeln sollen dann Käufer von Nicht-Käufern unterschieden werden können. Zur Klassifikation zählen beispielweise Data Mining Methoden wie neuronale Netze, Bayes-Klassifikation und k-nächste Nachbarn Verfahren. Auch Entscheidungsbäume zählen zu den Klassifikationsverfahren.

Klassifikation als Beispiel für Data Mining Methoden
Beispiel für eine Klassifikation: Die Klassen (Ziele) sind bekannt und vorgegeben, die Einheiten sortieren sich entsprechend ihren Reiseplänen.

3. Der Entscheidungsbaum (Decision Tree) – Wenn man vor lauter Baum den Forest nicht sieht.

Entscheidungsbäume oder Decision Trees sind Data Mining Methoden oder Entscheidungsregeln in Form eines Baumes. Das Ergebnis ist ein Baum mit einer Wurzel und davon ausgehenden Ästen. Die Äste verzweigen sich fortlaufend an Knoten. Die Verzweigungen enden zuletzt in Blättern. Diese Blätter zeigen dann die Klassenzugehörigkeit oder die Entscheidung an.

Entscheidungsbäume sind beliebt, da sie Regeln einfach und verständlich darstellen können. Die Regeln werden hierarchisch, d. h. hintereinander in einer festgelegten Reihenfolge abgearbeitet und enden dann mit einem Ergebnis. Der Algorithmus arbeitet bei diskreten Variablen wie folgt:

  1. Zuerst wird das Merkmal mit dem höchsten Informationsgehalt in Hinblick auf die Vorhersage des Labels (Zielvariable) selektiert.
  2. Für jeden Wert, den das Attribut annehmen kann, wird anschließend ein Zweig des Baumes erstellt.
  3. Für jeden neuen Knoten wird Schritt 1 und 2 wiederholt.
  4. Der Baum ist fertig gestellt, wenn jeder Knoten eine Klasse eindeutig identifiziert. Die letzten Knoten legen dann die Klasse fest. Diese werden auch Blätter genannt.

Im Falle stetiger Variablen werden in einem zusätzlichen Schritt geeignete Schwellenwerte berechnet. Dieses in Gruppen „zerlegte“ Attribut kann daraufhin wie ein polynomiales Merkmal verwendet werden.

Herrn Geldig ist daran interessier, einfache Regeln aufzustellen, welchen Kunden Ratenzahlung eingeräumt werden kann. Ratenzahlung mit den Ausprägungen ja/nein ist dabei das Label. Geschlecht, Alter und bevorzugte Zahlungsmethode sind Prädiktoren. Der auf Basis des Datenbestandes generierte Entscheidungsbaum ist in der folgenden Abbildung zu sehen. Die Wurzel des Baumes ist Geschlecht. Dies ist also die Variable mit dem initial höchsten Informationsgehalt. In den Blättern ist jeweils die Entscheidung für die Einräumung einer Ratenzahlung abzulesen. Einer 40 jährigen Frau wird aufgrund dieses Entscheidungsbaumes die Ratenzahlung verweigert.

Entscheidungsbaum als weiteres Beispiel für Data Mining Methoden
Entscheidungsbaum am Beispiel der Kundendaten

Decision Trees: Vorsicht vor Overfitting!

Entscheidungsbäume sind leicht zu interpretieren, allerdings führt dieser Algorithmus nicht unbedingt zu dem Baum mit der besten Klassifikation. Da der Baum weiter wächst, bis die Daten eindeutig einer Gruppe zugeordnet werden können ist die Gefahr des Overfittings groß.

Von Overfitting spricht man, wenn Modelle zu stark spezifiziert sind. Diese Modelle sagen zwar die Daten, für die sie optimiert sind, fehlerfrei vorher. Allerdings ist dadurch eine Generalisierung und die Übertragbarkeit auf andere Daten nicht mehr gewährleistet. Grund dafür ist die Hinzunahme zu vieler Einflussvariablen. Entscheidungsbäume mit sehr vielen Stufen und Blättern passen sich den Trainingsdaten perfekt an, führen aber bei anderen Daten zu sehr hohen Fehlerquoten. Um Overfitting zu verhindern, sollte man den Entscheidungsbaum im nachhinein oft kürzen. Diesen Vorgang nennt man Prunning. Zweige mit wenig Informationsgehalt werden im Nachhinein wieder entfernt. Eine weitere Möglichkeit ist die Verwendung von Random Forest Methoden. Dabei werden viele Entscheidungsbäume auf den gleichen Daten generiert, die Klassenzugehörigkeit einzelner Beobachtungen basiert auf einer gemeinschaftlichen Entscheidung über alle Entscheidungsbäume hinweg.

4. Wer mit Wem? – Assoziationsregeln

Assoziationsregeln werden aufgestellt, um Zusammenhänge sichtbar zu machen. Diese Assoziationsregeln werden auch als Abhängigkeitsregeln bezeichnet. Die Data Mining Experten raten Herrn Geldig die Warenkörbe seiner Kunden mit Assoziationsregeln zu untersuchen. Auch Suchverläufe kann man mit Assoziationsregeln analysieren. Dadurch entstehen beispielsweise Aussagen wie: Wenn ein Kunde rote Wollpullis sucht, kauft er mit großer Wahrscheinlichkeit auch gelbe Socken. So können die Experten Kundenprofile erstellen und beispielsweise Werbung gezielt platzieren.

Assoziationsregeln werden aufgestellt, indem die Häufigkeit für unterschiedliche Mengen und Teilmengen ermittelt werden. Dabei sind vor allem sogenannte frequent Item Sets von Interesse. Darunter versteht man Mengen, also zum Beispiel Warenkörbe, bei denen die Häufigkeit bestimmter Kombinationen eine vorgegebene Schranke übersteigt. Dabei wird zunächst jedes Attribut einzeln untersucht und dann schrittweise weitere Attribute hinzugenommen, die auch die frequent item set Bedingung erfüllen. Dadurch erhält man Kombinationen von Attributen, die sehr häufig in Kombination auftreten. In diesen häufig auftretenden Kombinationen werden dann alle Zerlegungen gebildet und daraus die Folgerungen aufgestellt.

5. Vorhersage Modell (predictive Analysis oder predictive Analytics) – Prognosen für die Zukunft

In der predictive Analysis oder auch predictive Analytics werden anhand der Daten Vorhersagemodelle für die Zukunft erstellt. In Rahmen eines Modells versuchen Experten dabei anhand von Einflussgrößen (Prädiktoren) die Zielgröße (label) vorherzusagen.

Bei dem Modell kann es sich im einfachsten Fall um einen linearen Zusammenhang handeln. Die Wahl des Modells hängt dabei vom Skalenniveau der Zielvariable (label) ab. Bei dichotmonen Label (ja/nein Ausprägungen) ist eine logistische Regression im Rahmen eines GLM möglich. Für stetige Label steht dagegen die lineare Regression zur Verfügung. Es können aber auch rein datenerzeugte Systeme wie zum Beispiel neuronale Netze sein. Auch Support Vector Machines, Deep Learning Models oder Naive Bayes Modelle sind möglich.

Meist wendet man im Data Mining mehrere mögliche Modelle parallel an. Anschließend ermittelt man dann mittels Kreuzvalidierung die Modellgüte ermittelt. Für die Vorhersage verwendet man anschließend das Modell mit dem besten durchschnittlichen Fit.

Die meisten Modelle haben derart komplexe Algorithmen, dass sie für Anwender nicht mehr verständlich sind.

Bei Herrn Geldigs Daten können predictive Analysis verwendet werden, um Kunden zu einem erneuten Kauf in seinem Shop zu bewegen. Dies kann z. B. dadurch erfolgen, dass Marketingaktivitäten erfolgen, noch bevor der Kunde sich anderweitig informierten muss. Kunden, die eine Kaffeemaschine kaufen, benötigen in bestimmten Zeitabständen Kaffe oder Reinigungsprodukte. Auch Retourenquoten lassen sich mittels predictive analytics und geeigneten Daten vorhersagen.

Zusammenfassung

In diesem Artikel haben wir Ihnen die 5 wichtigsten Data Mining Methoden nähergebracht und erläutert. Eine Gegenüberstellung der Data Mining Methoden ist nachfolgender Tabelle zu entnehmen. Die Verwendung der Methoden im Data Mining erfolgt oftmals explorativ, die Verfahren im Hintergrund sind allerdings äußerst komplex und anspruchsvoll. Insbesondere die Interpretation der Ergebnisse und die Übertragbarkeit ist ein heikles und schwieriges Thema. Aufgrund riesiger Datenmengen lassen sich perfekte Modelle entwickeln, die jedoch nicht immer auf andere Daten übertragbar sind. Gerne helfen wir Ihnen, ihre Datenbestände professionell auszuwerten und zeitnah, verständlich, kundenorientiert und effektiv die Ergebnisse ihres Data Mining Projekts zu präsentieren.

Wir kümmern uns unabhängig und zuverlässig um alle Aspekte im Umgang mit Big Data. Nehmen sie Kontakt mit uns auf!

Zielvariable (label)AussageEinschränkung
ClusteranalyseKeine, Cluster werden automatisch gebildetBildung homogener Gruppen, Reduzierung der DatenmengeÄhnlichkeitsmerkmale müssen nachträglich bestimmt werden
AssoziationsregelnkategoriellWenn – Dann RegelnSind nur für Datenset gültig, Übertragbarkeit insb. mit zeitlicher Komponente muss überprüft werden.
Vorhersage Modell (predictive analysis)Beliebig, Modellwahl von Skalenniveau abhängigVorhersage Modelle für zukünftige EreignisseBestes Modell muss anhand von Kriterien (z. B. Interpretierbarkeit, Fit, …) bestimmt werden
KlassifikationkategoriellZuordnung zu fest vorgegebenen KlassenVielzahl möglicher Algorithmen, Problem des Overfittings
Entscheidungsbaum (Decision Tree)kategoriellHierarchische EntscheidungsregelnGefahr Overfitting, unübersichtlich bei sehr vielen Leveln

Weitere Quellen:

Wikipedia Übersichtsartikel zu Data Mining

Einführung in wichtige Data Mining Verfahren der TH Nürnberg

Data Mining Einführung von Klaus-Perter Wiedmann, Frank Buckler und Holger Buxel