Data Mining hat sich innerhalb der letzten Jahrzehnte zu einer eigenständigen Disziplin entwickelt. Für eine zielführende und effiziente Arbeitsweise ist ein systematischer Prozess im Data Mining allerdings unerlässlich. Um den Prozess der Wissensentdeckung verlässlich und reproduzierbar durchzuführen, hat sich der CRISP-DM Standard als Leitlinie durchgesetzt. Das CRISP Modell umfasst 6 Phasen im Data Mining. In diesem Artikel geben wir einen Einblick in das branchenübergreifende und allgemeingültige Standardmodell CRISP-DM im Data Mining. Wir stellen hierzu die 6 Phasen vor und erklären die einzelnen Aufgaben.
Auch bei Novustat gehen wir selbstverständlich anhand des CRISP-DM Modells vor. Wenn Sie Interesse an Data Mining haben oder sich unverbindlich über die Möglichkeiten des Data Minings informieren wollen, stehen Ihnen unsere Experten gerne zu Verfügung. Wir zeigen Ihnen gerne bei einer Data Mining Beratung, wie sie mehr Informationen aus Ihren Daten generieren können. Nehmen Sie hierzu gerne Kontakt mit uns auf! Wir freuen uns auf Ihre Fragestellung.
Dieser Artikel beantwortet folgende Fragen:
- Was versteht man unter CRISP-DM?
- Wie sieht das CRISP Modell aus?
- Welche Ziele hat CRISP-DM?
- Welche Phasen werden in einem Data Mining Projekt unterschieden?
- Was versteht man unter CRISP-DM predictive Analytics?
Wie alles begann: die Ursprünge des CRISP-DM
Die Ursprünge des CRISP Modell gehen auf das Jahr 1996 zurück. In den Anfängen des Data Minings sollten auf Initiative der EU einheitliche, branchenübergreifende und allgemeingültige Standards im Data Mining entwickelt werden. 1999 wurde schließlich das erste CRISP Modell veröffentlicht. Mehr als 200 Mitglieder weltweit arbeiteten inzwischen an der Entwicklung mit, darunter Datenbank Entwickler wie IBM, SAS, SPSS, Berater oder Anwender.
Definition: Was ist CRISP-DM?
Data Mining ist ein Teil des KDD Prozesses und soll neue, potenziell nützliche Informationen aus großen Datenbeständen der Datenbanken extrahieren.
Der Begriff CRISP-DM ist eine Abkürzung für Cross Industry Standard Process for Data Mining. CRISP-DM ist nicht-proprietär und grundsätzlich für alle Anwendungsbereiche und Fragestellung in Zusammenhang mit Data Mining einsetzbar. Insgesamt wird der Prozess der Wissensgenerierung aus großen Datenbeständen (Big Data) in 6 Abschnitte oder Phasen unterteilt.
Die 6 Phasen im CRISP Modell
Die 6 Phasen des CRISP-DM Prozesses umfassen die gesamte Spannweite im Data Mining: vom Datenverständnis (Data Understanding) bis zum Bericht der Ergebnisse. Dabei werden die einzelnen Phasen allerdings nicht einmalig oder linear durchlaufen. Häufig sind Wiederholungen von Prozessschritten oder Rücksprünge in vorausgegangene Phasen notwendig. Mögliche Sprünge in frühere Phasen sind in der Abbildung oben mit Doppelpfeilen dargestellt.
Im Einzelnen werden folgende Phasen unterschieden:
Geschäftsverständnis oder Business Understanding
In dieser Phase werden Ziele und konkrete Fragestellungen definiert. Anwender und Analyst tauschen sich dazu hinsichtlich der Aufgaben und Erwartungen aus. Für die Aufgabenstellung geeignete Verfahren werden dabei besprochen und festgelegt. In dieser Phase stellt man schließlich auch die Erfolgskriterien.
Datenverständnis oder Data Understanding
Anschließend macht man sich in der Phase des Datenverständnisses mit den Daten vertraut. Welche Daten stehen zur Verfügung? Welche Merkmale wurden erhoben? Die Überprüfung der Qualität und Reliabilität der Daten erfolgt ebenfalls in dieser Phase. Hierzu benennt man alle Beobachtungen und wägt entsprechende Korrekturen ab.
Datenvorbereitung oder Data Preparation
In der Datenvorbereitung erstellt man dann den für die weiteren Analysen verwendeten Datensatz. Dabei werden Variablen bei Bedarf kodiert oder transformiert. Geeignete Verfahren für fehlende Daten können angewendet werden. Erfahrungsgemäß benötigt man für diese Phase ein Großteil der Zeit. Nur wenn die Daten valide und belastbar sind, liefern CRISP-DM predictive Analytics zuverlässige Ergebnisse.
Modellierung oder Modeling
In der Modellierung führt man die für die Beantwortung der Fragen notwendigen Verfahren durch. Meist müssen dabei verschiedene Parameter variiert werden und verschiedene Modelle erstellt werden. Werden vorhersagende Modelle gebildet, spricht man von CRISP-DM predictive Analytics. Auch beschreibende Modelle sind möglich. Für diesen Schritt existiert eine Vielzahl möglicher Data Mining Verfahren, deren Anwendbarkeit wesentlich von der Fragestellung abhängig sind.
Evaluierung oder Evaluation
In der Phase der Evaluierung vergleicht man die erstellten Modelle aus der CRISP-DM predictive Analytics. Dabei werden verschiedene Parameter der Modellgüte herangezogen. Dabei wird häufig zwischen Anpassungsgüte und Komplexität der Modelle sowie Anwendbarkeit abgewogen. Ausgehend von den Ergebnissen werden Phasen wiederholt bzw. die letzte Phase des CRISP-DM Modells eingeleitet.
Bereitstellung der Ergebnisse oder Deployment
Beim Data Mining Deployment, dem letzten Schritt des CRISP Modells, fasst man zuletzt die gewonnenen Ergebnisse zusammen, bereitet diese auf und stellt sie verständlich dar.
Zusammenfassung: CRISP-DM für zuverlässigen Data Mining Analysen
Das CRISP-DM Modell ist die Basis für ein zielgerichtetes Data Mining mit belastbaren und gültigen Ergebnissen. Der gesamte CRISP-DM Prozess ist eine Grundlage für die Planung, Ausführung und Dokumentation im Bereich Data Mining. Auch wenn viele Aufgabenfelder fern von dem eigentlichen Auswertungsziel erscheinen, ist die ordnungsgemäße und zuverlässige Ausführung aller Schritte Hand-in-Hand wichtig und die Basis für eine frustrationsfreie Zusammenarbeit. Selbstverständlich wird Data Mining bei Novustat anhand dieser Phasen ausgeführt. Gerne geben wir Ihnen dazu in einem Beratungsgespräch nähere Informationen.