6 Schritte zu einem erfolgreichen Data-Science-Projekt

Steht Ihnen einen Data Science-Projekt bevor oder sind Sie einfach daran interessiert, wie Data Mining gelingt? Wie erklären den aktuellen und branchenübergreifenden Leitfaden, um Projekte gut strukturiert zum Erfolg zu führen – den CRISP-DM (Cross Industry Standard Process for Data Mining).

Entwickelt wurde die Methode 1996 von namhaften Unternehmen (Daimler AG, NCR Corporation u.a.) mit dem Ziel, einen einheitlichen Standard für Projekte zu etablieren. Es strukturiert die Projekte in sechs Phasen, wobei das Modell einen Kreislauf darstellt, und die einzelnen Schritte nicht strikt hierarchisch zu verstehen sind.

1. Business Understanding (Aufgabendefinition)

Der erste Schritt, Business Understanding” konzentriert sich auf die Problem- beziehungsweise Fragestellung. Welches Problem soll gelöst werden und wieviel Potential steckt in dem Vorhaben? So sollte abgewogen werden, wieviel finanzielle Ressourcen in das Projekt fließen können. Dies geht am einfachsten, indem die wirtschaftlichen Zielkriterien definiert werden.

2.Data Understanding (Auswahl der relevanten Datenbestände)

Welche Datenquellen habe ich für die Erreichung dieses Ziel? Stehen mir alle notwendigen Informationen zur Verfügung oder müssen erst Daten beschafft werden? 
Unter Umständen kann hier auch ein Umformulieren des Ziels sinnvoll sein.

3. Data Preparation (Datenaufbereitung)

Ist die Datenbasis erst mal zusammengetragen, geht es an das Sichten und Vorbereiten der Daten.  Damit erreicht man in der Regel auch einen der aufwendigsten Parts, weil die Daten meistens erst mal bereinigt, transformiert und vorbereitet werden müssen.

4. Modelling (Auswahl und Anwendung von Data Mining Methoden)

Hier kommt der Algorithmus ins Spiel. Ein Data Scientist erstellt ein Model und setzt meist einfache Kennzahlen ein, um zu prüfen ob das Modell für die Berechnungen geeignet ist. Oft ist es an dieser Stelle notwendig, nochmal einiges anzupassen und einen Schritt zurück zur Datenaufbereitung zu gehen.

5. Evaluation (Bewertung und Interpretation der Ereignisse)

Ist das Modell aus aktueller Sicht schlüssig, muss es hinsichtlich der Zielvorgabe geprüft werden: können die zuvor definierten Ziele mit diesem Modell erreicht werden? Gegebenenfalls müssen Ziel oder Modell entsprechend adaptiert werden.

6. Deployment (Anwendung der Ergebnisse)

Hat die Evaluierung den Qualitätsanforderung standgehalten, wird das Modell nun implementiert. An dieser Stelle wird in der Regel auch ein Prozess für das laufende Monitoring eingesetzt, um sicher zu stellen, ob das Modell nach wie vor mit den Zielen zusammenpasst.


Magazin

Andere Beiträge

This is the thumbnail of the other blogpost.
Data for all - die Demokratisierung von Daten

Wenn es um die 'Demokratisierung von Daten' geht, so gibt es dabei unterschiedliche Ebenen. Die eine ist das öffentliche zur Verfügung stellen von Daten, wie man es zB von Open Data Portalen kennt.

Read more
This is the thumbnail of the other blogpost.
6 Schritte zu einem erfolgreichen Data-Science-Projekt

Steht Ihnen einen Data Science-Projekt bevor oder sind Sie einfach daran interessiert, wie Data Mining gelingt? Wie erklären den aktuellen und branchenübergreifenden Leitfaden, um Projekte ...

Read more