Pour l’amélioration de la qualité des projets de data mining, ou, plus largement, de data science, une méthode se démarque : la
méthode CRISP (Cross Industry Standard Process).
Cette dernière se décompose en six étapes :
1. Comprendre le problème métier : Quelle est la problématique ? Quels sont
les enjeux ? Quel est l’objectif et comment l’atteindre ?
2. Comprendre les données : Quels sont les différents types de données à
collecter ? Où collecter les données ? La qualité des données est-elle suffisante pour un
traitement efficace ? De quelle manière lier les différentes données entre elles ?
3. Préparer les données : Y a-t-il des données à recoder ou à supprimer ?
Comment classer et structurer les données ?
4. Modéliser : Quels algorithmes créer et comment les paramétrer ? A noter
que les algorithmes auront trois objectifs tout au long du processus : décrire et expliquer,
prédire puis prescrire.
5. Évaluer : Les résultats répondent-ils aux objectifs formulés ? Le modèle
créé sera-t-il déployé ou nécessite-t-il une amélioration ? Le modèle est-t-il assez robuste et
précis ?
6. Déployer : Le modèle créé est mis à disposition des utilisateurs sous
une forme compréhensible et adaptée afin qu’il puisse appuyer la prise de décision.
La méthode CRISP est agile et itérative dans le sens où chaque itération
complète la connaissance déjà acquise et améliore le processus complet.