Le data mining ou exploration de données est le processus de
découverte de modèles dans de grands ensembles de données au travers du machine learning, des statistiques et des systèmes de bases de données. Le data mining a pour objectif
d’extraire les informations d’un ensemble de données par des méthodes automatiques ou
semi-automatiques en vue de leur donner une structure compréhensible.
Le data mining permet d’enrichir les concepts existants comme l’informatique décisionnelle.
Cette dernière permet de collecter et de restituer des données en vue d’apporter une aide à la
décision. De son côté, le data mining permet non seulement de consolider des données mais
également de les trier et de les transformer en élément explicatif ou de recommandation. Le data
mining peut également avoir un rôle
prédictif.
La méthode du data mining est utilisée dans de nombreux domaines tels que le commerce et la
gestion de la relation client au travers de l’analyse du comportement des consommateurs. Le data mining
est également très utilisé dans le secteur de la sécurité pour l’identification de comportements
criminels et de la cybersécurité pour la détection automatique de fraudes ou de sites
malveillants. Dès lors que l’on souhaite étudier un grand nombre de données pour comprendre un
phénomène ou un comportement avec pour objectif l’amélioration de la qualité d’un procédé, le
data mining apporte une solution complète et efficace.
Pour l’amélioration de la qualité des projets de data mining, ou, plus largement, de data science, une méthode se démarque : la méthode CRISP (Cross Industry Standard Process). Cette
dernière se décompose en six étapes allant de la compréhension du problème métier au déploiement
d’une solution agile pour comprendre, prédire et donner une prescription concernant un événement
ou un comportement particulier.