Le data clustering ou partitionnement de données est une méthode de machine learning non supervisé, utilisée pour l’analyse de données. Largement utilisé pour effectuer des segmentations de fichiers clients ou définir des typologies marketing dans le secteur marchand, le clustering a pour objectif de diviser un ensemble de données en différents groupes homogènes partageant des caractéristiques communes. La proximité des éléments peut être déterminée à l’aide de mesures et de classes de distances. Un bon regroupement ou clustering est caractérisé par une forte proximité des données à l’intérieur des groupes et une forte différenciation entre les sous-ensembles. Plusieurs techniques de classification sont basées sur le modèle de clustering telles que le dendrogramme ou la carte thermique.