La statistique est soit considérée comme un domaine des
mathématiques ou de la data science, soit comme une
discipline à part entière. Au travers de la collecte, le traitement, l’analyse et
l’interprétation de données d’une population, la statistique permet l’étude de
phénomènes. A l’aide d’outils et de méthodes spécifiques, la statistique est utilisée dans de
nombreux domaines en tant qu’élément d’aide à la décision ou d’information. Par exemple, les
statistiques sont utilisées pour les prédictions météorologiques, les sondages, l’étude des comportements, les prévisionnels de
vente, les jeux de hasard ou encore dans le secteur médical pour l’étude de maladies.
Quatre grands types d’analyses statistiques sont généralement identifiées :
• Les statistiques descriptives qui servent à décrire des données en
calculant des paramètres de position (fréquence, moyenne, médiane, minimum, maximum, 1er et 3ème quartile) et de dispersion (répartition des
données autour de la moyenne : écart-type, variance, intervalle
interquartile).
• Les statistiques inférentielles qui permettent, à partir d’un échantillon représentatif
consciencieusement constitué, de tirer des conclusions pour l’ensemble d’une population. Les
tests statistiques les plus connus sont les ANOVA, les comparaisons entre
moyennes, médianes ou pourcentages ou encore les régressions simples et multiples.
• Les analyses prédictives qui sont utilisées pour prédire des données de
type numérique (une consommation, une température, etc.) ou catégoriel (un mail catégorisé comme
« spam »). Les algorithmes utilisés pour ce type
d’analyse font appel à des méthodes de
classification ou de régression et sont semblables à ceux employés dans le cadre du machine learning supervisé.
• Les analyses exploratoires qui sont également appelées analyses de données.