S’ils se restreignaient encore aux secteurs de l’agronomie et
de l’industrie il y a quelques décennies, les champs
d’application des méthodes d’apprentissage et de prédiction
statistiques sont aujourd’hui en pleine expansion. Nous sommes
entrés depuis quelques temps dans l’ère de l’information, et
un nombre croissant d’entreprises et d’institutions,
consacrent beaucoup d’argent et de temps à collecter et à gérer
des données touchant à leur activité.
Le rôle dévolu aux méthodes statistiques est de pouvoir convertir les
données collectées en une information opérationnelle fiable, permettant
d’éclairer les prises de décisions.
La grande diversité et la complexité croissante des problèmes dont
l’enjeu est «d’apprendre des données» a fortement stimulé
les sciences statistiques ces dernières années. Sous l’impulsion
des progrès réalisés dans d’autres domaines tels que la théorie de
l’information, les probabilités ou le calcul scientifique, des
développements considérables ont été réalisés dans cette discipline, et
permettent aujourd’hui de disposer d’une gamme de techniques
toujours plus efficace pour effectuer la tâche délicate
d’«extraire» l’information pertinente des données
brutes.
Si les objectifs du traitement statistique de l’information sont
facilement identifiables et peuvent être regroupés en trois grandes
classes de problèmes, le choix de la technique de résolution ainsi que
sa mise en oeuvre requièrent souvent les compétences d’un
statisticien. Les étapes de modélisation (formulation mathématique du
problème) et de sélection de la méthode de calcul (la procédure
statistique) conditionnent en effet entièrement les résultats du
traitement. Il est donc généralement crucial que l’utilisateur
final des résultats collabore étroitement avec un expert dans le domaine
de la modélisation statistique sous peine d’interpréter comme de
l’information, les résultats erronés d’une procédure
inadaptée.
On peut dire grosso modo que les méthodes statistiques consistent toutes
plus ou moins à calculer des moyennes, mais selon la façon dont celle-ci
sont calculées, certaines caractéristiques structurelles des données
peuvent soit émerger clairement, soit disparaître complètement.
Voici quelques exemples issus des trois tâches fondamentales du
traitement statistique de l’information évoquées ci-dessus
illustrant notre propos.
Prédiction statistique
Le problème de la prédiction statistique consiste à chercher une règle permettant de prévoir la valeur d’une variable (régression) ou l’appartenance à une classe (classification) à partir de variables explicatives. Ce problème trouve des applications dans de très nombreux domaines. Une société de crédit cherchera par exemple à construire une règle de prédiction permettant de déterminer la probabilité qu’un prospect ne rembourse pas un crédit à partir de ses caractéristiques socio-économiques. En médecine, on cherchera à prévoir la probabilité qu’un patient soit victime d’un accident cardiaque à partir de ses habitudes alimentaires et de ses caractéristiques physiologiques…
Les méthodes les plus couramment utilisées (essentiellement la régression linéaire multiple) supposent a priori une relation rigide entre le phénomène que l’on cherche à prévoir et les variables censées l’expliquer. Bien souvent le modèle utilisé, trop simpliste, n’arrive pas à «capturer» la façon dont telle ou telle variable explicative influence le phénomène, et possède des propriétés prédictives très faibles. De nombreuses alternatives, connues sous le terme générique de «sélection de modèle», existent aujourd’hui : elles consistent à sélectionner via un algorithme le modèle dont les capacités à l’égard de la prédiction sont les plus grandes. La mise en œuvre de ce type de méthode par un expert statisticien s’effectue très rapidement de manière quasi-automatique à l’aide d’un simple programme informatique.
Analyse / Synthèse de l’information
Certaines méthodes statistiques ont pour but de résumer/synthétiser les données avec une perte d’information minimale. Lorsqu’un grand nombre de caractéristiques quantitatives sont recensées par exemple, l’Analyse en Composantes Principales (ACP) est la méthode la plus couramment utilisée pour rechercher les variables expliquant le mieux les variations observées, la perte d’information étant contrôlée par un indice de fidélité. Or, le cadre de validité de l’ACP stipule que les variations observées soient très régulières (décrites par une loi normale). Et en dehors de ce cadre assez strict, la perte d’information résultant d’une telle analyse peut être beaucoup plus grande que celle suggérée par l’indice de fidélité. Aussi, l’examen attentif de la validité de cette procédure peut s’avérer crucial, et conduire à recourir à une alternative développée récemment, l’Analyse en Composantes Indépendantes, dont l’efficacité est avérée lorsque les variations à analyser sont trop irrégulières.
Clustering
Largement utilisé pour effectuer des segmentations de fichiers clients ou définir des typologies marketing dans le secteur marchand, la tâche du clustering est de regrouper les individus d’une population en classes «homogènes» : étant attendu que deux individus d’une même classe doivent posséder des caractéristiques «semblables», «voisines». Si la mise en œuvre des algorithmes de clustering est plus ou moins automatique (encore que dans ce domaine, les procédures les plus efficaces soient les plus flexibles, requérant un paramétrage subtil), le résultat dépend étroitement de la formulation mathématique du concept de «similitude», de «voisinage» sur lequel reposent ces méthodes. C’est le rôle d’un expert statisticien, que de pouvoir définir précisément cette notion de proximité.
Recourir à une expertise
Si les logiciels statistiques et les solutions «packagées» de data-mining
permettent aujourd’hui d’implémenter automatiquement une
gamme relativement large de procédures de façon de plus en plus
conviviale (interfaces graphiques…), ils ne permettent pas dans la
plupart des cas de se dispenser d’une expertise dans le domaine du
traitement statistique de l’information.
Le recours à un expert statisticien permet en effet rapidement de :
• formuler précisément l’objectif du traitement (résultats
attendus).
• examiner attentivement le contenu des données.
• sélectionner la méthode la plus appropriée parmi l’éventail
des outils développés en statistique.
• garantir la pertinence des résultats du traitement.