L’apprentissage statistique : des techniques en pleine évolution

Dans Statistiques
Par Gérard Danaguezian

S’ils se restreignaient encore aux secteurs de l’agronomie et de l’industrie il y a quelques décennies, les champs d’application des méthodes d’apprentissage et de prédiction statistiques sont aujourd’hui en pleine expansion. Nous sommes entrés depuis quelques temps dans l’ère de l’information, et un nombre croissant d’entreprises et d’institutions, consacrent beaucoup d’argent et de temps à collecter et à gérer des données touchant à leur activité.
Le rôle dévolu aux méthodes statistiques est de pouvoir convertir les données collectées en une information opérationnelle fiable, permettant d’éclairer les prises de décisions.
La grande diversité et la complexité croissante des problèmes dont l’enjeu est «d’apprendre des données» a fortement stimulé les sciences statistiques ces dernières années. Sous l’impulsion des progrès réalisés dans d’autres domaines tels que la théorie de l’information, les probabilités ou le calcul scientifique, des développements considérables ont été réalisés dans cette discipline, et permettent aujourd’hui de disposer d’une gamme de techniques toujours plus efficace pour effectuer la tâche délicate d’«extraire» l’information pertinente des données brutes.
Si les objectifs du traitement statistique de l’information sont facilement identifiables et peuvent être regroupés en trois grandes classes de problèmes, le choix de la technique de résolution ainsi que sa mise en oeuvre requièrent souvent les compétences d’un statisticien. Les étapes de modélisation (formulation mathématique du problème) et de sélection de la méthode de calcul (la procédure statistique) conditionnent en effet entièrement les résultats du traitement. Il est donc généralement crucial que l’utilisateur final des résultats collabore étroitement avec un expert dans le domaine de la modélisation statistique sous peine d’interpréter comme de l’information, les résultats erronés d’une procédure inadaptée.
On peut dire grosso modo que les méthodes statistiques consistent toutes plus ou moins à calculer des moyennes, mais selon la façon dont celle-ci sont calculées, certaines caractéristiques structurelles des données peuvent soit émerger clairement, soit disparaître complètement.
Voici quelques exemples issus des trois tâches fondamentales du traitement statistique de l’information évoquées ci-dessus illustrant notre propos.

Prédiction statistique

Le problème de la prédiction statistique consiste à chercher une règle permettant de prévoir la valeur d’une variable (régression) ou l’appartenance à une classe (classification) à partir de variables explicatives. Ce problème trouve des applications dans de très nombreux domaines. Une société de crédit cherchera par exemple à construire une règle de prédiction permettant de déterminer la probabilité qu’un prospect ne rembourse pas un crédit à partir de ses caractéristiques socio-économiques. En médecine, on cherchera à prévoir la probabilité qu’un patient soit victime d’un accident cardiaque à partir de ses habitudes alimentaires et de ses caractéristiques physiologiques…

Les méthodes les plus couramment utilisées (essentiellement la régression linéaire multiple) supposent a priori une relation rigide entre le phénomène que l’on cherche à prévoir et les variables censées l’expliquer. Bien souvent le modèle utilisé, trop simpliste, n’arrive pas à «capturer» la façon dont telle ou telle variable explicative influence le phénomène, et possède des propriétés prédictives très faibles. De nombreuses alternatives, connues sous le terme générique de «sélection de modèle», existent aujourd’hui : elles consistent à sélectionner via un algorithme le modèle dont les capacités à l’égard de la prédiction sont les plus grandes. La mise en œuvre de ce type de méthode par un expert statisticien s’effectue très rapidement de manière quasi-automatique à l’aide d’un simple programme informatique.

Analyse / Synthèse de l’information

Certaines méthodes statistiques ont pour but de résumer/synthétiser les données avec une perte d’information minimale. Lorsqu’un grand nombre de caractéristiques quantitatives sont recensées par exemple, l’Analyse en Composantes Principales (ACP) est la méthode la plus couramment utilisée pour rechercher les variables expliquant le mieux les variations observées, la perte d’information étant contrôlée par un indice de fidélité. Or, le cadre de validité de l’ACP stipule que les variations observées soient très régulières (décrites par une loi normale). Et en dehors de ce cadre assez strict, la perte d’information résultant d’une telle analyse peut être beaucoup plus grande que celle suggérée par l’indice de fidélité. Aussi, l’examen attentif de la validité de cette procédure peut s’avérer crucial, et conduire à recourir à une alternative développée récemment, l’Analyse en Composantes Indépendantes, dont l’efficacité est avérée lorsque les variations à analyser sont trop irrégulières.

Clustering

Largement utilisé pour effectuer des segmentations de fichiers clients ou définir des typologies marketing dans le secteur marchand, la tâche du clustering est de regrouper les individus d’une population en classes «homogènes» : étant attendu que deux individus d’une même classe doivent posséder des caractéristiques «semblables», «voisines». Si la mise en œuvre des algorithmes de clustering est plus ou moins automatique (encore que dans ce domaine, les procédures les plus efficaces soient les plus flexibles, requérant un paramétrage subtil), le résultat dépend étroitement de la formulation mathématique du concept de «similitude», de «voisinage» sur lequel reposent ces méthodes. C’est le rôle d’un expert statisticien, que de pouvoir définir précisément cette notion de proximité.

Recourir à une expertise

Si les logiciels statistiques et les solutions «packagées» de data-mining permettent aujourd’hui d’implémenter automatiquement une gamme relativement large de procédures de façon de plus en plus conviviale (interfaces graphiques…), ils ne permettent pas dans la plupart des cas de se dispenser d’une expertise dans le domaine du traitement statistique de l’information.
Le recours à un expert statisticien permet en effet rapidement de :
• formuler précisément l’objectif du traitement (résultats attendus).
• examiner attentivement le contenu des données.
• sélectionner la méthode la plus appropriée parmi l’éventail des outils développés en statistique.
• garantir la pertinence des résultats du traitement.