Bien préparer vos données avant tout redressement

Dans STATISTIQUES
Par Catherine Monghal

La technique du redressement d’échantillons est utilisée pour rapprocher le fichier de données de la réalité. Les coefficients trouvés pondèrent les données dont on dispose. Mais si ces données sont fausses dès le départ, qu’elles ont été mal collectées, mal saisies, ou qu’elles comportent trop de données manquantes, il ne servira à rien de chercher à redresser.

Comme dans toute bonne recette de cuisine, on ne répétera jamais assez, concernant l’analyse des données, que la préparation compte autant et même peut-être davantage que la réalisation elle-même : les bons ingrédients, au bon moment, avec des accessoires adaptés, représentent là aussi la première garantie de réussite.

Rappelons tout d’abord le principal objectif attendu d’une analyse des données : transformer une base d’informations, qualitatives ou quantitatives, en décisions et plans d’actions opérationnels pour un service, une entreprise, une organisation…

Pour y parvenir, et quelles que soient les méthodes utilisées, des plus simples aux plus complexes, la performance de la démarche repose sur la qualité des informations qui serviront de base aux analyses. Cette qualité dépend de plusieurs facteurs :

- le recueil des données, en particulier selon leur origine et leur mode de collecte. Ce recueil peut reposer sur de multiples moyens, supports et processus, ce qui exigera des consolidations ou des liens entre plusieurs fichiers ayant parfois des structures différentes.
- la teneur des informations, en termes de types de variables (quanti/quali, brutes ou classifiées,….) mais également concernant les valeurs aberrantes, manquantes ou nulles.

La phase indispensable de préparation des informations à analyser, que l’on appellera aussi « nettoyage des données », dépend de plus en plus des logiciels que l’on souhaite utiliser pour effectuer les traitements. Les formats, le mode de gestion des données nulles ou absentes, les modes de calculs, répondent à certaines contraintes, qui peuvent être différentes d’un outil à l’autre. Ces éléments doivent être bien connus et anticipés si l’on veut éviter, lors du traitement, les surprises éventuelles et les erreurs de raisonnement et de calcul qui pourraient en découler.

Les contrôles initiaux lors de l’acquisition des données

La meilleure manière de s’assurer que l’on dispose de données de qualité consiste à contrôler à la source, lorsque cela est possible, le processus d’acquisition et éventuellement de consolidation des données.

Mais avant d’évoquer ces processus, il convient de rappeler que la qualité des données est d’abord conditionnée par la qualité du terrain. Des questions mal posées, des cibles mal choisies ou des enquêteurs mal briefés peuvent fournir des données erronées qu’il ne sert à rien de chercher à optimiser.

Concernant l’acquisition elle-même, certains instituts réalisent, sur les données des enquêtes saisies en interne, une deuxième saisie (double-saisie), permettant, par comparaison des deux fichiers obtenus, de mettre en évidences d’éventuelles erreurs de recopiage de la réponse inscrite sur le questionnaire.

Cette méthode est très efficace, dans la mesure où la probabilité que deux personnes différentes se trompent de la même manière, au même endroit, est très faible. Elle se justifie également lorsque la saisie est encore faite “au kilomètre”, dans des outils de saisie ne permettant pas de réaliser des contrôles avancés.

Toutefois, son caractère fastidieux et long fait qu’elle est de plus en plus rarement employée, notamment par les utilisateurs finaux dans les services études des entreprises.

Heureusement, les principales erreurs de frappe peuvent être considérablement diminuées par la constitution d’un masque de saisie enrichi de commandes d’auto-contrôle, liées à la nature des questions et aux modalités de réponses : des listes à choix multiples plutôt que des questions ouvertes, des échelles de minimum/maximum, un nombre fixe de positions, la saisie obligatoire, l’enrichissement contrôlé des modalités de réponses, ….. en bref une saisie contrôlée et intelligente !

Les logiciels d’enquêtes moderne offrent toutes ces fonctions.

Au delà des procédures de contrôle liées aux sources des informations d’autres actions sont essentielles et poursuivent cette étape, en s’intéressant directement au « contenu » des informations.

Même si la base est alimentée de façon automatique, il est de toute manière nécessaire de réaliser des contrôles de présence et de cohérence des données. Plus la base est importante plus un développement informatique et une automatisation de cette tâche seront utiles, en contrôlant par exemple la qualité des données par des tests de distribution et des mesures de contribution de certaines valeurs.

On peut distinguer et détailler ici trois exemples de procédures possibles :

- l’identification de valeurs aberrantes
- la prise en compte de valeurs manquantes
- la gestion de valeurs nulles

L’identification de valeurs aberrantes

Cette identification peut être réalisée principalement suivant trois méthodes :

- Isoler des « pics » de valeurs suivant une distribution statistique (pouvant masquer des saisies forcées de chiffres identiques)
- Définir un intervalle compris entre la moyenne et un certain nombre d’écarts types, puis limiter ou supprimer toutes les valeurs se trouvant à l’extérieur de cet intervalle : attention, on doit prêter attention à une procédure de ce type entraînant un nombre trop élevé de suppression, qui peut révéler un problème plus grave quant à la fiabilité de la base de données.
- Construire un score permettant, grâce à différents indicateurs statistiques, d’examiner toutes les valeurs qui contribuent à la construction de ce score. Si le niveau de contribution est anormal, on peut présupposer la présence d’une valeur aberrante à examiner plus précisément.

La prise en compte de valeurs manquantes

On peut là encore suivre 3 méthodes :

- La suppression des enregistrements incomplets : c’est une décision très radicale et restrictive, qui peut faire perdre un nombre élevé d’informations, par ailleurs tout à fait valables sur certains champs, alors que l’on pourrait envisager de remplacer ou de « réparer » ces valeurs.
- Le remplacement des valeurs : certains logiciels permettent de substituer une valeur absente par une valeur calculée, mais encore faut il s’accorder sur la méthode de ce choix : (moyenne, médiane, un calcul de score, ou une autre approche…. )
- La gestion des valeurs : certains logiciels acceptent de réaliser des calculs en l’absence de certaines valeurs, sans altérer la pertinence des traitements et des résultats, ou en les considérant comme des facteurs complémentaires d’indécision, en multipliant les cas de résolution possibles. Cela reste cependant un frein au déroulement correct de l’étude

La gestion des valeurs nulles

Elle dépend directement du principe de calcul des logiciels ensuite utilisés, et du degré de fiabilité des traitements et des résultats que cela peut induire. Il faut cependant souligner qu’une présence trop importante de valeurs nulles ou de valeurs absentes peut en fait révéler des problèmes plus généraux, liés soit au recueil des données, au système de stockage, aux règles de contrôle, à la complexité des données elles mêmes,.. et qu’il faut veiller à remonter à la source du problème.