Le redressement d'échantillons est une pratique courante dans l'univers des études et des sondages. Certains résultats ne s'envisagent d'ailleurs tout simplement pas sans le recours préalable à cette technique. C'est le cas notamment des sondages politiques, dont les valeurs sont toujours fournies après l'application de multiples calages, pour prendre en compte les répartitions socio-démographiques, les résultats des élections précédentes et d'autres ajustements plus contestables comme l'expérience du sondeur par exemple (avec les succès que l'on sait). Ce dossier vise à expliciter les objectifs et les méthodes du redressement d’échantillons, dans le domaine des études marketing.
Redresser un échantillon, pour quoi faire ?
Dans le domaine des études marketing, le redressement d'échantillons a pour objectif d'améliorer la représentativité de l'échantillon interrogé, sur un certain nombre de critères de qualification. Le principe sous-jacent est que seul un échantillon ayant la même structure que la population-mère sur les critères que l'on connaît de cette population, permet de généraliser les réponses obtenues sur les autres critères, à l'ensemble de cette population. Le redressement cherche donc à appliquer des pondérations aux individus pour augmenter le poids de ceux appartenant à des groupes sous-représentés dans l'échantillon interrogé par rapport à la population-mère, et à réduire parallèlement le poids de ceux qui sont sur-représentés.
Mais pourquoi alors ne pas interroger directement un échantillon
représentatif sur les critères souhaités ?
C'est ce que les chargés d'études cherchent à faire, lorsqu'ils
établissent des quotas que les enquêteurs doivent respecter. Mais dans
les faits, il est souvent difficile voire impossible de respecter
parfaitement ces quotas en trouvant exactement le bon nombre de
personnes dans chacune des catégories retenues. La pression économique
et les délais généralement courts n'arrangent pas les choses. Les queues
de quotas, cauchemar des chargés de terrain et superviseurs CATI
finissent par faire l'objet de compromis.
Par ailleurs, dans beaucoup d'enquêtes, il n'est pas possible de
contrôler a priori l'échantillon qui va répondre. C'est notamment le cas
dans les enquêtes auto-administrées (questionnaires postaux, en libre
service, placés sur un site internet, etc.) qui fournissent
systématiquement des échantillons non représentatifs (ceux qui ont bien
voulu répondre). C'est également le cas des enquêtes de plus en plus
fréquentes réalisées en utilisant le média Internet, même lorsqu'elles
sont menées sur des internautes recherchés et sollicités nominativement
par l'institut d'études. Dans ce cas, la structure actuelle de
pénétration du média internet dans les ménages (sur-évaluation des
jeunes et des CSP+) entraîne une difficulté à dénicher certains profils
et, par conséquent, la nécessité d'appliquer a posteriori des
pondérations sur l'échantillon obtenu.
Le redressement vient donc pallier ces difficultés. Mais il faut bien
prendre garde à un élément fondamental : des pondérations trop
importantes font courir un risque certain à la qualité des résultats.
Ainsi, il semble aberrant de donner un poids 10 fois plus important,
comme cela se pratique parfois, aux réponses de la seule personne que
l'on a réussi à interroger dans une catégorie donnée. On comprend
facilement que si les réponses d'un groupe de cadres supérieurs a des
chances de refléter en moyenne l'opinion de l'ensemble de cette
population, les opinions d'un seul d'entre eux a une probabilité
beaucoup plus faible de permettre la même extrapolation. Il est donc
important de chercher, autant que possible, à obtenir en amont des
échantillons cohérents, en ne se disant pas que de toute manière, il
suffira ensuite de redresser.
En substance, on pourrait dire que moins on a besoin de recourir aux
redressements, meilleurs sont les résultats.
Sur quelles variables redresser ?
Le choix des variables de redressement est simple en théorie mais plus
complexe dans la pratique. En effet, l'idéal serait d'utiliser toutes
les variables sur lesquelles la répartition de la population-mère est
connue de manière fiable. Ces éléments sont généralement recherchés dans
les données des recensements disponibles auprès de l'Insee, ou,
lorsqu'il s'agit d'enquêtes sur des univers spécifiques (ex : clients,
distributeurs), dans les fichiers internes disponibles.
Les difficultés sont multiples :
- La population-mère doit être définie de manière précise pour éviter de
prendre en compte des statistiques disponibles sur une population proche
mais pas identique. Ainsi la population active peut correspondre à
plusieurs définitions et délimitations. La population des jeunes peut
correspondre à des tranches d'âge différentes…
- Il faut s'assurer que les répartitions disponibles sont conformes
aux catégories utilisées dans l'enquête. Il convient pour cela
d'utiliser dans les questionnaires les rubriques standards de l'INSEE en
ce qui concerne par exemple les catégories socio-professionnelles, les
secteurs d'activité, …
- La formulation de la question renseignée pour la population-mère
doit être identique à celle posée à l'échantillon. Ainsi, la population
des personnes ayant déjà fréquenté un parc de loisir est différente de
celle qui a visité un parc de loisir depuis moins de deux ans. La
population des personnes connaissant Internet est différente de celle
des utilisateurs d'Internet…
Pour les variables numériques, les tranches doivent être identiques, et les valeurs exprimées dans la même unité statistique…
- Il faut s'assurer de la fiabilité des valeurs utilisées. L'utilisation
de statistiques anciennes peut fausser les résultats au lieu d'améliorer
leur représentativité.
- De même, le recours à des fichiers incomplets ou mal tenus peut
provoquer des biais importants. A ce titre, les professionnels qui ont
eu à gérer et à assurer la mise à jour de fichiers savent combien cette
tâche est difficile et restent sur leurs gardes, alors que les autres
sur-estiment généralement la qualité des fichiers qui leur sont fournis.
Si l'on ne prend garde dès la phase de préparation de l'enquête à ces difficultés potentielles, on risque d'être confronté ensuite à un problème insoluble.
Comment ça marche ?
Les calculs de redressement sont complexes lorsqu’il s’agit de redresser
l’échantillon sur plusieurs variables en même temps, comme c’est
généralement le cas. Moins fréquent, le redressement sur une seule
variable correspond à une simple règle de 3 : si l'on veut obtenir 55%
de femmes et 45% d'hommes, alors que la répartition dans le fichier est
de 40/60, il suffit d'appliquer à chaque femme le coefficient 55/40ème
c'est-à-dire 1,375 et à chaque homme le coefficient 45/60ème
c'est-à-dire 0,75.
En présence de plusieurs variables (ex : tranche d'âge, sexe, csp), la
règle de 3 peut également être appliquée si l'on connaît la distribution
croisée de toutes les variables entre elles. Autrement dit, cette
stratification a posteriori n'est possible que si l'on dispose d'un
tableau théorique indiquant le nombre d’individus pour chaque
combinaison de réponses de toutes les variables à redresser. Le rapport
entre l’effectif théorique divisé par l’effectif réel constitue alors le
coefficient multiplicateur à appliquer aux individus correspondants à la
combinaison.
Cette méthode n'est toutefois pas vraiment utilisée pour plusieurs
raisons :
- lorsque le nombre de variables est important, l'effectif des cases peut
être nul dans l'échantillon. Une règle de 3 utilisant la valeur 0 donne
un effectif redressé nul.
- le plus souvent, on ne dispose pas de cette répartition croisée
mais seulement des distributions marginales (répartition des individus
sur les modalités de chaque variable).
- La méthode de redressement la plus utilisée part donc des
répartitions marginales des individus sur chaque modalité de réponse et
tente, par itérations successives, de « caler » l'échantillon sur ces
marges. C'est pour cela qu'on parle généralement de « calage sur les
marges ».
Cette méthode fait appel à des calculs répétitifs qui ne sont pas complexes en soi mais nécessitent de nombreuses opérations. C'est pour cela que les redressements multi-critères ne s'envisagent généralement qu'avec l'aide de l'informatique. Les principaux packages statistiques du marché offrent ces fonctionnalités. Mais si certains nécessitent la mise en oeuvre de macros complexes réservées aux utilisateurs avancés, les derniers nés des outils d'analyse de données (STAT'Mania par exemple) guident l'utilisateur dans la définition des paramètres du redressement. Les étapes du redressement sont généralement les suivantes :
- l'utilisateur sélectionne dans la liste des variables de l'enquête,
celle qui doivent faire l'objet d'un redressement,
- le logiciel calcule les marges sur l'échantillon en cours et les
affiche,
- l'utilisateur indique, à côté de l'effectif calculé pour chaque
modalité, l'effectif cible à obtenir.
Certains outils permettent de demander une valeur totale de la population
cible différente du nombre d'individus de l'échantillon, pour permettre,
par exemple, d'obtenir un échantillon redressé ayant, d'une vague à
l'autre, exactement le même effectif.
Une fois les paramètres de redressement définis, le calcul peut être
lancé. Le logiciel procède alors par itération. Il commence par
chercher, pour chaque catégorie, le coefficient à appliquer pour
atteindre la distribution cible. Il affecte ensuite à chaque individu,
selon ses réponses à chacune des variables de redressement, une
combinaison des coefficients trouvés pour les modalités qui le
concernent. Cette opération est réïtérée sur la distribution obtenue,
jusqu'à ce que l'effectif cible de toutes les modalités soit atteint.
Mais attention : il se peut que les calculs ne permettent pas de faire converger l'échantillon interrogé vers la distribution recherchée.
Ainsi, en prenant le cas extrême d'un échantillon de 100 personnes avec
50 hommes ouvriers et 50 femmes employées, il est impossible d'obtenir
un échantillon cible présentant la répartition 40/60 pour les
hommes/femmes et 60/40 pour les ouvriers/employés. On comprend bien dans
ce cas qu'il est vain de rechercher des coefficients qui augmentent la
proportion de femmes en diminuant la proportion d'employés (puisque
toutes les femmes sont employées et tous les employés sont des
femmes).
Les redressements ne sont donc possibles (et souhaitables) qu’en tant
qu’ajustements réalisés sur des échantillons ayant une certaine
adéquation avec la population cible.
Bien préparer vos données avant tout redressement
La technique du redressement d’échantillons est utilisée pour rapprocher le fichier de données de la réalité. Les coefficients trouvés pondèrent les données dont on dispose. Mais si ces données sont fausses dès le départ, qu’elles ont été mal collectées, mal saisies, ou qu’elles comportent trop de données manquantes, il ne servira à rien de chercher à redresser.
Comme dans toute bonne recette de cuisine, on ne répétera jamais assez,
concernant l'analyse des données, que la préparation compte autant et
même peut-être davantage que la réalisation elle-même : les bons
ingrédients, au bon moment, avec des accessoires adaptés, représentent
là aussi la première garantie de réussite.
Rappelons tout d'abord le principal objectif attendu d'une analyse des
données : transformer une base d'informations, qualitatives ou
quantitatives, en décisions et plans d'actions opérationnels pour un
service, une entreprise, une organisation...
Pour y parvenir, et quelles que soient les méthodes utilisées, des plus
simples aux plus complexes, la performance de la démarche repose sur la
qualité des informations qui serviront de base aux analyses. Cette
qualité dépend de plusieurs facteurs :
- le recueil des données, en particulier selon leur origine et leur mode
de collecte. Ce recueil peut reposer sur de multiples moyens, supports
et processus, ce qui exigera des consolidations ou des liens entre
plusieurs fichiers ayant parfois des structures différentes.
- la teneur des informations, en termes de types de variables
(quanti/quali, brutes ou classifiées,….) mais également concernant les
valeurs aberrantes, manquantes ou nulles.
La phase indispensable de préparation des informations à analyser, que l'on appellera aussi « nettoyage des données », dépend de plus en plus des logiciels que l’on souhaite utiliser pour effectuer les traitements. Les formats, le mode de gestion des données nulles ou absentes, les modes de calculs, répondent à certaines contraintes, qui peuvent être différentes d'un outil à l'autre. Ces éléments doivent être bien connus et anticipés si l’on veut éviter, lors du traitement, les surprises éventuelles et les erreurs de raisonnement et de calcul qui pourraient en découler.
Les contrôles initiaux lors de l’acquisition des données
La meilleure manière de s’assurer que l’on dispose de données de qualité
consiste à contrôler à la source, lorsque cela est possible, le
processus d’acquisition et éventuellement de consolidation des
données.
Mais avant d’évoquer ces processus, il convient de rappeler que la
qualité des données est d’abord conditionnée par la qualité du terrain.
Des questions mal posées, des cibles mal choisies ou des enquêteurs mal
briefés peuvent fournir des données erronées qu’il ne sert à rien de
chercher à optimiser.
Concernant l’acquisition elle-même, certains instituts réalisent, sur les
données des enquêtes saisies en interne, une deuxième saisie
(double-saisie), permettant, par comparaison des deux fichiers obtenus,
de mettre en évidences d’éventuelles erreurs de recopiage de la réponse
inscrite sur le questionnaire.
Cette méthode est très efficace, dans la mesure où la probabilité que
deux personnes différentes se trompent de la même manière, au même
endroit, est très faible. Elle se justifie également lorsque la saisie
est encore faite “au kilomètre”, dans des outils de saisie ne permettant
pas de réaliser des contrôles avancés.
Toutefois, son caractère fastidieux et long fait qu’elle est de plus en
plus rarement employée, notamment par les utilisateurs finaux dans les
services études des entreprises.
Heureusement, les principales erreurs de frappe peuvent être
considérablement diminuées par la constitution d'un masque de saisie
enrichi de commandes d'auto-contrôle, liées à la nature des questions et
aux modalités de réponses : des listes à choix multiples plutôt que des
questions ouvertes, des échelles de minimum/maximum, un nombre fixe de
positions, la saisie obligatoire, l'enrichissement contrôlé des
modalités de réponses, ….. en bref une saisie contrôlée et intelligente
!
Les fonctions des logiciels d'enquête
Les logiciels d’enquêtes modernes offrent toutes ces fonctions
Au delà des procédures de contrôle liées aux sources des informations
d'autres actions sont essentielles et poursuivent cette étape, en
s'intéressant directement au "contenu" des informations.
Même si la base est alimentée de façon automatique, il est de toute
manière nécessaire de réaliser des contrôles de présence et de cohérence
des données. Plus la base est importante plus un développement
informatique et une automatisation de cette tâche seront utiles, en
contrôlant par exemple la qualité des données par des tests de
distribution et des mesures de contribution de certaines valeurs.
On peut distinguer et détailler ici trois exemples de procédures
possibles :
- l'identification de valeurs aberrantes
- la prise en compte de valeurs manquantes
- la gestion de valeurs nulles
L'identification de valeurs aberrantes
Cette identification peut être réalisée principalement suivant 3 méthodes :
- Isoler des "pics" de valeurs suivant une distribution statistique
(pouvant masquer des saisies forcées de chiffres identiques)
- Définir un intervalle compris entre la moyenne et un certain
nombre d'écarts types, puis limiter ou supprimer toutes les valeurs se
trouvant à l'extérieur de cet intervalle : attention, on doit prêter
attention à une procédure de ce type entraînant un nombre trop élevé de
suppression, qui peut révéler un problème plus grave quant à la
fiabilité de la base de données.
- Construire un score permettant, grâce à différents indicateurs
statistiques, d'examiner toutes les valeurs qui contribuent à la
construction de ce score. Si le niveau de contribution est anormal, on
peut présupposer la présence d'une valeur aberrante à examiner plus
précisément.
La prise en compte de valeurs manquantes
On peut là encore suivre 3 méthodes :
- La suppression des enregistrements incomplets : c'est une décision très
radicale et restrictive, qui peut faire perdre un nombre élevé
d'informations, par ailleurs tout à fait valables sur certains champs,
alors que l'on pourrait envisager de remplacer ou de "réparer" ces
valeurs.
- Le remplacement des valeurs : certains logiciels permettent de
substituer une valeur absente par une valeur calculée, mais encore faut
il s'accorder sur la méthode de ce choix : (moyenne, médiane, un calcul
de score, ou une autre approche…. )
- La gestion des valeurs : certains logiciels acceptent de réaliser
des calculs en l'absence de certaines valeurs, sans altérer la
pertinence des traitements et des résultats, ou en les considérant comme
des facteurs complémentaires d'indécision, en multipliant les cas de
résolution possibles. Cela reste cependant un frein au déroulement
correct de l'étude
La gestion des valeurs nulles
Elle dépend directement du principe de calcul des logiciels ensuite utilisés, et du degré de fiabilité des traitements et des résultats que cela peut induire. Il faut cependant souligner qu'une présence trop importante de valeurs nulles ou de valeurs absentes peut en fait révéler des problèmes plus généraux, liés soit au recueil des données, au système de stockage, aux règles de contrôle, à la complexité des données elles mêmes,.. et qu'il faut veiller à remonter à la source du problème.