Dernier numéro de Survey Magazine

Redressement d’échantillons : Comment ça marche ?

database

Les calculs de redressement sont complexes lorsqu’il s’agit de redresser l’échantillon sur plusieurs variables en même temps, comme c’est généralement le cas. Moins fréquent, le redressement sur une seule variable correspond à une simple règle de 3 : si l’on veut obtenir 55% de femmes et 45% d’hommes, alors que la répartition dans le fichier est de 40/60, il suffit d’appliquer à chaque femme le coefficient 55/40ème c’est-à-dire 1,375 et à chaque homme le coefficient 45/60ème c’est-à-dire 0,75.

En présence de plusieurs variables (ex : tranche d’âge, sexe, csp), la règle de 3 peut également être appliquée si l’on connaît la distribution croisée de toutes les variables entre elles. Autrement dit, cette stratification a posteriori n’est possible que si l’on dispose d’un tableau théorique indiquant le nombre d’individus pour chaque combinaison de réponses de toutes les variables à redresser. Le rapport entre l’effectif théorique divisé par l’effectif réel constitue alors le coefficient multiplicateur à appliquer aux individus correspondants à la combinaison.

Cette méthode n’est toutefois pas vraiment utilisée pour plusieurs raisons :


- lorsque le nombre de variables est important, l’effectif des cases peut être nul dans l’échantillon. Une règle de 3 utilisant la valeur 0 donne un effectif redressé nul.
- le plus souvent, on ne dispose pas de cette répartition croisée mais seulement des distributions marginales (répartition des individus sur les modalités de chaque variable).

La méthode de redressement la plus utilisée part donc des répartitions marginales des individus sur chaque modalité de réponse et tente, par itérations successives, de « caler » l’échantillon sur ces marges. C’est pour cela qu’on parle généralement de « calage sur les marges ».

Cette méthode fait appel à des calculs répétitifs qui ne sont pas complexes en soi mais nécessitent de nombreuses opérations. C’est pour cela que les redressements multi-critères ne s’envisagent généralement qu’avec l’aide de l’informatique. Les principaux packages statistiques du marché offrent ces fonctionnalités. Mais si certains nécessitent la mise en oeuvre de macros complexes réservées aux utilisateurs avancés, les derniers nés des outils d’analyse de données (STAT’Mania par exemple) guident l’utilisateur dans la définition des paramètres du redressement. Les étapes du redressement sont généralement les suivantes :


- l’utilisateur sélectionne dans la liste des variables de l’enquête, celle qui doivent faire l’objet d’un redressement,
- le logiciel calcule les marges sur l’échantillon en cours et les affiche,
- l’utilisateur indique, à côté de l’effectif calculé pour chaque modalité, l’effectif cible à obtenir.

Certains outils permettent de demander une valeur totale de la population cible différente du nombre d’individus de l’échantillon, pour permettre, par exemple, d’obtenir un échantillon redressé ayant, d’une vague à l’autre, exactement le même effectif.

Une fois les paramètres de redressement définis, le calcul peut être lancé. Le logiciel procède alors par itération. Il commence par chercher, pour chaque catégorie, le coefficient à appliquer pour atteindre la distribution cible. Il affecte ensuite à chaque individu, selon ses réponses à chacune des variables de redressement, une combinaison des coefficients trouvés pour les modalités qui le concernent. Cette opération est réïtérée sur la distribution obtenue, jusqu’à ce que l’effectif cible de toutes les modalités soit atteint.

Mais attention : il se peut que les calculs ne permettent pas de faire converger l’échantillon interrogé vers la distribution recherchée.

Ainsi, en prenant le cas extrême d’un échantillon de 100 personnes avec 50 hommes ouvriers et 50 femmes employées, il est impossible d’obtenir un échantillon cible présentant la répartition 40/60 pour les hommes/femmes et 60/40 pour les ouvriers/employés. On comprend bien dans ce cas qu’il est vain de rechercher des coefficients qui augmentent la proportion de femmes en diminuant la proportion d’employés (puisque toutes les femmes sont employées et tous les employés sont des femmes).

Les redressements ne sont donc possibles (et souhaitables) qu’en tant qu’ajustements réalisés sur des échantillons ayant une certaine adéquation avec la population cible.